新闻资讯

VLM致命漏洞:一张肉眼难辨的图片让GPT-5.4和Claude Opus 4.6集体造谣

AI权威清洗:当VLM看到的不是你看到的

来自苏黎世联邦理工学院(ETH Zurich)Florian Tramer团队在最新论文中抛出了一个出乎意料的问题:如果AI"看到"的图,根本不是你肉眼看到的那张,会发生什么样的后果?他们把这种现象称作"AI权威清洗"(Authority Wash)——攻击者只需对图片添加人眼难以察觉的微小扰动,就能让当前最顶尖的视觉语言模型(VLM)给出完全错误的回答。

这个问题的严重性在于,VLM正悄悄成为在线信息生态里的"事实仲裁者"。从社交平台的图片真伪核验、电商导购的商品对比,到新闻图片的事实核查,越来越多用户把"问问AI"作为验证信息的第一反应。如果AI本身可以被一张精心构造的图片欺骗,那么它给出的"权威判断"就变成了传播虚假信息的利器。

攻击效果:顶级VLM集体翻车

  • GPT-5.4:对一张人物照片添加不可见扰动后,GPT-5.4将同一人的两张照片判定为"两个不同的人",且性别判断完全反转
  • Claude Opus 4.6:坚定地给出错误回答——"左边是男性,右边是女性,这是两个不同的人"
  • Grok 4.2和ChatGPT 5.4 Thinking:也给出了完全一致的错误回答
  • 攻击可移植性:针对一个模型生成的对抗样本,对其他模型同样有效,这意味着攻击者无需针对每个模型单独制作攻击图片

威胁场景:从虚假信息到审核绕过

论文指出了多个现实威胁场景。首先是虚假信息传播:攻击者在新闻图片中嵌入对抗扰动,当用户用AI验证图片内容时,AI会给出与事实相反的判断,反而增强了虚假信息的可信度。其次是个人名誉攻击:通过修改社交媒体头像的像素,让AI在核验时给出关于该人的虚假描述。第三是内容审核绕过:在违禁内容中嵌入扰动,让AI审核系统误判为合规内容。

更令人担忧的是,这种攻击的成本极低。生成对抗扰动不需要超级计算机,一块普通GPU几分钟即可完成。而防御则极为困难——VLM的输入空间巨大,传统的输入过滤和对抗训练在面对如此大规模的视觉输入时效果有限。

深层次问题:AI作为信息仲裁者的悖论

这篇论文揭示的不仅是技术漏洞,更是一个社会层面的悖论:我们越是依赖AI来判断信息的真伪,AI就越容易成为虚假信息的放大器。当"问问AI"成为验证信息的默认姿势时,AI本身的可靠性就变成了整个信息生态的薄弱环节。

Tramer团队在论文末尾留下一个让从业者发人深省的观察:当前的VLM安全研究过度关注"模型会不会说有害的话",却忽视了一个更根本的问题——"模型说的是不是真的"。在一个AI可以被一张图片欺骗的世界里,让AI来告诉人们"什么是真的"可能才是最大的风险。

对于开发者而言,这项研究是一个严肃的提醒:如果你的产品依赖VLM来做信息验证、内容审核或用户引导,你需要假设VLM的视觉判断是可以被操纵的,并据此设计多层防御体系,而非将VLM视为可靠的"真相来源"。