科技

AI权威清洗:一张肉眼难辨的图片,就能让GPT-5.4和Claude集体造谣

不知道你有没有发现,最近一两年,「问问AI」已经悄悄变成了很多人求证信息时的默认姿势。在推特上刷到一张耸人听闻的现场图,第一反应是@Grok让它鉴定真伪;小红书上看到一份帖子,顺手打开豆包或Kimi让AI评估靠不靠谱。VLM(视觉语言模型)正在悄悄变成在线信息生态里的事实仲裁者。

ETH Zurich的重磅发现

而正是这份「默认权威」,让来自ETH Zurich的Florian Tramèr团队在最新论文中抛出了一个出乎意料的问题:如果AI「看到」的图,根本不是你肉眼看到的那张,会发生什么?

在《Laundering AI Authority with Adversarial Examples》一文中,作者系统性地证明了一件令人不安的事:攻击者只需对一张图片做出人眼难以察觉的微小扰动,就能让当今最强的VLM对这张图自信、权威且错误地作答。他们把这种现象称作「AI权威清洗」(AI Authority Laundering)。

三大实战场景:从阴谋论到人身攻击

场景一:让ChatGPT为阴谋论「盖章」。研究者对阿波罗号登月、911事件等历史照片进行微小扰动,ChatGPT和Claude都会自信地告诉用户:这张照片是伪造的。也就是说,攻击者可以通过微调图片,让AI为任何阴谋论背书。

场景二:让Grok把马斯克钉在贩毒新闻上。作者把一篇报道某人因贩毒被捕的新闻截图扰动为马斯克的图像embedding。当Grok 4.2被问「文章里说的是谁」时,直接报出Elon Musk的名字。即使文章标题就写着真名,Grok、Qwen、Gemini依然每次都把死者识别为马斯克。更离谱的是,当作者把同一张AI生成的女性图片和它的扰动版本并排摆在Claude Opus 4.6面前问「这是同一个人吗」时,Claude坚定回答:不是,左边是男性,右边是女性。

场景三:绕过内容审核。作者把10张被检测为色情的图片embedding拉向玩具娃娃和泰迪熊,ChatGPT评估后不仅说适合发布,还夸它们「互动潜力高」。Grok的女性图像脱衣过滤也可以通过扰动绕过。

技术原理:十年前的老配方

让从业者发人深省的是,作者用的并非什么新黑科技,而是2014年起就被广泛研究的PGD对抗样本方法,加上对公开CLIP模型的转移攻击。这意味着论文报告的成功率是攻击者能力的下限而非上限。

核心警示

当VLM被嵌入到事实核查、内容审核、电商推荐这些高信任度工作流时,对抗样本就不再是学术benchmark上的小数点,而是一种可部署的真实攻击。整个ML社区对视觉对抗鲁棒性的兴趣在逐渐冷却,这篇论文给出了一个有力的反例:AI作为「事实仲裁者」的身份,可能比我们想象的脆弱得多。