科技

AI权威清洗：一张肉眼难辨的图片，就能让GPT-5.4和Claude集体造谣

📅 2026-05-31 14:53 · 👁 2 次阅读 · 📝 1,129 字 · ⏱ 约 4 分钟读完

不知道你有没有发现，最近一两年，「问问AI」已经悄悄变成了很多人求证信息时的默认姿势。在推特上刷到一张耸人听闻的现场图，第一反应是@Grok让它鉴定真伪；小红书上看到一份帖子，顺手打开豆包或Kimi让AI评估靠不靠谱。VLM（视觉语言模型）正在悄悄变成在线信息生态里的事实仲裁者。

ETH Zurich的重磅发现

而正是这份「默认权威」，让来自ETH Zurich的Florian Tramèr团队在最新论文中抛出了一个出乎意料的问题：如果AI「看到」的图，根本不是你肉眼看到的那张，会发生什么？

在《Laundering AI Authority with Adversarial Examples》一文中，作者系统性地证明了一件令人不安的事：攻击者只需对一张图片做出人眼难以察觉的微小扰动，就能让当今最强的VLM对这张图自信、权威且错误地作答。他们把这种现象称作「AI权威清洗」（AI Authority Laundering）。

三大实战场景：从阴谋论到人身攻击

场景一：让ChatGPT为阴谋论「盖章」。研究者对阿波罗号登月、911事件等历史照片进行微小扰动，ChatGPT和Claude都会自信地告诉用户：这张照片是伪造的。也就是说，攻击者可以通过微调图片，让AI为任何阴谋论背书。

场景二：让Grok把马斯克钉在贩毒新闻上。作者把一篇报道某人因贩毒被捕的新闻截图扰动为马斯克的图像embedding。当Grok 4.2被问「文章里说的是谁」时，直接报出Elon Musk的名字。即使文章标题就写着真名，Grok、Qwen、Gemini依然每次都把死者识别为马斯克。更离谱的是，当作者把同一张AI生成的女性图片和它的扰动版本并排摆在Claude Opus 4.6面前问「这是同一个人吗」时，Claude坚定回答：不是，左边是男性，右边是女性。

场景三：绕过内容审核。作者把10张被检测为色情的图片embedding拉向玩具娃娃和泰迪熊，ChatGPT评估后不仅说适合发布，还夸它们「互动潜力高」。Grok的女性图像脱衣过滤也可以通过扰动绕过。

技术原理：十年前的老配方

让从业者发人深省的是，作者用的并非什么新黑科技，而是2014年起就被广泛研究的PGD对抗样本方法，加上对公开CLIP模型的转移攻击。这意味着论文报告的成功率是攻击者能力的下限而非上限。

核心警示

当VLM被嵌入到事实核查、内容审核、电商推荐这些高信任度工作流时，对抗样本就不再是学术benchmark上的小数点，而是一种可部署的真实攻击。整个ML社区对视觉对抗鲁棒性的兴趣在逐渐冷却，这篇论文给出了一个有力的反例：AI作为「事实仲裁者」的身份，可能比我们想象的脆弱得多。

本站文章来源于网络摘取整理发布，如有侵权请联系 hy@uicn.cn 删除

ETH Zurich的重磅发现

三大实战场景：从阴谋论到人身攻击

技术原理：十年前的老配方

核心警示

相关文章

OpenAI Codex登陆Windows：Computer Use实测与Mac版差距

阿里百炼CLI开源+Qoder Cloud Agents：Agent上线从1个月缩至1天

ClickUp裁员22%百万年薪招AI人才：AI原生组织的残酷法则