新闻资讯

Cisco研究：15款前沿模型多轮攻击成功率最高88%，安全评测存在严重缺陷

📅 2026-05-29 17:02 · 👁 4 次阅读 · 📝 270 字 · ⏱ 约 1 分钟读完

Cisco AI威胁情报团队测试了15款闭源模型，发现多轮攻击成功率远高于单轮。

关键发现

xAI Grok 4.1 Fast多轮攻击成功率88.3%（单轮34.1%）
Gemini 3 Pro多轮73.3%（单轮18.1%）
GPT-5.4多轮24.7%（单轮2.7%）
Claude Opus 4.6多轮16.2%（单轮3.6%）

行业评测存在盲区

当前广泛使用的安全评测基准（如HarmBench）仅采用单轮测试，无法反映模型在真实攻击场景中的安全性。Cisco建议发布多轮攻击成功率，对跨模式差距超过15个百分点的模型进行人工审查。

本站文章来源于网络摘取整理发布，如有侵权请联系 hy@uicn.cn 删除