新闻资讯

Cisco研究:15款前沿模型多轮攻击成功率最高88%,安全评测存在严重缺陷

Cisco AI威胁情报团队测试了15款闭源模型,发现多轮攻击成功率远高于单轮。

关键发现

  • xAI Grok 4.1 Fast多轮攻击成功率88.3%(单轮34.1%)
  • Gemini 3 Pro多轮73.3%(单轮18.1%)
  • GPT-5.4多轮24.7%(单轮2.7%)
  • Claude Opus 4.6多轮16.2%(单轮3.6%)

行业评测存在盲区

当前广泛使用的安全评测基准(如HarmBench)仅采用单轮测试,无法反映模型在真实攻击场景中的安全性。Cisco建议发布多轮攻击成功率,对跨模式差距超过15个百分点的模型进行人工审查。