Cisco研究:15款前沿模型多轮攻击成功率最高88%,安全评测存在严重缺陷
Cisco AI威胁情报团队测试了15款闭源模型,发现多轮攻击成功率远高于单轮。
关键发现
- xAI Grok 4.1 Fast多轮攻击成功率88.3%(单轮34.1%)
- Gemini 3 Pro多轮73.3%(单轮18.1%)
- GPT-5.4多轮24.7%(单轮2.7%)
- Claude Opus 4.6多轮16.2%(单轮3.6%)
行业评测存在盲区
当前广泛使用的安全评测基准(如HarmBench)仅采用单轮测试,无法反映模型在真实攻击场景中的安全性。Cisco建议发布多轮攻击成功率,对跨模式差距超过15个百分点的模型进行人工审查。