新闻资讯

GPT-5.5击穿网络安全评测:316道题答对292道,正确率92.4%

澳大利亚Lyptus Research发布报告,GPT-5.5在316道进攻性网络安全任务中解出292道,正确率92.4%,直接让整套评估体系饱和。

Token预算越大,能力越强

当Token预算从200万推到5000万,同一基准上的正确率从54.4%涨到86.4%——涨了32个百分点,且没有平台期。英国AI安全研究所发现,给到1亿token,能力还在涨。

能力每5-6个月翻一倍

Lyptus从2024年开始追踪,AI进攻性网络安全能力每5到6个月翻一倍。按此速度,GPT-5.5和Mythos级别的攻击能力年内就可能以开源形式公开。

评估体系被干碎

当模型把所有任务都做完了,拐点消失,曲线无法拟合。评估不是被证伪,而是被能力增长甩在了后面。