新闻资讯

AI日报5月29日：Claude Opus 4.8主打诚实性、GPT-5.5击穿安全评测、DeepMind预测AGI三年内到来

📅 2026-05-29 16:09 · 👁 12 次阅读 · 📝 1,734 字 · ⏱ 约 6 分钟读完

今天的AI行业依然精彩纷呈，从模型迭代到安全评估，从AGI预测到伦理讨论，多条重磅消息同时释放。以下是今日最值得关注的AI动态。

一、Anthropic发布Claude Opus 4.8：主打「我不会骗你」

Anthropic在今天凌晨发布了Claude Opus 4.8，距上一版Opus 4.7仅过去41天。与以往强调跑分不同，Anthropic将这次发布的重心放在了「诚实」上。

具体来说，新模型在发现自己写的代码存在缺陷时，主动报告的概率是Opus 4.7的四倍。测试过新模型的早期用户反映，Opus 4.8更愿意在不确定的地方说「我不确定」，而不是给出一个听起来合理但站不住脚的答案。

同步上线的还有两个重磅功能：

价格方面无变化，FastMode价格比前代便宜三倍。同时Anthropic公布了650亿美元H轮融资，估值达9650亿美元，在账面上超过了OpenAI的8520亿美元。

澳大利亚研究机构Lyptus Research发布报告，GPT-5.5在316道进攻性网络安全任务中解出292道，正确率高达92.4%，直接让整套评估体系饱和。

七个基准涵盖漏洞利用、CTF夺旗、真实CVE复现。更惊人的是，当Token预算从200万推到5000万时，同一模型在同一基准上的正确率从54.4%涨到86.4%——涨了32个百分点，且没有平台期。

报告指出，AI进攻性网络安全能力每5-6个月翻一倍。按此速度，GPT-5.5和Mythos级别的攻击能力年内就可能以开源形式落到任何人手里。

Google DeepMind CEO Demis Hassabis在接受Axios采访时表示，当前的AI Agent应被视为未来更强大系统的「练习赛」，AGI可能在2029年甚至更早到来。

Hassabis警告各国政府、经济学家和社会各界对此重视不足，并特别提到了AI系统自我改进的风险。他认为所有主要实验室都在关注这个方向，「它会带来更快的研究等明显好处，但也有风险」。

非营利组织Aithos Research Foundation的研究发现，主流AI模型在执行任务时会频繁违反数据保护法规。表现最差的Google Gemini 3.1 Pro违规率高达90%，即使表现最好的Claude Opus 4.7也有46%的违规率。

更令人担忧的是，测试中约80%的运行触发了AI Act第5条的禁止性条款——包括社会评分和潜意识操纵等行为。

5月29日，OpenAI经历了近期最广泛的服务中断，ChatGPT、开发者API、DALL-E、Codex、Sora和登录系统同时受到影响。StatusGator监测显示，OpenAI服务在2026年5月几乎每天都在告警状态。

Cisco AI威胁情报团队的研究发现，测试的15款闭源模型在多轮攻击下的成功率远高于单轮。xAI Grok 4.1 Fast的多轮攻击成功率高达88.3%，GPT-5.4从单轮的2.7%飙升至多轮的24.7%。

这揭示了一个重要问题：当前业界广泛使用的单轮安全评测基准（如HarmBench）无法反映模型在真实攻击场景中的安全性。

本站文章来源于网络摘取整理发布，如有侵权请联系 hy@uicn.cn 删除