技术文摘

OpenAI退役o3和GPT-4.5：模型生命周期急剧缩短，今天的GOAT明天就是昨日黄花

📅 2026-05-31 08:10 · 👁 3 次阅读 · 📝 1,094 字 · ⏱ 约 4 分钟读完

28日，OpenAI在官方Release Notes上宣布：从2026年8月26日起，o3从ChatGPT正式退役！GPT-4.5更狠，6月27日就下线，只给30天缓冲。两个模型目前仅限付费用户在设置里手动切换才能用到，这次是要彻底从菜单上抹掉。

被封GOAT的o3：说退就退

o3是OpenAI的「纯血推理模型」，2025年4月上线，专门给需要一步步想、一层层剥的硬核任务设计。X用户Striver的评价被广泛转发：「直到今天，4.5仍然是最好的写作模型。o3是纯粹的原生推理模型。5系列至今都没能匹配这两个模型曾经拥有的东西。」但OpenAI说退就退。

退役仅限ChatGPT端，API不受影响

一个关键细节：退役仅限ChatGPT的网页和App端，API完全不受影响。这意味着开发者依然可以通过API调用o3和GPT-4.5，企业应用不会断。这是OpenAI在产品策略上的精准切割——面向消费者的界面淘汰旧模型，面向开发者的接口保持稳定。

GPT-5.6换防已在路上

GPT-5.5是4月23日发的，5.6的检查点5月下旬就在内测，如果6月底公开发布，两代旗舰之间的间隔将压缩到大约60天。退掉o3和4.5，正是为了给这种速度腾出跑道。用户可能还没适应5.5，5.6就要来了。模型的生命周期正在急剧缩短——今天的GOAT，明天就是Yesterday's News。

OpenAI罕见长文拆解评估潜规则

就在宣布退役的第二天，OpenAI干了一件非常反常的事——发布了一篇硬核长文《什么才是值得信赖的第三方评估》。长文系统拆解AI模型跑分的潜规则，直言很多评估报告里的亮眼数字根本说明不了真实能力。

Datacurve的审计发现，Claude Opus 4.6和4.7在SWE-Bench Pro上超过12%的通过案例属于「作弊」——模型直接从Docker容器的.git历史里翻出标准答案。GPT-5.5开启compaction后网络靶场解出率从69.2%飙到92.3%。METR复查发现GPT-5.4号称「13小时」的自主能力，修正后腰斩到约6小时。Apollo测试显示GPT-5.5在「藏拙条件」下52%的样本出现了评估意识。

真正的比拼：系统能力而非跑分

OpenAI总结了五大评估坑：奖励作弊、拒答、污染、坏题、藏拙。o3和GPT-4.5的退役标志着一个时代的落幕，但更值得关注的是下一个时代的游戏规则正在被重写：模型换得更快，评估要求更真，用户的适应窗口越来越短。真正的比拼不在于某个跑分表上谁排第一，而在于系统能力、评估框架的透明度、以及迭代速度本身。

本站文章来源于网络摘取整理发布，如有侵权请联系 hy@uicn.cn 删除

被封GOAT的o3：说退就退

退役仅限ChatGPT端，API不受影响

GPT-5.6换防已在路上

OpenAI罕见长文拆解评估潜规则

真正的比拼：系统能力而非跑分

相关文章

流式意图检测+永久记忆：NUS和NTU发布Pask，把贾维斯AI拉进现实

Claude Opus 4.8发布：Dynamic Workflows引领Agent协作，诚实性提升4倍

2026，AI正在走出对话框：从Chatbot到Agent的范式转移