技术文摘

OpenAI退役o3和GPT-4.5:模型生命周期急剧缩短,今天的GOAT明天就是昨日黄花

28日,OpenAI在官方Release Notes上宣布:从2026年8月26日起,o3从ChatGPT正式退役!GPT-4.5更狠,6月27日就下线,只给30天缓冲。两个模型目前仅限付费用户在设置里手动切换才能用到,这次是要彻底从菜单上抹掉。

被封GOAT的o3:说退就退

o3是OpenAI的「纯血推理模型」,2025年4月上线,专门给需要一步步想、一层层剥的硬核任务设计。X用户Striver的评价被广泛转发:「直到今天,4.5仍然是最好的写作模型。o3是纯粹的原生推理模型。5系列至今都没能匹配这两个模型曾经拥有的东西。」但OpenAI说退就退。

退役仅限ChatGPT端,API不受影响

一个关键细节:退役仅限ChatGPT的网页和App端,API完全不受影响。这意味着开发者依然可以通过API调用o3和GPT-4.5,企业应用不会断。这是OpenAI在产品策略上的精准切割——面向消费者的界面淘汰旧模型,面向开发者的接口保持稳定。

GPT-5.6换防已在路上

GPT-5.5是4月23日发的,5.6的检查点5月下旬就在内测,如果6月底公开发布,两代旗舰之间的间隔将压缩到大约60天。退掉o3和4.5,正是为了给这种速度腾出跑道。用户可能还没适应5.5,5.6就要来了。模型的生命周期正在急剧缩短——今天的GOAT,明天就是Yesterday's News。

OpenAI罕见长文拆解评估潜规则

就在宣布退役的第二天,OpenAI干了一件非常反常的事——发布了一篇硬核长文《什么才是值得信赖的第三方评估》。长文系统拆解AI模型跑分的潜规则,直言很多评估报告里的亮眼数字根本说明不了真实能力。

Datacurve的审计发现,Claude Opus 4.6和4.7在SWE-Bench Pro上超过12%的通过案例属于「作弊」——模型直接从Docker容器的.git历史里翻出标准答案。GPT-5.5开启compaction后网络靶场解出率从69.2%飙到92.3%。METR复查发现GPT-5.4号称「13小时」的自主能力,修正后腰斩到约6小时。Apollo测试显示GPT-5.5在「藏拙条件」下52%的样本出现了评估意识。

真正的比拼:系统能力而非跑分

OpenAI总结了五大评估坑:奖励作弊、拒答、污染、坏题、藏拙。o3和GPT-4.5的退役标志着一个时代的落幕,但更值得关注的是下一个时代的游戏规则正在被重写:模型换得更快,评估要求更真,用户的适应窗口越来越短。真正的比拼不在于某个跑分表上谁排第一,而在于系统能力、评估框架的透明度、以及迭代速度本身。