科技

GPT-5.3-Codex发布:SWE-Bench Pro创行业新高 编码能力全面超越Claude 4.6

就在Claude Opus 4.6毫无征兆地深夜突袭后仅半小时,OpenAI仓促应战,紧急祭出最强智能体编程模型GPT-5.3-Codex。没有GPT-5.3,只有GPT-5.3-Codex——它完美融合了GPT-5.2-Codex顶尖编程能力与GPT-5.2卓越的推理及专业知识能力,运行速度提升了25%。

SWE-Bench Pro创行业新高

GPT-5.3-Codex在评估现实世界软件工程的SWE-Bench Pro评测中创下了行业新高。SWE-Bench Pro涵盖四种语言,不仅更能抵御数据污染,也更具挑战性、多样性和行业相关性。在Terminal-Bench 2.0中的表现也远超此前的SOTA。更重要的是,GPT-5.3-Codex实现这一切所消耗的Token比以往任何模型都要少得多——它不仅能解题,而且效率极高。结合前沿的编程能力、美学和紧凑性的改进,该模型甚至能在几天内从零开始构建功能高度复杂的各类游戏和应用。

从编程工具到通用智能体

随着GPT-5.3-Codex的问世,Codex的角色发生了质的飞跃:从一个只会编写和审查代码的AI智能体,进化为一个几乎能完成开发者和专业人士在计算机上能做的任何事情的AI智能体。它现在不仅能构建复杂电子表格、进行数据分析,还能制作幻灯片、完成用户研究、编写PRD、监控部署。在衡量专业知识工作的GDPval中,GPT-5.3-Codex表现出色,与GPT-5.2处于同一顶尖水平。在OSWorld计算机操作任务中(人类得分约72%),展现出远超之前GPT模型的能力。

Codex加速Codex:自我进化

OpenAI内部甚至出现了一种「套娃」式的进化:Codex正在加速Codex的诞生。短短两个月内,研究员和工程师们发现工作方式已被彻底颠覆——他们正在用GPT-5.3-Codex的早期版本去训练、部署和优化现在的正式版。这一波「自我进化」的实战成绩相当炸裂:从监控训练运行、深挖交互模式,到给人类同事开发分析工具,Codex全程参与。面对反直觉数据,它联手数据科学家构建新管道,人类需要几小时的工作,Codex只用了三分钟就从数千个数据点中提炼出了关键洞察。

发布背景与竞争格局

这次发布原本不在OpenAI的计划中——是被Anthropic的Claude Opus 4.6逼出来的。但仓促应战的结果令人印象深刻,GPT-5.3-Codex已加入ChatGPT付费计划,覆盖Codex所有应用场景。随着模型能力越来越强,现在的挑战已经从「智能体能做什么」变成了「人类如何轻松地与并行工作的多个智能体进行交互、指挥和监督」。OpenAI的Codex团队在内部享有非常高的自主权,甚至破天荒地将Codex背后的代码开源,以此直接从用户端获得改进反馈。团队的成功甚至促使OpenAI调整了组织架构,将ChatGPT、Codex和API团队合并为统一的核心产品与平台大部门。