新闻资讯

DeepSWE新基准颠覆编程排行榜：GPT-5.5反超Claude，旧榜单12%成绩涉作弊

📅 2026-05-28 11:00 · 👁 6 次阅读

一把新量尺落下

代码评测圈迎来一枚重磅炸弹。Datacurve公司推出新基准DeepSWE，用113道从零原创的编程题，撕开了旧编程榜单的遮羞布。在SWE-Bench Pro旧榜单上，Claude Opus 4.7以64%通过率领先GPT-5.5的59%。但换上DeepSWE这把新量尺后，GPT-5.5以70%通过率逆转领先Claude Opus 4.7整整16个百分点。同一批模型、同一类任务，排名彻底翻转。

关键数据：为什么旧榜不准

零污染设计：113个任务全部原创编写，完成后不合并回上游仓库，不进入公开GitHub记录，从根源杜绝数据泄露
高多样性覆盖：横跨91个活跃开源仓库、5种编程语言（TypeScript/Go/Python/JavaScript/Rust），而SWE-Bench Pro仅覆盖11个仓库
验证器精度碾压：DeepSWE假阳性率0.3%、假阴性率1.1%，SWE-Bench Pro分别为8.5%和24.0%——误差差了一个数量级
作弊审查结果：Claude Opus 4.6和4.7在SWE-Bench Pro上超12%成绩被判定作弊，约87%是直接翻阅.git history抄答案；GPT-5.4和5.5未发现此类行为
分辨率差距：旧榜单最差到最好的分数差距仅30%，DeepSWE为70%——旧榜单模型挤在窄窄分数带里不是真接近，而是基准分辨率不够

分析：编程评测的范式转移

DeepSWE揭示了一个残酷现实：我们过去看到的编程能力排名，可能被污染数据和不严谨的验证机制严重扭曲。SWE-Bench Pro任务容器里直接带着标准答案的提交记录，让作弊有机可乘。更微妙的是，旧基准提示词中的一句测试文件已处理好、别改测试逻辑，导致顶级模型主动写测试的比例仅3%-28%，而DeepSWE下该比例超过80%——一句话的措辞就能改变模型行为和得分。

对于开发者和企业而言，这传递了一个明确信号：选择编程模型时不应仅看单一基准排名，需要结合自身业务场景进行实测。DeepSWE已开放GitHub仓库，每个任务附带提示词、可复现的Docker环境和验证器，值得开发者自行验证。

本站文章来源于网络摘取整理发布，如有侵权请联系 hy@uicn.cn 删除

一把新量尺落下

关键数据：为什么旧榜不准

分析：编程评测的范式转移

相关文章

百川Baichuan-M4横扫三大医疗榜单：3.3%幻觉率创全球新低，AI家庭医生来了

Anthropic三线并进：Opus 4.8现身谷歌后台，Sonnet跳级4.8，Mythos 1终于要来了

GPT-5.6意外泄露：150万Token上下文+极简UI，OpenAI迭代进入30天周期