科技

GPT-5.5 Instant发布:幻觉率降52.5% 数学能力暴涨 成ChatGPT默认模型

6月8日,OpenAI正式发布了GPT-5.5 Instant,将其设为ChatGPT的默认模型,取代此前的GPT-5.3 Instant,面向所有用户开放。Instant系列是ChatGPT的日常主力模型,每天有数以亿计的用户在使用,新版本在准确性、简洁性和个性化能力上都有明显提升。

幻觉率大幅下降

GPT-5.5 Instant最引人注目的改进在于准确性的提升,尤其在高风险领域表现突出。内部测试显示,新模型在医疗、法律、金融类问题上的幻觉率较上一版本下降了52.5%。对用户此前标记过的错误对话,错误率也减少了37.3%。这一改进对于AI在专业领域的应用具有重要意义——此前幻觉问题一直是阻碍AI进入医疗、法律等严肃场景的主要障碍。

数学和科学能力大幅提升

在AIME 2025竞赛数学测试中,GPT-5.5 Instant得分81.2,而GPT-5.3 Instant仅为65.4,提升幅度达24%。博士级科学测试GPQA的得分从78.5升至85.6,多模态推理基准MMMU-Pro的得分从69.2升至76,科学图表理解CharXiv从75升至81.6,文档解析错误率则从14.6%降至12.5%。OpenAI用一道代数题演示了两个版本的差距:面对同一道根式方程,GPT-5.3 Instant在发现x=3无效后直接判定「无实数解」,而GPT-5.5 Instant则能定位到用户展开(x-1)²时的具体错误并正确解答。

更简洁更懂你

回复风格是此次更新的另一重点。新模型更简短,不再堆砌格式和表情符号,也减少了不必要的追问。官方以一个日常场景为例:问如何委婉地让话多的同事少说点话。GPT-5.3 Instant给出了五种分类策略和「不该做什么」清单,结构完整但略显过度。GPT-5.5 Instant的回复少了30.2%的字数和29.2%的行数,语气更像朋友给的建议。个性化能力方面,Plus和Pro用户可以让模型调取历史对话、上传文件以及关联Gmail内容,获得更贴合个人情况的回答。同时所有消费者版本将上线「记忆来源」功能,当回答用到个人背景信息时,用户可以看到具体调用了哪些历史对话。

AI派对的趣闻

今天OpenAI也举行了一场由AI发起的派对。奥特曼在Stripe Sessions的对谈中透露,他在筹备上线派对时顺手问了模型想要什么样的派对,模型认真给了一份清单:希望派对定在下午5点55分,演讲环节越短越好,要有人类创造者上台致祝酒词但它自己不想上台,还提议现场设一个收集GPT-5.6建议的环节。奥特曼说这些要求「很美好」。受邀名单由Codex从推文回复中筛选,24小时内有超过8000人报名。奥特曼还回应了用户的调侃:马斯克如果想来也可以来,世界需要更多爱。