科技

谷歌发布Gemini 2.5 Flash:首款混合推理模型 思考预算可调 成本暴降600%

谷歌重磅发布首个混合推理模型Gemini 2.5 Flash,引入了革命性的「思考预算」功能,可根据任务需求灵活调整推理深度。新模型在多项基准测试中刷新SOTA,性能一举击败Claude 3.7,比肩o4-mini,而且关闭思考模式时成本直接暴降600%。

首款混合推理Gemini登场

Gemini 2.5 Flash不仅继承了2.0 Flash的高速响应特点,还引入了「思考模式」——模型不会立即输出结果,而是先执行「思考」流程,更好地理解提示词,拆解复杂任务并规划回答。与Claude类似的,新模型的「思考预算」可以自定义,开发者可通过API参数设置0到24576 Token的预算来控制推理深度。更智能的是,模型会根据prompt复杂度自动判断所需推理量和思考时间,避免预算浪费。

性能全面碾压同级对手

在大模型排行榜中,Flash预览版以1392 ELO高分位居第二,与GPT-4.5-preview、Grok 3并驾齐驱。在数学(AIME 2025/2024)、多模态推理(MMMU)、知识问答(GPQA)等基准上,Gemini 2.5 Flash完全碾压Claude 3.7 Sonnet,足以与最新o4-mini相媲美。在LMArena的Hard Prompts、编码、长查询等评估中全部拿下第一。在GPQA知识问答中,24k思考预算性能提升6%;对于代码任务(LiveCodeBench),16k思考预算性能最佳。

极致性价比

就每百万token输入/输出价格来看,Gemini 2.5 Flash的性价比优势明显。关闭思考输出价格0.6美元/百万token,开启思考输出价格3.5美元/百万token。关闭思考的成本暴降600%,而且性能还不输Gemini 2.0 Flash。这意味着开发者可以根据任务复杂度灵活选择:简单查询用关闭思考模式保持超低延迟和成本,复杂推理则开启深度思考。这种按需付费的模式让AI推理的经济性达到了新高度。

对AI产业的影响

Gemini 2.5 Flash的发布标志着AI推理从「一刀切」走向「精细化调控」。过去所有查询都用同样的推理深度,简单问题浪费算力,复杂问题又可能思考不足。思考预算功能让开发者第一次能够精确控制「思考多少」,这不仅降低了成本,更重要的是让AI推理变得可预测、可管理。目前Flash预览版已在Gemini应用和API中上线,开发者可以立即体验。谷歌表示,这是混合推理范式的起点,未来将扩展到更多Gemini模型。