科技

谷歌发布Gemini 2.5 Flash：首款混合推理模型思考预算可调成本暴降600%

📅 2026-06-08 23:02 · 👁 1 次阅读 · 📝 1,048 字 · ⏱ 约 4 分钟读完

谷歌重磅发布首个混合推理模型Gemini 2.5 Flash，引入了革命性的「思考预算」功能，可根据任务需求灵活调整推理深度。新模型在多项基准测试中刷新SOTA，性能一举击败Claude 3.7，比肩o4-mini，而且关闭思考模式时成本直接暴降600%。

首款混合推理Gemini登场

Gemini 2.5 Flash不仅继承了2.0 Flash的高速响应特点，还引入了「思考模式」——模型不会立即输出结果，而是先执行「思考」流程，更好地理解提示词，拆解复杂任务并规划回答。与Claude类似的，新模型的「思考预算」可以自定义，开发者可通过API参数设置0到24576 Token的预算来控制推理深度。更智能的是，模型会根据prompt复杂度自动判断所需推理量和思考时间，避免预算浪费。

性能全面碾压同级对手

在大模型排行榜中，Flash预览版以1392 ELO高分位居第二，与GPT-4.5-preview、Grok 3并驾齐驱。在数学（AIME 2025/2024）、多模态推理（MMMU）、知识问答（GPQA）等基准上，Gemini 2.5 Flash完全碾压Claude 3.7 Sonnet，足以与最新o4-mini相媲美。在LMArena的Hard Prompts、编码、长查询等评估中全部拿下第一。在GPQA知识问答中，24k思考预算性能提升6%；对于代码任务（LiveCodeBench），16k思考预算性能最佳。

极致性价比

就每百万token输入/输出价格来看，Gemini 2.5 Flash的性价比优势明显。关闭思考输出价格0.6美元/百万token，开启思考输出价格3.5美元/百万token。关闭思考的成本暴降600%，而且性能还不输Gemini 2.0 Flash。这意味着开发者可以根据任务复杂度灵活选择：简单查询用关闭思考模式保持超低延迟和成本，复杂推理则开启深度思考。这种按需付费的模式让AI推理的经济性达到了新高度。

对AI产业的影响

Gemini 2.5 Flash的发布标志着AI推理从「一刀切」走向「精细化调控」。过去所有查询都用同样的推理深度，简单问题浪费算力，复杂问题又可能思考不足。思考预算功能让开发者第一次能够精确控制「思考多少」，这不仅降低了成本，更重要的是让AI推理变得可预测、可管理。目前Flash预览版已在Gemini应用和API中上线，开发者可以立即体验。谷歌表示，这是混合推理范式的起点，未来将扩展到更多Gemini模型。

本站文章来源于网络摘取整理发布，如有侵权请联系 hy@uicn.cn 删除

相关文章

微软Build大会一文看尽：9款自研模型、Majorana 2量子芯片、Windows版龙虾Agent

GPT-5.5 Instant发布：幻觉率降52.5% 数学能力暴涨 成ChatGPT默认模型

ChatGPT将迎来史上最大改版：Codex并入聊天框 AI只用来聊天的时代结束了

GPT-5.5 Instant发布：幻觉率降52.5% 数学能力暴涨成ChatGPT默认模型