科技

小米MiMo降价99%的技术真相：六项工程叠加，缓存命中率93%的物理基础

📅 2026-05-31 14:53 · 👁 3 次阅读 · 📝 1,072 字 · ⏱ 约 4 分钟读完

5月26日小米MiMo宣布API永久降价最高99%，业界第一反应是「又一轮价格战」。但MiMo负责人罗福莉发布5000字技术博客，公开了降价的工程账目：「看，这是真实的工程能力，不是营销手段。」

不是全模型降价

99%的折扣专门针对Input（Cache Hit）定价——用户在长对话里重复读历史上下文那部分。普通新输入降幅小很多，模型输出降幅最小。这个精准的定价策略背后是六大工程支柱。

工程一：Hybrid SWA架构

MiMo-V2.5-Pro的70层中60层只看最近128个token（Sliding Window Attention），只有10层「档案管理员」看全部。这让KVCache体积缩小到原来的1/7。

工程二：双池KVCache

把KVCache拆成两个独立池子：Full Attention的10层走「大池子」全长分配，SWA的60层走「小池子」只按128窗口分配。两个池子互不干扰，小池子的实际可用容量大幅释放。

工程三：前缀缓存命中率93-95%

升级规则到「窗口安全长度」——只承诺能完整借到的部分。线上实测显示，主流harness框架下服务端cache命中率平均93%，高频长周期用户可达95%以上。95%的「重复读」请求根本不用GPU算，直接从缓存里取——这就是99%折扣的物理基础。

工程四：GCache分布式缓存

小米自研GCache直接部署在GPU机器自带的SSD上，与训练和推理任务混布。把存储成本直接打掉，KVCache在L3的存活时间从几分钟延长到几小时甚至几天，缓存命中率随之提升。

工程五：LLM-Router智能调度

亲和调度让前缀相同的请求路由到同一台机器；长度分桶把短/中/长请求分开处理；TTFT优化优先调度高命中率请求。实测L2缓存命中率提升25%，单机输入吞吐提升30%，长请求P90延迟降低30%。

工程六：MTP多Token预测

MiMo原生支持3层MTP——一次预测接下来3个token。实测decode前128个token加速2.3倍，128-256个token加速1.5倍。MTP让output那半成本也降下来，整套降价的盈利模型才闭环。

完整逻辑链

SWA架构→KVCache 1/7→双池释放容量→同一GPU装5+倍并发→前缀缓存命中93-95%→95%请求几乎不用算→GCache存储成本归零→调度优先调走命中请求→MTP让生成也省→单位请求GPU时间下降一个数量级→单位成本降95%+→定价降99%毛利率仍为正。任何一个环节缺失，这条链都断在某一节。

本站文章来源于网络摘取整理发布，如有侵权请联系 hy@uicn.cn 删除

不是全模型降价

工程一：Hybrid SWA架构

工程二：双池KVCache

工程三：前缀缓存命中率93-95%

工程四：GCache分布式缓存

工程五：LLM-Router智能调度

工程六：MTP多Token预测

完整逻辑链

相关文章

OpenAI Codex登陆Windows：Computer Use实测与Mac版差距

阿里百炼CLI开源+Qoder Cloud Agents：Agent上线从1个月缩至1天

ClickUp裁员22%百万年薪招AI人才：AI原生组织的残酷法则