小米MiMo降价99%的技术真相:六项工程叠加,缓存命中率93%的物理基础
5月26日小米MiMo宣布API永久降价最高99%,业界第一反应是「又一轮价格战」。但MiMo负责人罗福莉发布5000字技术博客,公开了降价的工程账目:「看,这是真实的工程能力,不是营销手段。」
不是全模型降价
99%的折扣专门针对Input(Cache Hit)定价——用户在长对话里重复读历史上下文那部分。普通新输入降幅小很多,模型输出降幅最小。这个精准的定价策略背后是六大工程支柱。
工程一:Hybrid SWA架构
MiMo-V2.5-Pro的70层中60层只看最近128个token(Sliding Window Attention),只有10层「档案管理员」看全部。这让KVCache体积缩小到原来的1/7。
工程二:双池KVCache
把KVCache拆成两个独立池子:Full Attention的10层走「大池子」全长分配,SWA的60层走「小池子」只按128窗口分配。两个池子互不干扰,小池子的实际可用容量大幅释放。
工程三:前缀缓存命中率93-95%
升级规则到「窗口安全长度」——只承诺能完整借到的部分。线上实测显示,主流harness框架下服务端cache命中率平均93%,高频长周期用户可达95%以上。95%的「重复读」请求根本不用GPU算,直接从缓存里取——这就是99%折扣的物理基础。
工程四:GCache分布式缓存
小米自研GCache直接部署在GPU机器自带的SSD上,与训练和推理任务混布。把存储成本直接打掉,KVCache在L3的存活时间从几分钟延长到几小时甚至几天,缓存命中率随之提升。
工程五:LLM-Router智能调度
亲和调度让前缀相同的请求路由到同一台机器;长度分桶把短/中/长请求分开处理;TTFT优化优先调度高命中率请求。实测L2缓存命中率提升25%,单机输入吞吐提升30%,长请求P90延迟降低30%。
工程六:MTP多Token预测
MiMo原生支持3层MTP——一次预测接下来3个token。实测decode前128个token加速2.3倍,128-256个token加速1.5倍。MTP让output那半成本也降下来,整套降价的盈利模型才闭环。
完整逻辑链
SWA架构→KVCache 1/7→双池释放容量→同一GPU装5+倍并发→前缀缓存命中93-95%→95%请求几乎不用算→GCache存储成本归零→调度优先调走命中请求→MTP让生成也省→单位请求GPU时间下降一个数量级→单位成本降95%+→定价降99%毛利率仍为正。任何一个环节缺失,这条链都断在某一节。