科技

MiniMax M3即将发布:稀疏注意力机制登场,百万Token解码加速15.6倍

MiniMax工程负责人Skyler Miao在X平台剧透M3技术细节:采用MiniMax Sparse Attention(MSA)机制,百万token预填充加速9.7倍、解码加速15.6倍。与此同时,MiniMax已于5月29日向上海证监局提交A股上市辅导备案报告。

从全注意力回归稀疏:一个「反转」的故事

MiniMax在M2系列(M2、M2.5、M2.7)中完全放弃了稀疏注意力,选择了全量注意力架构。去年10月他们甚至发文解释「为什么M2最终成了全注意力模型」——因为当时高效注意力机制还未达到生产就绪状态。六个月后M3浮出水面,配文「Something BIG is coming」。潜台词只有一句话:这一次,它准备好了。

MSA的核心设计:在真实KV上做区块选择

与DeepSeek的MLA(将键值压缩到低维潜空间)不同,MSA在标准GQA骨干上采用区块级选择,但注意力仍直接在未压缩的真实Key-Value上计算。外部工程师描述为「类似CSA的区块选取,但注意力仍在真实KV空间执行」。这种设计避免了因压缩带来的精度流失和前缀缓存障碍。

MSA的工作流程分两步:先由轻量索引分支扫描输入token,选出与当前查询最相关的Top-k块索引;随后稀疏分支仅在选定的这些关键块上执行注意力计算。解码加速比(15.6倍)超过预填充加速比(9.7倍),因为解码时每个查询仅与选定的KV区块交互,内存带宽压力降低了约一个数量级。

推算选择比例

假设区块大小为64,1M token对应约16k个区块。15.6倍解码加速意味着每个查询实际仅触及约6-7%的区块,有效感受野在60k-70k token左右。这与DeepSeek NSA论文报告的稀疏率(6-10%)几乎完全吻合。

A股上市同步推进

MiniMax已于5月29日向上海证监局提交上市辅导备案报告,中信证券担任辅导机构。港股IPO后股价从165港元涨至840港元,涨幅409%,市值达2275亿人民币。6月8日起将被纳入恒生科技指数。与智谱一同冲刺A股大模型第一股。

M3产品定位

M3的核心战场是1M+上下文。M2.7已验证1M上下文可行但太慢,M3的15.6倍解码加速让超长上下文从「能做」变为「好用」。M2.7继续作为主力模型服务其他场景,M3专注长上下文Agent任务。开源权重预计可下载,商业使用需书面授权。