科技

MiniMax M3即将发布：稀疏注意力机制登场，百万Token解码加速15.6倍

📅 2026-05-31 14:53 · 👁 3 次阅读 · 📝 996 字 · ⏱ 约 4 分钟读完

MiniMax工程负责人Skyler Miao在X平台剧透M3技术细节：采用MiniMax Sparse Attention（MSA）机制，百万token预填充加速9.7倍、解码加速15.6倍。与此同时，MiniMax已于5月29日向上海证监局提交A股上市辅导备案报告。

从全注意力回归稀疏：一个「反转」的故事

MiniMax在M2系列（M2、M2.5、M2.7）中完全放弃了稀疏注意力，选择了全量注意力架构。去年10月他们甚至发文解释「为什么M2最终成了全注意力模型」——因为当时高效注意力机制还未达到生产就绪状态。六个月后M3浮出水面，配文「Something BIG is coming」。潜台词只有一句话：这一次，它准备好了。

MSA的核心设计：在真实KV上做区块选择

与DeepSeek的MLA（将键值压缩到低维潜空间）不同，MSA在标准GQA骨干上采用区块级选择，但注意力仍直接在未压缩的真实Key-Value上计算。外部工程师描述为「类似CSA的区块选取，但注意力仍在真实KV空间执行」。这种设计避免了因压缩带来的精度流失和前缀缓存障碍。

MSA的工作流程分两步：先由轻量索引分支扫描输入token，选出与当前查询最相关的Top-k块索引；随后稀疏分支仅在选定的这些关键块上执行注意力计算。解码加速比（15.6倍）超过预填充加速比（9.7倍），因为解码时每个查询仅与选定的KV区块交互，内存带宽压力降低了约一个数量级。

推算选择比例

假设区块大小为64，1M token对应约16k个区块。15.6倍解码加速意味着每个查询实际仅触及约6-7%的区块，有效感受野在60k-70k token左右。这与DeepSeek NSA论文报告的稀疏率（6-10%）几乎完全吻合。

A股上市同步推进

MiniMax已于5月29日向上海证监局提交上市辅导备案报告，中信证券担任辅导机构。港股IPO后股价从165港元涨至840港元，涨幅409%，市值达2275亿人民币。6月8日起将被纳入恒生科技指数。与智谱一同冲刺A股大模型第一股。

M3产品定位

M3的核心战场是1M+上下文。M2.7已验证1M上下文可行但太慢，M3的15.6倍解码加速让超长上下文从「能做」变为「好用」。M2.7继续作为主力模型服务其他场景，M3专注长上下文Agent任务。开源权重预计可下载，商业使用需书面授权。

本站文章来源于网络摘取整理发布，如有侵权请联系 hy@uicn.cn 删除

从全注意力回归稀疏：一个「反转」的故事

MSA的核心设计：在真实KV上做区块选择

推算选择比例

A股上市同步推进

M3产品定位

相关文章

OpenAI Codex登陆Windows：Computer Use实测与Mac版差距

阿里百炼CLI开源+Qoder Cloud Agents：Agent上线从1个月缩至1天

ClickUp裁员22%百万年薪招AI人才：AI原生组织的残酷法则