科技

Claude Mythos核心架构被22岁天才破解并开源：不堆参数，原地循环思考16次

📅 2026-05-31 12:14 · 👁 5 次阅读 · 📝 1,083 字 · ⏱ 约 4 分钟读完

Anthropic捂得最严实的Claude Mythos，竟被一个22岁的年轻人扒开了。Kye Gomez以第一性原理，硬生生把Claude Mythos的核心架构从头推导出来，并全开源为OpenMythos。

核心架构：循环深度Transformer

Claude Mythos的核心不是一个更大的Transformer，而是一种叫做「循环深度Transformer」（Recurrent-Depth Transformer, RDT）的架构。同一套权重，在一次前向传播里循环跑最多16次。传统Transformer靠堆层数来增加「思考深度」，但RDT完全换了一个思路：不盖高楼，原地跑圈。模型只有一个核心计算块，但这个块会被反复执行。每循环一次，隐藏状态就更新一次，相当于「多想了一步」。而且所有的思考都在连续潜空间里默默进行，不用像思维链那样每一步都吐出可见的token。

架构全拆解：三段式设计

整个OpenMythos的架构分三段：Pre（前馈）→ Recurrent Block（循环核心）→ Coda（终章）。真正的计算核心是中间的「循环块」，最多循环16次。每个FFN层都替换成了MoE层，设计参考DeepSeek-MoE。注意力机制默认使用「多潜变量注意力」（Multi-Latent Attention），来自DeepSeek-V2，把KV缓存压缩成低秩潜变量，在生产规模下能实现10-20倍的KV显存节省。三个额外机制保证循环稳定性：LTI约束注入、自适应计算时间（ACT）逐位置停机、深度级LoRA适配器。

770M打平1.3B：参数效率翻倍

来自Parcae团队的实验数据：一个770M参数的循环模型，在同等训练数据下，能达到1.3B标准Transformer的下游任务质量。推理深度是时间换空间——不需要更多显存，只需要多跑几圈。这彻底改写了AI的Scaling法则：以前拼的是谁的参数多、谁的GPU多，现在的规则变了——未来最强的模型，不是参数最多的，而是想得最多次的。

22岁CEO的开源壮举

Kye Gomez是Swarms的创始人，之前还领导过Agora Labs，研究重点是大规模多智能体系统、替代模型架构和多模态模型。他高中毕业之后就开始投身创业，在2021-2024年间同时担任三家公司的联创/CEO。OpenMythos的开源意味着：闭源实验室的架构优势正在以肉眼可见的速度消失。Anthropic CEO Dario Amodei预测，中国将在12个月内完全复刻出具备Claude Mythos级别能力的大模型。

本站文章来源于网络摘取整理发布，如有侵权请联系 hy@uicn.cn 删除

核心架构：循环深度Transformer

架构全拆解：三段式设计

770M打平1.3B：参数效率翻倍

22岁CEO的开源壮举

相关文章

OpenAI Codex登陆Windows：Computer Use实测与Mac版差距

阿里百炼CLI开源+Qoder Cloud Agents：Agent上线从1个月缩至1天

ClickUp裁员22%百万年薪招AI人才：AI原生组织的残酷法则