科技

「Token」必须死？MIT何恺明与字节Seed同时证明：连续空间或成AGI新路径

📅 2026-06-01 02:16 · 👁 0 次阅读 · 📝 1,042 字 · ⏱ 约 4 分钟读完

2026年5月，MIT何恺明团队和字节跳动Seed实验室几乎同时发布论文，给出了一个更明确的信号：语言生成的核心建模过程不必始终发生在离散token空间中，也可以转移到连续embedding或latent空间里完成，最后再映射回文本。这是第一批来自工程实验的硬证据——逐token预测可能是通向AGI路上的一个局部最优解。

何恺明的ELF：文字生成全程留在连续空间

何恺明团队的ELF（Embedded Language Flows）做了一件反直觉的事：把文字生成的全过程留在连续向量空间里完成，只在最后一步才把连续向量投影回人类可读的文字。它用Flow Matching从噪声出发，沿学习到的速度场平滑演化到目标嵌入。32个采样步生成质量超过离散模型用1024步的结果，训练数据约450亿token，只有主流方法的十分之一。

字节Cola DLM：先压缩再建模

字节Seed团队的Cola DLM先用Text VAE把语言压缩成更深层的语义潜空间，再在这个纯语义空间里用Flow Matching建模全局先验，最后才解码回文字。论文明确说：扩散过程做的是「潜在先验运输」，不是「token级别的观测恢复」。20亿参数，在8个基准上与同体量自回归模型对比，连续路线的scaling曲线是健康的。

AI巨头也在质疑Tokenization

Google Gemini从1.0到3.1 Pro，将文本、图像、音频、视频在同一个模型里交错训练，共享注意力层。2026年3月发布的Gemini Embedding 2把这件事推到表征层面：一个embedding模型原生接受文本、图像、文档、音频、视频输入，全部映射到同一个3072维向量空间。这说明Google也在探索「统一表征」。

OpenAI的选择：暂时退场视频生成

根据外媒报道，OpenAI砍掉了Sora视频应用（被员工视作「吞金兽」），把算力集中到GPT-5.5的Agent架构和Codex代码工具上。这可以解读为：OpenAI认同多模态统一的方向，但在视频生成这个具体维度上暂时退场，等待更高效的架构方案成熟后重新进入。

对行业的影响

连续空间范式可能改变大模型的底层架构。如果token只是语言的一种不完美表示，那下一代模型可能从离散token转向连续向量空间，带来更高效的训练和推理。字节跳动透露其视频生成模型Seedance已在使用类似架构。当连续统一空间成为下一代架构的答案，谁最先在工业规模验证，谁就掌握先机。

本站文章来源于网络摘取整理发布，如有侵权请联系 hy@uicn.cn 删除

何恺明的ELF：文字生成全程留在连续空间

字节Cola DLM：先压缩再建模

AI巨头也在质疑Tokenization

OpenAI的选择：暂时退场视频生成

对行业的影响

相关文章

黄仁勋COMPUTEX演讲：AI产业规模将达100万亿美元，发布Rubin架构预告

OpenAI模型推翻80年数学经典猜想：AI证明比数学家更「胆大」

全球首款AI实时游戏Oasis问世：每帧都是扩散模型实时预测，20FPS零延迟