科技

「Token」必须死?MIT何恺明与字节Seed同时证明:连续空间或成AGI新路径

2026年5月,MIT何恺明团队和字节跳动Seed实验室几乎同时发布论文,给出了一个更明确的信号:语言生成的核心建模过程不必始终发生在离散token空间中,也可以转移到连续embedding或latent空间里完成,最后再映射回文本。这是第一批来自工程实验的硬证据——逐token预测可能是通向AGI路上的一个局部最优解。

何恺明的ELF:文字生成全程留在连续空间

何恺明团队的ELF(Embedded Language Flows)做了一件反直觉的事:把文字生成的全过程留在连续向量空间里完成,只在最后一步才把连续向量投影回人类可读的文字。它用Flow Matching从噪声出发,沿学习到的速度场平滑演化到目标嵌入。32个采样步生成质量超过离散模型用1024步的结果,训练数据约450亿token,只有主流方法的十分之一。

字节Cola DLM:先压缩再建模

字节Seed团队的Cola DLM先用Text VAE把语言压缩成更深层的语义潜空间,再在这个纯语义空间里用Flow Matching建模全局先验,最后才解码回文字。论文明确说:扩散过程做的是「潜在先验运输」,不是「token级别的观测恢复」。20亿参数,在8个基准上与同体量自回归模型对比,连续路线的scaling曲线是健康的。

AI巨头也在质疑Tokenization

Google Gemini从1.0到3.1 Pro,将文本、图像、音频、视频在同一个模型里交错训练,共享注意力层。2026年3月发布的Gemini Embedding 2把这件事推到表征层面:一个embedding模型原生接受文本、图像、文档、音频、视频输入,全部映射到同一个3072维向量空间。这说明Google也在探索「统一表征」。

OpenAI的选择:暂时退场视频生成

根据外媒报道,OpenAI砍掉了Sora视频应用(被员工视作「吞金兽」),把算力集中到GPT-5.5的Agent架构和Codex代码工具上。这可以解读为:OpenAI认同多模态统一的方向,但在视频生成这个具体维度上暂时退场,等待更高效的架构方案成熟后重新进入。

对行业的影响

连续空间范式可能改变大模型的底层架构。如果token只是语言的一种不完美表示,那下一代模型可能从离散token转向连续向量空间,带来更高效的训练和推理。字节跳动透露其视频生成模型Seedance已在使用类似架构。当连续统一空间成为下一代架构的答案,谁最先在工业规模验证,谁就掌握先机。