「Token」必须死:MIT何恺明与字节Seed论文揭示,连续空间或成下一代AI架构
2026年5月,MIT何恺明团队和字节跳动Seed实验室几乎同时发布论文,给出一个更明确的信号:语言生成的核心建模过程不必始终发生在离散token空间中,也可以转移到连续embedding或latent空间里完成。这对AI产业的商业模式意味着什么?
技术突破:连续空间替代Token
何恺明的ELF将文字生成全过程留在连续向量空间,只在最后一步投影回文字,32步采样质量超过离散模型1024步。字节Cola DLM先压缩成语义潜空间再建模,20亿参数在8个基准上与同体量自回归模型持平。两篇论文共同证明:逐token预测可能是通向AGI路上的局部最优解。
对MaaS商业模式的冲击
当前大模型的计费逻辑以token为核心单位——输入token、输出token、缓存token。如果下一代模型从离散token转向连续向量空间,token的定义本身将被改写。小米MiMo的降价策略正是建立在token优化之上(缓存命中率93-95%实现99%折扣),但如果底层架构变化,这些优化手段可能需要重新设计。
更深远的影响在于:当模型不再以token为基本单位时,「按token计费」的MaaS模式将面临根本性重构。新的计量方式可能基于计算量、推理步骤或任务完成度,这对整个AI产业链的定价体系都是颠覆性的。
字节的优势
字节跳动透露其视频生成模型Seedance已在使用类似的连续潜空间架构。独特优势在于:同时拥有抖音/TikTok级别的海量视频数据和前沿模型研究能力。如果连续统一空间确实是下一代架构的答案,字节是最有条件最先在工业规模验证的公司。
行业启示
当前AI产业围绕token构建的商业大厦——从OpenAI的API定价到GitHub Copilot的计费切换——可能建立在一个正在被质疑的地基上。连续空间范式如果被验证可行,整个产业需要重新思考:如何计量AI的价值?如何为「非token化」的智能定价?这是比任何单一模型发布更深远的产业变革。