科技

银河通用+英伟达：人形机器人最大的谎言被拆穿，世界模型才是正道

📅 2026-05-31 12:14 · 👁 2 次阅读 · 📝 702 字 · ⏱ 约 3 分钟读完

具身智能尚未建完的护城河，可能正面临一次剧烈的改道。2026年央视春晚短暂亮相的银河通用，最新论文《LDA-1B》提出了一个足以改写行业底层逻辑的命题：打破对「完美数据」的崇拜，先理解物理，再学习操作。署名单位里躺着英伟达、清华和北大。

模仿学习的天花板

当前具身智能的主流路线是模仿学习：让机器人看人类怎么操作，然后模仿。这条路直观、见效快，很快成为主流。但银河通用选了另一条路：抛弃条件反射式的模仿，走世界模型路线。

先有知识，再有应用

大语言模型之所以脱胎换骨，是它在海量文本中摸透了语言的底层规律。机器人也需要同一层理解：动手之前，先懂物理世界的因果。LDA不再只预测下一个动作，而是联合预测未来的画面。下达指令之前，模型必须先在数字大脑里推演一遍：推过去，水杯会怎么动？重力和摩擦力会起什么作用？这一步位移的实质是：先有知识（理解世界规律），再有应用（学习如何操作）。因果顺序不可颠倒。

为什么Sora路线行不通

Sora和各类生图生视频模型给行业提供了一个看似现成的答案，方向上却正好相反。AI生成的图片和视频里，文字部分总是出现扭曲的乱码——这些模型本质上是用概率拼凑像素，它们没「看懂」文字，只是记住了某种颜色在某个位置大概率会和另一种颜色挨在一起。LDA用视觉基础模型DINO，先剥掉无关光影和背景，提取出高度抽象的语义空间，不再纠结下一帧里百万个像素的颜色，而是试图理解一个等式：「杯子的语义」加「推的动作」等于「杯子向右位移」。