科技

银河通用+英伟达:人形机器人最大的谎言被拆穿,世界模型才是正道

具身智能尚未建完的护城河,可能正面临一次剧烈的改道。2026年央视春晚短暂亮相的银河通用,最新论文《LDA-1B》提出了一个足以改写行业底层逻辑的命题:打破对「完美数据」的崇拜,先理解物理,再学习操作。署名单位里躺着英伟达、清华和北大。

模仿学习的天花板

当前具身智能的主流路线是模仿学习:让机器人看人类怎么操作,然后模仿。这条路直观、见效快,很快成为主流。但银河通用选了另一条路:抛弃条件反射式的模仿,走世界模型路线。

先有知识,再有应用

大语言模型之所以脱胎换骨,是它在海量文本中摸透了语言的底层规律。机器人也需要同一层理解:动手之前,先懂物理世界的因果。LDA不再只预测下一个动作,而是联合预测未来的画面。下达指令之前,模型必须先在数字大脑里推演一遍:推过去,水杯会怎么动?重力和摩擦力会起什么作用?这一步位移的实质是:先有知识(理解世界规律),再有应用(学习如何操作)。因果顺序不可颠倒。

为什么Sora路线行不通

Sora和各类生图生视频模型给行业提供了一个看似现成的答案,方向上却正好相反。AI生成的图片和视频里,文字部分总是出现扭曲的乱码——这些模型本质上是用概率拼凑像素,它们没「看懂」文字,只是记住了某种颜色在某个位置大概率会和另一种颜色挨在一起。LDA用视觉基础模型DINO,先剥掉无关光影和背景,提取出高度抽象的语义空间,不再纠结下一帧里百万个像素的颜色,而是试图理解一个等式:「杯子的语义」加「推的动作」等于「杯子向右位移」。

行业影响

如果这条路线走通,具身智能的核心竞争力将从「数据量」转向「物理理解能力」。谁能让机器人真正理解因果关系,谁就能在下一个十年占据制高点。