银河通用机器人发布LDA:全域数据跨本体基座模型,具身智能进入规模化时代
具身智能的GPT-2时刻
银河通用机器人发布的LDA——跨本体隐式世界-动作基础模型,核心突破在于世界范围内首次在数据层面实现虚实共融人机混合质量参差有无动作标签的数据统一有效利用。这也意味着具身智能第一次真正具备了类似GPT-2的能力——进入以数据规模驱动性能持续提升的新阶段。其核心突破不单在于模型能力的探索,而在于世界范围内首次在数据层面实现虚实共融人机混合质量参差有无动作标签的数据统一有效利用。

从筛选数据到组织数据
LDA放弃VAE转向DINO结构化潜空间,通过自监督预训练天然过滤光照纹理等外观冗余保留物体级语义与空间结构。在这个空间中不同机器人不同环境的数据具有一致的表达形式——外观差异被压制物理相关信息被突出使跨本体的动力学学习真正成为可能。统一的hand-centric action space将所有动作统一映射到手如何作用于世界这一物理本质上而不是机器人自身的关节定义上。这意味着夹取旋转插入剪切这类操作不再被绑定在某一种机械结构上而能够在不同本体之间共享动力学规律。
失败数据让性能反升
最惊人的发现在于:即使引入大量低质量甚至失败数据LDA模型性能不降反升;在高质量动作数据耗尽后仅依赖无动作标注的人类视频模型依然可以持续进步。这打破了传统行为克隆必须依赖干净数据的范式。在相同数据设置下将包含大量失败和不稳定操作的数据加入训练:对于pi0.5性能明显下降;而对于LDA性能反而持续提升。这表明LDA并不是简单依赖干净数据而是能够从失败中学习世界的真实动力学将原本被视为噪声的数据转化为有效信号。LDA已成功完成煎牛排叠纸杯塔等复杂长程操作任务,在各类扰动下仍能保持较高成功率。银河通用将LDA的核心算法与代码体系全面开源希望推动行业从封闭优化走向开放共建。
尤其关键的是:即使引入大量低质量甚至失败数据模型性能不降反升;在高质量动作数据耗尽后仅依赖无动作标注的人类视频模型依然可以持续进步。这意味着低质量数据与无动作数据同样可以驱动具身模型的持续Scaling——这一点是传统行为克隆及既有世界模型方法难以实现的。从这个角度看LDA不仅是一个模型突破更是银河星数数据体系在模型层的关键闭环——标志着具身智能开始真正进入以数据驱动的规模化发展阶段。LDA首度系统性地提出了一套统一的hand-centric action space将所有动作统一映射到手如何作用于世界这一物理本质上而不是机器人自身的关节定义上。这意味着夹取旋转插入剪切这类操作不再被绑定在某一种机械结构上而能够在不同本体之间共享动力学规律。