RoboAgent:3B小模型在未知场景跑出94%,把GPT-4o拉下神坛
如何让机器人在从未见过的新场景中完成复杂任务?当前视觉语言模型(VLM)在具身任务规划中面临的核心挑战是:面对全新环境时成功率急剧下降——即使是GPT-4o这样的前沿模型,在未见过的场景中成功率也不到50%。北京大学副教授穆亚东及星源智团队提出的RoboAgent方案,用3B参数的小模型在未知场景中跑出了94%的成功率。
核心思路:把规划拆成视觉语言子问题
RoboAgent的核心洞察是:现代VLM本身具备处理具身推理的所有能力,缺的只是合适的调用机制。方案将复杂的规划任务分解为一系列更简单的视觉语言子问题,定义了5个能力模块:物体Goal识别(OG)、空间Goal定位(SG)、探索引导(EG)、导航确认(NG)、操作确认(OG)。VLM同时担任调度器和五种特定能力。
训练采用三阶段路径规划,充分利用模拟器的内部特权信息(物体位置、实例分割、动作成败反馈)——这些信息在实际推理时不可用,但训练时能提供高质量监督。为了让模型学会「什么时候调用哪种能力」,团队提出EIPO算法(Expert-Induced Policy Optimization),用专家调度员计算每个状态-动作对下的专家优势函数,避免了传统RL的方差问题。
实测数据:3B模型全面超越GPT-4o
团队在多个基准上做了严格测试。训练只用ALFRED的训练集(6.4k任务),但评估在ALFWorld、EB-ALFRED,甚至跨模拟器的EB-Habitat和LoTa-WAH上——全是未见过的新场景、新指令。
EB-ALFRED基准:RoboAgent平均成功率67.0%,超过所有微调类方法(REBP 35.6%、WAP 62.7%),Visual分项达到78%,超过GPT-4o的46%。ALFWorld视觉任务:RoboAgent平均77.6%,大幅领先此前最好的SEEA-R1(36.0%)和GPT-4o(24.0%)。在Pick、Clean等类别上优势尤其明显——模型学会了优先检查最可能有物体的容器,而非盲目乱走。
最惊人的是ALFWorld文本任务:RoboAgent在未见过的场景成功率达94.0%,超过当前最顶级的LLM方案DynaMind(89.1%),而且用的是更小的3B VLM——说明能力驱动的范式具备模态无关的泛化力,图像能力可以无缝迁移到文本输入。
为什么小模型能打败大模型?
关键在于「能力驱动」的设计哲学。不是用更大的模型暴力解决,而是把问题拆解成小模型本来就能做好的子任务。RoboAgent通过VLM同时担任调度器和五种特定能力,将复杂的规划过程分解为一系列基础的视觉语言理解问题。不依赖外部工具,单一模型端到端训练。
论文成功入选CVPR 2026(投稿16092篇,录用率25.42%),彰显了团队在具身智能领域前沿创新的硬核实力。未来,随着能力模块的动态扩展和训练数据的规模化,这类「能力驱动」的架构很可能成为长程机器人规划的标配。毕竟,再聪明的AI也得学会分工协作。