技术文摘

RoboAgent：3B小模型在未知场景跑出94%，把GPT-4o拉下神坛

📅 2026-05-30 02:31 · 👁 3 次阅读 · 📝 1,247 字 · ⏱ 约 5 分钟读完

如何让机器人在从未见过的新场景中完成复杂任务？当前视觉语言模型（VLM）在具身任务规划中面临的核心挑战是：面对全新环境时成功率急剧下降——即使是GPT-4o这样的前沿模型，在未见过的场景中成功率也不到50%。北京大学副教授穆亚东及星源智团队提出的RoboAgent方案，用3B参数的小模型在未知场景中跑出了94%的成功率。

核心思路：把规划拆成视觉语言子问题

RoboAgent的核心洞察是：现代VLM本身具备处理具身推理的所有能力，缺的只是合适的调用机制。方案将复杂的规划任务分解为一系列更简单的视觉语言子问题，定义了5个能力模块：物体Goal识别（OG）、空间Goal定位（SG）、探索引导（EG）、导航确认（NG）、操作确认（OG）。VLM同时担任调度器和五种特定能力。

训练采用三阶段路径规划，充分利用模拟器的内部特权信息（物体位置、实例分割、动作成败反馈）——这些信息在实际推理时不可用，但训练时能提供高质量监督。为了让模型学会「什么时候调用哪种能力」，团队提出EIPO算法（Expert-Induced Policy Optimization），用专家调度员计算每个状态-动作对下的专家优势函数，避免了传统RL的方差问题。

实测数据：3B模型全面超越GPT-4o

团队在多个基准上做了严格测试。训练只用ALFRED的训练集（6.4k任务），但评估在ALFWorld、EB-ALFRED，甚至跨模拟器的EB-Habitat和LoTa-WAH上——全是未见过的新场景、新指令。

EB-ALFRED基准：RoboAgent平均成功率67.0%，超过所有微调类方法（REBP 35.6%、WAP 62.7%），Visual分项达到78%，超过GPT-4o的46%。ALFWorld视觉任务：RoboAgent平均77.6%，大幅领先此前最好的SEEA-R1（36.0%）和GPT-4o（24.0%）。在Pick、Clean等类别上优势尤其明显——模型学会了优先检查最可能有物体的容器，而非盲目乱走。

最惊人的是ALFWorld文本任务：RoboAgent在未见过的场景成功率达94.0%，超过当前最顶级的LLM方案DynaMind（89.1%），而且用的是更小的3B VLM——说明能力驱动的范式具备模态无关的泛化力，图像能力可以无缝迁移到文本输入。

为什么小模型能打败大模型？

关键在于「能力驱动」的设计哲学。不是用更大的模型暴力解决，而是把问题拆解成小模型本来就能做好的子任务。RoboAgent通过VLM同时担任调度器和五种特定能力，将复杂的规划过程分解为一系列基础的视觉语言理解问题。不依赖外部工具，单一模型端到端训练。

论文成功入选CVPR 2026（投稿16092篇，录用率25.42%），彰显了团队在具身智能领域前沿创新的硬核实力。未来，随着能力模块的动态扩展和训练数据的规模化，这类「能力驱动」的架构很可能成为长程机器人规划的标配。毕竟，再聪明的AI也得学会分工协作。

本站文章来源于网络摘取整理发布，如有侵权请联系 hy@uicn.cn 删除

核心思路：把规划拆成视觉语言子问题

实测数据：3B模型全面超越GPT-4o

为什么小模型能打败大模型？

相关文章

汽车变成超级秘书：比亚迪发布超级智能体「迪迪虾」

GPT-5.6泄露：150万Token超级智能体，6月AI大战提前爆发

AI智能体从聊天到干活：国家三部门发文规范，百度阿里腾讯全面入局