作者: 机器人科学与技术
作者简介: 奔向人类智能水平的【机器人科学与技术】
描述: AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents, 2024, Google Deepmind 主页:https://auto-rt.github.io/ 新闻:https://deepmind.google/discover/blog/shaping-the-future-of-advanced-robotics/ 结合了语言、视觉和最近的行动的基础模型彻底改变了利用互联网规模数据来推理有用任务的能力。 然而,训练具体基础模型的关键挑战之一是缺乏基于物理世界的数据。 在本文中,我们提出了 AutoRT,这是一个利用现有基础模型在完全看不见的场景中以最少的人工监督来扩大操作机器人部署的系统。 AutoRT 利用视觉语言模型 (VLM) 进行场景理解和基础,并进一步使用大型语言模型 (LLM) 来提出由一组机器人执行的多样化和新颖的指令。 通过利用基础模型的知识来指导数据收集,使 AutoRT 能够有效地推理自主权衡和安全性,同时显着扩大机器人学习的数据收集范围。 我们演示了 AutoRT 向多个建筑物中的 20 多个机器人提出指令,并通过远程操作和自主机器人策略收集 77,000 个真实的机器人事件。 我们通过实验表明,AutoRT 收集的此类“野外”数据明显更加多样化,并且 AutoRT 对 LLM 的使用允许遵循符合人类偏好的数据收集机器人进行指令。