谷歌DeepMind团队近日发布了一项突破性研究,推出了最新的视觉-语言-行动(Vision-Language-Action, VLA)模型——“Robotic Transformer 2(RT-2)”。这一模型不仅结合了网络数据和机器人数据,通过大规模预训练实现了出色的泛化能力,还为机器人控制开启了全新可能。
传统视觉-语言模型(VLM)主要被应用于图像识别、视觉问答等任务,但缺乏将图像或语言知识转化为实际行动的能力。而RT-2通过将语言、视觉和机器人操作融为一体,可从网络数据中学习并生成通用化的机器人控制指令。这种强大的能力使其在新环境、新任务中表现卓越,远远超越以往的机器人训练模型。
RT-2基于之前的Robotic Transformer 1(RT-1),利用包括13台机器人在内的多任务示范数据,辅以17个月在真实办公环境中的学习记录,显著提升了模型的理解和执行能力。研究人员进一步结合先进的视觉-语言模型(如PaLM-E、PaLI-X),通过编码离散化的机器人动作指令,将机器人行为以可读的序列化语言形式输入模型。这种设计既保留了网络预训练的卓越语义理解能力,又扩展了模型对机器人具体行为的控制力。
RT-2模型还引入了“链式思维(Chain-of-Thought Reasoning)”方法,能够分步骤规划复杂任务。例如,在执行“选择一件适合作锤子的物品”或“为疲劳的人选择一款饮品”等命令时,RT-2通过语义推理准确执行用户意图。这一创新让机器人拥有了初步的“逻辑思考”能力,可以应对从未见过的任务和场景。
为验证RT-2的性能,研究团队开展了多项实验,包括6000次机器人测试任务和多项模拟实验。在包含新对象、新环境或未知场景的任务中,RT-2的成功率从前代RT-1的32%提升至62%,并在多个测试基准中超越了其他视觉和机器人预训练模型。
研究还表明,RT-2不仅在已知环境下保持高效执行能力,在未见过的场景中也展现了非凡的适应性。例如,RT-2能够理解诸如“将香蕉移至两个物体之和”的复杂命令,不仅准确操作还隐含着对数学概念的应用。
更令人瞩目的是,RT-2 在实际机器人应用中,面对仅有少部分训练对象与测试对象重合的情况下,依然保持高达 90% 的任务成功率,展现了其在现实场景中的强大潜力。
RT-2的问世表明,将视觉-语言模型转化为视觉-语言-行动模型,是实现通用物理机器人控制的重要一步。从语义推理到任务执行,这一模型的广泛适应性使其有望成为未来各类智能机器人系统的核心基石。
谷歌DeepMind研究团队表示,RT-2不仅简化了整合现有视觉-语言模型的路径,还为构建可以独立学习、推理以及操作的通用机器人提供了实践证明。这一领域的突破使人们离拥有具备推理能力、多任务处理能力的真正通用机器人更近一步。
未来,谷歌DeepMind计划深化该领域的研究,并探索如何将此技术大规模应用于现实生活,推动智能机器人在制造、医疗、服务业等领域的广泛部署。
这项创新将重新定义机器人技术的边界,让机器在数字和物理世界间游刃有余,无缝连接复杂逻辑与具体行动。RT-2,让未来触手可及。
[AI之星网出品] [机器人控制模型] [视觉语言行动模型] [谷歌DeepMind RT-2] [机器人智能化技术] [机器姬][真机智能][机器洞察网][AI之星网][风投高科网][猛虎财经网][硅基科学网]

原来机器人不仅能看懂世界,还能懂我们了,全息科幻世界还会远吗?