蚂蚁集团发布LingBot-VLA视觉语言行动机器人模型

必读文章
王明昊https://www.aistar.news
关注深海探索科技,痴迷于海洋生物研究,擅长将科技与自然结合,撰写充满冒险精神的文章。

蚂蚁集团Robbyant团队近日发布了一款全新的视觉-语言-动作(Vision-Language-Action,VLA)基础模型——LingBot-VLA,该模型针对实际场景下双臂机器人的操控需求进行了优化。在约20,000小时的双臂机器人遥操作数据训练基础上,LingBot-VLA不仅展示了跨形态泛化能力,还在GM-100大规模真实场景基准测试中创造了行业领先的成绩。

LingBot-VLA的预训练数据集涵盖了9种主流双臂机器人形态,包括AgiBot G1、AgileX、Galaxea R1Lite、Galaxea R1Pro、Realman Rs 02、Leju KUAVO 4 Pro、Qinglong humanoid、ARX Lift2以及一个基于Franka双臂系统的配置。这些机器人均拥有6到7个自由度的双臂,配备平行夹爪及多个RGB-D摄像头,用以生成多视角观测数据。

数据采集采用VR控制(如用于AgiBot G1)或等构型臂控制(如用于AgileX)的方式,为每个场景生成多角度视频。此外,团队通过人工标注将视频分割为对应原子动作的短片,并生成任务及子任务级别的语言指令。这一高效管线确保数据序列图像、指令及动作轨迹的同步,从而支持强大的预训练。

值得一提的是,测试集中约50%的原子动作未出现在训练集中频率最高的100个动作中,这种差异设计旨在强化模型的跨任务泛化能力,而非仅仅依赖频率记忆。

LingBot-VLA结合了强大的多模态骨干网络与动作专家,通过Mixture of Transformers架构实现联合建模。视觉语言骨干网络基于Qwen2.5-VL,能够将多视角图像、自然语言指令编码为多模态序列;与此同时,动作专家处理机器人的本体状态及过去动作序列。

模型通过自注意力模块实现观测序列和动作序列的联合建模。在每个时间步内,模型整合任务指令、机器人状态及多摄像头视图形成观测序列,同时生成未来动作序列并匹配地面真实动作轨迹。这种流匹配机制能有效创建连续动作表示,使双臂操控实现流畅协同操作。

此外,模型采用因果注意力机制,以防止未来动作信息泄露到当前观测,从而保证决策过程的可靠性。

深度感知一直是VLA模型中的难点。LingBot-VLA通过与LingBot-Depth模型集成解决了这一问题。LingBot-Depth采用一种基于Masked Depth Modeling的自监督训练方法,能够在深度传感器数据缺失或稀疏时,重建密度化的深度信息。

在LingBot-VLA中,视觉查询通过投影层与深度模型特征对齐,应用蒸馏损失进行训练,提高几何感知能力。这一特性显著增强了模型在插入、堆叠、折叠等需要高精度3D空间推理的任务中的表现。

在GM-100真实场景基准测试中,LingBot-VLA在三种硬件平台上的100个任务中表现卓越,达成平均完成率(Success Rate,SR)17.30%及平均进展分数(Progress Score,PS)35.41%。相比之下,其他模型表现明显滞后:π0.5的SR为13.02%,PS为27.65%,而GR00T N1.6及WALL-OSS分别仅为7.59%/15.99%和4.05%/10.35%。

LingBot-VLA在数据效率上表现亦十分亮眼。在AgiBot G1平台上,使用约80条演示轨迹即能超越π0.5(使用130条演示轨迹),并随着轨迹数量增加进一步扩大性能优势。这种低成本适配新任务和新硬件的能力,为机器人操控系统的实际应用提供了突破性助力。

LingBot-VLA 的训练堆栈针对多节点效率进行了优化,采用 FSDP 样式参数共享、混合分片、混合精度存储及操作加速等技术。在 8 块 GPU 的配置下,每块 GPU 的吞吐量达到每秒 261 个样本,远高于其他 VLA 模型架构,如 StarVLA、Dexbotic 及 OpenPI。

更令人振奋的是,LingBot-VLA的完整后续训练工具包已正式开源,为业界研究团队提供了广泛的参考与支持。团队分析显示,该模型在20,000小时训练数据规模下保持良好扩展性,成功率及进展分数均随数据量单调提升,这为行业未来发展提供了重要的实验依据。

LingBot-VLA作为基于Qwen2.5-VL的视觉语言动作基础模型,在跨平台机器人操控任务中表现出色。其在数据效率上的突破与优化,还进一步降低了现实应用中的适配成本。随着该模型的开源,研究团队期待其能推动更多机器人智能操控领域的创新与发展。


您的浏览器不支持视频标签。https://www.aistar.news/wp-content/uploads/2026/01/4053_300.mp4

[AI之星网出品] [因果注意力机制,可靠决策] [双臂机器人,跨平台操控] [视觉语言动作模型,数据效率优化] [LingBot-VLA,开源技术] [刘智勇频道] [真机智能(zhenrobot.com)] [真机算法] [真机资本(zhencap.com)] [真机宇宙(zhenmeta.com)] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [真机量化(zhenquant.hk)] [真机内参] [真机尽调(zhendue.com)] [高能判官] [片场狂徒] [暴徒外放] [Cognition OS] [Embodied OS] [黄金广告位]


📚 【精品资源】添加关注『AI之星网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》


LEAVE A REPLY

Please enter your comment!
Please enter your name here

- Advertisement -
最新新闻

特斯拉2025年向马斯克xAI出售4.3亿美元Megapack电池

“能源与智能的交汇,是进步的发动机;但若罔顾社区福祉,再远大的愿景也只是一场孤行的豪赌。”
- Advertisement -

更多相关文章