谷歌DeepMind推出SIMA 2:基于Gemini驱动的通用型3D虚拟世界智能代理
[2025年11月16日] 优化简化:由谷歌DeepMind研发的SIMA 2(Simulated Interactive Multi-Agent),搭载了全新的Gemini核心模型,首次在复杂的3D虚拟游戏世界中探索通用型智能体的潜力。相较于首个版本,SIMA 2显著提升了任务完成率,展示了通用人工智能系统在复杂动态环境中的强大能力。
2024年推出的SIMA 1为通用型智能体奠定了重要基础,不借助游戏内部数据,仅通过渲染像素和虚拟键盘鼠标交互,就实现了超过600种语言指令的学习与执行(如“向左转”、“爬梯子”、“打开地图”)。然而,其任务成功率仅为31%,而同一个基准测试中,人类达到了71%。
而SIMA 2则通过升级核心策略,采用Gemini的2.5版本“Flash Lite”作为推理引擎,将原来仅能执行指令的智能体转变为能够对目标进行推理、解释并利用多样环境进行自我学习的互动型游戏伙伴。
新版SIMA 2以Gemini为核心组件,结合视觉观察和用户指令推导高阶任务目标并通过虚拟键盘和鼠标执行操作。与人类演示和Gemini生成的标注相结合的监督训练方法,使得该智能体能够精准捕捉人类意图,并生成具备解释性的思维链条。
这一技术进步使得SIMA 2能动态回答目标相关问题,解释决策过程,甚至清晰展现其对游戏环境的理解。此外,SIMA 2还将指令通道扩展到了文本之外,可识别语音命令、屏幕上的手绘草图,并能根据表情符号理解任务。例如,在用户使用“前往一个像熟透的番茄颜色的房子”这样的表情提示下,系统会推断出任务意图并执行操作。
DeepMind通过详细的实验,验证了SIMA 2显著超过SIMA 1的任务完成效率。在训练环境中,SIMA 2的完成度从31%翻倍至62%,接近人类玩家的70%。值得注意的是,该模型在从未被训练过的游戏(如ASKA和MineDojo)中也实现了更高的任务成功率,展现了在未知环境中的强大零样本泛化能力,如在不同游戏中通用“采矿”概念并将其拓展至“收获”任务。
与第一代不同,SIMA 2 引入了显式的自我改进环路。在初始阶段,智能体以人类的游戏数据作为基线。
进入自我学习阶段后,依赖另一个 Gemini 模型生成新任务,并设置奖励机制来评估其尝试的结果。同时,自我生成的游戏数据被储存并应用于后续训练之中。结果显示,SIMA 2 后续迭代的版本可在没有新增人类指导的情况下,成功完成前一代未能完成的任务。
为进一步测试这一技术栈,研究人员将SIMA 2与DeepMind的Genie 3模型结合。Genie 3可以通过单张图片或文本提示快速生成交互性强的3D虚拟场景。实验中,智能体能够自主在这些随机生成的场景中辨认物体、解析任务并合理行动,成功完成目标任务。这一成果表明,SIMA 2在商用游戏和虚拟合成环境中都表现出了优秀的迁移能力,为更通用型机器人研发提供了重要参考。
SIMA 2 的推出不仅仅是一次性能突破,也标志着系统性里程碑的达成。通过集成多模态感知、基于语言的推理规划以及自我迭代的能力,DeepMind 展示了一种务实的应用方案,为开发更智能、更通用的机器人奠定了基础。
SIMA 2 证明了「嵌入式 Gemini 模型」不仅能推动智能体在虚拟世界中的能力提升,还有潜力拓展至包括物理机器人在内的真实世界应用。
[AI之星网出品] [通用人工智能] [DeepMind SIMA 2] [零样本学习能力] [游戏AI技术突破] [刘智勇频道] [RoboPony(真机智能)] [AiPitch.Top] [PixStock.online 设计智能体图库] [RoboGo.Top] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [超维智策] [语料雨林] [鲸算GEO] [Cognition OS] [Embodied OS] [黄金广告位]
📚 【精品资源】添加关注『AI之星网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》

一步步优化的背后,是无数次失败积累出的成功,点赞研发团队的执着精神!
技术进步也带来了社会责任,期待这些产品能够真正改变生活,惠及更多人群。