首发平台:AI之星网(www.AIstar.news)
字节跳动推出开源多模态AI代理UI-TARS-1.5,以颠覆GUI交互与游戏场景人工智能技术
2025年4月21日——字节跳动正式发布了开源的UI-TARS-1.5,这是一种基于强大视觉-语言模型的更新版多模态AI代理,专注于图形用户界面(GUI)交互和游戏环境任务。该模型能够感知屏幕内容并执行交互任务,在GUI自动化和游戏推理等多项基准测试中实现了持续性能提升。UI-TARS-1.5在准确性和任务完成率方面超越了OpenAI的Operator以及Anthropic的Claude 3.7等领先模型,标志着AI代理领域的重要进展。
不同于依赖工具增强或功能调用架构的大型语言模型,UI-TARS-1.5采用了端到端训练方法,能够将视觉输入原生转化为类似人类的操作动作(如鼠标移动与键盘输入)。这一架构的关键目标是通过统一感知、认知与行动的集成式设计,实现对GUI和视觉内容的直接交互,从而更接近人类用户的真实操作方式。
UI-TARS-1.5构建在其前身的基础上,引入了多项架构与训练层面的改进,包括:
- 感知与推理的整合:模型将屏幕图像与文本指令联合编码,支持复杂任务的理解与视觉精确定位。通过“思考后行动”(Think-Then-Act)多步骤机制,高效分离高阶任务规划与低阶动作执行。
- 统一动作空间:采用平台无关的动作表示,可以在桌面、移动设备和游戏环境中实现一致的操作接口。
- 反思式自我进化:模型通过在线交互产生的轨迹数据不断自我改进,减少对人工训练数据的依赖。
这些创新显著强化了模型在长时间交互、错误恢复以及复合任务规划中的表现,为真实环境下的UI导航与控制提供了前所未有的可能性。
UI-TARS-1.5在多个基准测试中展现了卓越性能,涵盖GUI任务、屏幕理解以及游戏场景:
- GUI任务评估:在OSWorld的长上下文GUI任务中,UI-TARS-1.5达成了42.5%的成功率,远超竞争对手。在Windows Agent Arena和Android World测试中,成功率分别达到42.1%和64.2%,展现了其在桌面及移动平台上的强大适应性。
- 视觉定位与屏幕理解:在ScreenSpot-V2中,模型以94.2%的准确率精准定位GUI元素,而在更复杂的ScreenSpotPro基准中,则以61.6%的得分继续领先业界。
- 游戏环境任务:在Poki Games小游戏集合中,UI-TARS-1.5完成了100%的任务,而在Minecraft的开放场景中,针对“挖矿”与“击杀生物”任务分别取得42%和31%的成功率,证明了其在高阶规划中的潜力。
UI-TARS-1.5以Apache 2.0许可证开源,为研究人员与开发者提供了广泛的实用工具,包括预训练模型(托管于Hugging Face平台)、桌面版代理工具(支持自然语言控制桌面环境)、详细文档以及交互轨迹数据。这一开放策略将助力社区在语言与视觉的交互式系统领域展开进一步创新。
UI-TARS-1.5 的发布代表了多模态 AI 代理技术向前迈出的重要一步。通过整合视觉与语言的深度推理能力、记忆机制及动作规划,模型在多样化的交互环境中展现出强劲的应用价值。与追求通用 AI 的模型不同,UI-TARS-1.5 更注重特定任务的多模态推理,为如何通过视觉理解与语言操作实现软件交互提供了新的解决方案。
其开源特性不仅降低了相关技术的研究门槛,也为自动化系统、原生代理接口等领域的开发提供了可靠的平台,引领这一领域的持续发展与突破。
[AI之星网出品] [多模态AI代理] [GUI自动化与交互] [视觉语言模型] [开源AI技术] [刘智勇频道] [真机智能] [机器姬智能体] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网]
📚 更多资源分享:刘智勇频道第四卷
💾 百度网盘链接:
https://pan.baidu.com/s/1aFcvND80IXSO_GHlsI1R0w?pwd=qwer
🔑 提取码: qwer

开源多模态AI的推出太赞了,这是一场技术共享的盛宴,字节跳动的步伐总是快人一步!
技术发展如同一场接力赛,UI-TARS-1.5这一棒跑得如此精彩,真让人期待下一个突破!
从创新强化长任务表现来看,未来我们将拥有更智能更高效的AI助手,生活工作都更美好了!