SalesforceAI推出xRouter用强化学习优化LLM成本调度

必读文章
李依然https://www.aistar.news
热衷于人工智能报道,关注脑科学技术,同时是一名音乐创作者,探索科技如何影响人类的情感与认知。

(2025年11月25日) Salesforce AI研究团队近日推出了一项创新性技术——xRouter,这是一种基于强化学习的路由系统,可实现对多个大型语言模型(LLM)的高效编排,同时优化成本与性能。这一技术填补了应用交互中选择调用不同语言模型的关键空白,旨在提高模型调用的效率,并降低整体运营成本。


xRouter 是一个以工具调用为核心的编排系统,利用强化学习设计的路由器骨干模型——Qwen2.5-7B-Instruct,通过指令调优的方式实现工具调用功能。它能够根据任务需求:
– 决定使用哪一个下游模型;
– 自动生成或选择最佳的响应;
– 调整调用形式与解决问题的策略。

该系统涵盖了超过20个LLM工具的选择,包括高端(例如 GPT-5、GPT-4.1)、标准、预算乃至于专用模型(例如 Kimi K2 和 DeepSeek-R1)。其中的“卸载池”包含了12个不同性能区间的模型,例如 GPT-5-Mini、GPT-OSS 系列以及 Gemini-2.5 变体。


xRouter 的核心创新在于将路由过程建模为一个强化学习问题。通过一种独特的奖励机制,该系统平衡了任务成功率与操作成本:
– 如果系统回答正确,奖励基于固定的成功信号,同时扣除调用成本;
– 如果回答错误,则不论调用成本多低,奖励依然为零。

具体来说,奖励函数定义为“准确性分数减去根据总调用成本计算的罚值”。为实现这一目标,研究人员设置了三种成本调整参数,分别对应 xRouter 的三个模型变体——xRouter-7B-1、xRouter-7B-2 和 xRouter-7B-3。


xRouter 基于 Reasoning360 数据集进行训练。该数据集涵盖数学推理、代码生成和一般性推理等复杂任务,并将任务难度分为简单、中等和困难。在训练过程中,研究团队还引入了更简单的问答类型任务,用以优化路由器自行回答的能力。此外,研究团队通过动态调整模型和成本选项,避免路由器对固定数据的过度拟合。


在实际推断中,xRouter 可在三种执行模式之间灵活切换:
1. 直接回答:无需调用任何工具,xRouter 利用骨干模型直接产生答案。
2. 综合生成:调用一个或多个下游模型并利用返回结果综合生成答案。
3. 选择最佳响应:调用多个下游模型,并选择最优答案作为最终输出。

实验表明,xRouter 通过灵活调用直接回答和综合生成的方式,以显著较低的成本实现了优质的任务完成效果。


在数学与推理基准(如 Olympiad Bench 和 MATH-500)上,xRouter-7B 变体的准确性接近 GPT-5,耗费的成本却不到其八分之一。在 LiveCodeBenchv5、GPQA 等评估任务集上,xRouter-7B-3 以较低成本达到了最高的平均准确性。根据团队数据统计,xRouter 的成本优化机制可在保持完成率的同时,实现多达80%的推理成本节约。这一“低成本高精度”的平衡使其成为了具有实际应用价值的生产级工具。


xRouter 的推出标志着异构 LLM 编排领域的一项重要突破。作为一款中型路由器,其通过强化学习框架 DAPO,并结合成功门控和成本惩罚机制,显著提高了多任务处理中的效率。研究团队认为,xRouter 在不牺牲准确性的基础上,已为多模型调用的实际生产环境带来了巨大价值。


xRouter 展现了 Salesforce AI 团队在推动人工智能技术民主化与经济适配方面的不懈努力。其优秀性能与成本效益的结合,为未来 LLM 应用场景中的智能决策提供了更多可能性。


您的浏览器不支持视频标签。https://www.aistar.news/wp-content/uploads/2025/11/3547_300.mp4

[AI之星网出品] [强化学习路由系统] [大型语言模型编排技术] [低成本高精度模型调用] [人工智能工具优化] [刘智勇频道] [RoboPony(真机智能)] [AiPitch.Top] [PixStock.online 设计智能体图库] [ZhenMeta.com] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [超维智策] [语料雨林] [高能判官] [片场狂徒] [暴徒外放] [Cognition OS] [Embodied OS] [黄金广告位]


📚 【精品资源】添加关注『AI之星网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》


LEAVE A REPLY

Please enter your comment!
Please enter your name here

- Advertisement -
最新新闻

AI行业超级政治行动委员会2025年筹资1.25亿美元

“当创新成为国运的锚点,统一的监管犹如大厦之基,唯有和谐共振,方能领航未来。”
- Advertisement -

更多相关文章