(2025年11月25日) Salesforce AI研究团队近日推出了一项创新性技术——xRouter,这是一种基于强化学习的路由系统,可实现对多个大型语言模型(LLM)的高效编排,同时优化成本与性能。这一技术填补了应用交互中选择调用不同语言模型的关键空白,旨在提高模型调用的效率,并降低整体运营成本。
xRouter 是一个以工具调用为核心的编排系统,利用强化学习设计的路由器骨干模型——Qwen2.5-7B-Instruct,通过指令调优的方式实现工具调用功能。它能够根据任务需求:
– 决定使用哪一个下游模型;
– 自动生成或选择最佳的响应;
– 调整调用形式与解决问题的策略。
该系统涵盖了超过20个LLM工具的选择,包括高端(例如 GPT-5、GPT-4.1)、标准、预算乃至于专用模型(例如 Kimi K2 和 DeepSeek-R1)。其中的“卸载池”包含了12个不同性能区间的模型,例如 GPT-5-Mini、GPT-OSS 系列以及 Gemini-2.5 变体。
xRouter 的核心创新在于将路由过程建模为一个强化学习问题。通过一种独特的奖励机制,该系统平衡了任务成功率与操作成本:
– 如果系统回答正确,奖励基于固定的成功信号,同时扣除调用成本;
– 如果回答错误,则不论调用成本多低,奖励依然为零。
具体来说,奖励函数定义为“准确性分数减去根据总调用成本计算的罚值”。为实现这一目标,研究人员设置了三种成本调整参数,分别对应 xRouter 的三个模型变体——xRouter-7B-1、xRouter-7B-2 和 xRouter-7B-3。
xRouter 基于 Reasoning360 数据集进行训练。该数据集涵盖数学推理、代码生成和一般性推理等复杂任务,并将任务难度分为简单、中等和困难。在训练过程中,研究团队还引入了更简单的问答类型任务,用以优化路由器自行回答的能力。此外,研究团队通过动态调整模型和成本选项,避免路由器对固定数据的过度拟合。
在实际推断中,xRouter 可在三种执行模式之间灵活切换:
1. 直接回答:无需调用任何工具,xRouter 利用骨干模型直接产生答案。
2. 综合生成:调用一个或多个下游模型并利用返回结果综合生成答案。
3. 选择最佳响应:调用多个下游模型,并选择最优答案作为最终输出。
实验表明,xRouter 通过灵活调用直接回答和综合生成的方式,以显著较低的成本实现了优质的任务完成效果。
在数学与推理基准(如 Olympiad Bench 和 MATH-500)上,xRouter-7B 变体的准确性接近 GPT-5,耗费的成本却不到其八分之一。在 LiveCodeBenchv5、GPQA 等评估任务集上,xRouter-7B-3 以较低成本达到了最高的平均准确性。根据团队数据统计,xRouter 的成本优化机制可在保持完成率的同时,实现多达80%的推理成本节约。这一“低成本高精度”的平衡使其成为了具有实际应用价值的生产级工具。
xRouter 的推出标志着异构 LLM 编排领域的一项重要突破。作为一款中型路由器,其通过强化学习框架 DAPO,并结合成功门控和成本惩罚机制,显著提高了多任务处理中的效率。研究团队认为,xRouter 在不牺牲准确性的基础上,已为多模型调用的实际生产环境带来了巨大价值。
xRouter 展现了 Salesforce AI 团队在推动人工智能技术民主化与经济适配方面的不懈努力。其优秀性能与成本效益的结合,为未来 LLM 应用场景中的智能决策提供了更多可能性。
[AI之星网出品] [强化学习路由系统] [大型语言模型编排技术] [低成本高精度模型调用] [人工智能工具优化] [刘智勇频道] [RoboPony(真机智能)] [AiPitch.Top] [PixStock.online 设计智能体图库] [ZhenMeta.com] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [超维智策] [语料雨林] [高能判官] [片场狂徒] [暴徒外放] [Cognition OS] [Embodied OS] [黄金广告位]
📚 【精品资源】添加关注『AI之星网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》

从推断覆盖到实际应用,感觉这才是将理论落实到实践的最佳范例,给开发者们点赞!
不仅是技术,更是团队的智慧结晶,敢于挑战极限,才有惊艳的成果!
xRouter 的实验结果让我们再次相信,追梦的步伐可以迈得如此自信与稳妥!
这样的推出不仅是个里程碑,更是让国产技术在国际舞台上铿锵发声,太给力了!
2025年已经在路上了,前沿技术保持这种节奏,未来一定越来越精彩!
涵盖超过20个LLMs?这已经不仅是技术突破,更是对行业的颠覆,未来可期!