SalesforceAI推出xRouter用强化学习优化LLM成本调度

（2025年11月25日） Salesforce AI研究团队近日推出了一项创新性技术——xRouter，这是一种基于强化学习的路由系统，可实现对多个大型语言模型（LLM）的高效编排，同时优化成本与性能。这一技术填补了应用交互中选择调用不同语言模型的关键空白，旨在提高模型调用的效率，并降低整体运营成本。

xRouter 是一个以工具调用为核心的编排系统，利用强化学习设计的路由器骨干模型——Qwen2.5-7B-Instruct，通过指令调优的方式实现工具调用功能。它能够根据任务需求：
– 决定使用哪一个下游模型；
– 自动生成或选择最佳的响应；
– 调整调用形式与解决问题的策略。

该系统涵盖了超过20个LLM工具的选择，包括高端（例如 GPT-5、GPT-4.1）、标准、预算乃至于专用模型（例如 Kimi K2 和 DeepSeek-R1）。其中的“卸载池”包含了12个不同性能区间的模型，例如 GPT-5-Mini、GPT-OSS 系列以及 Gemini-2.5 变体。

xRouter 的核心创新在于将路由过程建模为一个强化学习问题。通过一种独特的奖励机制，该系统平衡了任务成功率与操作成本：
– 如果系统回答正确，奖励基于固定的成功信号，同时扣除调用成本；
– 如果回答错误，则不论调用成本多低，奖励依然为零。

具体来说，奖励函数定义为“准确性分数减去根据总调用成本计算的罚值”。为实现这一目标，研究人员设置了三种成本调整参数，分别对应 xRouter 的三个模型变体——xRouter-7B-1、xRouter-7B-2 和 xRouter-7B-3。

xRouter 基于 Reasoning360 数据集进行训练。该数据集涵盖数学推理、代码生成和一般性推理等复杂任务，并将任务难度分为简单、中等和困难。在训练过程中，研究团队还引入了更简单的问答类型任务，用以优化路由器自行回答的能力。此外，研究团队通过动态调整模型和成本选项，避免路由器对固定数据的过度拟合。

在实际推断中，xRouter 可在三种执行模式之间灵活切换：
1. 直接回答：无需调用任何工具，xRouter 利用骨干模型直接产生答案。
2. 综合生成：调用一个或多个下游模型并利用返回结果综合生成答案。
3. 选择最佳响应：调用多个下游模型，并选择最优答案作为最终输出。

实验表明，xRouter 通过灵活调用直接回答和综合生成的方式，以显著较低的成本实现了优质的任务完成效果。

在数学与推理基准（如 Olympiad Bench 和 MATH-500）上，xRouter-7B 变体的准确性接近 GPT-5，耗费的成本却不到其八分之一。在 LiveCodeBenchv5、GPQA 等评估任务集上，xRouter-7B-3 以较低成本达到了最高的平均准确性。根据团队数据统计，xRouter 的成本优化机制可在保持完成率的同时，实现多达80%的推理成本节约。这一“低成本高精度”的平衡使其成为了具有实际应用价值的生产级工具。

xRouter 的推出标志着异构 LLM 编排领域的一项重要突破。作为一款中型路由器，其通过强化学习框架 DAPO，并结合成功门控和成本惩罚机制，显著提高了多任务处理中的效率。研究团队认为，xRouter 在不牺牲准确性的基础上，已为多模型调用的实际生产环境带来了巨大价值。

xRouter 展现了 Salesforce AI 团队在推动人工智能技术民主化与经济适配方面的不懈努力。其优秀性能与成本效益的结合，为未来 LLM 应用场景中的智能决策提供了更多可能性。