首次发布平台:AI之星网(www.AIstar.news)
字节跳动联合多所顶尖高校推出开源大规模强化学习系统DAPO
近年来,强化学习已成为推动大语言模型(LLM)发展的核心技术,赋予它们在复杂任务中更强大的推理能力。然而,由于主要行业玩家对关键训练细节的披露不完整,学术界在复现最前沿强化学习技术时面临巨大挑战。这种信息的不透明性限制了领域内的科学进步和合作研究。为打破这一瓶颈,字节跳动研究院联合清华大学、香港大学推出了一个名为DAPO的开源强化学习系统,为未来的研究提供了可复现的大规模方法论。
DAPO备受关注的原因在于它不仅公开了算法细节、训练过程和数据集,还填补了当前大语言模型推理能力提升的开源空白。基于Verl框架开发,DAPO不仅包含全面的训练代码,还提供了专为数学推理任务设计的数据集DAPO-Math-17K。系统的技术基础围绕四大创新展开,针对强化学习中的关键难题提出了有效解决方案:
- Clip-Higher:通过优化策略更新中的剪辑比率,解决了模型“熵坍塌”问题,从而促进模型输出的多样性。
- 动态采样(Dynamic Sampling):通过动态过滤训练样本,显著提高样本利用效率,增强梯度信号的稳定性。
- 基于Token的策略梯度损失(Token-level Policy Gradient Loss):改进损失计算方式,从样本层面精确划分到Token层面,优化处理不同长度推理序列的能力。
- 超长奖励塑形(Overlong Reward Shaping):引入对过长回答的适度惩罚,指导模型更简洁高效地完成推理。
在实践中,DAPO展现了卓越的性能提升。在2024年美国数学邀请赛(American Invitational Mathematics Examination, AIME)基准测试中,使用Qwen-2.5-32B基础模型的DAPO系统取得了50分的优异成绩,相较于此前的DeepSeek-R1-Zero-Qwen-32B(47分)实现了显著进步。而这一结果仅利用了约一半的训练步数,充分展现了DAPO的高效性。进一步分析表明,DAPO引入的每项技术都有助于分数提升,从最初的基线30分逐步提高到完整系统方法下的50分。
不仅如此,实验还揭示了DAPO在推理模式上的动态演进。早期,模型倾向于线性处理任务,缺乏反思能力;而随着训练的深入,模型表现出更多的迭代复核行为,逐渐形成了“自我审查”的推理能力。这种转变进一步验证了强化学习不仅可以优化现有的推理路径,还能够培养出全新的认知策略。
随着DAPO系统的发布,字节跳动与合作高校再次强调开放与协同对于科学进步的重要性。通过详尽的文档、全面的数据集以及完整的代码共享,DAPO为学术界和工业界提供了深入探索大语言模型强化学习的工具。这一项目的成功,不仅展示了透明化研究方法的强大潜力,也为强化学习的未来发展树立了合作创新的典范。
从字节跳动到清华大学、香港大学,这项开源倡议再次证明,跨团队的协作与技术开放,是推动人工智能及其多领域应用走向繁荣的最佳路径。DAPO的发布无疑将激励更多研究者加入,开启强化学习更具创造性的未来。
[AI之星网出品] [强化学习开源系统] [大语言模型推理能力] [DAPO算法创新] [人工智能协作研究] [刘智勇频道][机器姬智能体][真机智能][机器洞察网][AI之星网][风投高科网][猛虎财经网][硅基科学网]
从北京到香港,这阵学术和企业联动的大风,真心理解了什么叫科技无国界。