能否通过优化训练方法而非扩展参数规模,使3B参数模型达到30B级别的推理水平?Nanbeige LLM实验室在这一问题上给出了一项令人瞩目的成果。他们研发的Nanbeige4-3B——一个具有3B参数的小型语言模型系列,通过对数据质量、课程调度、模型蒸馏以及强化学习的极致优化,展现了跨参数规模的推理能力。
Nanbeige4-3B提供了两个主要模型检查点:Nanbeige4-3B-Base与Nanbeige4-3B-Thinking。实验室进一步对优化推理的模型进行了严苛评估,并与Qwen3系列模型(4B至32B参数规模)进行对比。在高级推理基准AIME 2024上,Nanbeige4-3B-2511的成绩为90.4,而Qwen3-32B-2504仅为81.4。在复杂问答基准GPQA-Diamond中,Nanbeige4-3B-2511取得了82.2的分数,远超Qwen3-14B-2504的64.0与Qwen3-32B-2504的68.7。这些数据直接证明了“3B击败10倍规模”的实验设想。
此外,在工具使用评估BFCL-V4中,Nanbeige4-3B的得分为53.8,对比Qwen3-32B的47.9与Qwen3-30B-A3B的48.6表现突出。在Arena-Hard V2基准上,Nanbeige4-3B的60.0成绩与表中记录的最高分持平。然而,该模型并未在所有领域达到最佳表现,例如,Fullstack-Bench基准上以48.0逊于Qwen3-14B的55.7和Qwen3-32B的58.2;而在SuperGPQA评估中,Nanbeige4-3B以53.2稍低于Qwen3-32B的54.1。
在预训练环节,实验室采用了混合标签与相似性评分相结合的方式对数据进行处理。他们将标签维度精简为20,并发现内容相关标签比格式标签更具预测性,同时细粒度评分体系(0到9评分)优于二元标记。他们随后构建了一个包含数千亿数据条目并支持混合文本与向量检索的数据库,经过筛选后留下了12.5万亿令牌的高质量数据,再从中选出6.5万亿更高质量的数据集,并进行2轮或以上的抽样,最终建立了23万亿令牌的训练语料库。这一流程不仅局限于“清理数据”,而是通过评分、检索和重采样确保数据的实用性。
Nanbeige4-3B模型训练在稳定学习阶段引入了细粒度调度(FG-WSD, Fine-Grained Warmup-Stable-Decay)。这种方法区别于传统的通用数据采样,在稳定训练阶段逐步集中于更高质量的数据。通过FG-WSD的应用,实验团队在1B参数模型中进行的实验显示GSM8K基准成绩从27.1提高到34.3;而另外一些基准(如CMATH、BBH、MMLU等)也得到了普遍提升。在最终的3B规模训练中,团队将训练分为“暖阶段”“多样化稳定阶段”“高质量稳定阶段”以及“衰减阶段”,并在衰减阶段使用ABF(Adaptive Batch-Fusion)将上下文长度扩展至64K。
模型的后训练以冷启动监督微调(SFT)开始,主要使用约3000万份以数学、科学和代码为核心的QA任务,优化模型在32K上下文长度下的推理能力,并确保高比例的任务集中于数学推理(50%)、科学推理(30%)以及代码任务(20%)。实验显示,当冷启动SFT指令规模从0.5M扩展到35M时,AIME 2025和GPQA-Diamond基准都持续表现出显著的性能提升,且未表现出明显的饱和迹象。接下来的全局SFT阶段,则扩展为64K上下文长度的多样化任务,覆盖一般对话、写作、工具使用规划、高难度推理以及代码任务,并加入解决方案优化和链式推理(CoT)重建环节。该阶段采用迭代生成、批判与修正的流程,以改进低质量的推理路径,提升过程的一致性与可靠性。
蒸馏阶段采用双层偏好蒸馏(DPD, Dual-Level Preference Distillation)。训练目标不仅匹配教师模型的单词级分布,还通过序列级双参数优化(DPO)最大化正负样本的间隙。正样本来自教师模型Nanbeige3.5-Pro,而负样本来自学生模型3B,并在两种样本之上应用蒸馏,以减少自信误差并提升答案多样性。这一流程确保小规模模型在推理领域超越更大的开放模型。实验数据显示,Nanbeige4-3B-Thinking的AIME 2024平均成绩(avg@8)为90.4,比Qwen3-32B的81.4高出显著;GPQA-Diamond平均成绩(avg@3)达到82.2,远高于Qwen3-14B的64.0。
Nanbeige4-3B 的研究成果重新定义了语言模型的训练逻辑:与传统方法单纯依赖参数规模扩展不同,团队通过数据优先的精细调度与监督优化,将数据处理与模型训练结合,实现了大幅度提升。这不仅为小模型的未来发展提供了指导,还向业界传递了一个重要信号:通过关键训练方法的优化,小模型也能在推理能力上追平,甚至超越大规模模型。
[AI之星网出品] [小型语言模型优化] [语言模型蒸馏技术] [训练数据质量提升] [推理能力跨参数规模创新] [刘智勇频道] [RoboPony(真机智能)] [AiPitch.Top] [PixStock.online 设计智能体图库] [ZhenMeta.com] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [超维智策] [语料雨林] [高能判官] [片场狂徒] [暴徒外放] [Cognition OS] [Embodied OS] [黄金广告位]
📚 【精品资源】添加关注『AI之星网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》

突然觉得强大的AI技术背后都是科研人员无数个日夜的汗水!致敬所有奋斗在前沿的团队!
实验室的预训练策略真的很有想法,能从设定中看出对细节的敏锐掌控,科研精神满满!