清华与上科大突破语言模型无标签自进化技术问世

必读文章
李依然https://www.aistar.news
热衷于人工智能报道,关注脑科学技术,同时是一名音乐创作者,探索科技如何影响人类的情感与认知。

在人工智能领域的一项重要进展中,清华大学与上海人工智能实验室的研究团队提出了一种名为“测试时强化学习”(Test-Time Reinforcement Learning, TTRL)的新框架。这一方法能够通过无标签数据驱动大语言模型(LLMs)的自适应能力,自主学习并持续优化,为大模型在动态场景的实际应用提供了全新思路。

尽管当前的大语言模型在推理能力方面取得了显著进步,但依赖大量标注数据的训练流程仍然是现有技术的重要局限。传统的强化学习框架,例如强化学习奖励微调(RLHF),需要高质量的人类反馈和标注数据来对模型进行校正和优化。然而,在面对训练数据之外的新任务或分布变化时,这些模型的表现往往出现明显劣化。如何在缺乏明确监督的条件下使模型持续改进,成为学术界和工业界亟需解决的问题。

TTRL框架的核心在于利用预训练语言模型的“内在先验”,通过多样化生成结果的多数表决确定伪标签,从而实现无监督学习与强化学习的结合。具体而言,该框架的工作机制包含两个阶段:

  1. 伪标签估计:针对每条输入,模型生成多个输出,最频繁出现的预测结果被视为伪标签。
  2. 奖励分配与策略优化:对于与伪标签一致的模型输出,框架通过强化学习算法进行正向奖励,使模型不断调整生成策略,以匹配确定的伪标签。

这一方法不仅避免了传统监督学习所需的昂贵标注成本,同时依托伪标签生成的多数表决机制,能够在无明确监督条件下为语言模型构建有效的学习信号。

研究团队在多个数学推理任务(包括AIME 2024、AMC以及MATH-500)上对TTRL的效果进行了全面评估,结果验证了这一框架的显著优势。例如:

  • 对于Qwen2.5-Math-7B模型,测试任务AIME 2024的准确率从16.7%显著提升至43.3%,实现了159.3%的增幅,且完全基于无标签数据。
  • 在MATH-500数据集上,较小规模的Qwen2.5-Math-1.5B模型也从33.0%的初始表现提高到80.0%,突出展示了TTRL在模型规模和任务难度上的普适性。

此外,实验结果表明,TTRL框架不仅支持跨任务适应,还能够超越自身伪标签的上界精度——实现高于伪标签初始质量的泛化能力。研究进一步发现,TTRL所学得的改进策略具有较好的迁移性,即使在不同数据集间进行训练与测试,性能提升依然持久。

TTRL为强化学习在大语言模型中的应用提供了一种全新视角。通过将模型生成的输出作为监督的代理,这一框架摆脱了昂贵的人工标注,同时显现出强大的任务拓展能力和数学推理能力。尽管当前工作主要聚焦于数学领域,其核心思想——如伪标签驱动的自适应学习与无标签强化学习——具备向更广泛领域推广的潜力。

未来的研究方向可能包括进一步优化TTRL的理论收敛性探索,评估其在交互式或多智能体场景中的适用性,以及扩展至科学研究、教育和工业级动态任务中的应用场景。无论是在应对分布变化还是未见任务类别的挑战中,像TTRL这样的框架都为大模型的持续进化铺平了道路。

作为一种具有高度创新性的学习范式,TTRL成功突破了传统强化学习与监督学习的界限,为实现在动态、多样化场景中的无监督模型训练提供了一种高效的新工具。清华大学与上海AI实验室的这一研究不仅展现了技术潜能,更为AI发展打开了广阔的新篇章。


您的浏览器不支持视频标签。https://www.aistar.news/wp-content/uploads/2025/04/2683_100.mp4

[AI之星网出品] [大语言模型强化学习] [无监督学习新方法] [伪标签驱动AI优化] [动态任务自适应框架] [刘智勇频道] [真机智能] [机器姬智能体] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [黄金广告位]


📚 更多资源分享:刘智勇频道第四卷

💾 百度网盘链接:
https://pan.baidu.com/s/1aFcvND80IXSO_GHlsI1R0w?pwd=qwer

🔑 提取码: qwer


LEAVE A REPLY

Please enter your comment!
Please enter your name here

- Advertisement -
最新新闻

特斯拉2025年向马斯克xAI出售4.3亿美元Megapack电池

“能源与智能的交汇,是进步的发动机;但若罔顾社区福祉,再远大的愿景也只是一场孤行的豪赌。”
- Advertisement -

更多相关文章