数据决定模型表现AI2发布基准套件揭秘预训练数据对3万模型的影响

编辑：马青禾

研究机构推动大规模语言模型训练数据选择的新进展

人工智能领域的研究挑战总在不断深化，特别是在构建大型语言模型时，预训练数据的选择对于模型性能至关重要。近日，由美国艾伦人工智能研究所（AI2）联合华盛顿大学和宾夕法尼亚大学发布的DataDecide基准套件，为解决这一复杂问题提供了崭新方案。这项研究成果致力于揭示预训练数据对模型性能的实际影响，为科研人员提供统一的实验标准，推动人工智能研究的可重现性与高效性。

构建大规模语言模型通常需要投入巨大的计算资源，尤其是在尝试多种替代预训练数据集时。单次完整实验可能需要数十万小时的GPU计算，而现阶段很多研究人员仅能通过较小规模的实验来推测大模型的行为。然而，这些小规模实验很少公开，导致各实验室重复进行类似测试却缺乏统一的基准和方法。这种研究局限不仅影响研究结果的可重复性，也浪费了宝贵的计算资源，无法充分衡量开发成本与性能收益间的真实权衡。

为了解决上述问题，AI2研究团队推出了DataDecide基准套件。这套工具囊括了25种不同预训练语料，14种模型规模（从400万到10亿参数），以及1,050个模型共计超过30,000个检查点。模型性能被固定在一个预定义的“token-to-parameter”比例上，以确保计算效率的最大化。此外，研究还融合了领域消融、去重处理、质量筛选和数据源混合等多种预处理方法，对语料库进行了严谨的划分。

DataDecide的实验设计集中在三个核心维度：

模型规模：通过多达14种参数配置和早停种子运行（seed runs），确保训练超参数规模一致，同时定量分析结果变异性。
评估套件：配备十项多选任务的全面评估基准，包括语言理解、常识推理和代码生成等多维度性能指标。
开放资源共享：公开所有模型检查点和实验数据，使研究人员能够直接重复已有实验、扩展评估基准或开发新颖预测方法。

通过系统性分析，研究团队提出了四项实用的预训练数据选择指导：

单一规模基准的鲁棒性：在小规模模型上的语料排名预测准确率接近80%，可有效预测在10亿参数模型中表现最佳的数据集，而传统的扩展基准法反而未能超越这一直接方法。
任务敏感度分析：计算预算需求因任务不同而显著变化。例如，MMLU与ARC Easy等基准任务仅需极低计算资源即可达到可靠预测，而HellaSwag与SocialIQA则需数个数量级的计算量。
代理指标优选：连续性概率指标（如字符归一化准确率概率）在代码生成任务中明显优于离散准确率指标，其决策准确率从接近随机跃升至80%以上。
方差与分布考虑：高决策准确率与低实验波动性及较大数据表现分布范围密切相关，强调通过降低噪声或扩大数据可视范围来增强预测可靠性。

凭借开放共享的实验资源和基准，DataDecide将预训练数据选择从过去的“经验艺术”转变为“透明科学”。AI2不仅释放了所有模型和数据，还将代码和评估脚本上传至Hugging Face和GitHub，鼓励全球研究者复现结果、扩展基准范围并创新决策方法。在大规模语言模型持续推动计算资源需求增长的背景下，这项研究为减少成本和提升效率提供了一条明确路径，为人工智能研究的协作化和良性发展奠定坚实基础。

通过DataDecide，我们看到了一个更加可持续、高效和开放的研究未来，也让预训练数据选择从繁冗无序变得更加科学和可复现。这项研究不仅解锁了更多人工智能领域的潜能，也为学术界和工业界提供了具有参考意义的解决方案。

您的浏览器不支持视频标签。https://www.aistar.news/wp-content/uploads/2025/04/2626_100.mp4

[AI之星网出品] [人工智能预训练数据优化] [大型语言模型研究基准] [DataDecide工具解析] [计算资源高效利用] [刘智勇频道] [真机智能] [机器姬智能体] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网]

📚 更多资源分享：刘智勇频道第四卷

💾 百度网盘链接：
https://pan.baidu.com/s/1aFcvND80IXSO_GHlsI1R0w?pwd=qwer

🔑 提取码： qwer

LEAVE A REPLY

阿里支持月之暗面AI推出新模型Kimi超越ChatGPT和Claude编码能力且更实惠

Midjourney推出AI视频生成器

三星追赶中企超薄折叠屏手机苹果或将入局竞争

OpenAI携手终止合作ScaleAI创始人转投Meta

OpenAI发现AI模型内潜藏多种人格特质

Midjourney首推AI视频生成模型V1

OpenAI文件曝光通向通用人工智能之路需监管

谷歌AI模式升级可进行语音对话交互

谷歌Gemini对战宝可梦险失控

AI工具Llama背诵哈利波特全书引热议

亚马逊CEO称未来数年AI将缩减员工规模

Gemini2.5模型家族再升级

疫情如何重塑小岛秀夫对死亡搁浅2的构想

SK海力士股价创20年新高母公司拟建AI数据中心

OpenBMB发布MiniCPM4超高效语言模型赋能边缘设备

台湾对华为及中芯国际实施出口管控

AI重塑广告业格局业内大咖详解趋势

微软发布AI代码研究员深度探索大型系统代码与提交历史

AI颠覆广告业版图业内领袖解析背后逻辑

谷歌Veo3助力AI广告亮相NBA总决赛制作成本降95

微软推出AI代码研究员深度解析大型系统代码与提交历史

SakanaAI推出文本生成任务专属LLM适配器新技术

SakanaAI推创新技术文本生成专用LLM适配器

SakanaAI推突破技术文本生成专属任务适配器

Meta斥资143亿美元收购Scale详情曝光

Meta斥资143亿美元收购Scale细节曝光

更多相关文章

友情链接

内部链接

特别关注

订阅新闻