大型语言模型新指标事实真实性评估再升级

首发平台：AI之星网(www.AIstar.news)

谷歌DeepMind推出全新基准测试工具，推动大语言模型事实性进步

近日，Google DeepMind与Google Research联合推出了一项名为FACTS Grounding的全新基准测试工具。这一工具旨在评估大语言模型（LLMs）在生成基于给定输入事实的准确回复方面的表现，助力行业更好地解决模型「幻觉」问题，为真实世界中的应用场景奠定基础。

随着大语言模型在信息获取领域的影响力日益扩大，其在复杂任务中生成虚假信息的潜在风险也已显现。这种「幻觉」不仅削弱了用户对模型的信任，也掣肘了其在医疗、金融、法律等高要求领域的实际应用。FACTS Grounding的推出，正是为了应对这一关键挑战。

FACTS Grounding通过详细设计的基准测试，评估模型是否能够生成一致且准确的回复，同时确保结果完全基于提供的文档。这不仅包括是否满足用户请求的完整性，还评判是否能避免输入外信息的植入，真正做到「事实有据」。

FACTS Grounding 的测试数据集涵盖了 1,719 个特定场景，每一项任务均包含背景文档、特定系统指令和用户请求。这些任务需要模型对复杂文档内容进行综合分析，生成符合要求的长格式回复。测试用例跨越多样化领域，包括金融、科技、零售、医学与法律等，支持总结、问答生成与内容改写等任务类型。

为确保测评的公平与多样性，FACTS Grounding将这些测试用例分为公开集和保留集。这不仅保证了基准测试结果的权威性，也有效防范了基准污染与排名作弊行为。使用者可以自由访问公开数据集，而保留集的分数将成为最终排名的一部分。

此外，为了实现高效与精准的评估，FACTS Grounding引入了由领先模型担任的自动化评审系统。这些评审模型包括Gemini 1.5 Pro、GPT-4o和Claude 3.5 Sonnet，能够对不同模型生成的回复进行综合评价，从而确保得分更具客观性与通用性。评审分为两个阶段：首先评估回复内容是否有效回答用户问题，其次进一步判断回复是否完全基于文档内容，无不实信息。

为了推动行业技术进步，FACTS Grounding上线了实时更新的排行榜，目前已完成对多款主流大语言模型的评估，并公开了初步评分结果。排行榜不仅能直观对比各模型的事实依赖能力，还为研究者提供了优化模型算法的目标。

在此基础上，FACTS团队表示，这一项目只是提升模型事实性和可信度的开端。随着技术不断发展，FACTS Grounding也将在任务设计和评估方法上持续迭代，努力为业内打造更严谨、更先进的衡量标准。

FACTS团队诚邀全球人工智能研究人员参与，共同推动大语言模型的突破性进展。研究者可以下载公开数据集对模型进行自测，或将模型提交至FACTS团队进行全面评估。通过广泛的协作与交流，FACTS Grounding将助力人工智能系统变得更加可靠、安全，为社会带来积极价值。

FACTS Grounding由一个跨领域专家团队共同开发，包括Alon Jacovi、Andrew Wang、Chris Alberti等核心成员，并获得包括Avinatan Hassidim、Fernando Pereira、Koray Kavukcuoglu等一系列顶尖学者的支持。在多方共同努力下，这一合作项目为推动LLMs的可信度设定了全新标杆。

FACTS Grounding的发布不仅为行业提供了一种全新的事实性测量工具，更展现出Google DeepMind在前沿技术探索中的深厚实力。可以预见，在这一基准测试的推动下，未来的大语言模型将更具可靠性，从而在更广范围内造福全球用户。

您的浏览器不支持视频标签。https://www.aistar.news/wp-content/uploads/2025/03/2351_100.mp4

[AI之星网出品] [大语言模型排行榜] [模型事实依赖能力评估] [人工智能可信性提升] [Google DeepMind基准测试] [刘智勇频道] [真机智能] [机器姬智能体] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网]

📚 更多资源分享：刘智勇频道第三卷

💾 百度网盘链接： https://pan.baidu.com/s/1Et35ZIQQNm2psDrzfA_SXw?pwd=qwer

🔑 提取码： qwer

LEAVE A REPLY

Robbyant开源LingBotWorld实时交互模拟与智能体AI模型

FireblocksCEO称朝鲜关联招聘骗局瞄准LinkedIn用户

AI行业超级政治行动委员会2025年筹资1.25亿美元

Sandisk股价大涨7AI需求强劲推动业绩

使用PyKEEN实现知识图谱嵌入的训练优化与评估

FireblocksCEO称朝鲜关联招聘骗局瞄准LinkedIn用户

AI2发布SERA用监督训练实现代码库自动化工作流

AI行业超级政治行动委员会2025年筹资1.25亿美元

揭秘定制AI深度伪造真人女性的市场

特斯拉2025年向马斯克xAI出售4.3亿美元Megapack电池

亚马逊或将于数周内投资OpenAI最高达500亿美元

蚂蚁集团发布LingBot-VLA视觉语言行动机器人模型

英伟达AI热潮离不开荷兰芯片设备商ASML

谷歌DeepMind发布AlphaGenome利用混合模型解码人类基因组

SK海力士年利润首超三星AI重塑竞争格局

这家中国初创公司欲打造无需植入的脑机接口

Meta创始人扎克伯格获华尔街支持继续投资AI

马斯克称特斯拉将停产ModelS和X转产Optimus机器人

芯片巨头ASML股价涨7AI热潮推动订单创新高

韩国SK海力士将在美国设立AI专门公司

SK海力士因AI内存短缺推高盈利2025年利润翻倍

UniRG利用多模态强化学习扩展医学影像报告生成

Meta与康宁达成协议斥资最高60亿美元购买光纤用于AI数据中心

TikTok将和解社交媒体成瘾案涉Meta与YouTube继续推进

DarioAmodei警告AI或将严重冲击就业

Mozilla组建AI联盟挑战OpenAI和Anthropic

更多相关文章

友情链接

内部链接

特别关注

订阅新闻