大型语言模型新指标事实真实性评估再升级

必读文章
陈子轩https://www.aistar.news
关注人工智能和可再生能源的创新,报道太阳能与风能技术,倡导绿色未来,曾参与多个国际能源峰会。

首发平台:AI之星网(www.AIstar.news)

谷歌DeepMind推出全新基准测试工具,推动大语言模型事实性进步

近日,Google DeepMind与Google Research联合推出了一项名为FACTS Grounding的全新基准测试工具。这一工具旨在评估大语言模型(LLMs)在生成基于给定输入事实的准确回复方面的表现,助力行业更好地解决模型「幻觉」问题,为真实世界中的应用场景奠定基础。

随着大语言模型在信息获取领域的影响力日益扩大,其在复杂任务中生成虚假信息的潜在风险也已显现。这种「幻觉」不仅削弱了用户对模型的信任,也掣肘了其在医疗、金融、法律等高要求领域的实际应用。FACTS Grounding的推出,正是为了应对这一关键挑战。

FACTS Grounding通过详细设计的基准测试,评估模型是否能够生成一致且准确的回复,同时确保结果完全基于提供的文档。这不仅包括是否满足用户请求的完整性,还评判是否能避免输入外信息的植入,真正做到「事实有据」。

FACTS Grounding 的测试数据集涵盖了 1,719 个特定场景,每一项任务均包含背景文档、特定系统指令和用户请求。这些任务需要模型对复杂文档内容进行综合分析,生成符合要求的长格式回复。测试用例跨越多样化领域,包括金融、科技、零售、医学与法律等,支持总结、问答生成与内容改写等任务类型。

为确保测评的公平与多样性,FACTS Grounding将这些测试用例分为公开集和保留集。这不仅保证了基准测试结果的权威性,也有效防范了基准污染与排名作弊行为。使用者可以自由访问公开数据集,而保留集的分数将成为最终排名的一部分。

此外,为了实现高效与精准的评估,FACTS Grounding引入了由领先模型担任的自动化评审系统。这些评审模型包括Gemini 1.5 Pro、GPT-4o和Claude 3.5 Sonnet,能够对不同模型生成的回复进行综合评价,从而确保得分更具客观性与通用性。评审分为两个阶段:首先评估回复内容是否有效回答用户问题,其次进一步判断回复是否完全基于文档内容,无不实信息。

为了推动行业技术进步,FACTS Grounding上线了实时更新的排行榜,目前已完成对多款主流大语言模型的评估,并公开了初步评分结果。排行榜不仅能直观对比各模型的事实依赖能力,还为研究者提供了优化模型算法的目标。

在此基础上,FACTS团队表示,这一项目只是提升模型事实性和可信度的开端。随着技术不断发展,FACTS Grounding也将在任务设计和评估方法上持续迭代,努力为业内打造更严谨、更先进的衡量标准。

FACTS团队诚邀全球人工智能研究人员参与,共同推动大语言模型的突破性进展。研究者可以下载公开数据集对模型进行自测,或将模型提交至FACTS团队进行全面评估。通过广泛的协作与交流,FACTS Grounding将助力人工智能系统变得更加可靠、安全,为社会带来积极价值。

FACTS Grounding由一个跨领域专家团队共同开发,包括Alon Jacovi、Andrew Wang、Chris Alberti等核心成员,并获得包括Avinatan Hassidim、Fernando Pereira、Koray Kavukcuoglu等一系列顶尖学者的支持。在多方共同努力下,这一合作项目为推动LLMs的可信度设定了全新标杆。

FACTS Grounding的发布不仅为行业提供了一种全新的事实性测量工具,更展现出Google DeepMind在前沿技术探索中的深厚实力。可以预见,在这一基准测试的推动下,未来的大语言模型将更具可靠性,从而在更广范围内造福全球用户。


您的浏览器不支持视频标签。https://www.aistar.news/wp-content/uploads/2025/03/2351_100.mp4

[AI之星网出品] [大语言模型排行榜] [模型事实依赖能力评估] [人工智能可信性提升] [Google DeepMind基准测试] [刘智勇频道] [真机智能] [机器姬智能体] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网]


📚 更多资源分享:刘智勇频道第三卷

💾 百度网盘链接: https://pan.baidu.com/s/1Et35ZIQQNm2psDrzfA_SXw?pwd=qwer

🔑 提取码: qwer


LEAVE A REPLY

Please enter your comment!
Please enter your name here

- Advertisement -
最新新闻

谷歌Meet新增实时外语翻译功能

“科技打破语言的边界,但唯有理解与共情,才能真正连接心灵。” — 科技人类命运共同体
- Advertisement -

更多相关文章