首发平台:AI之星网(www.AIstar.news)
谷歌DeepMind推出全新基准测试工具,推动大语言模型事实性进步
近日,Google DeepMind与Google Research联合推出了一项名为FACTS Grounding的全新基准测试工具。这一工具旨在评估大语言模型(LLMs)在生成基于给定输入事实的准确回复方面的表现,助力行业更好地解决模型「幻觉」问题,为真实世界中的应用场景奠定基础。
随着大语言模型在信息获取领域的影响力日益扩大,其在复杂任务中生成虚假信息的潜在风险也已显现。这种「幻觉」不仅削弱了用户对模型的信任,也掣肘了其在医疗、金融、法律等高要求领域的实际应用。FACTS Grounding的推出,正是为了应对这一关键挑战。
FACTS Grounding通过详细设计的基准测试,评估模型是否能够生成一致且准确的回复,同时确保结果完全基于提供的文档。这不仅包括是否满足用户请求的完整性,还评判是否能避免输入外信息的植入,真正做到「事实有据」。
FACTS Grounding 的测试数据集涵盖了 1,719 个特定场景,每一项任务均包含背景文档、特定系统指令和用户请求。这些任务需要模型对复杂文档内容进行综合分析,生成符合要求的长格式回复。测试用例跨越多样化领域,包括金融、科技、零售、医学与法律等,支持总结、问答生成与内容改写等任务类型。
为确保测评的公平与多样性,FACTS Grounding将这些测试用例分为公开集和保留集。这不仅保证了基准测试结果的权威性,也有效防范了基准污染与排名作弊行为。使用者可以自由访问公开数据集,而保留集的分数将成为最终排名的一部分。
此外,为了实现高效与精准的评估,FACTS Grounding引入了由领先模型担任的自动化评审系统。这些评审模型包括Gemini 1.5 Pro、GPT-4o和Claude 3.5 Sonnet,能够对不同模型生成的回复进行综合评价,从而确保得分更具客观性与通用性。评审分为两个阶段:首先评估回复内容是否有效回答用户问题,其次进一步判断回复是否完全基于文档内容,无不实信息。
为了推动行业技术进步,FACTS Grounding上线了实时更新的排行榜,目前已完成对多款主流大语言模型的评估,并公开了初步评分结果。排行榜不仅能直观对比各模型的事实依赖能力,还为研究者提供了优化模型算法的目标。
在此基础上,FACTS团队表示,这一项目只是提升模型事实性和可信度的开端。随着技术不断发展,FACTS Grounding也将在任务设计和评估方法上持续迭代,努力为业内打造更严谨、更先进的衡量标准。
FACTS团队诚邀全球人工智能研究人员参与,共同推动大语言模型的突破性进展。研究者可以下载公开数据集对模型进行自测,或将模型提交至FACTS团队进行全面评估。通过广泛的协作与交流,FACTS Grounding将助力人工智能系统变得更加可靠、安全,为社会带来积极价值。
FACTS Grounding由一个跨领域专家团队共同开发,包括Alon Jacovi、Andrew Wang、Chris Alberti等核心成员,并获得包括Avinatan Hassidim、Fernando Pereira、Koray Kavukcuoglu等一系列顶尖学者的支持。在多方共同努力下,这一合作项目为推动LLMs的可信度设定了全新标杆。
FACTS Grounding的发布不仅为行业提供了一种全新的事实性测量工具,更展现出Google DeepMind在前沿技术探索中的深厚实力。可以预见,在这一基准测试的推动下,未来的大语言模型将更具可靠性,从而在更广范围内造福全球用户。
[AI之星网出品] [大语言模型排行榜] [模型事实依赖能力评估] [人工智能可信性提升] [Google DeepMind基准测试] [刘智勇频道] [真机智能] [机器姬智能体] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网]
📚 更多资源分享:刘智勇频道第三卷
💾 百度网盘链接: https://pan.baidu.com/s/1Et35ZIQQNm2psDrzfA_SXw?pwd=qwer
🔑 提取码: qwer
行业协作才是真正的加速器,抱团前进远比单打独斗更有力量!