Saturday, May 3, 2025

斯坦福推出SourceCheckup助力AI应对医疗引用难题

必读文章
陈子轩
陈子轩https://www.aistar.news
关注人工智能和可再生能源的创新,报道太阳能与风能技术,倡导绿色未来,曾参与多个国际能源峰会。

Image 0

首次发布平台:AI之星网(www.AIstar.news)

随着大语言模型(LLMs)在医疗领域的应用日益增多,确保其输出内容具有可靠的来源支持变得愈发重要。然而,当前研究表明,现有LLMs在引用医疗来源时仍然存在显著不足,这对其临床使用的安全性构成了潜在威胁。为应对这一挑战,斯坦福大学研究团队推出了一款名为SourceCheckup的自动化工具,旨在评估LLMs生成内容的真实性及其引用来源的可靠性。

Image 1

虽然尚无LLMs被FDA批准用于临床决策,但包括GPT-4、Claude和MedPaLM等顶尖模型已经在诸如USMLE等标准化考试中表现超越了许多临床医生。这些模型已在心理健康支持、罕见病诊断等领域展现出实践潜力。然而,由于生成不实或未经验证信息(即所谓的“幻觉现象”)的问题,这些工具在医疗环境中的应用仍面临极大争议。医疗信息的不准确,尤其是在临床场景下,可能导致患者严重的健康风险。

尽管近年来技术改进(如指令微调)使得模型在生成内容时可提供一定来源支持,但很多来源往往无法可靠证明模型的主张。以往的研究,如WebGPT、ExpertQA和HAGRID等数据集,主要通过手动方法评估LLMs的引用可靠性,但这种方式耗时费力,难以扩展。即便一些较新方法试图借助LLMs自身评估引用质量,如ALCE、AttributedQA和FactScore,也未能彻底解决准确性不足的问题。

为填补这一空白,斯坦福大学研究团队开发了SourceCheckup工具,用于自动化评估LLMs在医疗领域的来源验证能力。在一项涵盖800道医疗问题和超过58,000对来源陈述数据的研究中,SourceCheckup的结果令人警醒:50%至90%的LLMs生成回答未能得到引用来源的充分支持。例如,GPT-4约有30%的回答内容缺乏有效依据。此外,即便具备访问网络能力的LLMs,其引用来源的可靠性依旧存在不稳定性。

SourceCheckup工具通过精细化的流程进行评估。研究团队一部分问题取自Reddit的r/AskDocs论坛,另一部分则由GPT-4基于MayoClinic文本生成。每个回答被解析为可验证陈述,与引用来源逐一匹配并评分。评估指标包括URL有效性、引用支持率等,多项研究环节均得到了医学专家的验证。结果显示,尽管在问题生成和陈述匹配上,LLMs在准确性上与专家几乎持平,但在引用来源有效性上仍显不足,尤其是对于来源模糊或开放性更强的社区性问题。

例如,开源模型如Llama 2和Meditron在生成有效引用URL方面表现远逊于GPT-4。而尽管具有检索增强功能的GPT-4搭配RAG系统表现稍佳,其回答仅有55%得到了可靠来源的支持。

Image 2

研究表明,无论是高性能模型还是增强检索能力的LLMs,目前尚未达到医疗解决方案所需的引用可靠性标准。尤其是在来自社区平台的复杂医疗查询中,众多模型难以持续提供可信赖的论据支持。这种不足不仅威胁患者安全,更限制了LLMs在医疗领域更为广泛的应用前景。

为提升信任度,研究建议应对LLMs进行专门针对引用准确性及验证的训练或微调,同时引入如SourceCheckup这类自动化工具,以便快速编辑和改进不可靠的陈述内容。这些措施有望为建立更具可扩展性的高可信模型提供解决方案,从而推动LLMs在医疗环境中的可持续发展和规范化使用。

Image 3

SourceCheckup的诞生为检测并改善LLMs在医疗领域的来源可靠性提供了突破性工具,同时也暴露出当前技术存在的诸多短板。这一研究不仅为后续LLMs优化提供了清晰方向,也呼吁行业各方关注模型在高风险领域应用时的透明性与可控性。未来,通过技术改进和监管政策的完善,AI工具在医疗领域发挥更大作用的愿景值得持续期待。

Image 100


[AI之星网出品] [医疗人工智能] [大语言模型可靠性] [SourceCheckup工具] [医疗信息幻觉现象] [刘智勇频道] [真机智能] [机器姬智能体] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [广告位招租]


📚 更多资源分享:刘智勇频道第四卷

💾 百度网盘链接:
https://pan.baidu.com/s/1aFcvND80IXSO_GHlsI1R0w?pwd=qwer

🔑 提取码: qwer


- Advertisement -spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

- Advertisement -spot_img
最新新闻

自主数据分析新突破PraisonAI框架实现全自动化

"技术的极致,是让复杂化于无形,让每个人都能触碰数据的真理。" — 技术为人服务
- Advertisement -spot_img

更多相关文章

- Advertisement -spot_img