谷歌推出HEAL框架:助力评估机器学习在健康公平领域的表现
2024年3月15日,谷歌研究团队推出了一项全新评估框架——健康公平评估框架(HEAL,Health Equity Assessment of Machine Learning Performance),旨在定量评估机器学习(ML)健康工具是否能够更公平地服务不同群体。这一成果由谷歌研究科学家Mike Schaekermann和健康公平首席官Ivor Horn联合主导,标志着人工智能在缩小健康差距上的探索迈出重要一步。
健康公平是全球公共卫生领域的核心问题,各种健康差异的成因包括医疗资源的可及性、临床治疗的差异,以及诊断技术的局限性。例如,在皮肤病学领域,少数族群、低经济收入群体以及医疗资源有限的个体往往面临更差的皮肤癌治疗结果。
尽管机器学习和人工智能的迅猛发展为改善医疗效果带来了巨大潜力,但从研究到实践的过渡过程需要细致关注其对健康公平的影响。值得注意的是,健康公平所强调的“公平”并不仅仅是AI领域常提到的“性能平等”,而是要优先解决由健康差异引发的结构性不平等问题。
HEAL框架以推动健康公平为核心,提出了一个四步流程来衡量ML健康工具的公平性:
- 确定与健康不平等相关的因素,并定义工具的性能指标;
- 量化现有健康差异;
- 分别测量工具在各群体中的表现;
- 评估工具是否优先改善健康结果较差的群体表现,生成“HEAL指标”。
这一指标通过量化模型性能与健康差异之间的“负相关性”来评估AI是否将关注点放在健康状况较差的群体。例如,如果一个模型在健康结果最差的群体中表现最佳,则显示出了对健康公平的高度优先性。
整个流程被设计为迭代式,能够随着新数据集、模型及目标群体的变化定期更新和重新评估,为不断优化健康AI技术提供指导。
为了验证HEAL框架的实际效用,研究团队将其应用于一个皮肤病学AI模型的评估。该模型利用卷积神经网络对288种皮肤问题进行分类,基于图片、基本人口数据及医疗史生成诊断输出。为了测试模型表现,研究团队使用了一个包含5,420例跨年龄、性别和种族多样化病例的数据集。
结合“Top-3一致性”指标(模型前3个诊断结果是否匹配皮肤科专家的判断),框架首次明确模型在健康差异较大的群体中的表现。结果显示:
- 在种族和性别维度上,该模型分别取得了80.5%和92.1%的公平性优先可能性;
- 对于非癌症类皮肤问题,年龄差异仍然存在改进空间——例如,70岁以上的老年群体虽然健康结果最差,但模型未能有效优先优化该年龄群体的表现。
需要注意的是,HEAL框架并不直接量化AI对缩小健康差距的实际影响。由于其未建模因果关系,HEAL指标更多充当识别改进机会的工具,而非全面衡量新技术在现实场景中改善健康不平等的能力。此外,对于框架在评估中的适配性(如如何在隐私保护与公平评估中找到平衡),未来依然需要深入研究。
为了弥补这一不足,研究团队建议结合其他指标(如模型的计算效率与伦理价值观)综合使用HEAL框架,并明确“任何群体性能不因模型调整而降低”的实施底线。这种结合方式不仅可以避免因追求公平而影响整体性能,还能确保所有群体的健康状况得到提升。
HEAL框架为健康AI工具提供了一种明确的定量评估路径,推动开发者在模型开发、部署及实际应用的各个环节优先关注健康差异。在皮肤病学领域的应用案例中,该框架验证了其在性别和种族方面的有效性,同时揭示了模型在年龄维度上的优化空间。这表明,HEAL框架不仅可以作为开发阶段的设计指南,还能作为实施阶段的健康公平仪表盘,持续监测AI模型的实际影响。
但健康公平远不止于指标本身。推动人工智能在医疗领域的健康公平需要广泛的社区共识,尤其是让最易受影响的群体参与和定义相关目标。HEAL框架的下一步发展有望赋能更多人工智能解决方案,为实现普遍健康公平铺平道路。
本研究凝聚了谷歌多个团队的共同努力,特别感谢全体研究合作者及支持者的贡献。未来,我们期待社会各界的共同参与,为AI技术在健康公平上的应用树立更高标准。
[AI之星网出品] [健康公平评估框架] [人工智能与医疗公平] [谷歌HEAL框架应用] [健康差距与AI优化] [刘智勇频道][机器姬智能体][真机智能][机器洞察网][AI之星网][风投高科网][猛虎财经网][硅基科学网]

谷歌的HEAL框架是未来科技和社会责任的完美结合,科技巨头变身人类命运共同体的一员,值得点赞!
人工智能不仅要聪明,还要有温度。谷歌果然站得高,走得远,谁不期待一个更加公平的世界呢?
AI工具从单纯提高效率,到关心每个人的健康公平,谷歌这波改变赛道的操作,妥妥的未来感!