|
谷歌人工智能在通过图片诊断皮疹方面比人类医生更出色
聊天机器人能够分析医疗影像,例如检测结果的PDF文件,以准确诊断一系列医疗病症。
一位医生正用放大镜查看一个人手臂上的皮疹,图片带有绿色的方形像素边框
谷歌的医疗聊天机器人可以利用患者信息和照片来精准确定皮疹的成因。 来源:改编自盖蒂图片社
谷歌医疗聊天机器人的升级版本能够利用智能手机拍摄的照片来诊断皮疹,还可以评估许多其他类型的医疗影像,从而提升了该机器人精准确定疾病成因的能力。
这款人工智能(AI)系统的早期版本在诊断准确性和临床服务态度方面就已经超过了人类医生。此次升级后的版本在解读心电图以及实验室检测结果的PDF文件等影像方面,表现也优于人类医生。
5月6日发布在arXiv预印本服务器上的一篇论文介绍了该系统的最新版本——明晰医疗智能探索器(Articulate Medical Intelligence Explorer,简称AMIE),这一版本目前仍处于纯实验阶段,尚未经过同行评审。加州斯坦福大学数字健康中心主任埃莱妮·利诺斯(Eleni Linos)表示,开发能够整合影像和临床信息的系统“让我们更接近一种能够模仿临床医生实际思维方式的人工智能助手”,她并未参与这项研究。
医疗模拟
为了测试AMIE的新功能,25名扮演患者的演员与该聊天机器人以及一名人类初级保健医生进行了虚拟问诊。这些演员模拟了105种涉及一系列症状和病史的医疗场景,并展示了相关的医疗影像。
每次问诊后,AMIE和人类医生都会给出诊断结果和治疗方案。一个由18名皮肤科、心脏病科和内科专家组成的团队,通过分析问诊记录和问诊后的报告,对聊天机器人和人类医生的表现进行了评估。
他们发现,总体而言,AMIE在诊断方面的准确性高于人类医生。此外,低质量影像等问题对AMIE诊断准确性的影响较小。
人工智能医生的医学院训练
这款聊天机器人的更新版本基于谷歌的大语言模型(LLM)“双子星2.0闪速版(Gemini 2.0 Flash)”,该模型能够处理影像。研究人员通过添加一种算法来提升大语言模型进行诊断对话和临床推理的能力,使其适用于医疗领域。
为了确认改进后的系统确实优于未经修改的“双子星2.0”,研究人员让该模型模拟医患对话,在对话中模型分别扮演患者、医生以及评估对话的第三方角色。伦敦谷歌深度思维公司(Google DeepMind)的科学家、该研究的共同作者龙太郎·坦诺(Ryutaro Tanno)表示:“通过这种方式,在进行诊断对话时,可以赋予模型正确且理想的行为。”
坦诺说,这种方法与早期的研究有所不同,早期的研究需要用专业数据库对模型进行再训练,这是一个更为繁琐的过程。“这种方法成本更低,而且更易于使用。”
利诺斯指出,涉及演员模拟的场景也被用于评估人类医生。不过,她也提到,模拟的互动无法涵盖现实医疗中的复杂性。“医生具备丰富的经验、直觉,以及对患者进行身体检查的能力,这些要素很难在模拟脚本中重现。”
以色列特拉维夫大学的数字健康专家丹·泽尔策(Dan Zeltzer)表示,这些结果“很有前景,但对于它究竟能在多大程度上发挥作用,仍存在很多不确定性”。他还指出,这篇论文没有详细说明开发者使用的代码和提示信息,这意味着其他研究人员无法复现该系统或在此基础上进行开发。
纽约西奈山伊坎医学院(Icahn School of Medicine at Mount Sinai)的人工智能科学家梅雪艳(音译)表示,在现实世界中部署这类模型将是一项挑战。她补充道:“话虽如此,我们确实认为用于诊断的大语言模型是未来的发展方向。”
doi: https://doi.org/10.1038/d41586-025-01437-w
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-5-11 13:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社