多所大学表示:人工智能生成的医疗数据可规避常规伦理审查
四家医学研究中心的代表向《自然》杂志透露,他们已免除了对此类数据的常规伦理审查,原因是“合成数据”不包含真实或可追溯的患者信息。
图中所示为安大略省东部儿童医院外指引访客前往急诊科的标识。
图片来源:阿德里安·怀尔德(Adrian Wyld)/加拿大通讯社(Canadian Press),经阿拉米(Alamy)图片库授权使用
《自然》杂志获悉,加拿大、美国和意大利部分机构的医学研究者,正将基于真实患者信息、由人工智能(AI)生成的数据用于实验,且无需获得机构伦理委员会的许可。
所谓“合成数据”的生成流程如下:研究者先利用真实人类医疗信息训练生成式AI模型,再让模型生成数据集——这类数据集具备真实医疗数据的统计特征,但不包含任何真实人类数据。
通常情况下,若研究涉及人类数据,伦理委员会必须审查研究对参与者权利、安全、尊严及福祉的影响。然而,包括意大利米兰IRCCS休尼塔斯研究医院(IRCCS Humanitas Research Hospital)、渥太华安大略省东部儿童医院(CHEO)、渥太华医院,以及美国密苏里州圣路易斯市华盛顿大学医学院(WashU Medicine)在内的多家机构,已对涉及合成数据的研究免除了上述审查要求。
各机构为这一决策提供的理由不尽相同。但渥太华医院研究中心及渥太华大学的医疗AI研究者哈立德·埃勒·埃玛姆(Khaled El Emam)表示,使用合成数据的潜在益处包括:保护患者隐私、便于不同机构间共享数据,以及加快研究进程。
华盛顿大学副校长(负责生物医学信息学与数据科学)兼信息学、数据科学与生物统计学研究所所长菲利普·佩恩(Philip Payne)指出,该校自2020年起就对这类研究免除伦理审查,是“美国首批在医学领域大规模采用合成数据的机构之一”。
佩恩表示,根据1991年出台的美国联邦《通用规则》(Common Rule,该规则规范涉及人类的研究伦理标准),合成数据集不被视为“人类受试者研究”。他补充道,这是因为合成数据不含任何真实或可追溯的患者信息。因此,华盛顿大学医学院的机构审查委员会(Institutional Review Board)认为,使用此类数据集的项目不属于人类受试者研究,无需接受审查。
各国政策差异
意大利休尼塔斯人工智能中心(Humanitas AI Center)的AI团队负责人萨维里奥·达米科(Saverio D’Amico)称,自2021年起,该中心的科学家就开始在研究中探索合成数据的应用。他表示,若合成数据的生成基础是“已同意将信息用于AI分析的患者数据”,那么他和同事无需获得伦理审查委员会的许可。
达米科指出,与意大利其他多数机构相比,休尼塔斯医院在“使用合成数据且无需伦理审查”方面拥有更大自由度,这得益于其“高级研究医院”的定位。意大利卫生部仅向少数机构授予这一资质,将其视为医疗创新与高质量患者护理的标杆。
与此同时,在加拿大安大略省,2004年颁布的《个人健康信息保护法》(Personal Health Information Protection Act)规定,生成“非个人信息”(即隐藏个人身份的信息)无需获得患者同意。
安大略省东部儿童医院研究伦理委员会主席塞西尔·本西蒙(Cécile Bensimon)表示,2024年的法律分析后,加拿大的多家医院决定免除对此类研究的伦理委员会审查。该分析得出结论:AI生成的合成数据可能不构成“个人健康信息”。因此,与华盛顿大学医学院类似,安大略省东部儿童医院的伦理委员会认为,“在研究中使用合成数据无需医院研究伦理委员会监督,因为它不符合‘人类研究’的定义”。
但本西蒙补充道,若研究者需获取患者数据以生成合成数据集,则仍需获得伦理委员会批准。不过,由于这类操作被认定为“低风险”,通常符合“免除参与者知情同意”的标准。渥太华医院的适用条件略有不同。本西蒙还表示:“总体而言,研究中的AI应用本身并非固有问题,只是需要遵循现有标准并采取保障措施。”
能否真正匿名?
埃勒·埃玛姆认为,合成数据的匿名性使不同地区的机构能够在不共享特定个人信息的前提下开展合作、分享研究成果。但英国剑桥大学健康服务智库“PHG基金会”(专注研究新型医疗技术引发的伦理、法律与社会问题)的科林·米切尔(Colin Mitchell)则指出,各国对“可识别性”的法律界定存在差异,这有时会阻碍合成数据的国际共享。
“这是一个存在争议的领域,”米切尔表示,“‘可识别信息’与‘匿名信息’的界限并非固定不变,而是会随着新技术创新不断演变。”他补充道,几十年来,基因组学界一直在争论“哪些数据应被视为可识别信息、哪些属于匿名信息”,但至今尚未达成共识。米切尔希望,监管研究与数据保护的机构能共同制定针对不同类型合成数据的统一处理方案。
在英国,药品和医疗产品监管局(MHRA)已获得研究伦理委员会的全面许可,可生成匿名合成数据集,用于模型训练、工具开发等用途。但该局“临床实践研究数据链”(Clinical Practice Research Datalink)主任普贾·迈尔斯(Puja Myles)强调,研究者仍需履行伦理、法律、保密、知情同意及数据保护方面的义务。她补充道:“除非豁免条款表述清晰,否则‘合成数据’一词可能被广义解读,导致本应申请批准的项目被错误地认为可豁免审查,这存在风险。”
转载本文请联系原作者获取授权,同时请注明本文来自孙学军科学网博客。
链接地址:https://wap.sciencenet.cn/blog-41174-1501694.html?mobile=1
收藏