Pharmacoeconomics and Policy (P&P)《药物经济与政策(英文)》2025年第一卷第一期已正式上线!本期聚焦全球药物经济与政策领域的前沿研究,涵盖8篇高质量论文,从成本效益分析到医药政策评估,为学者、从业者和决策者提供重要参考。
我们将逐一解读这些文章的核心观点与研究价值,帮助您快速把握行业动态。如果您对药物经济学、卫生政策或相关研究感兴趣,欢迎持续关注,也期待您的投稿与参与,共同推动这一领域的发展!
这篇研究评估了Chat GPT在文献综述中检索文献的准确性。研究提出 ChatGPT虽能提高研究效率,但存在生成虚假或误导性结果、易受用户输入影响等问题,目前不能完全替代人工审核,需人机协作以保证研究的可信度和可靠性。
作者简介
本研究由美国杜兰大学施李正教授团队核心成员Debra Winberg博士(第一作者)与Dennis Xuan博士(通讯作者)共同完成。Winberg博士作为健康经济学与系统评价方法学专家,长期致力于人工智能在医疗决策支持系统中的应用研究;Xuan博士在医疗大数据分析与人工智能算法开发领域具有深厚造诣,尤其擅长机器学习在健康政策评估中的应用。Lizheng Shi(施李正)教授现任美国杜兰大学公共卫生系统分析研究中心主任,是我国健康经济学评价与循证卫生政策研究领域的权威专家。施教授团队在医疗服务质量评估、卫生技术评估及智能决策支持系统研发等方面具有深厚积累,研究成果具有重要国际影响力。
01 研究背景
在医学研究、护理和决策制定方面,生成式AI具有提升临床和政策决策的潜力,例如提供医疗问题的AI驱动评估,还能用于一些常见的卫生经济学和结果研究方法,如统计分析。同时,由于ChatGPT可基于已发表材料的进行训练,并用于文献检索,提高文献综述的效率,不少学者已开始在系统文献综述中使用该工具。
02 研究方法研究使用PubMed检索2022年11月之前发表的与慢性病(如糖尿病和高血压)相关的系统综述,由两名具有卫生经济学研究背景,且接受过系统文献综述培训的研究人员提取研究目的和纳入/排除标准,如有分歧则协商解决,必要时由第三人提取数据。 研究选用研究阶段最易获取的ChatGPT 3.5版本,使用ChatGPT 3.5按“查找10篇评估(研究目标)、符合(纳入标准)且不包含(排除标准)的文献”的模板查找文章,研究人员记录ChatGPT的回复,并使用Google Scholar、PubMed和杜兰大学图书馆数据库搜索给定的文献。通过与原始系统综述中包含的文献进行交叉引用,将ChatGPT提供的文献分类为虚假文献、真实但未在原始系统综述中出现的文献、与原始系统综述匹配的文献,若ChatGPT首次回复提供10篇真实文献,研究人员则会要求它再提供另外10篇文献。最终计算ChatGPT所提供文献发生3类结果的比例。
03 研究结果
研究共选取9篇系统综述,其中8篇关于糖尿病或糖尿病前期,1篇关于高血压。在列出文献之前,ChatGPT对回复内容进行解释,有4种类型的示例表明是否存在影响其回复的某些约束条件。在ChatGPT提供的文献中,22%声称是真实的且无额外限制,33%声称文献真实,尽管ChatGPT程序无法搜索网络,22%在搜索时受到时间限制,因为ChatGPT被要求搜索特定日期之前的文献。ChatGPT共找到90篇文献,具体情况如下:58%的文献真实存在,38篇(42%)文献不存在。只有16篇(18%)与原始系统综述中的文献相匹配,36篇文献(40%)是真实的但与原始综述不匹配。最常见的情况是部分匹配,如作者或标题与原始综述中的文献匹配,但会出现错误的作者-标题组合、错误的期刊、日期或DOI。04 研究结论ChatGPT在医学研究文献检索中虽能提高效率,可快速生成潜在相关文献列表,但准确性较差,42%的文献不存在,仅18%与原始系统综述包含的文献匹配,且会产生误导性结果。其回复易受用户输入影响,当前情况下无法替代人工严谨审核。不过,它可作为辅助工具,与传统系统综述方法结合使用。随着ChatGPT版本更新,检索和筛选文献的准确性有望提升,但仍需人工监督,实现人机协作,提高系统综述工作的效率。
转载本文请联系原作者获取授权,同时请注明本文来自科爱KeAi科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3496796-1486816.html?mobile=1
收藏