生物信息学大模型基准
在过去十年中,高通量取得了快速进展,产生了大量的基因组、转录组和蛋白质组数据集。这推动了对创新计算方法的需求,从而能够从复杂生物数据集中提取新见解。虽然数据集解释是理解复杂生物现象的核心,但由于这些数据集固有的复杂性和数量,提取有意义的新颖见解是一项具有挑战性的工作。人工智能的最新进展,特别是大型语言模型(LLM)的开发,为生物信息学中高效、稳健的多模态数据解释提供了一个有前景的方向。LLM,如GPT-4(OpenAI训练的生成预训练Transformer模型(GPT-4)的第四次迭代)和Gemini(谷歌开发的基于通路语言模型(PaLM2)的会话生成人工智能聊天机器人Binary Augmented Retro Framing),在各种自然语言处理任务中表现出了卓越的能力。这些模型建立在最先进的深度学习架构之上,在大量文本数据上进行训练以模拟人类对话,并有望在一系列科学领域内生成连贯和上下文相关的响应。LLM能够学习非结构化文本数据中的模式、语义关系和隐藏结构,为生物信息学研究提供了新的视角。它们有望完成基因表达分析、变异解释、蛋白质折叠预测和药物发现等任务。之前的研究探索了通过快速设计利用GPT-4能力的实际方面,以及GPT-4可以辅助生物信息学分析的潜在用例。最近的另一项研究讨论了将GPT-4用于生物信息学任务的潜在风险,例如用于基于电子健康记录的医疗数据集时的隐私风险。此外,在最近的一篇论文中,作者介绍了DNAGPT,这是一种用于DNA序列分析的通用预训练工具。尽管LLM具有巨大的潜力,但这些模型对生物信息学研究和教育的贡献程度在很大程度上仍未得到探索。
LLM的准确性和可靠性以及遗传学或微生物学等领域非专家的易用性仍然是一个悬而未决的问题。此外,迫切需要一项研究来承认和解决相关的风险和局限性,以确保在该领域负责任和合乎道德的使用。因此,有必要制定一个更新的基准来评估LLM在解决基于生物信息学研究问题方面的研究进展。Bioinfo-Bench最近作为一个简单而广泛的评估套件推出,用于评估LLM生物信息学知识和基本分析技能。它侧重于测试生物信息学中的基础知识获取和推理,而不是端到端的工作流程。预期用例是衡量模型如何保留和应用领域知识(例如,回答教科书式的问题或简单的数据解释),作为LLM生物信息学专业知识的基线。Bioinfo-Bench的数据集提供了一个广泛的生物信息学知识测试套件,但每个子领域的深度有限,没有编码数据。
最近,Sarwal等人介绍了BioLLMBench(https://github.com/Mangul-Lab-USC/BioLLMBench),这是一种新的计算框架和评分度量方案,用于评估生物信息学中的LLM。使用BioLLMBench,通过分配生物信息学研究人员遇到的日常任务来对LLM进行全面评估。这些任务包括六个关键领域,即领域特定知识、编码、可视化、机器学习(ML)、数学问题解决和研究论文摘要。这些任务还跨越了从基本概念到专家级挑战的不同复杂程度。作者们评估了GPT-4、Gemini和LLaMA这三种使用最广泛模型的2160多次实验运行,重点关注生物信息学领域的24项不同任务。这些是手工制作的,以模拟真实的生物信息学挑战。为了加深对不同条件下模型反应的理解,作者们实施了情境反应变异性分析。这涉及到一个双阶段过程,其中每个任务通过10次运行来评估,维护一致的搜索窗口和查询,然后在每个模型的新搜索窗口中再运行10次。这种有条不紊的方法对于研究即时上下文环境(相同与新聊天窗口)的变化如何影响模型在不同任务复杂性和领域中的反应的可变性和一致性至关重要。
作者们观察到模型在不同任务中的性能存在很大差异。在领域知识任务中,LLM接受了生物信息学概念领域专业知识的测试。所有模型都表现出对该主题的熟练理解,GPT-4提供了最高质量的回答。这种行为是意料之中的,因为语言模型在信息检索方面表现出色,是强大的知识库。编码和可视化任务中不同的模型性能强调了LLM的选择可能取决于手头任务的具体要求。虽然GPT-4可以生成代码,但用户有责任理解和执行它。因此,用户了解如何正确编译、运行和解释代码以获得所需的信息、代码和图至关重要。用户必须考虑他们的数据类型和可视化目标,因为不同的生物数据需要特定的可视化来传达有意义的见解。在涉及问题解决和数学计算的任务中,Gemini的表现略优于GPT4,而LLaMA则表现不佳,经常提供不正确的答案。这种行为是意料之中的,因为LLM在数学方面表现不佳。该评估强调了在使用LLM进行数学计算时需要谨慎,强烈建议进行人为事实检查。在机器学习模型开发挑战中,GPT-4在处理数据预处理和模型选择方面表现出卓越的性能,而Gemini需要更多的迭代并提供较慢的调试。由于开发机器学习模型是一项复杂的挑战,需要几个步骤,即数据插补、编码分类特征、归一化、特征和模型选择,因此模型受益于遵循循序渐进的过程,包括一次解决一个子任务。在研究论文总结挑战中,观察到LLM难以有效地总结生物信息学论文。所有模型的ROUGE得分都很低,表明在这方面需要进一步改进。GPT-4提供了更流畅的摘要,但没有一个模型能够完全捕捉到原始文本的语法结构和上下文。虽然总结短文本是LLM的一个很好的用例,但大多数开放域对话系统都会忘记重要信息,尤其是在长期对话中。长期总结是困难的,因为具有有限上下文窗口的模型很难在分隔较大的文本部分之间建立联系。随着新模型的开发,上下文窗口的增加,以及专门为生物医学研究设计的模型(如BioGPT和BioMedLM),可以期待研究论文摘要的重大改进。
作者们观察到三种模型的图形用户界面(GUI)和整体用户体验存在很大差异。GPT-4展示了以连续流形式提供输出的能力,与Gemini和LlaMA相比,后者在单个批次中生成响应,导致延迟。此外,Gemini和LlaMA在上下文保留方面表现出局限性,显示出比GPT-4明显更短的上下文长度。这一功能影响了他们理解后续提示的能力,而与之前的提示没有明确的联系。相反,GPT-4在长时间和会话长度内保持了情境意识。还观察到Gemini和LlaMA偶尔会产生不完整的反应,这是GPT-4没有遇到的挑战。此外,GPT-4在处理各种数据类型(包括CSV文件)方面的多功能性为数据分析提供了实用性,而Gemini和LlaMA仅限于处理图像附件。Gemini在聊天机器人中提供了在谷歌上搜索查询的选项,而GPT-4在内部启用了网页浏览功能。另一方面,LlaMA没有与互联网通信的方式。虽然GPT-4是整体性能最好的型号,但值得注意的是,它使用了付费版本,而其他型号只有免费版本。虽然闭源模型的精确架构和训练参数尚未公开,但假设模型性能的变化可以归因于多种因素的组合,如模型大小、参数设置和上下文长度。据说GPT-4具有最多的参数,上下文长度为128,000,而LLaMA-2的上下文长度为700亿。较长的上下文长度允许模型检索对话的早期部分,增强连续性,并能够对文本进行更深入的分析。虽然该研究是第一个全面评估LLM在生物信息学中的能力的基准,这些LLM具有模仿真实生物信息学挑战的手工任务,但重要的是要承认其局限性。首先,对GPT-4和Gemini性能的评估仅限于一组特定的生物信息学任务,因此可能无法捕捉语言模型的全部功能。其次,在研究中纳入了可能是LLM训练数据一部分的任务。具体来说,使用被高度引用的生物信息学论文的摘要,其中许多论文已有几十年的历史,并且可以在PubMed等平台上轻松访问,可能会引发人们对这些任务是否真正评估模型应对新挑战的能力的担忧。虽然从输入中排除了摘要,并将其用作黄金标准摘要,但这种方法可能会无意中测试模型的记忆能力,而不是它们对看不见的问题产生洞察力的能力。鉴于LLM的一个关键优势在于解决简单信息检索之外新的复杂挑战,评估的这一方面可能会限制报告结果的实际相关性和影响。未来的评估工作应优先考虑旨在评估模型在新的现实世界问题上的性能的任务,以更好地反映其在推进生物信息学研究方面的效用。最后,BioLLMBench的一个局限性是某些评估指标的主观性,如清晰度、组织性、简洁性和简单性。虽然这些指标对于评估模型输出的可解释性和可读性至关重要,但它们的评估可能会受到评估者个人判断的影响。为了缓解这种情况,使用了多个独立的评分者,未来的迭代将纳入更详细的评分指南,以及评分者之间的可靠性检查。此外,整合来自更广泛的生物信息学界的反馈将进一步有助于减少潜在的偏见,提高评估框架的稳健性。
在BioLLMBench的未来迭代中,作者们计划扩展评估框架以包括更专业的生物医学模型,如BioGPT和BioMedLM,以便在更广泛的生物信息学任务中直接将其性能与通用模型进行比较。此外,将通过提供更详细的评分指南并整合来自不同生物信息学专家组的反馈,完善主观评估指标,如清晰度、组织性和简单性。为了进一步提高这些评估的客观性,通过一致性检查提高评分者之间的可靠性,并纳入生物信息学界更广泛的观点。这些努力将有助于减少潜在的偏见,并确保评估框架更好地反映社区的不同需求和期望。
参考文献
[1] Varuni Sarwal, Gaia Andreoletti, Viorel Munteanu, Ariel Suhodolschi, Dumitru Ciorba, Viorel Bostan, Mihai Dimian, Eleazar Eskin, Wei Wang, Serghei Mangul. A benchmark for large language models in bioinformatics. bioRxiv 2023.12.19.572483; doi: https://doi.org/10.1101/2023.12.19.572483
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1486639.html?mobile=1
收藏