||
使用transformer从文本数据中提取miRNA-疾病关系数据
小RNA分子,如microRNA (miRNA),与靶标信使RNA (mRNA)结合,在后转录过程中发挥重要作用并且调控主要细胞功能。miRNA表达的失调会影响基因表达模式并扰乱细胞过程,这一过程与许多人类疾病有关,如呼吸系统疾病、癌症和阿尔茨海默病。通过靶向疾病相关mRNA,使miRNA成为有趣的治疗候选分子。随着miRNA测序技术的临床发展,miRNA作为疾病生物标志物将显得越发重要。然而,这需要深入了解特定miRNA在正常生物过程和疾病中的作用。
可以通过文本挖掘技术从文献中提取miRNA与疾病的关联。过去,Bagewadi等提出通过创建新的语料库,利用基于规则的方法(如正则表达式)和机器学习方法(如支持向量机),提取miRNA、物种、基因/蛋白质、疾病注释及其关系。他们在miRNA调控关系方面达到了76%的F1值。此外,Li等创建了一个基于规则的文本挖掘系统miRTex,该系统专注于从科学文献中提取miRNA-基因和基因-miRNA调控关系。他们的最终系统在150篇PubMed摘要的测试集中获得了88%的F1值。然而,召回率(81%)明显低于准确率(96%)是基于规则系统的共同特征。Gupta等人提出了miRiaD文本挖掘工具,从整个Medline中提取出含有miRNA-疾病关系的8301篇摘要,该工具在一组200个句子中达到了89.4%的F1值。Bravo等人提出的利用文本形态句法信息的BeFree工具在提取包括miRNA在内的基因-疾病关联方面达到了85%的F1值。特别地,BeFree的结果被整合到疾病基因组学平台DisGeNET数据库中。
与此同时,基于transformer的通用语言模型,如来自transformer的双向编码器表示(BERT)[13]或生成预训练转换器(GPT)已经彻底改变了自然语言处理(NLP)领域,因为它们可以使用内置的注意力机制有效地表示文本中的长期交互。这些模型在大型文本语料库上进行预训练,以模拟英语语言。此外,各种生物医学领域特定的模型,如BioBERT、BioMegatron和ClinicalBERT已经通过对PubMed摘要、PMC全文文档和临床记录进行额外的预训练而创建。这些生物语言模型已被提出用于各种生物医学NLP (bioNLP)任务,如命名实体识别(NER)、关系提取(RE)和文档分类。过去,bioNLP的研究主要集中在蛋白-蛋白相互作用的提取、药物-药物相互作用、不良反应检测、临床实体提取、分子事件提取等方面。
最近,Madan等人引入了一种基于深度学习的文本挖掘工作流程,从文献中提取miRNA与疾病的关联(图1)。文本挖掘工作流定义了三个不同的任务:(I)检测miRNA和疾病实体(NER),(II)将miRNA和疾病实体链接到特定的数据库标识符,以及(III)检测它们之间的关联(RE)。作者们还使用来自多个数据库的远程学习创建了一个包含miRNA-疾病关联的新训练数据集,用于训练关系提取模型。作者们使用该工作流程从PubMed中提取2020年至2023年之间的miRNA-疾病关系。 作者们进一步讨论该工作流程在三种感兴趣疾病(包括阿尔兹海默症、癫痫、帕金森)的背景下预测的miRNA-疾病关系。为了重复使用,作者们发布了新的语料库、预测的miRNA-疾病关系和工作流的源代码(https://github.com/SCAI-BIO/mirna-disease-association-detection,https://zenodo.org/records/10523046)。
图1 用于提取miRNA和疾病实体(NER)及其关联(RE)的训练、评估和推断管道
在这项工作中,作者们提出了一种性能良好的大语言模型方法,用于从生物医学文献中识别miRNA -疾病关系。为了扩展miRNA-疾病训练语料库,作者们使用多个公开可用的数据库应用远程监督技术。在使用多个最先进的大型语言模型进行的实验中,BioMegatron在提取miRNA-疾病关联方面表现最好。当从2020年至2023年的生物医学文献中推断关联时,可以以较高的召回率和精度识别出大量新的关联。
创建和使用可包含多种类型关系的专用数据库被认为是生物医学研究中的最佳做法。然而,使这些数据库与当前的科学进展保持同步是一项重大挑战。解决方案通常是与研究人员和机构建立合作,定期提供最新信息。然而,这需要大量的人力。这就产生了对自动化数据挖掘技术的需求,这种技术应该总是用于从科学文献中提取相关信息并相应地更新数据库。通过对神经退行性疾病的三个不同的案例研究,作者们确定并讨论了DisGeNet等数据库中缺失的新关系,并证明了从文献中检索新隐藏关系的工作流程的适用性和可行性。
信息提取的自动化技术需要定期修订,以跟上自然语言处理的发展步伐。最近的大型语言模型,如ChatGPT、BARD。未来的研究需要找出如何准确地利用这些模型提取多种类型关系,而且一次解决许多复杂的bioNLP挑战。
参考文献
[1] Madan S, Kühnel L, Fröhlich H, Hofmann-Apitius M, Fluck J. Dataset of miRNA-disease relations extracted from textual data using transformer-based neural networks. Database (Oxford). 2024 Aug 5;2024:baae066. doi: 10.1093/database/baae066.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-1 12:26
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社