miRAIDD:用ChatGPT生成人类miRNA-疾病因果关联数据库
microRNA (miRNA)是一种小的非编码RNA,主要通过后转录抑制基因表达来调节主要的生命功能。miRNA失调与许多复杂的疾病有关,包括许多癌症、阿尔茨海默病、哮喘和心血管疾病。一个miRNA可以调节数百个基因,影响许多不同的生理过程。因此,miRNA的失调可能导致多种不同生物学途径的病理扰动。例如,miR-21已被证明是超过29种疾病的预测生物标志物。然而,一个给定的miRNA对疾病数量的因果影响,即我们在这里所说的miRNA多效性,在文献中是一个未被充分研究的miRNA特征。
了解miRNA多效性对于使用miRNA作为生物标志物或治疗靶点具有重要意义。Jenike和Halushka认为,像miR-21这样具有多效性的miRNA缺乏特异性,因此是一个很差的生物标志物。对于基于miRNA或miRNA阻断剂治疗方法的迅速发展来说,缺乏特异性也是一个问题。由于miRNA对多种不同生物学途径的广泛影响,这种治疗可能会改善一种疾病,同时引起其他意想不到的内源性疾病。
目前,尚不清楚有多少人类miRNA与miR-21具有相同规模的多效性。miRNA-21与29种疾病有关,可能是流行miRNA中的一个异常值,也可能只是一个代表性案例。此外,如果进一步的研究致力于调查miR-21,它是否会被发现与越来越多的疾病有关?或者是否存在预期的上限?虽然对miRNA转化生物学领域具有明显的重要性,但该问题被首次提出并回答。
先前的工作已经通过手工整理miRNA与疾病之间的因果关系,特别是在人类miRNA疾病数据库(HMDD)中,对miRNA对人类疾病的影响进行了编目。HMDD有两个版本:早期版本只记录了miRNA和疾病之间的因果关系;还有一个更大的最新版本,它不试图判定因果关系,而是报告miRNA与疾病之间的因果关系。随着miRNA研究和研究发表的步伐不断加快,人工智能(AI)是一个很有吸引力的选择。最近大型语言模型(LLM)能力的快速发展表明,这些模型在理解和总结复杂文本方面非常精通。如果LLM能够以足够的精度使用,这些系统的可扩展性使它们非常适合处理日益增长的科学出版速度,并有助于量化miRNA多效性。
最近,Wang等人试图量化给定miRNA导致的疾病数量,并发现miRNA的内在特征影响其多效性。利用LLM,特别是OpenAI构建的生成预训练转换器(GPT)家族,建立一个全面的数据库,绘制出miRNA在人类疾病中的因果关系。通过人类注释数据和HMDD数据库验证了miRNA-因果关系,并将其应用于进一步了解miRNA研究和miRNA多效性的趋势。通过这一努力,希望阐明miRNA多效性,并为更广泛的研究界提供一个有价值的工具。
为了创建miRAIDD数据库作者们首先从PubMed下载了所有与miRNA相关的摘要。然后,对每个摘要进行注释,说明其中描述的miRNA是否与摘要中医学主题标题(MeSH)术语标记的疾病有因果关系。为此,创建了一个miRNA与疾病因果关系的数据库miRAIDD,其中每个因果关系都得到一个或多个研究摘要的支持。miRAIDD总体流程如图1所示,相关数据和代码参考https://github.com/Wanff/miraidd。
图1 miRAIDD流程
作者们已经演示了使用LLM AI从发表的miRNA研究摘要中提取因果信息,其准确性与人类专家相似。这使我们能够首次量化miRNA多效性,确定影响miRNA的几个内在因素。尽管多效性与miRNA转化研究有明显的相关性,但这些问题以前没有被问到或回答过。最后,作者们提出了未被充分研究的miRNA,它们可能导致比目前已知的更多疾病。预计未来几年将有更多人工智能驱动的应用,并且具有更高的准确性。
参考文献
[1] K.Rowan Wang, Julian Hecker, Michael J. McGeachie. Quantifying the massive pleiotropy of microRNA: a human microRNA-disease causal association database generated with ChatGPT bioRxiv, 2024.07.08.602488; doi: https://doi.org/10.1101/2024.07.08.602488
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1455238.html?mobile=1
收藏