张俊鹏
miRAIDD:用ChatGPT生成人类miRNA-疾病因果关联数据库
2024-10-14 16:11
阅读:1098

miRAIDDChatGPT生成人类miRNA-疾病因果关联数据库

microRNA (miRNA)是一种小的非编码RNA,主要通过后转录抑制基因表达来调节主要的生命功能。miRNA失调与许多复杂的疾病有关,包括许多癌症、阿尔茨海默病、哮喘和心血管疾病。一个miRNA可以调节数百个基因,影响许多不同的生理过程。因此,miRNA的失调可能导致多种不同生物学途径的病理扰动。例如,miR-21已被证明是超过29种疾病的预测生物标志物。然而,一个给定的miRNA对疾病数量的因果影响,即我们在这里所说的miRNA多效性,在文献中是一个未被充分研究的miRNA特征。

了解miRNA多效性对于使用miRNA作为生物标志物或治疗靶点具有重要意义。JenikeHalushka认为,像miR-21这样具有多效性的miRNA缺乏特异性,因此是一个很差的生物标志物。对于基于miRNAmiRNA阻断剂治疗方法的迅速发展来说,缺乏特异性也是一个问题。由于miRNA对多种不同生物学途径的广泛影响,这种治疗可能会改善一种疾病,同时引起其他意想不到的内源性疾病。

目前,尚不清楚有多少人类miRNAmiR-21具有相同规模的多效性。miRNA-2129种疾病有关,可能是流行miRNA中的一个异常值,也可能只是一个代表性案例。此外,如果进一步的研究致力于调查miR-21,它是否会被发现与越来越多的疾病有关?或者是否存在预期的上限?虽然对miRNA转化生物学领域具有明显的重要性,但该问题被首次提出并回答。

先前的工作已经通过手工整理miRNA与疾病之间的因果关系,特别是在人类miRNA疾病数据库(HMDD)中,对miRNA对人类疾病的影响进行了编目。HMDD有两个版本:早期版本只记录了miRNA和疾病之间的因果关系;还有一个更大的最新版本,它不试图判定因果关系,而是报告miRNA与疾病之间的因果关系。随着miRNA研究和研究发表的步伐不断加快,人工智能(AI)是一个很有吸引力的选择。最近大型语言模型(LLM)能力的快速发展表明,这些模型在理解和总结复杂文本方面非常精通。如果LLM能够以足够的精度使用,这些系统的可扩展性使它们非常适合处理日益增长的科学出版速度,并有助于量化miRNA多效性。

最近,Wang等人试图量化给定miRNA导致的疾病数量,并发现miRNA的内在特征影响其多效性。利用LLM,特别是OpenAI构建的生成预训练转换器(GPT)家族,建立一个全面的数据库,绘制出miRNA在人类疾病中的因果关系。通过人类注释数据和HMDD数据库验证了miRNA-因果关系,并将其应用于进一步了解miRNA研究和miRNA多效性的趋势。通过这一努力,希望阐明miRNA多效性,并为更广泛的研究界提供一个有价值的工具。

为了创建miRAIDD数据库作者们首先从PubMed下载了所有与miRNA相关的摘要。然后,对每个摘要进行注释,说明其中描述的miRNA是否与摘要中医学主题标题(MeSH)术语标记的疾病有因果关系。为此,创建了一个miRNA与疾病因果关系的数据库miRAIDD,其中每个因果关系都得到一个或多个研究摘要的支持。miRAIDD总体流程如图1所示,相关数据和代码参考https://github.com/Wanff/miraidd

image.png

1 miRAIDD流程

作者们已经演示了使用LLM AI从发表的miRNA研究摘要中提取因果信息,其准确性与人类专家相似。这使我们能够首次量化miRNA多效性,确定影响miRNA的几个内在因素。尽管多效性与miRNA转化研究有明显的相关性,但这些问题以前没有被问到或回答过。最后,作者们提出了未被充分研究的miRNA,它们可能导致比目前已知的更多疾病。预计未来几年将有更多人工智能驱动的应用,并且具有更高的准确性。

参考文献

[1] K.Rowan Wang, Julian Hecker, Michael J. McGeachie. Quantifying the massive pleiotropy of microRNA: a human microRNA-disease causal association database generated with ChatGPT bioRxiv, 2024.07.08.602488; doi: https://doi.org/10.1101/2024.07.08.602488

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

image.png

 

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。

链接地址:https://wap.sciencenet.cn/blog-571917-1455238.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?