zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

CORESH:基于基因标签的公共基因表达数据集搜索引擎

已有 847 次阅读 2025-5-30 20:31 |个人分类:科普|系统分类:科普集锦

CORESH:基于基因标签的公共基因表达数据集搜索引擎 

基因表达综合数据库(GEO)是一个不断增长的公共基因表达数据资源,目前包含来自数十万个实验的数百万个样本。该资源因其加速生物发现的能力而受到研究界的高度重视,利用先前生成的GEO数据集的30,000多项研究证明了这一点。使用GEO的一种特别通用的方法涉及将研究人员自己的数据集中的转录变化与先前发表的实验中的转录变化联系起来。这些比较为研究人员的生物系统提供了假设的基础。在这个框架内,GEO提供了广泛而多样化的实验集合,如基因扰动、药物治疗以及健康和疾病条件下组织和细胞类型的分析。 

有两种寻找相关GEO观测数据集的一般方法:基于元数据和基于数据。基于元数据的搜索由GEO本身提供,并通过ReGEOGemma等工具进一步改进。然而,这种方法从根本上受到其假设驱动性质的限制。相反,数据驱动的搜索可以使用户无偏见地找到潜在的联系,从而显著提高分析的全面性和实用性。这种方法可以通过首先创建通过差异基因表达分析从GEO数据集计算得出的基因标签集合,然后使用该集合找到与用户提供的基因集显著重叠的标签来实现。例子包括ImmuneSigDB或最近的KnockTF,两者都基于精心策划的GEO数据集,这些数据集覆盖了GEO160,000个基因表达数据集中的<1%。机器学习的进步正在扩大这一覆盖范围,如RummaGEO。该研究以约30,000RNA-seq数据集的基因标签为特征。SEEK中实现了一种不同类型的数据驱动数据集搜索,它可以找到多个用户提供的基因显示相关表达模式的数据集。这种方法的主要优点是不需要差异表达分析,并且可以应用于任何基因表达数据集。然而,SEEK扩展性能有限,只有大约5000个数据集。 

最近,Sukhov开发了一种工具CORESH(图1https://alserglab.wustl.edu/coresh),一个网络服务器,用于根据用户提供的基因标签查询公共基因表达数据集。CORESH根据用户提供的基因的共同调控水平,使用主成分分析(PCA)启发的评分对数据集进行排名,该评分可应用于任何基因表达矩阵。目前,CORESH使用GEO数据库中的42,224个小鼠和44,253个人类基因表达数据集,包括微阵列和RNA-seq分析的数据集。进一步的文本挖掘与富集分析相结合,可以识别出在排名靠前的数据集描述中过多的术语,总结出共享的生物条件。单个数据集链接到相应的GEO页面,以获取有关数据集上下文的更多信息,并链接到Phantasus网络应用程序,在那里可以更详细地探索数据集中的基因表达变化。

image.png

1 CORESH工具 

参考文献

[1] Sukhov V, Nugmanova A, Vorontsov Y, Mehrotra P, Kleverov M, Ravichandran K, Artyomov M, Sergushichev A. CORESH: a gene signature-based search engine for public gene expression datasets. Nucleic Acids Res. 2025 May 5:gkaf372. doi: 10.1093/nar/gkaf372. 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

image.png

 



https://wap.sciencenet.cn/blog-571917-1487929.html

上一篇:动态基因网络中模拟生物干预效应
下一篇:社区检测算法的广泛基准测试
收藏 IP: 222.221.204.*| 热度|

1 宁利中

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-6-22 11:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部