||
写在前面
基因序列和基因表达谱是研究miRNA的两大数据类型。对于miRNA序列数据库而言,miRBase一家独大;对于miRNA表达谱数据,主要有GEO、ArrayExpress、TCGA和NGDC四个数据库。
01
—
miRBase
如果要从基因序列层次水平研究miRNA,就得下载miRNA序列数据。要想获得miRNA序列数据,miRBase当然是首选(https://www.mirbase.org/,图1)。目前,miRBase最新版本是2018年10月发布的Version 22.1。从时间看,已有接近3年没有更新了。不知道是不是相关物种的miRNA测序已经结束还是足够了。
miRBase提供了31个物种miRNA序列数据下载。它不仅提供成熟miRNA序列数据下载,而且还提供非成熟miRNA(即miRNA hairpins)序列数据下载。
图1 miRBase主页
02
—
GEO
GEO(Gene Expression Omnibus,https://www.ncbi.nlm.nih.gov/geo/,图2)数据库隶属于NCBI,是专门存储基因表达谱的仓库。各种测序技术产生的miRNA表达谱数据,都可以在GEO数据库中找到。目前,GEO数据库收集有4,348个数据集,包含4,630,424个样本。GEO数据库提供了友好的搜索界面,用户可以根据需要搜索相关数据集。例如,现在我们关注miRNA,就可以专注“Non-coding RNA profiling by high throughput sequencing”相关的数据集。
图2 GEO主页
03
—
ArrayExpress
ArrayExpress(http://www.ebi.ac.uk/arrayexpress,图3)隶属于EMBL-EBI数据库,专门存储基因表达谱的仓库。目前,ArrayExpress数据库收集有74,786个实验数据,包含2,558,838个样本。2020年10月已经搬迁至BioStudies(https://www.ebi.ac.uk/biostudies/,图4)。BioStudies以研究为单元,围绕研究收集所有相关数据。
图3 ArrayExpress主页
图4 BioStudies主页
04
—
TCGA
TCGA(The Cancer Genome Atlas,https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga,图5)是国际癌症和肿瘤基因图谱计划衍生的数据库。在分子层次,TCGA对33种癌症类型的20,000多个主要癌症和正常样本进行了基因测序。这个数据库为研究人类恶性肿瘤疾病提供了丰富的测序数据(包括miRNA表达谱、基因表达谱、DNA甲基化、体突变数据、拷贝数等)。为了下载TCGA数据,很多软件工具也被开发了出来,例如R工具包TCGAbiolinks(https://bioconductor.org/packages/TCGAbiolinks/)和TCGA-Assembler(http://www.compgenome.org/TCGA-Assembler/)。
图5 TCGA主页
05
—
NGDC
NGDC(National Genomics Data Center,https://ngdc.cncb.ac.cn/,图6)是国家基因组科学数据中心,隶属于国家生物信息中心(China National Center for Bioinformation,简称CNCB,https://www.cncb.ac.cn/,图7)。紧跟国际步伐,在基因组(编码和非编码RNA)领域,终于有了国产数据库了。值得注意的是,NGDC数据库中数据资源所对应的文献还有专门数据库OpenLB(Open Library of Bioscience ,https://ngdc.cncb.ac.cn/openlb/home,图8)
图6 NGDC主页
图7 CNCB主页
图8 OpenLB主页
后话
你挖还是不挖,那些数据都在那里,只增不减!数据只会越来越多,但数据越多,并不一定代表越好。作为普通大众,最好根据研究对象和研究问题,寻找合适自己课题组的数据来验证提出的想法。
参考链接:
[2] https://www.ncbi.nlm.nih.gov/geo/
[3] http://www.ebi.ac.uk/arrayexpress
[4] https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga
更多背景知识如下:
1. miRNA是何方神圣?
号外,ceRNA可是miRNA介导的哦。为了便于交流,我们为miRNA介导的ceRNA研究在Frontiers in Molecular Biosciences杂志( 2020_IF = 5.246)整了个专刊,主题为“Computational Identification of ceRNA Regulation”。投稿链接:https://www.frontiersin.org/research-topics/24340/。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-9 07:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社