博文

16S扩增子数据提交GSA实操手册—发表文章前必备技能

已有 5174 次阅读 2020-2-20 15:58 |个人分类:经验|系统分类:科研笔记

GSA简介

GSA是Genome Sequence Archive的缩写，即基因组序列存档，由中科院基因组所主办。

网址：http://gsa.big.ac.cn/

之前介绍过NCBI提交测序数据，- 原始数据极速上传NCBI SRA教程，还有
中国核酸数据库GSA数据提交指南。

今天为大家推荐由中科院基因组所创办的国内大数据中心GSA的扩增子数据提交实例。

网址：http://gsa.big.ac.cn/

全中文界面，被Nature、Science和Cell等顶级杂志全面认可。可实现全自动化数据提交，无人值守，有问题邮箱和QQ群技术支持。

联系方式：gsa@big.ac.cn；QQ群：548170081

开始前准备：注册/登陆

访问：http://gsa.big.ac.cn/ ，第一次使用请先点击菜单栏右侧的 Register ，按提示注册一个新用户。

一定要记清楚你的用户名和密码，成功后重新访问主页点击 Login 登陆。

登陆成功，右上角会显示 Welcome, XXX

新建BioProject

主页 http://gsa.big.ac.cn/

点击主页面中的“提交”——访问 http://gsa.big.ac.cn/ ，使用组内帐号登陆 Login，点击提交可看到历史提供GSA记录。新项目要建新BioProect。

http://bigd.big.ac.cn/gsub/submit/bioproject/list

必须的信息主要是提交者个人基本信息，还有项目的名称、基金和简介等。

如下为一个示例的项目信息供参考：

项目标题: Arabidopsis root associated microbiome

涉及领域: Agricultural

项目说明: Arabidopsis root microbiota survey by 16S rDNA amplicon. And using gene mutation and over-express line to identfy key gene regulate microbiota. 

数据类型：Metagenome 和 Metagenomic assembly

样品范围：Enviroment

一般提交后马上可获得项目编号，如PRJCA00xxxx这种格式，请记录好，马上要用，文章里也要写。

注：一篇文章中一般有一个项目号，但一个项目可以有多种类型、多批次的数据，即可以包括下次不同批次的GSA。

数据上传

使用Filezilla登陆 submit.big.ac.cn ，帐号和密码同网站注册账号，登陆

Filezill新建站点填写内容：主机、账号和密码

登陆成功后，上传数据至GSA目录中(最好每批数据建一个子目录，再把左侧数据选中后右键上传或托入右侧)

批量提交样本信息

主页 http://gsa.big.ac.cn/

提交 —— 新建GSA批量提交

01 提交者信息

默认会自动填写你注册时预留的信息，可直接点击保存并进入下一项

02 基本信息

发布日期默认选择 审核通过后即可发布（推荐）

阅读下方声明请后，选择I accept it.

填写样本标题和描述，如下示例

标题：A simple 16S amplicon project for pipeline test

描述：Plant (Arabidopsis thaliana) root associated microbiota. Three groups are different genotypes, including wild-type, gene knock out and over-experssion. Each group has 6 replicates.

项目编号可以选择你之前创建的BioProject。

点击保存并进入下一项

03 样本类型

选择Metagenome，有人类肠道（human-gut）、土壤（soil）和水（water）三大类。

示例数据是植物相关微生物组，属于其它，我们选择Metagenome/Environmental Sample (GSC MIMS unsupported)

点击保存并进入下一项

04 样本属性

下载 BioSample批量提交模板文件 Metagenome_or_environmental.cn.xlsx，也有示例文件e.g.Metagenome_or_environmental.cn.xlsx供参考(注：示例文件来自我之前参与的文章，详见 Plant Com：定量检测宿主微生物组的HA-QAP技术)。

注：模板经常更新，请以官网为准，本次提供的文件仅供参考。

主要填写的字段介绍，详见e.g.Metagenome_or_environmental.cn.xlsx表格中的Description页面有比较详细的中文简介：

下面是一些我的个人经验

*sample_name: 样品名，推荐字母开头，字母和数据组合的名称，且必须唯一，详见样品命名注意事项实例教程。
*public_description：填写样本的详细描述，重点突出你的实验分组信息，比如我们实验是分3组，分组有6个重复，这些分类和重复名是样本描述的重点。如“Wild-type replicate 1”
*project_accession填写；即本项目注册的项目编号 PRJCA00xxxx
*sample title；可以是样本名的全称描述，也可以与样本名相同
*organism：物种，单一物种要填拉丁名，我们16S研究多物种，以细菌和古菌为主，填写Microbiota
host：宿主来源，添宿主的拉丁名，如拟南芥填写Arabidopsis thaliana
isolation_source：分离来源，即取样部分的描述，如拟南芥根Arabidopsis root
*collection_date：采样时间，年月日格式，如2017/6/30
*geographic_location：采样地点，国家：省/市，如China: Beijing
*latitude_longitude：经纬度，最好采样的时间用手机指南指定位下，格式到小数点后两位分，如：40.00 N 116.22 E
其它非必须选项可如实填写即可，没有可不填
description：可以补充重要信息，如我们的材料均为Col-0为背景，并且生长30天。描述为Col-0 30 days

填写完的示例格式

填写并保存好Excel样本信息后，点击请选择文件选择样本信息文件，然后点上传，然后再点击 校验。没问题会提示Checked OK

上传并校验成功。

校验失败，请参考error.txt报告和参考的模板修改，直到通过校验。

点击保存并进入下一项

05 元数据信息

下载元数据提交模板文件 GSA_Template.cn.xlsx，也有示例文件e.g.GSA_Template.cn.xlsx供参考(不过这个示例是m6A测序数据，不是扩增子或宏基因组，参考意义不大)

包括Experiment(实验样品)和Run(测序样品，一个实验样品可能有多个测序样品)两页：

实验样品信息

下面是官方描述可以读一下实验样本信息的填写说明。再往下有我的填写经验指南：

*ID：E1, E2, …，不够的按顺序补，多余的删除
*Experiment title：如果你的实验和样本是一一对应，此处可以填写上面样品的public_description(样本描述)，或者进一步技术简介，如“16S rDNA amplicon of knock-out replicate 1”
*BioProject accession: 同上 project_accession
*BioSample name：同上 sample_name
BioSample accession：不填
*Platform：选择测序平台，有几十种可选，扩增子PE250测序常用 Illumina HiSeq 2500，NovaSeq 6000 或 MiSeq三种平台。这里我们填写最广泛使用的 Illumina HiSeq 2500 (因为这是3年前测的，目前NovaSeq 6000最常用)
*Library Construction / Experimental Design：简介你的测序前实验，如DNA提交、扩增引物、建库方法等，示例 “DNA for each sample was extracted with FastDNA SPIN Kit (MP Biomedicals), then V5-V7(799F-1193R) of 16S rDNA was amplified by two-step PCR. Finally, the amplicons were sequenced on Illumina HiSeq 2500 platform in pair-end 250 bp mode.”
Library name：文库名称，样本来源的文库ID，可用于研究批次效应，可不填
*Strategy：建库类型，选择“AMPLICON”
*Source：实验材料来源类型，选择“METAGENOMIC”
*Selection：片段的富集或选择方法，扩增子选“PCR”
*Layout：测序模式，这里选“PAIRED”
*Read length for mate1(bp)：填写 250。MiSeq平台产出数据可能为300
Read Insert size (bp)length for mate 2(bp)：填写 250，同上
Insert size (bp)：填写441，是要一个确定的值，为你测序片段长度估计的中值、均值都可以，一般350-450之间的长度较适合PE250测序，即可以测通，又由足够的精度信息。由你选择的引物决定扩增的片段大小。计算方法为(引物名称相减+引物长+barcode长)，如此次为 1193-799+18+19+10=441。因为我们测序PE250最长才500，而且要有50 bp的重叠，一般测序长度要 < 450 bp才能保证大多数据序列测通。

实验信息填写的结果预览。

测序样品信息

填写说明，请阅读：

下有是我的填写经验：

ID: R1, R2, …，不够的按顺序补，多余的删除
*Run title：与Experiment title 一致。注：存在一个Experiemnt有多个Run的情况，在宏基因组中很常见，如一个样本需要300GB的数据，可能需要几个文库分别建库测序才能获得目标数据量。
*BioProject accession: 同上project_accession
*Experiment accession，复制自Experiment页第一列
*Run data file type: 选择 fastq
*File name 1: 如 ls|grep '_1.'获得左端序列文件名，并复制填入表(默认按字母顺序，需要确定样本已经按名称排序才能对应)
MD5 checksum 1: 在命令行用`md5sum _1.fq.gz`计算左端数据md5值，并按Alt矩形选择数据粘贴入表格即可
File name 2: 如 ls|grep '_2.'获得左端序列文件名，并复制填入表(默认按字母顺序，需要确定样本已经按名称排序才能对应)
MD5 checksum 2: 在命令行用md5sum *_2.fq.gz计算左端数据md5值，并按Alt矩形选择数据粘贴入表格即可

获取文件名列表和计算md5sum值和过程

测序文件信息填写的结果预览。

填写并保存好Excel样本信息后，点击请选择文件选择样本信息文件，然后点上传，校验。没问题会提示Checked OK

点击保存并进入下一项

06 文件上传

我们之前已经通过Filezilla的FTP方式上传了文件，此处什么也不用操作。

点击保存并进入下一项即可。

如果提示 “离开此网站”，点击“离开”即可。

07概况信息

展示提交项目的基本信息，最后阅读确定。有问题可以点击上方的各步数字按扭跳转修改。

下面是每个样本的信息，没问题点击 提交。

大功告成。一般要等1-2后，等待数据检查，成功后才会分配GSA编号。

注：文件校验需要时间，上TB级别的数据，可能校验需要几周。

常见问题

数据上传速度

我使用GSA上传数据，推荐使用Filezilla的FTP模式，支持断点续传，速度非常快。最快可达40 MB/S，即一般千兆网速的速度(代宽是由你的网络供应商决定的)，和移动硬盘往电脑上复制飞一般的感觉。

如果你的数据特别多，而且传输速度也不快，可以联系GSA的邮箱或QQ（见主页），应该可以邮寄硬盘的。在北京，离基因组所不远可以京自去。

扩增子数据格式，单端或双端，是否包含引物和接头

关于这个问题，答案是都可以。最好上传双端的原始数据，别人以此为基础可以处理成任何想要的格式。

如果是双端合并后的单端也不错，这样最好也把barcode和引物去掉，即clean amplicon数据，即扩增子的目标序列，可以不用操心你的实验设计，直接分析和物种注释，使用更方便。

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍未解决群内讨论，问题不私聊，帮助同行。

学习扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

转载本文请联系原作者获取授权，同时请注明本文来自刘永鑫科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3334560-1219493.html

上一篇：Cell：植物根系如何允许有益微生物定植的
下一篇：宏基因组数据提交GSA实操手册—发表文章前必备技能

收藏 IP: 210.75.224.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

刘永鑫

扫一扫，分享此博文

woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

16S扩增子数据提交GSA实操手册—发表文章前必备技能

GSA简介

开始前准备：注册/登陆

新建BioProject

数据上传