||
GSA是Genome Sequence Archive的缩写,即基因组序列存档,由中科院基因组所主办。
之前介绍过NCBI提交测序数据,- 原始数据极速上传NCBI SRA教程,还有
中国核酸数据库GSA数据提交指南。
今天为大家推荐由中科院基因组所创办的国内大数据中心GSA的扩增子数据提交实例。
全中文界面,被Nature、Science和Cell等顶级杂志全面认可。可实现全自动化数据提交,无人值守,有问题邮箱和QQ群技术支持。
联系方式:gsa@big.ac.cn;QQ群:548170081
访问:http://gsa.big.ac.cn/ ,第一次使用请先点击菜单栏右侧的 Register ,按提示注册一个新用户。
一定要记清楚你的 用户名 和 密码,成功后重新访问主页 点击 Login 登陆。
登陆成功,右上角会显示 Welcome, XXX
点击主页面中的“提交”——访问 http://gsa.big.ac.cn/ ,使用组内帐号登陆 Login,点击提交可看到历史提供GSA记录。新项目要建新BioProect。
http://bigd.big.ac.cn/gsub/submit/bioproject/list
必须的信息主要是提交者个人基本信息,还有项目的名称、基金和简介等。
如下为一个示例的项目信息供参考:
项目标题: Arabidopsis root associated microbiome
涉及领域: Agricultural
项目说明: Arabidopsis root microbiota survey by 16S rDNA amplicon. And using gene mutation and over-express line to identfy key gene regulate microbiota.
数据类型:Metagenome 和 Metagenomic assembly
样品范围:Enviroment
一般提交后马上可获得项目编号,如PRJCA00xxxx这种格式,请记录好,马上要用,文章里也要写。
注:一篇文章中一般有一个项目号,但一个项目可以有多种类型、多批次的数据,即可以包括下次不同批次的GSA。
使用Filezilla登陆 submit.big.ac.cn ,帐号和密码同网站注册账号,登陆
Filezill新建站点填写内容:主机、账号和密码
登陆成功后,上传数据至GSA目录中(最好每批数据建一个子目录,再把左侧数据选中后右键上传或托入右侧)
提交 —— 新建GSA批量提交
默认会自动填写你注册时预留的信息,可直接点击保存并进入下一项
发布日期默认选择 审核通过后即可发布(推荐)
阅读下方声明请后,选择I accept it.
填写样本标题和描述,如下示例
标题:A simple 16S amplicon project for pipeline test
描述:Plant (Arabidopsis thaliana) root associated microbiota. Three groups are different genotypes, including wild-type, gene knock out and over-experssion. Each group has 6 replicates.
项目编号可以选择你之前创建的BioProject。
点击保存并进入下一项
选择Metagenome,有人类肠道(human-gut)、土壤(soil)和水(water)三大类。
示例数据是植物相关微生物组,属于其它,我们选择Metagenome/Environmental Sample (GSC MIMS unsupported)
点击保存并进入下一项
下载 BioSample批量提交模板文件 Metagenome_or_environmental.cn.xlsx
,也有示例文件e.g.Metagenome_or_environmental.cn.xlsx
供参考(注:示例文件来自我之前参与的文章,详见 Plant Com:定量检测宿主微生物组的HA-QAP技术)。
注:模板经常更新,请以官网为准,本次提供的文件仅供参考。
主要填写的字段介绍,详见e.g.Metagenome_or_environmental.cn.xlsx
表格中的Description页面有比较详细的中文简介:
下面是一些我的个人经验
PRJCA00xxxx
Microbiota
Arabidopsis thaliana
Arabidopsis root
2017/6/30
China: Beijing
40.00 N 116.22 E
Col-0 30 days
填写完的示例格式
填写并保存好Excel样本信息后,点击请选择文件
选择样本信息文件,然后点上传
,然后再点击 校验
。没问题会提示Checked OK
上传并校验成功。
校验失败,请参考error.txt报告和参考的模板修改,直到通过校验。
点击保存并进入下一项
下载 元数据 提交模板文件 GSA_Template.cn.xlsx
,也有示例文件e.g.GSA_Template.cn.xlsx
供参考(不过这个示例是m6A测序数据,不是扩增子或宏基因组,参考意义不大)
包括Experiment(实验样品)和Run(测序样品,一个实验样品可能有多个测序样品)两页:
下面是官方描述可以读一下实验样本信息的填写说明。再往下有我的填写经验指南:
实验信息填写的结果预览。
填写说明,请阅读:
下有是我的填写经验:
fastq
ls|grep '_1.'
获得左端序列文件名,并复制填入表(默认按字母顺序,需要确定样本已经按名称排序才能对应)ls|grep '_2.'
获得左端序列文件名,并复制填入表(默认按字母顺序,需要确定样本已经按名称排序才能对应)md5sum *_2.fq.gz
计算左端数据md5值,并按Alt矩形选择数据粘贴入表格即可获取文件名列表 和 计算md5sum值和过程
测序文件信息填写的结果预览。
填写并保存好Excel样本信息后,点击请选择文件
选择样本信息文件,然后点上传
,校验。没问题会提示Checked OK
点击保存并进入下一项
我们之前已经通过Filezilla的FTP方式上传了文件,此处什么也不用操作。
点击保存并进入下一项
即可。
如果提示 “离开此网站”,点击“离开”即可。
展示提交项目的基本信息,最后阅读确定。有问题可以点击上方的各步数字按扭跳转修改。
下面是每个样本的信息,没问题点击 提交
。
大功告成。一般要等1-2后,等待数据检查,成功后才会分配GSA编号。
注:文件校验需要时间,上TB级别的数据,可能校验需要几周。
我使用GSA上传数据,推荐使用Filezilla的FTP模式,支持断点续传,速度非常快。最快可达40 MB/S,即一般千兆网速的速度(代宽是由你的网络供应商决定的),和移动硬盘往电脑上复制飞一般的感觉。
如果你的数据特别多,而且传输速度也不快,可以联系GSA的邮箱或QQ(见主页),应该可以邮寄硬盘的。在北京,离基因组所不远可以京自去。
关于这个问题,答案是都可以。最好上传双端的原始数据,别人以此为基础可以处理成任何想要的格式。
如果是双端合并后的单端也不错,这样最好也把barcode和引物去掉,即clean amplicon数据,即扩增子的目标序列,可以不用操心你的实验设计,直接分析和物种注释,使用更方便。
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-4-25 04:59
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社