导读:还在为代谢组数据存储和共享发愁?本文为你带来最全上传指南——从注册账号、填写元数据,到数据上传、审核反馈,一步步教你获得专属DOI号,让数据可追溯、可引用!
一、代谢组简介
代谢组(Metabolome)是指生物体内所有小分子代谢物的集合,包括中间代谢产物(如氨基酸、有机酸)、激素、信号分子等,分子量通常小于1500 Da。作为系统生物学的重要组成,代谢组反映了生物体在特定生理或病理状态下的生化活动终点,是基因、蛋白及环境因素共同作用的直接体现。
代谢组学(Metabolomics)通过质谱(MS)、核磁共振(NMR)等技术分析代谢物动态变化,广泛应用于疾病标志物发现(如癌症、糖尿病)、药物研发、营养学及环境毒理学研究。其优势在于高灵敏度和动态性,能揭示传统组学难以捕捉的生理细节,为精准医学和生物机制解析提供关键依据。
二、Metabolomics Workbench简介
Metabolomics Workbench(MW) 是由美国国立卫生研究院(NIH)资助的公共数据库和数据分析平台,旨在存储、共享和分析代谢组学数据。它提供标准化数据格式、工具和资源,支持代谢组学研究。收录了代谢组相关的实验数据(如质谱、核磁共振数据)及元数据,覆盖人类、动物、植物等多个物种,适用于跨物种研究。
三、数据上传步骤
这里以LC-MS非靶向代谢组学RAW格式的原始数据为例,详细介绍如何上传数据。
1) 注册
打开官网https://www.metabolomicsworkbench.org/
图1. Metabolomics workbench主页
点击右上角的Register(若注册过请跳过这一步)
图2. 注册信息
按照实际信息填写,然后点击Submit按钮提交注册。注册成功后会收到邮件信息。
图3. 注册成功邮件确认
2) 登录
注册成功后,点击主页右上角的Log in,输入用户名和密码,提交进入系统。
图4.登录界面
图5. 登录后页面
3)新数据上传
点击页面左上角的“Data Repository”(数据仓库)下拉菜单中的“Upload / Manage Studies”,可以进入到数据提交或者查看已提交list页面。
图6.上传和管理页面
点击“New Submission”按钮,进入新提交页面
图7. 新提交页面
在该页面上填写相关信息,主要包括:
1. 原始数据文件压缩包名字,也就是将你要上传的原始文件打包成zip压缩包,填写下压缩包的名字即可。例如MyData.zip
2. Protocol/method文件名:将Collection、Treatment、SamplePrep相关的protocol信息存到protocol.txt文件中,将Chromatography、MS相关的method信息存到method.txt文件中,在相应步骤上传对应文件。也就是这里填写个文件的名字(后边步骤不传这个文件似乎也能审核通过,但是建议填写并上传)。
3. 待提交文件类型:例如非靶向MS,靶向MS等,请根据实际情况填写
4. 二进制数据格式:也就是原始数据文件的后缀,例如RAW
5. 数据公开日期:可以选择不公开,或者填写公开的日期
点击提交按钮,会分配一个DataTrack ID,例如这里是5996。然后点击“New online study submission”按钮进入详细内容填写页面。
图8. 获得DataTrack ID
如果你的数据不是用Metabolon分析的,那么选择“Start a new online study submission”按钮。
图9.开始新的在线研究提交
点击“Start a new online study submission”按钮后,正式进入填写页面,需要填写约10个tab的信息,包括Project、Study、Subject、Study Design、Collection、Treatment、SamplePrep、MS/NMR、Data和Finalize。其中红色区域内容为必填项,白色区域的为选填项。请应填尽填,能详细填写的就不要简写,否则可能会审核不通过。可以参考别人上传的项目的相关内容填写。
注:所有内容请均使用英文填写(这里写中文是为了帮助理解)。
3.1 Project
这部分填写的是项目/课题(Project)相关的信息,主要包括项目的Title、Summary、研究所、姓名、地址、邮箱、电话等。填写完后,点击Add project metadata会保存本步骤所填写的内容,然后进入到下一个Study页面。
图10. Project元数据页面
3.2 Study
这部分填写的是研究(Study)相关的信息,主要包括物种、Title、Summary、研究所/大学、姓名、地址、邮箱、电话等信息。填写完后,点击“Add study metadata”会保存本步骤所填写的内容,然后进入到下一个Subject页面。
图11. Study元数据页面
3.3 Subject
这部分填写的是研究对象(Subject)相关的信息,主要包括物种(根据上一步骤选择的物种自动识别)、年龄、身高、体重、性别等研究对象(即取材对象)的相关信息。填写完后,点击“Add subject metadata”会保存本步骤所填写的内容,然后进入到下一个Study design页面。
图12. Subject元数据页面
3.4 Study design
这部分填写的是研究设计(Study design)相关的信息,也就是样品名,表型,因子,原始数据等信息。可以在excel中填写,填好后,复制粘贴到输入框,然后点击“View/check study design”按钮,会让你为每一列分配一个名字,例如Subject ID,Sample ID(例如NC1,NC2等),Sample source(例如细胞系,组织等),factor(例如敲除,加药等),Raw file name(例如NC1.raw,NC2.raw等)。填写完后,点击“Return to start”按钮,会保存本步骤所填写的内容,然后进入到最初页面,点击“Continue or edit ……”按钮,选择Collection 标签。
注:如果既有POS,又有NEG的,可以POS写一列,NEG写一列。
图13. Study design数据页面
3.5 Collection
这部分填写的是样品收集(Collection)相关的信息,包括:Summary、样品来源、收集方法、收集部位等信息。填写完后,点击“Add collection metadata”按钮会保存本步骤所填写的内容,然后进入到Treatment页面。
注意:这里请仔细填写,审核比较严格。
图14. Collection元数据页面
3.6 Treatment
这部分填写的是样品处理(Treatment)相关的信息,包括:Summary、处理类型、处理的化合物、剂量等信息。填写完后,点击“Add treatment metadata”会保存本步骤所填写的内容,然后进入到Sampleprep页面。
注意:这里请仔细填写,审核比较严格。
图15. Treament元数据
3.7 Sample prep
这部分填写的是样品制备(Sample prep)相关的信息,包括:Summary、处理方法,处理存储条件、提取方法等信息,并将样品制备protocol文件上传上去。填写完后,点击“Add sampleprep metadata”会保存本步骤所填写的内容,然后进入到Chrom.页面。
图16.Sampleprep元数据页面
3.8 Chromatography
这部分填写的是色谱方法(Chromatography method)相关的信息,包括:色谱类型、仪器名、流动相A(Solvent A)、流动相B(Solvent B)、流动相梯度(Flow Gradient)、流速(Flow Rate)、柱温(Column Temperature)等信息。填写完后,点击“Add Chromatography metadata”会保存本步骤所填写的内容,然后进入到MS页面。
注:这些信息一般可以从报告中获得,若没有,请联系数据产出商。
图17. Chromatography元数据页面
以下是一些常见的参数说明:
色谱类型(Chromatography Type):
1. 反相色谱(Reversed Phase, RP)
· 固定相极性:非极性(Non-polar)
· 流动相极性:极性(Polar)
· 典型应用:大多数有机化合物(Most organic compounds)
2. 正相色谱(Normal Phase, NP)
· 固定相极性:极性(Polar)
· 流动相极性:非极性(Non-polar)
· 典型应用:异构体、极性化合物(Isomers, polar compounds)
3. 离子交换色谱(Ion Exchange, IEX)
· 固定相极性:带电基团(Charged groups)
· 流动相极性:缓冲盐(Buffer salts)
· 典型应用:蛋白质、核酸(Proteins, nucleic acids)
4. 体积排阻色谱(Size Exclusion, SEC)
· 固定相极性:多孔材料(Porous material)
· 流动相极性:依需求(Depends on application)
· 典型应用:高分子量物质如蛋白质(High-MW compounds, e.g., proteins)
5. 亲水相互作用色谱(HILIC)
· 固定相极性:极性(Polar)
· 流动相极性:高有机相+少量水(High organic + low water)
· 典型应用:强极性化合物如糖类、代谢物(Highly polar compounds, e.g., sugars, metabolites)
6. 手性色谱(Chiral Chromatography)
· 固定相极性:手性选择剂(Chiral selector)
· 流动相极性:正相或反相条件(NP or RP conditions)
· 典型应用:对映体分离(Enantiomer separation)
Column Name(色谱柱名称)
· 定义:色谱柱是分离样品的核心部件,其名称通常包含以下信息:
o 固定相类型(如C18、C8、HILIC等)
o 柱规格(内径×长度,如2.1×50 mm)
o 粒径(如1.7 µm、5 µm)
o 品牌/型号(如Waters ACQUITY UPLC BEH C18)
· 作用:不同色谱柱对化合物的保留能力和分离效果不同,需根据分析物性质选择。
Solvent A(流动相A)
· 定义:LC-MS中通常使用两种流动相:
o Solvent A:通常是 水相(含0.1%甲酸或缓冲盐,如5 mM乙酸铵)。
o Solvent B:通常是 有机相(如乙腈或甲醇)。
· 作用:通过调节A/B比例实现化合物在色谱柱上的梯度洗脱(见下文)。
· LC-MS中的特殊要求:需使用 质谱级溶剂(高纯度,低背景干扰)。
Flow Gradient(流动相梯度)
· 定义:随时间改变流动相A和B的比例的程序。例如:
0 min: 95% A → 5% A
0-10 min: 线性降至5% A
10-12 min: 保持5% A
12.1 min: 回到95% A(柱平衡)
· 作用:优化不同极性化合物的分离效果和峰形。
· 关键参数:梯度时间、斜率、初始和最终比例。
Flow Rate(流速)
· 定义:流动相通过色谱柱的速率(单位:mL/min或µL/min)。
· 常见值:
o 常规HPLC:1.0 mL/min
o UPLC:0.2–0.6 mL/min
o 微升流速(Nano-LC):100–300 nL/min(用于蛋白质组学)
· 影响:流速影响分离效率、柱压和分析时间。高流速可能降低分离度,但缩短运行时间。
Column Temperature(柱温)
· 定义:色谱柱的温度(单位:°C),通常由柱温箱控制。
· 常用范围:30–60°C(部分方法可达80°C)。
· 作用:
o 升高温度可降低流动相粘度,减少柱压。
o 影响化合物的保留时间和选择性(尤其对离子化化合物)。
· 注意事项:需避免超过色谱柱的最高耐受温度(如硅胶柱通常≤60°C)。
3.9 MS/NMR
这部分填写MS/NMR相关的信息,包括:仪器名、仪器类型、MS类型、离子模式(ion mode)、MS信号获取、数据处理、软件等信息。填写完后,点击“Add MS metadata”会保存本步骤所填写的内容,然后进入到Data页面。
注:若既有POS又有NEG,请选择2,然后会出现左右两个MS相关信息供填写。这些信息一般可以从报告中获得,若没有,请联系数据产出商。
图18.阳(positive)离子模式
图19. 阳离子(positive)和阴离子(negative)模式
常见MS类型:
1. 软电离技术(Soft Ionization)
· ESI(电喷雾电离)
o 适用:极性化合物、蛋白质、多肽、代谢物(LC-MS常用)。
o 特点:生成多电荷离子(如[M+nH]ⁿ⁺),适合大分子。
· MALDI(基质辅助激光解吸电离,Matrix-Assisted Laser Desorption/Ionization)
o 适用:蛋白质、多糖、高分子聚合物(常与TOF联用)。
o 特点:样品与基质共结晶,激光激发产生单电荷离子(如[M+H]⁺)。
· APCI(大气压化学电离,Atmospheric Pressure Chemical Ionization)
o 适用:中等极性、小分子(如药物、脂类)。
o 特点:通过电晕放电离子化,比ESI更耐盐和缓冲液。
· APPI(大气压光致电离,Atmospheric Pressure Photoionization)
o 适用:非极性化合物(如多环芳烃、固醇类)。
o 特点:紫外灯激发,适合ESI/APCI难以电离的分子。
2. 硬电离技术(Hard Ionization)
适用于小分子、结构分析(产生碎片离子):
· EI(电子轰击电离,Electron Impact Ionization)
o 适用:挥发性小分子(GC-MS常用)。
o 特点:高能电子轰击,产生丰富碎片,有标准谱库(如NIST)。
· CI(化学电离,Chemical Ionization)
o 适用:热不稳定小分子(补充EI)。
o 特点:反应气(如甲烷)缓冲,生成[M+H]⁺或[M-H]⁻,碎片较少。
3.10 Data
这部分填写的Data相关的信息。也就是提交每个样品中每个代谢物信号的定量表格。包括两种模式:1)带代谢物名字的表格;2)不带代谢物名字的表格,例如m/z表格等。可以参考示例,将自己的数据调整成示例的样式。例如这里我们上传的是m/z表格,需要将第一列处理成m/z_RT格式,例如645.5327_24.91,其中645.5327是m/z(质荷比,离子的质量(m)与其所带电荷数(z)的比值,用于表征离子的特征),24.91是retention time(保留时间,样品组分通过色谱柱所需的时间)。Units of measurement包括:peak area, peak intensity, AUC等。填写好unit等信息后,点击“选择文件”按钮,选择处理好的txt格式的m/z表格文件,然后点击“Upload tab-delimited datafile”会保存本步骤的所填写的信息,并上传m/z表格文件。
图20. 添加反向positive数据集
图21. 定量表格数据示例
图22.上传定量表格
3.11 Finalize和ftp上传账号
上传好定量表格后,点击“Done”按钮,然后获得FTP上传账号。主要包括:地址(www.metabolomicsworkbench.org),用户名(drccupload),密码(随机字符串)和上传目录(DataTrackID)
图23. FTP上传账号
图24. 输入FTP账号信息
打开FTP软件,输入主机名,用户名和密码,浏览到本地目录(左侧)和服务器远程目录(右侧),然后将左侧的MyData.zip上传到右侧5996文件夹即可,速度约1Mb/s。
图25. 上传页面
3.12 邮件反馈
上传zip文件后,工作人员会在约5-10个工作日(实际上2-3天)内进行邮件反馈,例如告诉你哪里有问题,如何修改等。
图26. 邮件反馈信息
根据邮件内容,重新登录进去,查看list of submission,修改邮件中提到的incomplete信息,然后进行反馈(response)。
图27. 根据反馈修改信息
3.13 获得DOI号
经过多轮反馈后,最终上传成功,获得DOI号,并可以在文章中以此DOI号引用该数据。
图28. 上传成功,分配DOI号
微生信助力高分文章,用户300000+,谷歌学术6400+
转载本文请联系原作者获取授权,同时请注明本文来自陈明杰科学网博客。
链接地址:https://wap.sciencenet.cn/blog-707141-1489084.html?mobile=1
收藏