陈明杰
代谢组数据上传攻略:手把手教你从零搞定Metabolomics Workbench!
2025-6-9 13:02
阅读:265

导读:还在为代谢组数据存储和共享发愁?本文为你带来最全上传指南——从注册账号、填写元数据,到数据上传、审核反馈,一步步教你获得专属DOI号,让数据可追溯、可引用!

一、代谢组简介

代谢组(Metabolome)是指生物体内所有小分子代谢物的集合,包括中间代谢产物(如氨基酸、有机酸)、激素、信号分子等,分子量通常小于1500 Da。作为系统生物学的重要组成,代谢组反映了生物体在特定生理或病理状态下的生化活动终点,是基因、蛋白及环境因素共同作用的直接体现。

代谢组学(Metabolomics)通过质谱(MS)、核磁共振(NMR)等技术分析代谢物动态变化,广泛应用于疾病标志物发现(如癌症、糖尿病)、药物研发、营养学及环境毒理学研究。其优势在于高灵敏度和动态性,能揭示传统组学难以捕捉的生理细节,为精准医学和生物机制解析提供关键依据。

二、Metabolomics Workbench简介

Metabolomics WorkbenchMW 是由美国国立卫生研究院(NIH)资助的公共数据库和数据分析平台,旨在存储、共享和分析代谢组学数据。它提供标准化数据格式、工具和资源,支持代谢组学研究。收录了代谢组相关的实验数据(如质谱、核磁共振数据)及元数据,覆盖人类、动物、植物等多个物种,适用于跨物种研究。

三、数据上传步骤

这里以LC-MS非靶向代谢组学RAW格式的原始数据为例,详细介绍如何上传数据。

1) 注册

打开官网https://www.metabolomicsworkbench.org/                                       fig1.png

图1. Metabolomics workbench主页

 点击右上角的Register(若注册过请跳过这一步)

fig2.png

图2. 注册信息

 按照实际信息填写,然后点击Submit按钮提交注册。注册成功后会收到邮件信息。

 fig3.png

图3. 注册成功邮件确认

 2) 登录

注册成功后,点击主页右上角的Log in,输入用户名和密码,提交进入系统。

fig4.png

图4.登录界面

fig5.png

图5. 登录后页面

 3)新数据上传

点击页面左上角的“Data Repository”(数据仓库)下拉菜单中的“Upload / Manage Studies”,可以进入到数据提交或者查看已提交list页面。

fig6.png

 图6.上传和管理页面

点击“New Submission”按钮,进入新提交页面

fig7.png

图7. 新提交页面

在该页面上填写相关信息,主要包括:

1.  原始数据文件压缩包名字,也就是将你要上传的原始文件打包成zip压缩包,填写下压缩包的名字即可。例如MyData.zip

2.  Protocol/method文件名:将Collection、Treatment、SamplePrep相关的protocol信息存到protocol.txt文件中,将Chromatography、MS相关的method信息存到method.txt文件中,在相应步骤上传对应文件。也就是这里填写个文件的名字(后边步骤不传这个文件似乎也能审核通过,但是建议填写并上传)。

3.  待提交文件类型:例如非靶向MS,靶向MS等,请根据实际情况填写

4.  二进制数据格式:也就是原始数据文件的后缀,例如RAW

5.  数据公开日期:可以选择不公开,或者填写公开的日期

点击提交按钮,会分配一个DataTrack ID,例如这里是5996。然后点击“New online study submission”按钮进入详细内容填写页面。

fig8.png

图8. 获得DataTrack ID

如果你的数据不是用Metabolon分析的,那么选择“Start a new online study submission”按钮。

fig9.png

图9.开始新的在线研究提交

点击“Start a new online study submission”按钮后,正式进入填写页面,需要填写约10个tab的信息,包括Project、Study、Subject、Study Design、Collection、Treatment、SamplePrep、MS/NMR、Data和Finalize。其中红色区域内容为必填项,白色区域的为选填项。请应填尽填,能详细填写的就不要简写,否则可能会审核不通过。可以参考别人上传的项目的相关内容填写。

注:所有内容请均使用英文填写(这里写中文是为了帮助理解)。

3.1     Project

这部分填写的是项目/课题(Project)相关的信息,主要包括项目的Title、Summary、研究所、姓名、地址、邮箱、电话等。填写完后,点击Add project metadata会保存本步骤所填写的内容,然后进入到下一个Study页面。

fig10.png

图10. Project元数据页面

 3.2     Study

这部分填写的是研究(Study)相关的信息,主要包括物种、Title、Summary、研究所/大学、姓名、地址、邮箱、电话等信息。填写完后,点击“Add study metadata”会保存本步骤所填写的内容,然后进入到下一个Subject页面。

fig12.png

图11. Study元数据页面

3.3     Subject

这部分填写的是研究对象(Subject)相关的信息,主要包括物种(根据上一步骤选择的物种自动识别)、年龄、身高、体重、性别等研究对象(即取材对象)的相关信息。填写完后,点击“Add subject metadata”会保存本步骤所填写的内容,然后进入到下一个Study design页面。

fig12.png

12. Subject元数据页面

3.4     Study design

这部分填写的是研究设计(Study design)相关的信息,也就是样品名,表型,因子,原始数据等信息。可以在excel中填写,填好后,复制粘贴到输入框,然后点击“View/check study design”按钮,会让你为每一列分配一个名字,例如Subject ID,Sample ID(例如NC1,NC2等),Sample source(例如细胞系,组织等),factor(例如敲除,加药等),Raw file name(例如NC1.raw,NC2.raw等)。填写完后,点击“Return to start”按钮,会保存本步骤所填写的内容,然后进入到最初页面,点击“Continue or edit ……”按钮,选择Collection 标签。

注:如果既有POS,又有NEG的,可以POS写一列,NEG写一列。

fig13.png

图13. Study design数据页面

 3.5          Collection

这部分填写的是样品收集(Collection)相关的信息,包括:Summary、样品来源、收集方法、收集部位等信息。填写完后,点击“Add collection metadata”按钮会保存本步骤所填写的内容,然后进入到Treatment页面。

注意:这里请仔细填写,审核比较严格。

fig14.png

14. Collection元数据页面

 3.6         Treatment

这部分填写的是样品处理(Treatment)相关的信息,包括:Summary、处理类型、处理的化合物、剂量等信息。填写完后,点击“Add treatment metadata”会保存本步骤所填写的内容,然后进入到Sampleprep页面。

注意:这里请仔细填写,审核比较严格。

fig15.png

15. Treament元数据

3.7          Sample prep

这部分填写的是样品制备(Sample prep)相关的信息,包括:Summary、处理方法,处理存储条件、提取方法等信息,并将样品制备protocol文件上传上去。填写完后,点击“Add sampleprep metadata”会保存本步骤所填写的内容,然后进入到Chrom.页面。

fig16.png

16.Sampleprep元数据页面

 3.8          Chromatography

这部分填写的是色谱方法(Chromatography method)相关的信息,包括:色谱类型、仪器名、流动相A(Solvent A)、流动相B(Solvent B)、流动相梯度(Flow Gradient)、流速(Flow Rate)、柱温(Column Temperature)等信息。填写完后,点击“Add Chromatography metadata”会保存本步骤所填写的内容,然后进入到MS页面。

注:这些信息一般可以从报告中获得,若没有,请联系数据产出商。

 

fig17.png

17. Chromatography元数据页面

 以下是一些常见的参数说明:

色谱类型(Chromatography Type):

1.    反相色谱(Reversed Phase, RP

·      固定相极性:非极性(Non-polar

·      流动相极性:极性(Polar

·      典型应用:大多数有机化合物(Most organic compounds

2.    正相色谱(Normal Phase, NP

·      固定相极性:极性(Polar

·      流动相极性:非极性(Non-polar

·      典型应用:异构体、极性化合物(Isomers, polar compounds

3.    离子交换色谱(Ion Exchange, IEX

·      固定相极性:带电基团(Charged groups

·      流动相极性:缓冲盐(Buffer salts

·      典型应用:蛋白质、核酸(Proteins, nucleic acids

4.    体积排阻色谱(Size Exclusion, SEC

·      固定相极性:多孔材料(Porous material

·      流动相极性:依需求(Depends on application

·      典型应用:高分子量物质如蛋白质(High-MW compounds, e.g., proteins

5.    亲水相互作用色谱(HILIC

·      固定相极性:极性(Polar

·      流动相极性:高有机相+少量水(High organic + low water

·      典型应用:强极性化合物如糖类、代谢物(Highly polar compounds, e.g., sugars, metabolites

6.    手性色谱(Chiral Chromatography

·      固定相极性:手性选择剂(Chiral selector

·      流动相极性:正相或反相条件(NP or RP conditions

·      典型应用:对映体分离(Enantiomer separation

 Column Name(色谱柱名称)

·      定义:色谱柱是分离样品的核心部件,其名称通常包含以下信息:

o   固定相类型(如C18C8HILIC等)

o   柱规格(内径×长度,如2.1×50 mm

o   粒径(如1.7 µm5 µm

o   品牌/型号(如Waters ACQUITY UPLC BEH C18

·      作用:不同色谱柱对化合物的保留能力和分离效果不同,需根据分析物性质选择。

Solvent A(流动相A

·      定义:LC-MS中通常使用两种流动相:

o   Solvent A:通常是 水相(含0.1%甲酸或缓冲盐,如5 mM乙酸铵)。

o   Solvent B:通常是 有机相(如乙腈或甲醇)。

·      作用:通过调节A/B比例实现化合物在色谱柱上的梯度洗脱(见下文)。

·      LC-MS中的特殊要求:需使用 质谱级溶剂(高纯度,低背景干扰)。

Flow Gradient(流动相梯度)

·      定义:随时间改变流动相AB的比例的程序。例如:

0 min: 95% A → 5% A 

0-10 min: 线性降至5% A 

10-12 min: 保持5% A 

12.1 min: 回到95% A(柱平衡) 

·      作用:优化不同极性化合物的分离效果和峰形。

·      关键参数:梯度时间、斜率、初始和最终比例。

 Flow Rate(流速)

·      定义:流动相通过色谱柱的速率(单位:mL/minµL/min)。

·      常见值:

o   常规HPLC1.0 mL/min

o   UPLC0.2–0.6 mL/min

o   微升流速(Nano-LC):100–300 nL/min(用于蛋白质组学)

·      影响:流速影响分离效率、柱压和分析时间。高流速可能降低分离度,但缩短运行时间。

Column Temperature(柱温)

·      定义:色谱柱的温度(单位:°C),通常由柱温箱控制。

·      常用范围:30–60°C(部分方法可达80°C)。

·      作用:

o   升高温度可降低流动相粘度,减少柱压。

o   影响化合物的保留时间和选择性(尤其对离子化化合物)。

·      注意事项:需避免超过色谱柱的最高耐受温度(如硅胶柱通常≤60°C)。

 3.9          MS/NMR

这部分填写MS/NMR相关的信息,包括:仪器名、仪器类型、MS类型、离子模式(ion mode)、MS信号获取、数据处理、软件等信息。填写完后,点击“Add MS metadata”会保存本步骤所填写的内容,然后进入到Data页面。

注:若既有POS又有NEG,请选择2,然后会出现左右两个MS相关信息供填写。这些信息一般可以从报告中获得,若没有,请联系数据产出商。

fig18.png

18.阳(positive)离子模式

fig19.png

19. 阳离子(positive)和阴离子(negative)模式

常见MS类型:

1. 软电离技术(Soft Ionization

·      ESI(电喷雾电离)

o   适用:极性化合物、蛋白质、多肽、代谢物(LC-MS常用)。

o   特点:生成多电荷离子(如[M+nH]ⁿ⁺),适合大分子。

·      MALDI(基质辅助激光解吸电离,Matrix-Assisted Laser Desorption/Ionization

o   适用:蛋白质、多糖、高分子聚合物(常与TOF联用)。

o   特点:样品与基质共结晶,激光激发产生单电荷离子(如[M+H]⁺)。

·      APCI(大气压化学电离,Atmospheric Pressure Chemical Ionization

o   适用:中等极性、小分子(如药物、脂类)。

o   特点:通过电晕放电离子化,比ESI更耐盐和缓冲液。

·      APPI(大气压光致电离,Atmospheric Pressure Photoionization

o   适用:非极性化合物(如多环芳烃、固醇类)。

o   特点:紫外灯激发,适合ESI/APCI难以电离的分子。

2. 硬电离技术(Hard Ionization

适用于小分子、结构分析(产生碎片离子):

·      EI(电子轰击电离,Electron Impact Ionization

o   适用:挥发性小分子(GC-MS常用)。

o   特点:高能电子轰击,产生丰富碎片,有标准谱库(如NIST)。

·      CI(化学电离,Chemical Ionization

o   适用:热不稳定小分子(补充EI)。

o   特点:反应气(如甲烷)缓冲,生成[M+H]⁺[M-H]⁻,碎片较少。

3.10  Data

这部分填写的Data相关的信息。也就是提交每个样品中每个代谢物信号的定量表格。包括两种模式:1)带代谢物名字的表格;2)不带代谢物名字的表格,例如m/z表格等。可以参考示例,将自己的数据调整成示例的样式。例如这里我们上传的是m/z表格,需要将第一列处理成m/z_RT格式,例如645.5327_24.91,其中645.5327是m/z(质荷比,离子的质量(m)与其所带电荷数(z)的比值,用于表征离子的特征),24.91是retention time(保留时间,样品组分通过色谱柱所需的时间)。Units of measurement包括:peak area, peak intensity, AUC等。填写好unit等信息后,点击“选择文件”按钮,选择处理好的txt格式的m/z表格文件,然后点击“Upload tab-delimited datafile”会保存本步骤的所填写的信息,并上传m/z表格文件。

 

fig20.png

20. 添加反向positive数据集

fig21.png

21. 定量表格数据示例

fig22.png

22.上传定量表格

3.11  Finalizeftp上传账号

上传好定量表格后,点击“Done”按钮,然后获得FTP上传账号。主要包括:地址(www.metabolomicsworkbench.org),用户名(drccupload),密码(随机字符串)和上传目录(DataTrackID

fig23.png23. FTP上传账号

fig24.png

24. 输入FTP账号信息

打开FTP软件,输入主机名,用户名和密码,浏览到本地目录(左侧)和服务器远程目录(右侧),然后将左侧的MyData.zip上传到右侧5996文件夹即可,速度约1Mb/s

fig25.png

25. 上传页面

3.12 邮件反馈

上传zip文件后,工作人员会在约5-10个工作日(实际上2-3天)内进行邮件反馈,例如告诉你哪里有问题,如何修改等。

fig26.png

26. 邮件反馈信息

根据邮件内容,重新登录进去,查看list of submission,修改邮件中提到的incomplete信息,然后进行反馈(response)。

fig27.png

27. 根据反馈修改信息

3.13  获得DOI

经过多轮反馈后,最终上传成功,获得DOI号,并可以在文章中以此DOI号引用该数据。

fig28.png

 28. 上传成功,分配DOI

微生信助力高分文章,用户300000+,谷歌学术6400+

转载本文请联系原作者获取授权,同时请注明本文来自陈明杰科学网博客。

链接地址:https://wap.sciencenet.cn/blog-707141-1489084.html?mobile=1

收藏

分享到:

下一篇
当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?