代谢组学

综述ANAL CHEM:代谢组学分析流程的最新进展

编译:柿子,编辑:谢衣、江舜尧。

原创微文,欢迎转发转载。

导读

生物学研究范式正在从“假说—对选定变量进行精准定量检测验证”的还原论方法到“组学”技术转变,“组学”技术运用整体方法对所有成分进行检测并对两种及以上条件下的成分变量进行对比分析。在组学技术当中,因代谢产物复杂的理化性质和浓度变化,分析方法的发展对代谢组学影响巨大,因此需要更稳健的分析策略。

本综述旨在遵循分析化学流程的主要步骤,结合代谢组学工作流程的最新发展,客观阐明基于分离技术结合质谱的新分析工具是如何发挥作用的。每个分析过程首先需要明确完整的分析目标,明确样本类型、样本数量、要比较的组别和其他因素等。由于这取决于实验具体情况,我们将着重介绍以下内容:(一)样品收集和制备方面的最新发展;(二)分析工具方面的最新发展;(三)数据挖掘战略和化合物鉴定方面的新趋势。数据解析也是代谢组学和分析过程中的关键部分,但由于篇幅的限制,不再赘述。

论文ID

原名:Recent Developments along the Analytical Process for Metabolomics Workflows

译名:代谢组学分析流程的最新进展

期刊:Analytical Chemistry

IF:6.35

发表时间:2019.10.18

通讯作者:Coral Barbas

通讯作者单位:西班牙圣帕布罗大学药学院代谢组学与生物分析中心

内容

样品采集与处理

样品采集与处理的标准化工作流程的发展与优化在代谢组学研究中至关重要。良好的样品采集及处理方法是代谢组学工作流程中获得可靠信息的基石,同时在涉及不同生物库样本分析的流行病学相关代谢组学研究中更为关键。Kirwan等人综述了样本采集和储存的指导方针和最优方法,以减少生物库间的差异,提高多中心项目结果的可比性。

1. 血,血浆与血清

血浆和血清是基于代谢组学分析,用于揭示多种疾病的潜在生物标志物使用最广泛的基质。尽管目前有标准化的血液样本采集方案,但用于非靶向代谢组学研究的最佳采集方法仍待商榷。一些研究对血浆和血清样本进行了基于液相色谱-质谱(LC-MS)的靶向代谢组学分析,以研究样本类型和采集管对代谢物绝对浓度的影响。作者的结论是血清样品中的代谢物浓度高于添加柠檬酸盐的血浆和添加EDTA的血浆中的代谢物浓度,这有助于生物标记物的发现,但血浆分析的变异性低。另外一项研究对比测试了不同类型的采集管、不同的储存时间,结果表明许多代谢物,特别是一些脂质,如溶血磷脂和鞘磷脂,如果储存不当,在样品收集后30分钟内就会发生变化。

新的微量取样技术—容量吸收法微采样(VAMS),用于收集固定体积(10μL、20μL和30μL)各种生物流体,包括血液等,于2014年引入生物分析领域,适用于靶向和非靶向代谢组学。Volani等多个研究团队在其研究中应用了该技术,在LC-MS、GC-MS、HILIC- (RP) LC-MS/MS等不同检测条件下,分析了基质中代谢物数量和稳定性。最近的血样采集及处理新技术中还有触摸式静脉采血术、干涸血液甲醇提取技术等。另外同位素标记法在以血液为基质的代谢研究中也广泛应用。

在常规临床环境中正确采集的任何血液样本,包括最初为其他目的采集的样本,都有可能用于代谢组学中的差异分析研究。然而,在样品收集和制备过程中,重现性至关重要,因此,强烈建议遵循稳健的标准操作规程。

2. 尿液

最近的研究表明,新鲜尿液样本、累积或混合尿样是24h尿样在饮食因素研究方面的优秀替代品,这些饮食因素研究包括量化饮食暴露的生物标记物和估算人群水平的钠和钾排泄量。在过去的几年里,许多研究报道了包括不同储存条件下尿液代谢物成分组成等变化特征。然而,由于对尿液代谢组学的研究缺乏共识性研究规程,最近又出现了一些使用不同的策略以确定尿液代谢组学的最佳研究方案的研究。结果表明,为保证稳定性,尿样应始终储存在-20°C以下。然而,根据临床情况,尿样在-20°C或更低的温度下储存应少于30天,而长期储存强烈建议在-80°C以下。

3. 组织

区别于体液可用于分析胞外代谢组或代谢轨迹,组织样本可用于评估胞内代谢组。组织样本的代谢组学研究面临的第一个挑战是样本的异质性。由于区域特定的代谢,因此必须谨慎对待。在这方面,大脑是最复杂的器官之一,这使实验设计和进一步分析复杂化。由于许多病理现象仅限于特定的区域,因此,为了达到研究的目的,必须充分证明要进行脑切片分析的解剖区域是合理的。其他具有众所周知的异质性的组织是肝脏和肺。

处理组织时的第二个挑战是有效地抑制正在进行的代谢反应使内源酶失活,最常用的方法是液氮快速冷冻。组织样本采集的一个内在因素是代谢产物的改变,因为当合成代谢反应在死后间隔(PMI)期停止时,分解代谢反应并未停止。PMI是从死亡到获取组织的这段时间,在此期间组织发生了一系列复杂的物理化学变化。代谢组学分析不仅有助于阐明死后间隔期组织内变化,以提高结果解析的可靠性,而且有助于法医学、癌症和组织移植研究。为了揭示与PMI相关的代谢标志物,多个研究团队分别基于HILIC和RP-LC-MS/MS、1H NMR、GC-MS、CE-MS/MS等技术采用代谢组学策略对组织代谢产物进行研究,在不同死亡时间、不同脏器的代谢物水平及变化等信息,可用于发现确证死亡时间代谢标志物和其他研究等。

4. 粪便

粪便是一种非侵入性基质,代表了肠道内消化过程的最终产物。随着对肠道微生物对健康广泛影响的研究逐渐深入,粪便代谢组学引起了越来越多的关注。Karu 等综述了粪便代谢组学分析流程,包括文献获取的样品采集及处理的详细步骤。

5. 细胞

细胞是代谢组学领域的代谢调控研究常用样品类型。然而,最近有报告指出细胞代谢组学在样品收集和代谢物提取方面缺乏公认的操作规程。在代谢组学研究中,胰蛋白酶法和刮削法是两种常用于获取贴壁生长细胞的方法。Luo等多个团队对这两种方法进行了研究,并对一些细节进行了优化。但细胞胰蛋白酶化过程中曾发生代谢物泄漏,因此该种方法须小心使用。

基于组织/生物流体的细胞代谢组学研究的潜在最佳工作流程可能涉及以下内容:首先通过荧光活化细胞分类(FACS)分离感兴趣的细胞类型,然后在细胞裂解之前猝灭细胞代谢。然而,由于高代谢转化率,细胞纯化和猝灭之间的时长是一个关键因素。为了确定该样品处理方案的效果,Llufreo等团队研究表明,FACS影响代谢产物。此外,细胞能量消耗的改变,导致细胞损伤,也被发现有可能损害细胞的稳态。固相微萃取(SPME)是一种新型的样品采集和制备方法。生物分析应用中多种SPME工作流程已经被报道,并有研究证明SMPE可靠有效。

6. 样品制备

代谢组学生物样品前处理并未取得具体进展。文献表明,样本前处理的多种变量变化如何影响非靶向代谢组学研究的结果,而其中某一个变量的优势并不明显。关于代谢物的提取,有研究者建议应通过匹配其极性指数和目标代谢物的辛醇/水分配系数(log P范围)来选择提取溶剂。最近研究表明不同极性混合溶剂相比单一溶剂在提取代谢物方面有明显优势。如果用不同的溶剂混合物进行一系列提取可以进一步提高效率。但传统代谢组学多样的处理过程等,增加了假阳性假阴性,因此需要开发新的样品制备方法。体外液体萃取表面分析,解析电喷雾电离是近年来发展起来的分析方法。

胎盘组织、骨骼、视神经、母乳、外淋巴液和外显子等新型样本基质最近被用于代谢组学,其中部分是首次应用。每种基质都需要特定条件来进行最佳均质、代谢物提取和分析。对这些基质的所有可能的处理的方案详细描述超出了本综述的范围。

分析

毫无疑问,高效液相(UHPLC)或高分辨质谱(HRMS)等仪器技术方面的任何进步都与获取更多的信息和更好的数据质量相关,这也适用于代谢组学。本版块主要是讨论多靶向代谢组学的不同术语和方法,并阐述淌度(IM)、二维气相(GC×GC)、毛细管电泳串联质谱(CE-MS)和手性分析在代谢组学研究中的最新进展

1. 多靶向代谢组学

此部分详细介绍了多靶向代谢组学的用途,优缺点,及最近研究中出现的方法策略,如DDA和DIA。同时阐明了非靶向代谢组学如何获得更多更好的信息。在获得更多的信息方面主要通过多靶向代谢组学的高通量,动态多重反应监测(MRM),不同特征色谱柱串联提高分离能力,质谱检测设置更高的驻留时间(Dwell Time)。如何获取更好的信息方面主要讨论了2个关键挑战:定量策略和去除基质效应,因为去除基质效应已有综述,故而主要讨论定量策略,并详细讨论了靶向定量分析(SIL),靶向估计分析(SI-LIS)、靶向对比分析(设置对照组)。

2. 气相色谱

尽管气相色谱/气质联用法要求样品具有挥发性且样品制备耗时长,过程复杂,但由于其能够检测出关键化合物,所以气相色谱/气质联用法在代谢组学中是非常重要的技术。气相色谱法的分离性能有待提高,在最近报道的技术当中,二维气相色谱法(GC × GC)广泛应用,涉及菌群、尿液、血清/血浆、植物等。但该方法仍然不够健全,在标准方法学、数据解析、结果稳定性仍有局限。针对提高气相色谱法分离能力的研究仍在继续,例如三维气相色谱法。而另外一些研究专注于离子化过程,Tranchida等综述了SPI、CI、APCI等软电离方法。

3. 毛细管电泳串联质谱法

毛细管电泳串联质谱法(CE-MS)广泛用于代谢组学研究中复杂生物样品中极性和离子化合物,因此毛细管电泳串联质谱法可视为液质联用、气质联用及核磁的补充方法以增加代谢物检测覆盖度。电喷雾电离是毛细管电泳和质谱联用最常用的电离方法。尽管鞘液式电喷雾接口最常用于代谢组学研究,仍有多种电喷雾电离接口被开发。文中详列了2018年-2019年7月间将CE-MS用于靶向和非靶向代谢组学生物样品分析的研究。CE-MS在代谢组学仍有局限性,其常用于100以下样本量的数据分析,对于大样本量的研究仍有待提高。然而,Harada等运用CE-MS在分析了8413血浆样本以获得日本人群血样代谢组学特征,并验证了其重复性与准确性,表明CE-MS有能力进行大样本代谢组学分析。

4. 淌度

尽管以质谱为基础的代谢组学不断发展,但在鉴定方面仍有一些局限因素,例如分析时间、同分异构体和同位素。离子淌度质谱(IMS)增加了一个分离维度并以毫秒为单位工作,有助于鉴定。离子淌度提供碰撞截面积参数与保留时间和精确质量共同用于鉴定化合物。近年来,离子淌度飞速发展,目前有8种离子淌度平台。文中总结了近年来应用不同离子淌度质谱的研究。

5. 手性分析

许多生化过程不仅有内源性的,也有外源性化合物。外源性物质和微生物代谢产物都表现出立体专一性。手性代谢产物及手性异构如D-氨基酸(AAs)和D-羟基酸(HAs)在生物体内的生理作用目前引发热议。因此,关于D-AAs作为微生物-宿主相互作用、n-甲基-D-天冬氨酸(NMDA)受体功能障碍和慢性肾脏疾病介质的作用以及D-HAs在肿瘤和糖尿病中的作用的新信息不断被报道。分析这些类型的化合物需要有效的分离方法,因为它们是等重化合物。手性代谢组学可通过靶向和非靶向策略进行评价,这些分析常以相关手性代谢产物为参考依据,最新的方法是同位素标记和衍生化。手性代谢产物的准确定量需要使用内标化合物去除基质导致的离子抑制。由于样品的复杂性和对映体的分离,二维液相色谱(2D-LC)特别适合于手性代谢组学,但其主要缺点是数据管理和分析时间长。多重中心切割2D-LC技术、应用于专属目的多种分析技术研究进展见诸报道,Duncan等综述了基于质谱的单细胞代谢组学,Bowman等综述了基于质谱成像的脂质组学分析,Shulaev 和 Isaac.综述了超临界流体色谱在代谢组学方面的应用。

数据处理

质谱分析产生的数据集非常庞大和复杂,因此需要大量的算法和工作流来处理和分析获取的大量信息。代谢组学数据具备多种特征,其前处理及处理策略总体特征如图1

图 1 代谢组学数据组成、数据质量优化策略和特征选择过程示意图。1. 优化数据质量

代谢组学数据清洗应该被视为数据预处理策略的固有部分。该策略的主要优点是为相关特征建立了数据归一化参数,因为非相关信号会严重影响归一化方法的性能。考虑到现有算法的多样性以及关于系统偏差来源的有限信息,为给定的数据集选择最佳方法是一个主要的挑战,也是目前代谢组学数据预处理的主要障碍。基于不同的原则提出了几种归一化策略,并可归纳为旨在消除实验来源引起的混淆变异的策略。然而,LC−MS代谢组学数据固定干扰因素如下:(1)质谱源中污染物的积累;(2)来自流动相或制备的杂质或变异;(3)分析柱的性能;(4)样品基质复杂性的差异。因此,需要更有效的批量校正策略。QC以及其类似工具statTarget能够有效纠正信号漂移和批次效应,但无法消除那些真正影响代谢组学数据的不必要的生物变化。由于没有标准方法纠正这种差异和可用方法的适用性不同,许多研究人员试图说明众多标准化程序的通用性和性能,包括QC-based算法等。这些报告表明,任何校正方法都应该谨慎使用,因为该方法可能严重影响潜在的生物标志物选择,并可能导致误导结果和错误的结论。因此,最优方法的选择不是琐碎的,必须依赖于数据,满足实验设计的标准和研究目的。由于认识到这些挑战,而且需要对不同的标准化方法进行比较评价,因此导致若干旨在确定实验数据质量的工具方面取得了进展。值得注意的是,最近NOREVA和NormalizeMets代谢组学工具取得了一些进展,这些工具专注于促进并实现对引入的数据矩阵的几种归一化方法的性能评估。

2. 筛选变量/特征

生物标志物的主要作用是区分不同的人群(例如,健康人群和疾病人群)。因此,选择携带相关生物信息的变量是代谢组学工作流程中最重要、最具挑战性的任务之一。由于代谢组学数据的复杂性,特征选择引起了人们越来越多的关注。许多单变量或机器学习方法,如聚类、回归或分类,有助于将组学数据转化为实际的临床应用。然而,近年来,基于数据挖掘工具和计算方法的替代策略得到了广泛的讨论。在此,维度关注的解决方案是通过数据简化方法提供的,该方法允许选择特定的重要变量子集(恰当地描述给定问题),目的是最大化相关性和最小化冗余,并构建具有良好预测性能的综合学习模型。这些方法可以归类为(1)特征子集选择方法(过滤器、包装器和嵌入方法),删除不相关或冗余的变量。(2)特征提取的方法,创建新的特征作为原始变量的组合,以降低所选变量的维数。表3提供了相关算法的一般概述。此外,特征选择可以基于处理未标记数据的无监督模型,或者基于标签信息的有监督模型。无监督主成分分析(PCA)和监督偏最小二乘法(PLS)等多元方法已成为代谢组学的标准方法。然而,最近在代谢组学研究中,越来越多的嵌入式方法以及许多其他基于机器学习算法的方法被报道。对这种方法性能的评价可以在一些和实验报告中找到。考虑到可供选择的变量选择算法数量众多,因此,促进这些算法的选择和应用并进行比较研究具有普遍的意义。为此,Li等人报告了一个开源特性选择库(scikit-feature),其中包括大约40个具有代表性的特性选择算法。在此基础上,作者开发了用户交互特征选择工具FeatureMiner,为用户提供了方便的特征选择方法,并为用户选择最优过程提供了实用的指导。

代谢产物标识与鉴定

1. GC-EI-MS

根据所使用的分析技术,代谢物鉴定工作流程有很大的不同。GC-MS通常以EI(电子电离)作为离子源,提供高重复性的分子裂解模式。此外,一旦获得了保留时间,就可以很容易地计算出Kovats保留指数(RIs)。GC - MS常用于测定衍生形式(分析物),而不是主要代谢物。因此,基于GC−MS数据有成熟的方法来鉴别代谢物。GC - MS数据库包含关于单同位素质量、碎片模式和Kovats RIs。代谢产物鉴定常用商业化谱图库,如NIST,Wiley,MoNA,和Fiehn;开放数据库如GOLM,或者依据可靠程序分析标准品后自建数据库。但当分析物不存在于库中(未知)时,就会出现问题,例如在对副代谢产物的研究中,这些修饰后的化合物出现在初级代谢物转化后,它们是活跃的生物分子,调节重要的细胞和生理过程。目前,有许多策略可用于公开数据库中不存在的化合物,使之成为一个富有成效的研究领域。基于GC-MS的非靶向代谢组学在代谢物鉴别方面取得了许多重要进展;然而,在未知化合物识别方面尤其是在利用可用的精确质量方面,仍有许多目标有待实现。

2. LC-ESI-MS和CE-ESI-MS

在代谢物鉴定方面,CE−MS和LC−MS比GC−MS的重现性差,这主要是由于ESI源产生加合物、二聚物和片段(包括在源片段中),并依赖仪器状态。这导致了代谢物鉴定方法本质上的不同,许多研究人员坚持认为鉴定是非靶向代谢组学的主要障碍。

近年来,许多用于代谢组学的化学信息学和生物信息学工具已经取得了巨大的进步,成为阐明未知结构有力工具(图2)。从21世纪初建立的第一个专门研究代谢组学的数据库,该数据库最初仅提供质荷比和化合物结构(The Cyc Collection,Metlin,LIPID MAPS,HMDB,KomicMarket)。随着代谢组学数据库发展,逐渐收录了碎片图谱相关信息并能实现图谱检索(XCMS,HMDB,MassBank)),由于缺乏标准品,收录的图谱信息有限,因此不同实验条件下预测碎片图谱信息的工具和方法不断建立(Met-Frag,MAGMa,MyCompoundID,CFM-ID,CSI:FingerID)。 

图 2 代谢产物标识与鉴定工具软件发展时间表。

由于相似的结构通常具有相似的断裂模式,因此难以确定具有独特结构的化合物。正交信息,例如,化合物的疏水性决定了其在色谱柱上的停留时间(RT)或在毛细管电泳上的迁移时间(MT),逐渐被添加到代谢物鉴定工具当中。最近,一些鉴别工具将“生物体内不同代谢物之间的生物关系”纳入,在过去的两年里,新的代谢物识别工具探索了这种方法,抛弃了与其他特征不相关的假定标识,并根据样本中存在的所有特征之间的大量联系,包括证据来确认这些标识。此外,大量可用的代谢物注释和鉴定工具(本综述包括41种,但这个数字呈指数级增长)导致了代谢组学界的分歧。因为最终用户需要学习如何使用各种不同语言的工具,如R语言、python、Web应用程序和独立应用程序等。

集成代谢组学实验的各个阶段的不同工具的框架或工作流程的出现是代谢组学研究中缩短学习时间并充分使用现有工具的重要一步。与此同时,开放数据库的存在使研究人员能够传播他们获得的信息,并共享信息。这些数据库提供了一种标准化的方式来展示研究成果,同时也提供了在后续实验中使用其他研究人员的数据来改进标识和鉴定的机会。然而,大量用户上传关于相同代谢物的相同或非常相似的信息会使数据库难以使用。

由于用于不同代谢物类型、方法或目的的数据库之间的重叠很低,因此对不同数据源的用户友好且免费的访问是至关重要的。然而,非靶向代谢组学实验通常需要查询不同的存储库。已经观察到数据源(HMDB, Metlin,XCMS, Cyc集合,MassBank,脂质图)被引用的次数比旨在为研究人员提供计算方法的软件工具更多(超过1000次)。这说明研究者发现使用软件工具在进行代谢物标识和鉴定时存在不便,其中一个可能的原因是使用前面提到的所有独立软件工具需要较长时间的学习,从而阻碍了它们的使用。

讨论

分析化学的概念正在向涵盖非靶向分析、差异分析和半定量分析演变。在进行差异分析时,统计分析将消除以相同方式影响所有被比较样本的因素,从某种意义上说,对这些因素的严格控制显得并不重要。但这并不意味着代谢组学可以作为一个黑匣子,在这个黑匣子中引入样本,按下上面的按钮,软件平台将自动提供结果。在处理未知因素时,深入了解分析目标、样本、分析工具以及有关数据挖掘策略和代谢产物鉴定对于获得有意义的结果至关重要。理想的解决方案还有很长的路要走,没有捷径,但需要不断更新的信息。





(0)

热评文章

发表评论