蛋白质组学

科研 SCI. ADV.:除质谱之外,蛋白组学的下一步发展(上)

编译:晨晨,编辑:小白、江舜尧。

原创微文,欢迎转发转载。

导读

早在1951年,Sanger意识到蛋白可能是致病的根源,同时也可能是治疗疾病的关键,因此需要不断鉴定这些蛋白的关键作用。随着测序技术的发展,单分子DNA测序,基因组学和转录组学提高了药物敏感性、降低了药物价格并促进了药物的发展,但是蛋白组学技术滞后。目前,蛋白组学的研究主要依赖于质谱(MS)技术而非真正的测序技术,MS技术能将蛋白进行分类,而该技术需要约十亿个拷贝的蛋白分子。本文阐述了一些可替代MS蛋白鉴定的测序方法。这些方法的敏感性较高,并且具有一定的可扩展性,同时适用于蛋白氨基酸序列的生信分析工具。

论文ID

原名:Beyond mass spectrometry, the next stepin proteomics译名:除质谱之外,蛋白组学的发展
期刊:Science AdvancesIF:13.116发表时间:2020.01通讯作者:GregoryTimp
通讯作者单位:美国圣母大学电子工程和生物科学系

内容

1. 引言:中心法则

生物学的中心法则描述了从DNA序列到蛋白一级结构即氨基酸序列的信息流。首先,DNA转录成RNA,接着RNA加工成mRNA,mRNA翻译成蛋白序列。将mRNA翻译成蛋白序列是关键步骤,由于起始位点和开放阅读框ORF的鉴定是不确定的,因此遗传密码、编码区的突变、翻译起始位点的变化和翻译后修饰,都可能导致蛋白序列的改变,这些因素的改变极可能导致翻译的蛋白结构和化学性质发生改变。

蛋白质作为生物功能的体现者,决定了细胞结构和活性,为细胞与和组织提供了信号机制,并且催化代谢过程中的化学反应。此外,蛋白结构决定其功能。由于蛋白质可能是多种疾病的根源(如阿尔茨海默氏症),因此也可以用它来治疗疾病(如蛋白质抗体能治疗病毒和细菌感染)。在1950年,Sanger、Tuppy和Edman 首次分析了氨基酸序列。随后,Holley研究组研究tRNA,Sanger致力于rRNA的研究,对RNA进行了首次测序。接下来,DNA采用一系列方法(如加减法)进行测序。随着PCR技术和其它酶学的发展,DNA测序成为焦点,其总量和输出量有很大提高。由于反转录酶使得RNA能反转录为cDNA,然后再进行DNA测序,RNA测序也从中受益。然而,蛋白组测序技术处于滞后状态。

由于测序技术成本降低,基因组和转录组测序被间接用于分析蛋白的一级结构,但是不能获取蛋白编码基因的全长信息。例如,人类转录组具有116,156个新的转录本,这些转录本不存在于已有的数据库中。因为基因组组装的错误率为0.1%,基因组组装后不能完全捕获蛋白编码基因,例如,大肠杆菌的基因组大小为5 Mb,测序组装的结果约有5000个错误。单个碱基的插入或缺失是长读长测序技术中的主要错误,会产生移码突变,使预测的蛋白一级结构发生很大的改变。人类基因组组装时,高达580个(1.5%)的转录本具有碱基的插入和缺失,使得难以与人为突变区分。另一方面,通过直接比对氨基酸序列,移码突变容易被发现。此外,RNA转录本的检测不能对细胞或组织中的蛋白进行定量。在翻译效率上有许多基因特异的作用,如转录后调控,包括RNA修饰和RNA末端添加polyA尾,能改变RNA的生命周期和蛋白翻译速率,使得蛋白检测需要其它明确的方法。

因此,尽管基因组和转录组测序价格便宜,但不能解决问题。mRNA转录过程的不同,翻译后修饰和翻译后结构的加工只能通过蛋白水平的直接分析来展现,这些对蛋白的研究是迫切需要的。然而,整个蛋白测序较难完成。蛋白一级结构是氨基酸组成的线性序列,包含20种氨基酸,每个氨基酸体积约为0.1 nm3,由肽键相连。人类蛋白约有375个氨基酸残基。因此,上百个氨基酸需要亚纳米级的分辨率来进行测序。除了20个组成蛋白的氨基酸之外,还有些氨基酸异构体组成的复合物对蛋白直接测序构成了挑战。异构体源自于紧密相连的重复基因或者同一个基因的可替代性剪接、蛋白裂解、体细胞重组或者翻译后修饰。据猜测,蛋白编码基因约20,000个,考虑到可替代性剪接,单个氨基酸多态性和翻译后修饰,估计每个基因有100个异构体。翻译后修饰使得蛋白水平的分析较为困难,翻译后修饰包括糖基化、甲基化、乙酰化和磷酸化。翻译后修饰较为常见,如60%的蛋白发生了糖基化。然而,这些修饰难以被传统的方法检测到。

2. 在基因组学和转录组学之外,利用质谱(MS)研究蛋白组学

20世纪90年代,主要通过Edman降解法进行蛋白测序。在该过程中,苯异硫氰酸酯与N-端氨基反应,形成苯氨基硫甲酰衍生物,随后裂解成为噻唑啉酮和一个新的N-端。释放的噻唑啉酮氨基酸被固定后,使用电泳或色谱技术进行确定。然后,继续重复该过程。Edman法较为缓慢(1个循环花费1个小时),并且局限于小于30个残基的多肽,每个氨基酸的正确率大于99%。Edman降解法需要100 pmol纯肽,不适用于N端无游离α-氨基的氨基酸,不能如实的测定翻译后修饰蛋白。

目前,蛋白组学主要依赖于bottom-up法进行蛋白的质谱分析(BU-MS)(图1A)。BU-MS分析涉及到蛋白酶解(通常是胰蛋白酶),多肽离子化,根据质荷比(m/z)进行离子检测。胰蛋白酶解多肽由电喷雾离子化或基质辅助激光解析电离,在气相中进行多肽离子化,分析其质量,然后将离子破碎,从质谱中恢复序列信息。液相色谱-MS(LC-MS)在离子化前能用来分离化合物,并传递给质谱仪。

BU-MS实际上本身不能对蛋白进行测序,但是能推断出蛋白一级结构或者对蛋白进行分类,这种方法不太敏感。多肽质量作为“指纹”,使用Mascot或Sequest数据库能将其与蛋白数据库中的已知蛋白进行关联。因为一些氨基酸具有相同的质量(如亮氨酸和异亮氨酸),所以将序列同源搜索与数据库查找相结合。BU-MS的缺点是蛋白被鉴定前首先需要被消化成5-20个氨基酸组成的多肽。接下来,数据库搜索比对一些片段到整个蛋白,这一步受限于蛋白之间的序列同源性或相似性。最后,将多肽序列比对到特殊的蛋白是由将多肽比对所有可能的相关蛋白,在重构前通过排除多余肽段或者找到所有的揭示这些现象的最小蛋白集完成。

BU-MS的敏感性是指准确鉴定多肽序列所需要的光谱数。Gris指出,由于信噪比低、数据库的不完整和预料不到的翻译后修饰,蛋白收集到的75%的光谱仍未得到鉴定。使用聚类法能将20%的光谱得到鉴定,但有60%的仍未解决。因此,BU-MS确定的肽段数目有限,不能测定全序列。与基因组学相比,MS具有高通量、准确性高和具有再现性的优点,但具有敏感性低和读长短的缺点。

敏感性是最重要的,典型的质谱检测限约480 fg,相当于10 amol或6百万, 50 kDa(50 kDa是人类蛋白组的平均分子量)的蛋白分子。敏感性低导致动态范围有限。动态范围是检测可测肽段或蛋白信号的标准。在含有大量肽段时,动态范围高时能检测到丰度较少的肽段。MS中的商业杂交轨道阱动态范围有5个数量级(Thermo Fisher Scientific),然而,一个临床样本的蛋白浓度能扩展到12个数量级。例如,在人类血清中,抗体浓度为mg/ml,然而细胞因子的浓度为pg/ml。在细胞外液中低分子量的细胞因子作为血清生物标志物的主要靶标。但是因为其具有高生物活性,如果不进行富集或者分级,他们的浓度低到无法被MS检测,尤其是在人类血清中。实际上,不到1%的离子被应用于质量分析,然而,“Boxcar”法能通过质荷比分离样品,提高了这一部分,因此动态范围增加了10倍。实验中的串联质谱像多反应检测和抗体富集的敏感性增强了10,000-100,000倍,然而,鉴定通常需要一百万到十亿个蛋白拷贝。

即使正确地识别了多肽,寻找和发现异构体,特别是翻译后修饰蛋白的检测和定位,仍然是一个问题。MS已经通过离子交换、固定化亲和色谱等富集策略捕获翻译后修饰蛋白,但是很难捕捉。缺陷包括质量测定不准确,与替代氨基酸混淆,以及位点分配不确定。根据Liu等人的研究,提高质量测量精度(MMA)可以减少组成肽段的可能的氨基酸数量。例如,对于高可信度的鉴定,MMA为百万分之一(ppm)可以排除99%具有相同质量但不同的氨基酸。而线性离子阱MS的MMA为100-250 ppm,因此,一部分蛋白可能会被错误识别。另一方面,轨道阱是MS的主要设备,根据制造商的规范,它的MMA 10 ppm,但是对于解释轨道阱的数据,它的MMA可达50 ppm。除了MMA,位点不确定性尤其成问题。Kim等人的研究表明,这个问题可以通过考虑磷酸化来简明地说明,信号转导途径的重要修饰主要发生在丝氨酸,苏氨酸和酪氨酸残基上。在人类蛋白组中大约有2000万个残基,丝氨酸,苏氨酸和酪氨酸残基的数量大约分别是150万,100万和50万。对于10个氨基酸长度的胰蛋白酶肽,大约有1.5个磷酸化位点。换句话说,在其多肽内部有多个可能的磷酸化位置。所以,位点被统计分配。但是,对于大约一半的多肽,PTM的位点定位是有问题的,或者,使用BU-MS需要有PTM的知识。这一问题可以通过替代分离技术解决,但需要更多的样本,并排除了对修饰组合模式的明确检查。

另一方面,TD-MS可识别完整的蛋白,并可检测序列变异或为测序提供一个支架,但其敏感性比BU-MS低约100倍,它需要大磁体(7到14 T),在蛋白组覆盖率和通量方面通常低于BU-MS(图 1B)。TD-MS分析通过电喷雾电离将完整的蛋白离子引入气相,然后通过质谱仪中碰撞诱导分离、或电子捕获离解或电子转换离解进行片段化,产生蛋白和碎片离子。如果有足够的片段,这种分析可以提供蛋白一级结构及其相应修饰的全面图像。然而,如果蛋白分子大于50-70 kDa,则很难使完整蛋白离子在气相中片段化。它需要一个相对高端的设备来解决相似体积的大分子之间的差异。赖氨酸三甲基化和乙酰化之间的质量差异仅为0.0364 Da。对于一个平均为50 kDa的人类蛋白,识别一个完整的蛋白离子需要设备分辨率 1 ppm。然而,对于1 kDa片段,所需的分辨率 37 ppm。带有7-T磁铁的线性四极离子阱/傅里叶变换离子回旋共振质谱仪的质量精度只有2 ppm,而使用轨道阱的碰撞诱导离解碎片时,典型的质量精度为 10 ppm。

根据Steen和Mann,MS对蛋白的灵敏度和检测限比对多肽差得多。随着分子量的增加,完整蛋白的碎裂效率因为三级结构的复杂性而降低。因此,质量分数大的蛋白则需要高纯度和高浓度(0.5-1 mg/ml)。所以,大多数TD的应用程序致力于质量 70 kDa的蛋白,只有少数用于更大的蛋白( 100 kDa)。

因此,人类蛋白组中直接鉴定整个蛋白需要的是一个具有高通量、高准确度和敏感度的方法。理想情况下,该方法将直接“读取”氨基酸序列、PTMs和异构体的一级结构,而不需要通过搜索数据库。

图1 MS推断蛋白一级结构

MS采用两种方法推断蛋白的一级结构:(A)bottom-up (BU-MS) (B)top-down (TD-MS)法分析 70 KDa的完整蛋白。BU-MS的流程为:蛋白首先经过胰蛋白酶消化,产生1.8-3 kDa的片段,再进行MS分析。TD-MS能将完整的蛋白离子再气相中片段化(平均10 kDa)并使用MS分析整个蛋白和蛋白离子片段。这两种方法都离不开数据库搜索对蛋白进行鉴定。CID,碰撞诱导解离; ECD, 电子捕获分离; ETD, 电子转移解离。





(0)

热评文章

发表评论