蛋白质组学

采用计算方法的组合式蛋白质设计策略

1. 介绍

1.1 蛋白质设计

通过对蛋白质结构(包括那些具有特殊功能结构)的设计,研究者可以増进对决定蛋白质折叠状态特征的力和效应的理解。另外,对特定折叠结构设计的控制,可能得到新的具有生物效能和特异性的合成蛋白。这样的应用包括在医药、传感器、催化剂和材料等领域。甚至在尚未完全和定量地理解决定蛋白质结构的力的条件下,蛋白质设计仍有可能取得成功。

但是,由于决定蛋白质折叠态的相互作用的复杂性和精细性,蛋白质设计不是一件轻而易举的事。蛋白质是巨大的分子(含数十到数百个氨基酸残基),折叠态的给定需要许多的结构变量,其中包括序列、主链拓扑和侧链构象。即使主链结构已经给定,每个残基仍可能有多重构象。除了结构的复杂性之外,还有序列的复杂性。设计意味着从无数的可能的序列中,鉴别出可折叠的序列。在折叠蛋白中观察到的高度“一致性” 引导这个搜索过程 [1] 。一般来说,处于折叠状态的蛋白质,在原子水平上,通过有利的范德华相互作用、疏水残基与溶剂隔离,并使大多数氢键作用都被满足而恰当地堆积。但这种一致性通常都是复杂的,可能没有什么能使问题简化的对称性。另外,精确地定量非共价相互作用属于最困难的一类问题,并且,估计残基替换或结构有序化的自由能,仍然是计算研究中最深奥的领域 [ 2,3 ] 。与预测能力相反,目前,我们还不能期望用详细的模拟估计自由能变化的方法,来确定大量序列的相对稳定性变化。尽管如此,从小分子和蛋白质数据库导出的分子位能,确实包含了已知的,对决定蛋白质结构起重要作用的,相互作用和力的部分信息。在某些情况下,这些位能的优化,已经在蛋白质设计中获得显著的成功 [ 4 ] 。这样的位能肯定是近似的,并且这样设计的任何序列,很可能对特定的位能和采用的目标结构敏感。作为另一种选择,在这些位能中包含的部分信息也可以做概率性的应用,以得到出现某种氨基酸的可能性。概率性方法也适合于确定可折叠到同一结构序列的完整可变性,因为似乎存在大量这样的序列—— 远大于可以用序列搜索或列举方式所能处理的。

这样的概率性方法也特别适合于在蛋白质组合实验中的全新设计,这些实验能产生并快速测试许多序列。虽然组合方法能处理大量序列(104~1012 ) ,但这些数量与可 能的蛋白质序列数比较仍然是无穷小,如对 100 个残基的蛋白质,这个数是 20100≈10130 ( 为了对 10130 这个数有多大有个一般的了解,假定合成出一条 100 个残基的蛋白质序列约需要 10000 /N g 物质,N≈6 X 1023,是阿伏伽德罗常数,那么合成出 10130 条序列需要超过 10107 kg 的物质。这个数量远超过目前我们所知宇宙物质的总质量 1035 kg一一译者注)。于是,即使是采用组合法,我们仍然必须集中于序列空间选定的一小部分。通过预先观察,在蛋白质中选定若干残基位点并在这些选定的位点允许残基的全部或部分可变性(全部可变性,即可以替换为 20 种氨基酸中任何残基;部分可变性, 只替换为某些类型的残基—— 译者注)来实现对序列空间的限定。近来发展了可以在宽得多的范围内追踪序列可变性,并提供扫视和聚焦序列空间的定量计算方法。在这里, 我们讨论序列设计的计算方法,把重点放在处理给定结构位点特异氨基酸可变性的概率方法。

1.2 蛋白质设计的定向方法

这里的 “定向蛋白质设计”是指鉴定出一条(或一组)可能折叠为预先指定的主链结构的序列。然后可以用多肽合成或基因表达的办法,实验性地实现每一条这样的序列,以确认其折叠态及其他分干性质。早期的设计努力,是在已观察到的自然发生的结构和已被确认的蛋白质序列的指导下完成的,它们有着重要的二级结构,但并不必 有明确的三级结构 [ 5 ] 。由于能够定量化并以表格列出残基间相互作用,计算方法已经极大地加速了蛋白质设计的成功率。典型情况下,这样的方法使序列搜索成为优化过程,在过程中改变氨基酸身份和侧链构象,以优化定量化序列结构相容性的打分函数, 对所有 mN 个可能序列的完全搜索,只有仅仅少量的残基 N 是允许改变的,或允许改变的氨基酸数目显著地减少,如从 m=20 减少到 m=2 时才是可行的。为了达到从内部平均来看有利的原子间相互作用的合理堆积序列,必须搜索每个氨基酸的不同侧链构象(旋转异构态)(见参考文献 [6])。结果,因为一个残基所可能有的状态数 m 增加 10 倍或更多—— 这取决于每个残基的旋转异构态数目和增加搜索的复杂性。如果只有很少的残基被允许改变,并且剩下的残基的构象受到限制,就可以对所有可能的组合完成完整数值计算,以鉴别出低能量的序列旋转异构态组合。由于(这个组合数)对链长和旋转异构态数目的指数依赖性,这样的完整数值计算在典型的情况下不能实现。在这样的情况下,序列空间可以用定向的方式取样以逐渐朝优化的(或部分优化的)序列方向移动。随机方法,如遗传算法和模拟退火,包含对序列空间的部分随机式搜索。在这种搜索中,搜索逐渐地移向髙分(低能)序列 [ 7~10 ] 。这样的搜索有足够的“噪声” 或重组,以允许越过序列-旋转异构地形图的局部极小值。当运用于精细到原子的表象中时,随机方法基本上集中于用疏水残基重新堆积结构的内部 [9] ,并已被用于 434 Cro、G 蛋白的 B1 结构域、WW 结构域和螺旋束的野生型结构。虽然在许多情况下这些方法对鉴别出实验可行的序列 [4,15 ] 有帮助,但是随机搜索法不必鉴别出整体优化点 [16] 。对只含有位点和对相互作用的位能,通过排除法,如 “死点排除法”,能找到整体优化点 [ 16~20 ]。这样的方法可连续地移除不可能是整体优化点的氨基酸-旋转异构态,直到再没有态可被移除。Mayo 研究组应用这一方法,已使拟 28 残基锌指蛋白 [21] 和在疏水和极性位点模式化之后的 51 残基同源域蛋白模体 [22] 的完整序列设计自动化。该组还重新设计了数种蛋白质内的部分残基组 [ 23~25 ] 。其功能性质,如结合金属或催化,也可以包括作为设计过程的元素 [ 26~28] 。蛋白质定向设计的要素和算法是最近一些综述的主体 [4,29,30 ] 。

尽管取得了某些惊人的成功,但序列定向设计的计算方法在鉴别折叠为特定结构的蛋白质序列特征上仍有局限性。随机方法可用于大蛋白,也容许多位点上的同时变化,但是,即使用于小蛋白,这样的计算消耗的机时和资源也是巨大的。定向方法对于使用的能量或打分函数必定是敏感的,因为它能鉴定能量函数的优化点。但是,所有这样的函数也必定是近似的,并且能量函数中的不确定因素可能不允许对整体优化点的搜索。许多天然存在的蛋白质是没有优化的。实际上,多数蛋白质只有微小的折叠稳定性,如 △G° < 10 kcal/mol [31] 。更有甚者,在功能上与其他分子结合的序列在结构稳定性上不必是整体优化的。重要的是发展与定向蛋白设计互补的方法,这些方法揭示可能折叠为某特定结构但又可能在结构上有未被优化的序列的特征。这样的技术可用于设计蛋白质序列。另外,这样的计算方法还可用于新型的蛋白质设计研究——组合式实验,即实验中大量蛋白质可以同时合成和筛选。

1.3 蛋白质设计的概率性方法

在蛋白质涉及的范围内,我们用定点氨基酸概率而不是特定的序列来描述“概率性蛋白质设计”。相对于定向的或决定论方法,概率性方法是常用于对问题只有部分信息场合的定量科学。对蛋白质设计,折叠过程的复杂性和不确定性促成了这样的概率性方法。蛋白质折叠是一个复杂的动态过程,有无数的相互作用规定折叠状态。每一个导致稳定的非共价键相互作用在大小上都是可以相互比较的,似乎没有哪一个具有压倒优势,以致于在折叠中起决定作用。定量化这些相互作用的办法,必定是近似的(见注 1 )。概率性设计方法也直接提供非常有用的序列信息,特别是在结构上重要的氨基酸。氨基酸概率可以引导特定序列的设计,也能够凸显能容忍突变、对结构只有微小影响的位点;在几轮蛋白质设计之后,这样的位点可以成为用来改变的目标。

概率性方法可以以几种方式应用于蛋白质设计。序列应该以符合计算出的概率方式生成。首先,最直接的选择是一个共用序列,或在每一个位点用最可能的氨基酸组成的序列。在必要时,可以重复地计算,逐次地增加蛋白质中(已经确定的)的残基。用这样的方法,已得到 114 个残基的双核金属蛋白 [32] 和一个完整膜蛋白的可溶性变体 [33] 。其次,计算概率可用于引导对序列的搜索,已提出基于 Monte Carlo 的方法。在 Monte Carlo 轨道的每一点决定序列的接受或拒绝时,计算的氨基酸概率用作有倾向性的选择标准 [ 34 ] 。用这样的方法处理相关的氨基酸身份,但要付出用于搜索的计算运转开销, 如果有信息可用于搜索,开销可以减少。最后,概率性方法可以用来定量地指导蛋白质组合库的设计 [ 35 ]。

1.4 组合实验

组合的蛋白质实验可以用来研究序列结构相容性和发现折叠为特定结构的新序列。在蛋白质组合设计实验中,筛选大量的序列(实物库),以找到以折叠为预先确定结构的迹象。取决于序列的离散性是如何产生和检验的,这类实验可以探测大量序列序列数可高达 1012 [36] 。可以用选择性分析,如配体结合或催化活性筛选序列(实物)库。以序列离散程度受研究者控制的方式,这样的实验可以“超越蛋白质序列数据库”。由于去掉了与天然蛋白进化压力的耦合,可以研究对折叠(和其他生物学性质)重要的特征。组合方法已用于鉴别螺旋蛋白 [ 37~39 ] 、泛素变体 [40]、单层自组装蛋白 [41]、具有纤维样性质的蛋白 [42] 以及稳定的寡聚螺旋 [ 43 ]。最近发表了几篇出色的关于组合实验和方法的综述 [44~47]。

(0)

热评文章

发表评论