蛋白质组学

系统进化足迹

系统进化足迹
 
    来源于进化过程中选择性压力的序列相似性是许多生物信息学方法的基础。在转录因子结合位点的预测中,序列相似性是整个过程中首先表现出来的特征,被称之为系统进化足迹(phylogenetic footprinting)。依据基因功能区中的突变将比没有特异功能序列中的突变累积得慢的假设,对来源于不同的直系同源基因序列的比对能够预测引导转录的片段。多个真核基因组序列测定极大地促进了新的揭示保守片段的比对、分析和可视化方法的出现。早期的研究主要是利用一对一的序列比对,目前,系统进化足迹法可以揭示可能调控基因表达的功能重要的基因组区域。在很多成功的实例中,系统进化足迹法可以精确地定位重要的调控区域,从而促进对目标序列的实验验证。
 
    在系统进化足迹法应用中的一个关键设想是基于直系同源基因的调控在不同的物种中将具有潜在的相同的调节机制的假设。一般来说,在相对适度的进化距离下这个假说是准确的,依据比对的系统进化足迹法对来源于具有适当进化距离物种的直系同源基因是适合的。对于进化距离很近的物种来说,一对一的启动子序列比对不会提供多少益处。因为比对的序列之间非常相近,从而掩盖了调控区域和非调控区域之间保守性的差异。反过来,进化距离远的物种之间启动子的比对将显示不出可检测到的相似性。由于在一个物种多个基因的启动子中进化事件的速率不同,因此,在一些情况下,比较多个进化距离远的物种的序列可能会得到更有意义的结果。例如,为了揭示控制胚胎早期发育重要基因的调控区域则须比对进化上分开了4.5亿――5亿年的物种,如灵长类与鱼。在被充分研究的实例中,如Hox聚类,导致高的保守序列的选择压力已与染色质的结构或容许聚类基因协同调节的未知机制相连接。
 
    对于目前的系统进化足迹方法,由3个步骤组成:确立合适的用于比对的直系同源序  列;联配直系同源基因的启动子序列;确定具有一定显著保守性的片段。尽管功能保守不  是直系同源内在的定义,但从系统进化足迹法的目的来看,其基本假设是直系同源基因之  间存在共同的进化压力。由于在进化中基因的重复或缺失,使得确定直系同源变得相当复  杂,有时可靠地选择一组合适的序列进行研究比较困难。调控物种之间广泛的相关的直系  同源生物信息学资源有COGs/KOG(www.ncbi.nlm.nih.gov/COG).HOPs(http://  pram.cgb.ki.se/HOPS/)和Homologene(http://WWW.ncbi.nlm.nih.gov/entrez/query.fcgi?db=homologene)等。
 
    转录因子结合位点的预测常常会产生很多假象,通过一组直系同源的启动子来查询调控元件的保守性可以得到更好的结果,也可直接查询感兴趣的基因是否与疾病相关。现有的启动子预测软件大体分为3类:第一类是启发式的方法,即利用模型描述几种转录因子结合部位定向及其侧翼结构特点。它具有很高的特异性,但未提供通用的启动子预测方法。第二类是根据启动子与转录因子结合的特性,从转录因子结合部位的密度推测出启动子区域。这方法存在较高的假阳性。第三类是根据启动子区域自身的特征来进行测定,这种方法的准确性比较高。同时,还可以结合是否存在CpG岛,对启动子预测的准确性作出辅助性的推测。


(0)

热评文章

发表评论