蛋白质组学

生物信息学原理和概念

生物信息学原理和概念
 
    生物信息学作为一门新兴的交叉学科在自然科学中占有特殊的地位,它是生物学、遗传学、生物化学、计算机科学、数学、统计学等学科的融合。生物信息学是建立在数据的整合和分析的基础上的。海量信息的分类检索和有效整合已成为加速生命科学发展的必要条件,海量数据使得分支学科之间的信息重新整合成为必要和可能。目前为止,互联网上的与生物相关的公共数据库的数目已达到了500多个,而且还在进一步增长。这些数据库都是为了不同的目的而建立起来的,根据数据库里包含的数据可分为核酸数据库和蛋白质数据库,还有些是针对特异物种的,而有些则是整合性的数据库。
 
    在生物信息学的研究中,一个非常重要的概念是直系同源(ortholog),它是指在两个或两个以上的物种中的某个基因由同一个共同的祖先通过物种形成的进化过程而来,通常也叫做直系同源基因。大多数情况下,直系同源指的是蛋白质,一般情况下,所有的直系同源基因或蛋白质具有同样的功能。因此,在同一直系同源族中,若其中的一个基因或蛋白质的功能已知的话,则其他基因或蛋白质的功能可根据已知的基因或蛋白质的功能进行注释。也就是说,同一个直系同源族里基因或蛋白质的功能是可以在不同的物种之间转移的。与直系同源族相对的是旁系同源,它是指在一个基因组中,通过复制而来的相关基因或蛋白质。通常情况下,直系同源的基因或蛋白质在进化过程中保持相同的功能,而旁系同源的基因或蛋白质在进化中产生新的功能。直系同源是生物信息学中对新发现的基因进行功能注释的重要手段。对于一组高度同源的基因,它们之间的关系要么是直系同源或者是旁系同源,但对于一个物种中的某个基因,在另一个物种中可能对应着超过一个以上的直系同源。那么,怎样判断一个基因组中具高度同源性的基因哪些属于直系同源,哪些属于旁系同源呢?最简单的方法是用来自两个物种的同源蛋白质或基因序列进行序列比对(BLAST)。用A物种的蛋白质或基因针对B物种的基因组进行BLAST时,得到的同源序列E值最小,而用B物种中此蛋白质或基因序列再反过来对A物种进行BLAST时,所得到的E值同样最小,则此时我们称这一对基因和蛋白质为直系同源。更深入的研究直系同源的方法可参照Nuclear Acid Research 2005年的相关文章。在研究物种的进化过程中,建立进化树所使用的蛋白质序列一定要是来源于直系同源,否则,所产生的进化树的结果将不准确。


(0)

热评文章

发表评论