蛋白质组学

基因及蛋白质功能的研究

基因及蛋白质功能的研究
 
     到目前为止,人类22条常染色体和l对性染色体的精细结构及序列的注释已接近尾声,人类基因组的测序和注释为广大的从事人类生命活动研究的科研人员提供了大量宝贵的信息。在实验的过程中,当克隆到一DNA片段,拿到其序列后,首要的任务是必须知道这条序列在其他物种中是否具有同源性,由此可能推测出其功能,这可以利用BLAST工具来完成。在BLAST的结果中,E值最低的同源性最高。E值是指在数据库中任意出现与查询的序列相匹配的序列的概率。因此,E值越小,相似性就越大,同源性则越高。对整个GenBank进行BLAST,其结果中可能会出现来源于很多不同物种的同源性序列,这些序列基本上具有相同或相似的功能。因此,如果用来查询的序列与BLAST出来的序列具有较高的同源性,则可以认为它们之间具有相同的功能。有时,为了特异性进行BLAST查询,可以挑选相关的物种、特异的数据库进行BLAST。目前,GenBank里的物种已超过300多个。医学上进行BLAST时,可以针对人、小鼠或大鼠等的基因组进行序列的查询。在BLAST的过程中,选用适当的BLAST工具也相当重要。一般对新的序列进行查询时,核酸序列用Blastn,蛋白质用Blastp就足够了。但有时利用这些工具进行查询得不到满意的结果时,可利用tBlastx来进行查询。tBlastx是针对核酸序列的,其基本原理是在BLAST的过程中,系统将所查询的核酸序列依据6个编码框在底层转换成为蛋白质序列,同时将数据库中的核酸序列也依据6个编码框转换成为蛋白质序列后进行比对,从而可以查询出更多的潜在的同源序列。但在此过程中须进行一系列的序列转换,因此所花费的服务器的计算能力大,时间长。
 
    当获得蛋白质的序列后,可以利用相关的生物信息学工具对其进行比较全面的分析。分析蛋白质的组成及其中所包含的功能域(domain),将是了解蛋白质功能的重要的一步。每一蛋白质并不是孤立存在于细胞中,而是与其他蛋白质相互作用形成复合体或功能模块,从而使细胞进行各种不同的生理活动。而且在蛋白质相互作用的过程中,通常只涉及相互作用分子中的一小部分区域。蛋白质中的功能域可以被认为是参加蛋白质之间相互作用的结构和功能单位,因此蛋白质行使功能的结构基础是功能域。从结构的观点来看,功能域是一个独特的、紧凑的、稳定的结构单位,独立于其他相关的结构进行折叠。但在大多数情况下,功能域被定义为蛋白质在进化过程中具有高度保守的特异性区域。每种蛋白质可被认为是保守功能域的集合体,其中的每一个功能域负责与其他功能域进行特异性相互作用。因此,研究蛋白质的功能域组成及功能域的结构可以为阐明蛋白质的功能及其结构提供极其重要的信息。
 
    通过NCBI的保守功能域数据库的查询(http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml)可以获得蛋白质所包含的相关功能域的信息,而且这个查询结果还与其他功能域相关的数据库应用系统相连接,如查询结果中就包含有pram数据库、SMART数据库中功能域的编号以及COG中的相关编号。除此以外,查询结果中还会列出具同源性的相关功能域的多序列比对的结果及其保守序列,在实验证据的支持下,还会列出相关的活性位点。如同源序列中有相关的三级结构的话,用户还可以利用Cn3D软件来检查相关蛋白质或功能域的三级结构,从三级结构中,分析相关活性位点在空间中的构象,可能的情况下,还可以观察其与其他蛋白质相互作用时的空间构象及相互作用的机制。
 
    Pfam(http://www.sanger.ac.uk/Software/Pfam/)是一个查询蛋白质功能域及家族的数据库应用系统。通过此系统可以查询多序列的比对结果,检测蛋白质功能域的组成,以及蛋白质家族在不同物种中的分布。还可以观察已知蛋白质的结构。到目前为止(截至到2006年5月),Pfam中已包含的蛋白质家族已达8 296个。用户可以利用蛋白质的名称、序列、关键词、DNA序列、功能域等来进行查询。


(0)

热评文章

发表评论