蛋白质组学

控制转录区域的检测

控制转录区域的检测
 
    研究任何基因的第一个步骤是确立可能包含有调控元件的大区域,相关的一些进展已加快了在缺乏单个顺式调控元件特征的情况下对这个区域的预测。这些工具一般可以划归为两大类:转录启动子(转录起始位点)和增强子的查找。这些方法会受到直系同源基因序列的保守性、核苷酸的组成及对可利用的转录数据分析的影响。
 
    现有通过实验注释的一些调控序列表明,接近于转录起始位点的序列更有可能比远离转录起始位点的区域含有功能重要的调控元件。但具体确立一个转录起始位点则比较困难,因为越来越多的基因在不同条件下选择不同的起始位点,使得这种过程更加复杂化。与启动子预测相关的大多数算法的基础是参考序列的搜集,称作“真核启动子数据库”。早期用来预测准确转录起始位点的算法因为假的预测结果而带来了相当的麻烦。这些转录起始位点的检测工具常常是基于确立TATA―box序列,而通常它们是位于转录起始位点的前30bp。最优的TATA―box预测方法可以在每250bp中预测出一个TATA相似的序列,这反映了TATA结合蛋白质复杂的结合特征。
 
    新一代的算法主要强调启动子的预测,即指含有一个或多个转录起始位点的区域。考虑到很多基因具有多个起始位点,这种设计上的变化更能反映生物学特征。
 
    在人类基因组中启动子序列的显著特征是具有丰富的CpG二核苷酸。甲基化在基因活性调控中扮演着一个至关重要的角色。在调控序列中,多个CpG仍处于非甲基化,而在其他区域则有80%以上的CpG在尿嘧啶上发生了甲基化。甲基化的尿嘧啶具有相当高的突变为腺嘌吟的能力,导致在非调控区域的序列中与统计预测的CpG含量相比CpG频率下降了大约20%。从计算的角度,CpG二核苷酸的不平衡在基因中寻找可能含有启动子的区域是一个重要的指标。
 
    相当多的方法已开发出来直接或间接地根据CpG二核苷酸的不平衡来检测启动子。尽管复杂的机器学习算法已应用于启动子的检测,严格基于CpG二核苷酸频率的简单算法可以相当准确地预测含有与转录起始位点邻近的区域。目前领先的两个方法是Eponine和FirstEF。
 
    越来越多的证据显示启动子是双向的,显示了生物信息学预测启动子方向的不准确性是生物活动复杂性的一个表现。值得注意的是,并非所有的转录起始位点都与CpG岛邻近,即CpG岛与启动子的相关性并非存在于所有的生物体中。在人类基因中,大约只有60%启动子与CpG岛相邻,因此须采用其他途径来确定真实的启动子部分。已有的结果显示,缺乏CpG岛启动子区域的鉴定还需要利用转录数据,如5’端EST和全长的cDNA序列的循环比对可以提示启动子位置。最直接的方法是通过基因组浏览器来查看转录数据。生物信息学的方法已经被用来定量地评估所观察到的转录末端的重要性。转录起始位点数据库(DBTSS,http://dbtss.hgc.jp/)提供了查看人和小鼠基因的基于转录子的转录起始位点确切信息。
 
    新的数据来源对强调分析转录数据具有更大的潜力。基因表达的Cap分析是一个Cap克隆技术与一个SAGE相似的途径相结合,已被扩展到切割全长cDNA的起始5’端的20个核苷酸。这些寡核苷酸体随后连接成长的聚合体,并被测序。这些从来源于各种组织的转录子中产生的CAGE标签不仅可以加速启动子的预测,还可以提供了解组织特异性的信息。
 
    新的高通量的实验方法也为研究基因启动子中的转录因子结合位点提供了大量的实验证据,为生物信息学准确地寻找新的转录因子结合位点打下了坚实的基础。这些高通量的实验方法中最有代表性的是ChIP―chip和酵母单杂交的技术。ChIP―chip方法是用抗某一转录因子的特异抗体做免疫共沉淀,并与基因芯片相结合,从而得到可以和该转录因子相互作用的DNA片段。因此可以对转录因子和启动子之间的相互作用提供证据。而在酵母单杂交技术中,所研究的DNA序列被连接在报告基因的上游,然后,这个融合的基因序列被整合到酵母基因组中,同时,单个杂交蛋白―转录因子与具转录活性功能域相融合。


(0)

热评文章

发表评论