转录组学

转录组测序技术的应用(一)

转录组测序技术的主要目标是确定特定样本中RNA分子的序列、结构和丰度。序列是指得到A、C、G、U残基的特定顺序。从结构上来说我们是指基因结构(也就是启动子的位置,内含子和外显子的位置,5′和3′端的非编码区域和多聚腺苷酸位点)。二级结构提供互补的核苷酸配对和发夹状结构或者凸起结构的位置。三维结构提供分子的立体形状。丰度是指测定每个特定序列的绝对或者标准化后的值。

序列可用于鉴定已知的蛋白质编码基因,新基因或长的非编码的RNA。一旦确定了序列,折叠成二级结构可以揭示分子的类别,如tRNA或miRNA。对每种RNA的丰度的比较,主要应用于不同发育阶段的样品之间,不同的器官组织或非常相近的物种之间。

下面,我们将介绍一些可以用转录组测序技术方法来询问或者回答的一些问题。

1蛋白质编码基因结构研究

较早的转录组学方法如克隆和经Sanger测序的cDNA文库,微阵列表达分析和基因表达系列分析(serial analysis of gene expression,SAGE),以及从基因组序列中预测的方法,均能够提供基因结构。这些结构已经存档在数据库中,并提供一个易于访问的来源用于原始转录组测序技术数据和已知蛋白质编码基因的比较。作为重要的第一步,转录组测序技术产生的短的片段最初通常映射到已知的蛋白质编码基因。除了确认外显子-内含子连接点,转录组测序技术读段也可以阐明较短的或者较长的外显子界限,以及可能存在的新的外显子。构成基因的外显子和内含子的集合称为基因模型。

由于转录组测序技术是定量的,它也可以显示在可变的外显子边界或可变外显子的样本内的存在情况:例如,当一个特定的外显子比另一个外显子多5倍。类似地,5'转录起始位点(TSS)可以被精确地映射。可变的5'转录起始位点也可以被确定。在分子的3'末端,可以精确鉴定3'非编码区,使得聚腺苷酸化位点可以在转录组测序技术Read中观察到。可变的聚腺苷酸化位点及其相应的丰度也可以与可变的转录起始位点一样的方式观察到。由于转录组测序技术是大量平行的测序,足够的Read将支持获得的基因结构及其可变剪接映射到基因组中推定的每个蛋白质编码基因上。因此,转录组测序技术能提供5'转录起始位点、5'非编码区、外显子和内含子的连接点、3'非编码区、聚腺苷酸化位点,只要基因具备这些结构。

2 获得新的蛋白质编码基因

蛋白质编码基因的早期注释依赖于基于基因组序列的电子预测。只要基因组数据可用,基因模型的元素符合常见的预期大小和距离参数,并且存在序列表达标签(EST)或用于验证预测结果的的同源性数据支持。然而,很容易看出,这样的基因模型只存在有限数量的物种中。因此,基于高通量的转录组测序技术可以验证以前许多的基因预测模型,而且在没有预测存在的地方可以鉴定新的蛋白质编码基因。这在没有基因组序列的情况下特别有用,因此可以完全从转录组测序技术数据构建生物体的转录组。这种应用如一个例子是对黑鳍罗非鱼进行测序,这种来自非洲的入侵鱼类具有非常稀有的基因组资源。另一个例子是燕麦(Avena sativa L.)转录组。尽管其具有美味及营养等重要的经济性状,但异源六倍体基因组已经使其基因图谱、序列和特征变得常具有挑战性。最近的一项转录组测序技术研究产生了134M双末端测序的100个读长的核苷酸数据,使可用的表达序列标签(EST)数量增加了三倍。

3 量化和比较基因表达

一旦阐明了序列和基因结构,丰度的价值可以归因于每个基因以及其结构中的各种特征是合乎逻辑的。许多研究用来比较来自健康与病态,未治疗与治疗,或时间点0与1之间的RNA转录本的丰富度。比较研究的范围和类型几乎是无限的,所以在这里列出它们是没有意义的。相反,将会列出一些相关的转录组测序研究来说明转录组测序技术的应用。在最早的转录组测序技术研究中,来自成年小鼠脑,肝和骨骼肌的转录组被测序和比较。在Illumina平台上对超过40M的25个核苷酸的单端测序,作者发现了新的转录起始位点,可变外显子和可变的的3'非编码区域。这项研究表明了以前的基因结构注释的不足,从而突出了转录组测序技术在广度和深度上对于完善基因注释的重要性。这些结果为后续的转录组测序技术研究铺平了道路。几乎在2年后,转录组测序技术研究小鼠骨骼肌C2C12细胞分化60小时,5天或7天后的RNA转录物表达。该技术得到改进,获得大于 430M的75个核苷酸双末端测序Read,鉴定了超过3700个之前未注释的转录本。在分化过程中,转录起始位点也显示在大于 300个基因中发生改变。研究整个动物的RNA转录本也是可能的。秀丽隐杆线虫(Caenorhabditis elegans)是一种自由生活的土壤线虫,使其在0.2mol乙醇或水中从胚胎阶段生长至最终幼虫阶段,然后成为成虫。将动物的总RNA分离并进行转录组测序。水或乙醇处理动物获得了超过30 M Read。暴露在乙醇下可能会增加RNA解毒酶基因的转录物,并减少涉及内质网应激的转录物。对不同的模式生物也进行了类似的暴露于毒素中的转录组研究,如致癌物黄曲霉毒素和苯并(A)芘以及环境污染物甲基汞。

在最近的发展,模式生物和商业应用中,将淡水虾(Macrobrachium rosenbergii)进行转录组测序分析。来自肝胰腺,鳃和肌肉的总RNA的多聚腺苷酸 +富集的RNA产生86M双末端75个核苷酸Read,由于该生物体的基因组以前没有被测序过,所以这些数据被通过无参组装获得了大于102,000个Unigene,其中24%可以被映射到NCBI核酸数据库,Swissprot,KEGG和COG数据库。

4 基因表达的数量性状定位分析技术

转录组测序研究已经非常普遍,已经被用来研究数量性状。传统上,以全基因组关联研究形式的数量性状位点研究已经将单核苷酸多态性与诸如身高,体重,胆固醇水平或获得II型糖尿病的风险之类的数量性状相关联。eQTL提供可以与已知的单核苷酸多态性相关的基因的表达变化。这种相关性的基础可以是一个邻近行为,例如,在SNP位于增强子区域并改变表达的情况下,称为顺式eQTL;或远端行为,例如SNP改变转录因子的结构不再对其靶基因起作用,称为反式-eQTL。因此,由转录组测序确定的基因表达水平可以通过与单核苷酸多态性的相关性与表型相关联。这个想法的延伸也是将基因可变剪接位点和SNP相关联,这种被称为sQTL的方法表明剪接在调节总体基因表达中起重要作用。除了人类疾病研究之外,这种方法已经应用于传统领域,如数量性状非常重要的植物育种。

供稿:王小布







(0)

热评文章

发表评论