转录组学

转录组测序常见FAQ

1. 为什么高通量测序会有很多没有比对上的序列?这个该怎么理解?
答:一般注释率高的会比对到70%多,低的可能只有 50%多,剩下就有很多没有注释上的。可能原因是:

与你所做的物种有关,如果你的物种是比较少见的物种,肯定会有许多特异的基因,在找不到近缘物种的情况下,很多基因可能注释不到,毕竟数据库里的蛋白是偏模式物种的蛋白

对于有参考基因组的物种,可以分析基因组信息,统计编码基因的个数,及其碱基数,从而估计物种转录组的大小,另外可以查询相关或相近物种转录组研究的文献,作为参考。对于无参考基因组的物种则只能参考相近物种的转录组大小。

转录组测序所需的测序量随研究目的的不同而有所差异。目前,为保证数据分析结果的可靠性和准确性,推荐转录组测序采用最低4Gb clean data进行后续分析,如果想检测到低丰度的转录本推荐采用8Gb clean data。

准确性高:因为在建库和测序过程中保留了RNA的方向,因而测序结果可以获得过多有效信息。在进行基因表达量计算和基因结构分析时,能否区分正义链和反义链来源的基因,因而更准确

 丰富度高:保留RNA的方向信息,可以获得更丰富的转录本信息:可以用有效鉴别反义转录本、对转录本的注释更准确、对转录本的定量更准确、可以发现ncRNA信息

一般情况下,lncRNA测序采用链特异性建库,主要是lncRNA往往通过与编码基因相互作用来起到调控作用,而这种相互作用的模式一般与转录本所在位置的正负链信息相关。例如:lncRNA与mRNA的反义转录本(natural antisense transcript)这种关系的确定,就需要了解两者在基因组上的正负链信息。

3
4. 是否需要生物学重复?重复几次?
答:需要根据具体情况来判断。基于高通量测序的组学研究(如RNA-seq)可以不设置生物学重复,或通过将若干生物学重复混合为一个样本后测序的策略,来部分弥补个体差异的影响(如 BMC genomics等SCI期刊上的相关研究普遍采取这个策略)。
但随着测序价格不断下降,对多个生物重复样本的单独进行测序也逐渐成为高通量测序项目的趋势。如果设置重复,至少需要两次生物学重复,3次以上的生物学重复更好。
2011年7月Hansen发表的文章表明生物学差异是基因自身表达的特性,与检测技术的选择以及数据处理的方式无关。如果不设生物学重复,高影响因子的杂志可能会因此而拒稿。
5. 如何对得到的数目较多的差异基因进行后期验证?

根据pvalue(或fdr)值和fold change值进行筛选。一般建议pvalue(或fdr)值 0.05且fold change绝对值 2。根据具体情况,可以对这两个参数进行适当调整

GO(Geneontology),按照生物途径(Biology Process),分子功能(Molecular Function)和细胞定位(Cellular Location)对基因进行注释和分类。Gene Ontology中最基本的概念是term。GO里面的每一个entry都有一个唯一的数字标记,形如GO:nnnnnnn,还有一个term名,比如"cell","fibroblast growth factor receptor binding",或者"signaltransduction"。通过对差异表达基因进行GOterms富集度统计学的分析,计算出差异基因GO term的p-value和p-value的FDR值(q-value),定位差异基因最可能相关的GO term。

GO功能分类是在某一功能层次上统计蛋白或者基因的数目或组成,往往是在GO的第二层次。此外也有研究都挑选一些Term,而后统计直接对应到该Term的基因或蛋白数。结果一般以柱状图或者饼图表示。

根据挑选出的差异基因,计算这些差异基因同GO 分类中某(几)个特定的分支的超几何分布关系,GO 分析会对每个有差异基因存在的GO 返回一个p-value。根据p-value,可以定位差异基因最可能相关的GO term,小的p 值表示差异基因在该GO 中出现了富集。

GO 分析对实验结果有提示的作用,通过差异基因的GO 分析,可以找到富集差异基因的GO分类条目,寻找不同样品的差异基因可能和哪些基因功能的改变有关。

根据挑选出的差异基因,计算这些差异基因同Pathway的超几何分布关系,Pathway 分析会对每个有差异基因存在的pathway 返回一个p-value,小的p 值表示差异基因在该pathway 中出现了富集。 Pathway 分析对实验结果有提示的作用,通过差异基因的Pathway 分析,可以找到富集差异基因的Pathway 条目,寻找不同样品的差异基因可能和哪些细胞通路的改变有关。

与GO 分析不同,pathway 分析的结果更显得间接,这是因为pathway 是蛋白质之间的相互作用,pathway 的变化可以由参与这条pathway 途径的蛋白的表达量或者蛋白的活性改变而引起。而通过测序结果得到的是编码这些蛋白质的mRNA 表达量的变化。从mRNA 到蛋白表达还要经过microRNA 调控,翻译调控,翻译后修饰(如糖基化,磷酸化),蛋白运输等一系列的调控过程,mRNA 表达量和蛋白表达量之间往往不具有线性关系,因此mRNA 的改变不一定意味着蛋白表达量的改变。同时也应注意到,在某些pathway 中,如EGF/EGFR 通路,细胞可以在维持蛋白量不变的情况下,通过蛋白磷酸化程度的改变(调节蛋白的活性)来调节这条通路。所以测序数据pathway 分析的结果需要有后期蛋白质功能实验的支持,如Western blot/ELISA,IHC(免疫组化),over expression(过表达),RNAi(RNA 干扰),knockout(基因敲除),trans gene(转基因)等。

7.为什么在某些KEGG pathway图片中有些基因是红色来显示,而有些基因是黑色来显示,比如下图:
7
答:该图中具有绿色背景的方框是注释到基因,其中大家可以看到,确实某些方框中基因是用黑色来显示,另外一些是用红色来显示。产生这种情况的原因为,该条pathway为DILATED CARDIOMYOPATHY (DCM),是一条与心脏疾病相关的pathway,KEGG会对疾病相关的pathway中的关键基因或者是可能的geneticfactor进行红色标注,所以会有这种类型的图出现。这里再举一个例子,pathway map05211_RENAL CELL CARCINOMA为肾上腺样瘤,同样在pathway中出现红色标准的关键基因,如下图:
7.1
8. 为什么有些pathway图没有标出EC酶号或结构基因名称的方框,而只有表明化学反应方向的箭头标识,如下图所示:
8
答:这类pathway都隶属于Metabolism/Overview层级,是对各种重要的代谢通路在汇总层面的描述,图上每个箭头反应可能包含多个参与的酶或结构基因,只是不像其他更细的pathway一样将EC号单独显示出来。同样隶属于该层级下的pathway比如
8.1
均是按以上结构来展示。







(0)

热评文章

发表评论