蛋白质组学

NCBI中Blast种类简介

NCBI中Blast种类简介
NCBI中Blast种类简介

1. Blast Assembled Genomes

在一个选择的物种基因组序列中去搜索。

2.Basic Blast

2.1 nucleotide blast--- 用核酸序列到核酸数据库中进行搜索,包括3个程序

2.1.1 Blastn----核酸序列(n)到核酸序列数据库中搜索,是一种标准的搜索。

2.1.2 megablast----该程序使用 模糊算法 加快了比较速度,可以用于快速比较两大系列序列。 可以用来搜索一匹ESTs序列和大的cDNA或基因组序列, 适用于由于测序或者其他原因形成的轻微的差别的序列之间的比较

2.1.3 discontiguous megablast----与megablast不同的是主要用来比较来自不同物种之间的相似性较低的分歧序列。

2.2 Protein Blast

2.2.1 Blastp ---蛋白质序列到蛋白质序列数据库中搜索,是一种标准的搜索。

2.2.2 psi-blast---位点特异迭代BLAST — 用蛋白查询来搜索蛋白资料库的一个程式。所有被BLAST发现的统计有效的对齐被总和起来形成一个多次对齐,从这个对齐,一个位置特异的分值矩阵建立起来。这个矩阵被用来搜索资料库,以找到额外的显著对齐,这个过程可能被反复迭代一直到没有新的对齐可以被发现。

2.2.3 PHI-BLAST---以常规的表达模型为特别位置进行PSI - BLAST检索,找出和待查询序列具有一样的表达模型且具有同源性的蛋白质序列。

2.3 Translating BLAST

2.3.1 blastx----先将待查询的核酸序列按6 种读框翻译成蛋白质序列,然后将翻译出的蛋白质序列与NCBI 蛋白质序列数据库比较。

2.3.2 tblastn-----先将核酸序列数据库中的核酸序列按6 种读框翻译成蛋白质序列,然后将待查询的蛋白质序列与翻译结果进行比较。

2.3.3 tblastx----先将待查询的
核酸序列和核酸序列数据库中的核酸序列按6 种读框翻译成蛋白质序列,然后再将两种翻译结果在蛋白质水平上进行比较

3.Specialized Blast Specialized BLAST pages 可以对特殊生物或特殊研究领域的序列数据库进行检索。

例:CD - Search
CD - Search 是使用RPS - BLAST程序以一个蛋白质序列与保守结构域数据库(Conserved Domain Database) 做比较。

Pairwise BLAST
Pairwise BLAST是用BLAST程序实现两个序列之间的比较。选择 序列1 为待比较序列,则 序列2 就是被比较序列。

IgBLAST —IgBLAST被开发出来以便於分析在GenBank中的免疫球蛋白的序列。它允许用blastp或blastn来搜索nr资料库或一个由免疫球蛋白生殖系变化区基因的特殊的资料库。搜索可以限制在人类或小鼠的基因。IgBLAST执行三个主要的功能∶1)报告与查询序列最相似的可变,D,或J区,2)根据Kabat et al.来注解免疫球蛋白domains(从FWR1到FWR3),3)对於搜索核酸或蛋白nr资料库,通过匹配IgBLAST的发现和最接近的生殖系变化区基因来简化识别相关序列的过程。

等等。。。。。。。。。

在线BLAST的使用方法

1、登陆blast主页:http://www.ncbi.nlm.nih.gov/BLAST/
2、根据数据类型,选择合适的程序

3、填写表单信息
序列的输入、比对搜索区域的选择、数据库的选择:

_/ [ 限制调节、打分矩阵及其他参数的设置:

图中各参数的含义:(不同的平台有少许差异,请对比参照)9 L4 N3 I) u+ N0 {$ q
Word siez选项:4 c, r* F* g" t' g) B, j9 u
BLAST 程序是通过比对未知序列与数据库序列中的短序列来发现最佳匹配序列的。最初进行 扫描 (scanning)就是确定匹配片段。序列的匹配程序由短序列(定义为 word ,即字)的联配得分总和来决定。联配时, 字 的每个碱基均被计分:如果碱基对完全相同(如 A 与 A),得某一正值;如果碱基对不很匹配(W与A或 T),则得某一略小的正值;如果两个碱基不匹配,则得一负值。总的 合计得分便决定了序列间的相似程度。得分高的匹配序列被称为高比值片段对(high-scoring segment pairs, HSP)。BLAST 程序在两个方向扩展 HSP,直至序列结束或联配已变为不显著。替 换矩阵在扫描(scanning)和扩展过程被应用。最后在 BLAST 报告中被列出的序列 都是所有得分最高的序列。
以上述及的初始字长便是由Word siez值设定。BLAST只对字长为W的 字 进行扩展联配。BLAST 的字长缺省值为 11,即 BLASTN 将扫描数据库,直到发现那些与未知序列的 11 个连续碱基完全匹配的11个连续碱基长度片段为止。然后这些片段(即字)被扩展。11个碱基的字长已能有效地排除中等分叉的同源性和几乎所有随机产生的显著联配。
Filter (过滤器)选项:
BLAST 2.0版本的新功能,过滤器将锁定诸如组成低复杂(low compositional complexity)序列区(如Alu序列),用一系列N(NNNNNN)替代这些程序。N 代表任意碱基(IUB-code)。只有未知待检序列被过滤替代,而数据库的序列将不被过滤。过滤对绝大多数序列都是有益的,例如,多A 碱基的尾部和脯氨酸富积的序列,会得到人为的高联配得分而误导分析。这是因为这类序列数量极大,遍布整个基因组,直至整个数据库。# p$ r4 W! O1 x5 n8 i! j3 m

Matrix (矩阵)选项:
联配的显著性是由返回的比对分值决定的,该分值反映的是所得到的联配随机产生的概率有多大。矩阵被用于鉴别数据库中的序列,同时又用来预测匹配的显著性大小。一般应接受运行程序推荐的矩阵。BLAST系列程序主要使用两种类型矩阵(PAM和BLOSUM,前面都有介绍)。要准确地选择矩阵,必须了解矩阵和矩阵的具体计分方式。值得注意的是,直接比较使用不同替换矩阵而获得的联配得分是没有意义的。
EXPECT 选项:
您可以为搜索设定一个期望值阀值(EXPECT),例如缺省值设为10。这一设置则表示联配结果中将有10个匹配序列是由随机产生,如果联配的统计显著性值(E值)小于该值(10),则该联配将被检出。换句话说,比较低的阀值将使搜索的匹配要求更严格,结果报告中随机产生的匹配序列减少。
Score Value (分值)选项:(有些平台上没有此选项)6 [- q+ J# k9 ?6 N( M( d0 a
在 wordsize 选项中曾论及碱基对匹配程度的赋分问题,其赋分的标准可由分值选项的M和N 两个参数设置。M 参数为匹配碱基的赋值,必需为一正整数;N 参数为不匹配碱基的赋值,必需为一负整数。M/N 的比率决定了你所接受的进化分歧程度(degree of divergence),M 和N 的缺省值为5和-4。该比率(1.25)相当于在100个残基中约有47可以观测到的核酸点突变(PAM)。PAM 是被用来预测分子序列从祖先序列进化而来的程度。如果你调整M和N使比率提高,则 PAM 矩阵也应选择大些(指PAM矩阵后的数字),以适应相应的较大的分歧程度。






(0)

热评文章

发表评论