NCBI-BLAST在线使用教程详细攻略(图解)
BLAST是“局部相似性基本查询工具”(Basic Local Alignment Search Tool)的缩写。是由美国国立生物技术信息中心(NCBI)开发的一个基于序列相似性的数据库搜索程序。该程序将DNA/蛋白质序列与公开数据库所有序列进行匹配比对,从而找到相似序列。
BLAST功能是什么?
BLAST可用于推断序列之间的功能和进化关系,以及帮助鉴定基因家族的成员。BLAST还能发现具有缺口的能比对上的序列。BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。
主要的五种BLAST程序:
程序名 | 查询序列 | 数据库 | 搜索方法 |
---|---|---|---|
Nucleotide BLAST | 核酸 | 核酸 | 库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 |
Protein BLAST | 蛋白质 | 蛋白质 | 库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 |
BLASTX | 核酸 | 蛋白质 | 先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。 |
TBLASTN | 蛋白质 | 核酸 | 将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。 |
TBLASTX | 核酸 | 核酸 | 此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。 |
通常根据查询序列的类型(蛋白或核酸)来决定选用何种BLAST。假如是核酸-核酸查询,有两种BLAST供选择,通常默认为BLASTN。如要用TBLASTX也可,但记住此时不考虑缺口。
BLAST适用于本地查询。可以下载公共数据库,对于该数据库的更新和维护是必不可少的。如果要直接到网上查询也可以(即NET BLAST),但如果自己的序列很有价值的话,还是谨慎为宜。
使用NCBI-BLAST在线比对及结果分析(图解)
1.进入blastn(https://blast.ncbi.nlm.nih.gov/Blast.cgi)
2.输入查询序列
3.设置比对参数(根据需要,选择比对的数据库)
4.设置算法参数(注意显示的最大的结果数跟E值,E值是比较重要的筛选标准。)
5.点击BLAST运行
6.BLAST结果分析
1) 比对基本情况:输入序列类型,长度,比对数据库等。
2) 比对结果图形显示
3) 比对结果描述:注意分值与E值。分值越大越靠前,E值越小也是这样。
4)
总结:评价一个blast结果的标准主要有三项,E值(Expect),一致性(Identities),缺失或插入(Gaps)。加上长度(length)的话,就有四个标准了。
Score:序列比对过程中计算的得分值,得分越高,序列匹配结果越好。
Expect:表示随机匹配的可能性。E值越小,序列越相似,E值越大,随机匹配的可能性也越大。E值接近零或为零时,具本上就是完全匹配了。
Identities:序列相似性,匹配上的碱基数占总序列长的百分数。
Gaps:插入或缺失。用"—"来表示。