Blast：快速序列比对工具(快速序列比对之BLAST)

一、Blast的基本介绍

Blast是Bioinformatics领域中最常用的序列比对工具，它有助于发现具有相似结构和功能的DNA，RNA和蛋白质序列。

Blast有两种基本类型：blastp用于蛋白质序列比对，blastn用于核酸序列比对。无论是blastp还是blastn，Blast的基本原理都是基于一个很简单的思想：两个序列的相似性可以通过比较它们的k个连续字串（k-mer）来度量。这个k可以是4，5，6，7等等不同的值，也可以通过对BLAST程序中的 -word_size 标志进行修改以实现自定义的长度。

Blast的核心算法是“分治策略”，该策略将参考序列划分为多个较短的片段，然后在每个片段上进行比对，最后将所有比对结果进行合并以得到完整的比对结果。这种划分片段的方式可以大大提高比对的速度。

二、Blast的工作原理

Blast主要分为两个步骤：预处理和比对。

1. 预处理

在这个步骤中，待比较的序列将进行索引，因此可快速地在数据库中进行查找。BLAST有两种预处理方法：生成和存储基于散列算法的索引（hash-based indices）和生成和存储基于后缀树（suffix tree）的索引。

2. 比对

Blast使用两个主要的参数来概括匹配的相似性和可信度：

e-value：一个给定比对的期望误报率，即在搜索数据库时，具有作为这种比对文本所展示的特征的随机打击数的数量。默认值为10，实际上表示10条误报比对中有1条正确的比对。
identity：比对中的匹配百分比。identity的默认值为0.0（百分之零），但实际上是由BLAST程序根据其比对评价准则进行计算的。

Blast的比对算法可以分解为以下步骤：

找出每个比对序列的最佳比对。
利用预处理阶段生成的索引找出匹配的序列。
计算最佳比对的e-value和identity值。
生成两个序列的比对结果。

三、Blast的优化

为了进一步提高比对的效率，Blast进行了多项优化。

1. 基于哈希表的比对算法

哈希表是Blast中的关键数据结构之一，它用于储存参考序列和查询序列中的k-mer，并且使用哈希函数将这些k-mer映射到哈希表上。在查询时，Blast会在哈希表中搜索与每个查询序列k-mer匹配的参考序列k-mer。如果匹配成功，则进行进一步的比较。

2. 基于GPU加速的算法

Blast的计算密度较高，可以通过使用GPU进行加速。最近几年发展了各种基于GPU的Blast加速器，其中包括mdBLAST和CUDABLAST等。

3. 快速多重比对算法

Blast毕竟是单序列比对算法，但是在某些情况下，我们需要将多个序列进行比对。因此，Blast开发了一些快速且准确的多重比对算法，比如MUSCLE，MAFFT和CLUSTAL。

四、Blast的应用

Blast可以在生物研究中用于许多不同的应用，例如：

序列相似性搜索：比对两个或多个序列，找出共性和差异，从而帮助科学家理解它们的结构和功能。
基因组注释：通过比对新的基因组序列与已知的序列数据库，可以确定新的基因组中的基因和元件。
进化研究：比较不同物种的DNA、RNA和蛋白质序列，从而帮助确定它们之间的关系。

五、代码示例

下面是一个blastn的Python代码示例：

from Bio.Blast import NCBIWWW
from Bio.Blast import NCBIXML

fasta_string = open("test.fasta").read()

result_handle = NCBIWWW.qblast("blastn", "nt", fasta_string)

blast_record = NCBIXML.read(result_handle)

for alignment in blast_record.alignments:
    for hsp in alignment.hsps:
        print('****Alignment****')
        print('sequence:', alignment.title)
        print('length:', alignment.length)
        print('bit Score:', hsp.score)
        print('e value:', hsp.expect)
        print(hsp.query)
        print(hsp.match)
        print(hsp.sbjct)