多序列比对及蛋白质功能及结构预测(2)


  比对方法

  1.手工比对方法

手工比对方法在文献中经常看到。因为难免加入一些主观因素,手工比对通常被认为有很大的随意性。其实,即使用计算机程序进行自动比对,所得结果中的片面性也不能予以忽视。在运行经过测试并具有比较高的可信度的计算机程序基础上,结合实验结果或文献资料,对多序列比对结果进行手工修饰,应该说是非常必要的

多序列比对的软件已经有许多,其中一些带有编辑程序。最好的办法是将自动比对程序和编辑器整合在一起。为了便于进行交互式手工比对,通常使用不同颜色表示具有不同特性的残基,以帮助判别序列之间的相似性。颜色的选择十分重要,如果使用不当,看起来不很直观,就会使比对结果中一些有用的信息丢失。相反,如果选择得当,就能从序列比对结果中迅速找到某些重要的结构模式和功能位点。

例如,如果用某种颜色表示一组高度保守的残基,则某个序列的某一位点发生突变时,则由于颜色不同,就可以很快找出。颜色的选择可以根据主观愿望和喜好,但最好和常规方法一致。用来构筑三维模型的按时氨基酸残基组件和三维分子图形软件所用的颜色分类方法,比较容易为大家接受(表2)。

  表2 氨基酸分组方法和代表性颜色

 

残基种类
残基特性
颜色
Asp (D), Glu (E)
酸性
红色
His (H), Arg (R), Lys (K)
碱性
兰色
Ser (S), Thr (T), Asn (N), Gln (Q)
极性
绿色
Ala (A), Val (V), Leu (L), Ile (I), Met (M)
疏水性,带支链
白色
Phe (F), Tyr (Y), Trp (W)
疏水性,带苯环
紫色
Pro (P), Gly (G)
侧链结构特殊
棕色
Cys (C)
能形成二硫键
黄色

  * 表中采用的分组方法和用来区分不同组别的颜色与模型构件和三维图形软件中所用方法一致

多序列比对程序的另一个重要用途是定量估计序列间的关系,并由此推断它们在进化中的亲缘关系。可以通过计算完全匹配的残基数目或计算完全匹配残基和相似残基的数目得到这种定量关系。这一方法除了可以大略了解序列间的亲缘关系外,也可用来评估比对质量。如果序列的相似性值低于预料值,那么有可能是序列间亲缘关系较远,也可能是比对中有错误之处

  2.同步法

同步法实质是把给定的所有序列同时进行比对,而不是两两比对或分组进行比对。    

其基本思想是将一个二维的动态规划矩阵扩展到三维或多维。矩阵的维数反映了参与比对的序列数。这类方法对于计算机的系统资源要求较高,通常是进行少量的较短的序列的比对

  3.步进法

 这类方法中最常用的就是Clustal,它是由Feng和Doolittle于1987年提出的(Feng和Doolittle,1987)。由于对于实际的数据利用多维的动态规划矩阵来进行序列的比对不太现实,因此大多数实用的多序列比对程序采用启发式算法,以降低运算复杂度。    

Clustal的基本思想是基于相似序列通常具有进化相关性这一假设。比对过程中,先对所有的序列进行两两比对并计算它们的相似性分数值,然后根据相似性分数值将它们分成若干组,并在每组之间进行比对,计算相似性分数值。根据相似性分数值继续分组比对,直到得到最终比对结果。比对过程中,相似性程度较高的序列先进行比对,而距离较远的序列添加在后面。作为程序的一部分,Clusal可以输出用于构建进化树的数据。

Clustal程序有许多版本,ClustalW(Thompson等,1994),根据对亲缘关系较近的序列间空位情况,确定如何在亲缘关系较远的序列之间插入空位。同样,相似性较高的序列比对结果中的残基突变信息,可用于改变某个特殊位置空位罚分值的大小,推测该位点的序列变异性。     

Clustal是免费软件,很容易从互联网上下载,和其它软件一起,广泛用于序列分析。Clustal所支持的数据格式包括EMBL/SWISSPROT、NBRF/PIR、Pearson/FastA、GCG/MSF,以及Clustal本身定义的格式。它的输出格式可以是Clustal格式,也可以是可用于GDE、 Phylip、GCG等软件的格式.

下一篇:多序列比对的数据库