多序列比对及蛋白质功能及结构预测(3)

  多序列比对数据库

多序列比对的意义在于它能够把不同种属的相关序列的比对结果按照特定的格式输出,并且在一定程度上反映它们之间的相似性。多序列比对结果所提供的信息对于提高数据库搜索灵敏度也具有很大帮助。因此,方便实用的多序列比对数据库也就应运而生。   

目前,互联网上可用的多序列比对数据库已经不少。其中一些利用计算机程序将一次数据库按家族分类;另外一些则是通过手工或自动方法根据基因家族构建二次数据库。

例如,Pfam是将一次库通过自动比对来构建的数据库,它将大量具有结构相似性的序列归为一类,比如各种不同种类动物的转铁蛋白的基因序列具有一定的相似性,Pfam将这些序列归为一类命名为TRANSFERRIN,我们可以在Pfam查找TRANSFERRIN来得到原始序列比对信息,开头是一些注释信息,然后给出了比对序列的名字,再下是比对结果,以”//”开始,并以”//”结束。对于一个未知的蛋白质序列在该序列库中查询,该序列库会给出匹配的类及得分供你参考。

可以看看PRINTS数据库关于TRANSFERRIN的比对信息, PRINTS数据库在自动比对的基础上进行了手工编辑,查寻PRINTS数据库中关于TRANSFERRIN这一类的比对信息,结果可以用模体(motif)形式显示也可以用点击链接调用JAVA APPLET进行图形显示,下图是关于TRANSFERRIN序列比对的局部图形,可见PRINTS数据库中TRANSFERRIN一类由更多的序列比对形成。

 一般来说,对于具有较高相似性的一组序列之间的比对,自动比对方法是很有效的。一旦序列的亲缘关系变得较远,所得结果就不那么可信。若要得到比较可靠而又具有明确生物学意义的比对结果,比较有效的方法是对比对结果进行手工编辑和调整。这对于构建二次数据库是非常重要的信息。在选择现有的序列模式或序列模体公开数据库构建自己的数据库系统时,对这些现有数据库的可靠性必须采取谨慎的态度。

  蛋白质的结构与功能预测

 蛋白质结构与功能的研究已有相当长的历史,由于其复杂性,对其结构与功能的预测不论是方法论还是基础理论方面均较复杂。统计学方法曾被成功地应用于蛋白质二级结构预测中,如Chou和Fasman提出的经验参数法便是最突出的例子。该方法统计分析了各种氨基酸的二级结构分布特征,得出相应参数(Pа,Pβ和Pt)并用于预测。

下面简要介绍蛋白质结构与功能预测的生物信息学途径