蛋白质结构预测相关概念介绍

“折叠”的概念:“折叠(fold)”是近年来蛋白质研究中应用较广的一个概念,它是介与二级和三级结构之间的蛋白质结构层次,它描述的是二级结构元素的混合组合方式。

同源性建模:
    假设对已知结构的另一个蛋白质序列来排列一个蛋白质的序列,如果靶序列和已知结构序列在整个序列的全长有很高的相似性,在合理的信任度上,我们可以使用已知结构作为靶蛋白质的模版。

二级结构的预测方法介绍:

Chou-Fasman算法:
 
    是单序列预测方法中的一种,它是使用氨基酸物理化学数据中派生出来的规律来预测二级结构。 他们统计首先出20种氨基酸出现在α螺旋、β折叠和无规则卷曲中出现频率的大小,然后计算出每一种氨基酸在这几种构象中的构象参数Px.构象参数值的大小反映了该种残基出现在某种构象中的倾向性的大小。按照构象参数值的大小可以把氨基酸分为六个组:Ha(强螺旋形成者)、ha( 螺旋形成者)、Ia(弱螺旋形成者)、ia(螺旋形成不敏感者)、ba(螺旋中断者)、Ba(强螺旋中断者)。Chou和Fasman根据残基的倾向性因子提出二级结构预测的经验规则,要点是沿蛋白序列寻找二级结构的成核位点和终止位点。这种方法可能能够正确反映蛋白质二级结构的形成过程,但预测成功率并不高,仅有50%左右。

GOR算法:
 
    也是单序列预测方法中的一种,因其作者Garnier, Osguthorpe和 Robson而得名。这种方法是以信息论为基础的,也属于统计学方法的一种,GOR方法不仅考虑被预测位置本身氨基酸残基种类对该位置构象的影响,也考虑到相邻残基种类对该位置构象的影响。这样使预测的成功率提高到 65% 左右。GOR方法的优点是物理意义清楚明确,数学表达严格,而且很容易写出相应的计算机程序,但缺点是表达式复杂。


 
    对序列进行多序列比对,并利用多序列比对的信息进行结构的预测。调查者可找到和未知序列相似的序列家族,然后假设序列家族中的同源区有同样的二级结构,预测不是基于一个序列而是一组序列中的所有序列的一致序列。


 
    利用神经网络的方法进行序列的预测,BP (Back-Propagation Network) 网络即反馈式神经网络算法是目前二级结构预测应用最广的神经网络算法,它通常是由三层相同的神经元构成的层状网络,使用反馈式学习规则,底层为输入层,中间为隐含层,顶层是输出层,信号在相邻各层间逐层传递,不相邻的各层间无联系,在学习过程中根据输入的一级结构和二级结构的关系的信息不断调整各单元之间的权重,最终目标是找到一种好的输入与输出的映象,并对未知二级结构的蛋白进行预测。神经网络方法的优点是应用方便,获得结果较快较好,主要缺点是没有反映蛋白的物理和化学特性,而且利用大量的可调参数,使结果不易理解。许多预测程序如PHD、PSIPRED等均结合利用了神经网络的计算方法。
 
基于已有知识的预测方法(knowledge based method):

    这类预测方法包括Lim 和 Cohen 两种方法。Lim 方法是一种物理化学的方法,它根据氨基酸残基的物理化学性质,包括:疏水性、亲水性、带电性以及体积大小等,并考虑残基之间的相互作用而制订出一套预测规则。对于小于50个氨基酸残基的肽链, Lim 方法的预测准确率可以达到73%. 另一种是 Cohen 方法,它的提出当时是为了α/β蛋白的预测,基本原理是说:疏水性残基决定了二级结构的相对位置,螺旋亚单元或扩展单元是结构域的核心,α螺旋和β折叠组成了结构域。

混合方法(hybrid system method):

    将以上几种方法选择性的混合使用,并调整他们之间使用的权重可以提高预测的准确率,目前预测准确率在70%以上的都是混合方法,其中,同源性比较方法、神经网络方法 和 GOR方法 应用最为广泛。

 

“串线(threading)”算法:
 
    串线结构分析是试图把未知的氨基酸序列和各种已存在的三维结构相匹配,并评估序列折叠成那种结构的合适度。串线法最适用于折叠(fold)的识别,而不是模型的建立。它是快速用未知序列的氨基酸侧链替换已知序列中的氨基酸位置。Jones等首先从蛋白质结构数据库中挑选蛋白质结构建立折叠子数据库,以折叠子数据库中的折叠结构作为模板,将目标序列与这些模板一一匹配,通过计算打分函数值判断匹配程度,根据打分值给模板结构排序,其中打分最高的被认为是目标序列最可能采取的折叠结构。Threading 方法的难点在于序列与折叠结构的匹配技术和打分函数的确定。(Jones等,1992)

1 回复

评论已关闭。