蛋白质结构预测的方法及相关数据库

蛋白质结构预测的基本思想

蛋白质结构预测的问题从数学上讲,是寻找一种从蛋白质的氨基酸线性序列到蛋白质所有原子三维坐标的一种映射。典型的蛋白质含有几百个氨基酸、上千个原子,而大蛋白质(如载脂蛋白)的氨基酸个数超过4500。所有可能的序列到结构的映射数随蛋白质氨基酸残基个数而呈指数增长,是天文数字。然而幸运的是,自然界实际存在的蛋白质是有限的,并且存在着大量的同源序列,可能的结构类型也不多,序列到结构的关系有一定的规律可循,因此蛋白质结构预测是可能的。

蛋白质结构预测主要有两大类方法:

理论分析方法或从头算方法(Abinitio):通过理论计算(如分子力学、分子动力学计算)进行结构预测,该类方法假设折叠后的蛋白质取能量最低的构象。从原则上来说,我们可以根据物理、化学原理,通过计算来进行结构预测。但是在实际中,这种方法往往不适合。主要有几个原因,一是自然的蛋白质结构和未折叠的蛋白质结构,两者之间的能量差非常小(1kcal/mol数量级),二是蛋白质可能的构象空间庞大,针对蛋白质折叠的计算量非常大。另外,计算模型中力场参数的不准确性也是一个问题。

统计方法:该类方法对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,进而对未知结构的蛋白质根据映射模型直接从氨基酸序列预测结构。映射模型可以是定性的,也可以是定量的。这是进行蛋白质结构预测较为成功的一类方法。这一类方法包括经验性方法、结构规律提取方法、同源模型化方法等。

所谓经验性方法就是根据一定序列形成一定结构的倾向进行结构预测,例如,根据不同氨基酸形成特定二级结构的倾向进行结构预测。通过对已知结构的蛋白质(如蛋白质结构数据库PDB、蛋白质二级结构数据库DSSP中的蛋白质)进行统计分析,发现各种氨基酸形成不同二级结构的倾向,形成一系列关于二级结构预测的规则。

与经验性方法相似的另一种办法是结构规律提取方法,这是更一般的方法。该方法从蛋白质结构数据库中提取关于蛋白质结构形成的一般性规则,指导建立未知结构的蛋白质的模型。有许多提取结构规律的方法,如通过视觉观察的方法,基于统计分析和序列多重比对的方法,利用人工神经网络提取规律的方法。

同源模型化方法通过同源序列分析或者模式匹配预测蛋白质的空间结构或者结构单元(如锌指结构、螺旋-转角-螺旋结构、DNA结合区域等)。其原理是基于下述事实:每一个自然蛋白质具有一个特定的结构,但许多不同的序列会采用同一个基本的折叠,也就是说,具有相似序列的蛋白质倾向于折叠成相似的空间结构。一对自然进化的蛋白质,如果它们的序列具有25~30%的等同部分或者更多,则可以假设这两个蛋白质折叠成相似的空间结构。这样,如果一个未知结构的蛋白质与一个已知结构的蛋白质具有足够的序列相似性,那么可以根据相似性原理给未知结构的蛋白质构造一个近似的三维模型。如果目标蛋白质序列的某一部分与已知结构的蛋白质的某一结构域区域相似,则可以认为目标蛋白质具有相同的结构域或者功能区域。在蛋白质结构预测方面,预测结果最可靠的方法是同源模型化方法。

蛋白质的同源性比较往往是借助于序列比对而进行的,通过序列比对可以发现蛋白质之间进化的关系。在蛋白质结构分析方面,通过序列比对可以发现序列保守模式或突变模式,这些序列模式中包含着非常有用的三维结构信息。利用同源模型化方法可以预测所有10~30%蛋白质的结构。然而,有许多具有相似结构的蛋白质是远程同源的,它们的等同序列不到25%,也就是说,具有相似空间结构的蛋白质序列等同程度可能小于25%。这些蛋白质的同源性不能被通过传统的序列比对方法所识别。如果按照一个未知序列搜索一个蛋白质序列数据库,并且搜索条件为序列等同程度小于25%的话,那么将会得到大量不相关的蛋白质。因此,搜索远程同源蛋白质就像在干草堆里寻找一根针。寻找远程同源蛋白质是一项困难的任务,处理这个困难任务的技术称为“线索(THREADING)技术”。对于一个未知结构的蛋白质,仅当我们找不到等同序列大于25%的已知结构的同源蛋白质时,才通过线索技术寻找已知结构的远程同源蛋白质,进而预测其结构。找到一个远程同源蛋白质后,利用远程同源建模方法来建立蛋白质的结构模型。

如果既没有找到一般的同源蛋白质,又没有找到远程同源蛋白质,那么如何进行结构预测呢?一种可行的办法就是充分利用现有数据库中的信息,包括二级结构和空间结构的信息,首先从蛋白质序列预测其二级结构,然后再从二级结构出发,预测蛋白质的空间结构;或者采用从头算方法进行结构预测。

蛋白质结构预测常用数据库:

数据库

说明1 J1 E# f’ ]. Q8 U5

网址链接

PDB5 ^& `/ 蛋白质三维结构* S! i% h7 @* s7 L) R6 k http://www.rcsb.org/pdb
SWISS-PROT# n; 蛋白质序列数据库7 A, `. d6 [, H8 q http://kr.expasy.org/sprot/
PIR# 蛋白质序列数据库 http://pir.georgetown.edu/6 u; x/ S8 p2 m4 E; c* _7 W) d
OWL 非冗余蛋白质序列 http://www.bioinf.man.ac.uk/dbbrowser/OWL/5 \7 `: c/ q0 e7 l
EMBL 核酸序列数据库! http://www.embl-heidelberg.de/
TrEMBL EMBL的翻译数据库 http://kr.expasy.org/sprot/, L& E$ a8 G( p2 I0 C+ w
GenBANK/ y3 s- i0 \: ?9 ^( v% }6 S: n 核酸序列数据库 http://www.ncbi.nih.gov/Genbank/
PROSITE” @3 R, B/ _7 p7 i- K/ U 蛋白质功能位点: O* d4 A- D/ T” t; p6 l6 {5 M, S http://kr.expasy.org/prosite/9 d4 ~1 a  `8 ?8 V; ?
SWISS-MODEL! f) ]& F, @# s  W8 `) f 从序列模建结构/ S2 k, \& n, o1 | http://www.expasy.org/swissmod/SWISS-MODEL.html$ [3 J+ Y# X% p’ ^
SWISS-3DIMAGE 三维结构图示 http://us.expasy.org/sw3d/
DSSP 蛋白质二级结构参数 http://www.cmbi.kun.nl/gv/dssp/* {6 d” d& s  t’ X
FSSP 已知空间结构的蛋白质家族 http://www.ebi.ac.uk/dali/fssp/fssp.html
SCOP 蛋白质分类数据库 http://scop.mrc-lmb.cam.ac.uk/scop/& r9 S& E/ V& Y: l
CATH2 Z5 o* ~; A6 E- y& _ 蛋白质分类数据库; e7 n’ q# `$ h& r3 ?1 }3 ]2 R( b http://www.biochem.ucl.ac.uk/bsm/cath/
Pfam 蛋白质家族和结构域  Y. t1 s5 b  h! ]; d. I% A http://pfam.wustl.edu/4 B7 m9 z% A7 I& |4 b3 J. X$ A

来源:丁香园

9 回复
  1. puma shoes says:

    Generally I do not post on blogs, but I would like to say that this post really forced me to do so! I found your blog on google and read a few of your other posts. I just added you to my Google News Reader. Keep up the good work. Look forward to reading more from you in the future.

  2. 小郭 says:

    呵呵,上面的评论说的挺客气挺好听的,不过网址好像是链向一个卖鞋的网站的,难不成老外也流行国内的推广方式

评论已关闭。