多序列比对及蛋白质功能及结构预测(5)


  蛋白质结构预测

  一、蛋白质结构及其数据库

 一般情况下,蛋白质的结构分为4个层次:

初级结构–蛋白质序列;

二级结构–а-螺旋和β-折叠片(β-sheets)模式;

三级结构–残基在空间的布局;

四级结构–蛋白质之间的互作。

近年来,另一个介于二级和三级结构之间的蛋白质结构层次–所谓蛋白质折叠(fold)已被证明非常有用。”fold”描述的是二级结构元素的混合组合方式。 根据序列或多序列列线预测蛋白质二级结构的技术已相对比较成熟,但三级结构的预测则相当困难。往往对于三级结构预测,只能通过与已知结构蛋白序列同源性比对来完成。

已有不少相关数据库被建立起来用于蛋白质结构预测。这一方法已是目前进行三级结构预测的最准确方法。但是这一方法并不总是奏效,因为大约有80%的已知蛋白质序列找不到与之相似的已知结构的蛋白质序列。

近年来,一些新方法被提出,这些方法可以不通过相似性比对来预测序列结构。

  二、二级结构预测

已有大量有关根据序列预测蛋白质二级结构的文献资料,这些资料可大致分为二类: 一是有关根据单一序列预测二级结构; 二是有关根据多序列列线预测二级结构。

直到最近为止,二级结构预测才不被认为具有很高的随机性。大多数预测算法均是依据单一序列。即使是最著名的一些算法(如Chou-Fasman算法和GOR算法)也只有约60%的预测准确率,而对于一些特定的结构,如那些富含β-折叠片的结构,这些算法难以预测成功。    

预测失败的原因主要是单一序列所提供的信息只是残基的顺序而没有其空间分布的信息。两个方面的研究进展改变了这一状况:一是认识到多序列列线可被用于改进预测能力。多序列列线可被视为诱变遗传学试验中的自然突变状况,其对序列上单一位点变异的分析的确提供了该位点在蛋白质三级结构中的信息;二是神经网络已开始被用于根据序列预测结构

目前已有这样一个共识,即在有大量、高质量的多序列列线结果的情况下,蛋白质二级结构的预测将非常准确–通常准确率比以单一序列预测提高10%。

  一些文献表明,一些程序(诸如PHD)预测的准确率达到了目前最高水平。 PHD(http://www.embl-heidelberg.de/predictprotein/predictprotein.html) 提供了从二级结构预测到折叠(fold)识别等一系列功能。

  三、三级结构预测

比对数据库中已知结构的序列是预测未知序列三级结构的主要方法。多种途径可进行以上这种比对。最容易是使用BLASTP程序比对NRL-3D或SCOP数据库中的序列。如果发现超过100个碱基长度且有远高于40%序列相同率的匹配序列,则未知序列蛋白与该匹配序列蛋白将有非常相似的结构。

在这种情况下,同源性建模(homology modeling)在预测该未知蛋白精细结构方面会发挥非常大的作用。在序列相同率为25%~40%时,两条蛋白质将具有相同的折叠,但这时同源性建模将变得更加困难和不准确。

如果在比对NRL-3D数据库时没有发现匹配序列,接下去可试试HSSP数据库。这样做的一条最方便捷径是用BLAST或FASTA法搜索蛋白质序列库(如SWISS-PROT、TREMBL或PIR),然后利用诸如SRS等工具去检索任何超过25%序列相同率的匹配序列,如果这些匹配序列在HSSP数据库中存在,则在该序列的注释(annotation)”DR”栏中将有说明。

如果未知蛋白质序列与某一HSSP数据库序列有明显大于25%的序列相同率,则有把握地假定未知序列至少有与HSSP序列相同的蛋白质折叠模式。    

目前,NRL-3D和HSSP数据库的记录数量可以保证20%的蛋白质序列将找到已知结构的同源序列。

总的来说,同源性建模需要专业分子建模方法和分子图象资源的辅助才能进行。不妨到Swiss-Model网站(http://expasy.hcuge.ch/swissmod/SWISS-MODEL.html)看看。

Swiss-Model是一个蛋白质自动建模服务器,使用者可以直接发送一条序列或使用者自己完成的列线结果给该服务器用于同源性建模。

  近年蛋白质结构研究的最主要进展之一,是有关”串线”(threading)算法和折叠识别。这些技术可以在不存在已知结构同源蛋白质序列的情况下,预测所有可能的蛋白质结构。  

“这个未知蛋白序列会是什么结构呢?”我们也可以这样问:”我已经观察了已知结构蛋白质的各种折叠方式,未知序列是否会象这些已知结构中的某一个一样折叠呢?”第一个问题涉及几十亿种可能结构的搜索,而第二个问题涉及的是少于1000种结构的搜索。   

特定的蛋白质折叠被一而再,再而三地观察到–大部分新的经晶体衍射的蛋白将会与我们已知的折叠相关,这些过程使预测的成功机率不断提高。

串联算法中,未知序列以合适的方式被”串”到一个数据库某一折叠模板,然后计算该序列的能(energy);在该序列与数据库中所有的折叠模板均”串”好后,可以进行计分比对,决定那些匹配达到了显著。

折叠的识别技术目前还不是特别可靠的技术,只有在序列相同比率在30%~50%时,才有可能获得准确的估计。相关程序的结果也相当粗糙,大多数情况下难以作为同源性建模研究的依据。但是它是大多数蛋白质结构预测信息唯一可利用的工具。

一些相关应用程序:

TOPITS(http://www.embl-heidelberg.de/predictprotein/predictprotein.html)

frsvr(http://www.mbi.ucla.edu/people/frsvr/frsvr.html)

123D(http://www_lmmb.ncifcrf.gov/~nicka/123D.html)

THREADER和THREADER2(http://globin.bio.warwick.ac.uk/~jones/threader.html)

ProFIT(http://lore.came.sbg.ac.at/Extern/software/Profit/profit.html)

~完~