发现低版本Blast程序的一个BUG与非标准密码子


BLAST (Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。关于BLAST程序的详细介绍看: http://liucheng.name/1008/

 在做BLAST序列比对的过程中,发现了一个比较奇异的问题。

 模拟做法如下:

 用NM_001039848的氨基酸序列做BLAST程序的两两比对(bl2seq)。NM_001039848的氨基酸序列如下:(注意红色标注的U)

 
>NM_001039848   Homo sapiens glutathione peroxidase 4 (phospholipid hydroperoxidase) (GPX4), transcript variant 3, mRNA.
MGRAGAGSPGRRRQRCQSRGRRRPRAPRRRKAPACRRRRARRRRKKPCPRSLRPEIHECP
KSQDPCASRDDWRCARSMHEFSAKDIDGHMVNLDKYRGFVCIVTNVASQUGKTEVNYTQL
VDLHARYAECGLRILAFPCNQFGKQEPGSNEEIKEFAAGYNVKFDMFSKICVNGDDAHPL
WKWMKIQPKGKGILGNAIKWNFTKFLIDKNGCVVKRYGPMEEPLVIEKDLPHYF

 

bl2seq的结果截图如下:(注,本地装好的BLA ST软件,版本2.2.9 ,用bl2seq中的Blastp。其中对比的两条序列是一样的,都是NM_001039848的氨基酸序列。)

 NM_001039848 的 bl2seq result

 

 提出问题:

 1,  注意上图红色圈住部分。同样的两段序列,即然有2个Gaps,刚好在氨基酸U的位置。

 2,  查了查氨基酸的标准密码子表(详看:http://liucheng.name/420/)。发现U并不在标准密码子表之内。那是代表什么?

 3,  把氨基酸这点的U对应回NM_001039848的核酸序列,密码子刚好是TGA(即作UGA),这应该是终止密码子,为何在这里不会终止,而是翻译成U?

 一一来解答问题:

 1,  把同样的序列用NCBI的在线bl2seq程序。结果发现是100%,并没有Gaps。看下图。但NCBI里所用的BLAST的版本是2.2.22(上面所提到的BLAST版本是2.2.9),由此可知这是低版本BLAST的一个BUG,不认U。

 NM_001039848 在NCBI的 bl2seq result

 2,  那为啥偏偏是U呢。原来U并不是在标准的密码子表里面,不属于标准的20个氨基酸之内。

 在Google搜索资料,最后还是在维基百科找到了答案(详看http://zh.wikipedia.org/zh-cn/%E9%81%97%E4%BC%A0%E5%AF%86%E7%A0%81

 在一些蛋白质里停止密码子会被翻译成非标准的氨基酸,例如UGA(TGA)转译为硒半胱氨酸和UAG(TAG)转译为吡咯赖氨酸,随着对基因组序列加深了解,科学家可能还会发现其它非标准的转译方式

 原来氨基酸序列里的U是指非标准的氨基酸:硒半胱氨酸

 下面再来看看硒半胱氨酸的介绍:

 硒半胱胺酸是一种氨基酸,存在于少数一些酶中,如谷胱甘肽过氧化酶、甲状腺素5'-脱碘酶、硫氧还蛋白还原酶、甲酸脱氢酶、甘胺酸还原酶和一些氢化酶等。
 在遗传密码中,硒半胱胺酸的编码是UGA,通常用作终止密码子。但如果在mRNA中有一个硒半胱胺酸插入序列(SElenoCysteine Insertion Sequence, SECIS),UGA就用作硒半胱胺酸的编码。

 而NM_001039848基因刚好是 谷胱甘肽过氧化物酶(glutathione peroxidase)。

一切疑问都已解答。~


8条回应:“发现低版本Blast程序的一个BUG与非标准密码子”

  1. Great work! This is the type of information that should be shared around the web. Shame on the search engines for not positioning this post higher! Come on over and visit my website . Thanks =)