Blast2.2.21版本的一个BUG


在前些日子,我已经发表过一篇文章,指出Blast较低版本的一个Bug,是非标准密码子的问题。有兴趣的请围观:http://liucheng.name/1109/

又一个BUG的发现

最近有一个同事,在使用Blast时又发现一个奇异的结果。如用下面的氨基酸序列做Blastp:

>Q16653|MOG_HUMAN Myelin-oligodendrocyte glycoprotein OS=Homo sapiens
MASLSRPSLPSCLCSFLLLLLLQVSSSYAGQFRVIGPRHPIRALVGDEVELPCRISPGKN
ATGMEVGWYRPPFSRVVHLYRNGKDQDGDQAPEYRGRTELLKDAIGEGKVTLRIRNVRFS
DEGGFTCFFRDHSYQEEAAMELKVEDPFYWVSPGVLVLLAVLPVLLLQITVGLVFLCLQY
RLRGKLRAEIENLHRTFDPHFLRVPCWKITLFVIVPVLGPLVALIICYNWLHRRLAGQFL
EELRNPF

这个序列Q16653是来自Uniprot的。BlastDB是选择human的氨基酸序列,Blsat版本是用2.2.21,Blast程序选择Blastp。结果却没有匹配上,最好一个匹配也才40%的相似性。

BUG的原因分析

当然了,一开始并没有怀疑过Blast版本的问题。

经过一段时间的分析后,慢慢排除掉其它的可能性,最后锁定在Blast版本问题上,拿上面的序列去NCBI做Blastp,并没有发现问题。NCBI的Blast版本是2.2.22,也是目前最新的版目。

另外,在低于2.2.21版本的Blast里也没发现问题(当然只是找了其中一个版本来测试,不可能所有版本都测试)。

所以最终确认,这是Blast2.2.21版本的一个Bug。

未解决的问题?

请注意上面序列的红色字体部分:LVF,把它改为:LIF。再用同样的条件做Blastp,结果完成正确。但V是缬氨酸,是非常常见的一个氨基酸,到处都可见。所以不是非标准密码子的问题。

至少这个BUG的原因,就无从测试起了,只能大概地推测这个V在某些情况下会引起这个BUG。


6条回应:“Blast2.2.21版本的一个BUG”

  1. 很佩服博主,你的博文对我都很有启发,尤其是生物信息学的部分,对于我的学习和分析有很大帮助,我从中收获很大。同时,我也很佩服你能这样坚持做这些事情,把资料整理的很细致地放在博客上,其实我也挺想有个自己的博客的,但就是坚持不下来。佩服,感谢!