Blast2.2.21版本的一个BUG
又一个BUG的发现
最近有一个同事,在使用Blast时又发现一个奇异的结果。如用下面的氨基酸序列做Blastp:
>Q16653|MOG_HUMAN Myelin-oligodendrocyte glycoprotein OS=Homo sapiens
MASLSRPSLPSCLCSFLLLLLLQVSSSYAGQFRVIGPRHPIRALVGDEVELPCRISPGKN
ATGMEVGWYRPPFSRVVHLYRNGKDQDGDQAPEYRGRTELLKDAIGEGKVTLRIRNVRFS
DEGGFTCFFRDHSYQEEAAMELKVEDPFYWVSPGVLVLLAVLPVLLLQITVGLVFLCLQY
RLRGKLRAEIENLHRTFDPHFLRVPCWKITLFVIVPVLGPLVALIICYNWLHRRLAGQFL
EELRNPF
这个序列Q16653是来自Uniprot的。BlastDB是选择human的氨基酸序列,Blsat版本是用2.2.21,Blast程序选择Blastp。结果却没有匹配上,最好一个匹配也才40%的相似性。
BUG的原因分析
当然了,一开始并没有怀疑过Blast版本的问题。
经过一段时间的分析后,慢慢排除掉其它的可能性,最后锁定在Blast版本问题上,拿上面的序列去NCBI做Blastp,并没有发现问题。NCBI的Blast版本是2.2.22,也是目前最新的版目。
另外,在低于2.2.21版本的Blast里也没发现问题(当然只是找了其中一个版本来测试,不可能所有版本都测试)。
所以最终确认,这是Blast2.2.21版本的一个Bug。
未解决的问题?
请注意上面序列的红色字体部分:LVF,把它改为:LIF。再用同样的条件做Blastp,结果完成正确。但V是缬氨酸,是非常常见的一个氨基酸,到处都可见。所以不是非标准密码子的问题。
至少这个BUG的原因,就无从测试起了,只能大概地推测这个V在某些情况下会引起这个BUG。