知道基因名(Symbol)怎样查找基因的序列?


上一次讲解了知道一个酶的英文怎样在NCBI上查找基因?,今天再来讲解另外一种情况,知道了基因名(即Symbol),怎样在NCBI上查找该基因的序列。

Symbol是基因的名称,在文献是可以经常看到的,经常会提到某个基因的基因名。我们就可以用Symbol在NCBI的Gene数据库搜索。但有一点需注意,Symbol是经常会改变的,就是说随着序列的升级,对该基因的研究更加深入,Symbol会改变。但这个基本上不会影响使用,因为NCBI仍然会保留旧的基因名。用旧的Symbol在Gene数据库搜索同样有效。

例如:查找乳腺癌突变基因’TNRC9’的基因序列
1,进入NCBI,选择Gene数据库
2,输入TNRC9
3,结果出来的是Tox3的基因名,再细看就可以知道TNRC9是Tox3的旧Symbol

看下表:
物种(txid)      基因ID          Symbol      别名
10090            244579        Tox3           500-9|BC052044|C230068E13|CAGF9|Tnrc9
9606              27324           TOX3           CAGF9|TNRC9

可知,一个基因ID可以对应多个Symbol。

但这里需要注意,因为Gene数据库的收集的基因都是RefSeq的,所以目前的物种还不是很多。一开始是只有人类的,目前也只是一些科研中常见的物种才有。

例如:要查找绵羊的’SRY’序列。还有绵羊SRY的’HMG-BOX’序列。

这里如果通过Gene数据库是搜索不到的~

这时我们可以选择Nucleotide数据库。

1,用绵羊的英文sheep在NCBI的Taxonomy数据库,搜索绵羊的txid是多少。关于这部分,详细请查看:图文讲解:知道一个酶的英文怎么在NCBI上查找基因?
2,得到绵羊的txid=9940
3,在NCBI的Nucleotide数据库输入SRY txid9940,这个关键词的意思是只在绵羊的数据中查找SRY基因
4,结果非常明显。如:
http://www.ncbi.nlm.nih.gov/nuccore/197295704?ordinalpos=1&itool=EntrezSystem2.PEntrez.Sequence.Sequence_ResultsPanel.Sequence_RVDocSum

http://www.ncbi.nlm.nih.gov/nuccore/197295705?ordinalpos=1&itool=EntrezSystem2.PEntrez.Sequence.Sequence_ResultsPanel.Sequence_RVDocSum
5, 查找绵羊SRY的’HMG-BOX’序列,输入HMG-BOX txid9940
6,直接进入结果页面:http://www.ncbi.nlm.nih.gov/nuccore/1390

最后,你如果拿到了基因的Accession号,可以用我提供的序列查询工具来查序列。如果有建议,感激不尽~

序列查询工具:http://liucheng.name/entrez/


《“知道基因名(Symbol)怎样查找基因的序列?”》 有 8 条评论

    • 这个你原来也懂。噢噢。深不可测嘛。
      大部分的详细信息(功能之类)都有的。信息的详细程度嘛取决于该基因的研究程度。显隐性嘛,好象是没有的。

  1. 经常关注你的博客,现请教一个问题:genebank中NM和NR、NC等基因号是什么意思,根据什么标准分的类,有没有可以分类批量下载的数据库呢?
    多谢!