上一次讲解了知道一个酶的英文怎样在NCBI上查找基因?,今天再来讲解另外一种情况,知道了基因名(即Symbol),怎样在NCBI上查找该基因的序列。
Symbol是基因的名称,在文献是可以经常看到的,经常会提到某个基因的基因名。我们就可以用Symbol在NCBI的Gene数据库搜索。但有一点需注意,Symbol是经常会改变的,就是说随着序列的升级,对该基因的研究更加深入,Symbol会改变。但这个基本上不会影响使用,因为NCBI仍然会保留旧的基因名。用旧的Symbol在Gene数据库搜索同样有效。
例如:查找乳腺癌突变基因’TNRC9’的基因序列
1,进入NCBI,选择Gene数据库
2,输入TNRC9
3,结果出来的是Tox3的基因名,再细看就可以知道TNRC9是Tox3的旧Symbol
看下表:
物种(txid) 基因ID Symbol 别名
10090 244579 Tox3 500-9|BC052044|C230068E13|CAGF9|Tnrc9
9606 27324 TOX3 CAGF9|TNRC9
可知,一个基因ID可以对应多个Symbol。
但这里需要注意,因为Gene数据库的收集的基因都是RefSeq的,所以目前的物种还不是很多。一开始是只有人类的,目前也只是一些科研中常见的物种才有。
例如:要查找绵羊的’SRY’序列。还有绵羊SRY的’HMG-BOX’序列。
这里如果通过Gene数据库是搜索不到的~
这时我们可以选择Nucleotide数据库。
1,用绵羊的英文sheep在NCBI的Taxonomy数据库,搜索绵羊的txid是多少。关于这部分,详细请查看:图文讲解:知道一个酶的英文怎么在NCBI上查找基因?
2,得到绵羊的txid=9940
3,在NCBI的Nucleotide数据库输入SRY txid9940,这个关键词的意思是只在绵羊的数据中查找SRY基因
4,结果非常明显。如:
http://www.ncbi.nlm.nih.gov/nuccore/197295704?ordinalpos=1&itool=EntrezSystem2.PEntrez.Sequence.Sequence_ResultsPanel.Sequence_RVDocSum
http://www.ncbi.nlm.nih.gov/nuccore/197295705?ordinalpos=1&itool=EntrezSystem2.PEntrez.Sequence.Sequence_ResultsPanel.Sequence_RVDocSum
5, 查找绵羊SRY的’HMG-BOX’序列,输入HMG-BOX txid9940
6,直接进入结果页面:http://www.ncbi.nlm.nih.gov/nuccore/1390
最后,你如果拿到了基因的Accession号,可以用我提供的序列查询工具来查序列。如果有建议,感激不尽~
序列查询工具:http://liucheng.name/entrez/
《“知道基因名(Symbol)怎样查找基因的序列?”》 有 8 条评论
只有序列号吗?有没有该基因的功能介绍、显隐性之类的数据呢?
这个你原来也懂。噢噢。深不可测嘛。
大部分的详细信息(功能之类)都有的。信息的详细程度嘛取决于该基因的研究程度。显隐性嘛,好象是没有的。
经常关注你的博客,现请教一个问题:genebank中NM和NR、NC等基因号是什么意思,根据什么标准分的类,有没有可以分类批量下载的数据库呢?
多谢!
refseq 命名~
http://liucheng.name/379/
想怎样分类啊~~ NCBI里都可以的吧.
http://liucheng.name/379/
看到,受教了,多谢!
[…] 1, 登陆NCBI,选择Taxonomy用关键词yeast搜索。这里的就不多讲了,不明白的话就看一下以前的一些教程就可以啦,例:知道一个酶的英文怎么在NCBI上查找基因?、知道基因名(Symbol)怎样查找基因的序列? […]
你学的还真多啊 啊! [偷笑]
路过来看一下,随便给大家代来一个网站,http://www.jinhaoshiyan.com/