事实上,在NCBI有很多种办法可以确定某个基因的外显子或者内含子,当然还有UTR区域。今天先介绍着一种,以后有必要再介绍其它的。通过Blast是一种办法,但不够直观,需要判断的条件要多一些,经验也需要多一些。如果条件允许的话,我们可以借助其它一些专门的软件,让事情变得容易。
今天我们来介绍NCBI的其中一个软件,Splign
网址:http://www.ncbi.nlm.nih.gov/sutils/splign (点击online,在线运行)
Splign - is a utility for computing cDNA-to-Genomic alignments based on a variation of the Needleman-Wunsch algorithm combined with Blast for compartment detection and greater performance.
Splign -通过mRNA或EST序列与所在的基因组序列比对,用于单个基因结构图(外显子内含子)显示, 用户每次只能提交一个基因序列。
1,在Gene数据库,填入基因名HNF-4,我一般的话习惯叫Symbol,每个基因都有个Symbol,即基因名。
2,我们来mouse的HNF4基因来作为今天的例子。Symbol会随着版本的升级而变化,当然,以前使用过的基因名也会保留着。而Symbol会对应一个GeneID,无论Symbol如何改变,GeneID是唯一的。这个ID是非常重要的。在这个页面,我们将看到HNF4基因的结构图,从图中给出的信息可以看出,HNF4基因有10个外显子。蓝色部分是UTR区,显示在5'端有一小段序列和3'端有一大段序列是UTR。
3,在HNF-4基因的RefSeq区域,我们将可以看到这个基因的参考序列,有mRNA和基因组的。这个区域不一定每个基因都有。NM_开头的序列都是参考序列。
4,接下来我们进入Splign的online界面(http://www.ncbi.nlm.nih.gov/sutils/splign/splign.cgi?textpage=online&level=form),你可以通过mRNA和基因组的Accession或是它们Fasta格式的序列进行对比,要注意基因组的序列不要太长。推荐直接在下拉框选项里选择,一般常用的生物都在。

5,结果一目了然,10个外显子,而且还显示mRNA以及对应的基因组比对的序列,并且还可以知道某个外显子在mRNA序列上的区域。就连UTR区的序列也知道了。
结束。
OK,今天的教程基本上就搞定了。这只是其中的一种方法。如果你有更好的,欢迎你来一起探讨。如果有什么问题,欢迎留言。









真的很感谢,我之前在NCBI-Nucleotide里找到序列总觉得不太准确,而且和一篇论文里提到的片段不吻合,按您的方法重新找了一遍,谢谢!
[回复]
你好,
为什么我试了好几次都是显示:The maximum length of the subject sequence you can submit online is 75000000 Consider aligning your query online against the whole genome.
比如说人的Trim63这个基因,mRNA比如是NM_032588.2,genomics比如是AC_000044.1,可是就是不行.希望您能回答.谢谢~
[回复]
那是因为你都懒得花时间去看清楚~~上面的文章已经写的很清楚~~不能超过75000000bp,你直接在Whole genome选Homo sapiens就行了.
[回复]
不好意思,看错了,之前以为是基因组序列的长度小于75000000bp,没有看到accession大于75000000bp.
还是谢谢啦
[回复]
博主的博客要狠狠的顶啊,果然是生物信息学的高手~
[回复]
楼主,这个方法怎么没有找到mRNA呢?只有蛋白质啊~
你给看看~
[Top][Help]NCBI Reference Sequences (RefSeq)
Genome Annotation
The following sections contain reference sequences that belong to a specific genome build. Explain
This section includes genomic Reference Sequences (RefSeqs) from all assemblies on which this gene is annotated, such as RefSeqs for chromosomes and scaffolds (contigs) from both reference and alternate assemblies. Model RNAs and proteins are also reported here.
mRNA and Protein(s)
YP_001574526.1 staphylococcal accessory regulator A [Staphylococcus aureus subsp. aureus USA300_TCH1516]
UniProtKB/TrEMBL A8Z126
Conserved Domains (1) summary cl00088
Location:10 – 116
Blast Score: 236 HTH_ARSR; Arsenical Resistance Operon Repressor and similar prokaryotic, metal regulated homodimeric repressors. ARSR subfamily of helix-turn-helix bacterial transcription regulatory proteins (winged helix topology). Includes several proteins that appear to...
[回复]
搞错了吧... 这方法又不是查mrna的??
不懂啥意思~
[回复]