图解:如何在NCBI上找到HNF-4基因第4个外显子的序列


事实上,在NCBI有很多种办法可以确定某个基因的外显子或者内含子,当然还有UTR区域。今天先介绍着一种,以后有必要再介绍其它的。通过Blast是一种办法,但不够直观,需要判断的条件要多一些,经验也需要多一些。如果条件允许的话,我们可以借助其它一些专门的软件,让事情变得容易。

今天我们来介绍NCBI的其中一个软件,Splign
网址:http://www.ncbi.nlm.nih.gov/sutils/splign (点击online,在线运行)

Splign – is a utility for computing cDNA-to-Genomic alignments based on a variation of the Needleman-Wunsch algorithm combined with Blast for compartment detection and greater performance.
Splign -通过mRNA或EST序列与所在的基因组序列比对,用于单个基因结构图(外显子内含子)显示, 用户每次只能提交一个基因序列。

1,在Gene数据库,填入基因名HNF-4,我一般的话习惯叫Symbol,每个基因都有个Symbol,即基因名。

如何在NCBI上找到HNF-4基因第4个外显子的序列

2,我们来mouse的HNF4基因来作为今天的例子。Symbol会随着版本的升级而变化,当然,以前使用过的基因名也会保留着。而Symbol会对应一个GeneID,无论Symbol如何改变,GeneID是唯一的。这个ID是非常重要的。在这个页面,我们将看到HNF4基因的结构图,从图中给出的信息可以看出,HNF4基因有10个外显子。蓝色部分是UTR区,显示在5’端有一小段序列和3’端有一大段序列是UTR。

如何在NCBI上找到HNF-4基因第4个外显子的序列_2

3,在HNF-4基因的RefSeq区域,我们将可以看到这个基因的参考序列,有mRNA和基因组的。这个区域不一定每个基因都有。NM_开头的序列都是参考序列。

如何在NCBI上找到HNF-4基因第4个外显子的序列_3

4,接下来我们进入Splign的online界面(http://www.ncbi.nlm.nih.gov/sutils/splign/splign.cgi?textpage=online&level=form),你可以通过mRNA和基因组的Accession或是它们Fasta格式的序列进行对比,要注意基因组的序列不要太长。推荐直接在下拉框选项里选择,一般常用的生物都在。

如何在NCBI上找到HNF-4基因第4个外显子的序列_4

5,结果一目了然,10个外显子,而且还显示mRNA以及对应的基因组比对的序列,并且还可以知道某个外显子在mRNA序列上的区域。就连UTR区的序列也知道了。

如何在NCBI上找到HNF-4基因第4个外显子的序列_5

结束。

OK,今天的教程基本上就搞定了。这只是其中的一种方法。如果你有更好的,欢迎你来一起探讨。如果有什么问题,欢迎留言。


19条回应:“图解:如何在NCBI上找到HNF-4基因第4个外显子的序列”

  1. 真的很感谢,我之前在NCBI-Nucleotide里找到序列总觉得不太准确,而且和一篇论文里提到的片段不吻合,按您的方法重新找了一遍,谢谢!

  2. 你好,
    为什么我试了好几次都是显示:The maximum length of the subject sequence you can submit online is 75000000 Consider aligning your query online against the whole genome.
    比如说人的Trim63这个基因,mRNA比如是NM_032588.2,genomics比如是AC_000044.1,可是就是不行.希望您能回答.谢谢~

    • 那是因为你都懒得花时间去看清楚~~上面的文章已经写的很清楚~~不能超过75000000bp,你直接在Whole genome选Homo sapiens就行了.

      • 不好意思,看错了,之前以为是基因组序列的长度小于75000000bp,没有看到accession大于75000000bp.
        还是谢谢啦

  3. 博主的博客要狠狠的顶啊,果然是生物信息学的高手~ [强]

  4. 楼主,这个方法怎么没有找到mRNA呢?只有蛋白质啊~
    你给看看~
    [Top][Help]NCBI Reference Sequences (RefSeq)
    Genome Annotation
    The following sections contain reference sequences that belong to a specific genome build. Explain

    This section includes genomic Reference Sequences (RefSeqs) from all assemblies on which this gene is annotated, such as RefSeqs for chromosomes and scaffolds (contigs) from both reference and alternate assemblies. Model RNAs and proteins are also reported here.

    mRNA and Protein(s)
    YP_001574526.1 staphylococcal accessory regulator A [Staphylococcus aureus subsp. aureus USA300_TCH1516]

    UniProtKB/TrEMBL A8Z126
    Conserved Domains (1) summary cl00088
    Location:10 – 116
    Blast Score: 236 HTH_ARSR; Arsenical Resistance Operon Repressor and similar prokaryotic, metal regulated homodimeric repressors. ARSR subfamily of helix-turn-helix bacterial transcription regulatory proteins (winged helix topology). Includes several proteins that appear to…

  5. 想请教个问题。NM_008261是这个基因的mRNA序列,BC039220
    是它的cDNA序列,为什么这2个序列是一模一样的呢。谢谢

  6. 仁兄 你好!看了你的文章颇多感慨!!!但不知怎么还是查不清楚啊!!谢谢指导了!
    帮我查下 人的(human)AQP4的5个外显子中的 第1号 第5号这两个外显子的基因系列 我要拿目的基因送出去叫公司帮忙设计引物 谢谢你了!我做的课题是视神经脊髓炎的AQP4基因外显子区域的SNP位点研究 只选做1号 5号外显子,再次谢谢了!!!希望能答复。

  7. 想请问cDNA和mRNA有区别吗?
    Genomic参考序列如何获得?
    我目的基因是serpinf1人类,在genbank中查找Genomic结果进行splign总是提示错误,谢谢

  8. 楼主太牛了。谢谢了。希望从你这里能够学到更多的好东西。

  9. 我做的是人类PAX6基因,用楼主的方法查找外显子的时候,发现在RefSeq区域有7个参考序列,并且用不同的参考序列查找出来的外显子序列不一样,求助这是为什么?我应该选择哪一个呢?