如何在NCBI批量下载GenBank序列

Posted on 04 九月 2009 by 柳城 ,阅读 2,761

GenBank序列很多,有时我们需要批量下载。这里介绍几种办法,如何从NCBI批量下载GenBank序列。有不对的地方,欢迎指正。

批量下载前须知

批量下载前,我们必须先清楚,下载大量的数据,对服务器是一种非常大的挑战。对网络也是一种大的挑战。NCBI的数据都是免费提供下载的,所以你要清楚,尽量不要使用多线程的工具下载,因为你的IP有可能给封;不要太频繁的大批量下载,中间要有间隔(即使是几秒);

1,用NCBI提供的FTP下载

NCBI的FTP地址是:ftp.ncbi.nih.gov。打开后里面有个genbank的目录,里面存放的是所有GenBank的序列和Accession的索引。对里面的格式不明白?没关系,先看看说明文档:ftp.ncbi.nih.gov/genbank/README.genbank

如果要下载现在的Blast库,打开blast目录。

如果要下载基因组序列,进入genomes目录。

全部的目录:

ncftp / > ls
1000genomes/        dbgap/              genomes/            pubchem/            repository/         sra0/
asn1-converters@    entrez/             hapmap/             pubmed/             sequin/             sra1/
blast/              fa2htgs/            mmdb/               ramdisk/            sky-cgh/            tech-reports/
cgap/               genbank/            ncbi-asn1/          README.ftp          snp/                toolbox/
cn3d/               gene/               pub/                RefSeq/             sra/                tpa/

2,用NCBI的工具Batch Entrez批量下载序列

Batch Entrez网址:http://www.ncbi.nlm.nih.gov/sites/batchentrez

用这个工具,要求你有一个文件,里面是一个列表,可以是Accession Number,Gi Number,或是NCBI里其它数据库的各种标识符。文件的格式看例子:example.txt

3,用柳城博客提供的批量下载序列的工具

 中文Entrez序列查询工具http://www.liucheng.name/entrez/

这个工具单个序列的下载也是没问题的。里面也有详情的说明了。这里不再解释。

还有其它的方法??请留言。!

转载请注明 : 来源于 如何在NCBI批量下载GenBank序列 | 柳城

赞助商

18条评论 于 “如何在NCBI批量下载GenBank序列”

  1. 仁心博客 仁心博客 Says:

    抢到沙发了

    [回复]

    Lc.
    Lc. 回复:

    嘿~~我这里的沙发不值钱。但舒服,欢迎。

    [回复]

  2. 老饕 老饕 Says:

    那我抢板凳!哈哈

    [回复]

  3. 陈军 陈军 Says:

    博主:
    非常非常谢谢您为我提供如此方便快捷的服务!
    博主我真心地感激您!
    祝博主天天健康快乐,工作顺利!

    [回复]

  4. 雁南飞雪 雁南飞雪 Says:

    用FTP下载工具可以把整个都下来,我用的是filezilla,只是下下来后不知道怎么检索。

    [回复]

    柳城
    柳城 回复:

    你下载下来后,还要检索? 不懂什么意思~

    [回复]

    雁南飞雪
    雁南飞雪 回复:

    利于我把整个Genbank数据都下下来了,里面的序列数据都是压缩包形式的,哪个压缩包对应的是哪个物种的数据不清楚,例如我要找Arabidopsis_thaliana的所有Genbank数据就找不到。

    [回复]

    柳城
    柳城 回复:

    里面有说明文件的,像README之类的。一般都会有说明。你如要下载Arabidopsis_thaliana
    的基因组序列,在genomes/这个目录更好了。

    [回复]

  5. junqi junqi Says:

    批量下载来的是所有序列都合并到了一个文件里吧,这怎么分开,还是说我哪里出错了?

    [回复]

    柳城
    柳城 回复:

    什么意思啊? 就是都在一个文件里啊

    [回复]

    junqi
    junqi 回复:

    所有序列都合并在一个文件里,那怎么知道哪段是谁的序列啊

    [回复]

    柳城
    柳城 回复:

    你不明白什么叫Fasta格式嘛??

    [回复]

    junqi
    junqi 回复:

    我真不知道。。不好意思

    [回复]

  6. ygc ygc Says:

    Perl的话,bioperl可批量下。
    R的话,ape包亦可。

    [回复]

    柳城
    柳城 回复:

    如果大批量下载的话?不担心给封嘛?

    [回复]

  7. Tank Lao Tank Lao Says:

    原来有这么简单的方法!我还专门用bioperl写了一段代码来解决这个问题。
    http://bioinformatics.dxy.cn/bbs/topic/18474533?ppg=1#18474533

    [回复]

  8. 张强 张强 Says:

    楼主有关于马尔可夫或HMM的软件吗?我怎么找不到也下载不下来?非常谢谢

    [回复]

    柳城
    柳城 回复:

    hmmer,搜一下这个。

    [回复]

Leave a Reply

广告招租

[强] [握手] [可爱] [ok] [呲牙] :) [偷笑] [流泪] [疑问] [亲亲] [擦汗] [得意] [衰] [可怜] [抱拳] [坏笑] more »

无觅相关文章插件,快速提升流量