如何在NCBI批量下载GenBank序列


GenBank的序列很多,有时我们需要批量下载。这里介绍几种办法,如何从NCBI批量下载GenBank序列。有不对的地方,欢迎指正。

批量下载前须知

批量下载前,我们必须先清楚,下载大量的数据,对服务器是一种非常大的挑战。对网络也是一种大的挑战。NCBI的数据都是免费提供下载的,所以你要清楚,尽量不要使用多线程的工具下载,因为你的IP有可能给封;不要太频繁的大批量下载,中间要有间隔(即使是几秒);

1,用NCBI提供的FTP下载

NCBI的FTP地址是:ftp.ncbi.nih.gov。打开后里面有个genbank的目录,里面存放的是所有GenBank的序列和Accession的索引。对里面的格式不明白?没关系,先看看说明文档:ftp.ncbi.nih.gov/genbank/README.genbank

如果要下载现在的Blast库,打开blast目录。

如果要下载基因组序列,进入genomes目录。

全部的目录:

ncftp / > ls
1000genomes/        dbgap/              genomes/            pubchem/            repository/         sra0/
asn1-converters@    entrez/             hapmap/             pubmed/             sequin/             sra1/
blast/              fa2htgs/            mmdb/               ramdisk/            sky-cgh/            tech-reports/
cgap/               genbank/            ncbi-asn1/          README.ftp          snp/                toolbox/
cn3d/               gene/               pub/                refseq/             sra/                tpa/

2,用NCBI的工具Batch Entrez批量下载序列

Batch Entrez网址:http://www.ncbi.nlm.nih.gov/sites/batchentrez

用这个工具,要求你有一个文件,里面是一个列表,可以是Accession Number,Gi Number,或是NCBI里其它数据库的各种标识符。文件的格式看例子:example.txt

3,用柳城博客提供的批量下载序列的工具

 中文Entrez序列查询工具:http://www.liucheng.name/entrez/

这个工具单个序列的下载也是没问题的。里面也有详情的说明了。这里不再解释。

还有其它的方法??请留言。!


《 “如何在NCBI批量下载GenBank序列” 》 有 18 条评论

  1. 博主:
    非常非常谢谢您为我提供如此方便快捷的服务!
    博主我真心地感激您!
    祝博主天天健康快乐,工作顺利!

  2. 用FTP下载工具可以把整个都下来,我用的是filezilla,只是下下来后不知道怎么检索。

      • 利于我把整个Genbank数据都下下来了,里面的序列数据都是压缩包形式的,哪个压缩包对应的是哪个物种的数据不清楚,例如我要找Arabidopsis_thaliana的所有Genbank数据就找不到。

        • 里面有说明文件的,像README之类的。一般都会有说明。你如要下载Arabidopsis_thaliana
          的基因组序列,在genomes/这个目录更好了。

  3. 批量下载来的是所有序列都合并到了一个文件里吧,这怎么分开,还是说我哪里出错了?