GenBank的序列很多,有时我们需要批量下载。这里介绍几种办法,如何从NCBI批量下载GenBank序列。有不对的地方,欢迎指正。
批量下载前须知
批量下载前,我们必须先清楚,下载大量的数据,对服务器是一种非常大的挑战。对网络也是一种大的挑战。NCBI的数据都是免费提供下载的,所以你要清楚,尽量不要使用多线程的工具下载,因为你的IP有可能给封;不要太频繁的大批量下载,中间要有间隔(即使是几秒);
1,用NCBI提供的FTP下载
NCBI的FTP地址是:ftp.ncbi.nih.gov。打开后里面有个genbank的目录,里面存放的是所有GenBank的序列和Accession的索引。对里面的格式不明白?没关系,先看看说明文档:ftp.ncbi.nih.gov/genbank/README.genbank
如果要下载现在的Blast库,打开blast目录。
如果要下载基因组序列,进入genomes目录。
全部的目录:
ncftp / > ls 1000genomes/ dbgap/ genomes/ pubchem/ repository/ sra0/ asn1-converters@ entrez/ hapmap/ pubmed/ sequin/ sra1/ blast/ fa2htgs/ mmdb/ ramdisk/ sky-cgh/ tech-reports/ cgap/ genbank/ ncbi-asn1/ README.ftp snp/ toolbox/ cn3d/ gene/ pub/ refseq/ sra/ tpa/
2,用NCBI的工具Batch Entrez批量下载序列
Batch Entrez网址:http://www.ncbi.nlm.nih.gov/sites/batchentrez
用这个工具,要求你有一个文件,里面是一个列表,可以是Accession Number,Gi Number,或是NCBI里其它数据库的各种标识符。文件的格式看例子:example.txt
3,用柳城博客提供的批量下载序列的工具
中文Entrez序列查询工具:http://www.liucheng.name/entrez/
这个工具单个序列的下载也是没问题的。里面也有详情的说明了。这里不再解释。
还有其它的方法??请留言。!
《 “如何在NCBI批量下载GenBank序列” 》 有 18 条评论
抢到沙发了
嘿~~我这里的沙发不值钱。但舒服,欢迎。
那我抢板凳!哈哈
博主:
非常非常谢谢您为我提供如此方便快捷的服务!
博主我真心地感激您!
祝博主天天健康快乐,工作顺利!
用FTP下载工具可以把整个都下来,我用的是filezilla,只是下下来后不知道怎么检索。
你下载下来后,还要检索? 不懂什么意思~
利于我把整个Genbank数据都下下来了,里面的序列数据都是压缩包形式的,哪个压缩包对应的是哪个物种的数据不清楚,例如我要找Arabidopsis_thaliana的所有Genbank数据就找不到。
里面有说明文件的,像README之类的。一般都会有说明。你如要下载Arabidopsis_thaliana
的基因组序列,在genomes/这个目录更好了。
批量下载来的是所有序列都合并到了一个文件里吧,这怎么分开,还是说我哪里出错了?
什么意思啊? 就是都在一个文件里啊
所有序列都合并在一个文件里,那怎么知道哪段是谁的序列啊
你不明白什么叫Fasta格式嘛??
我真不知道。。不好意思
Perl的话,bioperl可批量下。
R的话,ape包亦可。
如果大批量下载的话?不担心给封嘛?
原来有这么简单的方法!我还专门用bioperl写了一段代码来解决这个问题。
http://bioinformatics.dxy.cn/bbs/topic/18474533?ppg=1#18474533
楼主有关于马尔可夫或HMM的软件吗?我怎么找不到也下载不下来?非常谢谢
hmmer,搜一下这个。