直接切入正题吧。这篇文章是讲解批量下载某物种的EST序列数据。大体上的思路有几种方法:
- 用NCBI的Entrez搜索下载
- 用NCBI的FTP下载
- 其它二级数据库,专门提供的EST序列下载
这里重要介绍用NCBI的Entrez搜索来下载EST序列。NCBI的FTP嘛,找了半天也没有找到单个物种的EST序列,打包在一起的才有。第三种办法嘛简单提一下PlantGDB网站,植物方面的基因组序列和EST序列比较齐全。
锁定物种:芝麻(sesame,Sesamum indicum)
第一种:用NCBI的Entrez搜索批量下载EST序列(不只是EST哦,其它一样有效的)
用关键词sesame,数据库选Taxonomy(图1)。
得出芝麻的 Taxonomy ID 为 4182(缩写:txid4182)。见图2。从图2右边的Entrez records 可知芝麻的EST序列有3328条。点击 3328 的链接进去。这时自动分配一个关键词:txid4182[Organism:noexp] 等同于 txid4182
所以以后用这个关键词txid4182,数据库选择EST,就能搜索到芝麻所有的EST序列,选择其它的数据库,当然也是一样能得到芝麻的其它数据。见图3
在Display处选择需要下载的格式(如Fasta),见图3
在Send to 处选择File,就是下载全部序列了。见图4
第二种:PlantGDB网站
PlantGDB:植物有关的序列数据等等,收集的植物种类也较多。也提供一些生物信息的分析工具。
EST序列下载页面:http://www.plantgdb.org/download/download.php?dir=/Sequence/ESTcontig/
收录了196种植物。不过,里面并没有包含芝麻的EST序列。这里只是随带提一下。
10条回应:“如何批量下载某物种的EST序列”
谢谢了!
你好专业
希望以后能多向你学习 :qiang:
还有一种方法。那就是利用NCBI上的ebot
ebot你也会,强哦~~ ebot比较复杂一点~~
我大概要下40万条数据,est(pinus),能将你的方法详细告诉我吗?我下的太慢了。谢谢你啊!
找FTP,一般都有打包下载。
:qiang: :qiang: 能多写一些关于NCBI的应用实例吗?
我已经写了挺多的了。你以后有需要来问我,我再写教程。 :lol:
我当年下载Sus scrofa 全部几百万条EST,这几个方法貌似都不可以,因为数据实在太多了,后来只好用perl脚本了,先下载的GI list 然后根据Gi用perl下载的~~
几百万条肯定不行了。
我大概要下40万条数据,est,能将你的方法详细告诉我吗?我下的太慢了。谢谢你啊! [抱拳]