如何批量下载某物种的EST序列


直接切入正题吧。这篇文章是讲解批量下载某物种的EST序列数据。大体上的思路有几种方法:

  1. 用NCBI的Entrez搜索下载
  2. 用NCBI的FTP下载
  3. 其它二级数据库,专门提供的EST序列下载

这里重要介绍用NCBI的Entrez搜索来下载EST序列。NCBI的FTP嘛,找了半天也没有找到单个物种的EST序列,打包在一起的才有。第三种办法嘛简单提一下PlantGDB网站,植物方面的基因组序列和EST序列比较齐全。

锁定物种:芝麻(sesame,Sesamum indicum)

第一种:用NCBI的Entrez搜索批量下载EST序列(不只是EST哦,其它一样有效的)

用关键词sesame,数据库选Taxonomy(图1)。

用关键词sesame,数据库选Taxonomy
图1, 点击图片放大

得出芝麻的 Taxonomy ID 为 4182(缩写:txid4182)。见图2。从图2右边的Entrez records 可知芝麻的EST序列有3328条。点击 3328 的链接进去。这时自动分配一个关键词:txid4182[Organism:noexp] 等同于 txid4182

芝麻的EST序列有3328条
图2, 点击图片放大

所以以后用这个关键词txid4182,数据库选择EST,就能搜索到芝麻所有的EST序列,选择其它的数据库,当然也是一样能得到芝麻的其它数据。见图3

在Display处选择需要下载的格式(如Fasta),见图3

在Display处选择需要下载的格式
图3 点击图片放大

 

在Send to 处选择File,就是下载全部序列了。见图4

在Send to 处选择File,就是下载全部序列了
图4 点击图片放大

第二种:PlantGDB网站

PlantGDB:植物有关的序列数据等等,收集的植物种类也较多。也提供一些生物信息的分析工具。

网址: http://www.plantgdb.org/

EST序列下载页面:http://www.plantgdb.org/download/download.php?dir=/Sequence/ESTcontig/

收录了196种植物。不过,里面并没有包含芝麻的EST序列。这里只是随带提一下。


10条回应:“如何批量下载某物种的EST序列”

  1. 我当年下载Sus scrofa 全部几百万条EST,这几个方法貌似都不可以,因为数据实在太多了,后来只好用perl脚本了,先下载的GI list 然后根据Gi用perl下载的~~