如何在NCBI等网站下载拟南芥的全基因组序列?


一开始接触生物信息学时,首先接触的就是拟南芥的序列,对这个还是比较有些怀念的。现在每天接触的都是人和老鼠的序列。

NCBI基因组的页面是:http://www.ncbi.nlm.nih.gov/Genomes/,这里列出了一些生物的全基因组资源。基本上算是齐全的了。

Arabidopsis thaliana (mouse-ear cress)

8.1

 

September 29, 2008

拟南芥基因组的更新日期为08/29/2008,现在的版本是8.1,忘记了我刚接触时的版本是多少了。~

NCBI的FTP下载地址:ftp://ftp.ncbi.nih.gov/genomes/Arabidopsis_thaliana/ (有5条染色体的序列在里面:CHR_ICHR_V

arabidopsis_thaliana

The TAIR8 release contains 27,235 protein coding genes, 4759 pseudogenes or transposable elements and 1288 ncRNAs (33,282 genes in all, 38,963 gene models).

如果你要了解更详细的信息,可以进入拟南芥的官方网站:http://www.arabidopsis.org/

FTP下载地址:ftp://ftp.arabidopsis.org/home/tair/Sequences/whole_chromosomes/ 

另外,因为下载的这些染色体全序列,单个文件都挺大。一般都要几十M,如果是全基因组放在一起,100M想打开都困难。特别是在Windows下,一大麻烦。想当初我就是为这个愁苦了。当时一个基因组文件300多M,一打开电脑就死机了。

推荐一个软件:EditPlus 汉化版(http://www.crsky.com/soft/1578.html),装好后对着文件点鼠标右键就明白了。打开一些大文件还是挺好用的。当然了,文件在100M以内的话应该都问题不大,取决于你电脑的性能了。如果文件真的太大,在Windows下打开都是比较困难的,这时用linux就非常不错了。如果你有用linux,还是推荐用这个吧,你可以用more命令来查看。好用,节省你好多时间。

OK,就介绍到这里吧,欢迎一起探讨。有什么问题,欢迎到留言本留言:http://www.liucheng.name/?page_id=135

只要在我能力范围内,尽量为大家解答,为刚学生物信息学的朋友提供一些经验。~:)


《 “如何在NCBI等网站下载拟南芥的全基因组序列?” 》 有 3 条评论

  1. 你好,我想依照拟南芥基因在5条染色体上的物理位置信息作一个基因在染色体上的位置图,但是不知道拟南芥的每条染色体长度及着丝点所在的物理位置,你知道在哪个数据库可以查到么?谢谢