文章

快速提取序列的Perl脚本

是这么回事的,整理一下一些有用的提问。感谢大家的提问。

网友sun:

我从miRbase数据库下载到了,matrue.fa,即里面有测出来的物种的成熟miRNA,里面有human 我想用perl把human的提出来另外存到一个文件.这是其中人的一条的
>hsa-miR-96 MIMAT0000095 Homo sapiens miR-96
UUUGGCACUAGCACAUUUUUGCU
怎么把所有的都提出来.
ps:正则表达式不是这个$s=~/^>hsa/期待你的回信.

阅读更多

如何在NCBI批量下载GenBank序列

GenBank的序列很多,有时我们需要批量下载。这里介绍几种办法,如何从NCBI批量下载GenBank序列。有不对的地方,欢迎指正。

批量下载前须知

批量下载前,我们必须先清楚,下载大量的数据,对服务器是一种非常大的挑战。对网络也是一种大的挑战。NCBI的数据都是免费提供下载的,所以你要清楚,尽量不要使用多线程的工具下载,因为你的IP有可能给封;不要太频繁的大批量下载,中间要有间隔(即使是几秒); 阅读更多

Uniprot,GO,GenBank,IPI等ID的一一对应

上次讲解了NCBI各种的ID号的一一对应,比方说:accession number、gi、geneid、symbol、go、unigene、pubmed、taxid等等。事实大部分数据库都会有提供一些专门的文件或工具来实现这些数据间大批量的一一对应。

详情请看如何在NCBI实现大批量数据的一一对应

现在再提供一下关于Uniprot,GO,GenBank,IPI等ID的一一对应。详细的用法还是看上面。下面只是提供在EBI和GO的FTP地址。

下面是方法:

阅读更多

graphics

Bioperl:把Genbank格式的序列转换为基因结构图

下面是一个Bioperl的小程序,可以把Genbank格式的序列转换为png图片-基因结构图,显示序列的长度,CDS区,exon区,STS区等。简单地讲就是把该序列的Genbank格式里的信息用图片表示。 这个程序来源于网络。

下面举个例子,以NM_172587为例。 阅读更多

DDBJ/EMBL/GenBank Accession的命名规则

The format for GenBank Accession numbers are:

GenBank Accession numbers命名的规则是:

Nucleotide: 1 letter + 5 numerals OR 2 letters + 6 numerals 1个字母+5个数字 或 2个字母+6位数字 
Protein: 3 letters + 5 numerals 3个字母+5位数字
WGS: 4 letters + 2 numerals for WGS assembly version + 6-8 numerals 4个字母+2位数字+WGS的版本+6-8位数字
MGA: 5 letters + 7 numerals 5个字母+7位数字

阅读更多

GenBank序列修订版历史查询工具

NCBI提供了一个序列修订版历史查询的工具。用序列的GI Number或Accession Number,通过这个工具就能查到该序列的历史记录,最早提交的时间,修订的时间等等。非常的棒。 阅读更多

GenBank数据库格式的详细说明

GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。每个记录代表了一个单独的、连续的、带有注释的DNARNA片段。这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照生成这些序列数据的技术方法划分。 阅读更多