GenBank数据库格式的详细说明


GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。每个记录代表了一个单独的、连续的、带有注释的DNARNA片段。这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照生成这些序列数据的技术方法划分。目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。这些作者将序列数据作为论文的一部分来发表,或将数据直接公开。GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心建立,与日本DNA数据库(DDBJ)以及欧洲生物信息研究院的欧洲分子生物学实验室核苷酸数据库(EMBL)一起,都是国际核苷酸序列数据库合作的成员。所有这三个中心都可以独立地接受数据提交,而三个中心之间则逐日交换信息,并制作相同的充分详细的数据库向公众开放(虽然格式上有细微的差别,并且所使用的信息系统也略有不同)。

GenBank数据库格式的详细说明

http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

EMBL和GenBank数据库格式的对比

EMBL GenBank 含义
ID LOCUS 序列名称
DE DEFINITION 序列简单说明
AC ACCESSION 序列编号
SV VERSION 序列版本号
KW KEYWORDS 与序列相关的关键词
OS SOURCE 序列来源的物种名
OC ORGANISM 序列来源的物种学名和分类学位置
RN REFERENCE 相关文献编号,或递交序列的注册信息
RA AUTHORS 相关文献作者,或递交序列的作者
RT TITLE 相关文献题目
RL JOURNAL 相关文献刊物杂志名,或递交序列的作者单位
RX MEDLINE 相关文献 Medline引文代码
RC REMARK 相关文献注释
RP 相关文献其它注释
CC COMMENT 关于序列的注释信息
DR 相关数据库交叉引用号
FH FEATURES 序列特征表起始
FT 序列特征表子项
SQ BASE COUNT 碱基种类统计数
空格 ORIGIN 序列