(译文)NCBI发布版本37的人类基因组序列


原标题:The Genome Reference Consortium Human Genome Build 37 now Available。其中“The Genome Reference Consortium”,找了好久都找不到正确的翻译。按我的理解,可译为基因组参照序列联盟(The Genome Reference Consortium,简称GRC)。

 在2009年8月份,NCBI发布了版本37的人类基因组序列(build 37 of the human genome)。这个版本包含了由GRC提供的新测序的序列和新组装的序列。

 GRC联盟

 GRC联盟是由英国Wellcome Trust Sanger研究中心(the Wellcome Trust Sanger Center)、华盛顿大学基因组中心(The Washington University Genome Center)、欧洲生物信息研究所(the European Bioinformatics Institute)和美国国家生物技术信息中心(NCBI)联合组成。

 Human Genome Build 37

 GRC的目标是要修正那些不能装配或是错位的区域,努力让目前存的染色体序列的gaps消失。版本37(Build 37),或是称之为GRCh37,在版本36的基础上,更新了人类基因组的所有染色体,接合了25处序列的gaps,修正超过了150处有问题的序列,并且加了9个alternate loci。

 关于GRC的详细信息,你可以访问GRC的首页:

http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/human/

 通过NCBI的数据库和工具,如the Entrez system, the graphical sequence viewer, the Map Viewer, and the NCBI Web BLAST services等,也可以很容易找到这些序列的注释信息。

 GRCh37 Sequences at NCBI

 最初组装好的染色体序列的命令为:accession号 从CM000663CM000686。包含了22条常染色体,再加上X和Y性染色体。另外的9个alternate loci来自:

 the UDP glucuronosyltransferase 2, polypeptide B17 gene (UGT2B17) on chromosome 4 (accession GL000257); the Major Histocompatibility Complex (MHC) on chromosome 6 (accessions GL000250 through GL000256); and the microtubule-associated protein tau (MAPT) gene on chromosome 17 (accession GL000258).

注:染色体4的UGT2B17(accession GL000257)、染色体6的主要组织相容性复合体(accessions从 GL000250GL000256)、和染色体17的微管结合蛋白基因(accession GL000258

 NCBI在此基础上,经过专家注释了31个参照序列(The NCBI genome annotation pipeline has created a corresponding set of 31 reference sequences (RefSeqs)),下面表1列出了GRCh37在RefSeq和Genbank数据库之间的相互关系。

Table 1:

Correspondence of GenBank, RefSeq accession numbers, and assembled sequences for the GRCh37 reference genome.(GRCh37的RefSeq的accession号和Genbank的accession号的一一对应)

GenBank Accession

RefSeq Accession

Description

CM000663

NC_000001

Chromosome 1

CM000664

NC_000002

Chromosome 2

CM000665

NC_000003

Chromosome 3

CM000666

NC_000004

Chromosome 4

CM000667

NC_000005

Chromosome 5

CM000668

NC_000006

Chromosome 6

CM000669

NC_000007

Chromosome 7

CM000670

NC_000008

Chromosome 8

CM000671

NC_000009

Chromosome 9

CM000672

NC_000010

Chromosome 10

CM000673

NC_000011

Chromosome 11

CM000674

NC_000012

Chromosome 12

CM000675

NC_000013

Chromosome 13

CM000676

NC_000014

Chromosome 14

CM000677

NC_000015

Chromosome 15

CM000678

NC_000016

Chromosome 16

CM000679

NC_000017

Chromosome 17

CM000680

NC_000018

Chromosome 18

CM000681

NC_000019

Chromosome 19

CM000682

NC_000020

Chromosome 20

CM000683

NC_000021

Chromosome 21

CM000684

NC_000022

Chromosome 22

CM000685

NC_000023

Chromosome X

CM000686

NC_000024

Chromosome Y

GL000250

NT_167244

MHC Region (ALT_REF_LOCI_1)

GL000251

NT_113891

MHC Region (ALT_REF_LOCI_2)

GL000252

NT_167245

MHC Region (ALT_REF_LOCI_3)

GL000253

NT_167246

MHC Region (ALT_REF_LOCI_4)

GL000254

NT_167247

MHC Region (ALT_REF_LOCI_5)

GL000255

NT_167248

MHC Region (ALT_REF_LOCI_6)

GL000256

NT_167249

MHC Region (ALT_REF_LOCI_7)

GL000257

NT_167250

UGT2B17 Region (ALT_REF_LOCI_8)

GL000258

NT_167251

MAPT Region (ALT_REF_LOCI_9)

在NCBI检索CRCh37的序列

 直接在NCBI的Entrez检索系统,用关键词GRCh37[Title],返回的结果就是全部的GRCh37记录,目前全部有564个记录。

 例如图1显示了染色体4(NC_000004)的记录。序列比较短时,用过这个界面来查看就比较方便的,但有时序列太长(如染色体的全长序列),这样的显示是非常困难的。这时,你可以点击Format中的Graphics,转用NCBI的the graphical sequence viewer工具来查看。

 Figure 1: Chromosome 4 record from the GRCh37 primary reference assembly

Figure 1: Chromosome 4 record from the GRCh37 primary reference assembly. Top panel. The GenBank record display in Entrez showing the controls that allow changing features and sequence options. The “Graphics report” option at the top of the page provides access to the graphical sequence viewer. Bottom panel. The UGT2B17 region of chromosome 4 in the graphical sequence viewer. The alternate locus for this region is the null allele for UGT2B17. 

Summary

最后是Summary,这个就懒得翻译了,原文放出。

The genome reference consortium (GRC) build 37 provides a more accurate and improved representation of the human genome by correcting errors, closing gaps, and providing alternate representations of structurally variant regions. The GRC itself, a collaboration among sequencing centers and bioinformatics resource and analysis centers such as the NCBI, will continue to provide the most up to date and accurate sequence and annotation for the reference human genome as additional data and analysis alter the view of the genome. The NCBI Website will continue to offer improved and more powerful visualization and analysis tools for investigating the human genome.

 更详细的内容,请查看原文:Featured Resource: The Genome Reference Consortium Human Genome Build 37 now Available(NCBI News, September 2009)

 ~!完


《“(译文)NCBI发布版本37的人类基因组序列”》 有 11 条评论

      • 别把我想得这么高,我以前高中选修是生物的,对生物也挺有兴趣的,后来大学选择了计算机。
        现在跟计算机的工作还有点关系吧~

        • 恩。你的博客都是IT的。很强大了。以后多去学习~
          难道你是在佛山? /疑问

  1. 还想问问人类基因组到底有到少个版本呢?
    hg18 hg19 和Build37 36 有什么区别呢?

    • hg是UCSC组装的。
      build是NCBI组装的。

      hg18 = build 36 ##这个很sure.

      hg19 = build 37 ##这个我猜的。

  2. 我设计PCR mRNA的引物,为什么我引物blast的结果,选mRNA时就是我引物设计的目标基因,而选genome时就blast出GRCh37这个来。那说明是不是我的引物不能用啊。