【生物信息学教程】7.2:基因表达公共数据库

7.2.基因表达公共数据库

数据库用途

(1)基础研究 将来自各种生物的表达数据与其它各种分子生物学数据资源,如经注释的基因组序列、启动子、代谢途径数据库等结合,有助于理解基因调控网络、代谢途径、细胞分化和组织发育。例如,比较未知基因与已知基因表达谱的相似性能帮助推测未知基因的功能。

(2)医学及药学研究 例如,如果特定的一些基因的高表达与某种肿瘤密切相关,可以研究这些或其它有相似表达谱的基因的表达的影响条件,或研究能降低表达水平的化合物(潜在药物)。

(3)诊断研究 通过对数据库数据进行基因表达谱的相似性比较对疾病早期诊断具有临床价值。

(4)毒理学研究 例如,了解大鼠某种基因对特定毒剂的反应可帮助预测人的同源性基因的反应情况。

(5)实验质量控制和研究参考 实验室样本与数据库中标准对照样本比较能找出方法和设备问题。此外,还能提供其他研究者的研究现状,避免重复实验,节约经费。

数据库的特点和难点

目前急需建立标准注释的公共数据库,但这是生物信息学迄今面临的最复杂且富有挑战性的工作之一。主要困难来自对实验条件细节的描述,不精确的表达水平相对定量方法以及不断增长的庞大数据量。

目前所有的基因表达水平定量都是相对的:哪些基因差异表达仅仅是与另外一个实验比较而言,或者与相同实验的另一个基因的相比而言。这种方法不能确定mRNA的拷贝数,转录水平是总的细胞群的平均水平。结果导致采用不同技术进行基因表达的检测,甚至不同实验室采用相同技术,都有可能不能进行比较。对不同来源数据的进行比较有必要采取两个步骤:首先,原始数据应避免任何改动,比如采取数据标准化(data-normalization)的方法。其次,在实验中设计使用标准化的对照探针和样本以便给出参考点至少使来自同一实验平台的数据标准化。

另一难点是对实验条件的描述,解决方法是对实验方法用采用规范化词汇的文件描述:如基因名称,物种,发育阶段,组织或细胞系。还要考虑偶然的不受控制实验因素也可能影响表达:例如空气湿度,甚至实验室的噪音水平。目前建立一种结构能对将来实验设计的所有细节进行描述显然是不可能的。比较现实的解决办法是大部分采用自由文本描述实验,同时尽可能加上有实用价值的结构。DNA芯片实验的标准注释必须采用一致的术语,这有待时间去发展。但目前,就应采用尽可能合理的标准用于DNA芯片数据及其注释。

标准化的基因表达公共数据库要有五类必要的信息:

(1)联系信息:提交数据的实验室或研究人员的信息。

(2)杂交靶探针信息:对阵列上的每个“点”,应有相应的DNA序列在公共数据库中的编号。对cDNA阵列,克隆识别号(如IMAGE clone_id)应给出。

(3)杂交样本:细胞类型和组织来源用标准语言描述。常规诊断病理中使用的组织和组织病理词汇可被采用,还可采用胚胎发育和器官发生中的标准词汇。样本来源种属的分类学名称(如Saccharomyces cerevisiae,Homo sapiens),应当提供。对有些生物体如啮齿类动物和微生物,品系资料需要提供。关于实验中生物体状况的资料,如用药或未用药非常关键,也需提供。“肿瘤与正常”或不同发育阶段也该注明。细胞或生物体的遗传背景或基因型在特定例子中也应是重要的,如酵母基因缺失和转基因鼠。最后,由于组织处理的会引起差别,故应包括相关的详细处理方法。

(4)mRNA转录定量:这方面非常关键,很难通过一组“持家基因”做内参照进行标准化,有关的具体定量方法应提供。

(5)统计学意义:理想地,应经济合理地有足够的次数重复一个实验以便给出基因表达测定的变异情况,最好能提供合理的可信度值。

上述表达数据记录的前两个要求是简单的,第三个要求较困难需有标准术语协议,但这并不只是表达数据的要求,类似的要求已在公共序列数据库或专业化的数据库中得到成功解决。目前基因表达数据最富有挑战性的方面是最后两个方面。

现状和计划

几个大的芯片实验室如斯坦福大学和麻省理工学院Whitehead研究所等,在发展实验室内部数据库;大的商业化芯片公司如Affymetrix, Incyte,GeneLogic,正在开发基于Affymetrix芯片技术平台的商业化基因表达数据库。哈佛大学已经建立了一个的数据库,数据来自几个公共来源并统一格式。宾夕法尼亚大学计算生物学和信息学实验室正在整合描述样本的术语。

目前至少有3个大的公共基因表达数据库项目:美国基因组资源国家中心的GeneX;美国国家生物技术信息中心(NCBI)的Gene Expression Omnibus;欧洲生物信息学研究所(EBI)的ArrayExpress.

欧美专家合作提出有关数据库的初步标准:实验描述和数据表示的标准;芯片数据XML 交换格式;样本描述的术语;标准化、质量控制和跨平台比较;数据查询语言和数据挖掘途径。(http://www.ebi.ac.uk/microarray/)。EBI与德国癌症研究中心正在开发ArrayExpress , 一种与目前推荐标准兼容的基因表达数据库。该数据库将利用来自合作方的的数据,可操作的数据库将于近期建立(http://www.ebi.ac.uk/arrayexpress)。

~未完待续~

下一篇:大规模基因表达谱数据分析方法

1 回复

评论已关闭。