【生物信息学教程】7.3:大规模基因表达谱数据分析方法


7.3.大规模基因表达谱数据分析方法

芯片分析能够检测不同条件下的基因转录变化,能够显示反映特征组织类型、发育阶段、环境条件应答、遗传改变的基因谱。当芯片数据大量出现,产生了新的问题:如果将所有获得的数据集中起来,我们能否将未知功能的新基因归类到已知功能分类中?能否将基因表达与基因功能联系起来?能否发现新类型的共调控基因?能否从芯片表达数据中得出完整的基因调控网络?这些唯有通过计算的方法。

基因制图及测序所面临的问题与大规模基因表达分析的数学问题相比要小的多。这种新类型的表达数据使我们直接面对生物系统和基因组水平功能的复杂性,从生物系统单个成分的定性发展到完整生物系统行为的描述上来,这方面困难很多,目前只有很少的分析工具。

聚类分析(clustering analysis)是大规模基因表达谱目前最广泛使用的统计技术,最近又发展了一种机器学习方法-支持向量机(support vector machines,SVMs)。这些分析方法均处在研究的初级阶段,随着大量数据及标准化数据库的出现,其它数据挖掘技术包括神经网络和遗传算法将在基因表达数据分析中得到应用。

聚类分析

聚类通过把目标数据放入少数相对同源的组或“类”(cluster)里。分析表达数据,(1)通过一系列的检测将待测的一组基因的变异标准化,然后成对比较线性协方差。(2)通过把用最紧密关联的谱来放基因进行样本聚类,例如用简单的层级聚类(hierarchical clustering)方法。这种聚类亦可扩展到每个实验样本,利用一组基因总的线性相关进行聚类。(3)多维等级分析(multidimensional scaling analysis,MDS)是一种在二维Euclidean “距离”中显示实验样本相关的大约程度。(4)K-means方法聚类,通过重复再分配类成员来使“类”内分散度最小化的方法。

聚类方法有两个显著的局限:首先,要聚类结果要明确就需分离度很好(well-separated)的数据。几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类。但是,如果类是扩散且互相渗透,那么每种算法的的结果将有点不同。结果,每种算法界定的边界不清,每种聚类算法得到各自的最适结果,每个数据部分将产生单一的信息。为解释因不同算法使同样数据产生不同结果,必须注意判断不同的方式。对遗传学家来说,正确解释来自任一算法的聚类内容的实际结果是困难的(特别是边界)。最终,将需要经验可信度通过序列比较来指导聚类解释。

第二个局限由线性相关产生。上述的所有聚类方法分析的仅是简单的一对一的关系。因为只是成对的线性比较,大大减少发现表达类型关系的计算量,但忽视了生物系统多因素和非线性的特点。

斯坦福大学的Michael Eisen开发的Windows平台免费芯片数据分析软件CLUSTER和TREEVIEW,采用配对平均连锁(pairwise average-linkage)聚类分析。这种方法中,每个不同的基因与其它的基因比较,鉴定最相关的基因对。这种基因对的数据用平均数替代,再重新计算关系矩阵,不断重复这个过程。TREEVIEW对CLUSTER计算结果进行图形输出,将芯片中的每个基因的表达比值用彩色方块表示。

尽管CLUSTER软件易于使用且直观,但其算法仍有缺陷之处:实际数据由每次重复的平均数据替代;相似性测定的选择(相关性/Eluclidean距离);将等级模型用于非等级过程;成对比较矩阵的计算负担。因此,出现了其它方法,包括自组织图(self organizing maps,SOMs),二进制决定-退火算法(binary deterministic-annealing algorithm),k-means聚类等。Tamayo等提供Windows平台的SOMs软件包。

CLUSTER和TREEVIE下载网址:http://www.genome.standford.edu

基于知识挖掘的机器学习方法

最近发展了一种的有监督的机器学习方法-支持向量机(support vector machines,SVMs)来分析表达数据,它通过训练一种“分类器”来辨识与已知的共调控基因表达类型相似的的新基因。与经典的无监督聚类方法(unsupervised clustering)和自组织图(self-organizing maps)不同,该方法建立在已有的知识上并有改进现有知识的潜力。

无监督的聚类方法,例如层级(hierarchical)和K-means聚类,假设每个基因仅属于一“类”(cluster)。这在生物学意义上当然不是真实的。而且,事实上同一类基因不是必然意味着有相似的表达类型。比如,k-means聚类方法事先指定产生的“类”的数量及并将每个基因放在其最优“类”,并不总是有意义。需要对类(cluster)进行质量评价,“类”的“严谨性”和外围基因的存在(如果存在,它们与下一类的接近度)以及一组核心特征基因应在质量上保证。最重要的是应考虑“类”是否有生物学意义。

与无监督的方法产生基因的“类”相比,有监督的学习方法是向已知的“类”学习。训练者必须提供SVMs以每个“类”正反两方面的例子。SVMs提供一种层级的方法来分析芯片数据。首先,对每个基因,应询问最近的邻居是否它与它们的关系是有生物学意义的。其次,对已知共调控基因,应该询问它们的表达类型是否相似,如果是这样,还有哪些其它的基因有相同类型。这些在监督阶段可通过SVMs或优化的SOMs来判断。第三,应该通过无监督的学习方法进行基因分类并询问是否聚类有生物学意义并且包括外围基因。最后,“类”可通过每个无监督的“类”的核心基因训练SVMs的方法来检测和优化。

可视化

大规模基因表达数据挖掘另一重要方面是发展有力的数据可视化方法和工具。已经发展了用简单图形显示提供聚类结果的途径,如上述的TREEVIEW软件。对大规模基因表达原始数据的进行不失真的可视化并链接的标注过的序列数据库,可为基因表达分析提供非常有价值的工具,有助于从新的视角看待基因组水平的转录调控并建立模型。

~未完待续~

下一篇:基因组水平蛋白质功能综合预测