蛋白质功能预测相关概念介绍

1. 重叠群(contig):
    基因组测序中将许多序列片段经过比对找到重叠区,从而连接成长片段,称重叠连续群,简称重叠群。

2. 序列模体(motif): 
    通常指蛋白序列中相邻或相近的一组具有保守性的残基,与蛋白质分子及家族的功能有关。

3. Smith-Waterman算法:
     1981年,Smith 和Waterman提出的一种用来寻找并比较这些具有局部相似区域的方法,即常用的Smith-Waterman算法,它也是一种基于矩阵的方法,而且也是运用回溯法(backtracking)建立允许空位插入的比对。这个算法的一个重要特征是矩阵中每个单元均可以是比对结果序列片段的终点,该片段的相似性程度由该单元中的分数值表示。

4. 计分矩阵(scoring matrix):
    记分矩阵是描述残基(氨基酸或碱基)在比对中出现的概率值的表。在记分矩阵中的值是两种概率比值的对数,一个是在序列比对中氨基酸随机发生的概率。这个值只是指出每个氨基酸出现的独立几率的概率。另一个是在序列比对中,一对残基的出现的有意义的概率。这些概率来源于已知有效的真实的序列的比对的样本。