生物信息学基本概念集锦（4）

简则当一个特定蛋白质家族可以被一个高度保守的序列模体标识时，正则表达式的使用就显示其很大的优越性。这种序列模体的长度通常在10-20个氨基酸残基。在这种情况下，利用正则表达式可以很好地识别一些在蛋白质结构或功能上起关键作用的核心序列片段。但是，序列比对结果也经常会给出一些几个残基的短小序列片段，它们既不能用来标识一个特征片段，也不属于某个特定的蛋白质家族。一般认为，这些仅有几个残基的短小序列片段是蛋白质趋同进化的结果，它们具有许多蛋白质分子都必须具备的一般特性，例如糖基结合位点、磷酸化位点、羟基化位点等。这些短小的序列模体，可能只有3-4个氨基酸残基（表4.4），很难用作识别蛋白质家族的标志。因为序列模体越短，随机匹配概率越大。举个有趣的例子，英语中Dave是David的别名。在OWL蛋白质数据库29.6版本中，有71个序列包含5个残基的序列片段DAVID，却有1088个序列包含4个残基的序列片段DAVE。仅差1个残基，其出现次数相差如此之大。可见，序列模体越短，特异性就越差。因此，试图利用这类短小的序列片段进行蛋白质家族识别是不可靠的。如果没有其它信息补充，仅仅找出3-4个残基的匹配，是不能说明任何问题的。事实上，这些短小的序列模体只能用来推测某个序列是否存在特定的功能位点，而这种推测必须通过实验证实。我们把这些短小的序列模体用一个新名词“简则”（
< 1 > < 2 >

设为首页 | 加入收藏 | 广告服务 | 友情链接 | 版权申明