相关文章  
  • 石蜡包埋组织的DNA提取及其应用
  • 增加PCR特异性
  • 质粒与载体
  • 电泳技术简介
  • 生物技术讲义
  • 细胞培养基本技术概述
  • 生物信息学基本概念集锦(5)
  • 高效感受态细胞制作
  • 系统生物学面面观[综述]
  • 如何确定RNA质量的经验谈
  •   推荐  
      科普之友首页   专利     科普      动物      植物    天文   考古   前沿科技
     您现在的位置在:  首页>>动物 >>生命科学

    生物信息学基本概念集锦(4)

    (rules)表示,以别于能够用来标识蛋白质家族的正则表达式。表4.4利用正则表达式简则描述蛋白质分子中常见功能位点 功能位点 简则 N-糖基化位点 N-{P}-[SP]-{P} 蛋白激酶C磷酸化位点 [ST]-x-[RK] 酪氨酸激酶II磷酸化位点 [ST]-x(2)-[DE] 天冬氨酸和天冬酰胺羟基化位点 C-x-[DN]-X(4)-[FY]-x-C-x-C 正则表达式是构成PROSITE数据库的基础。因此,上面提到的正则表达式在蛋白质家族识别方面的问题,也会出现在PROSITE数据库中。好在PROSITE已经引进了其它可供选择的识别方法,作为对正则表达式方法的补充。这就是本章稍后将要讨论的序列谱(profiles)方法。模糊匹配正则表达式既然严格的正则表达式有许多难以克服的困难,可否利用一个变通的办法,即模糊匹配,或称模糊正则表达式(Fuzzy regular expressions)。这就需要引入一个描述模糊匹配范围的参数。第三章中曾经介绍过,可以把氨基酸根据生物化学性质分成不同的组,比如F、Y、W都带有芳香族侧链,H、K、R都是碱性氨基酸,而I、L、V、M都是疏水氨基酸等等。利用氨基酸的生物化学性质,可以对表4.3中描述的序列模体进行矫正(表4.5),即模糊正则表达式。显然,这种模糊正则表达式比原始的正则表达式容易形成匹配。表4.5 模糊匹配的正则表达式 参与比对的序列 允许模糊匹配的正则表达式 ADLGAVFALCDRYFQ SDVGPRSCFCERFYQ ADIGQPHSLCERYFQ ADLGRTQNRCDRYYQ [ASGPT]-D-[IVLM]-G-X5-C-[DENQ]-R-[FYW]2-Q eMOTIF系统就是使用这种模糊正则表达式,并把它用作BLOCKS和PRINTS数据库多序列比对时所用的种子序列。从上面的简例不难看出,这样的模式更加宽松,在特定的位点上可以匹配更多的残基。这样就有能力识别进化距离较远的相关序列。当然,这种模糊正则表达式没有解决短小序列片段随机匹配的问题。仍然以DAVID为例,在OWL数据库29.6版中有71个完全匹配的序列(表4.6)。如果我们引入一个模糊位点,如对最后的D放宽限制,允许出现D、E、Q、N中的任意一个残基,就可以在同样的数据库中找到252个匹配序列,如果引入2个模糊位点,将得到925个匹配序列,如果模糊位点达到3个,匹配序列将达到2,739个,如果5个位点都允许模糊匹配,将得到51,506个匹配序列!很明显,序列模体中每个位点允许模糊匹配的同类残基数越多,正则表达式的匹配就越宽松;而且序列模体越短,情况就越糟糕,如PROSITE中常见的3-4个残基的序列片段。表4.6 正则表达式中引入模糊匹配后对数据库搜索结果的影响 正则表达式 满足匹配的序列数 D-A-V-I-D 71 D-A-V-I-[DENQ] 252 [DENQ]-A-V-I-[DENQ] 925 [DENQ]-A-[VLI]-I-[DENQ] 2739 [DENQ]-[AG]-[VLI]2-[DENQ] 51506 D-A-V-E 1088 由于一个正则表达式只能有效表示一个序列中很少一部分信息,利用正则表达式进行二次数据库搜索,检测序列的许多信息必然会被丢弃,有时甚至会得到错误结果。比对序列之间差异越大,正则表达式的模糊性就越大,搜索结果出现随机匹配的可能性也越大。因此,对正则表达式的搜索结果必须仔细加以分析,所得到的匹配序列不一定都有生物学意义,而没有找到匹配的序列并不一定意味着不属于该序列模式所代表的蛋白质家族。前面已经提到,有时可能只有一个残基的差别。总而言之,与正则表达式匹配的不一定是同一家族,而与正则表达式不匹配的却有可能是同一家族。为了改善正则表达式在识别蛋白质家族方面的能力,人们开发了许多更加复杂的方法,以便更好地从浩如烟海的一次数据库中寻找真正有生物学意义的匹配序列。蛋白质序列指纹图谱在多序列比对过程中,经常出现具有一定特征的多个序列模体属于同一蛋白质家族的情况。显然,用多个模体同时识别某个蛋白质家族,其灵敏度必然有所提高。蛋白质序列指纹图谱(Fingerprints)方法就是基于一个序列中的多个乃至全部序列模体,并由此而构建一组描述某个蛋白质家族特征的序列模体。这样,在搜索数据库时,通过未知序列与指纹图谱各部分的匹配程度,就可能找出进化距离较远的同源序列。指纹图谱技术利用其它方法而不是简单的正则表达式判断是否发生匹配。其中一种方法是从多序列比对结果中截取所有保守的序列模体,然后把这些序列模体包含的信息转换成一个分数矩阵,矩阵中的值代表每个氨基酸在模体中某个位点出现的次数。这种打分系统是不带权重的,没有利用突变数据矩阵或模块替换矩阵等附加分值增加识别能力。这种只计氨基酸出现次数的矩阵有一定的局限性,因而并不常用,显然,用较少序列构建的序列模体识别关系较远的同源序列,其结果可能不很理想,因为矩阵的有效元素不够,而且缺乏足够的代表性。尽管如此,这种矩阵在序列指纹图谱技术中仍然发挥了很大作用,PRINTS数据库就是基于序列指纹图谱技术构建的。前面已经提到,创建指纹图谱过程中,识别能力会随着迭代扫描数据库的次数增加而增强。随着更多的序列进入匹配范围,矩阵中所包含的信息量也会随之增加,序列模体的数目也会越来越多,而且越来越完善。换言之,随着新的蛋白质家族成员不断加入,迭代次数不断增加,保守区域不断发生变化,矩阵中各种氨基酸出现的频度越来越高。 以上提到的序列指纹图谱矩阵均不带权重,下面介绍怎样给氨基酸残基赋权重值。例如,用PAM分数矩阵给任意两个氨基酸残基之间的匹配赋予某个分值。这样构建的权重矩阵识别能力更高,可以检测出远源相关的序列。用PAM矩阵加权后,原有稀疏矩阵中非0元素大量增加,上述权重矩阵用于数据库搜索,噪音水平会有所增加,而特异性降低,进化距离较远的相关序列因此而得到较高的分值,但也不可避免地引入随机匹配。一个在未经加权的序列指纹图谱中不可能出现的残基在权重矩阵中可能具有较高的分值。因为权重矩阵的信噪比较差,序列指纹图谱方法倾向于使用不带权重的矩阵,而直接使用氨基酸频度矩阵。反复迭代过程可以提高频度矩阵的识别能力,但序列指纹图谱方法的关键是利用了整个序列中所有序列模体的信息。这一点非常重要,因为这些信息中不仅包含了某个序列模体自身的信息,而且包含了它和该序列中其它序列模体的相关信息,包括它们之间的位置关系,利用这种包括序列模体之间相关信息的矩阵,即使某个检测序列中若干个相邻序列模体中的一个或几个不完全匹配,也可以通过其它序列模体和它们之间的相关性得到识别。例如,一个序列中包含7个序列模体,利用上述方法只能识别其中4个。如果这4个序列模体在该序列中的次序正确,相互之间的间隔与预期的相同,那么可以认为这条序列满足匹配。蛋白质序列模块上面提到,组成蛋白质序列指纹图谱的各个序列模体不带权重,因为引入权重有时会影响其识别能力。尽管如此,有时为了获得最佳信噪比,可以采用不同的加权方式表示不同的序列模体。这一方法被蛋白质序列模块数据库BLOCKS采用。例如,在构建BLOCK数据库时,某个保守的序列模体或称序列模块由三个保守的氨基酸残基组成,这三个残基之间并不一定连续,可以有一定间隔,如Ala-x-x-x-Val-x-x-Cys,其中x代表任意残基。序列模块的匹配分值由BLOSUM62替换矩阵计算得到。用这种方法可以有效地找出蛋白质序列模块,并通过其它序列模体识别算法验证这些序列模块是否正确,即找出一组具有最高分值的序列模块,它们的排列顺序正确,且没有重叠。经过以上两种方法找到并验证过的序列模块比较可靠,并收入BLOCKS数据库。同蛋白质序列指纹图谱方法一样,对于一个给定的序列,与一个家族的序列模块匹配得越好,而且匹配序列模块次序和距离正确,这一序列属于该家族的可能性就越大。但是,和其它权重矩阵方法一样,灵敏度和特异性始终是一对矛盾,两者之间必须加以平衡。此外,当出现如下情况时,很难简单地得出结论:前者为单一的高分匹配,后者为分值不高的多重匹配。就序列模块方法而言,没有生物学意义的高分匹配和具有生物学意义的低分匹配时有出现。因此,在分析序列模块数据库搜索结果时需要谨慎,高分匹配并不一定等于正确结果。
    < 1 >   < 2

         

          设为首页       |       加入收藏       |       广告服务       |       友情链接       |       版权申明      

    Copyriht 2007 - 2008 ©  科普之友 All right reserved