相关文章  
  • 石蜡包埋组织的DNA提取及其应用
  • 增加PCR特异性
  • 质粒与载体
  • 电泳技术简介
  • 生物技术讲义
  • 细胞培养基本技术概述
  • 生物信息学基本概念集锦(5)
  • 生物信息学基本概念集锦(4)
  • 系统生物学面面观[综述]
  • 如何确定RNA质量的经验谈
  •   推荐  
      科普之友首页   专利     科普      动物      植物    天文   考古   前沿科技
     您现在的位置在:  首页>>动物 >>生命科学

    生物信息学基本概念集锦(3)

    式显示也可以用点击链接调用JAVA APPLET进行图形显示,下图是关于TRANSFERRIN序列比对的局部图形,可见PRINTS数据库中TRANSFERRIN一类由更多的序列比对形成。 一般来说,对于具有较高相似性的一组序列之间的比对,自动比对方法是很有效的。一旦序列的亲缘关系变得较远,所得结果就不那么可信。若要得到比较可靠而又具有明确生物学意义的比对结果,比较有效的方法是对比对结果进行手工编辑和调整。这对于构建二次数据库是非常重要的信息。在选择现有的序列模式或序列模体公开的数据库构建自己的数据库系统时,对这些现有数据库的可靠性必须采取谨慎的态度。二级数据库搜索本章将在一次数据库的搜索基础之上讲述二次数据库的搜索和结果分析。这些方法是构建二次数据库的理论基础和技术手段。前面,我们曾经对二次数据库作了一般介绍,侧重其内容和格式。本章将进一步介绍蛋白质序列二次数据库的主要信息类型,包括序列正则表达式(regular expression)、序列谱 (profiles)、序列指纹图谱(prints)、序列模块(blocks)和用隐马尔可夫模型(Hidden Markov Model)分析蛋白质序列的方法。通过阅读本章,希望读者对各种蛋白质二次数据库的特点和构建二次数据库的方法有所了解,并用于识别蛋白质家族和亲缘关系,对序列比对和数据库搜索结果作出客观、正确的解释。另外需要说明的是,本章所讨论的均为蛋白质序列。二次数据库搜索的意义众所周知,一次数据库的容量正以惊人的速率增长。从浩如烟海的一次数据库中找到未知序列和已知序列的相似关系,从而推断未知序列的性质和特征,是对生物信息学研究的挑战。一次数据库搜索可以有效的确定序列之间的相似性,但是对搜索结果的分析往往相当困难,很难解决更加深入的问题,很难搞清搜索结果所代表的生物学意义。造成这种情况的原因很多。例如,1998年GenBank中存储了超过一百万条序列,这些序列来自18,000种不同的生物,搜索结果必然异常复杂而且包含大量冗余信息。如果不使用一定的屏蔽手段,BLAST搜索结果会充斥大量重复序列的匹配。一些短的重复序列片段和测序过程中常用的载体序列会给搜索结果的分析产生干扰。此外,对于多结构域的蛋白质,搜索结果很难表明是在单个结构域上的匹配还是在多个结构域上的匹配,或者是全局水平上的匹配。而且,BLAST搜索结果只注明目标序列的匹配部分,并不能提供该序列的全部信息,有时甚至得出模棱两可的结果,对用户产生误导。由于一次数据库容量的不断增加和冗余数据的增多,两个本来是直系同源序列之间的相似性分值可能反而低于不属于同一基因家族的序列之间的相似性分值。也就是说,相关序列可能因此无法得到高的相似性分值。考虑到基因之间在种系发生上的联系,基因的直系进化可以从另一个方面为序列的研究提供某些重要信息。由此得到启发,不妨把序列分析的重点从简单的同源性推断转移到更加严格的直系进化的识别上来(Huynen and Bork,1998),各种二次数据库搜索和分析方法因此而应运而生。这一新的研究方向具有很大的实用价值。利用各种二次数据库分析方法,可以详细阐明序列间的关系,包括在超家族、家族、亚家族和种属特异等不同水平上。这种新的提取序列内在信息的能力使二次数据库搜索成为常规的一次数据库搜索的强有力的补充。二次数据库的内容要正确使用这些二次数据库,不仅要了解它们存储的不同数据类型,还要搞清怎样进行搜索,怎样解释不同的输出结果,以及怎样理解搜索结果的生物学意义。读者可能还记得开发二次数据库的基本原理,即利用多序列比对的结果来寻找保守的序列模体,而这些序列模体可以体现组成序列的结构特征或是功能特征。这些保守的序列模体,乃至经过比对的整个序列,都可以用来构造标识基因家族或功能的特征信号,从而用来识别新的未知序列。导出基因家族特征有许多不同方法,这些方法大大促进了各种二次数据库的发展。下面,我们将简要介绍几种最主要的方法。正则表达式模式识别最简单的方法是用一个简单的保守序列模体来标识一个家族的特征,并且把序列模体简化成一个统一的正则表达式(regular expression)。正则表达式中不再包含序列的全部信息,只保留最保守或最重要的氨基酸残基(表4.3)。表4.3 由一个保守的序列模体构建正则表达式 参与比对的序列 正则表达式 ADLGAVFALCDRYFQ SDVGPRSCFCERFYQ ADIGQPHSLCERYFQ ADLGRTQNRCDRYYQ [AS]-D-[IVL]-G-X4-{PG}-C-[DE]-R-[FY]2-Q 表4.3所示是正则表达式表示的序列模体实例。该序列模体中第2位的D、第4位的G、第10位的C、第12位的R和第15位的Q是绝对保守的位点;第1、11、13和14位比较灵活,可以是两种残基之一,方括号中的残基表示可以出现在该位置的残基种类;第3位可以出现三种不同残基;第5到第8位可以是4个任意残基,表中用X4来表示;第9位是除了脯氨酸和甘氨酸之外的其它任何残基,花括号表示不能出现在该位置的残基。为了减小某种模式发生大量错误匹配的概率,常用的正则表达式搜索软件不允许不匹配残基出现,而只能检索到完全符合该特定表达式的序列模体。显然,这种搜索具有很大局限性。例如,假设一个未知序列与表4.3中的正则表达式匹配得很好,仅仅在第2位有差别,用一个谷氨酸E替换了天冬氨酸D。这样的序列片段尽管有与该正则表达式中的大部分完全匹配,却会被当作错误匹配而被排除。实际上,谷氨酸E和天冬氨酸D之间的替换是两种酸性氨基酸之间的保守替换。显然,这种基于正则表达式的搜索没有考虑生物学意义,即没有考虑进化过程中的保守性替换。另一种情况,一个序列与正则表达式中所有位置都很好匹配,仅在第4位甘氨酸后的非保守区中多了一个残基,这个序列在搜索时同样会被排除在外,因为该正则表达式在相应位置只允许出现4个连续的氨基酸残基。如果用这样的方法搜索数据库,结果会出现两种非此即彼的情况,即要么完全匹配,要么完全不匹配。这种非此即彼的搜索结果是基于正则表达式的二次数据库搜索的一个不足之处。因此,应该设法构建一个好的正则表达式,使它在数据库搜索过程中既能容忍一定程度的误配,又能避免出现大量噪音。显然,只能在以上两个制约因素之间进行折衷,因为正则表达式序列模式的定义越模糊,找到同源序列甚至是远距离同源序列的可能性就越大,但噪音也随之增加,得到假阳性结果的可能性也增加;相反,正则表达式序列模式定义越严格,误配可能性就越小,但搜索结果灵敏度降低,许多匹配程度很高却无法完全满足正则表达式序列模式的目标序列无法检测到。由于基于正则表达式的搜索方式仅用单个序列模体来标识整个蛋白质家族的特征,因此这一方法的可靠性受到相当大的限制。要想得到预期结果,必须找出序列比对结果中最保守的区域。对于判别酶的活性位点这样由单一保守区域推断序列特性的问题,这种方法似乎可行。而许多蛋白质家族的序列中存在许多保守区域,仅仅由一个序列模式确定其特性,往往不能得到预期结果。通常我们使用多序列比对结果构建正则表达式序列模体,这些序列比对的结果基于目前已有的一次数据库。随着数据量的增长,新序列不断加入数据库,多序列比对结果可能发生变化。这样,许多用作序列模体的正则表达式就会发生很大改变,乃至这个序列模体的保守性不复存在。利用原有的正则表达式识别序列特性,所得结果就会因越来越差。此时,必须根据一次数据库的增长和改变,对原有正则表达式进行修正乃至彻底改变。
    < 1 >   < 2

         

          设为首页       |       加入收藏       |       广告服务       |       友情链接       |       版权申明      

    Copyriht 2007 - 2008 ©  科普之友 All right reserved