生物信息学基本概念集锦（1）

相似性和同源性如上所述，数据库搜索的基础是序列的相似性比对，而寻找同源序列则是数据库搜索的主要目的之一。所谓同源序列，简单地说，是指从某一共同祖先经趋异进化而形成的不同序列。必须指出，相似性(similarity)和同源性(homology)是两个完全不同的概念。相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。当相似程度高于50%时，比较容易推测检测序列和目标序列可能是同源序列；而当相似性程度低于20%时，就难以确定或者根本无法确定其是否具有同源性。总之，不能把相似性和同源性混为一谈。所谓“具有50%同源性”，或“这些序列高度同源”等说法，都是不确切的，应该避免使用。相似性概念的含义比较广泛，除了上面提到的两个序列之间相同碱基或残基所占比例外，在蛋白质序列比对中，有时也指两个残基是否具有相似的特性，如侧链基团的大小、电荷性、亲疏水性等。在序列比对中经常需要使用的氨基酸残基相似性分数矩阵，也使用了相似性这一概念。此外，相似性概念还常常用于蛋白质空间结构和折叠方式的比较。局部相似性和整体相似性序列比对的基本思想，是找出检测序列和目标序列的相似性。比对过程中需要在检测序列或目标序列中引入空位，以表示插入或删除（图3.1）。序列比对的最终实现，必须依赖于某个数学模型。不同
< 1 > < 2 >

设为首页 | 加入收藏 | 广告服务 | 友情链接 | 版权申明