|
|
|
|
|
|
|
外,Pfam数据库还提供用来产生隐马尔可夫模型的种子序列的比对结果,以及经过迭代的序列处理的最终比对结果。这些序列比对的结果力图说明进化上的功能和结构保守区。然而,与人手工开发的作为PROSITE数据库补充的序列谱不同,Pfam数据库主要是计算机程序自动完成的。因此,经过反复迭代得到的序列可能出错,检测到的序列可能与目标序列并非相关。因此,最终比对结果如不经过仔细分析,可能存在不少问题,其给出的结构和功能信息必须慎用。其它以上我们已经分析了一些常用二次数据库的构建方法和它们的优缺点。此外,还有其它一些二次数据库,有的相对较小,如SMART 结构域数据库(Schultz 等,1998),有的功能相对有限,如通过PIMA软件自动生成的模式数据库(Smith 和 Smith,1992),另外还有是通过DOMAINER程序自动创建的蛋白质结构域数据库ProDom(Sonnhammer 和 Kahn),等等。在理解了各种二次数据库的构建方法和各自的优缺点后,我们更应该把生物学意义放在第一位,才能对未知序列进行准确分析,搞清匹配结果究竟来自直系同源、旁系同源或某个模块,千万不能对搜索结果不加分析地予以轻信。二次数据库搜索实例PROSITE数据库搜索PROSITE数据库基于一般的正则表达式,可以访问http://www.expasy.ch/tools/scnpsite.html来进行该数据库的搜索,该页面上有两个主要的链接,Scan SWISS-PROT and TrEMBL with a pattern链接可以使用正则表达式来搜索满足该正则表达式的序列。Scan a sequence for the occurrence of PROSITE patterns链接可以由蛋白质序列在PROSITE数据库中进行相似性搜索来预测该蛋白质的所属家族。点击链接Scan a sequence for the occurrence of PROSITE patterns进入搜索页面。在提交框中输入蛋白质的代号TRFE_XENLA,当然也可以给出蛋白质的序列进行搜索,同时勾选Exclude patterns with a high probability of occurrence 复选框以排除高重复片段的影响,然后点击提交按钮。结果是文本形式给出[链接1.4.2.3.1].我们可以看到匹配TRANSFERRIN(转铁蛋白)的三个片段,也给出了起止位置,但由于PROSITE数据库基于的只是正则表达式,故对于亲缘关系较远的蛋白质匹配搜索不是很准,PROSITE的搜索结果只能作为参考。PRINTS数据库搜索PRINTS数据库基于了蛋白质指纹技术的数据库。蛋白质序列指纹图谱基于多序列比对的结果,它由比对结果得到一系列相当保守的序列模体构建而成,用来表示蛋白质家族特征。多序列比对结果经常会给出保守的特征序列片段。这些特征序列片段对维持蛋白质的结构和功能是相当重要的。比如,它们可能包含酶活性位点的关键残基,或者构成对维持蛋白质正常结构和折叠方式至关重要的α-螺旋。以视紫红质GPCR为例,它是一种由7个保守的跨膜α-螺旋组成的受体蛋白。多序列比对结果显示这7个连续的跨膜保守区域足以作为这类视紫红质受体的特征序列。因此,可以根据这7个区域构建指纹图谱。已知OPSD-SHEEP是属于这类视紫红质受体蛋白家族,我们可以在PRINTS数据库中查寻关于OPSD-SHEEP的信息。可以访问http://www.bioinf.man.ac.uk/dbbrowser/bioactivity/protein2frm.html,在检测窗体中输入代码OPSD-SHEEP,能得到如图的结果[链接。结果最上面给出了前十个最佳匹配,接着给出了这十个匹配的具体的模体信息。点击GPCRRHODOPSN (relations)的GRAPHIC的链接,可以看到图形显示[链接,图中的x轴表示待检测的序列,y轴表示组成指纹图谱的序列模体。从图中可以看出每个序列模体与该序列匹配的情况和发生匹配的位置。对每个序列模体,用一个与其长度相等的窗口在检测序列上滑动,用PRINTS数据库中该序列模体的分数矩阵对每个窗口的匹配情况进行打分,当一个窗口的分值超过一定阈值时,用一个方框标记这个位置。对类视紫红质受体蛋白,我们认为一个合格的序列应该从N端到C端连续匹配所有七个跨膜区。OPSD-SHEEP共显示了7个模体,可见显然符合这一要求。1.4.2.3.2-2]1.4.2.3.2-1]对于变异较大的蛋白质,指纹图谱仍然有较大的优势,它可以给出能匹配的模体。例如YMJC-CAEEL这种蛋白质,指纹图谱给出了与GPCRRHODOPSN (relations)有四个模体匹配[链接。我们可以考虑YMJC-CAEEL仍具有GPCRRHODOPSN家族的特征。无论匹配全部7个序列模体还是只匹配其中的一部分,这种类型的指纹图谱可以方便快捷而且直观的展示查询序列与序列模体之间的匹配情况。这使得蛋白质指纹图谱技术成为识别蛋白质家族的有力工具。1.4.2.3.2-3]BLOCKS数据库搜索BLOCKS数据库基于蛋白质序列模块的数据库,我们可以访问http://www.blocks.fhcrc.org/blocks/。我们可以首先看看BLOCKS数据库的蛋白质序列模块。点击Get Blocks by key word链接,在查寻窗体输入TRANSFERRIN,可以看到TRANSFERRIN关键词下有三类,点击IPB001156查看这类蛋白质序列模块的信息[链接1.4.2.3.3-1。]IPB001156共有9类序列模块,对于IPB001156A这个典型的序列模块,在这个条目中,头几行标记ID,AC,和DE,分别给出了这个块代表的家族的缩写、BLOCKS数据库注册码和家族的详细描述;BL行给出了关于组建这个特别的块的原始序列模体的信息:参数windth和seqs分别表示block的宽度(用残基计算)和这个块中有多少序列数目;接下来是统计学有效性和构成长度的信息;最后是序列列表,只显示出对应于这个特殊模体的序列部分,每一行的开头都是这个序列的SWISS-PROT注册码,第一个残基在整个序列中的位置,然后是序列本身以及基于位点的序列权重。这个权重用100刻度,100表示序列距离这个群体最远。注意,有些序列行中有空行;部分比对被聚集在一起,在每个聚集中,80%的序列残基是相同的。我们选择Select display format: [GIF] [PDF] [Postscript]链接中的GIF格式显示模体,[链接可以看到用图形方式显示多序列比对信息,它用高低不同的彩色字母表示一个序列片段。彩色字母的高低表示该氨基酸残基在某一位置出现的频率,也就是该残基在这一位置出现的保守性。例如,某个位置只允许一个残基出现,说明该位置上某种残基的保守性强,图形中该字母就比较高;相反,若某个位置允许几个不同残基出现,则说明该位置的保守性低,图形中用几个堆叠在一起的字母表示,其高度也比单个字母低。1.4.2.3.3-2]在序列图标中,出现频率最多的残基不仅高度比其它残基高,而且也在堆栈中占据了较高的位置,因此在每个位置上部最突出的残基可预测为最有可能在此位置出现的残基。针对在一个模块中由于序列冗余而造成残基频率强烈偏移的问题,应使用位置特异性分数矩阵(Position-specific scoring matrix,简称PSSM)计算。这样可以减少重复出现的序列在堆栈中占优势的趋势,从而增加稀有氨基酸的出现频率。例如,在一个模块中有某一位置中曾出现六个亮氨酸和两个甲硫氨酸,序列分子量图标仍然会把甲硫氨酸放在亮氨酸之上,因为亮氨酸在这里可能是由序列重复导致的过量出现。当然对于一个未知的序列我们可以通过BLOCKS数据库搜索相似的蛋白质模体。打开链接:http://www.blocks.fhcrc.org/blocks/。点击Block Searcher to search a sequence vs Blocks进入Blocks搜索页面,在提交窗体中输入要搜寻的序列,例如>TransferrinQueryM D F S L R V A L C L S M L A L C L A I Q K E K Q V R W C V K S N S E L K K C K D L V D T C K N K E I K L S C V E K S N T D E C S T A I Q E D H A D A I C V D G G D V Y K G S L Q P Y N L K P I M A E N Y G S H T E T D T C Y Y A V A V V K K S S K F T F D E L K D K K S C H T G I G K T A G W N I I I G L L L E R K L L K W A G P D S E T W R N A V S K F F K A S C V 。点击搜索按钮,可以得到搜索结果[链接,我们可以看到该序列匹配了IPB001156 Transferrin家族9个模体中的3个,从E值为5e-48看出随机匹配的概率很低。接下是更具体的模体信息,可以看到匹配的序列片段。1.4.2.3.3-3]PROFILE数据库搜索PROFILE数据库是基于序列谱的数据库,序列谱的概念前面已经讲过,我们可以访问http://www.isrec.isb-sib.ch/software/PFSCAN_form.html进行PROFILE数据库的搜索。在Database栏中勾选Prosite profiles (NScore)复选框,然后在Query sequence (see here for valid formats)下拉菜单中选择:Swiss-Prot ID or AC,其它的选项按默认不用选择。在提交窗体中输入SLIT_DROME (Swiss-Prot ID),然后点击提交按钮。我们看到搜索的结果[链接:1.4.2.3.4-1]我们可以看到显著匹配的序列被打以“!”号,输出里含有值得注意的分值,这个前期加工的分值(Raw score)例如:CTCK_2 C-terminal cystine knot profile 的raw:1578 pos.就是真正由搜索时使用的打分矩阵计算出来的,更信息化的数字是normalized值,即N值,N值通常给出了用户在一个已知大小的数据库中可以寻找到的可能的匹配的数目。基本上,N值越大,偶然发生的命中几率就越小。举例来说,CTCK_2 C-terminal cystine knot profile 的N值为14.12875,当标准是SWISS-PROT,则偶然发生的命中的几率可由公式算出,可以点击链接Nscore查看。数字“from”和“to”只是显示出查寻序列和匹配的头文件重叠的位点。在搜索结果的最下面还可以选择JAVA APPLET显示图形以及模体的更多的信息。点击CTCK_2 C-terminal cystine knot profile链接,可以看到CTCK_2 C-terminal cystine knot profile序列谱的实例[链接1.4.2.3.4-2。其中I和M域分别表示在某个位点发生插入和匹配时的分值。其规则如下:]/I:[ SY=char1; parameters; ]/M: [ SY=char2; parameters; ]其中:Char1代表在原始序列比对中发生插入的位点;Char2代表在原始序列比对中发生匹配的位点;Parameters 是一个分数列表,给不同的位点赋与分值,包括起始分值、终止分值、状态转换分值、插入/删除/匹配延伸分值等。其详细过程可以参看改数据库提供的帮助。(可以查看http://www.isrec.isb-sib.ch/profile/profile.html网页参看帮助文件,其中有对Profile的结果的格式的详细描述)。上面给的事例中详细描述了每个位点某个残基插入或替换时的分值。保守区的罚分规则在DEFAULT参数栏中定义。与保守区域相比,可变区对于残基的替换、插入和删除的罚分较低。实际上该事例中的可变区比较多,保守区域内尽管不完全排除插入和删除的可能,但它们一旦出现,将被处以很重的罚分。一般对于/I标记的可变区,MI,I,MD的值小于DEFAULT定义的罚分值,而对于/M标记的保守区MI, I, MD, D的值大于DEFAULT的值。序列谱内在的复杂性使其拥有非常强大的识别能力,对于PROSITE数据库中识别能力较低的正则表达式,是一个很好的补充。在序列间进化距离很远时,模式识别方法变得无能为力,而序列谱则是值得一试的方法。Pfam数据库搜索Pfam数据库基于隐马尔可夫模型,我们可以输入URL地址:http://www.sanger.ac.uk/Software/Pfam/来访问该数据库,在该网页中可以选择蛋白质(PROTEIN SEARCH)及DNA(DNA SEARCH)序列搜索,关键词搜索(KEYWORD SEARCH),也可以选择查看Pfam数据库的多序列比对信息(BROWSE PFAM),以及分类搜索(TAXONOMY SEARCH),还可以看到关于Pfam的帮助信息(More information and help on Pfam)。点击PROTEIN SEARCH链接进入蛋白质搜索页面,然后在提交框中填入要搜索的目标序列,例如在最上面的提交框中填入SWISS-PROT ID :TRFE_XENLA 其它按默认不变,然后按提交按钮,搜索的结果按图形方式给出[链接。1.4.2.3.5]我们可以看到TRFE_XENLA是一种serotransferrin precursor(转铁蛋白前体),Pfam数据库给出了一个图形来显示TRFE_XENLA的结构域,-带黑圈的块表示是信号肽,大的单色的块表示Pfam搜索得到的具有统计学显著意义的结构域(PfamAQ区),low complexity区(富含AT和GC区)使用青色带黑圈的块表示。因为出现了预测重叠Overlap,可以在Domain Order一栏改变预测结构的前后顺序,从而改变图形的位置。搜索结果最后还给出了文字的结果,例如Pfam Domains的预测为含两个转铁蛋白家族的结构域(分别从26-341,354-686),以及可能的其它区域(Other Regions)包括前端可能为信号肽,也可能含有low complexity区。点击链接可以进入进一步的详细信息,例如蛋白质家族多序列比对的原始信息相关文献等等。 < 1 > < 2 >
|
|
|
|
设为首页 | 加入收藏 | 广告服务 | 友情链接 | 版权申明
Copyriht 2007 - 2008 © 科普之友 All right reserved |