结构分类数据库介绍

中心(San Diego Supercomputer Center，简称SDSC)和国家标准化研究所(National Institutes of Standards and Technology，简称NIST)。和核酸序列数据库一样，可以通过网络直接向PDB数据库递交数据。PDB是目前最主要的蛋白质分子结构数据库。随着晶体衍射技术的不断改进，结构测定的速度和精度也逐步提高。90 年代以来，多维核磁共振溶液构象测定方法的成熟，使那些难以结晶的蛋白质分子的结构测定成为可能。蛋白质分子结构数据库的数据量迅速上升。据2000年5月统计，PDB数据库中已经存放了1万2千多套原子坐标，其中大部分为蛋白质，包括多肽和病毒，共1万多套。此外，还有核酸、蛋白和核酸复合物以及少量多糖分子。近年来，核酸三维结构测定进展迅速，PDB数据库中已经收集了800多套核酸结构数据。PDB数据库以文本文件的方式存放数据，每个分子各用一个独立的文件。除了原子坐标外，还包括物种来源、化合物名称、结构递交着以及有关文献等基本注释信息。此外，还给出分辨率、结构因子，温度系数、蛋白质主链数目、配体分子式、金属离子、二级结构信息、二硫键位置等和结构有关的数据。PDB数据库以文本文件格式存放，可以用文字编辑软件查看。显然，用文字编辑软件查看注释信息不太方便，更无法直观地了解分子的空间结构。RCSB开发的基于Web的PDB数据库概要显示系统，只列出主要信息。用户如须进一步了解详细信息，或查询其它蛋白质结构信息资源，可点击该页面左侧窗口中的按钮。此外，英国伦敦大学开发的PDBsum数据库[Laskowski等, 1997]是基于网络的PDB注释信息综合数据库，用于对PDB数据库的检索，使用十分方便。并将RasMol、CN3D等分子图形软件综合在一起，同时具有分析和图形显示功能。必须指出的是，与EMBL和PIR等序列数据库一样，结构数据库PDB也属于一次数据库，其中包括许多冗余的数据，乃至错误。PDBCheck合作研究组对PDB数据库进行了全面的检验，并把结果存放在PDBReport数据库中，用户在使用PDB数据库中的某个文件时，可先查阅该数据库。蛋白质结构分类数据库SCOP和CATH蛋白质结构分类是蛋白质结构研究的一个重要方向。蛋白质结构分类数据库，是三维结构数据库的重要组成部分。蛋白质结构分类可以包括不同层次，如折叠类型、拓扑结构、家族、超家族、结构域、二级结构、超二级结构等。已经上网的蛋白质分类数据库很多，此处简单介绍两个主要的蛋白质结构分类数据库SCOP和CATH。SCOP分类数据库蛋白质结构分类数据库SCOP（Structural Classification Of Proteins）是由英国医学研究委员会（Medical Research Council，简称MRC）的分子生物学实验室和蛋白质工程研究中心开发和维护。该数据库对已知三维结构的蛋白质进行分类，并描述了它们之间的结构和进化关系（Murzin等, 1995）。鉴于目前结构自动比较程序尚不能可靠地鉴别所有的结构和进化关系，SCOP数据库的构建除了使用计算机程序外，主要依赖于人工验证。由于蛋白质结构种类繁多，大小不一，有的只有一个结构域，有的则有许多结构域组成，构建结构分类数据库是一项十分复杂的工作。对于某些蛋白质，有时需要同时从单个结构域和多个结构域水平加以考虑。SCOP数据库从不同层次对蛋白质结构进行分类，以反映它们结构和进化的相关性。可以把蛋白质分成许多层次，但通常将它们分成家族，超家族和折叠类型。当然，不同层次之间的界限并不十分严格，但通常层次越高，越能清晰地反映结构的相似性。家族 SCOP数据库的第一个分类层次为家族，其依据为序列相似性程度。通常将相似性程度在30%以上的蛋白质归入同一家族，即它们之间有比较明确的进化关系。当然这一指标也并非绝对。某些情况下，尽管序列的相似性低于这一标准，例如某些球蛋白家族的序列相似性只有15%，也可以从结构和功能相似性推断它们来自共同祖先。超家族：如果序列相似性较低，但其结构和功能特性表明它们有共同的进化起源，则将其视作超家族。折叠类型：无论有无共同的进化起源，只要二级结构单元具有相同的排列和拓扑结构，即认为这些蛋白质具有相同的折叠方式。在这些情况下，结构的相似性主要依赖于二级结构单元的排列方式或拓扑结构。SCOP数据库可以通过MRC实验室的网络服务器查询CATH蛋白质结构分类数据库CATH是另一个著名的蛋白质结构分类数据库，其含义为类型(Class)、构架(Architecture)、拓扑结构(Topology)和同源性(Homology)，它由英国伦敦大学UCL开发和维护（Orengo等，1997）。与SCOP数据库一样，CATH数据库的构建既使用计算机程序，也进行人工检查。CATH数据库的分类基础是蛋白质结构域。与SCOP不同的是，CATH把蛋白质分为4类，即a主类、b主类，a-b类（a/b型和a+b型）和低二级结构类。低二级结构类是指二级结构成分含量很低的蛋白质分子。CATH数据库的第二个分类依据为由α螺旋和β折叠形成的超二级结构排列方式，而不考虑它们之间的连接关系。形象地说来，就是蛋白质分子的构架，如同建筑物的立柱、横梁等主要部件，这一层次的分类主要依靠人工方法。第三个层次为拓扑结构，即二级结构的形状和二级结构间的联系。第四个层次为结构的同源性，它是先通过序列比较然后再用结构比较来确定的。CATH数据库的最后一个层次为序列(Sequence)层次，在这一层次上，只要结构域中的序列同源性大于35%，就被认为具有高度的结构和功能的相似性。对于较大的结构域，则至少要有60%与小的结构域相同。CATH数据库可以通过UCL的生物分子结构和模拟实验室的网络服务器来查询。通过UCL生物分子结构和模拟实验室的网络服务器还可以查询PDB数据库PDBsum（Laskowski等，1997）数据库包含了重要的结构信息，由UCL维护。PDBsum数据库提供对PDB数据库中所有结构信息的总结和分析。每个总结给出了与PDB库中条目相关的简要信息，如分辨率、R因子，蛋白质主链数目，配体，金属离子，二级结构，折叠图和配体相互作用等。这不但对了解PDB数据库中包含的结构信息，而且提供了获取一维序列，二维序列模体和三维结构信息的统一的用户界面。随着计算机图形技术的发展，这种图文并茂的网络资源会越来越多，新一代的计算机软件可以使用户更方便地利用这些信息资源。
< 1 > < 2 >

设为首页 | 加入收藏 | 广告服务 | 友情链接 | 版权申明