蛋白质结构资料库( 二 ) _生活百科

文章插图
基于统计信息资料库的蛋白结构预测改进流程图如果两个蛋白质序列显着相似，则它们也应有相似的三维结构。这种相似性可能体现在序列的长度上，或体现一个或多个已定位的区域中是否有相对短的模式。进行全局序列比对后，如果多于45%的胺基酸位置是相同的，则蛋白质三维结构中胺基酸的重叠性就高。因此，如果其中一个已比对过的蛋白质结构已知，则另一个蛋白质结构以及相同的胺基酸位置就可以可靠的预测。如果少于45%而多于25%的胺基酸相同，结构也可能相似，但在相应的三维位置上变异较多。为此，人们发展了大量的蛋白质结构预测方法。预测系统目前基于蛋白质统计信息数据的预测系统的Web Server正在筹建中，由于整个系统构建的工作量是相当大的，故而暂时没有发布。计画中的Web Server将提供以下服务：1．跟蹤PDB数据的数据更新，随时更新统计信息库中的数据；2．提供蛋白质不同切片长度的结构机率及相关统计信息检索服务；3．提供基于统计信息资料库的蛋白质二级结构预测服务。随着生物信息的发展，人们必将获得越来越丰富的蛋白质结构数据，我们应该坚持利用数据挖掘这个有力的工具，对数据进行有效的处理，以期获得更多有益的知识。蛋白质综合信息资料库构建蛋白质信息资料库的建立是蛋白质结构研究的基础，围绕蛋白质的粗粒化结构及可能对蛋白质结构产生影响的因素，建立实用的非冗余的资料库是必要的。在非冗余结构分类资料库ASTRAL 的基础上，将蛋白质的序列信息、二级结构信息、蛋白质亚细胞定位信息、功能信息、物种信息、PDB ID信息、SWISS．PROT ID信息集成，得到蛋白质综合信息资料库。其中PDB ID、SWISS．PROT ID信息来自Swiss．Prot资料库，蛋白质序列信息、二级结构信息来PDB资料库，亚细胞定位信息来自DBSubLoc资料库，结构类信息来自SCOP资料库，蛋白质的物种信息信息取自PDBSOURCE，蛋白质的功能信息信息取自PDB RECORDS 。

文章插图
β一摺叠中胺基酸组分的结构类依赖