蛋白质结构资料库


蛋白质结构资料库

文章插图
蛋白质结构资料库【蛋白质结构资料库】生物大分子三维空间结构资料库是一类重要的生物信息学资料库 。蛋白质结构资料库(ProreinData Bank,PDB)是1971年创建的国际上最着名、最完整的蛋白质三维结构资料库 。另外还有蛋白质分类资料库SCOP和CATH 。
基本介绍中文名:蛋白质结构资料库
外文名:ProreinData Bank
简称:PDB
资料库内容:包括最完整的蛋白质结构信息
其余资料库:蛋白质分类资料库SCOP、CATH
套用:预测蛋白质结构
简介生物大分子三维空间结构资料库是一类重要的生物信息学资料库 。蛋白质结构资料库(ProreinData Bank,PDB)是1971年创建的国际上最着名、最完整的蛋白质三维结构资料库 。另外还有蛋白质分类资料库SCOP和CATH 。SCOP是英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的基于Web的蛋白质结构分类、检索和分析系统 。CATH是另一个着名的蛋白质分类资料库,由英国伦敦大学开发和维护 。理论依据20世纪60年代美国的Anfinsend小组作了牛胰核糖核酸酶变性及复现再摺叠的实验和理论研究,提出蛋白质的胺基酸序列包含有足够的信息去决定它的空间结构(并因此获得诺贝尔奖),为由胺基酸序列预测蛋白质的三维空间结构建立了实验和理论基础 。蛋白质结构蛋白质结构是发挥其生物学功能的基础,儘管实验方法可以解析出一部分蛋白质的高解析度结构,但结构预测的理论方法依然非常重要,它将为大部分蛋白的结构研究提供非常有价值的信息,尤其是对那些不能从实验上测定结构的蛋白 。实际上,精确的蛋白质三维结构理论预测是困难的,现阶段比较有效的途径是先研究粗粒化结构,如蛋白质结构型和拓扑结构等 。由英国伦敦大学UCL开发和维护的蛋白质结构分类资料库CATH(Class—Architecture.Topology-Homology)、由英国医学研究委员会(MRC)的分子生物学实验室和蛋白质工程研究中心开发和维护蛋白质结构分类资料库SCOP(Structural Classification OfProteins)都是围绕粗粒化结构建立的 。蛋白质结构预测套用PDB对PDB资料库库进行数据挖掘和统计的最终目的是为了能够通过对已知结构的蛋白质数据的数据挖掘,发现蛋白质序列和结构之间的某种联繫或者规律,加深我们对蛋白质序列决定结构的机理的了解,并最终能寻找更好的蛋白质二级结构预测方法 。发展历史世界上第一个蛋白质晶体结构的测定和解析发生在50年代末60年代初 。蛋白质二级结构预测工作开始于60年代中期,也就是说在解析出第一个蛋白质的三维立体结构不久,科学家们便开始了蛋白质结构预测研究工作 。这件事本身就可在一定程度上说明蛋白质结构预测工作的重要性 。当时大多数的预测方法是依靠比对方法进行预测,而且直到目前为止对此问题还没有完全解决,往往是某种方法对一类或是几类蛋白质的二级结构的预测特别準确,而对其他几类蛋白质的预测却很不尽如人意 。当然这其中有人们对整体蛋白质结构知识匮乏的因素,也有受限于当时的科学技术手段的因素 。最早的比较成功的方法是Chou和Fastman在1974年提出了他们基于统计学的蛋白质二级交换结构预测的方法,之后又有很多人不断地在改进算法以期提高预测的準确度 。这其中有1978年Gamier,1987年Deleage和Roux,1996年King和Sternberg的SOPMA算法,1999年Guermeur的DSC算法等等,近年来很多方法已经不仅仅基于统计学的方法,两是在原来统计学思想的基础上增加了多重序列比对、神经网路、SVM或是决策树的方法,其中最着名的就是1993年Rost和Sander的基于多重序列比对和多层神经网路的PHI)方法,蛋白质二级结构预测的準确度提高到70%,同时该方法也倡导了目前蛋自质二级结构预测中各种算法联用的趋势 。基本方法生物信息学的主要目的之一在于了解蛋白质中胺基酸序列和三维结构之间的关係 。如果知道了这种关係,就可以从胺基酸序列可靠地预测蛋白质结构 。然而,序列和结构间的关係并不简单 。目前有超过160000条蛋白质的序列可用,但其中仅有35343条蛋白质的结构是已知的(PDB资料库2006-02.28的统计数据) 。基因组的加速预计能加快解决蛋白质结构问题 。蛋白质结构比较表明,新发现的蛋白质结构常常与已知结构具有相似的结构上的摺叠或构造 。因此,蛋白质摺叠成三维结构的许多方法是一致的 。结构比较亦显示出蛋白质中许多不同的序列在不同的结构环境中可以发现相同的短胺基酸模式 。二级结构中的胺基酸序列也被收录在对结构预测有用的资料库中 。序列资料库中许多蛋白质具有保守序列模式,这种保守模式可以进一步分类 。