蛋白质序列数据库的数据库分类

PIR数据库根据数据的性质和注释级别分为四个不同的部分,即PIR1、PIR2、PIR3和PIR4。PIR1中的序列已经过最详细的注释验证;PIR2包含尚未确定的冗余序列;PIR3中的序列还没有被测试和注释;在PIR4中,包括了从其他渠道获得的序列,这些序列既没有被验证也没有被注释。除了PIR,另一个重要的蛋白质序列数据库是SwissProt。该数据库由瑞士日内瓦大学创建于1986,目前由瑞士生物信息研究所(SIB)和欧洲生物信息研究所EBI***维护和管理。瑞士生物信息研究所下属的蛋白质分析专家系统(ExPASy)的Web服务器不仅是SwissProt数据库的开发和维护,也是国际蛋白质组和蛋白质分子模型研究中心,为用户提供大量的蛋白质信息资源。北京大学生物信息中心有ExPASy的镜像。PIR和SwissProt是使用最早和最广泛的蛋白质数据库。随着各种模式生物基因组计划的进展,DNA序列,尤其是EST序列进入了大量的核酸序列数据库。TrEMBL是一个蛋白质序列数据库,由EMBL的cDNA序列翻译而来。TrEMBL数据库创建于1996 [Bairoch,2000],意为“EMBL的翻译”。数据库采用SwissProt数据库格式,包含EMBL数据库中所有编码序列的翻译。TrEMBL数据库分为两部分,SP-TrEMBL和REM-TrEMBL。SP-TrEMBL中的条目最终将合并到SwissProt数据库中。Rem-TrEMBL包括其他剩余序列,包括免疫球蛋白、T细胞受体、少于8个氨基酸残基的小肽、合成序列、专利序列等。与TrEMBL类似,GenPept是由GenBank翻译的蛋白质序列。因为TrEMBL和GenPept都是通过计算机程序翻译核酸序列生成的,所以这两个数据库中的序列错误率很高,而且都是冗余的。另一种常用的蛋白质序列数据库是具有已知三维结构的蛋白质的一级结构序列数据库NRL-3D[Namboodiri,1990]。数据库的序列是从PDB的三维结构数据库中提取的。