【2.3】RCSC PDB数据库

RCSB PDB(http://www.rcsb.org/) 蛋白质数据库(PDB)被确立为所有生物学和医学(历史时间表)中的第一个开放获取数字数据资源。如今,它是实验数据的主要全球资源,是科学发现的核心。

  • 通过互联网信息门户和可下载的数据存档,PDB可以访问大型生物分子(蛋白质,DNA和RNA)的3D结构数据。这些是生命的分子,存在于地球上的所有生物体中。
  • 了解生物大分子的三维结构对于了解其在人类和动物健康与疾病中的作用,其在植物,食物和能源生产中的作用以及其对与全球繁荣和可持续性相关的其他主题的重要性至关重要。
  • RCSB PDB为全球PDB存档运营美国数据中心,并使PDB数据免费提供给所有数据用户,不受使用限制(策略)。
  • RCSB PDB的愿景是开放获取生物大分子的3D结构,功能和进化的累积知识,扩展基础生物学,生物医学和生物技术的前沿领域的公认专家,包括但不限于结构生物学,细胞和分子生物学,计算生物学,信息技术和教育,是RCSB PDB的顾问。

一、pdb信息接口

https://www.rcsb.org/pdb/results/reportField.do

例子:

http://www.rcsb.org/pdb/rest/customReport.csv?pdbids=5WT9,4FAB&customReportColumns=structureTitle,resolution,entityId,geneName,authorAssignedEntityName&service=wsfile&format=csv

这样就可以得到structureId, 链,genename等信息:

structureId,chainId,structureTitle,resolution,entityId,geneName,authorAssignedEntityName
"5WT9","G","Complex structure of PD-1 and nivolumab-Fab","2.4","3","PDCD1#PD1","Programmed cell death protein 1"
"5WT9","H","Complex structure of PD-1 and nivolumab-Fab","2.4","1","","Heavy Chain of Nivolumab"
"5WT9","L","Complex structure of PD-1 and nivolumab-Fab","2.4","2","","Light Chain of Nivolumab"
"4FAB","H","THREE-DIMENSIONAL STRUCTURE OF A FLUORESCEIN-FAB COMPLEX CRYSTALLIZED IN 2-METHYL-2,4-PENTANEDIOL","2.7","2","Igh-1a","IGG2A-KAPPA 4-4-20 FAB (HEAVY CHAIN)"
"4FAB","L","THREE-DIMENSIONAL STRUCTURE OF A FLUORESCEIN-FAB COMPLEX CRYSTALLIZED IN 2-METHYL-2,4-PENTANEDIOL","2.7","1","","IGG2A-KAPPA 4-4-20 FAB (LIGHT CHAIN)"

二、下载PDB

所有的PDB链接:

ftp://ftp.rcsb.org/pub/pdb/data/structures/divided/pdb

代码例子:

wget -r -p -k -P ./ ftp://ftp.rcsb.org/pub/pdb/data/structures/divided/pdb 
ls -lR ftp.rcsb.org/pub/pdb/data/structures/divided/pdb |grep "ent.gz"|wc -l

被废弃和替换掉的PDB ID

ftp://ftp.wwpdb.org/pub/pdb/data/status/obsolete.dat

二、The RCSB PDB RESTful Web Service interface

https://www.rcsb.org/pdb/software/rest.do#search

后面根据需求来整理这个链接的内容

二、认识entity

  • 实体(entity)是PDB中结构的独特化学组分。 与链不同,实体不包含重复副本。 换句话说,结构中的每个实体都不同于结构中的每个其他实体。
  • 因此,该搜索基于它们包含的不同化学组分的数量来查询结构。
  • 化学成分可以是不同的分子类型。 聚合物实体包括蛋白质,DNA和RNA。 配体是较小的化学组分,不是聚合物实体的一部分。

https://www.rcsb.org/pdb/rest/getEntityInfo?structureId=1hv4

通过上面的链接可以获知1hv4的entity分类信息,A、C、E、G属于同一个entity, B、D、F、H属于同一个entity

我们可以看到4HHB的A,C链序列组成一样,同时superpose以后,序列结构也一样。

下载所有PDB文件对应的entity分类:

https://www.rcsb.org/pdb/rest/getEntityInfo

分析过几个案例,同一个entity,他们的结构也有可能有区别

三、drug and drug target mapping

https://www.rcsb.org/pdb/ligand/drugMapping.do

提供了两张表:

  • Drugs Bound to Primary Target Table: 用drug的序列来搜到相似的drug target序列(相似度>30%)
  • Primary Drug Targets Only Table : 用primary drug taget 来搜索PDB里序列最相似的PDB,显示序列相似度最高的3个PDB ID

挺好玩的,用靶标把PDB ID连起来了

四、讨论

4.1 pdb 二级结构文件

https://www.rcsb.org/pages/help/ssHelp

Secondary structure assignments in the file ss.txt are calculated from the experimental coordinates using DSSP (W. Kabsch, C.Sander (1983) Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features Biopolymers 22:2577-637).

An ‘X’ in the sequence indicates a residue of unknown identity.

A blank in the ss.txt file stands for a loop or other irregular structure.

H = alpha helix
B = residue in isolated beta-bridge
E = extended strand, participates in beta ladder
G = 3-helix (3/10 helix)
I = 5 helix (pi helix)
T = hydrogen bonded turn
S = bend

4.1 抗体VH和VL在同一条序列的情况

参考资料

https://www.rcsb.org/pdb/staticHelp.do?p=help/advancedsearch/numberOfEntities.html

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn