【3.3】gromacs各种文件格式

一、gromacs(GMX) 各种文件格式详细

可以查阅GROMACS 手册第5章第6小节,以下为简要介绍。

CPT文件:该文件为模拟断点文件(check point,.cpt)。该文件为模拟过程固定时间间隔产生,保存模拟系统所有信息。该文件一部分可以在能量文件(.edr)找到,一部分可以在双精度轨迹文件(.trr)中找到。如果模拟不幸因为外界条件中断(如断电,模拟人发脾气砸电脑等),可以使用该文件重新在断点处开始模拟,以节省模拟时间。同时也可以依靠该断点文件开始,并延长模拟计算(见tpbconv)。

EDR文件:系统能量文件(energy,.edr)。该文件记录模拟输入文件中定义的能量组的各种相互作用能量等。

EPS文件:封装文件格式(.eps),并不是GROMACS自身文件格式,可以当图片打开。LINUX系统下一般已经有默认打开程序,WINDOWS要安装其他打开程序(可以GOOGLE以下)。GROMACS的DSSP和罗麽占陀罗图等通过xpm2ps处理后都是这个文件格式。习惯就好。

G87文件:分子坐标文件(.g87)。该文件记录并只记录原子坐标和速度,不含原子序号。并只记录常压强模拟系统的盒子信息。

G96文件:分子坐标文件(.g96)。GROMOS96程序的分子坐标文件,模拟程序以15.9的C语言格式写入,精度较高,但是会比较大。包含有文件头,时间步,原子坐标,原子速度,以及盒子信息等。

GRO文件:分子坐标文件(.gro)。GROMACS的最主要分子坐标文件,明白这个文件,就基本明白使用GROMACS了。该文件类型的各个文本列字数固定,C语言的写入格式为:"%5d%5s%5s%5d%8.3f%8.3f%8.3f%8.4f%8.4f%8.4f"。具体固定文本列有:残基序号,5位数;残基名称,5字母;原子名称,5字母;原子序号,5为数;原子坐标三列,X,Y,Z坐标各8位数,含3个小数位;速度同坐标,速度单位为nm/ps(km/s)。

ITP文件:分子拓扑文件(.itp)。被主拓扑文件(.top)包含的分拓扑文件,一般包含某个特定分子的类型。于主拓扑文件区别有它不引用其他力场文件,同时包含[system],[molecule]等拓扑字节。

M2P文件:xpm2ps程序配置文件,定义输出eps文件中颜色,字体种类及大小等。

MDP文件:GROMACS的模拟配置文件(.mdp)。该文件所含定义较多,各关键字的含义可以查阅GROMACS手册。(这是使用GROMACS进行分子动力学模拟最最最最(10个最)重要的文件,no mdp文件,no GROMACS模拟。好好看书,以明白各个关键字的含义。因为它太重要,所以不在此简要描述。

N2T文件:原子名称及类型对照文件(.n2t)。x2top程序可以按照原子名称得到该原子的原子类型力场参数,N2T就是x2top程序扫描的数据库,文件很小。文件中文本行有原子名称,原子类型,原子电量,原子质量,该原子与其他原子成键距离等。

NDX文件:原子索引文件(.ndx)。该文件含原子的序号,当使用make_ndx程序生成索引文件时,可以定义不同的原子组,每组名下即是该组所含各个原子的序号。

PDB文件:分子坐标文件(.pdb)。这个就不用说了(说真的,如果真没有听过这个文件类型的话,看这篇文章有点浪费时间。)

RTP文件:残基力场参数文件(.rtp)。该文件包含常见残基的力场信息,包括残基所含原子,成键种类等。使用pdb2gmx处理PDB文件时,程序按照PDB文件信息,在RTP文件中寻找对应的残基力场信息。

TOP文件:模拟系统的拓扑文件(.top)。该文件就是所谓十分及其著名的系统拓扑文件啦,其包含各个关键字都十分易懂;一般其还包含引用其他力场文件(#include)。TOP文件一般由pdb2gmx产生,grompp程序生成模拟TPR文件时使用。

TPR文件:模拟打包文件(.tpr)。该文件打包模拟需要各种信息,包括模拟系统,模拟控制等。

TRJ文件:全精度轨迹文件(.trj)。该文件包含模拟系统模拟各个时间下的原子坐标,速度和受力等。所含帧数频率由MDP文件控制,文件较大。

TRR文件:以上同,一般为默认格式。由于所含信息多,可以也EDR文件一起使用,重新开始模拟程序。

XPM文件:数据矩阵文件(.xpm)。该文件矩阵中每个值即是矩阵点所表示的物理量大小(也可以是布尔值)。该文件其实就是二维图,可以失踪xpm2ps转换为图片。

XTC文件:模拟轨迹单精度文件(.xtc)。单精度轨迹文件,文件较TRR和TRJ小,为常用分析文件。包含模拟系统中原子坐标,模拟时间,和模拟盒子信息。

XVG文件:二维图标文件(.xvg)。二维画图工具xmgrace的默认文件,可以使用xmgrace打开。

二、Gromacs中几个特殊文件

aminoacids.dat

该文件保存GMX默认的蛋白质和核算的默认残基名称。如果计算过程要建立一个新的蛋白质或者核算残基,可以将新的残基名称加到该文件中,并增加文件第一个的整数即可。有时候可以将该文件拷贝到当前工作文件夹进行编辑,以不影响其他计算的命名(GMX的文件搜索总是从当前目录开始的。)

FF.dat

GMX默认力场列表,即pdb2gmx处理PDB文件时可以选择的立场列表。增加新的力场,可以编辑该文件,并修改文件第一行的整数,使其与力场种类熟目一致。

specbond.dat

GMX处理特殊化学键的文件,特殊化学键包括二硫键,血红素铁原子于其他原子成键等。该文件第一行指明特殊键对的数目,第二行开始即为各个特殊键对的信息,其中第一列为键对第一个残基的名称,第二列为该残基成键原子的名称,第三列为该原子可以成键的数目,第四到第六列为成键另一个残基的信息,第七列为该化学键的平衡长度,此后两列为成键后残基的新名称。

vdwradii.dat

原子范德华半径数据库。使用genbox为系统添加水分子,或者使用genion为系统添加离子时,各个原子间的距离要大于两个原子范德华半径之和,否则则为原子重叠

三、Edit PDB

  1. DNA残基名改成DA、DT、DC、DG,分子为A、B。
  2. 所有的(*)字符换成(')。
  3. 端基的残基名改为DX5/DX3,或NXXX/CXXX。
  4. DT中:O2->O
  5. DT中:C5M->C7
  6. DT中:H5M->H7
  7. DC中:O2->O
  8. 比较麻烦:两个等位的H,形如nHX,->HXn
  9. 蛋白质的话,LYS->LYP

残基中的原子修改方法是将标准的DNA文件和gromacs里Amber的rtp文件逐一比较得到的,希望会对这方面的研究者有所帮助。

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn