【4.1.2.2】QSAR模型

QSAR,即通过数学方法建立化合物的分子描述符与其生物活性/毒性之间的线性或非线性关系模型,于分子水平阐明结构与生物学及物理化学特性之间的关系。

早在1868年,即有研究者提出化合物的生物活性与其分子结构有某种函数关系;1869年提出几种醇类化合物的硫原子数目与麻醉效果相关;1899年提出化合物的脂溶性对其生物活性有决定性影响;1939年提出一个与SAR相关的方程式;1963年提出将碎片法应用到SAR计算中;1964年提出线性自由能相关模型、相互作用模型;1975年提出分子连接性方法…在以上传统的2D-QSAR研究基础上,1980年出现了CADD技术,继而比较分子场分析法、比较分子相似性指数分析法、比较分子表面分析法等3D-QSAR被提出;再之后,4D-QSAR、5D-QSAR概念相继诞生…但至今,应用最多的还是2D以及3D-QSAR。

2D与3D比较而言,2D计算的时间明显缩短,可作为初筛使用,以减少用于药物开发后期进一步筛选的化合物的数量。而对于QSAR模型的开发,1)需要基于一组类似物的基本化学结构层面来考虑,包含异常值;2)定量关联化学结构变化与生物活性变化之间的关系,以确定最可能决定候选药物生物活性的化学性质;3)基于QSAR结果,来优化现有物质的化学结构,进而继续验证QSAR模型的准确度;4)预测虚拟化合物的生物活性……为了实现以上内容,描述符和方法的选择则至关重要。

一、建模和分子描述符计算

在目前的工作中,按照经合组织和不同研究人员推荐的标准程序进行了 QSAR 分析[16]、[17]、[18]、[19]、[20]、[21]、[22]、[23 ]、[24]、[25]、[26] 。

  1. 使用 ChemSketch 12 免费软件绘制化学结构,然后使用 TINKER [4]、[12]、[15]中的 MMFF94 力场进行能量最小化.
  2. 优化的结构被用作计算大量 1-3D、电拓扑、指纹和其他描述符的输入。使用了两个描述符计算软件:PaDEL 2.21 和 e-Dragon。
  3. 因为,所有计算的描述符 (>18,000) 都不包含重要信息;采用客观特征选择来减少描述符池。在使用 QSARINS-Chem 2.2.1 [16]、[17]、[20]进行主观特征选择 (SFS) 之前,消除了几乎恒定 (>95%)、恒定和高度相关 (|R| > 95%) 的描述符. 这导致仅包含 345 个描述符的集群减少。
  4. 下一步涉及消除高度深奥的描述符,即无法准确解释或难以根据结构特征解释的描述符[26]。这导致了一组只有 253 个易于解释的描述符。简化集仍然包含广泛的理论分子描述符,这些描述符考虑了不同的结构特征,即,结构 (0D-)、一维 (1D-)、二维 (2D-) 和三维 (3D-),捕捉和放大化学结构的各个方面。

描述符,是以数字形式来体现分子的化学特征,下图概括了描述符的基本定义,其选择主要考虑:1)尽可能使用少数描述符以增加对模型结果的解释;2)降低嘈杂的冗余分子描述符,以降低过度拟合的风险;3)尽可能提供更快且具有成本效益的模型…总而言之,方向就是通过减少输入空间的维度,但不能丢失任何重要信息。而分子描述符,已是QSAR/QSPR建模中最重要的特征之一,且描述符编码的信息通常取决于分子表示的类型和定义的计算算法。包括:拓扑、几何描述符,等等。

➣ 拓扑指数(TI)

是分子结构的数学描述符,用以反映分子的大小、形状、分支、杂原子、不饱和键等结构特征,从而实现分子结构信息的数值化;在不同理化特性、生物活性和药代动力学特性的建模中具有重要作用;最常用的是Wiener指数、 Connectivity指数、 Kier shape指数、Balaban J指数、以及 Zagreb指数,等。如Wiener指数,是最早的表达化学式构型的拓扑学指数,并已成为QSAR/QSPR研究中最常用的描述符之一。

➣ 几何描述符

根据给定分子中原子的3D坐标计算得出,其对相似的化学结构和分子构象具有丰富的信息和辨别能力;与拓扑描述符相比,可以获得更多信息;但过程需要优化,计算量大。相对而言,对于可以具有多种分子构象的柔性分子,可以获得更多信息;同时,复杂性增加。Ps:下图给出了常用的拓扑和几何描述符形式。

➣ 理化描述符

用来描述物质物理化学特征的参数,如化合物的亲脂性、溶解性和渗透性等。药物的这些特性,在一定程度上可以提高其药效,从而提高产品的临床及市场价值;因此,研究药物的这些特性不仅可以支撑安全性,而且还会大力助力候选化合物的药物发现过程。

  • 亲脂性:体内药物转运的关键特性,包括肠道吸收、膜通透性、蛋白质结合和组织分布;重点参数logP(重点关注clogP<5,尤其1~3)。
  • 渗透性:依赖于亲脂性,受分子大小、氢键、亲水性和电离度等影响,相关于BCS分类。
  • 水溶性:药物开发过程失败的最主要原因之一,与分子大小、刚性、亲脂性相关。

二、QSAR模型

QSAR 分析的首要原则和应用是获得与活性相关的结构特征的最大信息,并在分子实际合成和生物筛选之前预测其所需的活性。因此,为了实现这些目标,在模型生成过程中考虑了易于解释的描述符,并使用划分和未划分的数据集开发了多个 QSAR 模型[19]、[27]、[28]。

  1. 在选择描述符之前,数据集以随机方式分为训练集(80%)和预测(或测试)集(20%)。
  2. 采用多重分裂来开发多个 QSAR 模型[12],[15],这样一个分裂的训练集中的分子可能在另一个分裂的训练集中,也可能不在另一个分裂的训练集中。因此,多 QSAR 建模方法确保为控制分子生物学特征的分子描述符获得最大数量和信息。
  3. QSARINS-Chem 2.2.1的GA(遗传算法)模块用于选择最佳数量和描述符集。为了简单起见并避免过度拟合问题,描述符的启发式搜索仅限于使用 QSARINS-Chem 2.2.1 中的默认设置的四个描述符。
  4. Q2 loo被用作适应度函数来避免朴素Q 2的问题。QSAR 模型开发中使用的策略总结在图 3 [12]、[15]、[24]。

三、 模型验证

所有 QSAR 模型都需要经过适当验证,以确定其预测能力和实用性。QSAR 模型的统计质量和有效性通过以下方式确定:

  1. 通过留一法 (LOO,leave-one-out) 和留许多法 (LMO,leave-many-out) 程序进行的内部验证或交叉验证 (CV);
  2. 使用预测集;
  3. 数据随机化,即 Y 置乱
  4. 检查是否满足以下条件[12],[15]:R 2 tr ≥ 0.6,Q 2 loo ≥ 0.5,Q 2 LMO ≥ 0.6,R 2 > Q 2,R 2 ex≥0.6 ,RMSE tr < RMSE cv , ΔK ≥ 0.05, CCC ≥ 0.80, Q 2 - F n ≥ 0.60, r 2 m ≥ 0.6, (1− r 2 / r o 2 ) < 0.1, 0.9 ≤ k ≤ 1.1 或 (1− r 2 / r ' o 2 ) < 0.1, 0.9 ≤ k ' ≤ 1.1, | r o 2 - r ' o 2 | < 0.3,RMSE和MAE接近于零。这些参数的阈值证实了 GA-MLR 模型的稳健性和良好的外部预测能力。

因此,所有具有低内部和外部预测能力的模型随后都被拒绝了。

CV: crosss-validation

为了去除不相关的描述符,需要一个选择标准来衡量每个选择的描述符与分类器输出的相关性,下图描述了描述符的选择流程。该流程已成为开发QSAR模型的基础要求,通过该流程获得的模型,解释性和通用性高度依赖于描述符和目标属性之间的统计关系,这一过程中最好还需要行业专家对数据进行进一步的评价。

图3.1 特征描述符的选择流程(图片源:见参考文献1)

一项研究中,通过使用主成分分析(PCA)和3D可视化,应用于去乙酰化酶抑制剂的分子描述符,并揭示子空间具有不同的生物活性密度。结果提供的证据表明,某些结构特征对于去乙酰化酶抑制剂的生物靶标活性具有重要意义。下图给出了相关描述符选择的3种策略,即Filter、Wrapper、Embedded。

Filter选择描述符的子集作为预处理步骤,独立于归纳算法;优点是简单、快速;缺点是不与分类器相关。Wrapper方法是根据给定子集的分类器函数的误差选择最佳特征子集;与Filter方法相比,性能更好;只使用一个分类器。Embedded对底层分类器的结构很敏感,一种嵌入方法选择的特征可能不适合其他方法。

尽管有许多可用的特征选择技术,但在处理尚未正确理解的复杂性数据的不同方面时,通常建议结合几种方法或者混合方法。如在一项用于开发HIV-1蛋白酶抑制剂的预测模型时,预处理步骤,描述符从1559减少到605,又减少到56,且进一步通过4种不同的机器学习技术,即SVM、k-nearest neighbor(k-NN)、ANN、logistic regression,完成了模型的最终构建。

四、为什么要多个QSAR模型:

然而,这种“平等中的第一”方法具有以下缺点:

  1. 由深奥的描述符组成的 QSAR 模型,根据结构特征进行适当和现实的描述是非常成问题和具有挑战性的
  2. 单个 QSAR 模型可能不基于 (i) 训练和测试集的适当组合, (ii) 足够的化学和生物空间,即适当的适用范围,
  3. 单个 QSAR 模型可能对特定预测集具有高预测性,但对另一个预测集的预测性较差。

为了克服“平等中优先”方法的这些缺点,构建和报告多个模型或共识建模是两种简单、实用且有效的解决方案。

参考资料

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn