APP下载

基于随机森林与多元线性回归的咪唑啉衍生物缓蚀剂的构效关系研究

2019-03-06刘友权李坤唐永帆吴文刚王道成张燕孙川

石油与天然气化工 2019年1期
关键词:缓蚀剂特征参数咪唑

刘友权 李坤 唐永帆 吴文刚 王道成 张燕 孙川

1.中国石油西南油气田公司天然气研究院 2.四川大学化学学院

抗腐蚀是油气工业发展的一个极其重要的问题,其中添加缓蚀剂是一种极为有效的防腐蚀措施[1]。缓蚀剂是一种当它以适当的浓度和形式存在于环境中时,可以防止或减缓腐蚀的化学物质或复合物[2]。缓蚀剂添加于腐蚀介质中大大降低金属腐蚀速率的现象,称为缓蚀作用。缓蚀作用的大小通常采用缓蚀效率(IE)来表示:

(1)

式中:V0为未加入缓蚀剂时金属的腐蚀速率,mm/a;V为加入缓蚀剂后金属的腐蚀速率,mm/a。

缓蚀效率越大,缓蚀剂的阻碍或延缓腐蚀的效果就越好。

目前,对于有机缓蚀剂的分子结构与缓蚀性能的关系研究基本上是基于量子化学的计算方法[3-7]。另外,Camacho-Mendoza 等运用密度泛函理论对不同种类缓蚀剂的构效关系做了较为深入的电化学分析[8];Li等探讨了影响苯并咪唑衍生物QSAR模型效果的量子化学参数,使用主成分分析进行特征压缩后,利用基于径向基核函数的支持向量机方法建模,结果证实量子化学参数与缓蚀效率之间存在着非线性关系[9]。Shirazi等从分子自身结构出发,提出了一种基于简单的分子结构因子的表征方法,然后采用多元线性回归方法建模预测30个吡啶及咪唑衍生物的缓蚀效率。通过比较,该方法获得了比传统基于量子化学参数更好的预测效果[10]。

本研究从分子整体结构特性出发,对15种不同十一烷基咪唑啉衍生物缓蚀剂的缓蚀效率进行研究。在基于量子化学特征基础上,扩大特征空间,从能量、电荷、分子表面与信息量、立体构象与拓扑特征6个方面对唑啉类缓蚀剂进行分子表征,继而利用随机森林(RF)与多元线性回归(MLR)分别对55个结构参数进行评估,从两种方法得出的8个重叠参数进行C83的组合,得到56个线性回归模型,并选出了最优模型。

1 实验部分

数据来源:15种十一烷基咪唑啉衍生物的化学结构与缓蚀效率数据来自文献[5],其基本结构见图1。其中:R1为长烷基疏水基团,固定为—CH2(CH2)9CH3;R2为亲水基团,15种不同的亲水基团见表1。15种缓蚀分子的缓蚀性能采用失重法测定获得,并利用做平行实验求均值的方法减小IE的测定误差。为获得每个分子的合理的初始构象,首先利用ChemBio Office 软件绘制咪唑啉化合物的2D分子结构,然后运用Chem3D模块中的分子力学(MM)方法对每个分子进行结构优化,获得其能量最低3D结构。

表1 15种咪唑啉衍生物缓蚀剂的化学结构Table 1 Chemical structures of 15 imidazoline corrosion inhibitors

2 结果与讨论

2.1 分子结构参数的计算

利用Material Studio 8.0 的QSAR模块计算得到55个分子结构描述符,55个描述符分别表征了能量、电荷、分子表面与信息量、立体构象与拓扑特征6个方面的特征。55个特征参数见表2。

2.2 特征参数的重要性评估与筛选

本研究中,运用了两种不同的特征挑选方法实现对55个特征参数的评估与筛选。第一种方法是在RF中采用Gini重要性评估对每个特征进行了重要性打分,每个特征的得分结果如表3所列,得分越高,说明其越重要。 第二种方法是对每一个特征都做一次线性回归,然后根据每一个MLR模型的相关系数(R2),挑选出最重要的特征,其R2值越高,说明越重要,结果见表3。 从表3可看出:通过Gini重要性得分,排名前10的特征为第1、3、11、12、16、 20、26、31、40和44;根据线性回归分析的R2值排序,前10的特征为1、11、12、16、20、26、31、40、46和50。两种不同的评估方法得到的特征重要性重合率较好,有8个均在两种方法中位列top10,说明这8个特征对缓蚀效率具有重要的影响。

表2 由Material Studio计算得到的55个分子特征Table 2 55 structural descriptors calculated by Material Studio序号特征类别特征参数12345能量/ΔETotal energyBinding energyHOMO energyLUMO energyLUMO-HOMO energy6789偶极矩/μTotal dipoleDipole xDipole yDipole z101112空间构象/ÅConnolly surface areaConnolly surface occupied volumeSolvent surface area131415热动力学参数AlogPAlogP98Molecular refractivity1617181920212223242526信息量Information content (IC)Bond information content (BIC)Complementary information content (CIC)Structural information content (SIC)Edge adjacency/magnitudeEdge distance/magnitudeVertex adjacency/equalityVertex adjacency/magnitudeVertex distance/equalityVertex distance/magnitudeAtomic composition (total)2728293031323334353637383940414243444546474849505152535455拓扑指数Molecular flexibilityBalaban index JXBalaban index JYWiener indexZagreb indexKappa-1Kappa-2Kappa-3Kappa-1 (alpha modified)Kappa-2 (alpha modified)Kappa-3 (alpha modified)Subgraph counts (0): pathSubgraph counts (1): pathSubgraph counts (2): pathSubgraph counts (3): pathSubgraph counts (3): clusterSubgraph counts (3): chainChi (0)Chi (1)Chi (2)Chi (3): pathChi (3): clusterChi (3): chainChi (0) (valence modified)Chi (1) (valence modified)Chi (2) (valence modified)Chi (3): path (valence modified)Chi (3): cluster (valence modified)Chi (3): chain (valence modified)

表3 55个结构特征重要性排名列表Table 3 Ranking list of the importance scores for 55 structural descriptors序号特征参数Gini重要性得分排名1相关系数(R2)排名21Total energy189.937 62610.747 112Binding energy3.735 578480.186 6423HOMO energy68.291 81840.188 8414LUMO energy41.846 727120.501 5225LUMO-HOMO energy35.940 065160.503 7216Total dipole16.820 683280.035 87477Dipole x15.574 455290.015 93488Dipole y32.156 727200.001 037519Dipole z30.945 463210.000 671 25210AlogP34.968 065180.484 72511AlogP9890.814 59220.605 7312Molecular refractivity52.691 34250.623 9213Connolly surface area9.427 134400.3253514Connolly surface occupied volume14.498 051300.443 13115Solvent surface area4.112 668470.233 13816Information content (IC)68.530 47430.601 1417Bond information content (BIC)28.390 891220.300 53718Complementary information content (CIC)13.370 623330.178 34319Structural information content (SIC)33.086 131190.358 23420Edge adjacency/magnitude50.714 07960.592 6621Edge distance/magnitude13.307 032340.539 31322Vertex adjacency/equality23.575 582250.525 71423Vertex adjacency/magnitude7.633 154440.524 61524Vertex distance/equality9.505 577390.520 71825Vertex distance/magnitude10.602 804370.539 91226Atomic composition (total)50.136 72570.559 71027Molecular flexibility6.024 963450.108 74628Balaban index JX25.452 984240.001 1485029Balaban index JY41.257 198130.010 094930Wiener index8.923 83410.509 52031Zagreb index49.317 55880.566 8932Kappa-113.703 143320.497 92333Kappa-23.263 887500.190 34034Kappa-35.498 997460.221 63935Kappa-1 (alpha modified)2.924 788520.465 72836Kappa-2 (alpha modified)3.279 507490.1424537Kappa-3 (alpha modified)2.935 844510.177 34438Subgraph counts (0): path8.817 162420.520 81739Subgraph counts (1): path17.205 305270.521 51640Subgraph counts (2): path44.953 418100.589 4741Subgraph counts (3): path44.424 737110.475 82642Subgraph counts (3): cluster8.262 96430.437 33243Subgraph counts (3): chain053-5344Chi (0)49.010 65990.5451145Chi (1)12.024 782360.487 12446Chi (2)41.077 853140.596 5547Chi (3): path22.923 926260.469 22748Chi (3): cluster9.594 495380.319 83649Chi (3): chain054-5450Chi (0) (valence modified)35.851 582170.569 8851Chi (1) (valence modified)14.205 253310.449 72952Chi (2) (valence modified)26.361 785230.518 31953Chi (3): path (valence modified)13.181 044350.448 43054Chi (3): cluster (valence modified)40.073 144150.433 33355Chi (3): chain (valence modified)055-55

2.3 建模分析

为防止过拟合, MLR一般要求样本数(n)与特征数(m)的比值在5左右。根据15个样本数,需要挑选出最多3个最重要的特征来表征这些分子。为寻找最优的特征组合,从8个参数中随机挑选出3个进行组合,共组合了56个不同的特征子集,然后采用MLR进行建模比较以筛选出最优的特征子集。其结果比较见图2。

从图2可看到,P-value最低且R2最高的模型为最优模型(用红色点表示)。该模型的3个特征分别为Total energy(Te)、Information content (Ic)、Molecular refractivity(Mr),其回归模型见式(2),其R2为0.843 0,P-value=0.000 099 38。

IE=-5.517-0.010 1×Te+15.601 7×Ic+0.222×Mr

(2)

式中:Te为分子的总能量,代表分子的结构稳定性,由于每个分子的Te为负值,分子的结构越稳定,能量越低,则其缓蚀效率越高;Ic则反映了分子的连接性和支化度,与分子对称性和形状有关,通过该方程可以看出,分子对称性好,则Ic值高,其IE值就高;第3个关键描述符Mr为分子的折射率,折射率越高,则缓蚀效率越高。

通过本研究发现,与以往基于复杂量子化学计算不同的是,尽管也计算得到了包括HOMO energy等量子化学参数,但是把特征空间扩大后,通过特征评估显示其他的非量子化学参数也与缓蚀效率紧密相关。这与Shirazi等人的结论较类似,他们通过对分子整体结构进行简单表征所建立的QSAR模型比基于量子化学参数的模型效果更好[13]。 根据最后模型,得到了每个缓蚀剂分子的预测结果,如表4所列。

从表4可看出,样本O的预测相对误差达到了18.9%,而其他的均在10%以下。 因此,姑且认为该分子为奇异样本,删除该分子后,对剩余的14个分子进行MLR建模,其R2值提高到了0.911。该结果说明,该奇异样本确实对模型的预测效果产生了偏置(bias)。进一步删除第二大偏差的H分子(相对误差8.5%)后,剩余的13个分子的模型R2达到了0.93,模型显示出很高的预测能力。

表4 15种咪唑啉衍生物缓蚀剂的实验缓蚀效率和预测缓蚀效率Table 4 List of predicted IE values for 15 imidazoline corrosion inhibitors样本IE实验值IE预测值绝对误差相对误差A64.0160.379 942 983.630 057 0220.056 710 78B67.4369.158 123 8-1.728 123 8-0.025 628 412C79.3274.106 3065.213 693 9980.065 729 879D83.2182.151 248 361.058 751 6380.012 723 851E89.6387.290 463 272.339 536 7340.026 102 161F95.0397.122 576 26-2.092 576 257-0.022 020 165G59.7860.212 078 14-0.432 078 137-0.007 227 804H74.5469.049 360 316.490 639 6890.085 923 215I78.2479.354 408 61-1.114 408 611-0.014 243 464J62.7863.059 930 67-0.279 930 667-0.004 458 915K82.2877.244 060 515.035 939 4860.061 204 904L67.2167.291 971 38-0.081 971 377-0.001 219 631M72.1075.471 989 67-3.371 989 668-0.046 768 234N66.3369.966 591 02-3.636 591 017-0.054 825 735O58.1769.181 516 53-11.011 516 53-0.189 298 892

本研究用到的15个分子IE值均为实验方法测定获取,其评价方法会存在一定的误差。该研究结果是在假定实验数据准确的前提下得出的,如果有更准确、更多的样本数据可以获取,那么该研究的结果有望进一步得到修正与提高。

3 结 论

(1) 从能量、电荷、分子表面与信息量、立体构象与拓扑特征6个方面对分子进行结构表征。结合随机森林与线性回归对55个结构参数进行了评估,筛选出了8个均在两种方法中位列top10的特征,说明两种方法的筛选重合率较好,证明了8个重要性特征的可靠性。

(2) 从8个特征中挑选3个进行随机组合,构建 56个MLR模型,从而筛选出了最优的QSAR模型,其最优的特征组合为Te、Ic与Mr,留一法的模型预测效果好,R2为0.911。

(3)Te、Ic、Mr与缓蚀效率具有较高的正相关性,分子结构越稳定、对称性好及折射率高,则其IE值就越高,为设计新型高效的缓蚀剂提供了理论指导。

猜你喜欢

缓蚀剂特征参数咪唑
不同浓度的缓蚀剂对水轮机常用低合金钢的腐蚀防护研究
LH油田酸化用缓蚀剂优选
冕洞特征参数与地磁暴强度及发生时间统计
一种针对高矿化度的缓蚀剂的制备及性能评价
申嗪霉素和咪唑菌酮复配对几种病害的室内毒力测定研究
基于交通特征参数预测的高速公路新型车检器布设方案研究
基于PSO-VMD的齿轮特征参数提取方法研究
基于视频的车辆特征参数算法研究
WB-1复合气相缓蚀剂对清代带锈铁质钱币文物的保护研究
普萘洛尔与甲巯咪唑对甲亢进症的临床治疗效果观察