APP下载

我国QSPR在预测有机物沸点中的研究进展

2020-07-20李瑜哲吴高胜许保云王世忠

山东化工 2020年12期
关键词:分子结构描述符沸点

李瑜哲,吴高胜,艾 波,许保云,王世忠,宗 睿

(上海化工研究院有限公司,上海 200062)

随着工业技术的飞速发展,各式各样的化工产品深入到人们生产和生活中。目前,全世界大约有800多万种化学品,且以每年1000多种的速度不断增加,但是人们并非详细了解世界上所有化学品的性质,甚至对于日常使用的约7万种化学品,也尚未完全测得它们的物理化学性质。这给化工设计,特别是过程计算带来了不小的挑战。

沸点是化工设计中常用的物性数据之一,其不仅能够用来判断化合物的存在相态,而且能够以此来计算临界温度、蒸发热等重要性质,是化工计算中的重要参数。然而,人们并非掌握所有化合物的沸点数据,这也促使了物性估算方法的发展。目前,对于沸点缺失的纯物质,虽然已经有如参数关联法[1-2]、基团贡献法[3-4]等方法可以进行估算,但往往无法做到对所有类别的化合物都有较好的估算能力,且准确度可能并不高。而对于二元或多元混合物,估算结果往往误差较大,甚至错误判断混合物的共沸情况,从而错误计算共沸温度与组成,而这些参数在化工分离工艺设计中至关重要。另一方面,通过实验获取数据,经常面临着周期长、成本高、工作量巨大的问题,对于某些剧毒、易挥发等化学品甚至难以进行实验[5]。因此,快速、准确地获取到沸点等关键数据,在预测有机物性质、指导分离过程、乃至加速人们对化学品的认识,都具有十分重要的意义。

定量结构-性质相关(Quantitative Structure-Property Relationship,QSPR)研究是一种寻求分子结构与化合物性质潜在关系的方法。在完成QSPR模型的建立后,计算时仅需要输入分子的结构信息,无需其他实验参数即可预测相关新的、甚至未合成的化合物的性质。因其弥补了实验研究方法的不足,且预测准确度高,自1962年药物化学家Hansch[6]首次提出以来,渐渐成为预测化合物性质的重要工具,已经被广泛地应用于有机物闪点[7-8]、燃点[9-10]、毒性[11-12]等各类性质的预测中,为化学、环境及生命科学的研究提供了重要的理论依据。近年来,QSPR方法也在预测沸点、共沸物组成等方面得到实际应用,表现了从分子层面指导分离过程的潜力。本文主要介绍QSPR的计算原理及国内有机物沸点预测模型的研究进展。

1 QSPR的基本原理与研究方法

QSPR的根本在于假设化合物的性质与分子结构密切相关,且性质可以通过分子结构的各种参数来定量描述[13],从而根据定量化的分子结构计算得到化合物的性质。QSPR研究结合了计算化学与统计学的方法,简单来说,其对通过分子结构计算得到的分子描述符,建立化合物性质与对应参数之间的数学定量关系,完成建模后,输入待预测分子的结构参数,即可通过模型得到对应的性质。

QSPR的基本研究步骤,即实现方法包括:样本的构建,分子描述符的选择与计算,模型的建立、与评价。在上述方法中,找到合适的分子描述方法与选择合理的模型建立方法是QSPR的核心。近年来,随着计算机与机器学习算法的发展,其也越来越多地应用到QSPR模型的建立过程中[14]。

2 QSPR预测有机物沸点的研究进展

我国采用QSPR方法研究、预测有机物沸点开始于20世纪90年代。最初,科研人员采用图论、拓扑指数等方法简单描述分子的结构,之后随着计算化学的发展,模型中逐步包括了描述支化程度、分子振动、基团贡献度等详细描述某样分子特性的参数,但选取何种参数构建沸点模型完全取决于科研人员,建立模型也多采用线性回归。随着计算机技术的发展与普及,科研人员逐渐采用计算机软件计算分子描述符,再结合统计学方法根据相关度原则进行筛选,最后使用线性或非线性等多种方法构建模型。本节详细介绍了烃类、芳香族、含氧脂肪族和卤代烃4种化合物的沸点预测模型研究进展。

2.1 烃类化合物

烃类化合物的分子大小、形状和支链情况都会影响其沸点,我国学者对正烯烃、支链烷烃、炔烃、双烯烃、环烯烃、烯烃顺反异构等化合物均开展了研究。

1994年,王克强[15]根据国外对饱和烃类的相关研究,首次提出了采用QSPR计算正烯烃沸点的方法。其借助图论对分子结构进行数值化表征,使用一、二、三级结构信息定量描述分子的大小、形状与键型,使用非线性函数拟合得到沸点计算模型,并对39种正烯烃的沸点进行了预测,结果表明计算值与实验值的平均误差为0.054%,最大误差为0.26%,模型很好地描述了正烯烃的沸点,但是该模型还不具备预测同分异构体的能力。

随后,张玉林等[16]首次引入分子支化度概念,采用碳原子数和Wiener拓扑指数描述分子结构,使模型具备区分同分异构体的能力,其对支链烷烃提出了新的沸点计算公式:

式中:W0、P0、W、P分别表示碳原子数相同的直链烷烃及支链烷烃的Wiener指数,A、B、y为常数,N为碳原子数,Tb为沸点。作者采用最小二乘法对74个支链烷烃沸点数据进行拟合,模型的平均相对误差为1.101%。

林治华等[17]采用分子距离边数矢量(MDE)和多元线性回归(MLR)技术建立了包括烷、烯、炔、双烯、烯炔烃的沸点模型,5次随机从153个样本中抽取102个作为训练集,剩下的作为测试集,预测结果平均相关系数为0.9973,153次交互检验的平均相关系数为0.9971,表明模型有较强的稳定性与预测性。

仇明华等[18]结合分子动力学方法,对单烯烃分子中每个“CHn”基团建立了振动方程,并使用有限元分析方法得到固有频率这一结构特征向量,使用多元回归方法对150个单烯烃分子进行了计算,优化后模型的相关系数为0.9965,同时作者将模型拓展至环烯烃沸点的预测,但是最后的模型对待预测的烃类仍有结构限制,无法将一个模型拓展至所有烃类。

杨慧等[19]提出了一种可以适用于所有烃类的模型建立方法。其使用CODESSA软件计算出烃类分子的296种分子描述符,使用了启发式回归(HM)与最佳多元线性回归(B-MLR)两种方法筛选合适的描述符并建立了模型,同时将最佳多元线性回归选出的描述符采用支持向量机(SVM)算法建立了非线性模型,HM、B-MLR与SVM模型对测试集的相关系数分别为0.9779、0.9821与0.9938,平均绝对误差百分率为11.6%、7.83%与4.46%,相比SVM模型预测更准确,误差更小。

此外,刘新华[20]使用分子结构矩阵,对烯烃顺反异构体的沸点进行了成功的预测。

2.2 含氧脂肪族化合物

含氧脂肪族化合物的沸点不仅与分子大小和形状有关,还应考虑氧原子及含氧基团的影响,我国对脂肪酮、脂肪醚、脂肪醇、脂肪酸等化合物均有研究。

王克强采用图论的方法,首先提出了以分子结构为基础的脂肪酮〗[21]和脂肪醚[22]沸点模型。二者与烃类相比增加了氧原子,因此在计算分子大小和形状的基础上,还量化了羰基对脂肪酮、氧原子对脂肪醚的影响程度。作者对49种脂肪酮进行了非线性拟合,得到模型的平均相对误差为0.43%,最大相对误差为1.35%;对36种脂肪醚进行了非线性拟合,得到的模型平均相对误差为0.66%。

林治华[23]采用分子距离边数矢量和多元线性回归技术建立了脂肪醇的沸点模型,在分子距离边数矢量中额外引入羟基标识以计算羟基对沸点的影响,该模型共含有14个描述符,对124种脂肪醇的拟合结果表明,模型的相关系数为0.9946,同时,模型成功预测了25种脂肪醇的沸点,相关系数为0.9937。

张运陶[24]使用HyperChem7.0软件计算了与脂肪醇沸点相关的10种描述符,并采用逐步回归分析筛选出8个,在此基础上使用支持向量机、多元线性回归和径向基函数神经网络算法分别建立模型,之后以119种脂肪醇为样本,使用留一法交叉验证得到三种模型的相关系数分别为0.993、0.988、0.987,标准偏差分别为4.774、6.501、6.724,表明支持向量机模型具有更好的预测性能。

刘万强[25]分别通过对六类含氧脂肪化合物醇、醚、醛、酮、酸和酯的QSPR沸点模型的研究,提出了一个六类含氧脂肪化合物的统一模型。作者采用最佳子集回归算法选择合适的描述符,结合多元线性回归方法建立模型,优化后模型仅含有2个描述符,分别代表官能团对沸点的贡献度,和烷基碳链的相对长度和烷基的支链化程度及位置信息。该模型对468个样本的训练集的相关系数为0.9846,对52个样本的测试集的相关系数为0.9857,具有较好的预测性能。

此外,刘凤萍等[26]、陈炫等[27]也成功建立了脂肪醛酮的QSPR沸点模型。

2.3 芳香族化合物

芳香族化合物的沸点主要与分子大小、形状、苯环数量和支链情况有关,目前的主要对烷基苯、烷基联苯、烷基萘和多环芳烃等化合物开展了研究。

范雪娥[28]首次提出使用图论方法计算烷基苯的沸点,作者将分子大小、形状与碳链的弯曲程度分别通过连通图、矩阵元与三级结构信息S量化,采用非线性函数拟合法得到沸点计算模型,并对18种单烷基苯进行了计算,模型的平均相对误差为0.19%。

孟繁宗等[29]随后提出了预测多烷基苯沸点的模型,其将Balaban连通性指数J与烷基位置指数m引入距离矩阵,量化分子结构,最后对34种多烷基苯的沸点进行了回归,提出如下经验公式:

式中:N为碳原子数,S为拓扑指数。模型的相关系数大于0.99,平均相对误差为0.94%。

王克强[30]使用距离矩阵提出了一种可同时预测烷基苯和烷基联苯的非线性模型,其将碳原子划分为苯环碳原子与烷基碳原子,从而量化二者性质的差异,通过对190种烷基苯和烷基联苯的计算结果进行分析,模型的平均相对误差为0.77%,相关系数为0.9985,具有较好的预测能力。另外,作者[31]采用相似的方法预测烷基萘的沸点,对70个样本的计算结果表明,模型平均相对误差为0.43%,相关系数为0.997。

杨善升[32]采用密度泛函数理论计算得到8个分子描述符,对训练集中45个多环芳烃分子,用遗传算法(GA)结合支持向量机回归得到了沸点的非线性模型,通过训练集留一法交叉验证方法优化了模型参数,相关系数为0.997,该模型对测试集中12个多环芳烃分子的沸点具有很好的预测性能,相关系数为0.999。

2.4 卤代烃化合物

卤代烃化合物的沸点主要与分子大小、卤族元素的取代位置、种类和数量有关,我国对氟、氯、溴、碘的取代物均开展了研究。

1997年,吕庆章等[33]首先应用人工神经网络(ANN)的反向误差传递算法(BP)对乙烷氟氯衍生物的沸点进行了建模,作者人工选取了5个分子描述符,分别为氟原子个数、氯原子个数、分子中F-C-C-F的片段数、分子中Cl-C-C-Cl的片段数和分子中F-C-C-Cl的片段数,模型使用由26个样本组成的训练集进行训练,对12个样本的测试集进行测试,在最优参数的情况下,模型的绝对误差为0.949%,且对同分异构体有良好的预测能力。

冯瑞英[34]将卤代乙烷沸点模型的适用范围拓展,使其同样可以计算含碘及溴的情况。作者选取了3种分子描述符,分别为卤原子个数、卤原子分布和分子极性,模型对74种卤代乙烷的沸点进行了回归,相关系数为0.997,标准偏差为4.69℃。王克强[35]采用相似的研究方法,使用卤原子个数和分子极性两种描述符,建立了卤代甲烷的沸点模型,并对40种卤代甲烷的沸点进行了回归,相关系数为0.995,平均相对误差1.75%。

高坡[36]应用分子连接性指数法,计算卤代烃的一、二、三阶分子连接指数,将三者与分子量平方根共同作为描述符,对100种卤代烃的沸点进行多元线性回归,建立了一个可以预测各种卤代烃的模型,相关系数为0.890,标准偏差19.366。

此外,李艳青[37]和李凤芹[38]均采用拓扑指数,分别对乙烷氟氯衍生物和饱和卤代烃的沸点进行了较好的预测。

3 QSPR预测共沸混合物沸点的研究进展

目前,国内已有研究将QSPR预测纯有机物沸点的模型拓展至预测二元共沸混合物的共沸温度,且相较传统模型具有较好的预测能力。

吕利平[39]对102种低碳酯二元共沸物建立了共沸温度模型。作者使用HyperChem8.0软件构建及优化分子结构,使用Materials Studio 7.0软件计算得到15类420种纯组分的分子描述符,并通过筛选获得与共沸温度相关性较高的33种,二元混合物的分子描述符通过平均值法计算,之后采用遗传-多元线性回归法选择较好的描述符并拟合得到预测模型,该模型含有6种分子描述符,对样本集的相关系数为0.964,标准误差为3.6,优于基团贡献法的计算结果。

曾行艳[40]对125种含水二元共沸物建立了共沸温度模型。作者同样使用HyperChem8.0软件构建及优化分子结构,Materials Studio 8.0软件计算得到15类344种纯组分的分子描述符,并通过筛选获得与共沸温度相关性较高的76种,二元混合物的分子描述符通过“Kay’s mixing rule”规则计算,之后采用遗传算法进行分子描述符的进一步筛选,采用多元线性回归建立预测模型,含有8种分子描述符,对样本集的相关系数为0.9606。同时作者指出,该QSPR模型的预测准确度远高于基团贡献法,具有较强的预测能力。

4 总结

本文简述了QSPR方法的基本原理,不难看出QSPR方法为研究人员提供了一种在分子水平上了解物质的微观结构对宏观性质影响的手段。同时,本文分别详细论述了国内烃类、芳香族、含氧脂肪族和卤代烃共4类化合物的沸点预测模型与计算方法,从发展历程中可见:

(1)QSPR模型从一开始只涵盖具有特定特征的一种分子,渐渐地发展到支持预测某一大类的分子,其使用局限性正逐渐降低,而预测准确性和泛化推广能力逐渐超过其他方法。

(2)随着分子拓扑学及量子理论的发展,越来越多的分子描述符开始应用于QSPR中,而计算过程也从人工逐渐转变为速度更快、计算更准确的计算机辅助计算,目前有不少计算分子描述符的专业软件,如CODESSA、Materials Studio等。

(3)常用的QSPR方法有多元线性回归、偏最小二乘法、人工神经网络法及支持向量机方法,其中神经网络和支持向量机均具有强大的非线性拟合能力,同时相比“黑箱”建模的神经网络方法,支持向量机具有严格的数学理论基础,越来越多的应用在QSPR建模中。

另外,虽然我国对二元共沸混合物共沸温度预测的研究才刚刚起步,但研究结果均表现出优于基团贡献法的预测能力,展现了QSPR方法在计算二元乃至多元混合物性质方面的广阔应用前景,具有协助化工过程计算与设计的强大潜力,定将会在化学和化工领域得到更广泛的应用。

猜你喜欢

分子结构描述符沸点
基于结构信息的异源遥感图像局部特征描述符研究
分析答题错误根源 扫除熔沸点比较雷区
基于AKAZE的BOLD掩码描述符的匹配算法的研究
人物2020年度沸点
三步法确定有机物的分子结构
基于深度学习的局部描述符
压裂返排液中瓜胶浓度检测及分子结构解析
有机化学专项训练(二)
解读分子结构考点
特征联合和旋转不变空间分割联合的局部图像描述符