APP下载

基于迁移学习的2,6-二甲酚纯度近红外光谱在线检测

2022-03-03邬云飞栾小丽刘飞

化工学报 2022年2期
关键词:检测点苯酚纯度

邬云飞,栾小丽,刘飞

(江南大学自动化研究所,轻工过程先进控制教育部重点实验室,江苏 无锡 214122)

引 言

2,6-二甲酚(2,6-dimethylphenol,2,6-DMP)是重要的有机化工中间体,主要由苯酚和甲醇的气相或者液相烷基化合成,其氧化聚合可形成五大工程塑料之一的聚苯醚(PPO)[1]。此外,2,6-DMP 还被用于生产抗氧化剂[2]和检测洗涤剂[3]。在对2,6-DMP的分离提纯过程中,过去大多采用物理或者化学的测定法,即通过测定沸程、凝固点或者进行某些氧化还原反应滴定来确定2,6-DMP 纯度。针对这些方法测定组分单一、操作复杂的问题,陈藕君等[4]提出了用填充柱气相色谱法来测定2,6-DMP 纯度。但是上述测定方法均是由人工操作,测定时间长,不能用于在线检测,从而无法实时调控2,6-DMP 产品质量。

近红外光谱是一种快速、高效、多组分测定的分析技术,而且不需要对样本进行复杂的预处理,可以进行在线检测,已在酯交换过程[5-6]和聚合过程[7-8]中得到了成功应用。近红外光(near infrared)是介于可见光(Vis)和中红外(MIR)之间的电磁辐射波。近红外光谱区(760~2526 nm)与有机分子中含氢基团(O—H、N—H、C—H)振动的合频和各级倍频的吸收区一致,通过扫描样品的近红外光谱,可以得到样品中有机分子含氢基团的特征信息[9]。2,6-DMP 中的C—H 键具有吸收近红外范围内电磁辐射的能力,因此可以利用近红外光谱进行在线检测[10]。近红外光谱的在线检测需要建立一个稳健的模型,以保证模型在线运行的准确性。任玉林等[11]利用人工神经网络非线性多变量校正的特点,用于粉末药品甲氧苄胺嘧啶的近红外光谱快速分析,得到了令人满意的结果;瞿海斌等[12]提出近红外光谱的支持向量机回归校正建模方法,建立的三七药材渗漉提取液近红外光谱校正模型预测效果优于偏最小二乘回归模型和径向基神经网络模型;冯爱明等[13]将高斯过程回归方法作为新的化学计量学手段,对近红外光谱数据进行建模,得到了精确度高、解释能力强的分析模型,与人工神经网络和支持向量机相比,高斯过程模型参数明显减少;Chakraborty[14]将贝叶斯多元回归非线性模型应用于近红外光谱分析中,解决了光谱多重共线性以及波数远多于样本数的问题;Bian 等[15]引入极限学习机用于近红外光谱复杂样品的定量分析中,利用其可以结合线性和非线性方法的优点,建立了准确的校正模型;Wang 等[16]基于Monte Carlo 重采样、最小绝对收缩和选择算子及偏最小二乘方法提出了一种新的集成策略用于近红外光谱多元校正,充分利用已知训练集的信息,提高了单个模型的预测准确性。上述方法虽然提高了近红外模型的准确性与稳健性,但是不能解决样本数据区分度低、质量差的问题。

利用近红外光谱对2,6-DMP 纯度进行在线检测时,由于2,6-DMP 产品塔的产品纯度一般在99.10%~99.95%,光谱之间的区分度低,使得所采集的光谱和物性浓度之间缺乏相关性,导致2,6-DMP精馏提纯过程产品纯度的检测精度较低。由于迁移学习可以充分利用具有一定相似性的数据[17],实现不同数据域的知识传递,已被成功应用于工业过程的建模[18-21]以及故障诊断[22-25]等。因此本文将迁移学习引入2,6-DMP 精馏提纯过程产品纯度的近红外在线检测,充分利用粗品塔光谱数据中包含的知识,实现产品塔2,6-DMP 纯度的近红外在线建模,从而在目标检测点光谱区分度较低的情况下,建立具有可靠性和高预测精度的模型,为2,6-DMP产品质量的实时调控提供可能。

1 2,6-DMP精馏提纯过程

本文所研究的2,6-DMP 单体分离工段精馏提纯过程工艺如图1所示。首先,苯酚、甲醇和水进行烷基化反应,得到的反应气中包含2,6-DMP、邻甲酚、一氧化碳、二甲醚、氢气等物质以及未反应的苯酚和甲醇。然后采用精馏分离的方法获得纯度比较高的2,6-DMP 产品。反应气经汽化器降温后直接进入脱醇水塔,脱出醇水后进入脱苯酚塔脱出苯酚,剩下的反应气进入邻甲酚粗品塔;在邻甲酚粗品塔的塔顶脱出高含量的邻甲酚进入邻甲酚成品塔;邻甲酚粗品塔的塔底物料进入2,6-DMP 产品塔,塔顶获得纯度≥99%的产品2,6-DMP 供工程塑料单元使用。

图1 工艺流程图Fig.1 Process flow diagram

为了对2,6-DMP 精馏提纯过程的中间产品以及产品纯度进行在线检测,分别在脱苯酚塔的底部、邻甲酚粗品塔的底部和2,6-DMP 产品塔的顶部安装了近红外光谱检测探头,可以在线收集不同检测点的近红外光谱数据,同时将采集的样品送到化验室,通过气相色谱法分析获得光谱数据对应的物性浓度值。

由于各检测点的复合有机物含量不同,含氢基团相互影响,光谱存在明显的差异。但是有机成分存在交叉,吸收光谱的特征峰会有重叠,即不同检测点处采集的光谱数据具有相似性,如图2 所示。因此,针对2,6-DMP 产品塔的产品纯度无法精确建模问题,可以借助基于实例的迁移学习方法[26],提取出产品塔和脱苯酚塔以及邻甲酚粗品塔光谱之间的相似信息,利用不同塔之间的数据相似性,借助于其他塔中较低2,6-DMP 纯度的近红外光谱数据,提升产品塔中较高2,6-DMP 纯度的近红外模型性能。

图2 不同检测点处的光谱比较Fig.2 Spectral comparison at different detecting points

2 基于迁移学习的2,6-DMP 纯度建模

2.1 光谱采集与预处理

近红外光谱能够反映出物料成分的信息,但是采集到的样本光谱往往不仅包含需要的物质信息,还包含大量的噪声和无关信息,因此近红外光谱数据的采集与预处理至关重要[27]。本文以2,6-DMP产品塔顶部检测点采集的光谱数据为目标域,脱苯酚塔底部检测点和邻甲酚粗品塔底部检测点采集的光谱数据为源域。

(1)光谱采集:本文建模所用的原始光谱来自某合成材料公司的2,6-DMP 单体分离工段。采集样品时以空气作为背景扫描光谱,检测状态均为液相,温度100℃,选用透射式探头,安装方式是在出料管道设计旁路,在旁路安装法兰口,将透射式探头插入法兰口中,保证与物料流动方向呈45°夹角,以保证物料流动过程中不会在光程处产生堵塞。光程为1 mm,样本扫描次数为64 次,扫描光谱范围为12500~4000 cm-1,结果光谱为吸光度。

(2)光谱预处理:首先剔除掉近红外光谱首尾噪声较大且无关的波段,光谱图如图3(a)所示,横坐标为波数,纵坐标为吸光度,左侧为脱苯酚塔检测点采集的光谱,中间的为邻甲酚粗品塔检测点采集的光谱,右侧的为2,6-DMP 产品塔检测点采集的光谱。由图3(a)可知,各个检测点光谱数据存在不同程度基线偏移现象。使用The Unscrambler X软件进行基线校正处理,对于每条光谱,从所有变量中减去光谱中的最小值,消除仪器背景和漂移对测量光谱的影响,计算公式如式(1)所示。最后采用均值归一化方法进行数据标准化,即将每条光谱除以其平均值,消除变量间的量纲影响,计算公式如式(2)所示。预处理后的近红外光谱如图3(b)所示。

图3 数据预处理前后的光谱Fig.3 Near-infrared spectra before and after data preprocessing

其中,xnor表示均值归一化后的光谱;xcor表示基线校正后的光谱;xˉcor表示光谱的均值。

(3)纯度值标注:样本的纯度值由化验室通过气相色谱法分析获得,不同检测点处的2,6-DMP 纯度分布对比结果如表1 所示。脱苯酚塔检测点的2,6-DMP 纯度为73.90%~88.94%,苯酚脱去之后邻甲酚粗品塔检测点的2,6-DMP 纯度为96.47%~98.49%,产品塔检测点的2,6-DMP 纯度为99.81%~99.95%。随着纯度的提高,分布越来越集中,分散性低,且纯度值有很高的重复性,多样性差。

表1 不同检测点的2,6-DMP纯度值分布Table 1 2,6-DMP purity distribution at different detecting points

2.2 基于实例的迁移学习回归算法

为了解决2,6-DMP 产品塔的产品纯度由于样本区分度低导致的无法建模难题,本文采用基于实例的迁移学习TrAdaBoost.R2 算法[28],通过加权的方式对三个检测点的光谱加以利用。基于boosting 思想,以迭代的形式,调整目标域和源域光谱的权重。

TrAdaBoost.R2算法具体描述如下。

(1)输入:设脱苯酚塔和邻甲酚粗品塔的样本集为Ta=(xi,yi) ,i= 1,…,n,产品塔样本集为Tb=(xj,yj) ,j= 1,…,m,其中xi、xj表示脱苯酚塔和邻甲酚粗品塔与产品塔的光谱,yi、yj表示脱苯酚塔和邻甲酚粗品塔与产品塔光谱对应的2,6-DMP 纯度值,n为脱苯酚塔和邻甲酚粗品塔的样本个数,m为产品塔的样本个数;令X={xi,xj;i= 1,…,n,j= 1,…,m},Y={yi,yj;i= 1,…,n,j= 1,…,m},合并的样本集T=Ta∪Tb。

(2)设置迭代次数N和基学习器Learner,并进行参数初始化。

(4)输出最终的产品塔模型fN(⋅)

TrAdaBoost.R2 算法通过建立光谱权重自动更新机制,减小不同检测点采集光谱之间的分布差异,保留脱苯酚塔和邻甲酚粗品塔中和产品塔相似性大的光谱,淘汰掉与产品塔差异较大的光谱,从而使粗品塔的光谱能够帮助提升产品塔模型的检测精度。应用该算法建模的流程如图4所示。

图4 迁移学习算法建模流程图Fig.4 Modeling flow diagram of transfer learning algorithm

2.3 偏最小二乘回归算法

本文的基学习器Learner 是偏最小二乘回归(partial least squares regression,PLS 回归)算法[30],PLS 算法不仅能解决变量的多重共线性问题,还能降低光谱数据的维度,建立起光谱数据X={xi,xj;i= 1,…,n,j= 1,…,m}与2,6-DMP 纯度Y={yi,yj;i= 1,…,n,j= 1,…,m}之间的回归关系。

(1)PLS 算法首先对X和Y归一化处理,然后提取主元

选取合适的主元个数能够有效减少预测误差,避免过拟合,主元个数一般通过交叉验证确定。

3 仿真分析

(1)将2,6-DMP 产品塔采集的数据按照3∶2 比例分为训练集和测试集,建立模型。模型性能的评价指标为预测均方根误差(root mean square error of prediction,RMSEP),计算公式如下

其中,r为测试集的样本个数;ŷk为第k个测试样本的预测纯度值;yk为第k个测试样本的实际纯度值。

如图5 所示,当只用2,6-DMP 产品塔的光谱数据进行建模时,模型得到的预测值不能跟随实际值的变化趋势,具有较大的误差。

图5 2,6-DMP产品塔光谱数据建模预测效果Fig.5 Prediction effect based on spectral data of 2,6-DMP product tower

(2)为了分析不同纯度区间的辅助光谱对2,6-DMP 产品塔纯度检测精度的影响,将脱苯酚塔检测点和邻甲酚粗品塔检测点采集的光谱数据,按照纯度分别划分为11 个和10 个区间,如表2 所示。每个区间内包含30 个光谱,与产品塔训练集的30 个光谱组成合并训练集,产品塔的测试集保持不变。

表2 不同检测点的2,6-DMP纯度区间划分Table 2 Domain partition of 2,6-DMP purity at different detecting points

为了更直观地观察TrAdaBoost.R2算法效果,引入指标性能提升百分比IP,计算公式如(15)所示。

其中,RMSEPPLS表示仅使用产品塔训练集训练PLS 模型的预测均方根误差;RMSEPTrAdaBoost.R2-PLS表示使用合并训练集并运用TrAdaBoost.R2 算法训练PLS模型的预测均方根误差。

为了比较TrAdaBoost.R2算法的性能,分别用支持向量机回归和BP神经网络算法进行建模,支持向量机回归选择线性核函数,BP神经网络的隐含层数为5,训练网络迭代次数为100。图6(a)是迁移脱苯酚塔的光谱数据辅助建模所得的建模误差,图6(b)是迁移脱苯酚塔的光谱数据后的模型性能提升百分比。图7(a)是迁移邻甲酚粗品塔的光谱数据辅助建模所得的建模误差,图7(b)是迁移邻甲酚粗品塔的光谱数据后的模型性能提升百分比。合并光谱曲线表示脱苯酚塔光谱或邻甲酚粗品塔光谱与产品塔光谱合并后运用偏最小二乘回归算法的建模误差,迁移光谱曲线表示脱苯酚塔光谱或邻甲酚粗品塔光谱与产品塔光谱合并后运用迁移学习算法的建模误差,支持向量机曲线表示脱苯酚塔光谱或邻甲酚粗品塔光谱与产品塔光谱合并后运用支持向量机回归的建模误差,BP神经网络曲线表示脱苯酚塔光谱或邻甲酚粗品塔光谱与产品塔光谱合并后运用BP神经网络的建模误差。

图6 脱苯酚塔不同纯度区间对迁移结果的影响Fig.6 Different purity domain of dephenolization tower impact on transfer results

图7 邻甲酚粗品塔不同纯度区间对迁移结果的影响Fig.7 Different purity domain of crude o-cresol tower impact on transfer results

从图6 和图7 中可以看出,借助脱苯酚塔和邻甲酚粗品塔检测点不同纯度范围的光谱数据,用TrAdaBoost.R2 算法建立的模型性能都有明显的提升。与支持向量机回归和BP 神经网络方法相比,TrAdaBoost.R2 算法建立的模型性能也具有明显的优势。借助脱苯酚塔检测点的光谱数据时,在纯度81.00%~81.50%的区间内,性能提升最高,达到了27.4%。借助邻甲酚粗品塔检测点的光谱数据时,在纯度97.30%~97.40%的区间内,性能提升最高,达到了20.5%。

(3)为了分析不同的辅助光谱数据样本量对2,6-DMP 产品塔纯度检测精度的影响,将脱苯酚塔检测点纯度为81.00%~81.50%的光谱数据和邻甲酚粗品塔检测点纯度为97.30%~97.40%的光谱数据以5 个光谱数递增,与产品塔训练集的30 个光谱组成合并训练集,产品塔的测试集保持不变。

图8(a)是迁移脱苯酚塔不同数量的光谱的建模误差,图8(b)是迁移后的性能提升百分比。图9(a)是迁移邻甲酚粗品塔不同数量的光谱的建模误差,图9(b)是迁移后的性能提升百分比。观察图8(a)和图9(a)可知,用TrAdaBoost.R2 算法建立的模型性能一直优于合并光谱直接建立的模型性能。由图8(b)和图9(b)可知,不同的辅助光谱数量对产品塔模型性能的提升程度不同,随着辅助光谱数的增加,迁移后产品塔的模型性能提升百分比呈上升趋势。

图8 脱苯酚塔不同光谱数对迁移结果的影响Fig.8 Different number of spectra of dephenolization tower impact on transfer results

图9 邻甲酚粗品塔不同光谱数对迁移结果的影响Fig.9 Different number of spectra of crude o-cresol tower impact on transfer results

从图8 和图9 可知,迁移脱苯酚塔光谱纯度为81.00%~81.50%,数量为40 时,模型性能提升最大,RMSEP 值为0.0472。图10(a)是此时迁移光谱模型曲线与合并光谱模型曲线,图10(b)是迁移光谱模型预测值、合并光谱模型预测值与实际值的散点图。由图10 可知,迁移学习TrAdaBoost.R2 算法建立的模型预测效果更好。

图10 模型曲线和预测值散点图Fig.10 Model curves and scatter plots of prediction

4 结 论

本文利用2,6-DMP 分离工段精馏提纯过程不同检测点近红外光谱数据的相似性,提出了一种基于迁移学习思想的2,6-DMP 纯度近红外在线检测方法,以解决随着产品纯度提升样本区分度低、多样性差的问题。利用某合成材料公司的近红外光谱数据进行了实例验证,比较了不同纯度范围和不同光谱数对迁移后模型性能的影响。结果表明,引入迁移学习后,在样本分散性不足的情况下能够有效提升高纯度2,6-DMP 的检测精度,具有良好的应用前景。同时,实例验证表明,辅助光谱的数量和质量对模型性能的提升会产生不同的影响,未来工作将进一步深入研究光谱数量和质量与建模精度的定量关系。

猜你喜欢

检测点苯酚纯度
蛋壳制备羟基磷灰石及其对苯酚的吸附性能研究
苯酚对厌氧氨氧化颗粒污泥脱氮性能抑制作用的研究
核酸检测点上,有最可爱的平江人
骑马做核酸
一种苯酚焦油中苯酚与苯乙酮的回收方法
退火工艺对WTi10靶材组织及纯度的影响
陶瓷膜催化臭氧氧化处理苯酚模拟水的研究
浅谈鼓风机轴振动在线监测的检测点设置
磷酸法合成肌苷酸工艺的优化
环境监测仪器管理中存在的问题及改进措施