基于PCA-PSO-SVR的PV 型旋风分离器粒级效率建模

2020-09-25李立毅张林林

太原理工大学学报 2020年5期

张玮，李立毅，张林林

（太原理工大学化学化工学院，太原030024）

PV型旋风分离器是一种高效的气固分离器［1］。目前已广泛应用于高温高压和高含尘浓度条件的工业领域中。PV型旋风分离器的结构如图1所示，主要参数为：入口高度a、入口宽度b、排气管直径dr、排气管插入深度S、筒径D、筒体高度H1、锥体高度H2.

图1 PV型旋风分离器结构Fig.1 Structure of PV cyclone separator

分离效率是评价一台PV型旋风分离器性能的重要参数。因此，获得一个能够准确预测效率与结构参数、操作条件之间复杂非线性关系的数学模型对于工业生产是非常必要的。现在用于计算旋风分离器效率的各种理论模型［2-4］，都是基于单个颗粒的运动，并没有考虑颗粒群之间的相互作用，例如团聚、夹带及碰撞［6］。此外，这些模型尚未涉及结构参数对旋风分离器性能的影响，因此它们不是通用的。由于从理论上解决这类问题具有难度，罗晓兰等［6］应用相似理论并对大量实验数据进行回归分析，得到了与各种相似准数相关联的PV型旋风分离器的粒级效率计算公式。但是，由于这种计算方法的假设并不一定符合真实情况，而且回归模型的准确度是需要大量的数据来进行弥补的。

近年来，机器学习算法正在成为新的研究热点，这些方法可以在不了解现象本质的情况下利用样本数据来处理复杂非线性关系的数学模型。目前，有些学者利用计算流体动力学（computational fluid dynamics，CFD）模拟得到数据样本或实验得到数据样本，然后将BP神经网络、径向基神经网络（RBF）、广义回归神经网络（GRNN）和SVR等算法成功应用到了对切向进口的旋风分离器的压降和效率建模［7-14］。但是，利用CFD模拟来获得建模数据需要付出巨大的时间成本。另外，这些工作在建模的前期确定模型输入因素时会根据理论和实验分析把一些对输出因素影响程度较小的输入因素人为删除掉，这样会导致部分信息的损失。由于在PV型旋风分离器效率方面理论研究的欠缺，同时为了提高模型的通用性和准确性，本文利用文献中收集的217组实验数据［5，6，15］，取对 PV 型旋风分离器效率影响最大的8个因素作为输入变量，这8个因素分别是筒径D、入口截面比Ka＝πD2／4ab，排气口下口直径比~dr＝dr／D，入口气速vi、入口浓度ci、粒径δ、颗粒密度ρp、中位粒径δm，粒级效率ηi作为输出变量，建立了一种基于PCA-PSO-SVR的PV型旋风分离器的粒级效率模型，并将该模型与PV型旋风分离器的粒级效率的多元回归模型和其它几种混合模型进行了对比。

1 支持向量回归机理

支持向量机（support vector machine，SVM）是一种基于统计学习理论的机器学习算法，它在数据样本量较少时，也能得到良好的统计规律［16］。SVR基本思想是：将线性不可回归的样本点通过升维实现线性化。在SVR中，目标函数是凸的，这意味着始终可以达到全局最优。引入核函数概念的SVR问题可以用图2来表示。解决非线性回归问题其实就是求解权重ωi和阈值b的过程。

图2 支持向量回归示意图Fig.2 Schematic diagram of support vector regression

求解权重ωi和阈值b的过程就是对式（1）的二次规划问题进行求解：

式中：C为惩罚系数，我们需要选取一个合适的惩罚系数来平衡模型复杂度和经验风险［17］；ω为权重向量；1／2‖ω‖2表示模型复杂度；m表示样本容量；ξi、ξ＊i表示松弛变量；ε为不敏感损失系数，它表示模型的容错程度。采用拉格朗日乘数法和KKT条件可以将式（1）的二次规划问题转换为式（2）的对偶最优化问题：

式中：αi，α＊i，αj，α＊j表示拉格朗日算子；K（xi，xj）表示核函数。

最终得到的逼近函数为式（3）：

样本的非线性映射受核函数的影响，因此选取一个合适的核函数对支持向量回归非常关键。当前，可以在SVR算法中使用的核函数分别是多项式函数、高斯径向基函数（RBF）、Sigmoid（S形）核函数等［18］。因为RBF泛化性能强，形式简单、且支持非线性回归，因此，本文选用RBF作为SVR的核函数，它的表达行式如（4）［19］：

K（x，xj）＝exp（-g‖x-xi‖2）. （4）式中：g为核函数参数。通过改变g的值就可以决定模型的复杂度及性能。

2 基于PCA和PSO的SVR建模

利用PCA-PSO-SVR对粒级效率建模的具体流程图如图3所示。

图3 PCA-PSO-SVR流程图Fig.3 Flow chart of PCA-PSO-SVR

其中，主元分析法（PCA）是一种最常用的无监督降维算法，它可以根据最大方差理论将m维特征映射到更低的n维上，这n维特征称为主元，它们之间没有相关性但是能够反映出样本空间的大部分信息。

PSO算法是由EBERHART和KENNEDY［20］根据鸟类捕食行为开发出的一种进化优化算法。在寻优过程中，每一个粒子都有各自的速度、位置和由目标函数决定的适应度值。在迭代过程中，每个粒子通过个体极值Pid和全局极值Gid来更新自己的速度和位置。速度和位置更新公式如下：

式中：i表示第i个粒子，d表示维度，t表示迭代次数，c1和c2表示学习因子，r1和r2表示0到1之间的随机数，ω表示线性递减的惯性权重，Pid表示第i个粒子在第d维上的个体极值，Gid表示所有粒子到目前为止的全局极值。在经过n次迭代后的全局最优位置就是算法寻找到的最优解。

2.1 变量选择

2.1.1 输入变量

影响旋风分离器分离效率的主要因素有以下两个方面：结构参数和操作参数。其中，筒径、入口截面比和排气管下口直径比是对分离效率有重要影响的三个结构参数；入口气速vi、粒径δ、入口浓度ci、中位粒径δm、颗粒密度ρp和粉尘粒度分布均方差σ是对收集效率有影响的主要操作参数。其中，粉尘粒度分布均方差σ对分离性能的影响可以忽略。综上所述，输入变量总共有8个。

2.1.2 输出变量

描述旋风分离器收集效果的参数有粒级效率ηi和总效率η.如果用总效率建模需要考虑颗粒的粒径分布，增加了建模的难度，所以输出变量选择为粒级效率ηi.

综上所述，SVR模型的输入输出变量及部分数据如下表1所示。确定好输入和输出变量之后，SVR模型训练的目的就是找到一个合适的函数f（·）使其满足公式（7）：

2.2 基于PCA的数据集降维

在使用统计分析方法的研究中，太多的变量会增加问题的复杂性，并且计算量也会增大。因此，本研究采用主元分析法来对原始数据集进行降维处理。

本文中利用PCA降维的方法将8维的特征空间矩阵降到了5维，这5个主成分所占整个信息的百分比可以达到99.85%.

表1 支持向量机回归模型的输入和输出变量及部分样本数据Table 1 Input and output variables of support vector regression model and some sample data

2.3 基于PSO的SVR参数优化

在建模时，SVR的预测精度主要取决于3个超参数：惩罚因子C，核函数参数g和不敏感损失函数ε.这些参数仅凭先验知识很难确定适当值，因此本文采用PSO算法优化这3个参数。

本文中粒子群算法通过5-fold交叉验证来评估每个粒子的适应度值［21］。为了防止SVR模型过度拟合，在粒子群优化过程中为均方根误差（RMSE）设置一个下限，并且当RMSE开始小于这个下限的时候寻优结束。

式中：n为样本个数；yi表示真实值；f（xi）表示模型的预测值。

本文中采用PSO对SVR参数优化的流程［22］如下：

1）初始化PSO算法的各个参数，如下表2所示。

表2 PSO参数设置Table 2 Parameter setting of PSO

2）利用训练集结合5-fold交叉验证来计算不同参数组合对应的适应度值，作为初始的个体极值，计算全局极值。

3）根据公式（5），（6）更新粒子的速度和位置，并计算粒子的适应度值，更新个体极值和全局极值。

4）重复步骤3直至满足结束条件，得到最优的参数组合。

寻优结果随迭代次数的变化如图4所示。通过迭代50次后，训练集通过5-fold交叉验证得到的均方根误差达到3.123×10-4，最后的寻优结果中C、g和ε的值分别是660，0.673和0.026.

图4 适应度曲线Fig.4 Fitness curve

2.4 评估指标

为了评估模型的好坏，我们引用了均方误差MSE和相关系数R2两个性能参数来评估。公式（12）和（13）介绍了这两个参数的计算方法：

式中：n表示样本数目；yi表示真实值；f（xi）表示模型的预测值；¯y表示真实值的平均値；¯f表示预测值的平均值。

3 结果与讨论

3.1 PCA-PSO-SVR模型模拟结果与实验对比

本文建立的PCA-PSO-SVR模型对粒级效率的预测值与实际实验数据对比如图5所示。横坐标是文献中报道的粒级效率实验值，纵坐标是PCAPSO-SVR模型输出的预测值，圆形数据点和三角形数据点分别表明PCA-PSO-SVR模型对训练样本和测试集的模拟结果。可以看出，PCA-PSO-SVR模型在训练阶段的均方误差MSE为4.192×10-4，相关系数为R2为0.988，能够达到较高的训练精度。在测试阶段的均方误差MSE为6.948×10-4，相关系数为R2为0.982时，预测结果仍然较好。结果表明，PCA-PSO-SVR模型具有很好的泛化能力和鲁棒性，能够有效地拟合粒级效率和不同影响因素之间的复杂非线性关系。

图5 PCA-PSO-SVR模型模拟结果与实验数据对比Fig.5 Comparison of PCA-PSO-SVR model simulation results with experimental data

3.2 PCA-PSO-SVR模型与多元回归模型预测结果对比

罗晓兰等［6］针对传统的旋风分离器效率通用性不好等缺点，对实验数据进行了回归分析，得到了一系列PV型旋风分离器的粒级效率多元回归公式。本文对两种模型的模拟结果进行了对比，如图6所示。图中横坐标为测试样本，纵坐标为粒级效率的值。图中的棕色菱形点表示多元回归模型的预测结果，它的均方误差和相关系数分别为0.026 1和0.892.绿色圆点表示PCA-PSO-SVR模型的预测结果，均方误差和相关系数分别为6.948×10-4和0.982.通过与红色圆点（实验值）的对比，结果表明，PCA-PSO-SVR模型在处理小样本和提高模型的泛化能力方面具有显著的优势。

图6 PCA-PSO-SVR模型与多元回归模型预测结果对比Fig.6 Comparison of prediction results between PCA-PSO-SVR model and multiple regression model

3.3 PCA-PSO-SVR模型与各种改进SVR模型预测结果对比

图7 显示了使用SVR的各种改进算法对PV旋风分离器粒级效率进行建模的模型预测结果的对比。PCA-PSO-SVR模型与其它模型相比有着更小的均方误差和更高的相关系数。从算法运行一次的平均时间上来看，采用标准网格法优化的SVR模型用时145.07s；改用PSO优化SVR后，用时降低，仅为25.63s；PCA-SVR由于需要反复迭代，用时最长，为3 508.85s；采用粒子群优化后，PCA-PSOSVR模型用时为502.65s.综上所述，主元分析法（PCA）有效地减少了特征空间的维数，降低了模型的复杂度，提高了泛化能力。在寻找SVR的超参数时，粒子群优化算法（PSO）不仅可以提高寻优速度，而且能够提升模型的准确性。

图7 PCA-PSO-SVR模型与PCA-SVR模型、PSO-SVR模型和SVR模型预测结果对比Fig.7 Comparison of prediction results between PCA-PSO-SVR model and PCA-SVR model，PSO-SVR model，SVR model

4 结论

针对现有旋风分离器粒级效率模型在通用性、准确性等方面的不足，以及对PV型旋风分离器效率模型研究手段的单一，本文提出了根据实验数据，利用PCA-PSO-SVR算法对PV型旋风分离器的粒级效率进行建模的方法。建模结果显示：主元分析法（PCA）能够有效减少特征空间的维数，去除一些噪声数据，使模型的复杂度降低，泛化能力提升；PSO作为一种优化算法可以很好地优化SVR模型的参数；优化好参数的SVR模型可以成功地预测PV型旋风分离器的粒级效率，由PCA-PSO-SVR建立的PV型旋风分离器粒级效率模型要比其他模型预测能力更好、稳定性更高、泛化能力和鲁棒性更好。