APP下载

基于热扩散核密度确定密度峰值法的历史工况识别

2022-04-26毕荣山韩智慧陶少辉孙晓岩项曙光

化工学报 2022年4期
关键词:高斯模态聚类

毕荣山,韩智慧,陶少辉,孙晓岩,项曙光

(青岛科技大学化工学院,山东青岛 266042)

引 言

近年来,随着物联网、大数据和人工智能等技术的兴起,数据驱动的方法在工业智能化的进程中扮演着重要角色。在实际生产过程中,原料性质、生产方案或操作条件等因素的变动将导致生产过程的多模态化[1],如发酵过程[2]、冶金过程和锅炉燃烧过程等,对其过程进行数字化时往往存在着非线性、多模态和变量间的强相关性等问题[3−4]。因此,深入研究多模态过程的特点对实际生产有着重要作用。通过获取历史工况特征,不仅可以为当前装置选择合适的工况模型及参数进行优化,也能为生产决策提供重要的数据参考,如污水处理装置的智能优化、管道泄漏的自动化检测和生产运行状况的有效评估[5−6]等。

在对多模态过程的研究中,由于不同工况间存在着较大的差异,研究者通常假设每种工况下的过程数据近似服从一种高斯分布,运用主成分分析(PCA)、偏最小二乘(PLS)、独立成分分析(ICA)和支持向量数据描述(SVDD)模型等方法提取工况数据的特征,然后建立模型应用于过程故障检测、过程控制和过程优化等[7−10]。由于每种工况下的数据具有相似性,有学者将数据聚类的方法用于多模态过程的特征提取[11]。常用的聚类方法包括模糊C 均值法[12]、K−均值法[13]、高斯混合模型(GMM)[14−15]和隐马尔可夫模型(HMM)[16]等,这些方法在获取数据特征时具有一定的有效性,但仍存在一些无法避免的缺陷。如K−均值法需要事先确定聚类数量,对数据中的噪声点敏感;模糊C 均值法存在聚类数量和参数选取的问题;HMM模型需要事先知道各种模态的概率且固定不变;GMM 模型在使用期望最大法求解时,存在计算量较大、对模型参数的初值敏感和容易陷入局部极值等问题,这些缺点都将导致无法准确地识别工况[17−18]。有学者对GMM 模型进行深入研究,提出了给定模型参数初值[19]和基于信息准则确定聚类数量[20]的方法,其中F−J 的方法较为著名[21−22],它通过在迭代计算中不断剔除冗余的高斯分量得出聚类结果,但是该方法需要一个较大的聚类数量导致计算量大且收敛困难,其结果的准确性也不能保证。

快速搜索发现密度峰[23](CFSFDP)是基于局部密度的一种聚类技术,它根据聚类中心点密度较大且与其他中心点距离较远的特点,引入高斯核密度估计函数(KDE)计算数据点的密度,再通过欧氏距离计算数据点间的距离,从而完成数据聚类。但是该方法的聚类效果取决于截距参数,为避免这一点,有学者对其进行改进并提出了无须事先确定截距参数的热扩散核密度确定密度峰的技术[24](CFSFDP−HD)。本文提出将CFSFDP−HD 技术与GMM 模型结合的方法,首先通过CFSFDP−HD 方法对多模态过程数据进行聚类,然后将聚类结果作为GMM 模型的初值,从而对多模态过程的工况进行较准确的估计。

1 工况识别方法

1.1 高斯混合模型

过程数据Xn×d是d维的n个样本数据,且X={x1,x2,…,xn},其概率密度函数可表示为:

其中,k为高斯模型的数量,τi和θi={μi,Σi}分别为第i个高斯模型的权重和参数(平均值和协方差)。

第i个高斯模型对应的高斯密度函数为:

M步骤:

基于最短信息长度准则的F−J 方法只需对式(6)进行如下修改,即可得到较为理想的聚类结果。

1.2 热扩散核密度确定密度峰技术

基于热扩散的高斯核函数为:

P(di,dj,t)为样本点i到j的转移概率,t为核函数的带宽,di-dj为样本j到i的距离。

估算任意样本点i的概率密度函数为:

式(9)为KDE 的完全自适应形式,考虑了最佳带宽选择和边界校正。其中n为一个较大的整数,本文取n为样本数量,αk为:

最佳带宽的选择使用了改进的Sheather-Jones(ISJ)方法[26],其计算步骤如下:

其中,当l≥5 时,l的取值对式(11)的计算结果影响很小,故本文中取l=5。

带宽t的详细求解步骤如下:

(1)设置一个较小的容差ε= 10−9,令yq=ε,q=0;

计算每一样本点i到最近的高密度点j的距离:

1.3 提出方法的计算步骤

本文提出的方法对近似服从高斯分布的未知多模态稳态工况进行识别时,首先利用CFSFDP−HD 技术对多模态过程数据进行聚类,确定聚类中心点及其个数(即工况个数),然后将每一类数据的平均值和协方差作为GMM 模型的初值,迭代求出不同工况的特征参数。其计算过程如下:

(1)将数据标准化处理,求取参数αk;

(2)由参数αk和式(11)~式(15)得出最佳带宽t;

(3)由式(9)和式(16)的结果画出决策图,并由此完成聚类;

(4)将每一类的特征参数作为GMM 模型初值,求出最终工况参数。

通过以上步骤即可完成对历史工况的准确识别,下面通过第2 节中的两个例子对该方法进行验证。

2 方法验证与结果分析

2.1 仿真数据

根据文献[27]中的多模态仿真模型生成过程数据,然后分别用本文提出的方法、K−均值法和GMM(F−J)的方法进行工况识别,数据生成模型如式(17)所示:

图1 基于热扩散核密度的工况识别方法流程图Fig.1 Flow chart of recognizing operating modes based on kernel density estimation of heat diffusion

式(18)为数据标准化的方法,xi,j表示第i个变量的第j个数据,x͂i表示标准化处理后的第i个变量的向量数据,xi,min表示第i个变量的最小值,xi,max表示第i个变量的最大值。

其中,e1~e3是服从[0,0.01]的高斯白噪声分布,通过调整s1和s2的参数,生成含3 个变量(x1、x2和x3)的多模态过程数据。其中模态1 是变量s1和s2分别服从高斯分布为[20,0.8]、[1,1.3]得到的300个数据;模态2是变量s1和s2分别服从高斯分布[5,0.6]、[20,0.7]得到的300 个数据;模态3 是变量s1和s2分别服从高斯分布[16,1.5]、[20,0.7]得到的300 个数据;模态4是和模态2 在相同参数(工况)下产生的300 个数据,用于检验三种方法能否准确地获取实际的工况状态。

将生成数据用式(18)进行标准化处理,其分布情况如图2 所示,可以看出数据有四个阶段,其中300~600 和900~1200 阶段的状态相同,然后分别对三种方法进行验证。使用本文方法画出关于密度和距离的决策图,见图3,图中有三个中心点,表明本文方法根据过程数据识别出三种工况,每个中心点表示一种工况的数据中心。然后根据数据点到中心点的距离将其分类,将每一类的结果作为GMM模型的初值,从而得出不同工况的特征参数。使用K−均值法进行工况识别时,由于聚类数量是未知的,所以将聚类数量分别设置为3、4 和5,其中K=5时的结果与实际相差较大,其结果未在表1中列出。使用GMM(F−J)方法时,需要设置初始聚类数量(K)大于实际工况数量,本文分别设为4、5 和6,GMM 模型的初值设置为将过程数据平均分成K份,每份数据的特征参数[19],先验概率设为1/K,其中K= 6 时的结果与K= 5 时的结果几乎相同,其结果未在表1中列出。三种方法的工况识别结果见表1。可以看出本文方法获取的多模态过程的工况个数及其特征参数(变量的平均值和工况的先验概率)与实际值一致。当K−均值法的聚类数量与实际工况数量一致时(K=3),得到的工况特征参数与实际值的相对偏差较小,当聚类数量大于实际工况数量时(K=4),得到的工况特征参数与实际值的相对偏差较大,由此看出该方法的工况识别效果取决于聚类数量的准确选择。GMM(F−J)方法给定不同的初始聚类数量(K=4、5)时均将工况识别为4种,未能准确识别出实际工况的个数,但得到的工况特征参数与实际值的偏差在0.01~−20.39,其结果仍具有一定的参考价值。

图2 仿真多模态过程数据标准化Fig.2 Normalization of multi−modal process simulation data

图3 仿真多模态过程数据的聚类中心决策图Fig.3 Clustering center decision diagram of process data for simulating multiple operating modes

表1 仿真多模态过程的工况识别结果Table 1 Recognition results of simulation multiple operating modes

2.2 TE过程

Tennessee Eastman(TE)工业过程是由美国Eastman 化学品公司开发的复杂工业过程的仿真平台,它包括六种工作模态,每种模态具有不同的产品比例(G/H),该流程包含12 个操作变量、22 个连续过程测量变量和19个组成测量变量[28−30]。本文选取TE 过程中模态1~模态4 作为多模态过程,选取41 个测量变量作为工况识别的变量,其中每种模态取300 个数据为1 组,第5 组和第3 组为相同模态下的数据,具体模态选取情况见表2。

表2 TE过程的模态选取情况Table 2 Mode selection of the TE process

将过程数据用式(18)进行标准化处理,选取反应器温度、A 和C 的混合进料量、产品分离器压力和回收流量4 个变量画出分布图,见图4,可以看出5 个阶段中600~900 和1200~1500 的状态相同,然后分别用三种方法进行验证。本文方法得到的决策图见图5,图中有4 个中心点,表明本文方法识别出4 种工况,然后使用GMM 法获取每种工况的特征参数。将K−均值法的聚类数量(K)分别设为4、5 和6,其中K= 5 和6 的结果与实际相差较大,其结果未在表4 中列出。将GMM(F−J)方法的初始聚类数量设为4、5 和6 时,该方法均无法获取工况参数。三种方法工况识别结果的典型数据见表3、表4。

图4 4个TE过程变量的标准化Fig.4 Normalization of 4 TE process variables

图5 TE多模态过程数据的聚类中心决策图Fig.5 Clustering center decision diagram of TE multi−modal process

从表3可以看出本文方法得到的历史工况的个数和先验概率与实际值一致;K−均值法的结果则取决于设定的聚类数量K,当K与实际一致(K= 4)时也可以较准确获取历史工况的个数及先验概率,但是当K= 5 和K= 6 时,其结果与实际相差较大。GMM(F−J)法则无法获取到工况的参数。

三种方法过程变量的识别结果见表4,可以看出本文提出的方法识别结果的平均相对偏差在−0.0043~−1.3681,最大相对偏差为−4.748,最小相对偏差为−0.0014;K−均值法识别结果的平均相对偏差在−0.0043~−1.4371,最大相对偏差为−4.9847,最小相对偏差为−0.0014。结合表3、表4 可以看出GMM(F−J)法不适合本案例的工况识别,本文方法和给定准确聚类数量的K−均值法都可以较准确地识别出工况特征,但K−均值法的准确性依赖于聚类数量的选择,而本文方法则没有这种约束。

表3 TE多模态过程的工况个数及先验概率的识别结果Table 3 Recognition results of the number and probability of the TE multi-modal process

表4 TE多模态过程变量的识别结果Table 4 Recognition results of TE multi-modal process variables

3 结 论

针对目前工况识别方法的不足,提出将人工智能领域的CFSFDP−HD 技术与GMM 模型结合用于对多模态过程的历史工况进行识别的方法,避免了K−均值法需要预先提供准确聚类数量的缺点,并利用案例对本文所提方法进行了验证,结果表明:GMM(F−J)法不能保证准确地识别工况,K−均值法只有在给定正确工况数量的前提下才能获得较好的结果,而本文方法则可方便、有效地对历史多工况进行准确识别,具有更强的实用性。

符 号 说 明

d——过程变量的个数

g(x|θi)——第i个高斯模型所对应的高斯密度函数

K——聚类的数量,也是高斯模型的数量

k——第k个高斯模型,也表示第k个数据

P(s)(Ck|xj)——第j个样本点第s次迭代属于第k个高斯模型的概率

P(di,dj,t)——样本点i到j的转移概率

p(x|θ)——概率密度函数

t——高斯核密度估计函数的带宽

Xn×d——样本数据矩阵,n为样本数,d为变量数

xi,j——变量i的第j个样本数据

xi,max——变量i的最大样本数据

xi,min——变量i的最小样本数据

δ——样本点到附近高密度点的距离

θi——第i个高斯模型的参数

μi——第i个高斯分量的变量平均值

ρi——样本点的密度

Σi——第i个高斯分量的方差

τi——第i个高斯分量的权重

猜你喜欢

高斯模态聚类
基于BERT-VGG16的多模态情感分析模型
多模态超声监测DBD移植肾的临床应用
跨模态通信理论及关键技术初探
数学王子高斯
天才数学家——高斯
面向WSN的聚类头选举与维护协议的研究综述
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法
从自卑到自信 瑞恩·高斯林