APP下载

半监督支持向量机的空气处理机组夏季故障诊断

2018-10-22钟超文陆慧娟叶敏超

中国计量大学学报 2018年3期
关键词:置信度标签空气

钟超文,花 君,严 珂,陆慧娟,叶敏超

(中国计量大学 信息工程学院,浙江 杭州 310018)

空调带故障运行将会引起空调消耗大量的电能,并且会导致室内的空气质量降低影响设备的寿命,使设备的维修成本增加.在夏季,全球暖通空调(HVAC)系统消耗的能源大约占建筑总能耗40%[1-2].对空调各种故障数据进行及时、准确的预测和诊断,可达到使空调高效工作并减少系统消耗的效果.

空气处理机组(Air handling units,AHU)是空调系统的重要组成部分,空气处理机组的性能直接影响到空调系统的性能.其主要功能是通过连续供应室外空气来控制室内空气质量,抽取室内空气和部分室外空气以控制出风温度和风量来维持室内温度[3].其中混合空气、室内空气和从室内返回空气的混合物在空气处理机组中调节,根据环境需要,通过将混合气流加热或者冷却盘管实现调节.空气处理机组故障类型包括机械故障、控制问题、设计错误和操作员干预等.一些学者已经在故障诊断方面进行了大量的研究工作主要是运用一些机器学习的方法对故障进行诊断[4-6].

随着现代工业化高速发展,空调制造技术不断精良,目前使用的空调系统高效低耗,很少出现设备故障的情况,很难获得故障样本信息.因此利用少量的标记样本和大量的未标记样本来提升学习性能是机器学习领域上一个重要研究方向.

本文利用半监督支持向量机(Semi-supervised support vector machine, SS-SVM),针对空气处理机组夏天的主要故障类型进行诊断.所提出的方法不需要大量标记样本就能获得较高的分类准确率,将半监督学习与支持向量机(support vector machine, SVM)相结合从未标记样本中选择当前模型中标记置信度高的样本,然后加入到训练样本集中,以此来提高SVM的学习性能.

1 相关工作

1.1 半监督学习

半监督学习的基本思想是利用少量的已标注样本和大量的未标注样本进行训练和分类的问题.利用数据分布上的模型假设,引入大量的无类标签的样本数据和少量有类标签的样本数据,建立分类模型,训练得到分类性能更好的模型,从而实现对无类标签的样本分配标签[7-10],如图1.

图1 半监督学习示意图Figure 1 Semi-supervised learning diagram

1.2 支持向量机

SVM是一种建立在统计学习理论基础上的机器学习方法,跟传统统计学相比具有更好的学习性能和泛化性能,因而在各领域广泛利用[11-12].传统的SVM是有监督学习方式,它可以自动寻找那些对分类有较好区分能力的支持向量,因而有较高的泛化性和较高的分类准确率.对于数据集(xi,yi),i=1,2,…,n,x∈Rd,对应的优化问题可以表示为

(1)

式(1)中,ai为第i个样本相对应的拉格朗日乘子,K(x,xj)为核函数,C为惩罚因子.由于在实际应用中会遇见许多非线性问题,所以需要引入核函数将非线性可分的输入样本映射到高维的特征空间,在高维特征空间中将样本变为线性可分[13-15].径向基函数(RBF)可把初始的特征空间映射到无限维的特征空间,因此比较适合处理高维数据.RBF核函数可表示为

(2)

式(2)中,σ是核参数.

2 算法

2.1 特征选取

本文利用序列前向选择算法(Sequential forward selection, SFS)提取数据中的重要特征,并使用欧式距离作为评价函数,算法流程如图2.特征预选择是机器学习处理的重要步骤,在工程分析上,比如空气处理机组的故障诊断的过程中,特征选择可消除不必要的特征属性,有利于后续的实验数据分析.在ASHRAE项目1312提供的原始数据集中,有超过140个特征属性.本文利用序列前向选择特征选择算法选取8个最重要的特征属性,具体特征描述如表1.

图2 特征选取流程图Figure 2 Feature selection flow chart

序号特征特征描述1SA-TEMP送出气流温度2MA-TEMP混合气流温度3RA-TEMP回风温度4SA-HUMD送出气流湿度5RA-HUMD回风湿度6OA-TEMP室外空气温度7CHWC-DAT水冷管排气温度8E_ccoil冷却/加热线圈的能耗

2.2 基于后验概率的置信度

在训练的过程中,半监督学习是从未标记样本中选择当前标记置信度高的样本,然后加入到训练样本集中从而提高学习性能[16].因此,置信度是对预测或分类结果的评价,主要的计算方法主要包括基于数据分布的EM方法、基于K近邻的置信度、基于后验概率的方法等[17].本文采用的是基于后验概率的方法,计算出SVM分类结果的后验概率.

最早考虑SVM后验概率的学者是Vapnik、Wahba和Platt,Vapnik提出一种将SVM的离散输出映射为概率的方法[18].对于二分类问题,可将SVM看作为

f(x)=h(x)+b.

(3)

(4)

式(4)中,A、B是使用最大似然法对训练集(f(xi),yi)进行估计得出.

对于k类数据,用“一对多”方法训练得到k个SVM分类模型再由Pllat提出的算法计算出每个SVM的概率公式[19]:

(5)

式(5)中:pi为样本x属于第i类的概率.决策规则为

(6)

因此,在k类数据中pi值最大的类别为该样本所属的类.

2.3 半监督支持向量机

实验中包括两个样本集合:已标记的样本记为Cl,包含少量的有标签的空气处理机组正常运行数据和空气处理机组故障状态数据;未标记的样本记为Cu,包含大量无标签的空气处理机组故障状态数据.

半监督支持向量机算法伪代码描述如下:

输入:已标记数据集Cl,未标记数据集Cu,第i个样本数据Xi;

输出:当前分类器类标记相对确定的样本Cl1;

Begin

创建一个空的数组Cl1;

While(1)

使用已标记数据集训练分类器C;

计算出未标记数据集Cu的行数N;

计算出每行最大的置信度con;

ForiFrom 1 toNstep 1

设定最佳置信度阈值ε

If con 大于εThen

将第i个样本数据Xi加入Cl1中;

End if

将Cl1加入已标记数据集Cl中;

将Cl1从未标记数据集Cu中删除;

End for

If 未标记数据集Cu不为空 Then

Break;

End if

End while

End

在算法运行过程中,通过训练分类器,保证初始分类器具有较高分类准确率和泛化性能,通过预选选出类标签置信度较大的未标记样本,而不是将所有的样本同时进行半监督学习,这样可减少半监督训练的样本规模,减少在迭代学习中误差积累的影响.上述步骤的流程如图3.

图3 标签识别流程图Figure 3 Label identification flow chart

3 实验

3.1 实验数据

本文选用的空气处理机组实验数据是由ASHRAE project 1312-RP题为“用于评估空气处理单元的故障检测和诊断方法的工具”提供.测量的数据是由两台同时运行的空气处理机组系统产生.该系统分别命名为AHU-A和AHU-B,其中AHU-A为正常运行模式,AHU-B为模拟不同的故障条件.最终记录下了在春、夏、冬三个季节中每分钟设备的运行数据.

本文选择了2007年夏天的数据集,在实验中选取了正常样本数据和其中比较常见的6种故障样本数据,如表2.

表2 故障原因描述

3.2 实验设计

首先对样本数据进行归一化处理,可将数据限制在实验需要的一定范围内,抑制其他干扰并且方便实验数据的后续处理,保证程序运行的过程中收敛加快.本实验中对有类标记数据和未标记数据同时进行归一化.

在实验中,数据集中正常样本数为21 600个,每种故障的样本数为1 440个共17类数据,从中选择正常类标签和6种典型故障,共7个类作为实验对象.在实验中,将大量有标签的正常样本和少量有标签的故障样本作为SVM的初始训练样本,除已选择的初始样本外,所有的数据集去除类别标记作为未标记样本集.在每组实验中本文选择8 000个正常样本数据,每类故障样本选择5~55个作为训练集,剩余的故障样本作为无标签数据集,共十一组实验.

3.3 实验结果分析

实验中由于不同训练集中故障样本的个数对置信度阈值选择有一定的影响,半监督学习的类标记置信度阈值ε采用逐个寻优的方式获得.训练SVM使用MATLAB的Libsvm SVM Toolbox,核函数为RBF函数.大量研究表明,SVM参数选择对分类效果有很大的影响,对惩罚参数C和核参数g的优化常用的方法有网格搜索法、梯度下降法、遗传算法等智能优化算法[20].这里我们分别使用网格搜索和遗传算法对其进行优化,结果如图4.

图4 不同参数寻优方式效果对比Figure 4 Comparison of different parameter optimization methods

实验结果表明,基于遗传算法的半监督支持向量机(SS-GA-SVM)比基于网格搜索法和没有进行参数寻优的半监督支持向量机分类准确率更高.

本文再将半监督学习与另外五种常用的机器学习算法结合进行对比.其中,决策树和随机森林分别采用MATLAB的fitctree()函数和TreeBagger()函数训练;KNN算法是取K个最近邻的样本中属于某一个类个数最多的类作为分类结果;ELM是使用改进的能输出置信度值的ELM函数实现.由于每组实验选取的故障样本是随机的,这可能会对实验结果产生影响,所以对每组实验取30次实验结果的平均值,实验结果如表3、4.

不同半监督学习算法初始样本中包含故障样本的数量对模型的影响如图5所示.从图中我们可以看出SS-GA-SVM算法在每类故障样本选取个数低于10个的情况下模型的分类准确率较低,当故障样本达到30个时模型的分类能力逐渐趋于稳定,并且比其他五种算法效果更好.从图6中可以看出SS-GA-SVM所需要的训练迭代次数较少,这对在线实时故障诊断有重要意义.

表3 不同算法的分类准确率对比Table 3 Comparison of classification accuracy of different algorithms %

表4 不同半监督学习算法的训练迭代次数对比

图5 不同算法的分类性能对比Figure 5 Comparison of classification performance of different algorithms

图6 不同半监督学习算法的训练迭代次数对比Figure 6 Comparison of training iterations for different semi-supervised learning algorithms

4 结语

本文在多种机器学习训练算法和半监督学习的基础上结合序列前向选择,对空气处理机组故障数据进行分配标签,通过实验验证算法的有效性和可行性,实验结果表明SS-GA-SVM算法能够较为有效的对样本进行类标签,能够在标记样本比较少的情况下,通过半监督学习,最高达到88.96%的分类准确率.

关于半监督的空气处理机组故障检测,有些问题还需进一步研究,如结合实际情况的SVM训练的终止策略,避免标记更多的样本和代价过大而导致类标记分配不准确,以及找出HVAC系统中各个特征之间的关联,从而更好的分析空调诊断系统.

猜你喜欢

置信度标签空气
置信度辅助特征增强的视差估计网络
一种基于定位置信度预测的二阶段目标检测方法
[呼吸的空气]Die Luft zum Atmen让我们把它推迟到明日
硼铝复合材料硼含量置信度临界安全分析研究
无惧标签 Alfa Romeo Giulia 200HP
正负关联规则两级置信度阈值设置方法
不害怕撕掉标签的人,都活出了真正的漂亮
我要买空气
那些你意想不到的神回复
早晨的空气真的好吗