APP下载

共享域特征的深度神经网络异常检测方法

2018-07-04黎绍发林智勇

小型微型计算机系统 2018年6期
关键词:源域能耗神经网络

梁 鹏,黎绍发,林智勇,郝 刚

1(广东技术师范学院 计算机科学学院,广州 510665)

2(华南理工大学 计算机科学与工程学院,广州 510006)

1 引 言

异常影响参数是一组用以描述对象(系统)当前状态水平并可以确定其未来行为的变量.异常检测是指监测异常影响参数、指示异常种类并预测监测对象发展的过程.特别地,异常检测可通过对特征信号的采集、处理和分析,评价监测对象的整体或部分的状态水平,判断其有无异常与劣化的征兆,或对异常进行追踪,确定异常趋势、预测异常种类.

常用的异常检测方法主要分为基于机理模型和基于数据驱动[1-3]两种.基于机理模型的异常检测方法通过对复杂系统的机理分析,揭示系统能耗状态与参数之间的关系.然而,系统运行过程受到多种物理变化、化学变化和参数耦合的影响,通常难以建立准确、鲁棒的机理模型.基于数据驱动的异常检测方法采集大量与异常影响因素相关的运行数据,利用支持向量机和神经网络等学习模型对采集获得的数据直接进行训练学习,进而获得复杂系统的网络模型,实现对异常检测的建模.

由于无需对复杂系统进行机理分析,基于数据驱动的异常检测方法有更好的适用性,目前受到了广泛关注.文献[4-7]提出一种混合自回归积分滑动平均模型(ARIMA)和人工神经网络(ANN)的预测模型,同时结合了ARIMA时间序列预测和ANN非线性拟合的特点,分别实现了对季节性气候、燃料木材价格、风力速度、电力价格的异常检测.文献[8]提出基于统计聚类RBF神经网络的异常检测方法,该方法利用隐单元简化机制减少了隐含层的节点,降低了算法复杂度.上述方法均需要使用大量目标数据用于训练复杂网络的参数,然而在实际中往往难以获得大量有标签的目标数据,这使得基于数据驱动的异常检测方法难以得到令人满意的预测结果.

为了提高基于数据驱动的异常检测方法在标签数据不足情况下的预测性能,人们提出了利用迁移学习的解决思路.例如,Hu et.al[9]使用深度神经网络实现短期风速预测的迁移学习,该方法利用深度神经网络提取出源域数据的抽象特征表示,用于提升目标域的分类准确率.Huang et.al[10]使用共享隐含层节点的方法实现深度神经网络的知识迁移,有效地降低了新语言识别的错误率.Heigold et.al[11]和Vu et.al[12]利用分布式深度神经网络实现多语言声学模型,从一种语音模型迁移到另一个缺乏训练数据的语音模型.李阳辉等[13]利用降噪自动编码器实现了微博情感的分析.需要指出,上述迁移学习方法直接使用所有源域的标签数据训练深度神经网络.然而,由于源域数据和目标域数据的分布是不同的,并非所有的源域标签数据对目标域来说都是有用的,如果大部分源域数据与目标域数据不相关,使用迁移学习反而可能降低异常检测的准确率.受此启发,针对能耗异常检测的需求,本文提出一种基于共享域特征的深度神经网络(Deep Neural Network based on Shared Domain Feature,DNN-SDF).

DNN-SDF的核心思想是将深度神经网络和迁移学习相结合,并且通过源域和目标域的共享特征,实现对源域数据的有效使用,进而提高异常检测性能.具体地,DNN-SDF通过共享编码层使得源域数据和目标域数据映射到同一个特征空间,减少源域数据与目标域数据的概率分布差异,同时求取源域数据和目标域数据中具有共同域特性的数据实现迁移学习.基于真实能耗数据的实验结果表明,DNN-SDF能有效地提高异常检测准确率.

2 基于共享域特征的深度神经网络

基于共享域特征的深度神经网络(DNN-SDF)由两部分组成,即,基于共享编码的无监督特征提取以及基于共享域特征的半监督学习,它们的具体做法如下.

图1 基于共享域特征的深度神经网络Fig.1 Deep neural network based on shared domain feature

2.1 基于共享编码的无监督特征提取

如图1所示,结合两个自动编码器,实现提取源域数据和目标域数据中的共同特征,两个自动编码器共享编码层,在解码层分别输出为重构后的源域数据和目标域数据.其原理在于,通过共享编码层使得源域数据和目标域数据映射到同一个特征空间,减少源域数据与目标域数据的概率分布差异,从而提取出具有共同特性的特征用于后续分类.

图2 DNN-SDF和DNN使用10天源域数据训练后的MAPE图Fig.2 MAPE comparison result of DNN-SDF and DNN method via 10-days source-domain training data

给定源域数据Xs和目标域数据Xt,合并输入数据集X=Xs∪Xt,编码器将输入向量x∈Rdx映射到隐含层,隐含层特征h(x)∈Rdh表示为:

图3 DNN-SDF和DNN使用10天源域数据训练后的MSE图Fig.3 MSE comparison result of DNN-SDF and DNN method via 10-days source-domain training data

h(x)=s(W1x+b1)

(1)

(2)

无监督特征提取的损失函数L(θ)为:

(3)

其中θ={W1,b1,Ws,bs,Wt,bt}为自动编码器的参数,α为正则约束项系数,用于表示源域数据和目标域数据的概率分布差异.损失函数的目的在于获取输入数据的压缩特征表示,同时尽可能使源域数据与目标域数据统一在一个特征空间内.

通过梯度下降法计算最小化公式(3)的目标函数,实现参数的求取,并采用{W1,b1}作为深度学习框架第一部分特征提取的初始参数.

2.2 基于共享域特征的半监督学习

得到特征提取的压缩表示特征h(x)后,利用有标签的源域数据和无标签的目标域数据对实现半监督学习,提升目标分类准确率,具体描述如下:

根据有标签的源域数据实现有监督学习的能耗异常预测,能耗异常预测的损失函数为:

(4)

其中θy={θy1,θy2,…,θym},θyi∈Rdh为能耗异常预测部分的网络参数,1{·}是一个指示函数,1{true}=1,1{false}=0.ns表示源域数据的样本个数.

由于源域数据与目标域数据存在分布上的差异,因此直接使用有标签的源域数据进行目标域的异常预测,会产生性能衰退.为此,求取源域数据和目标域数据中,具有共同域特性的数据,其损失函数表示为:

(5)

则目标函数变为:

(6)

其中β为超参数,采用EM迭代计算方法求解,固定其中一个参数θy,通过梯度下降法求取θd最优参数;然后再固定θd,求取θy最优参数.给定学习率γ,梯度下降的更新公式为:

(7)

3 在线能耗异常预测

在使用预测值进行决策时,需要考虑预测误差带来的不确定性.为此通过预测值的置信水平分析,可以使预测误差控制在一定的置信范围内.从而有效地避免单次预测误差过大带来的决策风险.

(8)

4 实验与分析

为了检验基于共享域特征的深度神经网络(DNN-SDF)的有效性,以某铝型材制造企业挤压车间为例,影响挤压机组能耗的影响因素有:型材种类、模具类型、挤压温度、挤压速度、截面面积、挤压长度等,能耗的输出数据为单次挤压的燃气量.从该企业能源监控服务器的数据库中读取一台挤压机组于2013.4-2014.4的能耗数据以及异常记录作为源域训练数据输出及标签,平均两分钟挤压一次,一天平均挤压次数为300次,总的挤压次数为108760次,共有897次能耗异常,从企业ERP数据库中读取每次挤压过程的影响因素数据作为源域训练数据输入;再通过企业能源监控系统对另一台挤压机组进行实时监控,读取该挤压机组的能耗影响因素及真实能耗输出,作为目标域训练数据.

4.1 实现细节和评价准则

为了进行算法的比较,采用未使用共享域特征的深度神经网络(DNN)进行能耗异常检测,能耗异常检测分为能耗预测和异常检测两部分.在能耗预测部分,如公式(9)所示,采用均方差 (MSE)和平均绝对百分比误差(MAPE)对预测结果进行评价,两种指标反映有所不同,均方差衡量了预测值和真实值之间的绝对差异,平均绝对百分比误差衡量预测值与真实值的相对误差,均方差反映预测方法的精度,而平均绝对百分比误差反映预测方法的无偏性.

(9)

在异常检测部分,使用错误率(FR)和漏检率(MR)来对不同置信度下的异常检测结果进行评价,错误率(FR)和漏检率(MR)的计算公式如(10)所示:

(10)

其中Nf是错误识别为异常的样本个数,Nd是异常检测方法识别为异常的样本个数,Nm是异常检测方法未检测到的异常样本个数,Na是所有的异常样本个数.

图4 DNN-SDF和DNN使用20天源域数据训练后的MAPE图Fig.4 MAPE comparison result of DNN-SDF and DNN method via 20-days source-domain training data

DNN-SDF和DNN方法均采用Windows7平台,MATLAB R2012b实现,运行于Intel i7-5500 cpu和8GB内存环境中.对于算法的参数选择,隐含层的节点个数为{200,100,50},超参数α和β分别为{0.1,0.5,1,2},学习率γ设置为{0.001,0.005,0.01},网络的权重系数设为主对角线为1,其余为0的矩阵,初始化网络偏置参数为0,上述参数是通过对源训练样本进行交叉验证的基础上获得的.

4.2 实验结果

图2-图5分别是DNN-SDF和DNN使用10天和20天的源域数据训练网络后,对目标域进行100分钟的能耗预测的MSE和MAPE结果,圆圈表示DNN-SDF的预测结果曲线,星号曲线表示DNN的预测结果曲线,其中DNN直接使用源域数据的标签对网络进行微调.从结果中可以看出,使用10天的源域数据进行能耗预测时,DNN-SDF的MSE和MAPE和DNN方法大致相同,随着预测的时间长度增加,MSE和MAPE值不断增长,且当预测的时间长度超过50分钟时,DNN的预测结果好于DNN-SDF的预测结果;当使用20天的源域数据进行预测时,随着预测的时间长度增加,和MAPE值不断增长,DNN-SDF的MSE结果比DNN方法降低了约10%.

图5 DNN-SDF和DNN使用20天源域数据训练后的MSE图Fig.5 MSE comparison result of DNN-SDF and DNN method via 20-days source-domain training data

图6是DNN-SDF和DNN使用20天的源域数据进行能耗预测的结果,无标记曲线表示实时能耗监测值,圆圈曲线表示DNN-SDF的预测值,星号曲线表示DNN方法的预测值,从图中可以看出,在第29、37、105、111、172分钟的能耗预测值,DNN-SDF方法的预测结果比DNN方法更接近目标的真实能耗.

图6 两种方法使用20天源域数据进行能耗预测的结果图Fig.6 Energy prediction result of DNN-SDF and DNN method via 20-days source-domain training data

表1是两种方法分别使用3个月的源域数据,以及10天、20天、30天的目标域数据对深度学习网络进行训练后,对目标域进行60分钟、120分钟、180分钟能耗预测的MAPE结果.当MAPE低于10%时,表示预测方法的结果值得信赖.在所有时间的目标域预测中,随着源域训练数据的增加,两种方法的MAPE值都在不断减小,这说明大量的源域数据有助于提升目标域的分类准确率;当目标域训练数据较少时(10天),DNN-SDF的MAPE值比DNN的更小,这是因为缺少足够的目标域数据训练分类器,而DNN-SDF可以通过大量的源域标签进行半监督学习,寻找到与目标域相同分布的源域特征,用于提升分类准确率;当目标域训练数据足够多时(30天),DNN-SDF的MAPE值和DNN相近甚至更低,这是因为有足够的目标域训练数据后,不同概率分布的源域数据反而会降低目标域分类的准确性.

表1 DNN-SDF和DNN方法在不同数量目标域数据下的MAPE和MSETable 1 MAPE and RMSE for DNN-SDF and DNN models for different amount of target training data

表2 DNN-SDF方法在不同置信度水平上的检测性能Table 2 Detection performance of DNN-SDF method with different confidence level

表2是DNN-SDF方法在不同的置信度下的异常检测效果,随着置信度的增加,误检率会减少但是漏检率会增加,因此需要在两者之间寻找一个平衡.图7是本文方法在97%置信度下的在线能耗异常检测曲线,共检测到了30个异常样本,漏检了3个异常样本.

图7 置信度为97%时的DNN-SDF在线能耗异常检测结果图Fig.7 Online energy anomaly detection result of DNN-SDF method via 97% confidence coefficient

5 结论及未来工作

提出了一种基于共享域特征的深度神经网络,该网络分为无监督特征提取部分和半监督迁移学习部分.在无监督特征提取部分,使用两个自动编码器提取源域数据和目标域数据中的共同特征;在半监督迁移学习部分,求取源域数据和目标域数据中具有共同域特性的数据.最后将该方法在某铝型材企业挤压车间的真实能耗数据集上进行能耗异常检测实验,实验结果表明,当目标域的数据较少时,基于迁移学习的深度神经网络通过迁移源域数据中与目标域具有共同分布的特征知识,提升目标域的分类准确率;当目标域的训练数据足够时,深度神经网络可以很好地预测目标域的能耗异常,无需使用源域的迁移知识.

[1] Gutiérrez P A,Pérez-Ortiz M,Sánchez-Monedero J,et al.Ordinal regression methods:survey and experimental study[J].IEEE Transactions on Knowledge & Data Engineering,2016,28(1):127-146.

[2] Matthew Brown,Chris Barrington-Leigh,Zosia Brown.Kernel regression for real-time building energy analysis[J].Journal of Building Performance Simulation,2012,5(4):1-14.

[3] Salcedo-Sanz S,Deo R C,Carro-Calvo L,et al.Monthly prediction of air temperature in Australia and New Zealand with machine learning algorithms[J].Theoretical and Applied Climatology,2016,125(1):13-25.

[4] Tseng F M,Yu H C,Tzeng G H.Combining neural network model with seasonal time series ARIMA model[J].Technological Forecasting & Social Change,2002,69(1):71-87.

[5] Koutroumanidis T,Ioannou K,Arabatzis G.Predicting fuelwood prices in Greece with the use of ARIMA models,artificial neural networks and a hybrid ARIMA-ANN model[J].Energy Policy,2009,37(9):3627-3634.

[6] Liu H,Tian H Q,Li Y F.Comparison of two new ARIMA-ANN and ARIMA-Kalman hybrid methods for wind speed prediction[J].Applied Energy,2012,98(1):415-424.

[7] Areekul P,Senjyu T,Urasaki N,et al.Next day price forecasting in deregulated market by combination of artificial neural network and ARIMA time series models[J].Ieej Transactions on Power & Energy,2009,129(10):1267-1274.

[8] Weng He,Pi De-chang.Chaotic RBF neural network anomaly detection algorithm[J].Computer Technology and Development,2014,24(7):29-33.

[9] Hu Q,Zhang R,Zhou Y.Transfer learning for short-term wind speed prediction with deep neural networks[J].Renewable Energy,2016,85:83-95.

[10] Huang J T,Li J,Yu D,et al.Cross-language knowledge transfer using multilingual deep neural network with shared hidden layers[C].IEEE International Conference on Acoustics,Speech and Signal Processing,IEEE,2013:7304-7308.

[11] Heigold G,Vanhoucke V,Senior A,et al.Multilingual acoustic models using distributed deep neural networks[C].IEEE International Conference on Acoustics,Speech and Signal Processing,IEEE,2013:8619-8623.

[12] Vu N T,Imseng D,Povey D,et al.Multilingual deep neural network based acoustic modeling for rapid language adaptation[C].IEEE International Conference on Acoustics,Speech and Signal Processing,IEEE,2014:7639-7643.

[13] Li Yang-hui,Xie Ming,Yi Yang.Sentiment analysis of micro-blogging based on DAE and its improved model[J].Application Research of Computers,2017,34(2):373-377.

附中文参考文献:

[8] 翁 鹤,皮德常.混沌RBF神经网络异常检测算法[J].计算机技术与发展,2014,24(7):29-33.

[13] 李阳辉,谢 明,易 阳.基于降噪自动编码器及其改进模型的微博情感分析[J].计算机应用研究,2017,34(2):373-377.

猜你喜欢

源域能耗神经网络
120t转炉降低工序能耗生产实践
基于递归模糊神经网络的风电平滑控制策略
能耗双控下,涨价潮再度来袭!
探讨如何设计零能耗住宅
基于参数字典的多源域自适应学习算法
神经网络抑制无线通信干扰探究
基于神经网络的中小学生情感分析
日本先进的“零能耗住宅”
基于Q-Learning算法和神经网络的飞艇控制
从映射理论视角分析《麦田里的守望者》的成长主题