一种基于自注意力机制的CNN-BiLSTM非侵入式负荷分解方法研究

2023-08-24朱瑞琪陆佳敏陆佳艳李梓滔

机电信息 2023年16期

朱瑞琪陆佳敏陆佳艳李梓滔

摘要：作为智能电网发展的分支，非侵入式负荷监测技术在促进用户用电行为信息细粒化、提高电能资源利用效率、推动智能电力可持续发展等方面起着重要作用。为提高用电设备特征提取的有效性以及负荷分解的精确度，提出了一种基于自注意力机制的CNN-BiLSTM非侵入式负荷分解方法。首先，采集用电设备端智能电表的总负荷功率，对原始数据进行归一化处理，缺失值填充后划分为训练集与测试集。其次，对卷积神经网络（CNN）与双向长短期记忆网络（BiLSTM）的混合模型进行训练与优化，同时引入自注意力机制，决定输出权重值，从而提高网络预测精度和表征能力。最后，将测试集中的总功率送入网络进行负荷分解，结果表明，在研究神经网络后提出的模型能充分挖掘数据的空间与时序特征，同时对重要特征进行有效提取，提高了负荷分解的能力。

关键词：非侵入式负荷分解；自注意力机制；卷积神经网络；双向长短期记忆网络

中图分类号：TM714 文献标志码：A 文章编号：1671-0797（2023）16-0077-05

DOI：10.19514/j.cnki.cn32-1628/tm.2023.16.020

0 引言

非侵入式负荷监测，又称“负荷分解”，是一种电力系统监测技术，通过数学模型从总负荷的电气量中分解出特定用电设备的电气量，用以预测各电气设备的具体耗能情况及用电规律。根据技术的不同实现方式，负荷监测分为两大类：侵入式负荷监测（NILM）和非侵入式负荷监测与分解（ILM）。在ILM中，传感器需要安装到每一个待测设备上，这种方式虽然可以获得各设备的精确耗能信息，但其高昂的投资和维护成本限制了其应用范围。相比之下，NILM将智能电表装设在主电路处，通过监测主电路的功率变化，识别出各设备的负荷信息，具有成本投入低、实用性强的特点。除了实现供给侧能源的优化配置与管理，NILM还提高了用户节能环保的意识，并为用户与电网之间的良性互动提供了基础支撑。

非侵入式负荷监测技术由20世纪90年代发展至今，已有多位专业学者开展了大量研究。文献[1]提出了一种利用功率签名与状态机技术的负载分解方法，可以准确记录设备的开关信息，并辅以机器学习对设备进行识别，但在使用前须做好负荷信息收集工作。文献[2]利用隐马尔可夫模型将复杂的功率信息划分为几种有限的运行状态，实现电器状态自动辨识与分类，但该模型在捕捉长期依赖关系方面有所欠缺。文献[3]根据奇次谐波电流幅值为负载特性的敏感指标，使用其作为负荷的辨识特征，利用综合k-NN的简捷性与核Fisher判别的非线性分类能力，针对相近设备进行有效识别，但同时需要考虑电网中可能产生的干扰和噪声对分解精度的影响。文献[4]采用遗传算法与基于近邻传播聚类的方法来构建负荷特征数据集，用稳态功率来区分不同负荷，但需要占用大量的计算资源。

如今，越来越多的学者开始投入这一领域的研究，这得益于深度学习的广泛应用和不断取得的研究进展。神经网络因其优异的特征学习能力与良好的泛化特性，逐渐被应用于负荷监测与分解中，成效斐然。文献[5]提出基于注意力时序网络实现对于信息重要级别的划分。文献[6]通过搭建编码器和解码器的seq2seq框架并引入残差网络，降低了模型训练难度。文献[7]利用一维卷积神经网络与注意力机制相结合，相对提高了负荷分解的精确度。文献[8]采用基于批量规范化和爬山算法的卷积神经网络，减少了过拟合现象的发生，同时提高了网络的泛化能力。

为了完善CNN模型，本文提出了一种混合深度学习模型，将CNN与BiLSTM相结合，以充分挖掘用户数据的时空特征，并通过自注意力机制优化网络，提高重要特征的注意力权重并抑制非重要特征，确保有用数据的优先级。该模型不仅能有效减少训练时间，同时在非侵入式负荷分解精度方面也有显著提高。另外，该模型在降低参数数量、提高稳定性的同时，还能充分发挥深度学习的优势。

1 网络介绍

1.1 CNN

如图1所示，CNN（卷积神经网络）[9]属于典型的前馈神经网络，具有从空间维度逐层提取数据特征的能力，是深度学习的代表之一。CNN一般由输入层、卷积层、池化层、全连接层、输出层组成。其中卷积层根据卷积核滑动对一个范围内的数据提取特征值；池化层通过对卷积层输出的特征映射进行降维操作，来保留重要特征，剔除冗余特征，其中最大值池化（Max Pooling）是常用的池化方法。多层卷积层与池化层交叠处理后，将输出数据通过全连接层进行整合和归一化处理，输出层采用softmax函数进行多负荷识别。

1.2 LSTM

LSTM（长短期记忆网络）[10]是RNN的一种特殊类型，拥有三种类型的门结构，分别为遗忘门、输入门和输出门。

遗忘门通过读取上一个时刻的短期记忆ht-1和当前时刻输入xt，做Sigmoid激活函数的非线性映射，然后输出过去记忆衡量因子ft，如式（1）所示：

ft=σ（Wf·[ht-1，xt]+bf）（1）

输入门用于更新信息记忆。it控制对当前时刻信息的记忆程度，通过tach激活函数缩放当前时刻单元记忆值ct，再加上遗忘门与记忆门调节上一个时刻的旧信息ct，便可获得更新后的信息，如式（2）（3）（4）所示：

it=σ（Wi·[ht-1，xt]+bi）（2）

（3）

（4）

輸出门用于确定下一个隐藏层的值。ot控制当前时刻单元状态输出给隐藏层的状态ht并作为LSTM的输出，如式（5）（6）所示：

ot=σ（Wo·[ht-1，xt]+bo）（5）

ht=ot×tanh（ct）（6）

式中：Wf、Wi、Wc、Wo分别为遗忘门、输入门、tach层、输出门的权重向量；bf、bi、bc、bo分别为其对应的偏移量；σ为Sigmoid激活函数；ht为输出的负荷状态特征。

LSTM能在时序资料中捕捉到长期的依赖关系，有效地解决了RNN在反向传播中出现的梯度弥散问题。LSTM的基本结构如图2所示。

1.3 BiLSTM

BiLSTM由两个并行的正向和反向标准LSTM通道构成，能兼顾前后时刻的信息对当前状态的影响，相比于LSTM提高了特征提取效率与性能，如式（7）（8）（9）所示：

（7）

（8）

（9）

的权重向量；bt为该时刻隐藏状态的偏移量。

BiLSTM的基本结构如图3所示。

1.4 自注意力机制

注意力机制通过对上级网络所输出的状态信息序列进行权重分配，自动筛选重要信息，舍弃干扰信息，以全面掌握输入内容的核心。而自注意力机制（self-attention mechanism）是注意力机制的一种变体，能够捕捉同一序列中两个不同位置信息的相互作用，更加注重数据本身的特征和数据之间的内部交互，减少了对外部信息的依赖程度，提高了信息的利用率。自注意力机制的基本结构如图4所示。

自注意力机制包括缩放点积注意力（SDA）机制和多头注意力（MHA）机制两部分，本文重点关注SDA部分。SDA是对输入序列X做线性映射，过程如式（10）（11）（12）所示，得到矩阵Q、K和V：

Q=WqX （10）

K=WkX （11）

V=WvX （12）

通過Q和K矩阵的点积除以进行相似度计算，以防止计算所得值过大，再通过softmax函数进行归一化处理，最后通过加权求和法得到最终数据，如式（13）所示：

（13）

式中：Q，K，V为同一输入矩阵做线性映射所得到的矩阵；Dk为稳定训练梯度的矩阵；softmax（·）为具有归一化功能的激活函数。

1.5 基于自注意力机制的CNN-BiLSTM网络结构

本文提出的基于自注意力机制的CNN-BiLSTM网络结构整体由两层CNN网络、一层BiLSTM、两层全连接层构成，如图5所示。

首先，将包含L个时刻信息的总有功功率时间序列输入两层卷积层，用于提取更深层次的负荷特征，得到特征矩阵B×CH1×W1与B×CH2×W2。其中W1=W2=L为两卷积层输出矩阵的特征长度，B表示模型的批处理个数，CH1、CH2表示各层网络中卷积核个数（特征通道）。第一层卷积层的卷积核个数为16，尺寸为3；第二层卷积层的卷积核个数为32，尺寸为3；两层激活函数均选择ReLU。池化层和Flatten层分别用于数据降维和扁平化处理。

其次，CNN网络把提取到的特征输入神经元个数为32的BiLSTM网络。由于BiLSTM网络所产生的隐藏层状态ht= t是由相反的两个隐藏层状态拼接而成，所以其维度相对于普通LSTM网络增加一倍，输出神经元个数翻倍为2HD，最终BiLSTM输出特征矩阵维度为B×W2×2HD。

为使模型的最终输出为设备概率分布向量，利用两层全连接层分别将W2转变为需分解的设备个数n，2HD转变为所有分解设备的最大状态个数kmax，并通过两个全连接层计算注意力机制得分对网络进行优化，使用softmax函数计算各隐层状态权重，与对应隐层状态按权相加得到动态时序向量ct，如式（14）所示：

（14）

式中：αi表示各隐层权重；hi表示BiLSTM层所得的第i个ht。

2 基于自注意力机制的CNN-BiLSTM的非侵入式负荷分解

2.1 分解原理

有功功率是电器耗电特性中最常用的指标之一，可直接从智能电表中准确读出，本文以有功功率作为研究对象，以用电设备的开启和关闭状态作为标签，其中开启状态为1，关闭状态为0。在只有N个简单投切二状态且投入时没有功率畸变的负载与智能电表相连的情况下，t时刻总表功率可表示为公式（15）：

P（t）= t）Pm+e（t）（15）

式中：am（t）为负荷m在t时刻的状态，数值为1或0分别代表负荷的开启或关闭；Pm为负荷m所消耗的有功功率；e（t）为噪声干扰或误差。

2.2 负荷分解流程

如图6所示，具体负荷分解流程如下：

1）数据输入提取：数据在输入神经网络之前需要进行重叠滑动窗口处理，即将原始数据划分为恒等长度的向量序列，再进行缺失值填充。

2）数据归一化处理：将数据以8：2比例划分为训练集与测试集，分别用于网络模型的训练与预测结果输出。在数据输入模型训练前，将输入与输出数据进行归一化处理，即通过线性变化将取值固定于[-1，1]的区间内，如公式（16）所示：

（16）

式中：xi为功率的真实值；xmin、xmax分别为有功功率的最小值和最大值；xi′为归一化的结果。

3）模型训练：将训练集的数据输入模型进行训练，由CNN层在空间维度上进行负荷特征提取，BiLSTM层联系上下层向量，在时间维度上提取特征。

4）结果输出：Attention层分配权重值，突出重要特征，得到负荷预测输出。

3 分解结果

图7为真实的总有功功率运行曲线。图8为采用本文模型得到的各用电设备功率分解结果，其中实线为设备真实功率，虚线为本文模型的分解结果。由图可得，所得分解结果与设备真实运行曲线基本拟合，本文模型具有良好的分解性能。

4 结束语

本文所述模型通过构建CNN逐层在空间维度上抽象数据特征，进一步引入BiLSTM提取其时间特性，并对重要特征进行更大的权重分配，从而提高了负荷分解的准确率。由实验分解结果可得，该模型具有良好的负荷分解性能。

[参考文献]

[1] ZHU Y，LEE S G，CHUNG K S，et al.Investigation of Auxiliary Poles Design Criteria on Reduction of End Effect of Detent Force for PMLSM[J].IEEE Transactions on Magnetics，2009，45（6）：2863-2866.

[2] JI T Y，LIU L，WANG T S，et al.Non-Intrusive Load Monitoring Using Additive Factorial Approximate Maximum a Posteriori Based on Iterative Fuzzy c-Means[J].IEEE Transactions on Smart Grid，2019， 10（6）：6667-6677.

[3] 宋旭帆，周明，涂京，等.基于k-NN結合核Fisher判别的非侵入式负荷监测方法[J].电力系统自动化，2018，42（6）：73-80.

[4] 徐青山，娄藕蝶，郑爱霞，等.基于近邻传播聚类和遗传优化的非侵入式负荷分解方法[J].电工技术学报，2018，33（16）：3868-3878.

[5] 沙建峰，席乐，冯亚杰，等.基于注意力时序网络的非侵入式负荷分解[J].南京信息工程大学学报（自然科学版），2023，15（4）：448-459.

[6] 何健明，李梦诗，张禄亮，等.基于Attention和残差网络的非侵入式负荷监测[J/OL].电测与仪表：1-9.（2021-08-06）[2023-04-20].https：//kns.cnki.net/kcms2/article/abstract？v=3uoqIhG8C45S0n9fL2suRadTyEVl2-pW9UrhTDCdPD64iLFH7p67cuPgOSGeusRoUT9AI2ej7O8j8 -LOJCqArNsGNSYiTLE1dL&uniplatform=NZKPT.

[7] 蒙亮，于超，张希翔，等.基于一维卷积神经网络和自注意力机制的非侵入式负荷分解[J].电力大数据，2020，23（10）：1-8.

[8] CHEN H，WANG Y H，FAN C H.A Convolutional Autoencoder-based Approach with Batch Normalization for Energy Disaggregation[J].Journal of Supercompu-ting，2021，77（3）：2961-2978.

[9] LECUN Y，BOTTOU L，BENGIO Y，et al.Gradient-based Learning Applied to Document Recognition[J]. Proceedings of the IEEE，1998，86（11）：2278-2324.

[10] HOCHREITER S，SCHMIDHUBER J.Long Short-term Memory[J].Neural Computation，1997，9（8）：1735-1780.

收稿日期：2023-04-26

作者简介：朱瑞琪（2002—），女，安徽界首人，研究方向：非侵入式负荷监测。