基于边缘侧自编码器压缩的换流站设备故障预测

2021-06-03张彩友冯毅萍顾天雄富银芳

浙江电力 2021年5期

胡宪，张彩友，冯毅萍，顾天雄，潘戈，富银芳

（1.浙江大学工业控制技术国家重点实验室，杭州 310027；2.国网浙江省电力有限公司，杭州 310007）

0 引言

随着工业化的持续推进，社会用电需求量日益增加。在电力生产过程中，设备稳定运行是电网稳定生产的重要保障，故障预警通过预测设备在未来时间段内的潜在故障，协助运维人员提前定位系统不稳定因素并加以干预，成为设备主动运维的重要方法[1]。

特高压换流站是国家智能电网建设的重要节点，承担了远距离输电项目中交直流转化的任务[2]。电力设备在换流站内按照其功能分布在不同的场区，同一类型的设备聚集在一起，为整个系统提供特定的服务。这种按场区聚集分布的特点有助于设备的管理和维护，分布在场区内部的检测计算机专门负责其下管理的各个设备，为各类监控系统和预警系统的设计和部署创造了条件。典型特高压换流站通常包括交流场、直流场等场区，及阀厅、换流变压器、交流断路器、平波电抗器、滤波器等设备，如图1 所示。

图1 国内某换流站场区分布

设备故障预测通过对设备运行过程中的工况数据进行时序预测，对比预测结果和参数指标来判断设备的当前运行状态[3]。设备状态预测利用传感器采集的现场数据按照设备规模的不同，可以分为单设备预测及多设备预测。秦超等针对单一设备提出了一种基于隐半马科夫模型的老化因子，用于预测识别设备的健康因子和设备剩余寿命等信息[4]。王德文等针对多设备预测，将所有传感器数据上传至中央服务器进行模型的训练和预测[5]。王佳梓等提出了一种以云端服务器为中心的设备维护架构方案，并具体分析了其关键技术[6]。

随着数据规模的增大，集中式云端计算架构逐渐暴露出不足，边缘计算的概念被提出并得到推广[7]。杨骏等提出了一种基于边缘计算的电量预测模型，在边缘服务器端利用梯度提升树实现了电量预测的在线学习模型[8]；赵海涛等利用边缘服务器处理各个车辆节点的数据，利用基于卷积神经网络的深度学习方法预测车辆的风险[9]。上述方法利用边缘计算资源实现了更加实时、轻量的参数预测，但是仍不能有效解决实际应用中由于边缘节点获取数据不充分、不均衡而导致的预测模型训练数据不足的问题。

本文提出了一种基于边缘侧自编码器压缩的分布式设备故障预测方法，有效解决了边缘节点数据共享的问题。

1 换流站设备故障预测模型

1.1 故障预测模型输入数据集

假设某场区A 有m 个设备，A 表示场区设备集合，Ai表示场区内第i 个设备，i=1，…，m；Ai设备共有n 个可监测工况参数，表示设备的第k 个参数在t 时刻的取值，k=1，…，n。

以换流站换流变场区为例，共有12 个设备，其中第1 号设备站用变的监测参数包括油色谱油温、绕组温度等8 个，如表1 所示。此时，m=12，Ai表示站用变设备，表示站用变设备第1个参数油色谱油温在t 时刻的数据。

表1 站用变设备监控参数

此时，针对站用变设备油色谱油温参数的预测模型，根据输入数据集的不同，可分为单参数时序数据及多参数时序数据。分别表示为：

式中：Mα，Mβ分别表示2 类预测方法的预测模型；N 表示预测采用的滑动时间窗口大小。其预测模型结构如图2、图3 所示。

图2 单一设备状态参数预测

上述结构是设备预测常用方法[10-11]，其不足之处在于未从换流站整体生产运行状态角度考虑不同场区设备之间存在的上下游关联关系。为此，本文提出了一种基于边缘侧自编码器压缩的换流站设备预测模型结构，在图3 多设备状态参数预测结构的基础上，扩大数据输入范围，综合考虑多场区设备状态参数以获得更准确的时序预测结果。

图3 同场区多设备状态参数预测

其简化的系统架构如图4 所示，包括节点边缘设备、边缘服务器、工业网络、云端服务器。首先，边缘服务器接收来自本节点内的传感器数据，在对数据进行预处理后通过自编码器提取表征该节点实时状态的关键信息，并通过网络与其它边缘节点共享数据，从而获取比单节点更多的数据信息量，有助于做出更准确的预测。其次，利用本节点边缘服务器部署的时序预测模型完成该节点设备的状态预测。然后，各边缘服务器将预测结果发送至云端服务器为后续的运维工作提供信息。

图4 边缘侧设备状态预测系统架构示意

在边缘节点共享数据过程中，本文采用基于令牌环网的发送者-接收者模型[14]，以保证快速稳定的信息传输；在信息传递之前，采用自编码器压缩的方式提取边缘节点的关键信息，另外考虑到网络阻塞的极端情况，用二次编码的方式进一步降低网络数据传输量。对于边缘侧预测模型，采用特征工程的方法构建时序预测模型的输入数据，用于模型的训练和预测。预测模型的整体工作原理如图5 所示。

图5 设备故障预测模型原理

1.2 发送者-接收者网络

边缘节点之间的信息沟通基于分布式发送者-接收者网络模型，如图6 所示。在该模型中，场区被抽象成节点，场区内部的传感器采集的数据被抽象为节点的属性。节点之间能通过现场总线网络进行通信。节点工作在接收模式或发送模式下，在某一时刻，整个网络中至多只有一个节点为接收节点，其余节点发送数据至接收节点。当某节点需要其余节点信息时，只需要向全局发送广播，同时将自身设置为接收模式，则能获取发送节点的信息。接收节点通过分析自身数据以及来自其它节点的数据，能够实现对全局信息的综合考量。

图6 发送者-接收者网络模型

该模型通过信息共享来利用不同节点间生产过程中的设备关联信息，增加了传感器不足区域的数据支持。

1.3 基于自编码器的特征提取

自编码器是一种特殊的前向传播人工神经网络，它由编码器和解码器两部分组成。该模型将输入作为输出的目标，输入数据经过编码器的编码过程获得中间变量，再将中间变量作为解码器的输入，通过解码器的前向传播，获得解码器的输出。利用输出与原始输入计算误差，并用反向传播算法来更新权值。

自编码器的特点决定了其可以被用作数据的压缩与降维。在编码器的传播过程中，随着层数的增加，每个隐层的神经元节点个数呈递减分布，反之，在解码器的传播过程中，各个隐层神经元节点个数随着层数增加而增加。将编码器的输出，即解码器的输入作为自编码器的中间值，可以获得小于原始输入数据维度的数值，该部分数值则为自编码器的编码，以X 代表场区内设备状态参数集合，Xcode代表经自编码器压缩后的编码信息，则其之间的关系为：

本文中，自编码器被用于现场数据压缩与关键信息提取。针对电力设备，在每个节点上部署自编码器。

首先，设定结构的输入和输出神经元数量与节点的参数数目相同，并且根据训练时间与训练精度的关系，确定隐藏层的数量和各隐藏层中神经元数目。其次，将节点历史记录中的所有数据组织为训练集用于自编码器的训练。保持自编码器的输入和输出统一。

在训练过程中，自编码器将数据前向传播，由于编码器的隐层神经元逐层递减，数据将被非线性压缩。编码器的输出作为解码器的输入，其本身也是压缩后的值，代表了原始数据中关键的信息，被称为编码。这部分信息虽没有明确的物理意义，但能够通过解码器尽可能恢复成原始数据，是非线性压缩后的结果，能够在很大程度上保留数据的完整性。利用工业现场网络传输自编码器获取的编码信息，可以在较少的网络数据传输量下让其它节点获取当前节点的整体关键信息。

编码被用于接收节点的预测。编码的长度由自编码器的结构确定，也对应于接收节点端模型输入的长度。在接收节点端，直接整合编码信息到预测模型的输入中进行预测，整体流程如图7（b）所示。

图7 自编码器结构及编码原理

虽然该方法能降低网络的传输量，但实际生产中可能还会遇到网络拥堵的极端情况。针对该问题，本文在自编码器压缩的基础上提出二次编码模型。二次编码模型基于自编码器获取的编码，对已有的编码利用小型的自编码器结构进行进一步压缩。压缩的方式不变，以初次编码获取的编码信息作为输入和目标输出，设定小型自编码器内部的节点数小于编码信息的长度，对自编码器进行训练。以此可以获得用以获取更少维度的二次自编码器。

在接收端，由于预测模型的输入长度固定，并不能直接使用二次编码进行数据预测，所以，接收端还须针对该二次编码部署相应的解码器，该解码器为发送端训练得到的小型自编码器的解码器部分的副本，能够将二次编码重新恢复成编码信息，再进行数据预测。以Xcode-shortened代表场区的二次自编码，则其关系为：

式中：EncX为场区X 的二次自编码器的编码器部分；DecX为场区X 的二次自编码器解码器部分。

二次自编码器的结构与自编码器结构相同，如图7（a）所示，基于二次编码的数据共享流程如图7（c）所示，具体工作原理如图5 中发送者和接收者节点所示。

二次编码方案的使用需要结合工业现场总线网络的实时情况，在网络传输量小的情况下作为冗余的方案，不进行使用。但当网络拥塞情况严重时，可自动切换为二次编码的方案。该方案能够在尽可能保证原有编码信息量的情况下完成数据的精简。

对于判断网络传输量是否过大，可以采用多种方法。例如，计算当前接收节点接收来自所有发送节点的信息所耗费的时间，或统计当前网络中出现的信息错误的比例等。

1.4 LSTM 预测模型

LSTM（长短期记忆网络）是一种RNN（循环神经网络）的改进形式，专门被设计用于处理时间序列数据。由于其良好的预测效果，被作为本文边缘节点端的时序预测模型。

LSTM 模型拥有3 个额外的门结构以及内部的元胞状态来实现对以往数据的记忆工作。3 个门分别为输入门、输出门、遗忘门，这些门控制进出元胞的信息流，用于记录重点信息和遗忘无价值信息。输入门、输出门、遗忘门有相似的机构，其原理为：

式中：W，b 分别对应各个层的权重以及各个门的偏置输入。元胞状态的当前值由式（8）计算：

该元胞数值与上一时间点元胞状态数值按式（9）进行结合：

最终，LSTM 模型的输出为：

由于良好的预测性能和精简的模型结构，LSTM 模型被广泛用于时间序列预测的问题。

边缘节点LSTM 预测模型的输入数据来源包括待预测参数的历史数据、边缘节点本地的其它参数当前数据、其余边缘节点传输的编码信息。

针对待预测参数的历史数据，事先设置好一个固定的时间窗口，该窗口能包含该参数N 个时间节点的历史数据。针对该部分的历史数据，时序预测模型可以自动拟合其与未来数据的关系。

同一生产区域内部设备往往会有较多的耦合关系，所以模型将当前边缘节点下的其余参数信息加以考虑，为了避免模型过于复杂，在此仅利用其余参数信息的当前时刻值，预测模型能自动拟合其余参数与待预测目标参数的关系。

最后一部分数据是来自其它边缘节点的编码信息。这些编码按照边缘节点编号顺序排列，被整合进时序预测模型的输入中。

综上，该模型的预测公式为：

图8 时序预测模型结构

2 训练与预测流程

为将本文所提出的设备故障预测模型应用于换流站电力生产现场，需要对模型进行训练并部署上线。下文从该模型在生产现场的训练和预测2 个角度，分别介绍了不同阶段模型的工作流程。

2.1 预测模型训练流程

边缘节点预测模型的训练采用节点的历史数据，详细流程如图9 所示。训练过程可分为3 步，详细步骤如下。

图9 系统训练过程

Step1：本地主编码器、二次编码器训练。为了对边缘节点的关键参数进行提取，本文提出利用自编码器在各个边缘侧节点处并行实现编码、二次编码的生成，具体生成过程在2.2 节中详细介绍。

Step2：节点编码传输。同一时刻，网络中有一个节点成为接收节点，获取来自其余发送节点的编码信息并加以存储。重复上述行为，直到所有节点均接收到其它节点的编码。

Step3：本地预测模型训练。获取其它节点的编码信息后，各个节点在本地进行预测模型的训练。训练过程可在边缘节点内并行进行，达到分布式的训练效果。

具有一定知识积累和技术经验的人才，是提高食品药品检验检测能力的必要条件[8-9]。就目前而言，广西地市级食品药品检验检测机构专业技术人员学历较低，主要以本科及大专以下学历为主，研究生及以上学历人员很少。因此，应注重引进一些高学历技术人员[10]，提高研究生、博士生比例。以需求为导向，公开向社会招聘经验丰富、高学历的专业技术人才；以此为基础，带动检测机构自身人才的成长，力争培养更多的学科带头人[11-12]。

2.2 参数预测流程

训练后的边缘节点模型可用于现场状态的预测。预测步骤如图10 所示。

图10 系统预测过程

在每一个采样时间点，对所有节点循环。接收节点接收来自发送节点的编码或二次编码。算法具体步骤如下。

Step1：发送节点根据网络的实时质量，将当前时刻该节点的实时参数信息通过自编码器和二次编码器提取当前时刻的编码或二次编码，发送至接收节点。

Step2：接收节点接收编码或二次编码，若为二次编码则通过部署在本地的对应节点二次编码的解码器恢复编码信息。通过对二次编码进行复原，能够获得可描述原始节点的直接编码信息，所有编码信息按照节点的顺序进行拼接，共同组合成其他节点的编码信息部分，作为预测模型的一部分输入。最后，组合待预测参数的历史数据、其它参数的当前数据、其它节点的编码信息构成预测模型的输入。预测模型将预测出下一时刻点待预测参数的数值。

3 案例分析

以国内某特高压换流站为例，该换流站内部按直流电到交流电的转化顺序分别有直流场区、换流器、GIS 以及交流滤波器。各个区域内部含有大量电力设备，其设备数据类型如表2 所列。采集上述传感器数据，截取时间跨度为2018 年7月1 日到2019 年1 月1 日、采样间隔为30 min的传感器数据进行实验。实验对比分析了仅采用单变量为输入的LSTM 模型、采用同一节点内多变量的LSTM 模型、本文所提出的多节点数据共享的LSTM 模型之间的效果。

表2 换流站场区及部分数据类型

3.1 数据预处理

获取数据后，首先需要进行数据的预处理。对已有数据中的NaN 点进行平均值填充，即求取所有有效的参数值的平均值，将该平均值填入到NaN 数据点中。接着，考虑到换流站现场运检任务“日比对、周分析、月总结”的特点，将数据以12 h 为间隔进行采样，获得采用后的时间序列。

3.2 预测精度对比

为验证本文所提出模型的预测效果，设置以下3 组实验，不失一般性，以换流器场区内“站用变511B.油中溶解气体.氧气（μL/L）”为待预测的参数进行实验。

2 号组：多变量组，输入数据为待预测参数和同一场区内传感器参数的历史数据，各参数窗口大小均为N，模拟边缘侧服务器仅考虑其管辖范围内的多个参数。

3 号组：数据共享组，本文提出的预测模型，综合考虑待预测参数、同节点其余参数当前值、其它节点编码信息作为输入，模拟多个边缘节点共享实时数据进行预测。

训练之前，将所有数据以7∶3 的比例分成训练集和测试集。为减少实验偶然性，实验共进行100 次独立训练与测试，并将100 次实验中每次实验获得最好的结果求取平均值作为该组的最终成绩。误差计算方式采用RMSE（均方根误差）。实验中参数设置如表3、表4 所示。表3 展示了3组LSTM 模型的结构和训练参数，由于1 组和2组不涉及节点间数据共享，不涉及自编码器使用，所以其编码长度为空，此外，设定LSTM 模型门结构激活函数为sigmoid 函数、输出节点的激活函数为tanh 函数，输出为未来一个时间步的预测值，并以均方误差为损失函数进行训练；表4 说明了第三组实验中部署在各个场区内部的自编码器结构参数，其输入长度为对应场区每个设备的采集点数量乘以设备数，设备的采集点详细参数如表2 所示。

表3 实验参数-训练参数设置

表4 实验参数-编码器结构设置

表5 展示了3 组方法结果最终测试误差平均值和误差序列对应的标准差，其中，误差序列是选取某一次独立训练得到的LSTM 模型参数对测试集数据进行预测得到的预测值与真实值之间的误差序列。可以发现，本文提出算法在测试误差方面能够较其余2 种方法有较好表现，其预测值与实际值的均方根误差在3 组内保持最小，达到了RMSE 在0.018 0 的水平，相较于仅考虑待预测参数的传统单变量模型降低了28.3%的误差，相较于普通的边缘侧计算模型降低了12.6%的误差，分析其原因，是由于该方法较其它2 种方法在预测过程中考虑了更多的设备信息，使LSTM模型能够挖掘整个换流站各区域间的耦合关系，对设备状态预测提供了有力的支持；同时，预测结果的误差序列标准差也处于3 组中最小水平，表明误差波动幅度小，预测更加“稳定”。

表5 实验结果数据

图11 展示了3 组方法在100 次实验内某次独立实验中测试误差随训练轮数增加的变化曲线。结果显示，本文所提出的分布式预测模型能有更快的学习速度，并能取得更准确的预测值。

图11 模型误差对比

图12 展示了100 次实验中某次独立实验中，3 组方法局部的预测效果。从图中可以比较，3 号组的预测结果能够更好地拟合真实的数据：在前半部分（实线方框）的预测中，总体上预测曲线（虚线）比其余两组更加贴合真实值曲线（实线）；即使在预测偏离真实值后（虚线方框），也能在下一个时间节点调整预测结果，更好地拟合数据发展趋势，有更少的时间滞后。

图12 局部预测效果对比

4 总结和展望

实验案例结果表明，本文所提出的基于边缘侧自编码器压缩的LSTM 预测模型能够通过节点间信息共享的方式充分考虑其它节点的当前状态，实现更准确的预测，从而为运维人员发现电力设备潜在故障提供了有效参考，与此同时，模型的训练和预测任务从云端服务器被分散到各个生产区域的边缘侧服务器上，从而大量减轻云端服务器的运算压力，充分利用边缘侧的计算资源。

在预测实时性方面，由于涉及多边缘节点通信，模型预测的实时性相较单节点的预测模型会有滞后，但考虑到目前生产任务中“日比对、周分析、月总结”的要求，换流站的运维任务对实时性要求并不苛刻，所以本文提出模型可以被有效应用于生产中。

未来，本文所提出的方法仍有2 个方面值得进一步研究。一方面，在利用自编码器获取边缘节点编码时需确定合适的编码长度，这决定了精度与效率的平衡，本文为降低实验复杂性统一选取固定的编码长度进行仿真，进一步工作可针对编码长度的选择方法加以分析。另一方面，目前是基于网络正常工作的假设进行的，对于网络不稳定情况下导致的设备离线场景还要有更完备的设计，这也是增强运维系统鲁棒性的要求。