基于AE-LSTM网络模型的机场周界入侵报警及分类算法

2021-06-21许奕杰万永菁

华东理工大学学报(自然科学版) 2021年3期

许奕杰，王嵘，万永菁，孙静

（1. 华东理工大学信息科学与工程学院，上海 200237；2. 上海卓希智能科技有限公司研发部，上海 201611）

随着飞机逐渐成为人们出行的首选，机场的人流日趋密集，安全问题显得尤为重要。机场周界是机场飞行区与外界隔离的第一道安全屏障，担负着保障飞行区安全的重任[1]。

传统的周界入侵报警系统所采用的探测技术大致可以分为4种类型：对射遮挡、依附探测、物理感应和智能视频监控[2]，主要包括红外探测[3]、激光对射[4]、张力围栏[5]、埋地电缆以及振动光纤[6]等。现阶段各大机场采用的智能周界入侵报警系统均基于此类传统探测技术，例如广州白云机场采用振动电缆智能检测技术并辅以微波对射检测技术；昆明长水机场采用振动电缆智能检测技术并辅以泄漏电缆检测技术等。这些技术和所采用的设备受大风、暴雨、大雪等客观条件的影响较大，极易产生误报。同时，这类机场周界入侵报警系统仅仅只能实现报警的功能，而不能实现对具体入侵行为的识别。中国民用航空局2017年提出了新版本的《民用运输机场安全保卫设施》[7]，因此对周界入侵行为进行准确识别成为了机场安防领域最重要的研究方向之一。对于周界网振动信号，传统的信号处理方法（例如傅里叶变换和小波变换）虽然可以提取信号时频域上的特征，但在恶劣天气的干扰下，提取到的特征极为相似，无法完成准确分类。而利用传统的神经网络（例如BP神经网络）虽然可以提高一定的分类准确率，但依然无法达到行业应用要求。北京博睿视科技有限公司2017年公开了一种基于深度学习的周界报警算法[8]，通过卷积神经网络对监控视频帧进行分类，最终实现对人的识别，然而，该算法的研究依然停留在理论阶段。基于这类情况，本文研究将机器学习技术引入机场安防领域。

长短时记忆（Long Short Term Memory，LSTM）网络最初是为了解决传统循环神经网络训练过程中产生的梯度消失或梯度爆炸问题而被提出的，随着LSTM的发展，越来越多的基于LSTM的网络模型诸如深度双向LSTM（DB-LSTM）[9]、卷积残差记忆网络（CRMN）[10]等被成功应用于语义识别、情感分析、股市预测等领域，证明了LSTM网络在处理非稳态时序信号上的优越性。因此，本文以LSTM网络为核心，搭建自编码长短时记忆（AE-LSTM）网络模型，对不同机场周界入侵行为进行分类，尤其是将极难区分的大风状态与入侵行为区分开，令机场周界入侵报警系统在降低误报率的同时，可以对不同的入侵行为进行准确识别。

1 机场周界入侵报警系统

1.1 系统架构

机场周界入侵报警系统的整体架构如图1所示。系统将周界网的振动状态分为5类，包括静止状态(Stillness)、大风状态(Wind)、攀爬状态(Climbing)、踢网状态(Kicking)以及锯网状态(Sawing)，其中，静止状态和大风状态为正常状态，不需要报警；攀爬状态、踢网状态和锯网状态为入侵行为，需要报警，优先级从高到低排列分别为锯网状态、攀爬状态、踢网状态。悬挂在周界网上的惯性测量单元（Inertial Measurement Unit，IMU）采集5类振动状态的信号数据，IMU在周界网上的悬挂方式如图1所示，其中灰色矩形为单个IMU。每个IMU输出以X、Y、Z三轴为中轴的角速度数据，其中X、Z轴平行于网面，Y轴垂直于网面。以攀爬状态为例，三轴输出数据波形如图1(a)、(b)、(c)所示。为了降低系统的运算量，选取含有最丰富振动信息的Y轴作为表征网面振动的信息源，构建数据集。信号采集完毕后，将信号传递到对应的分组处理器中，每个分组传感器负责处理相邻3片网的振动信号，完成报警及对入侵行为的分类。每百米范围存在一个区域控制器，负责收集范围内分组处理器和毫米波雷达的数据，其中，毫米波雷达用于对入侵行为进行预警。区域控制器和监控摄像机的数据经交换机汇总后，分别存入数据处理服务器和视频服务器。计算机端的监控软件可以显示机场周界全范围即时的报警信息，并且可以随时实现对数据的调用和查看。

图1 机场周界入侵报警系统架构Fig. 1 Framework of airport perimeter intrusion alarm system

1.2 机场周界入侵报警与分类算法

本文提出的机场周界入侵报警与分类算法嵌入在机场周界入侵报警系统中，其流程如图2所示。在数据处理阶段，首先采集5类周界网振动状态的信号数据，选择其中合适的信号数据进行预处理，包括滤波、归一化和分帧；然后对处理后的信号进行数据增强，扩充算法的训练集，使数据可以更加全面地覆盖振动发生时的各种情况；最后将原始数据和增强后的数据合并，构成算法的训练集，并利用交叉验证的方法从原始数据中抽取部分数据作为测试集。在模型训练阶段，利用AE-LSTM模型对训练集进行训练，模型的核心为LSTM网络，通过其在时序上的记忆能力完成对不同入侵行为的分类。考虑到下层处理器的运算和存储能力有限，需要尽可能地减少网络的参数，而LSTM网络的参数主要由输入层的维度与隐含层的神经元个数决定，因此，引入自动编码器（Auto Encoder，AE）对原始输入信号进行降维与特征提取，最终通过Softmax层输出网络的分类结果。

1.2.1 数据采集通过安装在周界网上的IMU采集周界网在不同振动状态时的数据，采样频率为50 Hz。数据采集结果如图3所示，其中每列为同类振动状态的不同振动情况。

图2 算法流程图Fig. 2 Flowchart of algorithm

图3 不同振动状态波形图Fig. 3 Waveforms of different vibration states

1.2.2 数据预处理数据预处理包括滤波、归一化和分帧3个操作。为了防止原始数据中存在偶然的波动干扰现象，采用5点中值平均滤波法，连续采样目标点附近的5个数据，去掉其中的最大值和最小值，然后将目标点的原始数据替换为剩余的3个点的算数平均值；归一化采用离差标准化方法，将原始数据映射到 [ 0,1] 之间；分帧操作采用滑动窗法，使用窗长为N的滑动窗以小幅Ns步进自左向右遍历序列。通过观察和实验发现N=125 、Ns=20 时，分帧效果最佳。

1.2.3 数据增强神经网络的训练通常依赖大量数据，当训练数据不足时，网络将难以学习到不同分类的全局特征。因此对于小数据集，有必要进行数据增强，以扩充原数据未能覆盖的输入空间，增强神经网络模型的泛化能力。

对于本数据集的时间相关序列X，采用与时间无关的方法，通过对各个采样点幅值进行微小的缩放，模拟振动的全局特征，如式(1)和式(2)所示。

式中：n为原始数据采样点个数；S为随机生成的缩放矩阵，服从均值 µ =1 、标准差为 σ 的高斯分布。其中， σ 取值太小会导致数据增强没有效果，取值太大则会导致振动特性发生变化，最终选取 σ 为[0.2,0.5] 内的随机值。不同 σ 的数据增强效果如图4所示，其中 σ =0 表示原始数据。

图4 数据增强效果Fig. 4 Effect of data enhancement

图5 AE-LSTM网络模型结构Fig. 5 Structure of AE-LSTM network model

1.2.4 AE-LSTM网络模型 AE-LSTM网络模型结构如图5所示。从图5中可以看出，模型的第一部分为AE。AE可以看作是神经网络的一种，是一种无监督学习算法，其尝试逼近一个恒等函数，使得网络的输出无限接近于网络的输入，最终网络的训练误差越小，则AE训练的效果越好[11]。本文采用欠完备的AE，通过限制AE的隐含层神经元个数小于输入层神经元个数，迫使AE捕捉最显著的特征。设置AE为一个125×64×125的3层网络，输入层和输出层均包含125个神经元，令输出层输出结果{xˆ1,xˆ2,···,xˆ125} 等于输入层的输入 {x1,x2,···,x125} ，隐含层神经元数目的选择对模型的效率有一定的影响，经实验验证，64为效果最好的隐含层神经元个数。AE分为编码器和解码器两部分，编码器用于将输入信号{x1,x2,···,x125} 编码成为 {h1,h2,···,h64} ，编码器的输出结果可以表示为

式中：i=1,2,···,125 ；j=1,2,···,64 ；wij为对应的xi到hj的连接权值；bj为对应的hj上的偏置；f(·) 为Sigmoid激活函数。

解码器用于将编码器的输出结果{h1,h2,···,h64}解码成为 {xˆ1,xˆ2,···,xˆ125} ，解码器的输出结果可以表示为

式中：i=1,2,···,125 ；j=1,2,···,64 ；w′ji为对应的hj到xˆi的连接权值；b′i为对应的xˆi上的偏置；g(·)为Sigmoid激活函数。值，完成网络的训练。最终所得到的隐含层输出结果 {h1,h2,···,h64} 即为输入信号的隐含编码特征。将连续5帧输入信号的隐含编码特征按时间顺序组合，即形成样本在时间上连续的融合特征向量矩阵。

模型的第二部分为LSTM网络。LSTM是循环神经网络（RNN）的衍生，传统的RNN由于其递归结构，可以将时间序列的上下文信息联系起来[12]，学习与时间相关的特征，但是当训练的序列过长时，会出现梯度消失或者梯度爆炸的问题，而LSTM通过引入3个“门”的机制，选择性地让信息通过[13]，使网络拥有更长时间上的依赖能力。单个LSTM细胞结构如图6所示。

图6 LSTM细胞结构Fig. 6 Structure of LSTM cell

遗忘门（Forget gate）决定在当前状态中丢弃哪些信息。

结合遗忘门的信息，可以得到当前的细胞状态Ct为

输出门（Output gate）决定当前状态输出的内容ht，由细胞状态将要被输出的部分ot和当前细胞状态Ct确定。

式(5)～式(10)中： σ (·) 为Sigmoid激活函数；W∗和b∗分别为各激活函数的权重和对应的偏置，∗∈{f,i,o,C}（即分别对应遗忘门、输入门、输出门、tanh层）；ht−1为上一时刻的输出；xt为当前时刻的输入；Ct−1为上一时刻细胞的状态。

LSTM网络中每个LSTM细胞包含一个隐含层，隐含层有128个神经元。AE训练完成后，将连续5帧信号的编码器输出结果 {h1,h2,···,h64} 纵向堆叠，形成时间上连续的融合特征向量矩阵，将该矩阵作为LSTM网络的输入，每次输入1帧信号的隐含特征向量（即矩阵的1行），连续输入5次。最终，取最后一个LSTM细胞的输出结果，通过全连接层和Softmax层将最终分类结果以概率分布的形式输出。

2 结果分析

2.1 样本数据集

对于各分类的原始数据，进行振动状态的端点检测，选取信号中含振动信息的有效部分，然后按照上述方法进行数据预处理后，将连续5帧作为一个样本，随机选取部分样本作为测试集，其余作为训练集。随后，对训练集进行数据增强，构成完整的数据集。数据集的详细设置如表1所示。

表1 数据集各分类样本数Table 1 Number of each classification sample in dataset

2.2 报警结果分析

本文采用多个不同的神经网络模型针对同一数据集的分类结果进行对比分析，采用的网络模型分别为LSTM网络模型、AE-BP网络模型和BP网络模型，其中，AE-BP网络模型利用AE提取的特征进行BP神经网络的训练，BP网络模型则是直接利用原始信号数据进行训练。各个网络模型的基本参数如表2所示，除网络最终的输出层采用Softmax作为激活函数外，其余层均采用Sigmoid作为激活函数。

为了更全面地对网络性能进行分析与评价，引入各个网络模型针对测试集报警的精确率（Precision）、召回率（Recall）和F1值作为评价指标，计算公式如下：

表2 实验网络模型参数对比Table 2 Parameters comparison of network models

其中：TP表示正类判定为正类；FP表示负类判定为正类；FN表示正类判定为负类。评价指标对比结果如图7所示。

从图7中可以看出，使用基本的BP网络模型直接进行报警的判断效果很差，有大量的误报和漏报现象。而增加了自动编码器后，网络模型的各项指标都得到了提升，表明自动编码器可以很好地提取信号的隐含特征，所提取的特征也能很好地反映信号的特点。AE-LSTM网络模型的召回率为1.00，表示完全杜绝了漏报的现象，精确率为1.00，表示同样没有误报现象产生，达到了行业应用标准。而其余3种网络模型召回率均没有达到1.00，表示存在一定的漏报现象，这在安防领域是绝对不被允许的。综合精确率和召回率计算得到了网络模型的F1值，可以看出AE-LSTM网络模型具有最良好的性能。

另外，本文通过网络模型的参数数量和浮点运算次数（Floating Point Operations，FLOPs）比较模型的复杂度，结果如表3所示，其中，乘法与加法都记为一次浮点运算。

图7 各网络模型报警评价指标对比Fig. 7 Comparison of evaluation indicators for alarms of each network model

表3 网络模型复杂度对比Table 3 Comparison of complexity between two network models

综合分析图7和表3可知，AE的引入不仅提高了网络模型的识别准确率，同时为网络模型减少了参数和运算量，减轻了处理器的负担。

2.3 振动状态分类结果分析

为了进一步比对模型在不同类别上的性能，选取F1值最高的两个网络模型，计算两者对测试集的预测结果的混淆矩阵（Confusion matrix）并归一化，结果如图8和表4所示，其中，行为标签类别，列为预测类别。

图8中，值越大则显示的颜色越接近白色，值越小则越接近黑色，左上到右下的对角线表示识别正确的情况，其余方格表示识别错误的情况。从图8和表4中可以明显看出，LSTM网络模型在各类的识别准确率上均不如AE-LSTM模型，尤其对于大风状态的识别很差，准确率仅有0.76，极易与踢网状态和锯网状态混淆，在对其他状态的识别中也存在较多识别错误的情况。而AE-LSTM模型对刮风状态的识别准确率达到了0.98，在其他各个类别的识别上也都达到了很不错的准确率，只有极个别识别错误的情况，很好地实现了对不同振动状态的分类。

最后，将AE-LSTM网络模型与文献[8]的算法进行对比。该算法利用一个包含14个卷积层、4个池化层和3个全连接层的卷积神经网络学习连续的监控视频帧的特征，实现对入侵对象的判别，而本文的AE-LSTM网络模型可以识别不同的入侵行为，更加符合机场安防的实际应用场景。另一方面，文献[8]算法的网络结构也远比本文提出的网络模型复杂，因此，AE-LSTM网络模型在机场周界入侵报警系统的实际应用中具有更大的优势。

图8 AE-LSTM网络模型与LSTM网络模型混淆矩阵对比Fig. 8 Comparison between confusion matrixs of AE-LSTM and LSTM

表4 AE-LSTM网络模型与LSTM网络模型混淆矩阵对比Table 4 Comparison between confusion matrixs of AE-LSTM and LSTM

3 结论

本文通过对机场周界网的振动信号的处理和分析，首度将机器学习方法引入了机场安防领域，提出了一种AE-LSTM网络模型。在以LSTM网络为核心进行识别的基础上，通过引入AE的方式，在提取信号的隐含特征的同时减小网络模型的复杂度。该模型在杜绝漏报的前提下，极大地降低了误报率，使得机场的周界入侵报警系统更加准确与智能。与机场现有的周界入侵报警系统相比，AE-LSTM网络模型可以在很大程度上降低机场的人力成本。同时，该模型在准确完成报警的前提下，进一步对入侵行为进行分类，达到了很高的分类准确率，根据分类结果可以排列入侵行为的优先级，以提高对入侵问题进行处理的效率。现阶段已实现了对入侵行为较为准确的分类，如何在更加复杂的场景，例如极恶劣天气影响下完成准确分类并进一步提高系统的时效性将成为下一步的研究目标。