APP下载

参照化流形空间融合学习的敏感特征提取与异常检测方法*

2020-12-07学,孙翱,李

国防科技大学学报 2020年6期
关键词:异类流形尺度

刘 学,孙 翱,李 冬

(中国人民解放军91550部队, 辽宁 大连 116023)

流形学习作为机器学习领域的研究热点,通过对高维数据局部结构的保持,获取嵌入在高维观测空间中的低维流形,获取高维数据的本质特征,在挖掘数据的本质结构上具有极大的优势。流行学习分为线性和非线性流形学习两大类,最早提出的是非线性流形学习方法,如拉普拉斯特征映射(Laplacian Eigenmap, LE)[1]、局部线性嵌入(Locally Linear Embedding, LLE)[2]、局部切空间排列(Local Tangent Space Alignment, LTSA)[3]以及等距特征映射(Isometric feature Mapping, IsoMap)[4]等。其中:LE通过拉普拉斯Beltrami算子来构造相应空间嵌入目标函数,利用无向有权图对流形空间进行描述;LLE根据数据局部线性关系将流形的局部几何信息从高维空间映射到低维空间;LTSA通过利用每一个数据点的局部切空间同欧式空间的同构关系,得到高维数据到低维切空间的映射关系;IsoMap以测地线距离为基础使得样本数据在保持近邻结构的同时,得到高维数据的低维嵌入。针对非线性流形学习对于新未知样本无法直接进行低维映射的缺点,国内外学者陆续提出上述非线性流形学习方法的线性近似算法,如局部保持投影(Local Preserving Projections, LPP)[5]、近邻保持嵌入(Neighborhood Preserving Embedding,NPE)[6]和线性局部切空间排列(Linear Local Tangent Space Alignment, LLTSA)算法[7],它们不但可以保持数据内在的非线性结构与数据子空间的局部流形结构相似,还可以获得高维敏感特征子集转换为低维空间的显式映射。因此,在信息挖掘领域得到更为广泛的应用。

多尺度分析结合流形学习的故障模式识别方法是状态监测与故障诊断研究领域的研究热点[8-9],该类方法充分结合多尺度分析方法对隐含在特定尺度上的信号特征信息的探测能力和流形学习方法对数据本质结构的挖掘能力,优势互补,在旋转机械早期监测预警、故障诊断和心脏健康监测等场合得到广泛应用,如王广斌等[10-11]提出基于流形子带的拉普拉斯特征映射方法和基于多尺度子带样本熵的局部保持投影方法,实现对转子复合故障特征的准确检测;Miao等[12]将近邻保持嵌入算法应用到工业过程监控中,同时提取数据动态的空间和时间结构特征,增强了对过程变化的检测能力;Wang等[13]提出利用小波包变换与流形学习相结合的轴承故障诊断方法,利用重构小波系数的波形特征集的低维流形表征滚动轴承微弱瞬态信号特征;Chen等[14]采用流形学习方法对由信号时域、频域以及总体经验模态分解(Ensemble Empirical Mode Decomposition, EEMD)分量多尺度特征的组成高维混合特征集进行敏感流形特征提取,实现旋转机械故障模式进行分类与识别;Miao等[15]提出采用多尺度特征结合局部线性嵌入算法的非线性故障信号特征提取与诊断方法,利用信号非平稳状态的多尺度特征,对故障类型及损伤程度进行了有效识别;Ding等[16]采用LPP对小波包节点能量进行维数约简,增强了对机械故障类别的辨识效果。

相比于传统的机械监测信号,遥测振动信号由冲击激起的共振的频带较宽,具有响应周期短(脉冲数少)、冲击强等特性,这导致异类模式之间差距较小,难以识别。另外,飞行器试验难度高且成本高昂,试验次数较少导致采集的样本数量较小,如何在小样本条件下实现准确的异常模式识别也是需要解决的关键问题,针对上述问题,提出一种基于参照化流形空间融合学习的遥测振动信号敏感特征提取与异常检测方法,通过建立专属参照化模型单元,采用级联流形学习的模式实现对信号多尺度特征信息的多层挖掘再学习,有效提高了特征信息的敏感性。

1 多尺度特征集构造

飞行器系统状态异常是一个多因素决定的复杂动态过程,因此非平稳状态的多尺度特征才是反映系统运行状态的本质特征,为了全面、准确地对遥测振动信号进行异常检测,采用信号的多尺度特征表征异常信号状态。

1.1 小波包多尺度分解

小波包变换(Wavelet Packet Transform, WPT)具有正交、完整、多分辨率等优点,可将非平稳信号按任意的时频分辨率正交无遗漏地分解到不同的频带范围内,通过一组正交的低通和高通滤波器递归地对信号的低频和高频部分进行多层次划分,将信号的时频成分投影到对应的小波包空间[13]。

(1)

(2)

1.2 多尺度子带样本熵

传统的样本熵只能对信号全局复杂度进行度量,但遥测振动信号反映的系统状态变异往往只在特定尺度上有明显的信息反映,且在多尺度状态信息之间存在内在联系。因此对遥测振动信号进行多尺度分解,提取多尺度信号的子带样本熵,在不同尺度深入信号内部层层挖掘信号的异常特征。多尺度样本熵算法参见文献[8],依次求取所有小波包节点重构系数的子带样本熵构造高维特征向量。

(3)

式中,α为子带因子,从对遥测振动信号的分析过程中发现,某一类型的故障模式会导致振动信号在特定时刻发生间断或限幅,多尺度子带样本熵在表征信号奇异方面,较常用的Lipschitz指数更为敏感。

1.3 多尺度能量比值

(4)

(5)

综合以上两种特征,通过J层的小波包分解构造多尺度特征集WPTFEA。

WPTFEA=[SC,PT]∈R(α+1)2J×1

(6)

2 参照化流形空间融合学习

2.1 类别参照化近邻保持嵌入算法

NPE算法是LLE算法的线性近似算法,对于高维样本集X=[x1,x2,…,xN]∈RD×N,NPE旨在寻找映射矩阵α=[α1,α2,…,αd]∈RD×d,通过投影空间变换Y=αTX,得到嵌入高维空间的低维流形Y=[y1,y2,…,yN]∈Rd×N,d≪D。为保持数据局部流形结构,每个样本点能以相同的权重被其对应的k个近邻点重构,得到NPE的优化目标函数。

=Min[YT(I-W)T(I-W)Y]

s.t.αTXXTα=I

(7)

由式(7)可以发现,NPE是一种无监督流形学习方法,当异类模式之间比较相近的时候,由于没有考虑样本的类别信息,NPE很可能将异类模式样本划分到同一局部空间进行特征投影,导致投影后的低维流形结构扭曲失真。 另外, NPE为了保证投影前后的数据局部近邻结构相似,其目标函数没有考虑数据的全局特征。 针对NPE存在的这些问题以及有效增强异类模式之间的流形特征差异,提出一种类别参照化局部保持投影(Class-Reference Neighborhood Preserving Embedding,CRNPE)方法,该方法可根据应用场合选取监督学习或无监督学习两种模式。

2.1.1 监督学习模式

在监督学习模式下有效利用类别标签信息,在保持数据局部特征的同时使异类模式具有最大的类间散度。 算法流程如下所示。

步骤1:将高维数据集X∈RD×N根据c种类别标签划分为X=π1∪π2∪…∪πc。

步骤2:采用文献[17]提出的自适应邻域构造方法计算重构系数矩阵W,避免k近邻方法需人工设置近邻数,在监督学习模式下,依据各样本的类别标签加入监督机制强化同类样本的聚集性和异类样本的互斥性。

(8)

步骤3:根据参照的样本类别πi,计算其对应的负散度矩阵。

(9)

步骤4:监督学习模式下的优化目标函数为:

(10)

该优化目标函数能够保证在数据降维前后局部重构特征变化最小,同时对参照的样本类别πi具有更大的类间散度,在第一层为特征信息增强性学习中可有效凸显异类样本局部差异的敏感性。式(10)的最优化问题,可通过J(α)对α求偏导数为0进行求解,即

(11)

(12)

2.1.2 无监督学习模式

在无监督学习模式下,为了达到在保持数据局部特征的同时使得异类模式具有最大的类间散度这一优化目标,需同时考虑数据的全局特征,使得位于不同的邻域中距离较远的数据点在低维空间尽可能地分开。现提出如下解决思路:建立双优化目标函数,在满足数据点与k个邻域数据的局部距离不变的约束下,通过最大化不同邻域数据方差来最大化地展开数据流形。算法流程如下所示。

步骤1:依然采用自适应邻域构造方法计算重构系数矩阵W,在无监督模式下,取消式(8)中xi,xj∈πc的限制条件。

步骤2:建立无监督学习双优化目标函数。

(13)

当数据点xj是xi所对应的最近邻点时,Hij=0,否则Hij=1。式(13)的最优化问题,也可通过J(α)对α求偏导数为0进行求解,即

2αTXMXTα(αTXRXTα)-2XRXTα=0⟺

XMXTα=J(α)XRXTα

(14)

如果R可逆,则式(14)也可以通过Lagrange乘法转化为广义的特征值求解。

XMXTα=λXRXTα

(15)

2.2 遥测振动信号敏感特征提取的参照化流形空间融合学习方法

针对遥测振动信号样本数少、冲击强、响应周期短等特点导致异类模式之间差异性小的问题,借鉴深度学习思想,提出采用级联两层流形学习的参照化流形空间融合学习方法。通过两层流形学习对信号多尺度特征进行提纯再学习,提高特征信息的敏感性。算法流程如图1所示。

图1 算法流程图Fig.1 Algorithm flowchart

图1中,第一层为特征信息的增强性学习,以相同的正常信号样本结合相同类型的异常样本建立专属参照化模型单元,将多分类问题转化为二分类问题。在增强正常模式与异类模式流形特征差异性的同时有效提高样本的利用率。第二层为多尺度特征拓展学习,通过对第一层学习得到的映射矩阵进行流形空间融合,实现对多尺度特征的升维拓展。通过流形再学习,对拓展后特征信息进行提纯,获取低维敏感流形特征。算法步骤如下所示。

步骤1:对采集的遥测振动信号依据指令时刻进行特征段顺序选取,若相邻指令时刻间隔较近(前一指令响应未结束,后一指令响应即开始),可按前一特征段最大幅值能量的10%进行截取,若重叠部分超过50%,则将相邻两特征段合并处理。对所选特征段进行预处理:根据《GJB2238A—2004》的规范进行零漂修正、趋势项去除、野值剔除等。

步骤2:第一层特征信息的增强性学习。将所有样本同一指令时刻的特征段信号组成训练样本集,按照第1节的方法构建高维多尺度特征集,并按照各样本的类别信息(共有c类模式),创建类别标签。以相同的正常信号样本为参照构建c个专属参照化模型单元。

步骤3:第二层为多尺度特征拓展学习:采用Mlayer1对测试样本集Ttest进行特征拓展,凸显各异常模式与正常模式差异信息的敏感性,提高各类型样本的利用率。

Ftest=Mlayer1Ttest

(16)

(17)

式中,Mlayer2为第二层CRNPE流形学习的映射矩阵。

步骤4:将敏感流形特征Ytest输入到K最近邻分类器(K-Nearest Neighbor classification, KNNC)进行信号状态模式识别,得到分类结果。

3 实测信号验证

为验证所提方法的有效性,采用某型飞行器试验任务中同一系统部位传感器采集的轴、法、横3个通道的遥测振动信号进行处理验证。以法向通道信号为例,选取正常信号和3种类型故障信号作为测试信号,其中正常信号样本45个,异常模式1(过载超过限定值,致使该部位下端框出现细微裂纹或断裂)信号样本27个,异常模式2(该部位肩部出现形变或细微裂纹)信号样本29个,异常模式3(某故障导致在特定时间段内振动信号发生间断或限幅)信号样本21个。保密安全起见,信号幅值作了归一化处理,某一样本信号的时域波形如图2所示。

(a) 时域波形(a) Time domain waveform

(b) 频谱(b) Spectrum图2 遥测振动信号及其频谱Fig.2 Waveform and spectrum of the telemetry vibration signal

通过图3可以发现,由于不同模式的特征方向不同,通过第一层特征信息的增强性学习,每个专属参照化模型单元所训练出的映射矩阵只对所对应类型的样本在低位空间投影聚集,将其他模式的样本投影到更远的低维坐标上进行分离,这增加了不同属性样本之间的类间散度,即每个专属参照化模型单元只针对同属性样本具有特征增强特性,而对异类属性样本,增大了其流形特征的差异性。

由于样本数较少,将所有样本组成测试集Xtest=Xtrain∈R32×122,将所提方法(简写为CRNPE+CRNPE)与主成分分析(Principal Component Analysis, PCA)、LLE及其线性化方法NPE算法、基于无监督NPE的参照化流形空间融合学习(两层均采用无监督NPE,简写为Unsupervised NPE+NPE)和基于有监督NPE的参照化流形空间融合学习(第一层特征信息的增强性学习采用有监督NPE,监督学习模式同CRNPE的第2步,简写为Supervised NPE+NPE)的性能进行对比测试,同样选取映射后的前三维分量进行分析。同时采用类内散度Sw、类间散度Sb和判别因子S=Sb/Sw三种评估因子定量分析上述算法的聚类性能[19]。

(a) 正常-异常模式1参照单元(a) Normal-abnormal mode 1 reference unit

(b) 正常-异常模式2参照单元(b) Normal-abnormal mode 2 reference unit

(c) 正常-异常模式3参照单元(c) Normal-abnormal mode 3 reference unit图3 各专属参照化模型单元映射下4种模式WPTFEA二维聚类分布Fig.3 Two-dimensional clustering of four modes WPTFEA of telemetry vibration signals under the mapping of each specific reference model unit

(18)

表1 不同流形学习方法的特征聚类定量分析对比

从图4(a)可以看出,PCA只考虑样本集的全局特性,忽略局部特征,导致各模式样本交织重叠在一起,难以区分,分类精度仅为53.28%。LLE和其线性近似算法NPE均为非线性降维方法,它们充分考虑测试集的局部特征,并保持数据内在的非线性结构。因此它们得到的聚类分布效果优于PCA方法,可将部分异类模式样本分离,分类精度有所提高,但不同模式样本之间仍存在一定程度的重叠,不利于分类器的模式识别。

而参照化流形空间融合学习方法通过参照化模型建立各异类模式专属的特征挖掘单元,增大异类模式同正常模式样本的特征差异,利用多个参照化模型单元的特征融合映射矩阵,可以实现对多尺度特征集的信息扩展,获取更高维的特征信息,为第二层流形再学习提取更为敏感低维流形特征提供便利。从图4(d)~(f)可以看出,在聚类分布图中,每种模式具有较为清晰的聚类边界,不同模式较单层学习更易被区分,分类精度均达到了90%。这说明参照化流形空间融合学习方法可有效地增大异类模式之间的差异性以及同类模式之间的聚集性,但通过图4(d)和图4(e)的对比可以发现,无监督NPE+NPE由于没有利用样本的类别信息,在确定近邻空间时很可能将异类模式样本划分到同一局部空间进行特征投影,导致特征投影后部分正常模式样本错误地被划分到异常模式的聚类空间中,这将严重影响后续模式识别的精度。有监督NPE+NPE在第一层特征信息的增强性学习采用监督学习模式,充分利用样本的类别信息,避免了无监督NPE+NPE错误特征投影问题,使得各模式具有独立的聚集边界,分类精度有所提高,达到了95.90%。但NPE为了保证投影前后的数据局部近邻结构相似,其目标函数没有考虑数据的全局特征,各模式之间,特别是异常模式2和异常模式3之间,没有形成较大的类间散度和较小的类内散度,而良好的模式识别效果需同时考虑各模式之间的类间散度和类内散度,即不仅要有较大的类间散度,还应具有较小的类内散度。

(a) PCA

(b) LLE

(c) NPE

(d) Unsupervised NPE+NPE

(e) Supervised NPE+NPE

(f) CRNPE+CRNPE

针对上述问题,CRNPE在保持数据局部特征的同时使得异类模式具有更大的类间散度,可以增大不同模式之间的区分度。无监督CRNPE同时考虑数据的局部和全局特征,从图4(f)和表1可以看出,CRNPE+CRNPE参照化流形空间融合学习方法提取的流形特征可以同时获得最大的类间散度、最小的类内散度、最大的判别因子以及最高的分类精度99.18%,即该方法可以有效增加异类模式之间的差异性以及同类模式之间的聚集性。因此,CRNPE+CRNPE学习方法在增强特征信息、挖掘系统状态敏感特征等方面优于上述其他方法。

4 结论

提出一种基于参照化流形空间融合学习的遥测振动信号敏感特征提取与异常检测方法,通过建立专属参照化模型单元,采用级联流形学习的模式实现对信号多尺度特征信息的多层挖掘再学习,有效提高了特征信息的敏感性。经实测信号应用验证,所提方法可有效提高遥测振动信号异常模式识别精度。总结可得到以下几点结论。

1)提出CRNPE算法,在监督模式下采用新的优化目标函数能够保证在数据降维前后局部重构特征变化最小,同时对参照的样本类别πi具有更大的类间散度;在无监督模式下,同时考虑数据的局部和全局特征,采用双优化目标函数,在满足数据点与k个邻域数据的局部距离不变的约束下,通过最大化不同邻域数据方差来最大化地展开数据流形;

2)实测信号实验结果表明:新方法可以有效增加异类模式之间的差异性以及同类模式之间的聚集性,在增强特征信息、挖掘系统状态敏感特征等方面优于PCA、LLE、NPE和基于NPE的参照化流形空间融合学习等流形学习方法。

3)CRNPE为线性化流行学习方法,可以获得高维敏感特征子集转换为低维空间的显式映射, 使得新样本可以迅速准确地映射到低维空间中。因此,基于CRNPE参照化流形空间融合学习特征方法可很方便地推广到其他故障检测领域。

猜你喜欢

异类流形尺度
财产的五大尺度和五重应对
紧流形上的SchrÖdinger算子的谱间隙估计
迷向表示分为6个不可约直和的旗流形上不变爱因斯坦度量
Nearly Kaehler流形S3×S3上的切触拉格朗日子流形
宇宙的尺度
毛毛虫中的异类
鱼中的异类
鹦鹉中的异类
基于多故障流形的旋转机械故障诊断
但愿多些这样的“异类”