APP下载

红外光谱特征提取及目标聚类方法

2021-02-11孙鹤鹏席剑辉张鹏帆

沈阳航空航天大学学报 2021年6期
关键词:集上编码器光谱

陈 博,孙鹤鹏,席剑辉,张鹏帆

(沈阳航空航天大学 自动化学院,沈阳 110136)

基于分子的振动和转动理论,红外光谱能够反映分子的微观结构和状态,被广泛应用于成分分析和结构测定等[1]。红外光谱适用性较强,可以检测固态、液态或气态样品,同时,对于无机、有机、高分子化合物均可检测。因此红外光谱在高聚物的定性定量分析[2]、农业、制药、遥感、生物、医学等领域都有广泛的应用。红外光谱分析可以迅速、无损、高精度地检测物品,通过对已知目标红外光谱吸收峰的位置、强度和形状的分析,可以构建该目标特征,从而确定目标红外光谱特征。随着计算机技术的发展,红外光谱分析技术得到了进一步发展和应用。

20世纪80年代以来,随着红外光谱采集技术和计算机处理技术的发展,红外光谱在农业[3]和林业[4]中被广泛应用,Sankaran等[5]使用逐步判别分析和逐步回归分析的方法利用红外光谱技术判别柑橘叶子是否病变。Lang等[6]利用近红外光谱辨别植物不同发育阶段,为植物多样性高的地区开展各种生态研究提供了可能性。在遥感领域,Wei等[7]利用光谱遥感技术进行地物识别的应用与分类。光谱遥感数据被有效利用于遥感影像分割[8]与分类[9]中。在医疗领域红外光谱也发挥了许多作用,Kobrina等[10]通过红外光谱聚类分析区分完好和修复的关节软骨。

红外光谱数据的聚类问题是红外光谱分析领域的重要问题,陈林杰等[11]提出了基于红外光谱指纹图谱研究鉴别不同品种的桑黄,利用多点基线校正等方法对原始光谱建立指纹图谱共有模式,然后利用主成分分析和载荷因子分析鉴别不同产地的桑黄,发现各类产地桑黄有明显的地域性聚集。Kobrina等[12]选取包含兔皮质骨主要吸收带的光谱区域进行分析,分别测试了K均值(KM)、模糊C-均值(FCM)和层次聚类(HCA)3种聚类方法,研究发现其中FCM更适合生物组织样本。王琰等[13]对头孢呋辛钠红外光谱进行矢量归一处理,采用欧氏距离进行标准聚类分析,探讨了聚类分析与稳定性试验的可替代性。吴江等[14]提出基于红外光谱聚类分析鉴别斑花黄堇产地的方法,利用小波变换对原始红外光谱数据去噪压缩,再对其系统聚类,并将聚类结果同主成分分析结果进行对比,说明了系统聚类的有效性。在茶叶品种鉴别上,红外光谱聚类也具有一定的适用性。傅海军等[15]提出了傅里叶近红外光谱和模糊极大熵聚类分析相结合的茶叶品种鉴别方法,采用线性判别分析对降维后的近红外光谱数据进行特征提取,实验显示混合模糊极大熵聚类比传统的模糊极大熵聚类具有更好的准确性。He等[16]提出了主成分分析和BP模型的近红外光谱鉴别茶叶品种的方法,分析光谱反射率与茶叶品种的关系,利用前8个主成分对40个未知样本进行聚类分析,实验结果显示模型较为可靠。

上述研究工作在红外光谱的分析和红外光谱聚类上取得了一定成效,但是只利用光谱数据的某种特征或使用单一聚类方法,不能充分利用红外光谱在不同通道和不同波段的信息以及各种特征的一致性。有鉴于此,本文提出了基于多种特征提取方法的多视角目标聚类方法,既提取了红外光谱的主元特征又保持了原始数据的分布一致性,利用多视角聚类学习数据互补性和一致性。利用PCA算法提取红外数据的主元特征,利用去噪自编码器提取数据的低维流形特征,对噪音具有一定的鲁棒性,取得了较好的聚类效果。

1 红外光谱特征提取

1.1 主成分分析

主成分分析(principal component analysis,PCA)是数据分析中被广泛使用的降维方法,能够从复杂数据中提取特征信息[17]。现实世界中的数据往往是高维的并且具有较多冗余,对于红外光谱数据,多波段的采集点和不同通道往往会产生高维数据。高维数据的不同维度之间可能具有较强的关联性,因此为数据的降维提供了可行性。主成分分析法通过寻找数据中的最大变化方向,把每个数据都投影到这些方向构成的坐标系中并表示出来,从而实现将原始数据n维特征映射到k维特征上,通常有基于特征值分解协方差矩阵的实现方法和基于SVD分解协方差矩阵的方法。主成分分析不仅能够对数据进行降维和数据压缩,同时也可以处理少量较大幅值噪声。本文采用基于SVD分解实现的主成分分析法,对实验数据进行主成分分析,获取前3个主成分。

1.2 去噪自编码器

随着深度学习的迅速崛起和发展,近几年基于深度学习的生成式模型也越来越被广泛应用。Hinton等[18]提出了可以通过多层神经网络把高维数据编码成低维数据,进而重建高维数据,中间层神经元数量较少,将模型作为自动编码器。自动编码器(Auto-encoder)属于分监督学习模型,不需要对样本进行标记,通常包括编码器和解码器,编码器用于学习输入数据的隐含特征,这个过程称为编码(coding),同时用学习到的新特征重构出原始输入数据,即解码(decoding),单隐层的自动编码器模型如图1所示。

图1 单隐层自动编码器

图1中X=[X1,X2,…,Xn]为原始n维数据,其中编码器部分可以表示为h=σ(Wx+b),σ为激活函数,W为神经网络权重,b为偏置,解码器部分表示为x′=σ(W′h+b′),x′为重建的高维数据。编码器输出层的节点数与输入层相等,以随机初始化的方式对网络参数进行初始化,训练这个网络以期望得到近似恒等函数,重构损失函数为{W,b,W′,b′}=argmin Loss(x,x′)=||x-x′||2。

本文使用去噪自编码器(DenoisingAutoencoders,DAE)提取低维特征,由于上述损失函数可能导致学习到恒等函数,所以为了迫使隐藏层单元发现更多鲁棒性好的特征,去噪自编码器利用带噪声的输入来训练自编码器重构参数[19],对输入加入噪声损坏,其他部分和自编码器一致。

1.3 线性判别分析

线性判别分析(Linear Discriminant Analysis,LDA)也是一种经典的降维方法,在模式识别领域中有非常广泛的应用。不同于PCA方差最大化理论,LDA算法的思想是将数据投影到低维空间之后,使得同一类数据尽可能紧凑,不同类的数据尽可能分散。已知训练样本集{xi}ni=1,xi∈Rm,X=[x1,x2,…,xn]∈Rm×n表示所有样本组成的数据矩阵,假设所有样本的类别数为K,LDA的目标是最大化类间散度并最小化类内散度[20]。LDA的目标函数定义为

(1)

本文对红外光谱亮度数据按照以上3种特征提取方法进行提取,将所提取到的特征向量作为多视角聚类算法输入。其中主成分分析法LDA选择的样本点投影方向具有最大方差,使高维空间中分散的数据点在有限多的方向上得到新的表示,从而起到特征提取和数据降维的作用。去噪自编码器则能够从损坏的输入中恢复出真正的原始数据,这样的特征能更好表达输入信号的原始分布。线性判别分析法为有监督学习,可以使用类别的先验知识经验,能够在一定程度上提高特征可靠性。

主成分分析(PCA)和线性判别分析(LDA)都是线性降维方法,皆以投影的方式,以低维表示高维;PCA只是将整组数据整体映射到便于表示这组数据的坐标轴上,映射时没有利用任何内部分类信息;LDA在基础上增加了分类信息,使得降维后数据尽可能被区分开;另外PCA捕捉数据集中方差较大的特征,同时提取的新特征之间彼此不相关。去噪自编码器(DAE)基于解码器结构,将高维数据编码到低维,解码器接收低维数据并尝试重建原始高维数据。综合3种特征提取方法,融合不同形式的提取特征既能表示原始数据,又能提取特征降维数据对后期的聚类处理提供支持,还能降低噪声等影响。

2 基于多特征的红外光谱多视角聚类

2.1 多视角聚类

多视角聚类近几年被广泛应用于数据分析,由于其对多模态数据和多特征数据的充分利用,可以有效提高聚类效果。多视角聚类通常分为子空间聚类和谱聚类[22],其中谱聚类为基于图论的一种聚类算法,无论是基于图融合的谱聚类[23],还是基于低秩稀疏矩阵分解[24]的多视角谱聚类,都能够有效挖掘各视角特征之间的一致性信息,从而提高聚类效果。本文利用多视角谱聚类实现红外光谱数据的多特征聚类,多视角谱聚类过程如图2所示。

图2 多视角聚类过程

2.2 基于多特征的红外光谱多视角聚类算法

采用主成分分析、去噪自编码器和线性判别分析提取红外光谱数据特征,将物种特征作为一种视角,不同物体在不同特征上表现出的相似性和差异性不尽相同,同一类别的高维数据在低维空间中往往具有一致性表达[25],利用多种特征同时聚类能够尽量保留各个视角的一致性,同时对噪声具有一定的鲁棒性。本文方法由两部分组成,算法框架如图3所示。第一部分对红外数据进行预处理和校正,采取中值滤波法对原始红外数据进行数据预处理。利用PCA提取特征f1,利用去噪自编码器提取特征f2,利用线性判别分析提取特征f3,设样本数为n,特征维度为k,则fi∈Rn×ki,i=1,2,3。将3种特征作为第二部分输入,第二部分利用样本特征向量构建相似度矩阵,根据谱聚类算法,所有样本均表示图上的顶点V=[v1,v2,v3,…,vn],利用全连接法计算邻接矩阵W,所有顶点之间的权重值都大于0,因此全部保留,W=[w11,w12,…,wnn]∈Rn×n,利用高斯核函数(RBF)计算相似度矩阵S,见式(2)

图3 基于多特征的红外光谱多视角聚类算法框架

(2)

(3)

利用交替方向乘子法(alternating direction method of multipliers,ADMM)[24]求解目标函数,得到低秩的转移概率矩阵Z,最后对包含样本一致性信息的低秩矩阵输入K-means聚类算法中得到最终聚类结果。

3 实验结果与分析

3.1 实验数据

为验证算法有效性,分别在3个红外光谱数据集上进行实验,分别是实验采集的黑体数据集、钢板数据集和公开数据集corn。其中,黑体数据集包含23个样本,在不同温度下的41组数据,每组采集141个点的辐射亮度数据,包括2个通道;钢板数据包含41个样本,在不同温度下的12组数据;每组采集100个点的辐射亮度数据;corn数据集由3个不同的近红外光谱仪测量的80个玉米样品组成。波长范围为1 100~2 498 nm,间隔2 nm(700通道)。每个样品的水分、油、蛋白质和淀粉值也包括在内。在每台仪器上也测量了一些NBS玻璃标准。

因为数据冗杂,在此列举展示黑体和钢板的部分原始数据,忽略公开数据集corn。黑体和钢板的某一样本如表1~2所示。黑体数据为在固定发射率时,41个温度跨度下的红外辐射亮度值,钢板数据为固定材质12个温度跨度下的红外辐射亮度值。

表1 黑体样本数据

3.2 评价指标

聚类任务的评价指标通常采用准确率(ACC)、查准率(Precision)、标准互信息(NMI)、查全率与查准率的加权调和系数(F-score)、调整兰德系数(Adj-RI)。各评价指标意义如表3如示。

表3 各评价指标意义

表2 钢板样本数据

3.3 对比方法

本文将提出算法与以下几种传统基线方法进行对比,首先将利用PCA、去噪自编码器和线性判别分析所获得的3种特征分别作为独立的输入,并利用传统K-means方法进行聚类,从而对比3种特征在本实验中的表现。同时与本文所提算法的结果进行对比。

3.4 实验结果

在以上3个数据集上分别对单一特征方法和多特征聚类方法进行测试,为了保证测试结果的稳定性,采用30次测试的平均值作为实验结果,其中同一个数据集上指标的最大值用加粗表示。实验结果如表4所示,表4里详细给出了不同方法在3个数据集上的各种指标。可以看出,本文的算法在3个数据集上都取得了较好的聚类结果。在黑体数据集上,本文算法在指标ACC和Adj-RI上比PCA分别提高了15.80%和5.52%;在钢板数据集上,本文算法在NMI和F-sorce指标上比DAE分别提高了14.48%和15.37%;在玉米数据集上,本文算法在指标NMI 和Precision上比最优单视角分别提高了10.32%和27.38%。此外,在黑体和钢板数据上DAE+K-means的方法比其他两种对比方法性能更好,主要原因是对于样本分布信息较为一致的物体,通过去噪自编码器能够更好学习低维分布和空间特征。本文提出的基于多特征的多视角聚类方法在所有对比算法中取得了最佳效果,得益于充分利用了各种特征,并且在多视角聚类求解过程中解决了各个视角的噪声影响,能够更好捕捉样本在低维空间中的一致性低秩表达。

表4 各算法在3个数据集上的不同性能结果对比

4 结论

本文提出了一种基于多特征提取的红外光谱目标聚类算法,分别采用主成分分析、去噪自编码器和线性判别分析法对红外光谱数据进行特征提取,充分利用了红外光谱数据的主元信息、自表达信息以及低维空间投影信息。本文算法将多视角聚类利用到红外光谱数据分析中,充分利用了红外光谱多波段、多通道数据多样性的特点。在黑体、钢板、玉米样本数据集上进行了实验验证,实验结果表明,在ACC、NMI、F-score以及Adj-RI4种系数上多视角聚类方法的结果明显优于其他对比算法。另外,在玉米数据集上查准率(Precision)比DAE单视角聚类方法提高了27.39%,在钢板数据集上本文算法的调整兰德系数(Adj-RI)比最优的单视角聚类方法提高了4.1%。同时,本文算法参数较少,具有一定的鲁棒性。

猜你喜欢

集上编码器光谱
基于三维Saab变换的高光谱图像压缩方法
WV3650M/WH3650M 绝对值旋转编码器
基于3D-CNN的高光谱遥感图像分类算法
金卤灯太阳模拟设备中滤光片的设计
关于短文本匹配的泛化性和迁移性的研究分析
设定多圈绝对值编码器当前圈数的方法
转炉系统常用编码器选型及调试
基于互信息的多级特征选择算法
舞台机械技术与设备系列谈(二)
——编码器
师如明灯,清凉温润