成像光谱图像安全检索技术的发展与挑战

2021-11-13赵晓蕾耿文浩周倩兰

自动化学报 2021年9期

赵晓蕾张菁,2 卓力,2 陈璐耿文浩周倩兰张洁

1.北京工业大学信息学部北京 100124 2.北京工业大学计算智能与智能系统北京市重点实验室北京 100124 3.中国地质大学(武汉)资源学院资源信息工程系武汉 430074

成像光谱技术是一种可以同时获取目标地物图像和光谱曲线的技术,本文主要研究遥感领域的成像光谱图像(Spectral imagery).由于成像光谱图像

具有很高的空间分辨率和丰富的光谱信息,包括从可见光到短波红外波段范围内的数十个甚至上百个光谱波段,在城市规划、环境监测、军事侦查、生态研究等领域发挥着重要的作用.随着光谱成像技术的迅猛发展,产生了大量的成像光谱图像数据[1],数据量呈指数增长,以中国自行研制的实用型模块化成像光谱仪(Operational modular imaging spectrometer,OMIS)数据为例,一幅图像的数据量就高达 400 MB 以上.如何高效地组织和管理海量的成像光谱图像数据成为遥感影像领域的一个挑战性问题[2-3].基于内容的成像光谱图像检索技术是近年来的研究热点,通过利用图像内容特性(如纹理、空间和光谱等),从海量数据库中寻找和返回用户感兴趣的图像,为组织和管理海量成像光谱图像提供了一种有效的技术手段和方法[4].传统的采用手工设计特征的图像检索方法,由于一直未能很好地解决低层特征和和高层语义之间的语义鸿沟问题,难以形成对成像光谱图像有效的特征表达,从而制约了成像光谱图像检索技术的进一步发展[5].深度学习(Deep learning)技术迅猛发展,它通过建立多层弹性的非线性映射来模拟人脑多层次认知机理,最终实现多层次的特征表达,为成像光谱图像的特征提取与表示提供了新的研究思路[6].然而现有的成像光谱图像检索技术所关注的是如何设计有效的机制来提高检索性能,往往忽略了图像内容的安全性问题.针对海量成像光谱图像,如何在保证图像检索性能的同时,有效地保障成像光谱图像的安全性则具有重要的实际研究意义和广泛的工程应用价值.近年来,研究者已经开始探索加密域(Encryption domain)的图像检索,即对加密图像直接进行特征相似性匹配,在一定程度上兼顾了安全和检索效率[7].

本文将总结近年来基于内容的成像光谱图像安全检索的主要技术,并讨论其发展、挑战和应用.本文的结构安排如下:第1 节介绍成像光谱图像的特征提取与表示;第2 节介绍主要的特征降维技术;第3 节介绍加密域图像安全检索技术;第4 节介绍图像安全检索的性能评价准则;最后为结论与展望.

1 成像光谱图像的特征提取与表示

成像光谱图像从可见光和不可见光波段对地物成像,蕴含了丰富的地物光谱信息,可以精细表达地物.与自然图像相比,成像光谱图像不仅包含了低层视觉特征,还包括其特有的光谱特征[8].近年来,人工智能领域的最新研究成果——深度学习技术的提出,被证明在自然图像的特征提取表示上具有更高的语义性和抽象性.鉴于深度学习在特征表达的突破性进展,一些学者们开始研究成像光谱图像的深度特征表示方法[9].

1.1 传统的手工设计特征

传统的成像光谱图像主要采用纹理、形状以及光谱等手工设计特征进行表示.

1.1.1 视觉特征

成像光谱图像的信息融合了空间域和光谱域,是一种特殊的三维立方体图像,其中空间域中含有类似于自然图像的视觉特征,例如纹理特征、形状特征等[10].

纹理特征通过像素及其周围领域的灰度分布来表示,具有周期性特点,可以体现出成像光谱图像物体表面的缓慢变化和周期性结构变化[11].纹理特征描述方法主要有统计方法、几何法、模型法、信号处理法等[12].Tan 等[13]利用灰度共生矩阵法提取降维后第一个主波段图像的纹理特征,通过结合光谱特征和空间自相关特征,分类准确率达到93.14%.

形状特征是描述地物目标的一种重要特征,不同的地物目标具有明显可区分的形状.Benediktsson 等[14]用数学形态学形成了多尺度的空间特征剖面,提取地物的空间特征进行分类,准确率达到97.2%.Segl 等[15]用种子点填充和迭代的方式,结合不同地物的形状模板提取成像光谱图像的形状特征,这种方法可以将城市中的建筑物和其邻近的开放空间分隔开,实现了城市地表覆盖类型的空间分布.由于成像光谱图像获得的地物目标较小,因而边缘可能很模糊、形状表达不明显,易受旋转、平移等变换的影响.

1.1.2 光谱特征

光谱特征是成像光谱图像区别于普通图像的一个独有的特征,反映了成像光谱图像中地物的反射率随入射波长变化的规律,具有很好的表达能力.成像光谱图像中的地面辐射或发射信号数据是以像元为单位的,每个像元通常代表不同的覆盖地物,不同地物对应不同的光谱曲线.常采用提取端元来表示光谱特征,经典的方法有N-FINDR 算法、迭代误差分析法、纯像元指数法等.Plaza 等[16]利用NFINDR 算法将端元问题转化为求单形体的顶点,通过体积的不断膨胀求出端元作为光谱特征,当图像内容较为复杂时,提取的结果不稳定.王强[17]使用迭代方法,得出具有光谱相似性和空间相关性的聚类分区,实验证明此方法能够提取准确的端元.纯像元指数法将光谱空间的像元进行投影,投影后的端点是纯净像元,增加对应的像元指数,选取像元指数最大的为端元.Wang 等[18]对纯像元指数法进行了改进,提出了自动纯像元指数法(Automatic pure pixel index,APPI),提高了算法的稳定性,并且实现了自动化.然而,自动纯像元指数法在投影过程中存在图像弱信号被忽略的问题,会影响提取端元的全面性.我们已有的研究工作改进了自动纯像元指数法中投影向量的生成过程,提出了一种改进的自动纯像元指数法[19]来生成像元投影向量,克服了原方法提取端元不全面的问题.

现有的很多研究往往采用融合多种特征的方式来表示成像光谱图像.我们已有工作中设计了一个基于多特征的成像光谱图像检索系统[20-21],利用改进的自动纯净像元指数法提取成像光谱图像端元光谱特征,端元提取的流程如图1所示,然后利用灰度共生矩阵提取图像的纹理特征,将两种特征融合共同表示图像,完成成像光谱图像的检索[21].实验

图1 成像光谱图像端元提取流程Fig.1 The flowchart of end member extraction of spectral imagery

表明,这种融合多种特征的方法可以提取出更全面的图像端元种类,检索平均查准率达到80.32%.

在特征表示方面,我们的另一个工作提出了用光谱单词来表示成像光谱图像[22-25].如图2所示,首先利用可见光谱分割法对成像光谱图像进行光谱分割,将可见光谱段图像合成灰度图像提取尺度不变特征变换(Scale-invariant feature transform,SIFT)特征;然后利用最小噪声分离(Minimum noise fraction,MNF)变换对图像进行降维,基于改进的APPI 算法提取图像的端元作为光谱特征;最后利用K 均值聚类分别对SIFT 特征与光谱特征聚类,构建出光谱单词,成像光谱图像与其对应的光谱单词直方图如图3所示.进一步,我们采用光谱单词进行成像光谱图像检索,实验得到的检索查准率达到了83.26%[25],说明光谱单词特征具有很好的图像描述能力.

图2 光谱单词特征构建流程Fig.2 The flowchart of spectral words creation

图3 成像光谱图像与其光谱单词直方图Fig.3 The spectral imagery and the histogram of the spectral words

1.2 深度特征

近年来,深度学习可以从大量图像中自动地学习特征,包含有成千上万的参数,已经广泛应用于语音识别[26]、目标识别和检测[27]、自然语言处理[28]、人体姿态估计[29-32]等各个领域.在大数据的背景下,利用复杂强大的深度学习模型对大规模成像光谱图像数据进行训练,可以从根本上揭示图像中潜在的丰富的数据信息,从而得到大量更具代表性的特征[33].深度学习方法主要分为有监督学习与无监督学习两种特征学习方式,有监督学习的方式主要依赖于对大量有标注图像的训练[34],由于成像光谱图像数据量大、标记困难,常采用无监督的深度特征提取方法.常用的无监督方法有自动编码(Auto-encoder,AE)、深度置信网络(Deep belief network,DBN)和深度卷积生成对抗网络(Deep convolutional generative adversarial network,DCGAN)等.

1.2.1 自动编码方法

自动编码AE 方法是深度学习中一种典型的算法,是由Rumelhart 于1986年提出的[35],通过无监督学习进行逐层训练,能够很好地表示数据空间的固有几何结构.例如,Zhang 等[36]提出了一种无监督的递归自动编码机(Recursive auto encoders,RAE)的深度网络模型,提取成像光谱图像的深度光谱-空间特征,分类准确率可以达到80%.张洪群等[33]用稀疏自动编码在未标注的遥感图像上得到特征字典,使用训练出来的特征字典进行卷积和池化,得到每幅图像的特征图,检索准确率达到90.6%.

自动编码方法在无监督学习和非线性特征提取过程中起到了至关重要的作用,最大的优点是模型的表达能力强,可以保证输出数据和输入数据基本一致,降低了隐含层的维度,但是传统的自动编码方法在隐含层提取特征时会出现激活节点数相同,造成特征的区分度不大等情况.

1.2.2 深度置信网络

深度置信网络DBN 是由多层无监督的限制玻尔兹曼机(Restricted Boltzmann machine,RBM)网络和一层有监督的反向传播(Back propagation,BP)网络组成[37].Hinton 等[38]首先利用DBN 对MNIST 手写数字图片提取特征进行识别,正确率达到98.8%,说明了DBN 模型可用于提取成像光谱图像特征.Jiang 等[39]利用DBN 提取成像光谱图像的特征,首先使用多层的RBM 进行非监督学习,之后有监督地微调网络参数,提取出图像特征进行分类,在Indian Pine 数据集上分类准确率达到了99.23%.

深度置信网络灵活性很好,在小目标检测上具有较高的精度,适用于大尺寸成像光谱图像中面积较小地物特征的提取.但是只对输入一维数据的建模效果较好,处理图像时需要将其图像矩阵一维向量化.

1.2.3 深度卷积生成对抗网络

深度卷积生成对抗网络DCGAN 是一种由生成模型和判别模型组成的无监督深度学习模型,用来生成新的样本以扩充数据[40].DCGAN 网络能够用图生成图的方式生成相似样本,说明DCGAN 网络模型在生成样本的过程中利用其中的卷积结构无监督地学习到了具有较强图像内容表征能力的特征.为此,我们提出将DCGAN 用于成像光谱图像实现无监督的深度特征提取.DCGAN 网络中的生成器由一系列反卷积组成,用于生成图像,判别器由一系列卷积层组成,用于对生成的图像进行判别.

我们已有工作提出利用DCGAN 提取成像光谱图像的深度特征[41–42],对图像内容进行特征表示.提取深度光谱-空间特征的DCGAN 网络模型如图4所示,主要分为三部分:

1)光谱-空间向量获取.首先手工选择成像光谱图像的纯净像元,提取出纯净像元的光谱向量,然后对原图像进行1 BT 变换得到主分量波段,选择纯净像元的邻域像素作为空间向量,用向量叠加的方式把两者融合成为光谱-空间向量.

2)DCGAN 网络模型训练.DCGAN 网络模型由生成器和判别器两部分组成,如图4所示.传统的DCGAN 网络模型主要用于生成样本,生成器的输入是一个100 维均匀分布的向量,通过4 层反卷积生成样本,判别器的输入是生成样本或者真实样本,通过4 层卷积结构,输出是判断为真实样本的概率.由于传统的DCGAN 网络模型不能直接用来进行特征学习,而判别器中卷积结构在图像特征表示方面具有强大能力,为此,我们对传统DCGAN网络模型进行了改进,采用去掉全连接层的判别器,通过最大池化来提取输入样本的深度特征.首先将光谱-空间向量作为DCGAN 网络模型判别器的输入,在判别器中对四个卷积特征(Conv1,Conv2,Conv3,Conv4)分别做最大池化,将四个池化(Max pooling 1,Max pooling 2,Max pooling 3,Max pooling 4)输出的深度光谱-空间特征进行级联,得到成像光谱图像的深度光谱-空间特征.其中,采用最大池化的原因是由于特征图大小不等、数量过多,直接级联会导致特征维数过高,为了方便级联的同时降低特征维数,需要把每一层卷积层的特征图进行最大池化输出再级联.

图4 用于提取深度光谱-空间特征的DCGAN 网络模型Fig.4 The DCGAN model for extracting deep spectral-spatial features

3)深度光谱-空间特征提取.按照1)的方法提取图像的光谱向量和空间向量,用向量叠加的方式把两者融合成为光谱-空间向量,最后输入到训练好的DCGAN 网络模型里获取成像光谱图像的深度光谱-空间特征.

我们对比了五种特征表示方法测试了图像检索的查准率和查全率[42-43],如图5所示.第1 种是我们之前的方法,用APPI 提取的端元和纹理特征相结合[20],记为M.APPI,平均查准率为78.49%;第2 种是结合光谱特征和空间特征[44],记为M.SS,平均查准率为73.22%;第3 种是利用端元来表示图像的方法[45],记为M.EM,平均查准率为73.18%;第4 种是用DBN 提取深度光谱空间特征的方法[46],记为M.DBN,平均查准率为81.33%;第5 种是我们利用DCGAN 网络提取深度光谱空间特征的方法[42-43],记为M.DSS,平均查准率为86.49%.可以看出利用DCGAN 提取深度特征进行检索的性能要优于其他的方法.

图5 五种方法的查准查全率曲线Fig.5 The precision-recall curves of five different methods

传统的手工设计特征提取很耗时,耗费大量人力,主要依赖于大量的先验知识,在成像光谱图像数量庞大和具有大量复杂信息的情况下是难以完成的.手工设计特征可以有效地表示图像低层次的特征,但难以表达图像更高层语义的内容,而深度特征对图像的描述能力更强,可以获得更好的检索效果.

2 特征降维

成像光谱图像作为一种复杂的三维立方体数据,包含数十到数百个光谱波段,含有大量冗余信息,内容表示会产生较高维度的特征,特别是深度特征表示,更加重了成像光谱图像的“维度灾难”问题,会影响检索效率.特征降维是为了去除特征中的冗余信息,最大保留有效信息,最终实现对特征数据维度的一种有效约简技术,而有效的降维技术可以提高特征的表达能力、简化计算机存储和提高检索计算效率[42-43,47].特征降维技术主要包括主成分分析方法(Principal component analysis,PCA)、最小噪声分离(Minimum noise fraction,MNF)、投影寻踪(Projection pursuit,PP)以及非线性流形学习(Nonlinear manifold learning,NML)等.

2.1 主成分分析方法

主成分分析方法PCA 是一种经典的无监督降维方法[47],在成像光谱图像处理中运用比较广泛.通过线性变换把原数据转化成一组线性无关的表示,提取主要特征分量替代原始高维数据,从而实现降维,在图像分类、检索中得到了广泛的应用.Plaza 等[48]对原始光谱图像降维,提取出主要的几个波段,然后再提取主要波段的光谱特征.Emre 等[49]提取空间特征向量,首先用PCA 对图像进行降维,在每个PCA 段的子窗口分别提取SIFT 描述符.但是PCA 在处理成像光谱图像时,降维过程中存在两个缺点:一方面图像特征输入数值的变化会对降维结果产生明显的影响,稳定性差;另外此变换对噪声比较敏感,信息量大的主成分分量,信噪比不一定高.

2.2 最小噪声分离

最小噪声分离MNF 本质上是含有两次叠加处理的主成分分析,第一次变换用于分离和重新调节数据中的噪声,第二次是对噪声白化数据的标准主成分变换[47,50].不像PCA 变换按照方差由大到小排列,克服了噪声对图像质量的影响.但采用基于空间特征进行噪声估计的MNF 进行图像降维时,第一主成分往往不是重要性程度最高的,即不能保证各成分按照真实的重要程度进行排序,在降维过程中得到的结果并不是最优的.Nielsen[51]提出了核MNF,通过核函数将样本变换为核函数矩阵映射到高维特征空间,在特征空间中进行线性MNF 运算,不仅可以使图像各波段间的信号正交化,同时也使噪声正交化,弥补了MNF 处理非线性问题的不足.

PCA 方法能够保留背景信息,且对数据压缩明显,大大减少了计算量.MNF 变换可以将噪声从波段中分离,在实现降维的同时抑制噪声对图像的影响,适用于噪声在图像各个波段分布不均匀的现象.我们已有工作结合两种方法对成像光谱图像进行并行降维变换,变换后得到两种成分分量的图像,不仅消除了原始图像的噪声,还保留了图像的全局特征[50].

2.3 投影寻踪

投影寻踪PP 方法属于直接由样本数据驱动的探索性数据分析方法,是一种专门处理高维数据的降维方法.王强[17]主要思想是把高维数据映射到可视子空间上,寻找到一个能反映高维数据结构或特征的投影,通过分析和研究投影数据达到了解原始数据的目的.PP 算法用一维统计方法解决了成像光谱图像特征维数过高的问题,但是存在计算量过大、高度非线性问题研究效果不好的缺点.

2.4 非线性流形学习

流形学习是处理非线性降维的主要方法之一,从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,从而实现维数约简或数据可视化[6,52].与前面的几种方法相比较,非线性流形学习考虑了数据的局部结构.成像光谱图像的光谱分辨率很高,数据在高维空间中是呈非线性分布的,因此成像光谱图像的高维数据更适合采用非线性的降维方法处理.

现有的非线性流形学习NML 方法包括等度量映射(Isometric mapping,ISOMAP)[53]、局部线性嵌入(Locally linear embedding,LLE)[54]和随机近邻嵌入(Stochastic neighbor embedding,SNE)[55]等.ISOMAP 的优点是对单一流形结构降维过程能够判断出流形的内在维数,对于特定数据集如人脸数据集效果比较好,缺点在于无法定义样本空间到嵌入空间的映射,不能直接得到未知点的映射值.与ISOMAP 不同,LLE 是通过局部线性的拟合得到内在的全局线性结构,该算法不用计算距离矩阵,求解过程简单,但是需要在嵌入空间保持近邻数据间的顺序,得出求取近邻数据的权值求解方法,但对于这一权值矩阵的使用没有固定的规则[54].SNE是Hinton 等[55]在2002年提出来的一个算法,把高维空间的欧氏距离转化为条件概率来表示数据之间的相似性.为了优化随机近邻嵌入,Hinton 等[56]提出对称SNE(Symmetric SNE),用联合概率代替条件概率,对称的SNE 计算简洁,但会引入异常值和“拥挤问题”,之后又提出t-分布领域嵌入算法(tdistributed stochastic neighbor embedding,t-SNE)[56],优化了降维的效果,在高维数据降维中广泛应用.Du 等[57]利用ISOMAP 对成像光谱图像的特征进行降维处理.将ISOMAP 与MNF 方法进行比较,发现ISOMAP 在光谱规范化特征值方面优于 MNF 变换,降维后的信息量保持方面取得了很好的结果,揭示了成像光谱图像数据的内在非线性结构.胡英杰[58]用基于稳定的空间信息 LLE 算法对原始的高光谱数据进行非线性降维,然后再进行端元的提取,这种方法获得了较高的端元提取效果.我们已有工作利用 t-SNE 对提取到的成像光谱图像的深度光谱-空间特征进行降维处理[42-43].如图6所示,首先对成像光谱图像的深度光谱-空间特征采用模糊C 均值聚类(Fuzzy C-means,FCM)获得聚类中心点作为代表数据[59],然后利用t-SNE的非线性流形方法实现对聚类中心点的降维,最后应用归纳流形哈希实现全部成像光谱图像深度光谱-空间特征的非线性流形哈希降维.

图6 t-SNE 的降维流程图Fig.6 The dimensionality reduction method of t-SNE based nonlinear Hashing

在我们已有工作中,提出利用哈希降维算法来提高海量成像光谱图像的检索效率,在实验中对比了4 种哈希降维方法的平均精度均值(Mean average precision,mAP)分数来验证检索性能[42-43].图7 分别是谱哈希(Spectral Hashing,SH)[60]降维方法、自学习哈希(Self-taught Hashing,STH)[61]降维方法、图哈希(Graph Hashing,GH)[62]降维方法和基于t-SNE 的非线性流形哈希(t-SNE-NMH)降维方法[42-43],在码长64 比特时,平均精度均值分别为43.5%、54.9%、66.45%和79.20%.从实验结果可以看出,我们提出的t-SNE-NMH 降维方法的mAP分数更高,检索性能更好.

图7 4 种哈希降维方法的mAP 分数Fig.7 The mAP of the four Hashing methods

3 加密域安全检索技术

随着互联网的发展和普及,信息安全问题日益突出,含有重要信息的成像光谱图像应具有严格的保密性,要确保检索过程中不发生泄密事件[25,63].近年来,研究者已经开始探索加密域的图像安全检索,即对加密图像直接进行特征相似性匹配,在一定程度上兼顾了安全性和检索效率[7,64].这种方法在不解密或部分解密的情况下直接进行检索,为了保障图像检索的准确性,必须使特征加密前后的相似性保持一致.加密域图像安全检索的基本框架如图8所示,当用户输入图像之后,首先采用前面介绍的特征提取和数据降维方法提取图像特征并降维,然后对特征进行加密,之后在加密域度量加密特征间的相似度,返回相似的加密图像,最后通过解密,得到图像检索结果.具有代表性的特征加密方法有同态加密、检索索引随机化和随机化操作特征加密等方法.

图8 加密域图像安全检索基本框架Fig.8 The framework of secure image retrieval based on feature encryption

3.1 同态加密

同态加密[65]是一种允许直接对密文进行操作

的加密变换.对经过同态加密的数据直接进行解密,其结果与用相同方法处理未加密的原始数据结果是一样的.在保证特征安全性的同时可以保证特征向量间的距离不变.Gentry[66]在2009年提出了“全同态加密”算法,在不解密的条件下对加密数据进行和明文域上相同的运算.Vercauteren 等[67]利用全同态加密算法对图像数据以及图像特征进行加密保护,在加密域直接进行相似性度量,实现图像的安全检索.在我们已有的研究工作中[68-69],提出了一种利用Paillier 同态加密算法进行图像安全检索的技术.首先提取图像的颜色、形状和纹理特征,采用局部保留投影算法(Locality preserving projections,LPP)等流形学习算法进行降维,然后选用Paillier 同态加密算法,对整数化后的特征进行保护,在加密域进行相似度度量,最后返回前K幅相似图像,在查全率为0.1 时,查准率达到87.9%.基于同态加密的方法可以获得很好的检索结果以及安全性,但计算复杂度极高,检索的效率受到很大的影响,实用性较差.

3.2 检索索引随机化技术

检索索引随机化技术有保序加密(Order preserving encryption,OPE)[70]和最小哈希(Min-Hash)[71]加密方法.OPE 方法是对倒排索引进行OPE 加密,保留了明文的排序信息,主要包括数据分布建模、平铺、变换三个步骤.OPE 加密数据具有单调变化性,可以使得数据保持顺序不变.Min-Hash 方法是对提取的特征利用随机Hash 函数进行映射,保留了明文中最小哈希值相等的数量,不仅可以提供两个数据的原始内容是否相等的信息,同时还可以反映不相等的原始内容之间的差异程度.其中Min-Hash 方法能有效地降低特征维度,简化计算量,但两种方法都存在着一定的明文信息泄露隐患.OPE 和Min-Hash 的加密方法通过Jaccard 相似性度量方法判断特征相似程度,是用两个集合中不同元素占所有元素的比例来衡量两个集合的差异性.

此外,我们已有工作使用保序加密方法对成像光谱图像的特征进行保护[24-25],首先提取图像纹理特征和光谱单词特征,然后构建图像特征的倒排索引,最后采用保序加密算法对检索索引进行加密保护,加密前后数据频数的方差平均值分别为456.3164 和0.2474,加密后数据的分布更为均匀,安全性较高,加密后平均查准率达到83.26%,实验证明基于OPE的特征加密方法获得了很好的检索性能.此外,Lu 等[72]采用基于词汇树的检索方法,利用Min-Hash 算法对视觉词汇进行加密,检索图像时,对计算出的视觉词汇用Min-Hash 进行信息摘要.

3.3 随机化操作特征加密方法

随机化操作方法有基于比特平面随机化[73]、随机投影[74]和随机一元编码[75]的特征加密方法.比特平面随机化方法是对特征向量的两个位平面进行相同二进制向量的异或,或者当两个位平面进行相同模式的置换时,它们的汉明距离可以近似保持不变.随机投影方法是利用特征向量在随机投影后,相似性距离近似不变的特性,在保护图像特征的同时,实现图像的安全检索.随机一元编码方法是将整数特征向量通过一元编码以二进制形式表示,经过异或和随机排列操作后达到保护特征的目的.这三种加密方法采用汉明距离计算特征相似性,汉明距离指两个相等长度向量,将其中一个变为另外一个所需要做的最小替换次数,向量的汉明距离越小说明其相似度越高.我们已有工作提出了采用比特平面随机化的视频加密方案[73],获得了较好的安全性和较高的计算效率.Tang 等[74]提出基于随机投影分割和混沌体系的图像加密算法,将输入图像分成几个重叠块,再将其分成一组投影线,最后通过随机投影线完成数据加密.

在上述加密方法的基础上,Lu 等[76]提出了一种特征随机化加密技术,可以省去对给定特征进行一元编码,直接对特征进行异或、置乱和特征维度的随机化映射操作,此外可以保证加密前后汉明距离不变.我们已有工作采用特征随机化加密技术对降维后的深度光谱-空间特征进行加密[42,77],包括特征比特平面的异或和随机置乱加密、特征维度的随机映射加密两部分内容.前者是通过改变特征元素中0 和1 数量,打乱特征内部元素的位置,破坏分布规律,达到对特征位置信息保护的目的,后者可以通过改变哈希码的长度,实现对特征维度信息的保护,然后选择多索引哈希计算汉明距离检索相似图像,最后在系统检索过程中引入了相关反馈机制,进一步优化检索结果.

我们对比了保序加密和特征随机化加密方法的检索性能,查全率-查准率如图9所示[42,77].实验数据集包括5 000 幅成像光谱图像,是由AVIRIS 高光谱成像仪获取的美国和德国地区数据,数据包含224 个光谱波段,波谱覆盖的范围为0.4～2.5 m,空间分辨率为20 m,光谱分辨率为10 nm,采用DCGAN 提取的深度光谱-空间特征.另外,我们比较了两种加密方法的加密时间和检索时间,如表1所示.在这两种特征加密方法的比较中可以看出,特征随机化加密方法在检索准确性和速度上都优于保序加密.

图9 两种不同加密方法的查全率-查准率曲线Fig.9 The precision-recall curves of two different feature encryption methods

表1 两种不同特征加密方法的加密时间和检索时间比较(s)Table 1 The time cost of feature encryption and retrieval between two different methods(s)

4 图像安全检索性能评价准则

4.1 安全性能

安全性能主要是指在图像检索过程中图像内容是否存在泄漏的可能,主要考虑了服务器端安全性、用户端安全性、交互通信安全性以及密码安全性等方面.

1)服务器端无法获取查询图像的明文信息,避免了已知明文信息推断出查询图像内容,从而泄露查询图像信息的问题.

2)用户端无法获得存储在服务器端图像库中的信息,避免图像信息在用户端泄露.

3)在检索过程中,用户与服务器会进行交互通信,为避免信息在此过程中被第三方窃取,需要考虑通信过程中的安全性.

4)密码安全性指的是加密算法抵抗各种密码攻击的能力,主要判断方法有穷举法破解和加密前后数据的分布形态[78].穷举法与加密私钥的长度有关,加密使用的私钥长度为S比特,穷举次数为 2S,即穷举攻击次数超过108 时可以抵御穷举攻击[79].

比特密钥加密前后的数据分布形态通过比较数据的相同位数,越大表示分布差异性越大,安全性越高,相同位数B计算为

其中,Eb为加密前的数据,Ea为加密后的数据,⊕表示异或运算,若Ea与Eb值相同,运算结果为0,否则结果为1.

4.2 检索性能

图像检索性能评判标准主要采用查准率(Precision)和查全率(Recall).查准率反映了一个检索算法的准确性,而查全率反映了检索算法的全面性.定义检索结果中相似图像的数量为 SIR(Number of similar images retrieved),检索结果中不相似的图像数量为 NSIR(Number of non-similar images retrieved),以及没有检索到的相似图像数量为SINR(Number of similar images not retrieved)[20].查准率和查全率的定义为

其中,查准率P表示检出的相关图像与检出的全部图像的百分比,查全率R表示检出的相关图像数量与检索系统中相关图像总量的比率.

5 总结与展望

随着成像光谱技术的迅猛发展,成像光谱图像在城市规划、环境监测、军事侦查、生态研究等领域发挥着必不可少的作用.成像光谱图像承载着巨大的重要地物信息,因其庞大的信息数据量和广泛的应用需求,快速准确地检索出有用的信息是当前亟需解决的问题.此外,在保证图像安全检索性能的基础上保障图像的安全性也是一个重要的研究任务.

本文总结了目前成像光谱图像安全检索技术的研究现状,包括特征提取与表示、特征降维和加密域安全检索技术.深层网络可以提取出鲁棒性更高的深度特征,从而使检索准确性更高,基于深度学习的无监督特征提取方法在未来的研究中具有很大的潜力.非线性降维方法在减少了计算复杂度之外,还保留了成像光谱图像数据的全局结构,在处理成像光谱图像数据中应用广泛.另外特征加密技术逐渐成熟,现有的特征加密技术保证了检索准确率同时保障了数据的安全.成像光谱图像安全检索技术有很大的应用前景,在今后的研究发展中仍存在着一些挑战[80-82]:

1)今后应该更深入考虑各种深度网络模型的特点,提取出表征能力更强的深度特征.针对成像光谱图像数据量大、标注样本少的问题,要深入研究更多的无监督网络结构,以利用大量的、无标注的图像提取深度特征.此外,如何设计有监督的模型,充分利用有限的有标注数据提取更具代表性的深度特征,也是未来发展的一个挑战.

2)成像光谱图像信息丰富,数据量庞大,在现有技术的基础上,针对成像光谱图像特征数据非线性分布的特征,应深入研究更有效的非线性降维方法,在保留原有数据结构的基础上,减少计算复杂度,提高检索效率.

3)信息保护方面,在检索过程中防止成像光谱图像信息不被泄露是很重要的一个环节.今后需要深入研究更严密的特征加密算法,寻找到安全性更高的特征加密策略.如何设计出保密性好、准确率高的加密算法在未来的研究中是一个难点.

4)在未来的研究中应扩充成像光谱图像数据库,提供共享服务,以方便研究者投入研究.另外,可以利用有监督的深度学习方法研究有效的自动样本标注方法,增加成像光谱图像有标注样本的数量,利于今后的研究工作.