弹性跨模态特征学习在图像识别中的应用分析

2020-10-26邓瀛灏

科学与信息化 2020年29期

关键词：弹性

摘要典型相关分析（CCA）是一种经典的特征学习方法，广泛应用于图像识别、信息融合、情感计算等领域。然而CCA难以发现隐藏在原始样本空间中的非线性局部子流形结构。为了解决该问题，本文在典型相关分析基础上提出了一种弹性跨模态特征学习方法，该方法同时保留了隐藏在原始样本空间中的局部几何结构和全局欧几里得结构。实验结果显示了该方法在图像识别方面的有效性。

关键词典型相关分析;流形结构;弹性;局部几何;全局欧几里得

引言

最近几年，模态学习广泛应用于图像识别[1]、图像分割[2]、姿态估计[3]、基因分析[4]等领域。尤其在图像识别领域，如何从高维的模态数据中学习具有强鉴别力的低维特征已经成为一项挑战性的课题。

CCA[5]旨在寻找一对投影方向，用以最大化两模态数据之间的相关性。然而，CCA本质上是一种线性维数约简技术，因此它只能全局地揭示两组特征之间的线性相关关系，这种线性模型不足以评估特征之间的非线性相关关系。为此孙权森[6]提出了局部保持CCA（Locality Preserving CCA）方法，该方法将局部结构信息嵌入到CCA中，在局部邻域中利用线性CCA来处理问题，从而解决全局问题。LPCCA既保留了局部几何结构又获得了两模态数据集之间的典型相关性。受弹性保持投影（EPP）[7]方法的启发，本文提出了一种弹性跨模态特征学习方法，即弹性典型相关分析方法（Elastic CCA），该方法不仅保留了原始样本集的局部几何结构同时也考虑到了全局欧几里得结构，保持了局部和全局的弹性关系，获得了最大相关性的典型相关特征。

文章其余部分安排如下，第二节简要介绍了CCA方法，第三节详细介绍和分析了ECCA方法并在第四节中给出了该方法在一些数据集上的识别性能，第五节给出了本文的结论。

1弹性相关分析方法

假设和为两个模态样本集，其中和分别为样本维度，为样本总数，样本均以均值归一化。具体的优化模型为：

（1）

其中，，

，，（or ）是一个对角矩阵，对角线上的元素为（or）矩阵每一行或列累加后的结果。

中：

（2）

中：

（3）

其中，是类内局部相似矩阵中第个元素，是一个核参数，表示的前k个最近邻样本集合。

为了进一步求解优化模型，利用拉格朗日乘子法可以将上式等价地转化为以下的广义特征值问题：

（4）

其中是特征值，通过求解公式（4）可以分别获得样本集X和样本集Y的前个最大特征值对应的特征向量和。通过构建投影矩阵和进一步得到样本集X和样本集Y的低维相关特征和。

2实验结果分析

在本节中，我们分别在GT图像数据集和ORL图像数据集上设计了一些实验来说明ECCA方法的识别性能。

2.1 在GT图像数据集上的实验

A±B：A表示平均識别率（%），B表示相应的识别率标准差

GT图像数据集共有50个对象分别对应15副彩色背景的面部图像，共750副面部图像，每幅图像具有不同的表情，照明和倾斜比例变化。在实验部分，分别从每类对象中选取q（q=5，6，7，8）个样本作为训练样本，其余样本作为测试样本，权重统一为0.05，近邻参数k为2。

CCA仅保证了两模态数据集之间的最大相关性而忽略了模态内的非线性子流形结构和全局欧几里得结构结构，在表1中也表现出了较差的识别性能。LPCCA在CCA的基础上保留了模态内的局部子流形结构，但在高维的数据中，大量的噪声和冗余信息会导致LPCCA难以真实的反映局部子流形结构，这仍然会影响它的识别性能。ECCA在LPCCA的基础上通过保留全局欧几里得结构获得了更具鲁棒性的弹性结构，学习到更具有鉴别力的相关特征，因此在表1中展现了较为优秀的识别性能。

3结束语

特征学习的核心任务是从高维的模态数据中学习到能够保存原始模态数据中有效信息的低维特征。基于这种思想，本文提出了一种ECCA方法，在CCA中嵌入局部几何结构信息和全局欧几里得结构信息来达到保留弹性结构的目的。相比于LPCCA，ECCA利用了全局信息来发现原始模态数据中的欧几里得结构，更全面地保留了原始模态数据的结构信息。在两个真实的图像数据集上，实验结果揭示了ECCA方法在图像识别中的良好性能。

参考文献

[1] Han D，Nie H，Chen J，et al. Multi-modal haptic image recognition based on deep learning[J]. Sensor Review，2018，38（4）：486-493.

[2] Dolz J，Gopinath K，Yuan J，et al. HyperDense-Net： a hyper-densely connected CNN for multi-modal image segmentation[J]. IEEE Transactions on Medical Imaging，2018，38（5）：1116-1126.

[3] Hong C，Yu J，Zhang J，et al. Multi-modal face pose estimation with multi-task manifold deep learning[J]. IEEE Transactions on Industrial Informatics，2018，15（7）：3952-3961.

[4] Chaudhary K，Poirion O B，Lu L，et al. Multimodal meta-analysis of 1，494 hepatocellular carcinoma samples reveals significant impact of consensus driver genes on phenotypes[J]. Clinical Cancer Research，2019，25（2）：463-472.

[5] Sun Q S，Zeng S G，Liu Y，et al. A new method of feature fusion and its application in image recognition[J]. Pattern Recognition，2005，38（12）：2437-2448.

[6] Sun T，Chen S. Locality preserving CCA with applications to data visualization and pose estimation[J]. Image and Vision Computing，2007，25（5）：531-543.

[7] Zang F，Zhang J，Pan J. Face recognition using Elasticfaces[J]. Pattern Recognition，2012，45（11）：3866-3876.

作者简介

邓瀛灏（1994-），男，安徽亳州人;现就读学校：安徽理工大学，在读硕士，研究方向：多视图特征学习。