APP下载

保局投影在对象识别中的应用研究

2022-07-17曾万里雷翔霄

长沙民政职业技术学院学报 2022年2期
关键词:流形度量投影

曾万里 雷翔霄

(长沙民政职业技术学院,湖南 长沙 410004)

引言

近年来,对象(如人脸、物体等)识别成为模式识别和人工智能领域的研究热点,研究人员进行了大师探索并取得了突破性的进展,但是大部分的研究还是以单一图像为识别对象。近年来,基于图像集的对象匹配取得了一些成果[1],但是在无约束的自然环境中,基于单一查询图像集合的识别在技术上仍然具有挑战性。

随着网络摄像机的普及,人们非常容易通过监控设备获取大量的监控视频,从而方便地构建大规模的人脸数据库,这一点促进了近年来基于多图像集的人脸识别的研究,但是通过这种方式获取的图像,清晰度不高,抓取到的人脸信息不全,噪声较高。研究人员在具体研究应用中,可以利用图像序列之间的时间信息,也可以把图像集当成一个松散的集合来处理。一般通过人脸检测或者跟踪方法提取的人脸图像归一到统一尺寸,然后通过提取图像的特征向量化单张图像,也可以直接使用灰度值通过逐行或者列堆叠向量化。

近年来的文献研究主要集中于参数模型和非参数模型两个方面。参数模型方法主要通过参数分布来构建图像集合的模型,如使用Kullback-Leibler散度来度量两个模型的相似性[2]。但是,在实际应用中,很难对参数进行准确的估计。本文提出的是一种基于非参数模型的方法,这一类方法通过诸如子空间[3]、流形[4]、仿射包和凸包[5]、协方差矩阵[6]等对图像集合建模,有良好的数学理论支持,其核心在于如何构建这个数学模型以及度量两个模型之间的相似性。例如子空间以及基于子空间的一类方法将图像集合投影到低维的线性子空间,再用典型相关来度量两个子空间的相似性。仿射包和凸包方法,是通过计算图像集仿射子空间内最近邻点之间的距离来度量两个仿射包之间的相似性。

核方法在图像集合建模方面起着非常重要的作用,主要是通过非线性映射函数将原始空间的图像投影到可分性更强样本的高维空间。通常人们通过格拉斯曼流行来描述一个子空间,因为子空间可以解释成格拉斯曼流形上的点,通过在生成的再生核希尔伯特空间中学习一个分类器实现分类。例如,流形判别分析方法(Manifold discriminant analysis,MDA)[4]通过最大化流形之间的间隔增加不同类样本之间的可分性。协方差鉴别学习方法(Covariance discriminative learning,CDL)[6]主要基于全部正定对称矩阵构成黎曼流形的结论,通过计算图像集合的协方差矩阵得到正定矩阵,从而将图像集映射到黎曼流形上,并用黎曼流形上的距离(如对数-欧式距离,Log-Euclidean distance,LED)对图像集合之间的相似性进行度量。

度量学习主要针对构建流形异构的问题,可以找到异构流形存在的共性,解决样本匹配问题,得到更切实际的距离度量。

1.基于集合的对象匹配框架

最近的研究表明,通过流形上的度量学习可以得到一个更加低维、更加紧致的流形,此流形可以更好地描述图像集合的特征,在学习得到的流形上进行判别分析能够获得更好的识别结果。本文提出是一个非参数模型的方法,讨论格拉斯曼流行上的保局投影在对象匹配中的问题。从图像集合的建模、相似性的定义以及核空间上的流形上的保局投影等几个方面讨论和分析在人脸识别中的应用。

也就是说,函数φ( )S 将图像集合变换到模型空间Μ 中得到图像集合的表示,核函数k( )X 将模型空间的特征表示X 变换到新的特征空间F 中,综合这两个步骤得到合成变换函数ϕ:

本文的算法框架如图1 所示,图像集合通过格拉斯曼流形来建模。通过正交子空间将图像集合描述为格拉斯曼流行上的点,通过格拉斯曼流形上的度量学习,将原始空间上的样本投影到一个更加紧致的格拉斯曼流形,然后通过核方法,通过保局投影构建核空间上的图模型,应用近邻分类器进行分类。

图1 基于集合的对象匹配框架示意图

本文的方法结合了格拉斯曼流形上的度量学习和保局投影的思想。通过度量学习,原始输入空间的每一个图像集合度量学习得到模型空间M 得中特征表示,在学习得到的模型空间中的这个特征向量能够更好地描述图像集合。在新模型域中定义两个模型之间的相似性度量函数,然后计算核矩阵,将模型变换到特征空间F,通过核函数将模型空间的度量转换成欧式空间向量之间距离的度量。

2.基于格拉斯曼流形的度量学习

格拉斯曼流形(Grassmann Manifold)gm,D 是对应于投影矩阵UiUTi∈RD×D的集合,由RD空间的m-维线性子空间RD构成(0 < m≤D)。

格拉斯曼流形上的点,可以用一个非线性映射函数φ 与图像集S 生成的子空间建立映射关系,表示为X = span( )S ,函数定义为:MF

满 足 条 件 uTu = vTv = 1,uTul= 0,vTvl= 0,l =1,2,...,k - 1。θk表示第k主角,是两个子空间中所有单位向量对之间的第k 最小夹角。可以运用下面公式,通过分解UTiUj的奇异值来求出主角:

其中P,Q为正交矩阵,cos θk称为典型相关。

格拉斯曼流形距离反映的是子空间沿流形表面的几何结构上的差异,主角反映的是子空间在每一维上的相似性。两个子空间之间的测地距离定义为格拉斯曼流形上两个点之间的弧长:

通常情况下可以获取的图像数要小于样本特征维数,以此得到的投影矩阵对原始样本的真实分布建模带来不利影响,通过度量学习可以将Gm,D投影到更低维的格拉斯曼流形上,得到更加紧致的样本分布描述。

设Ui是格拉斯曼流形的一个正交基矩阵,假设存在一个列满秩矩阵W,P = WWT,P是一个对称半正定矩阵,秩为 D × D,即PT= P,P≥0。定义Vi= WTUi,

其中Aij= UiUTi- UjUTj,类似于传统的马氏度量学习。

设计目标函数:

公式(9)中α 为权重参数,P 是要学习的最优化的对称半正定矩阵。记NW和Nb分别表示来自同类样本对

目标函数(9)使得学习得到的流形上同类样本的线性子空间的投影距离Jw( )P 尽量接近,而异类样本的线性子空间的投影距离Jb( )P 尽可能拉远,问题的具体求解可阅读文献。

3.基于格拉斯曼流形的核函数学习

由于模型空间和特征空间一般都不是欧式空间,而鉴别分析函数的定义是基于欧式距离度量的,为了能够在同一空间执行操作,我们利用核函数来定义顶点之间的相似度。

假设对任意的X ∈ Gm,D,函数k:Gm,D× Gm,D→ R+如果 满 足 条 件 :(1)对 任 意 的 Xi∈ G,bi∈ R,满 足拉斯曼核。

投影核是格拉斯曼流形上的常用的核函数。

4.坚持激浊扬清。要使党内政治生活正气充沛,就必须树正气、遏邪气,形成正向激励与负向遏制的鲜明导向,对符合党内政治生活规定要求的人和事给予肯定和褒奖,对违背的给予惩处甚至绳之以法。习近平同志提出:“要激浊扬清,坚持激浊和扬清两手抓。”[2]

假设两个集合张成的子空间的正交基记为U1、U2,U1、U2是两个 D × Ni( )i = 1,2 大小的正交矩阵。投影度量使用全部的主角并通过如下的公式投影到欧氏空间计算距离。

其中 UiUTi(i = 1,2)是一个秩为 q 的 D × D 正交投影矩阵,由Xi的正交基构成。由D × D 投影矩阵张成的欧式空间RD×D中的内积导出一个格拉斯曼核函数:

很容易验证这个核函数是一个Mercer核。

4.基于格拉斯曼流形的保局投影

在格拉斯曼流形上,使用子空间的正交基来建模图像集,并对应描述为格拉斯曼流形上的一个点。在格拉斯曼流形上引入图结构,流形上的点可以抽象为一个带权无向图中的顶点,边的权表示相邻顶点之间的相似度。

保局投影(Locality Preserving Projection: LPP)关注数据的局部关系,可以把原始样本点的局部邻域关系保存下来,能够较好地反映样本的流形结构。

利用LPP 找出两个格拉斯曼流形Gm,D与G'm,D之间的一个映射ϕ:Xi→ Yi。通过计算最小化问题(15)求得Y:

设最终的解的形式为

那么

示为:

其中K=[K1,K2,...,KN]。增加约束条件ATKDKTA=1,最优化求解变成以下形式:

满足约束条件

最大化准则函数可以转换为下面的特征值求解问题:

最大的r 个特征值对应的特征向量αi,i=1,…,r,构成投影矩阵

测试阶段,给定一个查询图像集合Xt∈RD×Nt,通过公式Zt=ATKt将其投影到特征空间,使用最近邻分类器进行分类。其中

5.实验分析

5.1.选择数据集

在图像数据库中最常用的是ETH80,它包含8 类物体,每类物体有10 个实例图集。为了提高实验效果,尽量选取差异较大、特征明显的实例进行采集,共选取了3280张图片。

视频数据库选取了基于人脸识别的ChokePoint 和MOBO 数据集,其中ChokePoint 的视频都是由3 个机位的摄像机同时录制,且每个动作要反复4 次,以得到不同的序列。该数据集共包含了两个门口分别录制的25个人和29个人的视频。MOBO数据库由CMU录制,包含25段视频。

5.2.选取比较方法

为了提高实验可信度,本文基于参考文献惯例做法,选取流形鉴别分析算法(Manifold discriminant analysis,MDA)[4]、协方差鉴别学习(Covariance discriminative learning,CDL)[6]、格拉斯曼流形鉴别分析法(Grassmann discriminant analysis,GDA)、投影度量学习方法(Project metric learning,PML)、互子空间方法(Constrained mutual subspace method,CMSM)进行比较试验,实验将灰度图进行直方图均衡化处理,得到20×20像素。

5.3.实验结果分析

从ETH80 数据集的10 个图像集中,随机地选取3、5、7 个图像集作为训练集,其余的用作测试集,反复实验10 次,方差和平均识别率如表1 所示。把数据用应用折线图表示,如图2,可以看出,保局投影加度量学习的方法比CMSM、MDA、GDA、CDL、PML等方法准确率都高,且训练集越高,效果越明显。

表1 数据集分类结果

图2 数据集分类结果对比折线图

从ChokePoint 数据库中选取两段视频作为训练集,余下的作为测试视频,再从Mobo 数据库提取图像的局部二值模式特征。分别得到如下方差和平均识别率,如表2,与CMSM、GDA、CDL、PML 等方法进行比较,优势明显,最高超出近20个百分点。

表2 人脸识别结果

综合以上实验结果可以看出,本文采用保局投影结合度量学习的方法,比单纯使用度量学习的方法效果更优。

结语

基于集合的对象匹配一直是研究的热点,本文综合保局投影思想与格拉斯曼流形度量学习思想,基于图像集合进行建模,运用格拉斯曼流形进行度量学习,构建新的样本空间,并采用核方法生成保局投影模型,能有效降低图像预处理时的样本维度,有效提高模型的准确率。但在其他领域或其他数据库中应用情况如何,还需要进一步研究。

猜你喜欢

流形度量投影
鲍文慧《度量空间之一》
模糊度量空间的强嵌入
解变分不等式的一种二次投影算法
基于最大相关熵的簇稀疏仿射投影算法
紧流形上的SchrÖdinger算子的谱间隙估计
迷向表示分为6个不可约直和的旗流形上不变爱因斯坦度量
找投影
找投影
Nearly Kaehler流形S3×S3上的切触拉格朗日子流形
地质异常的奇异性度量与隐伏源致矿异常识别