组加权约束的核稀疏表示分类算法

2016-11-25郑建炜王万良

计算机研究与发展 2016年11期

关键词：范数识别率分类器

郑建炜杨平王万良白琮

(浙江工业大学计算机科学与技术学院杭州 310023) (zjw@zjut.edu.cn)

组加权约束的核稀疏表示分类算法

郑建炜杨平王万良白琮

(浙江工业大学计算机科学与技术学院杭州 310023) (zjw@zjut.edu.cn)

提出了一种称为核加权组稀疏表示分类器(kernel weighted group sparse representation classifier, KWGSC)的新型模式分类算法. 通过在核特征空间而非原输入空间引入组稀疏性和保局性，KWGSC能够获得更有效的鉴别性重构系数用于分类表示. 为获得最优重构系数，提出了一种新的迭代更新策略进行模型求解并给出了相应的收敛性证明以及复杂度分析. 对比现存表示型分类算法，KWGSC具有的优势包括：1)通过隐含映射变换，巧妙地规避了经典线性表示算法所固有的规范化问题；2)通过联合引入距离加权约束和重构冗余约束，精确地推导出查询样本的目标类别标签；3)引入l2,p正则项调整协作机制中的稀疏性，获得更佳的分类性能. 人造数值实验表明：经典线性表示型算法在非范数归一化条件下无法找到正确的重构样本，而KWGSC却未受影响. 实际的公共数据库验证了所提分类算法具有鲁棒的鉴别力，其综合性能明显优于现存算法.

稀疏表示技术；保局性；组稀疏正则项；核技术；范数归一化问题

近年来，稀疏表示技术(sparse representation, SR)已经在机器视觉、模式识别和信号处理等众多领域获得了广泛应用和一致认可，包括图像修复[1]、特征提取[2]、视频检测[3]和目标跟踪[4]等.针对目标信号，SR搜寻少量基向量对其进行线性组合表示，采用稀疏正则化项解决解空间的病态问题，为信号分类增加鲁棒性和鉴别性，其基向量称为原子，而所有输入样本集合则称为字典.许多现实信号，如图像和音频等，被公认为具有稀疏先验本质.稀疏性约束不仅能够给出目标解的唯一性，更能够帮助解析真实的信号结构，获得鲁棒的抗噪能力.此外，信号的稀疏表示还能够带来解卷和分离等辅助功能，有益于后续分类问题.虽然原始的稀疏最优化是一个非凸问题，但其l1范数凸扩展以及更新优化策略已被广泛地研究改进[5-6].

Wright等人[7]将完整的输入样本集作为训练字典，提出了一种鉴别性稀疏表示分类器(sparse representation classifier, SRC)并在人脸识别中获得了卓越的性能.针对过完备的输入字典，SRC通过稀疏的原子数据对输入信号作近似线性表示，并选择最小重构误差的类别标签为目标模式归属.虽然SRC在信号去噪[8]、时间序列分类[9]、超分辨率重建[10]等众多研究中都获得了成功应用，但其对稀疏性的过分强调却遭到了其他科研工作者的质疑[11-13].鉴于稀疏性约束在高维特征中具有计算耗时较大的缺陷，Zhang等人[13]认为没有必要在线性回归问题中添加稀疏约束，并进一步指出SRC分类器的性能较NN，INNC[14]等近邻型算法突出的根本原因并非其稀疏性，而是数据间的协作关系所致，从而提出了协作表示分类器(collaborative representation classifier, CRC).CRC采用l2范数替换耗时的l1范数，在保持鉴别能力的同时获得了算法运行效率的大幅度提升.值得注意的是，SRC和CRC都属于无监督型算法，其在模式鉴别过程中并未引入输入特征的类组标签信息.为进一步提升识别性能，Majumdar等人[15]引入类组稀疏正则项，以类内协作类间稀疏为基本思想提出了组稀疏分类器(group sparse classifier, GSC)，将l2,1范数作为线性重构表示的约束.类似地，Jin等人[16]也采用组稀疏编码进行图像分类，以过完备字典为基础，搜寻稀疏组原子进行测试样本表示.理论分析和实验结果都表示GSC具有较SRC和CRC更强的分类性能，鉴于此，GSC得到了广泛应用且其改进算法不断涌现[17].

虽然上述经典表示型算法都具有可靠的鉴别能力，但是仍存在着3个关键问题有待解决：

1) SRC，CRC，GSC从范数约束形式出发，分别通过稀疏性、协作性和监督性为主旨构建分类模型，其全局表示过程中都忽略了输入特征的局部分布结构，但事实上局部保持特性(又称保局性)被认为是非常有益的分类器属性之一[18]；

2) 限于线性本质，SRC和CRC等算法在应用于具有同向分布性质的输入特征时都表现出较弱的分类性能[6]，本文称之为范数归一化问题；

3) 实际分类任务中，字典矩阵的过完备性条件[7]并不一定满足，导致SRC解的稀疏性不足，依靠协作机制进行重构鉴别[19]，本文称之为稀疏性不足问题.

针对保局性问题，Fan等人[20]通过样本距离对反映数据分布结构，以测试样本与输入特征间的欧氏距离约束l1范数正则项，提出加权稀疏表示分类器(weighted sparse representation classifier，WSRC).类似地，加权协作表示分类器(weighted collaborative representation classifier, WCRC)[21-22]和加权组稀疏算法(weighted group sparse representation, WGSR)[23-24]分别将局部约束添加至l2范数和l2,1范数上，通过保局性引导进一步提升了CRC和GSC的分类性能.然而，现实分类数据往往具有复杂分布特征，包括多模态分布和奇异点分布等，简单的距离加权约束并不能直观地反映输入特征形态.并且，对于GSC而言，单纯距离约束往往会破坏其组范数特性.

针对范数归一化问题，核技术[25]被广泛应用于表示型算法扩展，包括核稀疏表示分类器(kernel SRC，KSRC)[26-28]、核协作表示分类器(kernel CRC，KCRC)[21]及其加权版本[6,21].这些核算法通过隐含变换将输入特征映射至高维特征空间(又称核特征空间)，并进行线性分类操作.为解决隐含变换的计算问题，核算法采用核函数替代高维特征数据的内积运算.众所周知，核技术能够捕获输入特征更多的非线性结构，其性能优于相应的线性分类器.然而，核算法对于鉴别性能提升的根源仍未得到理论分析和验证，而且迄今为止关于GSC分类器的核化扩展算法仍未见报道.

针对稀疏性不足问题，Xu等人[29]理论证明了在lp(0

综上所述，本文提出了核加权组稀疏表示分类器(kernel weighted group sparse representation classifier, KWGSC)，以l2,p组范数为约束，引入核技巧将GSC算法进行非线性扩展.此外，兼顾距离加权和重构加权约束表示系数，使KWGSC在不破坏类组结构的前提下提升算法的鉴别能力.

1 相关工作

以SRC和CRC为代表，本节简要描述表示型算法的基本原理.将所有的输入特征样本X=(X1,X2,…,Xc)∈m×n作为字典数据，其中Xi=(xi1,xi2,…,xini)∈m×ni是第i类数据的训练样本子集，m维输入特征xij表示第i类目标对象的第j个样本，c是目标类别总数，ni为第i类特征样本数，

所有的表示型算法都具有相似的模型原理，即以过完备输入字典为前提，所有样本一致分布于某子空间内.换言之，任意测试样本y可通过训练特征样本进行协作线性表示，即

y=X1θ1+X2θ2+…+Xcθc=

x11θ11+x12θ12+…+xcncθcnc=Xθ，

(1)

其中,θ=(θ11,θ12,…,θcnc)T∈n是输入特征X对应的重构编码系数向量.一般采用式(2)优化求取最佳的θ解.

(2)

(3)

其中，参数λ需要人工设定，用于平衡重构误差和系数值之间的贡献度，一般较高的λ值对应于更为稀疏的编码系数解θ.根据β，Z，η，p各值的变化，式(3)可以演化为不同的稀疏(或协作)表示型算法.在得到优化系数θ*后，设δi(θ*)为选择符号，表示将θ中除第i类外所有元素都置为0的向量，则测试样本可由各类训练样本进行重构，即y=Xδi(θ*),i=1,2,…,c.最终可将y归类为具有最小重构误差的类别标签k，即

(4)

1.1 经典表示型分类算法

经典的表示型分类算法直接以测试样本和训练特征样本的原始形式作为模型数据，同时忽略考虑样本间的分布加权约束，即采用β=y，Z=X，η=1n(元素都为1的n维矩阵)，在不同的p值范数约束下进行算法模型描述.

当p=1时，即是经典的稀疏表示分类器SRC[7].按照文献[7]理论分析，在l1范数约束和过完备训练特征条件下，通过式(3)求得的编码系数θ具有稀疏性.即在式(1)中，假设测试样本y是第i类目标数据，则除θi(第i类训练特征所对应的编码系数)外的所有编码系数值都为零.

当p=2时，则是经典的协作表示分类器CRC[13].与SRC强调稀疏性不同，Zhang等人[13]认为SRC算法的鉴别性能之所以较KNN，INNC[14]等最近邻型算法更为突出，其本质原因是由于数据间的协作表示而非稀疏性.因此，CRC采用l2范数作为编码系数的约束，大大提升了其运行效率.值得注意的是，CRC的编码系数不会趋向于绝对零值，从理论上不具备稀疏性.然而，其中更具表示能力的训练特征仍对应更高的编码系数值，因此我们依然可以称之为稀疏表示型算法.

当p=12时，式(3)转变为l分类器LHC[19].稀疏性范数约束l1要求模型输入具有充足的训练样本，因而获得接近于l0范数的稀疏解.然而，现实分类问题如图像识别等往往存在高维数小样本的情形，使得SRC解的稀疏性较弱，类似于CRC的协作分类机制.通过LHC算法得到的编码系数较SRC更为稀疏，在样本数受限的应用中有效地平衡了协作表示和稀疏表示的贡献.

SRC，CRC，LHC都是无监督学习算法，在模型构建过程中忽略了样本标签信息，其性能有待进一步提升.GSC采用l2,1范数约束，设定p为2,1，对不同类别的特征样本作l1范数约束，而同类样本则采用l2范数约束，因此算法具有组稀疏性.已有的研究结果表明，GSC的综合识别性能优于SRC和CRC[16-17]，其模型求解策略与SRC基本一致，需要通过迭代更新进行编码系数优化求解，效率逊于CRC的闭式求解方案.

1.2 加权表示型分类算法

如引言所述，SRC，CRC，GSC这3种分类器通过稀疏性、协作性以及监督性进行模型描述构建，但却忽视了输入样本的局部分布结构因素.然而，保局性在众多模式分类和机器学习算法中已被广泛应用，包括数据分簇[30]、流形挖掘[31]、多任务学习[32]等领域.文献[18,33]直接表明数据保局因子较稀疏性等更有模型指示意义.基于此，已有不少保局性表示型分类算法提出.由于保局性一般以权值形式约束于编码系数，因此该类算法可以统称为加权表示型分类算法.

与经典表示型算法类似，保持式(3)其余部分不变，编码系数权值通过η实现，其值一般取决于测试样本与输入特征的欧氏距离，即

(5)

其中，ηij代表第i类数据第j个编码系数值的加权因子，带宽参数σ需要人工经验设定，一般取为平均距离方差较为合理.

SRC，CRC的加权版算法分别为WSRC[20]和WCRC[21]，在η权值的影响下，远距离样本的编码系数值趋向于零，而近邻样本获得较高编码系数的机率相对更大.因此WSRC和WCRC具有保局特性以及奇异点抑制特性.此外，部分加权表示型算法[22]采用训练样本构建加权因子而非通过测试样本计算，实验结果表明其性能弱于WSRC和WCRC.

1.3 核表示型分类算法

模式分析的典型研究方向，包括分簇、低秩、主成分、关联性以及识别等任务，都需要通过用户指定的特征映射操作将输入数据进行模式变换.相反地，核方法通过核技术的引入，以原输入特征的成对相似性函数替换特征映射，通过隐含变换实现非线性空间中的线性操作，其典型代表有支持向量机[34]、核主成分分析[35]以及核Fisher鉴别分析[36]等.KSRC[26]和KCRC[21]分别通过核函数的引入，实现了在核特征空间中的稀疏表示系数计算.

假设测试样本y和输入特征X可通过非线性映射φ变换至高维F空间，将β和Z分别表述为φ(y)和Φ(X)，其中Φ是φ的矩阵描述形式，则式(3)可以改写为

(6)

其中，暂时忽略加权因子，即令η=1n.由于φ是一个未知的隐含映射，核方法通过核函数替代F空间中两两特征样本的内积计算，用于算法的优化求解实现，即式(6)调整为

(7)

其中K=Φ(X)TΦ(X)∈n×n是对称半正定的核矩阵[36]，k(·,y)=(k(x11,y),k(x12,y),…,k(xcnc,y))T=Φ(X)Tφ(y).常见的核函数k(a,b)包括线性核、多项式核以及高斯核，其中应用最为广泛的是高斯核函数，表达式为

(8)

式(8)是本文实验所选用的核函数形式，其中带宽参数σ需要人工设定，用于控制高维核空间中样本对内积的具体取值.

联合添加核函数式(8)和加权因子式(5)于编码系数计算式(3)，即可得到核加权表示型分类算法，文献[6,21]都通过数值实验和实际数据实验验证了其性能优于常规的核化表示分类算法和加权表示分类算法.

2 核加权组稀疏分类算法KWGSC

根据第1节相关工作阐述，稀疏表示型算法，如GSC，WSRC，KCRC等，都通过协作表示原理，以重构误差最小为目标进行样本判别，在模式识别领域获得了广泛的应用，取得了卓越的成效.总体来说，此类方法的核心问题是：选择最具代表性且对应范数值最小的数据进行测试样本重构表示，以误差最小化为准则进行模式鉴别，其中包括2个关键点，即精确重构以及最小化范数值.基于此，本节首先详细阐述了数据归一化形式与特征优选的联系，然后提出KWGSC算法，并对其模型优化进行了分析求解和收敛性证明.

2.1 稀疏表示与规范化问题

在模式识别领域，分类模型在实际应用中往往都会对输入特征进行不同形式的规范化操作，包括均值化处理[36-37]和范数归一化处理[21]等.不同预处理操作能够规范输入特征数据的分布状态并提升分类器的数值稳定性.然其对分类性能的具体影响仍未得到充分地理论分析与实验验证.本节从具体数值实例出发(如图1和图2所示)，分析讨论稀疏表示型算法受范数归一化操作的影响.

Fig. 1 Numeric examples for the norm normalization problem with different sparse representation algorithms.图1 非归一化数据对不同稀疏表示型算法影响的数值示例

Fig. 2 Norm normalization problem.图2 范数归一化问题

在图1(a)中，通过标准高斯分布给出了3类人工设定数据，分别为以坐标(1,2)为中心的圆形数据，以坐标(5,0)为中心的方形数据以及以坐标(1,-3)为中心的三角形数据.图1(a)中实心圆点是圆形数据的中心，作为测试样本，余下的所有输入数据作为训练样本.从图1可见，在范数值不一致的输入数据中，大部分稀疏表示型算法都没能选择最优的训练样本进行线性重构，呈现出较弱的鉴别力，称之为范数归一化问题.该问题导致高范数值训练数据被选择为重构样本的概率大大提升.在图1给定的数据中，圆形、方形和三角形3类样本的l2范数值域分别为(0.433，17.668)，(13.194，48.659)，(3.494，31.602)，其中方形和三角形数据的范数值明显高于圆形数据，也更有可能被选为表示样本.在图1(b)中，SRC的非零系数所对应的样本分别为一个方形和一个三角形，都不是正确的圆形数据，违背了SRC算法提出时类内线性表示的基本思想；CRC和GSC不是严格意义上的稀疏表示算法，本文选用前15%大的系数值进行显示.在图1(c)中，CRC的有效表示样本包括3种不同类型的输入数据，但以三角形和方形居多.在图1(d)中，GSC通过组约束，剔除了方形表示样本，然而三角形表示样本数仍然多于同类圆形样本.取决于保局特性，图1(e)中WSRC选择了正确的同类样本进行稀疏表示，然而归一化问题仍然存在，其表示样本具有同类数据中较大的范数值.

图2进一步阐明了范数归一化操作对表示型分类算法的意义.在图2(a)中，X1={x11,x12,x13}和X2={x21,x22,x23}是2类经过l2范数归一化的数据，按簇分布于单位圆上.将x11作为测试样本，余下的作为训练样本.点q1是x12与x13连线以及x11与原点连线的交点，其至原点的欧氏距离设为b1.类似地，点q2是x12与x21连线以及x11与原点连线的交点，q2到原点的欧氏距离设为b2.假定x11可以通过x12和x13线性表示，由于输入样本分布于单位圆上，因此可以得到:

图2(b)显示了没有经过范数归一化操作的2类数据，其中圆点数据的坐标为x11=(0.5,-0.8)，x12=(0.9,-0.5)，x13=(0.1,0.04)，方块数据的坐标为x21=(3.4,1.5)，x22=(3.3,-1.0)，x23=(3.1,0.5)，则有

x11=(x12x13)(1.163,-5.465)T=

(x22x23)(0.575,-0.451)T=

X(0,1.163,-5.465,0,0,0)T=

X(0,0,0,0,0.575,-0.451)T，

(9)

其中X=(x11,x12,…,x23)是训练数据矩阵.

类似地，将所有数据作l1范数归一化，有x11=(0.38,-0.62)T，x12=(0.64,-0.36)T，x13=(0.71,0.29)T，x21=(0.69,0.3)T，x22=(0.77,-0.23)T，x23=(0.86,0.14)T，以及

x11=(x12x13)(1.252,-0.589)T=

(x22x23)(1.9,-1.248)T=

X(0,1.252,-0.589,0,0,0)T=

X(0,0,0,0,1.9,-1.248)T.

(10)

最后，再将所有数据作l2范数归一化，有x11=(0.53,-0.85)T，x12=(0.87,-0.49)T，x13=(0.93,0.37)T，x21=(0.91,0.4)T，x22=(0.96,-0.29)T，x23=(0.99,0.16)T，以及

x11=(x12x13)(1.269,-0.624)T=

(x22x23)(2.62,-1.5)T=

X(0,1.269,-0.624,0,0,0)T=

X(0,0,0,0,2.62,-1.5)T.

(11)

联合式(9)～(11)可见，在输入数据没有经过归一化操作时，式(9)中x12和x13对应的系数l1范数为6.63，而x22和x23对应的系数l1范数为1.03.因此，x22和x23被错误地选择为重构表示测试数据x11，而非x12和x13.当输入数据经过l1归一化操作后，式(10)中x12，x13和x22，x23对应的系数l1范数分别1.84和3.14.因此，x12和x13被正确选择为重构表示数据.进一步地，当输入数据经过l2归一化操作后，式(11)中x12，x13和x22，x23对应的系数范数分别1.89和4.12，不仅能获得所需的正确结果，且其范数差异较l1归一化操作时更大，更具有鉴别性.该结论与图2(a)的理论分析具有一致性，说明归一化操作对稀疏表示型算法的影响以及l2范数归一化的优越性.

2.2 KWGSC算法描述

综合第1节和2.1节分析，本节提出核加权组稀疏表示分类算法KWGSC，包含组稀疏范数、保局性、核函数等有利分类的技术.值得强调的是：

2) 理想情况下，输入特征样本Z具有充分完备性，则表示系数的非零元素严格对应y的同类训练样本[7].很明显，稀疏性约束(如l0范数)在该情形下的重构表示中起关键作用.然而，由于l0约束的NP难问题，实际应用中极限稀疏的系数解很难得到，更多地依赖协作机制进行重构表示(如SRC中的l1正则项以及CRC中的l2正则项).为有效地平衡协作性和稀疏性的贡献，本文将范数约束扩展至(0,1]范围(区别于LHC中的固定值1/2)，并以组范数约束的形式构建目标函数.

结合式(3)(6)以及l2,p组范数约束的KWGSC目标模型为

(12)

(13)

其中,di与WSRC和WCRC中的权值意义一致，其元素dij在核特征空间中的取值为

(14)

此外，ri是类组加权系数，借鉴线性回归分类器的思想[39]，其值表示为

(15)

其中,Ki=Φ(Xi)TΦ(Xi)∈ni×ni是第i类核矩阵，ki(·,y)=(k(xi1,y),k(xi2,y),…,k(xini,y))=Φ(Xi)Tφ(y)是y与第i类输入数据的核向量.可见ηi=ridi由2部分组成：第1部分ri是第i类样本Xi重构测试样本y的冗余，其值越小，代表y属于第i类的概率越大，相应第i类的重构系数θi越大；第2部分di用于惩罚远距离样本，dij值越大，说明相应的样本xij离y越远，对应重构系数θij越小.

通过式(13)可见，对比GSC，KWCRC，WSRC等现存算法，KWGSC在核特征空间通过类组加权和距离加权凸显了表示系数的组结构特性，具有更多的鉴别性信息.结合式(4)和式(15)，在最优化目标函数式(13)后，KWGSC通过表示系数θ*所建的模式鉴别规则为

(16)

即在核特征空间中，选择重构误差最小的类为测试样本y的类别标签.

2.3 优化求解和收敛性分析

现有稀疏表示型算法中CRC，KCRC，KWCRC等协作表示算法都具有闭式解，而SRC，GSC等(包括相应衍生算法)则需要迭代操作计算最优系数解，包括特征标记法[40]、梯度投影法[41]、同伦分析法[42]、近端梯度法[43]等.KWGSC算法在核特征空间中兼顾类组重构和样本加权约束.因此，现有的迭代求解算法无法直接应用于计算KWGSC的目标系数θ*.针对该问题，本节采用一种新的迭代策略进行组l2,p问题优化求解.为简化公式描述，引入矩阵Π=diag((η1,η2,…,ηc))∈n×n，并定义=2,p，将核加权组稀疏的目标模型表示为

(17)

对式(17)依系数向量θ求微分可得:

Kθ-k(·,y)+λΠTDΠθ=0，

(18)

(19)

则可得:

θ=(K+λΠTDΠ)-1k(·,y).

(20)

需要注意的是:式(20)中D的计算包含系数θ.因此，系数θ的优化策略是一个迭代更新过程，所提的核加权编码求解具体方案如算法1所示，其实现过程中，值得强调3点：

2) 从式(20)可见，编码系数θ的更新是一个闭式求解公式，易于直观实现.本文将初始θ(1)值取为n维元素恒等于1n的向量.

算法1. 核加权编码系数迭代求解算法.

输入: 带类别标签的特征样本X，待测样本y，参数值λ，σ，p，最大迭代数tmax；

输出: 最优编码系数θ*.

① 计算核矩阵K以及待测样本y与各特征样本的核函数值k(·,y);

② 依式(14)计算距离加权d，依式(15)计算重构加权r;

③ 根据d和r得到η，并构建权值矩阵Π;

④ 迭代t=1，设初始编码系数为θ(t);

⑤ 依η和θ(t)构建块对角矩阵D;

⑥ 按照式(20)求解θ(t+1);

⑦ 满足收敛则输出θ*，反之则令t=t+1，并转步骤④.

引理1. 给定任意非零向量x和y，当p∈(0,1]时，

(21)

证明. 根据凹函数定义[44]，当p∈(0,1]时，已知凹函数xp在定义域(0,∞)中有yp-xp+pyp-1(x-y)≥0.对非零向量xi和yi则有:

(22)

将式(22)中所有的i∈{1,2,…,c}相加，则式(21)得证.

证毕.

定理1. 通过算法1迭代计算，目标函数式(17)的值逐次下降直至收敛.

证明. 定义第t次迭代时的误差向量为et=φ(y)-Φ(X)θt，由于θt+1是式(18)的解，则有:

Φ(X)TΦ(X)θt+1-Φ(X)Tφ(y)+

λΠTDtΠθt+1=0.

(23)

通过对式(23)两边分别点乘θt-θt+1可得:

λ(θt-θt+1)TΠTDtΠθt+1=

(θt-θt+1)TΦ(X)T(φ(y)-Φ(X)θt+1)=

(Φ(X)θt-y+y-Φ(X)θt+1)T·

(φ(y)-Φ(X)θt+1)=-(et-et+1)Tet+1.

(24)

结合引理1和式(24)有：

λtr((θt-θt+1)Tθt+1ΠTDΠ)=

(et-et+1)Tet+1.

(25)

此外,

(et-et+1)Tet+1.

(26)

将式(25)与式(26)相加可以得到:

(et-et+1)T(et-et+1)≥0,

即目标函数式(17)在迭代更新过程中逐次降值，并具有明确的下确界0，则该算法收敛性得证.

证毕.

3 实验分析

3.1 数据库描述与实验设置

1) 数据库.采用AR人脸数据库、COIL20物体图像数据库以及MNIST手写字体数据库验证所提算法的性能.AR数据库包含126个目标人物的4 000多幅正脸图像，囊括光照、表情变化以及面部装饰等情形.由于KWGSC并未针对外物遮挡进行算法设计，因此本文选择AR数据库中的非遮挡子集进行识别率测试[45]，包括50个男性目标和50个女性目标，每个目标选择7个训练样本和7个测试样本，所有图像均被预处理至60×43灰度像素.COIL20物体图像库包含20个目标对象，每个对象由位置固定的摄像机拍下其水平旋转的72张照片.所有目标图像都经过边缘裁剪且缩放至40×40灰度像素，本文随机选择每类30个样本作为训练数据集，余下的所有样本作为测试集.MNIST数据库包含70 000个手写字图像，并划分为训练集和测试集.与文献[21]类似，本文针对每个数字(0～9共10个数字)，从训练集中随机选择50个样本，从测试集中随机选择70个样本，共计500个训练数据和700个训练数据进行实验分析，该数据集中的所有图像都统一裁剪调整至28×28灰度像素.

Fig. 3 Recognition performance versus parameter changes for different competing algorithms.图3 不同算法识别率随正则化参数变化的对比

2) 输入特征形式.在不同的实验过程中，输入的特征数据包括原始灰度像素值和子空间投影样本.原始灰度像素值将输入图像按列展开并串联成单方向向量.以AR数据库为例，将其中的任意训练或测试样本都调整为60×43=2 580×1的特征串.子空间投影样本则将上述向量特征进行维数约简操作，包括经典的主成分分析算法(principal component analysis, PCA)和最新提出的迭代最近邻线性投影算法(iterative nearest neighbors linear projections, INNLP)[14].PCA以最大化训练样本散度为目标函数，旨在保留输入数据的主分布结构;INNLP则采用迭代最近邻法进行邻域矩阵构建，并以局部结构保持为目标函数计算线性投影矩阵，其正则化参数在本文中恒设为0.05.

3) 分类算法.选用不同的稀疏型分类算法进行实验效果对比，包括经典线性算法SRCF[7](F表示采用特征标记法训练)、CRC[13]、LHC[19]和GSC[16]，距离加权线性算法WSRC[20]和WCRC[21]，核化算法KSRCF[28]、KSRCH[27](H表示采用同伦法训练)、KCRC[6]和KWCRC[21].此外，本文还引入经典分类算法最近邻分类器(NNC)、新晋的迭代最近邻分类器(INNC)以及两者各自的核化版本KNNC[34]和KINNC[14]作为对比分类模型，以丰富的数据验证所提算法KWGSC的鉴别性能.所对比的算法中，除NNC和KNNC外，都包含需要人工设定的正则化参数值λ，本文采用4倍交叉验证进行最优值确定.针对任意分类算法，考虑λ={10-8,10-7,…,10-1,100}进行鉴别分类，在不同输入特征维数中选取具有最高平均识别率的λ值为最终模型参数.除λ参数值外，各核化版算法都采用高斯核函数作为模型运行组件，其带宽参数σ需要人工确定，本文将其统一设置为输入特征距离矩阵的平均值.如无特殊声明，组范数l2,p中的参数值p默认为1.图3以GSC，KCRC，KSRCF，KSRCH，KWGSC算法为例，采用AR人脸数据库和MNIST手写字体数据库为输入特征，给出了不同正则化参数值环境下的算法分类性能对比结果，降维技术为PCA.其中，识别率的计算公式为1-mn，m是识别错误样本数，n是所有测试样本总数.从图3结果可以得到如下3点：

1) 参数λ的最优值一般都小于1，且位于(10-4,10-1)区间内的可能性更高；

2) 随参数λ值在(10-8,10-1)区间内变化，各算法的识别率波动较小，尤其在(10-8,10-4)区间内，各算法的识别率基本保持不变，仅KSRCH算法在AR数据库中有较大的差异；

3) 各算法在不同输入特征维数下的最优参数选值非常稳定，如KWGSC，GSC，KSRCH算法都严格保持一致，而KCRC和KSRCF算法的最优值变化也非常接近.

上述3点综合表明了稀疏表示型算法的人工待选参数确定较为直观，减轻了算法实际应用的繁琐程度.

3.2 归一化范数分析

如3.1节所述，输入特征的不同范数形式对稀疏表示型算法的性能具有明显的影响，本节以GSC和KWGSC两种算法为例，以MNIST，AR，COIL20三个数据库为应用对象，在不同范数归一化形式下进行算法识别率对比，如图4所示.其中，降维技术仍然选用PCA，算法名称_l2表示在l2范数归一化中的识别率曲线，算法名称_l1表示在l1范数归一化中的识别率曲线，而算法名称_l0则表示保持输入特征不变无范数归一化时的识别率曲线.

从图4可见：随着范数归一化约束的变化，线性算法GSC的识别率具有较大幅度的变化，在不同子空间维数下误差达到2%～6%；单独对比GSC的识别率发现，在不同的范数归一化约束中，l2范数的识别率最高，而l0非归一化的识别率最低；此外，KWGSC算法通过引入高斯函数，输入特征在F空间中具有恒为l2规范化的特点，因此其识别率在不同数据库、不同子空间维数下的变化较小，误差基本保持在1%以内.图4所示实验结果与正文理论分析部分完全吻合.在后续实验中，为保证线性算法的识别率，统一采用l2范数进行输入特征归一化处理.

Fig. 4 Recognition performance versus norm changes for GSC and KWGSC.图4 GSC和KWGSC两种算法在不同归一化范数下的识别率对比

3.3 识别性能分析

确定最优模型参数和归一化范数形式后，本节验证所提算法在不同目标对象和不同输入特征维数下的识别率性能.针对MNIST手写字体数据库，表1给出了所有分类器在不同目标数字下的识别率(输入特征是150维的PCA降维样本).表1中黑体数字表示相同维数特征下所有算法的最高识别率，带单下划线的数字表示第2高识别率，带双下划线的数字则表示第3高识别率.通过表1可知，MNIST数据库中不同数字对象的识别难度各异，其中数字“2”是识别率最高的对象，包括KWGSC和NNC在内共计8种分类器对其取得了100%的识别率，而最低的识别率也达到了97.1%；数字“9”是综合识别率最低的对象，其最高识别率仅为87.1%，由WSRC和KSRCH获得.在15种分类器的对比中，本文所提的KWGSC具有最优的综合识别率，共计获得4个最优值(黑体)、4个次优值(单下划线)以及2个第3优值(双下划线)，表明其在不同目标对象下具有更为稳定的分类性能.虽然分类器WSRC也获得了4个最优值(黑体)，但其只有1个次优值(单下划线)，且没有第3优值(双下划线)，因此在该实验对比中排第2.

特征维数测试中，分别以原始输入特征和通过PCA，INNLP处理后的子空间特征进行分类实验，子空间维数选为{50,100,150,200,250,300}，表2～4显示了各分类器在所有数据库中的识别性能对比，其中DR表示维数约简操作(dimensionality reduction).

Table 1 Recognition Rate for Different Numbers on MNIST

Table 2 Recognition Rate versus Different Feature Dimensions on the MNIST Database

Table 3 Recognition Rate versus Different Feature Dimensions on the AR Database

Table 4 Recognition Rate versus Different Feature Dimensions on the COIL20 Database

从表2～4可以得出5个结论：

1) 考虑到实际图像数据的分布多样性，无法从所对比的15种算法中确定具有绝对优势的分类模型，大部分分类器在不同输入特征中的表现有一定波动，本文尝试从中挖掘相对稳定且高性能的分类算法.

2) NNC，INNC及相应核化算法的综合识别率相对低于其余稀疏型分类器.在MNIST手写字体数据库中，NNC和KNNC在PCA子空间中的最高识别率仅为86.3%，而其余算法的最低识别率达到87%，最高达到93.4%(KWGSC)；类似地，KINNC在INNLP子空间中的最高识别率仅为55.4%，远低于余下算法的最低识别率62.9%.说明采用最近邻模式进行鉴别判定无法胜任现实数据的精确分类，而协作表示对于复杂分布数据具有有益的模式鉴别效果.

3) 线性算法SRCF，CRC，LHC，GSC的对比中，LHC较SRCF和CRC有微弱优势，说明合理地平衡稀疏性和协作性能够提升分类性能；GSC在COIL20物体图像库的PCA子空间中略逊于LHC算法，而在余下分类实验中都优于其他3种线性表示型算法.其中，在AR数据库，GSC的最高识别率为94.0%，优于同条件下的所有14种算法.究其原因，GSC采用有监督的l2,1范数作为重构系数约束，引入类别标签引导最优系数计算，优于单一的l1，l2，l范数约束.

4) 核化算法的综合识别率明显高于对应的线性算法.KCRC，KSRCF，KWCRC，KWGSC等核分类算法在表2～4不同输入特征的识别率中大部分高于相应的CRC，SRCF，WCRC，GSC算法，验证了正文中关于核化算法具有更高鉴别性的论点.

Fig. 5 Recognition performance versus p in KWGSC.图5 KWGSC在不同稀疏值p下的算法识别率测试

5) KWGSC算法兼具了上述结论中的所有优势，包括核化、监督性、距离加权等，并且添加了重构冗余系数约束，其综合识别率明显优于其他算法.从表2～4可见，KWGSC在所有3个数据库中都具有最多的最优值、次优值和第3优值，在MNIST，AR，COIL20中的最高识别率分别达到93.4%，94.7%，99.8%.此外，KWGSC算法的稳定性也优于其他算法，在不同数据库中的波动明显小于其他所对比的算法.

通过表1～4的实验可知，KWGSC分类器在鉴别性能和分类稳定性上都优于其余对比分类器.本节进一步测试KWGSC在组范数参数值p变化时的分类性能.图5给出了在p∈{0.1,0.2,…,0.9,1.0}时KWGSC的识别率，其中NONE,PCA和INNLP分别表示原始输入特征、PCA降维至150和INNLP降维至150时的识别率.从图5可见，KWGSC的分类性能总体上随p值变化波动较小，其识别率保持在2%内，其中在MNIST的PCA和INNLP子空间和COIL20的PCA和NONE空间中的识别率基本保持不变.同时，图5进一步显示了KWGSC的最优值并不一定来源于p=1，而是以[0.5,0.8]区间为最佳，该结果一方面验证了LHC算法[19]的基本思想，同时也表明了LHC中将p值固定为12的缺陷.因此，本文在KWGSC分类算法中并未明确约束组范数值p，使之能够在不同的分类任务中依目标数据进行参数优选，胜任分布特性更为复杂的异构数据.

3.4 运行效率分析

除识别性能外，运行效率是影响分类算法实际应用能力的另一关键指标.本节选择在MNIST，AR，COIL20数据库中表现较为稳健的9种分类算法进行测试效率对比，包括SRCF，CRC，GSC，LHC，WCRC，KSRCF，KCRC，KWCRC，KWGSC.表5显示了各算法在不同数据库中单个样本的测试时间，其中各单元格所对应的识别率为表2～4原始维数列.所有的数据都通过10次实验运行并取平均值得到，实验平台为Intel Core i5 CPU，双核主频2.80 GHz，内存4 GB，32位Win 7操作系统以及Matlab 2014运行软件.结合表1～5所示，CRC和KCRC在识别率上虽然与SRCF以及KSRCF较为接近，但是其运行效率却远远优于SRC型算法，达到了毫秒级的反应速度，完全可以胜任视频跟踪等在线应用系统；加权型表示算法WCRC以运行效率减弱为代价提升鉴别性能，从表4可见其运行时间接近于CRC算法的30倍，而识别率提升则并不显著，因此实用性欠佳；GSC的识别率仅次于KWGSC，但其实现过程需要迭代计算操作(类似于SRCF)，因此运行效率较低；LHC的运行效率与GSC较为接近，而其综合识别性能弱于GSC，算法优势并不明显；最后，KWGSC的运行效率高于SRCF，KSRCF，GSC，LHC，WCRC等算法，仅次于CRC和KCRC，在大部分应用中都达到了10 ms级的运行效率(除AR数据库外)，考虑到其具有最高最稳定的鉴别性能，因此值得推广应用.需要注意的是，GSC与KWGSC的求解算法类似，KWGSC的运行效率优于GSC得益于重构系数和距离加权的引入，使得其能够在更少的迭代次数下获得算法收敛.

Table 5 Testing Time of Competing Algorithms

4 总结

通过数值实验分析了不同范数归一化操作对经典线性表示模型的影响以及核化算法的鲁棒性，以此为基础提出核加权组稀疏分类算法(KWGSC).该算法以l2,p范数约束为基础引入核技术，通过距离约束和重构冗余加权提升算法的组稀疏特性和分类鉴别能力.本文所提算法在AR人脸数据库、COIL20物体图像库以及MNIST手写字体数据库中获得高识别率，明显优于现有的表示型分类算法.此外，为获得最优的重构系数，提出一种新的迭代更新策略用于模型优化求解，通过有限次迭代操作即可达到算法的全局最优解，实验验证该算法的运行效率优于经典的GSC算法和SRC算法.总体来说，本文的创新点包括：

1) 首次采用数值实验和图例分析范数归一化操作对分类性能的影响进行深度研究；

2) 对GSC算法进行核化扩展，并在距离加权的基础上添加类组重构加权，提升算法识别能力；

3) 以组范数l2,p，其中p∈(0,1]为约束，并在核空间中提出快速高效的迭代优化算法用于模型求解.

分析研究发现，所提算法KWGSC虽然易于实现且性能卓越，但实现过程中需要固定受限的核函数，如高斯核或其扩展核函数，不适于算法的多核操作应用.此外，KWGSC算法并没有对输入数据进行特征加权约束，不适于遮挡应用环境和高含噪特征样本.因此，后续工作将集中进行多核扩展和特征加权研究.

[1]Zhang Jian, Zhao Debin, Gao Wen. Group-based sparse representation for image restoration[J]. IEEE Trans on Image Processing, 2014, 23(8): 3336-3351

[2]Yang Wankou, Wang Zhenyu, Sun Changyin. A collaborative representation based projections method for feature extraction[J]. Pattern Recognition, 2015, 48(1): 20-27

[3]Tao Jianwen, Chung F L, Wang Shitong, et al. Sparse label propagation: A robust domain adaptation learning method[J]. Journal of Software, 2015, 26(5): 977-1000 (in Chinese)

(陶剑文, Chung F L, 王士同, 等. 稀疏标签传播: 一种鲁棒的领域适应学习方法[J]. 软件学报, 2015, 26(5): 977-1000)

[4]Hu Zhaohua, Yuan Xiaotong, Li Jun, et al. Robust fragments-based tracking with multi-feature joint kernel sparse representation[J]. Journal of Computer Research and Development, 2015, 52(7): 1692-1704 (in Chinese)

(胡昭华, 袁晓彤, 李俊, 等. 基于目标分块多特征核稀疏表示的视觉跟踪[J]. 计算机研究与发展, 2015, 52(7): 1692-1704)

[5]Candes E J, Tao T, Near-optimal signal recovery from random projections: Universal encoding strategies[J]. IEEE Trans on Information Theory, 2006, 52(12): 5406-5425

[6]Liu Weiyang, Yu Zhiding, Lu Lijia, et al. KCRC-LCD: Discriminative kernel collaborative representation with locality constrained dictionary for visual categorization[J]. Pattern Recognition, 2015, 48(10): 3076-3092

[7]Wright J, Yang A Y, Ganesh A, et al. Robust face recognition via adaptive sparse representation[J]. IEEE Trans on Pattern Analysis & Machine Intelligence, 2014, 44(12): 2368-2378

[8]Liu Jianwei, Cui Lipeng, Liu Zeyu, et al. Survey on the regularized sparse models[J]. Chinese Journal of Computers, 2015, 38(7): 1307-1325 (in Chinese)

(刘建伟, 崔立鹏, 刘泽宇, 等. 正则化稀疏模型综述[J]. 计算机学报, 2015, 38(7): 1307-1325)

[9]Chen Zhihua, Zuo Wangmeng, Hu Qinghua, et al. Kernel sparse representation for time series classification[J]. Information Sciences, 2015, 292: 15-26

[10]Wang Lingfeng, Yan Hongping, Lü Ke, et al. Visual tracking via kernel sparse representation with multikernel fusion[J]. IEEE Trans on Circuits and Systems for Video Technology, 2014, 24(7): 1132-1141

[11]Rigamonti R, Brown M A, Lepetit V. Are sparse representations really relevant for image classification?[C] //Proc of the 27th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 1545-1552

[12]Shi Qinfeng, Eriksson A, Anton H, et al. Is face recognition really a compressive sensing problem?[C] //Proc of the 27th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 553-560

[13]Zhang Lei, Yang Meng, Feng Xiangchu. Sparse representation or collaborative representation: Which helps face recognition?[C] //Proc of Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2011: 471-478

[14]Timofte R, Gool L V. Iterative nearest neighbors[J]. Pattern Recognition, 2015, 48(1): 60-72

[15]Majumdar A, Rabab K W. Fast group sparse classification[J]. Canadian Journal of Electrical and Computer Engineering, 2009, 34(4): 136-144

[16]Huang Jin, Nie Feiping, Huang Heng, et al. Supervised and projected sparse coding for image classification[C] //Proc of the 27th AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2013: 438-444

[17]Wang Lijun, Lu Huchuan, Wang Dong. Visual tracking via structure constrained grouping[J]. IEEE Signal Processing Letters, 2015, 22(7): 794-798

[18]Wei Jiangshu, Lü Jiancheng, Zhang Yi. Robust classifier using distance-based representation with square weights[J]. Soft Computing, 2015, 19(2): 507-515

[19]Zhong Dexing, Xie Zichao, Li Yanrui, et al. Loosel1/2regularized sparse representation for face recognition[J]. IET Computer Vision, 2015, 9(2): 251-258

[20]Fan Zizhu, Ni Ming, Zhu Qi, et al. Weighted sparse representation for face recognition[J]. Neurocomputing, 2015, 151: 304-309

[21]Timofte R, Gool L V. Adaptive and weighted collaborative representation for image classification[J]. Pattern Recognition Letters, 2014, 42: 127-135

[22]Wu Jiqing, Timofte R, Gool L V. Learned collaborative representations for image classification[C] //Proc of IEEE Winter Conf on Applications of Computer Vision. Piscataway, NJ: IEEE, 2015: 456-463

[23]Chao Yuwei, Ye Yiren, Chen Yuwen, et al. Locality-constrained group sparse representation for robust face recognition[C] //Proc of IEEE Int Conf on Image Processing. Piscataway, NJ: IEEE, 2011: 761-764

[24]Tang Xin, Feng Guocan, Cai Jiaxin. Weighted group sparse representation for under sampled face recognition[J]. Neurocomputing, 2014, 145: 402-415

[25]Muller K, Mika S, Ratsch G, et al. An introduction to kernel-based learning algorithms[J]. IEEE Trans on Neural Networks, 2001, 12(2): 181-201

[26]Zhang Li, Zhou Weida, Chang P C, et al. Kernel sparse representation-based classifier[J]. IEEE Trans on Signal Processing, 2012, 60(4): 1684-1695

[27]Kang Cuicui, Liao Shengcai, Xiang Shiming, et al. Kernel Homotopy based sparse representation for object classification[C] //Proc of the 21st Int Conf on Pattern Recognition (ICPR). Piscataway, NJ: IEEE, 2012: 1479-1482

[28]Gao Shenghua, Tsang I W, Chia L T. Sparse representation with kernels[J]. IEEE Trans on Image Processing, 2013, 22(2): 423-434

[29]Xu Zongben, Chang Xiangyu, Xu Fengmin, et al. L1/2 regularization: A thresholding representation theory and a fast solver[J]. IEEE Trans on Neural Networks and Learning Systems, 2012, 23(7): 1013-1027

[30]Nie Feiping, Wang Xiaoqian, Huang Heng. Clustering and projected clustering with adaptive neighbors[C] //Proc of the 20th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2014: 977-986

[31]Wang Lingfeng, Wu Huaiyu, Pan Chunhong. Manifold regularized local sparse representation for face recognition[J]. IEEE Trans on Circuits and Systems for Video Technology, 2015, 25(4): 651-659

[32]Wang Shengzheng, Jing Peng, Liu Wei. Anl2/l1regularization framework for diverse learning tasks[J]. Signal Processing, 2015, 109: 206-211

[33]Wang Jinjun, Yang Jianchao, Yu Kai, et al. Locality-constrained linear coding for image classification[C] //Proc of IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 3360-3367

[34]Richard O D, Peter E H, David G S. Pattern Classification[M]. New York: Wiley, 2001

[35]Jerome F, Trevor H, Robert T. The Elements of Statistical Learning: Data Mining, Inference, and Prediction[M]. Berlin: Springer, 2001: 534-553

[36]Yan Hui, Jian Y. Sparse discriminative feature selection[J]. Pattern Recognition, 2015, 48(5): 1827-1835

[37]Zhang Pan, Lian Qiusheng. Low-rank relaxed collaborative representation combined with global and local features for face recognition[J]. Journal of Computer Research and Development, 2014, 51(12): 2663-2670 (in Chinese)

(张盼, 练秋生. 融合整体与局部特征的低秩松弛协作表示[J]. 计算机研究与发展, 2014, 51(12): 2663-2670)

[38]Zheng Zhonglong, Huang Xiaoqiao, Chen Zhongyu, et al. Regression analysis of locality preserving projections via sparse penalty[J]. Information Sciences, 2015, 303: 1-14

[39]Naseem I, Togneri R, Bennamoun M. Linear regression for face recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2010, 32(11): 2106-2112

[40]Rajat R, Battle A, Lee H, et al. Self-taught learning: Transfer learning from unlabeled data[C] //Proc of the 20th Annual Conf on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2006: 801-808

[41]Liu J, Ji S, Ye J. SLEP: Sparse learning with efficient projections[CP/OL]. Arizona: Arizona State University, 2009[2014-10-12]. http://www.public.asu.edu/～jye02/Software/SLEP

[42]Salman A M, Romberg J. Dynamic updating forl1minimization[J]. IEEE Journal of Selected Topics in Signal Processing, 2010, 4(2): 421-434

[43]Beck A, Teboulle M. A fast iterative shrinkage thresholding algorithm for linear inverse problems[J]. SIAM Journal of Imaging Sciences, 2009, 2(1): 183-202

[44]Boyd S, Vandenberghe L. Convex Optimization[M]. Cambridge, UK: Cambridge University Press, 2009

[45]Yang Meng, Zhang Lei, Yang Jian, et al. Regularized robust coding for face recognition[J]. IEEE Trans on Image Processing, 2013, 22(5): 1753-1766

Zheng Jianwei, born in 1982. PhD and associate professor at Zhejiang University of Technology. His main research interests include machine learning, data mining, and computer vision.

Yang Ping, born in 1992. Master candidate at Zhejiang University of Technology. His main research interests include machine learning, data mining, and computer vision (2111412076@zjut.edu.cn).

Wang Wanliang, born in 1957. PhD and professor at Zhejiang University of Technology. His main research interests include deep learning, artificial intelligence and network control (wwl@zjut.edu.cn).

Bai Cong, born in 1981. PhD and lecturer at Zhejiang University of Technology. His main research interests include imagevideo retrieval and computer vision (congbai@zjut.edu.cn).

Kernel Sparse Representation Classification with Group Weighted Constraints

Zheng Jianwei, Yang Ping, Wang Wanliang, and Bai Cong

(CollegeofComputerScienceandTechnology,ZhejiangUniversityofTechnology,Hangzhou310023)

A new classification method called KWGSC (kernel weighted group sparse representation classifier) is proposed for pattern recognition. KWGSC integrates both group sparsity and data locality in the kernel feature space rather than in the original feature space. KWGSC can learn more discriminating sparse representation coefficients for classification. The iteratively update solution of thel2,p-norm minimization problem for KWGSC is also presented. There are several appealing aspects associated with KWGSC. Firstly, by mapping the data into the kernel feature space, the so-called norm normalization problem that may be encountered when directly applying sparse representation to non-normalized data classification tasks will be naturally alleviated. Secondly, the label of a query sample can be inferred more precisely by using of distance constraints and reconstruction constraints in together. Thirdly, thel2,pregularization (wherep∈(0,1]) is introduced to adjust the sparsity of collaborative mechanism for better performance. Numeric example shows that KWGSC is able to perfectly classify data with different normalization strategy, while conventional linear representation algorithms fail completely. Comprehensive experiments on widely used public databases also show that KWGSC is a robust discriminative classifier with excellent performance, being outperforming other state-of-the-art approaches.

sparse representation (SR); locality-constraint; group sparse regularizer; kernel trick; norm normalization problem

2015-08-11；

2016-02-16

国家自然科学基金项目(61602413,61379123,61502424)；国家科技支撑计划基金项目(2012BAD10B01)；浙江省自然科学基金项目(LY15F030014,LY15F020028)

TP391.4

This work was supported by the National Natural Science Foundation of China (61602413, 61379123, 61502424), the National Key Technology R&D Program of China (2012BAD10B01), and the Natural Science Foundation of Zhejiang Province of China (LY15F030014, LY15F020028).