APP下载

核函数的选择研究综述

2012-07-25汪廷华陈峻婷

计算机工程与设计 2012年3期
关键词:度量矩阵函数

汪廷华,陈峻婷

(1.赣南师范学院 数学与计算机科学学院,江西 赣州341000;2.赣南师范学院 现代教育技术中心,江西 赣州341000)

0 引 言

支持向量机 (support vector machine,SVM)由Vapnik及其合作者[1]在1992年的计算学习理论会议上介绍进机器学习领域,之后的十几年中受到了广泛的关注并得到了全面深入的发展,现已成为机器学习和数据挖掘领域的标准工具。支持向量机是若干机器学习标准技术的集大成者,它集成了最大间隔超平面、Mercer核、凸二次优化、稀疏解和松弛变量等多项技术,主要用于模式分类和回归估计。支持向量机是结构风险最小化 (structural risk minimization,SRM)原则的具体体现,它根据有限的样本信息在机器的学习能力和复杂性之间寻求最佳折衷。与传统的神经网络学习算法相比,支持向量机克服了局部极小和维数灾难等问题,泛化能力明显提高[2]。

用于模式分类的支持向量机工作的原理是:在非线性可分的情况下,使用一个非线性变换Φ,把输入空间X映射到一个高维特征空间F,然后在特征空间中使用线性分类算法进行分类。非线性变换Φ通过所谓的核函数k(x,z)隐式定义,它能在特征空间中高效地计算内积,即k(x,z)=<Φ (x)·Φ (z)>。通常 Φ (·)比k(·)更为复杂,因此核函数的引入可以大大降低非线性变换的计算量。通过核映射将原空间线性不可分的问题转化成某高维特征空间线性可分问题,而且不增加计算的复杂度,这就是所谓的核技巧。可以这么说,在支持向量机所获得的巨大成功中,核技巧扮演了非常重要的角色。进一步地,通过把核函数引入到一些传统的学习算法,可以方便地把线性算法转换为非线性算法[3],例如:核Fisher判别分析(Kernel FDA)、核主成分分析 (Kernel PCA)、核独立成分分析 (Kernel ICA)、核聚类分析、核等距映射 (Kernel Isomap)等等,这些算法和支持向量机一起即是所谓的基于核的学习方法,简称核方法。核方法为我们提供了一种解决非线性问题的非常巧妙的方法;简单地说,我们可以把核方法推广至任何包含内积运算的算法中。

各种核方法的共同策略是:把数据嵌入到一个可以发现线性关系的空间。从模块化的角度来看,核方法由两个组件构成:初始映射和模式分析算法,前者由所谓的核函数隐式定义,它依赖于具体的数据类型和关于模式的领域知识,该组件由输入数据构造一个核矩阵 (Gram矩阵);后者是从核矩阵中检测具体的模式函数。这一观测表明模式分析算法能够收集到的关于训练数据和选定的特征空间的所有信息,都包含在由核函数构造的核矩阵中。从这个意义上说,可以把核函数 (核矩阵)看作核方法的信息瓶颈;核函数的选择是核方法取得成功的一个关键问题,同时也是一个难点问题。本文以支持向量机作为核函数的载体系统综述了核函数的构造与学习方法,在总结该领域研究现状与应用的基础上,凝练了其进一步研究的方向。

1 支持向量机学习算法

支持向量机方法是从线性可分情况下的最优分类面发展而来的。对于一组训练样本集 (xi,yi),xi∈Rn,yi∈{+1,-1},i=1,…,l,如果分类面<w·x>+b=0能将训练样本正确地分为两类,那么应使得两类样本到最优分类面最小距离之和最大。通过求解下面的优化问题可以到得最优分类面

式中:C——惩罚系数 (目的是在模型复杂性与学习能力之间进行折),ξi——误差项。采用拉格朗日乘子法求解上述具有线性约束的二次规划问题,可以得到Wolfe对偶问题

式中:αi——拉格朗日乘子。显然,这是一个具有线性约束的凸二次优化问题,具有唯一解。解中αi≠0所对应的样本称为支持向量,也就是对最优分类面有贡献的样本。解上述优化问题可以得到决策函数

对非线性问题,设有一个非线性映射Φ:X→F将输入空间的样本映射到一个高维 (可能是无穷维)的特征空间F中,在F中实现线性分类。引入核函数k(x,z)=<Φ(x)·Φ (z)>,对偶问题 (2)变为

相应的决策函数也变为

在实际应用中,常用的核函数有线性核、多项式核、Gaussian核、Sigmoid核等[2-3]。

2 核函数的构造

核函数的理论最早可以追溯到20世纪初期。1909年,Mercer发现在积分方程的所有连续核中,核可以表征为正定积分算子的一个二元函数,并从数学上给出了有关正定核函数存在和判定的充分必要条件,这就是著名的Mercer定理。另一方面,Aronszajn在20世纪40年代发展了再生核Hilbert空间的理论。在该理论中,通过核函数的再生性质对核函数的定义进行了统一,从而使得很多复杂的证明被大大简化。而运用Mercer定理把核解释成一个Hilbert空间中的内积这一思想,则首先是在1964年由Aizerman,Braverman和Rozonoer在势函数方法的研究工作中引入机器学习领域的;但是它的应用潜力直到Boser,Guyon和Vapnik[1]在介绍支持向量机时才首次得到充分理解。

根据Mercer定理,确认一个新的对称函数是否是一个核的关键是要检查该函数在任意有限点集上定义的矩阵是否是半正定的。确切地说,只要我们能保证一个或多个核上的运算结果总是一个半正定对称矩阵,就认为该运算结果是一个核,并称核函数在这些运算下是封闭的。由此,我们可以得到一种简单的核函数构造方法,即利用简单的核函数构造复杂的核函数[3]。在核方法研究的早期,人们只考虑这种封闭形式的核函数,它们的处理数据一般定义在向量空间。例如任双桥等人[4]根据特征空间完全可分的条件,提出了一种自适应的多项式核函数和B-样条核函数的构造方法,其本质上也是利用了核函数运算的封闭性质。

ANOVA核的引入给出了第一个根据递归关系定义的核,可以利用动态规划高效地求出这个核[5]。同时人们也认识到,核并不一定必须定义在向量型的输入上。1999年,根据递归关系定义的串核开始出现[6]。这些开创性的工作极大地扩展了核的应用,显示了输入空间可以是向量、字符串、生物序列、文本、图像等结构化数据。定义在结构化数据上的核,如卷积核、字符串核、树核、图核等,被称为结构化数据核函数[7]。这些核一般通过直接定义特征空间的内积构造,无需检查半正定性,这就是所谓的从特征中构造核函数的方法[3]。在结构化数据核函数中,从输入空间到特征空间的映射较为复杂,直接通过这种映射去计算核函数不太现实,因为计算量太大,无法在实际的应用中使用。因此,在提出这些核函数的同时,研究者们都会提出一些快速实现算法,以便将这些结构化数据核函数应用于实际问题中[3,8-10]。对于结构化数据,另一个有趣的构造核的方法是从数据的生成信息中求得核,Jaakkola和Haussler[11]最早研究了这个主题。这种方法要求首先按照数据生成的方式建立一个被称为生成模型的模型,该模型可以是确定的或者是概率的,也可以是简单函数或者复杂的图结构,例如有限状态自动机或者隐Markov模型;然后利用这些模型为嵌入函数提供特征并设计可以高效计算的核。

另外,在核方法中参与实际运算的是核矩阵,因而可以不需要知道核函数的具体形式,直接推断出核矩阵就足够了。基于这种考虑,一些研究人员研究了直接核矩阵学习与构造的方法,例如Lanckriet等人[12]利用半正定规划(Semidefinite programming,SDP)技术进行最优核矩阵的学习;吴涛等人[13]提出利用散乱数据插值的办法确定特征空间中感兴趣点的内积值以代替传统核函数的一般表达式所起的作用。这种方法的本质是直接从数据中构造核矩阵,为研究人员提供了一种新的有潜力的思路。

最后,Ong等人[14]通过定义在一种核空间上的再生核Hilbert空间,即超再生核Hilbert空间,引入了超核的概念。超核的构造与学习可以通过定义一个 “品质函数(quality functional)”的量来实现。超核是一种更广义的核理论,在核函数的构造方面是一种新的尝试。

3 核函数中参数的选择

核函数的构造对于核方法固然重要,但当核函数构造完毕 (核函数的类型固定)后,如何确定核函数中待定参数 (简称核参数)的最优值同样重要。研究表明,针对同一个核函数,选择不同的核参数,核方法的性能可能会相差很大。这主要是因为不同的参数所对应的特征空间的结构具有差异性,而特征空间的性质直接决定着核方法的性能。从SVM模型选择的角度来看,一般地,判断算法中的参数值是否最优,本质上就是选取适当的参数值以使得算法相应的错误率最小。目前关于核函数中参数选择问题的解决思路主要有3种:①交叉验证技术;②最小化学习算法错误率的上界;③优化核函数 (核矩阵)度量标准。

交叉验证技术的基本思想通过测试非训练样本在某固定参数值上的分类错误率,然后不断地修正参数,以便使测试错误率最小[15]。该方法本质上是参数空间穷尽搜索法,即用参数空间中每一组可能的参数组合去训练和测试SVM,找出效果最好的参数组合。经典方法有k-折交叉验证 (k-fold cross-validation) 和 留 一 法 (leave-one-out,LOO)。以泛化误差估计定理为理论基础的留一法在理论上已被证明是关于真实错误率的无偏估计;k-折交叉验证法是留一法的推广,计算精度较高而且计算量相对留一法来说减少很多。交叉验证技术的明显缺陷是不仅需要极大的计算量,并且当参数超过两个时,将难于实现。

为了解决交叉验证技术在大样本、多参数计算上的困难,许多学者提出了最小化留一法误差上界的方法,这些误差界包括 Xi-Alpha bound、GACV、Span bound、VC-bound、Radius-margin bound(RM)等。其中RM 界是较常用的一种误差界[16],Duan等人[15]指出该界是连续且容易计算的一种风险上界,但只适用于硬间隔SVM和二范数软间隔SVM。为了使RM界适用于一范数软间隔SVM,Chung等人[17]对该界进行了推广,得到了一个新的RM界,并利用这个新的界去选择Gaussian核的宽度参数,取得了很好的效果。常群等人[18]则利用这个新的RM界把Gaussian核参数的选择从单个推广到多个。另外,考虑到上述这些界只适用于二分类SVM的缺陷,Wang等人[19]将RM界推广到了多分类SVM的情形。基于界的方法通常采用基于梯度的优化算法去求得较优的参数值。和交叉验证技术相比,这种最小化学习算法风险上界的方法大大减少了计算量,从而适合于多参数的选择问题;但该方法有一个明显的缺陷,即每一次迭代均需训练SVM和求解一个额外的二次规划问题去得到特征空间中包含所有训练样本的最小超球半径,这无疑是一个可观的计算开销。

核参数选择的第三种思路是优化相关的核度量标准,其主要出发点是如何衡量核函数和学习任务 (分类)的一致性。核度量是两个核函数之间或核函数与目标函数间的一个相似性度量,其概念最早由Cristianini等人[20]提出。Cristianini等人提出的核度量标准称为核排列 (kernel-target alignment,KTA),它已经广泛地应用于核函数的选择之中[21]。Baram[22]提出的核极化 (kernel Polarization)标准可以看作是未归一化的核排列,实验表明采用核极化标准和采用交叉验证技术选择Gaussian核的宽度参数,SVM获得了相似的分类性能。Wang等人[23]则进一步研究了核极化的几何意义,指出高的核极化值意味着同类的数据点相互靠近而异类的数据点则相互远离,并提出了一种基于优化核极化的广义Gaussian核的参数选择算法。Nguyen和Ho两人[24]则分析了核排列标准的一些严重缺陷,指出拥有较大的核排列值是一个好核函数的充分而非必要条件(即使KTA值很小的核函数完全有可能获得很好的性能),并提出了一个替代标准,即基于特征空间的核矩阵度量标准 (feature space-based kernel matrix evaluation measure,FSM)。从特征空间中数据点的分布趋势来看,核排列 (包括核极化)与基于特征空间的核矩阵度量标准的目标是基本一致的,即尽量使得同类数据点尽量靠近,而异类数据点尽量远离。然而,不同的地方在于,对于同类数据,前者是在所有的方向上考虑数据的偏差,而后者只是在正负类中心所确定的方向上考虑数据的偏差;换句话说,数据沿着平行于分类超平面的方向移动并不影响分类的性能。Wang等人[25]对上述3种核度量标准进行了深入的分析,指出它们只考虑了异类样本数据之间的分离性,而没有考虑同类样本数据的局部结构信息的保持性;这种 “全局性”的度量标准有可能会限制增强数据可分性的自由度。针对这个缺陷,提出了一个局部化的核度量标准,即局部核极化 (local kernel polarization,LKP)。局部核极化通过引入亲和系数 (affinity coefficient)在一定程度上保持了同类样本数据的局部结构信息,从而进一步增强了异类样本数据之间的可分性。最近,考虑到数据点在特征空间中的位置不当 (例如数据点的凸包远离坐标原点)会导致核排列标准的失效,Cortes等人[26]提出了一种基于中心化核的排列标准,并给出了该标准的理论结果及在核优化中的应用。和最小化学习算法错误率 (风险)上界的方法相比,优化核函数 (核矩阵)度量标准的方法的优点是不需要多遍训练SVM和计算特征空间中包含所有训练样本的最小超球半径;另外,优化核函数 (核矩阵)度量标准的方法可以独立于具体的核学习算法。

核参数选择的其它方法包括核路径算法[27]、基于计算特征空间中簇间距的算法[28]、基于核相似性差异最大化的高斯核参数选择算法[29]等。另外,从所采用的优化方法的角度看,除了常用的基于梯度的迭代算法之外,许多学者也采用了随机算法来选择核函数中的参数。

4 多核学习

现实世界中往往存在大量的来自多个数据源或异构的数据集,例如基因组数据库就往往由多种类型的数据构成:变长度的氨基酸串、实值的基因表达数据以及蛋白质之间的交感作用图等。基于采用单个核函数的形式处理类似数据的效果不是很理想的事实,2004年Lanckriet和Bach等人[12,30-31]提出了一种新的学习框架,即多核学习 (multiple kernel learning,MKL)。多核学习采用了多个基核 (basis kernel)的组合形式,其中每个基核可以使用描述样例的所有特征,也可以只使用来自某个特定数据源 (或观察样例的某个特定视角)的特征。由于采用多核学习的SVM具有一系列单核SVM所不具备的优点,例如决策函数的可解释性、核函数的自动选择、预测性能的提升等,多核学习一经提出就得到了广泛的关注,是近年来核方法研究的一个非常热点的问题[12,30-40]。多核学习能够自动评估各个基核对于目标问题的重要性,从而为我们提供了一条选择最优核函数的较佳途径。目前,多核学习的研究主要集中在如何提高学习的效率 (efficiency)和准确率 (accuracy)两个方面。

从学习的效率方面来看,Lanckriet等人[12]首先指出以SVM的结构风险为优化目标函数的多核学习等价于求解一个半正定规划 (semi-definite programming,SDP)问题,或更特殊地是一个二次约束的二次规划 (quadratically constrained quadratic programming,QCQP)问题[30],为多核模型提供了一种功能强大的渐近直推式算法。SDP与QCQP属于凸规划问题,理论上可以保证得到全局最优解,但只适合于求解小规模 (基核数目与数据规模均较小)的问题。随后Bach等人[31]又提出了QCQP的一种新的对偶形式,即 二 阶 锥 规 划 (second order cone programming,SOCP),并将其写成SMO算法适用的形式,可以求解中等规模的问题。为了适用于大规模问题,近年来许多研究者提出了交替优化的方法,如基于半无限线性规划 (semi-infinite linear programming,SILP)的方法[32]、简单多核学习 (SimpleMKL)方法[33]、基于分组 Lasso的方法[34]等。这类方法在基核的权系数优化与SVM训练之间交替进行直至算法收敛,即算法的每一次循均包含两个步骤:①给定当前步的权系数值,求解一个经典的SVM问题;②采用某种特定的过程更新权系数。这类方法的优点是可以利用成熟的SVM工具包进行快速求解,不同的地方主要在于更新权系数方法的不同。

从分类的准确率方面来看,主要考虑的是什么样的基核组合形式能够获得更高的分类准确率。多核模型最简单也是最常见的一种构造形式就是多个基核的凸组合。凸组合形式中权系数的L1范数也称为单纯形约束,采用这种组合形式的多核学习称为L1-MKL。L1-MKL的优点是它会得到稀疏的解,即只有一部分权系数不为零。稀疏性的提高在某些情况下可以减少冗余,提高运算效率;但当问题的特征编码之间具有正交性的时候,稀疏性可能导致有用信息的丢失和泛化能力的减弱,基于这种情况,Kloft等人[35]提出了非稀疏多核学习方法,即L2-MKL。L2-MKL在特征集冗余和抗噪声方面具有较强的鲁棒性。随后Kloft等人[36]又将L2范数推广到任意的Lp(P>1)范数,即Lp-MKL,进一步增强了算法的鲁棒性和通用性。此外,考虑到基核集中可能存在主成分结构,一些研究者也提出了基于权系数的混合范数 (mixed-norm)的组合形式[37],为多核学习提供了一种基于混合范数正则化的新思路。与上述多核模型基于基核的线性组合形式不同,一些研究人员讨论了基核的非线性组合的可行性[38]。虽然非线性组合扩大了问题的解空间,但高昂的计算开销和结果的难以解释性等问题是不容忽视的。

最后,许多研究者也根据具体应用问题的实际,对多核学习的框架进行了相应的扩展 (或修正),例如提出了多分类多核学习、多标签多核学习、局部多核学习、基于间隔和半径的多核学习等模型及其求解算法。

5 结束语

核函数的选择是核方法研究中的一个关键问题,同时也是一个难点问题。本文从以SVM作为核函数的载体,从核函数的构造、核函数中参数的选择、多核学习3个方面对核函数的选择作了比较全面的评述。从目前的情况看,作者认为该领域的以下一些问题值得进一步研究:

(1)根据特定的应用领域选择核函数。SVM是一种在特征空间实施线性判决的学习算法,其中特征空间由核函数隐式定义。事实上,尽管在理论上核函数有很大的选择余地,但在现实世界中如何根据特定的应用领域选择使用特定的核函数是却是一个公开的难题。一般而言,使用一些通用的核函数 (例如Gaussian核函数)可以解决一部分问题;然而,众多的研究已经表明核函数的选择与数据的性质 (领域)有着密切的关系。多核学习通过多个基核的组合,从另一个角度解决了特定核函数的选择问题,通过多个权系数的调节与优化,使组合的核函数尽可能满足实际的需求。由于多核学习需要对多个基核的权系数及其它参数进行优化,因而研究高效的学习算法是必需的。另外,根据具体问题的不同,对多核学习的框架进行相应的扩展(或修正)也是一个需要进行深入研究的课题。

(2)设计有效的核函数度量标准。为了选择恰当的核函数,一个好的核度量标准是必要的。Nguyen和Ho两人[24]在提出基于特征空间的核矩阵度量标准的时候曾经指出,当数据集中存在局部结构信息的时候,简单地减小同类内的数据偏差是没有什么意义的,但是他们并没有给出在设计核度量标准的时候如何消除这种影响的方法。Wang等人[25]提出的局部核极化应该是一种有益的尝试和可行的选择。然而,这个工作还是略显粗糙,还有诸如如何针对具体问题确定亲和系数、如何将局部核极化推广到一般的核函数等问题需要进一步的研究和探讨。通过采用与Wang等人[25]相同的分析方法,我们很容易发现核排列和基于特征空间的核矩阵度量标准也没有考虑数据集中的局部结构信息对算法性能的影响,因而也是一种 “全局性”的核度量标准。虽然如此,但要提出它们的 “局部化”版本却比局部核极化复杂得多。这显然是未来研究的一个令人感兴趣的方向。此外,设计核度量标准的目的是为了通过优化该标准来增强异类样本数据之间的可分性,这和机器学习中的其它标准非常类似,如最小最大概率机器 (Minmax probability machine,MPM)中的最差误分概率、距离度量学习 (distance metric learning)中的有关优化准则、类别可分离性标准等。深入研究这些标准之间的关系,可以使我们从这些标准中得到启发,进而设计出更有效的核度量标准。

(3)拓宽核函数选择的研究范围。目前,核函数的选择研究主要集中在模式分类领域,在回归、聚类、时间序列分析等领域的研究则较少,在这些方面的研究对于拓宽核函数选择研究的范围,开辟核方法应用的新领域具有十分重要的意义。

[1]Boser B,Guyon I,Vapnik V.A training algorithm for optimal margin classifiers[C].Pittsburgh,USA:Proc of the 5th Annual ACM Conference on Computational Learning Theory,1992:144-152.

[2]Vapnik V.The nature of statistical learning theory[M].New York:Springer,1995.

[3]Shawe-Taylor J,Cristianini N.Kernel methods for pattern analysis[M].Cambridge:Cambridge University Press,2004.

[4]REN Shuang-qiao,WEI Xi-zhang,LI Xiang,et al.Adaptive construction for kernel function based on the feature discriminability [J].Chinese Journal of Computers,2008,31(5):803-809 (in Chinese). [任双桥,魏玺章,黎湘,等.基于特征可分性的核函数自适应构造 [J].计算机学报,2008,31 (5):803-809.]

[5]Burges C J C,Vapnik V.A new method for constructing artificial neural networks [R].Interim Technical Report,ONR Contract N00014-94-C-0186.Technical Report,AT&T Bell Laboratories,1995.

[6]Haussler D.Convolution kernels on discrete structures [R].Technical Report UCSC-CRL-99-10,Department of Computer Science,University of California in Santa Cruz,1999.

[7]G rtner T.A survey of kernels for structured data [J].ACM SIGKDD Explorations Newsletter,2003,5 (1):49-58.

[8]Viswanathan S V N,Borgwardt K M,Schraudolph N N.Fast computation of graph kernels [C].Advances in Neural Information Processing Systems 19,2006.

[9]YIN Chuan-huan,TIAN Sheng-feng,MU Shao-min.A fast algorithm for gapped kernels [J].Acta Electronica Sinica,2007,35 (5):875-881 (in Chinese). [尹传环,田盛丰,牟少敏.一种面向间隙核函数的快速算法 [J].电子学报,2007,35 (5):875-881.]

[10]YIN C,TIAN S,MU S,et al.Efficient computations of gapped string kernels based on suffix kernel[J].Neurocomputing,2008,71 (4-6):944-962.

[11]Jaakkola T S,Haussler D.Exploiting generative models in discriminative classifiers [C].Advances in Neural Information Processing Systems 11,1998.

[12]Lanckriet G R G,Cristianini N,Bartlett P,et al.Learning the kernel matrix with semidefinite programming [J].Journal of Machine Learning Research,2004,5:27-72.

[13]WU Tao,HE Han-gen,HE Ming-ke.Interpolation based kernel function’s construction [J].Chinese Journal of Computers,2003,26 (8):990-996 (in Chinese). [吴涛,贺汉根,贺明科.基于插值的核函数构造 [J].计算机学报,2003,26 (8):990-996.]

[14]Ong C S,Smola A J,Williamson R C.Learning the kernel with hyperkernels [J].Journal of Machine Learning Research,2005,6:1043-1071.

[15]Duan K,Keerthi S S,Poo A N.Evaluation of simple performance measures for tuning SVM hyperparameters [J].Neurocomputing,2003,51:41-59.

[16]Chapelle O,Vapnik V,Mukherjee S.Choosing multiple parameters for support vector machines [J].Machine Learning,2002,46 (1):131-159.

[17]Chung K M,Kao W C,Sun C L,et al.Radius margin bounds for support vector machines with the RBF kernel[J].Neural Computation,2003,15 (11):2463-2681.

[18]CHANG Qun,WANG Xiao-long,LIN Yi-meng,et al.Support vector classification and Gaussian kernel with multiple widths [J].Acta Electronica Sinica,2007,35 (3):484-487(in Chinese).[常群,王晓龙,林沂蒙,等.支持向量分类和多宽度高斯核 [J].电子学报,2007,35 (3):484-487.]

[19]WANG L,XUE P,CHAN K L.Two criteria for model selection in multiclass support vector machines [J].IEEE Transactions on System,Man,and Cybernetics-Part B:Cybernetics,2008,38 (6):1432-1448.

[20]Cristianini N,Shawe-Taylor J,Elisseeff A,et al.On kernel-target alignment [C].Advances in Neural Information Processing Systems 14,2001:367-373.

[21]Igel C,Glasmachers T,Mersch B,et al.Gradient-based optimization of kernel-target alignment for sequence kernels applied to bacterial gene start detection [J].IEEE/ACM Transactions on Computational Biology and Bioinformatics,2007,4 (2):216-226.

[22]Baram Y.Learning by kernel polarization [J].Neural Computation,2005,17 (6):1264-1275.

[23]WANG T,HUANG H,TIAN S,et al.Learning general Gaussian kernels by optimizing kernel polarization [J].Chinese Journal of Electronics,2009,18 (2):265-269.

[24]Nguyen C H,Ho T B.Kernel matrix evaluation [C].Hyderabad,India:Proc of the 20th International Joint Conference on Artificial Intelligence,2007:987-992.

[25]WANG T,TIAN S,HUANG H,et al.Learning by local kernel polarization [J].Neurocomputing,2009,72 (13-15):3077-3084.

[26]Cortes C,Mohri M,Rostamizadeh A.Two-stage learning kernel algorithms[C].Haifa,Israel:Proc of the 27th International Conference on Machine Learning,2010:239-246.

[27]Wang G,Yeung D Y,Lochovsky F H.A kernel path algorithm for support vector machines [C].Corvalis,USA:Proc of the 24th International Conference on Machine Learning,2007:951-958.

[28]WU K P,WANG S D.Choosing the kernel parameters for support vector machines by inter-cluster distance in the feature space [J].Pattern Recognition,2009,42 (5):710-717.

[29]TANG Yao-hua,GUO Wei-min,GAO Jing-huai.SVM parameter selection algorithm based on maximum kernel similarity diversity[J].Pattern Recognition and Artificial Intelligence,2010,23(2):210-215 (in Chinese). [唐耀华,郭为民,高静怀.基于核相似性差异最大化的支持向量机参数选择算法 [J].模式识别与人工智能,2010,23 (2):210-215.]

[30]Lanckriet G R G,Bie T D,Cristianini N,et al.A statistical framework for genomic data fusion [J].Bioinformatics,2004,20 (16):2626-2635.

[31]Bach F R,Lanckriet G R G,Jordan M I.Multiple kernel learning,conic duality,and the SMO algorithm [C].Banff,Canada:Proc of the 21st International Conference on Machine Learning,2004:41-48.

[32]Sonnenburg S,R tsch G,Sch fer C,et al.Large scale multiple kernel learning [J].Journal of Machine Learning Research,2006,7 (1):1531-1565.

[33]Rakotomamonjy A,Bach F,Canu S,et al.SimpleMKL[J].Journal of Machine Learning Research,2008,9:2491-2521.

[34]XU Z,JIN R,YANG H,et al.Simple and efficient multiple kernel learning by group lasso [C].Haifa,Israel:Proc of the 27th International Conference on Machine Learning,2010:1175-1182.

[35]Kloft M,Brefeld U,Laskov P,et al.Non-sparse multiple kernel learning [C].Proc of the NIPS Workshop on Kernel Learning:Automatic Selection of Optimal Kernels,2008.

[36]Kloft M,Brefeld U,Sonnenburg S,et al.Efficient and accurateLp-norm multiple kernel learning [C].Advances in Neural Information Processing Systems 22,2009:997-1005.

[37]Nath J S,Dinesh G,Raman S,et al.On the algorithmics and applications of a mixed-norm based kernel learning formulation [C].Advances in Neural Information Processing Systems 22,2009:844-852.

[38]Cortes C,Mohri M,Rostamizadeh A.Learning non-linear combinations of kernels [C].Advances in Neural Information Processing Systems 22,2009:396-404.

[39]MU Shao-min,TIAN Sheng-feng,YIN Chuan-huan.Multiple kernel learning based on cooperative clustering [J].Journal of Beijing Jiaotong University,2008,32 (2):10-13 (in Chinese).[牟少敏,田盛丰,尹传环.基于协同聚类的多核学习 [J].北京交通大学学报,2008,32 (2):10-13.]

[40]WANG Hong-qiao,SUN Fu-chun,CAI Yan-ning,et al.On multiple kernel learning methods [J].Acta Automatica Sinica,2010,36 (8):1037-1050 (in Chinese). [汪洪桥,孙富春,蔡艳宁,等.多核学习方法 [J].自动化学报,2010,36 (8):1037-1050.]

猜你喜欢

度量矩阵函数
鲍文慧《度量空间之一》
模糊度量空间的强嵌入
二次函数
第3讲 “函数”复习精讲
二次函数
函数备考精讲
迷向表示分为6个不可约直和的旗流形上不变爱因斯坦度量
初等行变换与初等列变换并用求逆矩阵
地质异常的奇异性度量与隐伏源致矿异常识别
矩阵