APP下载

支持向量机模型在统计学上的应用研究

2010-10-21

统计与决策 2010年13期
关键词:判别函数内积超平面

贾 凝

(陕西邮电职业技术学院,西安 712000)

0 引言

传统的神经网络的学习算法和最小二乘法都是基于经验风险最小化准则提出来的,即最小化经验风险(训练误差)从而试图使期望风险最小化。而支持向量机(Support Vector Machine-SVM)是由AT&T贝尔实验室的研究小组于1995年在统计学习理论的基础上提出来的一类新型的机器学习方法。它是结构风险最小化准则基本思想的具体实现,为了最小化期望风险,做到同时最小化经验风险和置信范围,即以训练误差作为优化问题的约束条件,而以置信范围值最小化作为优化问题的目标来实现。所以支持向量机的泛化能力要明显优于神经网络等传统的学习方法[1]。

支持向量机的主要思想可以概括为两点:(1)它开始是针对线性可分情况进行分析的,后来对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本映射到高维属性空间使其线性可分,使得在高维属性空间采用线性算法对样本的非线性特性进行分析成为可能;(2)它通过使用结构风险最小化准则在属性空间构造最优分割超平面,使得机器学习得到全局最优化,解决了过学习问题,对样本具有较好的泛化能力。另外,由于支持向量机的训练问题本质上是一个经典的二次规划问题,避免了局部最优解,有效地克服了维数灾难,而且可以利用最优化理论中许多成熟的算法。正是基于支持向量机的上述优势,无论在理论基础上还是在应用前景上,SVM都具有其它机器学习方法难以比拟的优越性,它已经在模式识别和回归估计方面取得越来越多的进展。用于回归估计的支持向量机方法在非线性系统辨识,预测预报,建模与控制等领域都有潜在的广泛应用,使得对其进行研究显得非常重要[2]。

1 统计学习理论(SLT)

SVM的理论基础是统计学习理论,它是对结构风险最小化归纳原则的一种实现。SLT是研究小样本统计和预测的理论,主要内容包括四方面[3]:

(1)经验风险最小化标准统计学习的一致性条件;

(2)在这些条件下关于统计学习方法推广性的界的结论;

(3)在这些界的基础上建立的小样本归纳推理准则;

(4)实现新的准则的实际方法(算法)。

其中,核心内容是:VC维、推广性的界、结构风险最小化(SRM)原则[4]。

实现SRM原则可以有两种思路:(1)保持置信范围固定(通过选择一个适当的结构)并最小化经验风险;(2)保持经验风险固定并最小化置信范围SVM就是第二种思路的实现:设计函数集的某种结构使每个子集中都能够取得最小的经验风险(如使训练误差为0),然后选择适当的子集使置信范围最小,则这个子集使经验最小的函数便是最优函数。

2 线性支持向量机

支持向量机是Vapnik提出的源于统计学习理论的一种学习方法,它基于结构风险最小化原则,具有很强的泛化能力。SVM算法是从线性可分情况下的最优分离超平面提出的。所谓最优分离超平面就是要求分类超平面不但能将两类样本无错误分开,而且要使两类之间的距离最大[5]。设线性可分样本集为(xi,yi),i=1,…,n,x∈Rd,y∈{+1,-1},是类别标号,d维空间中线性判别函数的一般形式为g(x)=w·x+b,分类面方程为w·x+b=0。如果存在分类超平面w·x+b=0使得

则称样本集是线性可分的。对于线性可分的问题,就是要寻求参数(w,b),使(l)式成立,由此得到判别函数y(x)=sgn(w·x+b)。将判别函数进行归一化,使两类所有样本都满足|g(x)|≥1,即,使离分类面最近的样本的|g(x)=1|,这样分类间隔就等于 2/||w||,因此间隔最大等价于使||w||“(或||w||2)最小;而要求分类线对所有样本正确分类,就是要求其满足:

因此,满足上述条件且使||w||2最小的分类面就是最优分类面。这两类样本中离分类面最近的点且平行于最优分类面的超平面上的训练样本就是使式(2)式中等号成立的那些样本,他们叫做支持向量(Support Vectors)。如图1中所示

部分作业人员不懂各类脚手架牌的含义,经常出现到未经验收合格的脚手架上作业,或者到挂黄牌的脚手架上作业不挂安全带等违章情况。为此,项目部组织针对性的脚手架安全培训,全员覆盖。同时,组织现场脚手架观摩,明确告知作业人员各类脚手架牌含义,避免违规行为再次发生。

根据上面的讨论,最优分类超平面问题可以表示成如下的约束优化问题:

3 非线性支持向量机

从上面的讨论的最优分类超平面和广义最优分类超平面看出,其最终的分类决策函数中只包含待分类样本与训练样本中的支持向量的内积运算(x·xi),同样,它的求解过程式中也只涉及训练样本之间的内积运算(xi·xj),可见,要解决一个特征空间中的最优线性分类问题,我们只需要知道这个空间中的内积运算即可。如果一个问题在其定义的空间不是线性可分的,这时可以考虑构造新的特征向量,把问题转换到一个新的空间中,这个空间一般比原空间维数增加,但却可以用线性判别函数实现原空间中的非线性判别函数。比如构造y=[1xx2]T,就可以用g(y)=aTy的线性函数实现g(x)=c0+c1x+c2x2的二次判别函数,其中广义权向量a=[c0,c1,c2]T。实际上,一般来说,对于任意高次判别函数,都可以通过适当的变换转化为另一空间中的线性判别函数来处理。把这种变换空间中的线性判别函数称作原问题的广义线性判别函数。但是,虽然这种变换理论上可以用简单的线性判别函数来解决十分复杂的问题,但由于变换空间中的维数往往很高,容易陷入所谓维数灾难而使问题变得实际上不可实现。因此,广义线性判别函数的思想只在一些相对不十分复杂的非线性问题中能够应用[6]。

按照广义线性判别函数的思路,要解决一个非线性问题,我们可以设法将它通过非线性变换转换为另一个空间中的线性问题,在这个空间中求最优或广义最优分类超平面。考虑到广义最优分类超平面的性质,在这个变换空间中,我们只需进行内积运算。而进一步看,我们甚至没有必要知道采用的非线性变换的形式,而只需要知道它的内积运算即可。只要变换空间中的内积可以用原空间中的变量直接计算得到(通常是这个的),则即使变换空间的维数增加很多,在其中求解最优分类面的问题并没有增加多少计算复杂度。

支持向量机的基本思想可以概括为:首先通过非线性变换将输入空间变换到一个高维空间,然后在这个新空间中求取最优线性分类超平面,而这种非线性变换是通过定义适当的内积函数实现的[7]。SVM中不同的内积核函数将形成不同的算法。目前研究最多的核函数主要有三类,一是多项式核函数

二是径向基函数(RBF)

三是sigmoid函数

由于径向基函数可以逼近任意非线性函数,因此,本文选取径向基函数作为支持向量机的核函数来进行研究。

4 支持向量机与boosting算法的综合建模

Boosting是20世纪90年代来提出的最有效的学习思想之一,它的思想起源于Valiant提出的PAC学习模型,valiant提出了弱学习和强学习的概念,认为准确率仅比随机猜测略高的学习算法称为弱学习算法,识别准确率很高并能在多项式时间内完成的算法称为强学习算法。同时,Valiant首次提出了两种算法的等价性问题,即任意给定比随机猜测略高的弱学习算法,是否可以将其提升为强学习算法?如果二者等价,那么只需找到一个比随机猜测略高的弱学习算法就可以将其提升为强学习算法,而不必寻找很难获得的强学习算法。1990年,Schapire最先构造出一种多项式级的算法,对该问题作出了证明,这就是最初的Boosting算法。1997年,Freund和Schapire提出了Adaboost算法[8]。

(1)初始化观测权值 wi=1/N,i=1,2,…,N

(2)设定C,γ的初始值γini,和最大值γmax以及每次调整的步长 γstep。

(3)对于 m=1 到 M:

(a)使用权值wi,用支持向量分类机Gm(X)拟合训练数据

(b)计算训练误差 εm=∑i=1Nwim·(yi≠Gm(xi))

(c)假如 εm>0.5,则 γ<γmax,则 γ=γ+γstep返回(a)

(e)计算 αm=log((1-erm)/errm)

(f)置wi←w·iexp[αm·I(yi≠≠Gm(xi))],i=1,2…,N

5 结束语

对于支持向量机来说,参数取值不同,对应的分类器性质以及推广识别率也将有很大差别。本文应用以径向基函数(RBF)为核函数的支持向量机到统计学领域。除了选取模型参数外,怎样选取重要属性同样重要。

支持向量机作为一种专门研究小样本的学习方法,以统计学习理论作为坚实的理论依据,基于结构风险最小化使其克服了传统模式识别方法的过学习和陷人局部最小的缺点,具有很强的泛化能力和全局最优性;采用核函数向高维空间映射时并没有增加计算的复杂性,又有效地克服了维数灾难间题。许多统计分析方法对数据的分布有一定的要求,限制了它们的使用范围,而SVM的理论模型无须预报变量和结果变量具有某种特定的分布。

此外,本文将支持向量机与时下最流行的Boosting算法结合,建立一个综合的AdaBoost-SVM模型,尽管从理论意义上来说,SVM这样一种强学习算法不适合作为Boosting算法的基础学习器,但在本文中,我们通过在每一次迭代过程中调节支持向量机的参数,使Boosting过程中的每一个支持向量分类机精度都满足只比随机猜测略高这个要求,建立一个动态的AdaBoost-SVM模型。

[1]邓乃扬,田英杰著.数据挖掘中的新方法——支持向量机[M].北京:科学出版社,2004.

[2]V.N.Vapnik.The Nature ofStatisticalLearning Theory[M].Newyork:Spring-Verlag,1998.

[3]张学工,关于统计学习与支持向量机[J].自动化学报,2000,(1).

[4]T.Hastie,R.Tibshirani,J.Friedman 著.范明,柴玉梅等译. 统计学习基础—数据挖掘原理、推理与预测[M].北京:电子工业出版社,2004.

[5]卢纹岱,吴喜之.SPSS for windows统计分析[M].北京:电子工业出版社,2006.

[6]邓小文,支持向量机参数选择方法分析[J],福建电脑,2005,(11)

[7]M.H.Zhang,Q.S.Xu,Application of Boosting to Classification Problems in Chemometrics[J].Analytica Chimica Acta,2005,167~176.

[8]据旭,王浩.基于Boosting的支持向量组合分类器[J].合肥工业大学学报,2006,(10).

[9]王强,沈永平,陈英武.支持向量机规则提取[J].国防科技大学学报,2006,(2).

[10]牛艳庆,胡宝清.给予模糊AdaBoost算法的支持向量回归机[J].模糊系统与数学,2006,(4).

猜你喜欢

判别函数内积超平面
全纯曲线的例外超平面
涉及分担超平面的正规定则
四元数Hilbert空间上广义内积与Beckenbach不等式的推广
Fisher判别法在个人信用风险评估中的应用
游乐设施事故与危险量化判别函数的构建
以较低截断重数分担超平面的亚纯映射的唯一性问题
一种基于支持向量机中分离超平面求取的算法*
探究上市公司财务预警的数学模型
巧用向量的加法证明点线问题
基于矩阵的内积函数加密