APP下载

一种双超球数据域描述模型

2019-12-20党帅涛吴文海

传感器与微系统 2019年1期
关键词:边界决策分类

党帅涛, 柯 坚, 吴文海, 王 奇

(西南交通大学 机械工程学院,四川 成都 610031)

0 引 言

针对故障诊断、异常检测等实际问题,由于种种客观条件的限制,模式空间中往往只含有正常类样本,异常类样本的规模相对较少或严重不足,将会致使传统的二分类方法得到的分类超平面产生偏移,泛化能力下降,很难满足实际应用的需求。而单分类的学习方法只针对正常样本进行学习建立分类超平面,并形成诊断策略,对于异常检测可取得很好的效果。

支持向量数据描述(support vector data description,SVDD)作为一种经典的单分类方法,其以支持向量机和统计学习理论为基础,继承了支持向量机的优点,具有坚实的理论基础和学习能力[1]。但经典的SVDD对一些离群点及异常点较为敏感,在训练过程中容易产生过学习的问题;且SVDD构造的数据描述边界间隔为零,造成学习器鲁棒性相对不高。针对此类问题,近些年许多学者做出了有益的贡献,文献[2]考虑到数据集本身的分布信息,构造了基于样本本身分布信息的模糊数据描述轮廓,在一定程度上改善了经典SVDD的数据敏感问题;Chen G等人[3]利用有限的负类样本并引入不敏感损失函数的概念,构造了一个间隔,在一定程度上解决了分类间隔为零的问题;Nguyen P等人[4]受单分类支持向量机和SVDD启发提出Distant SVDD,在SVDD的最小包围球的基础上最大化球心与原点之间的距离,文献[6]改进了Nguyen P[4]的方法,推广构建了此方法的最小二乘形式,提高了SVDD的泛化能力。

上述方法多针对SVDD的某一缺陷进行改进,没有进行综合考虑,且对于典型样本不足的问题研究较少,结果不太理想,因此,本文设计一种双超球数据域描述(double surround hypersphere datadomain description,DSHDD)模型,受Nguyen P[4]方法启发,在SVDD最小化包围球的基础之上优化一个最大超球使其包含更多的样本,并将绝大部分异常样本排除在大超球之外。

1 SVDD

对于n个训练样本x,SVDD的目的是寻找一个最小超球R使绝大部分样本都位于这个超球体之内,极少部分异常样本被排除在超球体之外[1],可表达为

(1)

式中a为超球中心,ε为松弛变量,C为正则化参数。为改善数据描述性能通常引入核函数把原始数据映射到高维特征空间,并在高维特征空间中最小化包围球。

2 DSHDD

考虑到在某些特殊应用的场合,对漏警率(或虚警率)的要求十分严苛(如入侵检测等),传统的SVDD及其改进算法只能通过调整正则化参数来减小(或增大)超球半径,减小(或增大)超球半径必然带来更多的样本位于超球体之外(或内),增加了虚警率(或漏警率),经典SVDD通过最小化包围球的思想来最大限度地提高决策的确信度,但位于决策边界处的样本的决策信息与分割阈值十分接近,处理起来十分困难,造成SVDD精度下降。

(2)

上述优化问题的解通过式(3)Lagrange函数给出

(3)

Lagrange乘子α≥0,β≥0,λ≥0,η≥0,进一步的得到

(4)

将式(4)代入式(3)化简并引入核函数k(x,y)映射到高维特征空间求解,进而将上述优化问题的对偶问题转换为二次规划(QP)问题,即

(5)

求解这个QP问题可以得到Lagrange乘子αi,而且分析可知DSHDD把样本集分隔成正常区域、异常区域、拒绝区域。根据KKT条件,可以得到下述结论:

1)αi=0对应的数据点位于小超球边界内;

2)0<αi

3)αi=C对应的数据点位于小超球边界外且位于大超球边界内,即拒绝区域;

4)C<αi<δC对应的数据点位于大超球边界上,为大超球支持向量SVB;

5)αi=δC对应的数据点位于大超球边界外。

(6)

(7)

3 实验验证

实验中选取表1中6个数据集作为本文的实验数据集,实验中把样本点最多的几类合并作为目标样本点及把剩下的一类样本点作为离群点。

表1 实验使用的UCI数据集

使用10次10折交叉验证的网格搜索算法来搜索优化SVDD与本文DSHDD方法的参数,由于时间等诸多因素限制,高斯核函数σ的搜索范围仅设置为[1~300],搜索间隔为1;惩罚参数C的搜索范围仅设置为[0.01~0.8],搜索间隔为0.01;惩罚参数放大因子δ搜索范围为[1.5~15],搜索间隔为0.5,大超球控制参数k的搜索范围仅设置为[-1~1),搜索间隔为0.1。对参数网格内的任一组参数,使用10次10折交叉验证方法得到的分类精度的平均值作为此组参数下的精度ACC。在同一个数据集上,不同模型间核函数宽度基本相同,因此,DSHDD使用SVDD搜索到的核函数宽度参数以减少时间的消耗,并统计最优参数时位于拒绝区域的样本所占比例的平均值p作为检测率。

搜索到的结果如表2所示(计算DSHDD的检测精度时假设位于拒绝或粗糙区域的样本已经过分类后处理,是分类正确的),从表2的分类精度ACC可以明显看出在6个数据集上,与经典的SVDD方法相比本文提出DSHDD方法通过拒绝做出决策使得分类性能具有有明显的提高,但是同时可以看出,该方法却意外地使检测率下降,而检测率明显下降意味着模型能给出明确判断的样本数目的减少,同时也意味着后期对这些没有明确分类的样本进一步的检测而做出的工作量的增加。

表2 数据描述模型的参数及检测精度

为了进一步说明所提方法的有效性并实现可视化分析,采用二维人造数据集分别训练SVDD和本文提出的DSHDD方法,比较SVDD与DSHDD性能的差异。结果分别如图1所示。

图1 SVDD与DSHDD性能比较

由图1(a)看出,SVDD通过最小包围球数据描述边界把数据分割成两个部分,对于任一样本只有异常或正常两种可能,且轮廓内有许多空白区域,很可能把异常样本包含在内,使得漏警率较高,性能较差,通过调整正则化参数C可减小数据描述的轮廓半径,可减小轮廓半径又可能使得部分正常样本被排除在描述轮廓之外,造成虚警率较高。

由图1(b)看出,DSHDD通过最小包围球和最大包围球,把样本数据分割成正常区域、异常区域和拒绝区域,而不是SVDD确定的“非黑即白”的数据分割模式,边界轮廓更加紧凑,对位于拒绝区域的样本其可能是正常数据也可能是异常数据。导致虚警和漏警, DSHDD通过双包围球引入拒绝区域,在这个区域内,样本与超球中心之间的距离和超球半径相差较小,根据不同的应用场合,着重关注两类错误中的一类,可以把过渡区域的样本看成相应的类别。

相比于把过渡区域的所有样本看成某一类,更推荐“拒绝做出决策”的策略。避免做出决策不是放弃决策,而是在模型决策之后,对那些位于过渡区域的所有样本利用其他测试手段进行处理。同时也可以看出致使DSHDD方法性能明显提高的最主要原因是该方法提供了一个拒绝区域,模型对拒绝区域内的样本拒绝做出决策,并通过专家及其他后续处理手段对模型拒绝做出决策的样本进行处理,如果一味的追求正确率必然带来检测率的下降及后处理工作量的增加,因此,进一步地对于某些特定的实际问题可以通过调整参数k在检测率和正确率之间取得折中。

4 结束语

针对训练样本异常数据相对较多及SVDD方法鲁棒性不强易产生过学习等缺陷,提出一种DSHDD模型,结果表明能很好地解决SVDD的上述缺陷。

由于算法求解二次规划问题的时间复杂性,DSHDD运行时占据了大量的存储空间并消耗大量的时间,进一步应借鉴SVM及SVDD方法研究DSHDD快速求解的问题。

猜你喜欢

边界决策分类
拓展阅读的边界
为可持续决策提供依据
分类算一算
意大利边界穿越之家
决策为什么失误了
分类讨论求坐标
论中立的帮助行为之可罚边界
数据分析中的分类讨论
教你一招:数的分类
“伪翻译”:“翻译”之边界行走者