APP下载

基于包裹学习算法在异常点检测上的研究

2019-10-21何鎏一杨国为

关键词:支持向量机

何鎏一 杨国为

摘要:针对正常与异常样本分布不平衡的异常点检测问题,本文以小球大距离(small sphere large margin,SSLM)超球支持向量机为基础,提出一种高正确率识别的包裹学习算法。基本思想为建立正常样本的同类特征集合的紧密包裹集,在特征空间内构造一个半径最小的超球,使超球内尽可能地包含大多数的正常样本,并使超球边界与包裹集及异常样本间隔最大化,所构造的超球边界会近似与正常样本边界拟合,同时将该方法与支持向量机方法和超球支持向量方法进行实验对比,并在uci数据集中的医学诊断数据及USPS数字集上进行对比实验。实验结果表明,与同类经典算法相比,包裹学习算法在不同的异常检测数据上分别达到了最高准确率。该研究可应用于样本分布不均的异常行为检测中。

关键词:异常点检测; 支持向量机; 包裹学习

异常点检测问题又称一类分类问题(oneclass classification),用于解决异常点检测问题的方法有基于密度估计法[1]和基于神经网络法[2],而支持向量机(support vector machines,SVM)[3]不但在分類问题上被大量利用,而且在异常检测问题[4-7]上也得到了广泛应用,其思想为将所有特征向量映射到一个高维空间,在此空间建立一个最大间隔超平面,该超平面对应的原始空间曲面就是分类决策面。在分开两类特征向量(数据)的超平面两边,建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离最大化。在针对异常点检测问题时,SVM分类面会向样本数据少的一侧偏移,其分类效果表现不佳。D.M.J. Tax等人[8]通过改进SVM模型,提出支持向量数据描述(support vector data description,SVDD)的方法,解决异常点检测问题[9-11],但是SVDD在训练中仅使用一类样本,训练时会导致核参数选取困难,不能保证获得的描述边界一定非常紧凑,从而造成识别率偏低;B.Schlkopf等人[12]提出一类支持向量机(one class support vector machine,OCSVM),通过在特征空间求解一个最优超平面,实现正常样本和异常样本的最大分离;Wang J等人[13]提出分割超球模型(separating hypersphere,SH),其综合了SVM和SVDD的建模思想,构造一个超球将正负两类样本分割;Wen C等人[14]提出最大间隔最小体积的思想,构造两个同心超球,小超球包裹正常样本,大超球将异常样本排斥在外;Wu M等人[15]运用小球大间隔(small sphere large margin,SSLM)的思想,将包含正常样本的超球半径最小化,同时最大化其边界与异常样本点的距离。在实际应用方面,Zhao Y等人[17]将SVDD应用于冷水机组的故障检测;杨金鸿等人[18]针对支持向量数据描述的训练集中同时含有正常点和离群点的问题,为降低离群点对SVDD训练偶像的不利影响,提出了一种基于单簇核可能性C-均值的SVDD离群点检测算法;V.Mygdalis等人[19]提出一种半监督子类支持向量描述方法,通过引入两个附加项,实现了对SVDD的优化。基于此,本文提出同类特征集合的紧密包裹学习算法,构造出正常样本的同类特征集合的紧密包裹集,用小球大间隔(small sphere large margin,SSLM)模型,将包裹集样本与异常样本归为一类进行训练,使超球边界与正常样本更加拟合,从而实现有效的异常点检测效果。该研究为样本分布不均的异常行为检测提供了理论依据。

1 同类特征集合的紧密包裹集

4 结束语

本文首先指出了SVM分类器、超球SVDD等分类器在解决异常点检测问题上出现的弊端,提出了用于解决异常点检测问题的包裹学习算法。该算法包括紧密包裹集存在性证明及构造算法和包裹曲面的求解算法。实验证明,包裹学习算法求解的分类曲面能够较为贴合的描述原样本区域,通过uci数据库和USPS手写数字库中的数据进行对比实验,说明本文提出的分类器设计算法在异常点检测问题上具有较高的准确率。然而该分类设计算法仍不够完善,从理论上来说,包裹学习算法要求原样本空间为致密凸集,但在实际工作中,大部分训练样本并不能达到该要求;由于构造高维数据致密包裹集的计算复杂度较高,因此还有较大的优化空间。

参考文献:

[1] Roberts S, Tarassenko L. A Probabilistic resource allocating network for novelty detection[J]. Neural Computation, 1994, 6(2): 270-284.

[2] Towell G G. Local expert autoassociators for anomaly detection[C]∥Seventeenth International Conference on Machine Learning. San Francisco, USA: Morgan Kaufmann Publishers Inc, 2000.

[3] Vapnik N V. The nature of statistical learning theory[M]. NewYork: Springer, 1995.

[4] 吴锐, 陈静. 基于SVM的电信网络异常点检测技术的研究[J]. 赤峰学院学报: 自然科学版, 2017, 33(21): 46-47.

[5] 徐兵, 郭渊博, 叶子维, 等. 基于图分析和支持向量机的企业网异常用户检测[J]. 计算机应用, 2018, 38(2): 357-362.

[6] 陈志全, 杨骏, 乔树山. 基于单类支持向量机的异常声音检测[J]. 电子设计工程, 2016, 24(23): 19-22.

[7] 刘敬, 谷利泽, 钮心忻, 等. 基于单分类支持向量机和主动学习的网络异常检测研究[J]. 通信学报, 2015, 36(11): 136-146.

[8] Tax D M J, Duin R P W. Support vector data description[J]. Machine Learning, 2004, 54(1): 45-66.

[9] 马咏雪. 基于SVDD的模拟电路异常检测方法研究及应用[D]. 哈尔滨: 哈尔滨工业大学, 2016.

[10] 周胜明, 王小飞, 高峰, 等. 基于在线SVDD的航空发动机异常检测方法[J]. 计测技术, 2015, 35(5): 20-22, 56.

[11] 曾现灵, 张立燕, 胡荣华. 基于主成分建模的 SVDD 高光譜图像异常检测[J]. 智能系统学报, 2014, 9(3): 343-348.

[12] Bernhard S, Williamson R C, Smola A J, et al. Support vector method for novelty detection[C]∥Advances in Neural Information Processing Systems 12. Denver, Colorado, USA: DBLP, 1999: 582-588.

[13] Wang J G, Neskovic P, Cooper L N. Pattern classification via single spheres[M]. 8th International Conference on Discovery Science. Singapore: Springer, 2005.

[14] Wen C J, Zhan Y Z, Chen C J. Maximalmargin minimalvolume hypersphere support vector machine[J]. Control & Decision, 2010, 25(1): 79-83.

[15] Wu M, Ye J. A small sphere and large margin approach for novelty detection using training data with outliers[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2009, 31(11): 2088-2092.

[16] Chang C C, Lin C J. Training vsupport vector classifiers: theory and algorithms[J]. Neural Computation, 2001, 13(9): 2119-2147.

[17] Zhao Y, Wang S W, Xiao F. Pattern recognitionbased chillers fault detection method using support vector data description (SVDD)[J]. Applied Energy, 2013, 112: 1041-1048.

[18] 杨金鸿, 邓廷权. 一种基于单簇核PCM的SVDD离群点检测方法[J]. 电子学报, 2017, 45(4): 813-819.

[19] MygdalisV, Iosifidis A, Tefas A, et al. Corrigendum to “Semisupervised subclass support vector data description for image and video classification” [Neurocomputing, 278 (2018), 51-61][J]. Neurocomputing, 2018, 291: 237-241.

[20] Dua D, Graff C. UCI machine learning repository [M/OL]. Irvine, CA: University of California, School of Information and Computer Science, 2019.[http: ∥archive. ics. uci. edu/ml]

猜你喜欢

支持向量机
基于支持向量回归机的电能质量评估
基于智能优化算法选择特征的网络入侵检测
数据挖掘技术在电厂经济性分析系统中的应用Q
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
管理类研究生支持向量机预测决策实验教学研究