APP下载

不平衡统计数据分类
——基于最近邻降噪滤波器

2019-01-23

福建质量管理 2019年1期
关键词:分类器滤波器滤波

(广东财经大学 广东 广州 510320)

引言

随着大数据时代的到来,现实生活中充斥着各种各样结构化与非结构化的数据,如何有效的处理各种不同类型的数据显得极为关键。数据分类作为数据挖掘体系中极为重要的一部分,虽然传统的分类算法对于各类别分布较为均匀的数据能表现出较好的分类性能,但对于类别分布极不均匀的数据,其中传统分类算法以总体精度作为优化目标,很容易造成大量的少数类样本被错误分类的现象。例如在金融信用违约用户监测的过程中,样本中未违约用户的数量远远高于违约用户,传统分类算法极易倾向于将所有样本均判定为多数类,由此模型可以得到较高的总体分类精度。对于异常检测等问题,无法将少数类样本准确识别出来,模型具有再高的总体分类精度都没有实际应用价值。这类数据广泛的存在于现实应用领域,包括癌症监测、金融欺诈监测、网络入侵监测等。在癌症监测问题上,如果将癌症病人错误分类,错过了医治的最佳时间,将会付出更大的代价。因此不平衡数据分类的研究具有很强的社会意义,可以广泛应用于社会中的各个领域并产生价值。

目前应用比较成熟的分类算法有决策树、K近邻、朴素贝叶斯分类器、SVM、神经网络以及集成学习等,传统算法都是基于两个前提假设:1.样本数据内各个类的分布情况大致均匀。2.各个类别被错误分类的代价基本相同。对于分类模型的性能评价指标以总体分类准确率作为核心指标,由此会对不平衡数据会产生较高的少数类样本错分率。国内外学者对于不平衡数据分类总要从数据预处理、代价敏感参数、单类别学习与集成学习四个方面展开。本文通过构建不平衡数据框架的分类器来处理UCI中近5个不平衡数据集,通过与传统分类算法进行比较验证有效性。

一、最近邻降噪滤波不平衡数据处理框架

最近邻降噪滤波不平衡数据处理框架包括对于多数类样本进行欠采样与对于少数类样本进行降噪滤波处理,然后将处理后的数据进行分类并通过交叉验证计算分类的性能。传统的欠采样往往会全部使用少数类样本来进行模型的训练,但少数类样本中存在一些噪声会降低分类器的性能。通过构建KNN降噪滤波过滤器来剔除噪声以提高分类器的整体性能。

(一)少数类样本降噪滤波处理。对于不平衡数据最基本的处理就是将多数类样本通过欠采样,由此使数据中各类样本的分布基本均匀。但往往忽视了少数类样本中存在的噪声,有效确认少数类样本中的噪声并剔除将提高对于不平衡数据的分类性能。基本思路为判断某个少数类样本附近的K个近邻样本中少数类样本的占比将此少数类样本划分为有效少数类样本、相对有效少数类样本、噪声少数类样本三类。其中有效少数类样本的K个近邻全是少数类样本而噪声少数类样本的K个近邻全是多数类样本。

算法步骤:输入不平衡样本数据,少数类样本记为Sm,多数类样本记为SM,其中选择的近邻数记为K。对于i=1∶|Sm|,计算少数类Sm中各个样本的K个近邻以及其中含有多数类样本的个数。将其中K个近邻全是多数类的样本进行标记,然后剔除。输出通过降噪滤波过后的样本数据。

二、多数类欠采样方法

经典的欠采样方法包括Undersampling、RUSBoost、UnderBagging、EasyEnsemble等。但欠采样存在一个缺点是随机欠采样过程中容易将有价值的样本点给遗漏,使得样本失真,无法最大程度还原样本原始特征。

Undersampling通过随机从多数类中随机抽取样本从而减少多数类中的样本数量来实现样本内各类数据均衡。EasyEnsemble通过不断从多数类中抽取样本,使得每个模型的多数类和少数类样本数量基本均衡,然后将多个模型集成起来。RUSBoost通过Adaboost作为基础分类器对样本进行集成学习进行样本欠采样。UnderBagging通过bagging的方式有放回地采样进行,来实现样本的欠采样。

三、实验与结果分析

为了证明降噪滤波器的有效性,选择了5组UCI标准数据集进行测试,通过十折交叉验证计算出AUC值。AUC指标是Roc曲线下面所包含的面积,AUC指标越大表示分类的性能越好,通常AUC等于1为完美分类器,AUC位于0.5至1之间优于随机分类器,AUC位于0至0.5之间差于随机分类器。

数据集UBUB-KFRUSBRUSB-KFUBUB-KFEEEE-KFPrima0.7570.7830.7450.760.7230.7330.8120.813Haberman0.6190.6450.660.660.6010.6250.6640.689Cmc0.6630.690.680.7010.6330.6510.70.735Yeast0.9540.9640.950.9630.9200.9270.9620.978Zernike0.8710.8740.870.8340.8360.8510.9010.989

四、实验结论

从各个数据集的AUC值可以发现,KF最近邻降噪滤波器的效果显著,提高的传统分类算法的性能,其中结合了EasyEnsemble的的分类器性能在各个数据中都表现优异。对于不平衡数据,多数类通过EasyEnsemble方法欠采样并且对于少数类样本通过最近邻降噪滤波器来消除噪声可以显著提高分类器的性能。

猜你喜欢

分类器滤波器滤波
从滤波器理解卷积
开关电源EMI滤波器的应用方法探讨
基于实例的强分类器快速集成方法
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
基于Canny振荡抑制准则的改进匹配滤波器
基于TMS320C6678的SAR方位向预滤波器的并行实现
基于自适应Kalman滤波的改进PSO算法
RTS平滑滤波在事后姿态确定中的应用
基于线性正则变换的 LMS 自适应滤波