不均衡数据分类器分类性能AUC与Accuracy的比较

2020-01-19赵存秀

唐山师范学院学报 2019年6期

关键词：区分度数据量分类器

赵存秀

赵存秀

（山西工商学院计算机信息工程学院，山西太原 030006）

针对不均衡数据，借助已有的评价指标一致性（consistent）和区分度（discriminating），比较Logistic和LDA学习算法的评价方法AUC和精确率，结果表明，AUC用于学习算法的估计比精度率好。

Logistic；LDA学习算法；不均衡；AUC；精确率

传统的统计机器学习技术在自然语言处理、图像识别、人机交互、商业预测、自动化物流等应用领域已经被广泛应用。其中很多自然语言处理中的问题如分词、信息检索、文档分类、语义角色标注、文字识别，问答系统等都可以看成分类问题[1]，所以分类学习算法是处理这类问题的关键。近几年，随着大数据时代的到来，数据具有维数比较大且类别分布不均衡的性质，因此对于传统的分类学习算法的性能评价指标[2]如查准率（精确率）、查全率（召回率）、正确率（准确率）、平衡点[3]、11点平均正确率[4]等不能很好地评价分类器的分类性能。AUC是ROC(ReceiverOperatingCharacteristics)曲线下的面积，可以将分类器输出概率估计充分利用起来，被广泛地应用于评价模型的性能[2]。

本文针对不平衡数据，研究分类器分类性能评价指标AUC与accuracy的优劣。

1 AUC精确率评价指标

Marina Sokolova和Guy Lapalme[5]针对分类模型中给出了很多评价指标。他们通过建立混淆矩阵，在混淆矩阵的基础上提出很多评价指标。表1给出了混淆矩阵度量的两类分类模型的性能，其中TP（True Positive）表示真正例，FP（False Positive）表示假正例，FN（False Negative）表示假反例，TN（True Negative）为真反例。

在此基础上，本文主要使用精确率（Accu- racy）和AUC（Area Under roc Curve）来考查分类模型的性能。AUC的计算使用R中程序包pROC。

表1 混淆矩阵

精确率（Accuracy）是指该分类器正确预测对的所有类别数与总的样本个数的比值。

2 一致性与区分度的度量[6]

则有

或者

3 实验

在模拟的不均衡的数据上，利用交叉验证的方法对LOGISTIC回归[7]和线性判别分析（Linear Discriminant Analysis-LDA）分类算法[8]进行比较。

该实验的数据产生方式为模拟数据样本

取

情况下模拟实验[10]。在样本=256中，使用正则化的3×2交叉验证的模型选择方法，与传统的2折交叉验证略有不同，对于3组2折交叉验证，将样本数据集随机分成4份，用其中任意2份作为训练集，其余2份作为测试集。

4 实验结果和分析

从表2可以看出在=1数据生成的均值为0.5和0的数据上，不满足大于0.5。从表3区分度比较结果可见，只有个别的不是0。

表2 一致性比较

注：表中R1代表着LDA的auc比LOG大且LDA的ACC比LOG的也大的数据量。R2是相反的。S1代表LDA的auc小于LOG[z]且LDA的ACC大于LOG的数据量，S2相反。

表3 区分度比较

注：表中P1代表着LDA的auc比LOG大且LDA的ACC等于LOG的数据量。Q1代表LDA的auc等于LOG的且LDA的ACC小于LOG的数据量。P2是LDA的AUC小于LOG的且LDA的ACC等于LOG的数据量。Q2代表LDA的ACC大于LOG的且LDA的AUC等于LOG的数据量。

5 结论

作为不均衡数据分类器分类性能评价指标，AUC优于精确率。

[1] 赵存秀.交叉验证中数据分布对分类性能的影响分析[D].太原:山西大学,2013:4-9.

[2] 赵存秀,王瑞波,李济洪.交叉验证中类别切分不均衡对分类性能的影响分析[J].太原师范学院学报(自然科学版),2013,12(1):53-58.

[3] 屠彩凤.一致稳定合作系统的全局稳定性[J].吉林大学学报(理学版),2007,45(6):923-926.

[4] 张存杰,董安祥.对T63L16所作月延伸预报准确率的评估[J].气象,1998,24(10):38-42.

[5] Marina Sokolova, Guy Lapalme, A systematic analysis of performance measures for classification tasks[J]. Information Processing and Management, 2009, 45(4): 427-437.

[6] Loosvelt L, Peters J, Skriver H, et al. Impact of Reducing Polarimetric SAR Input on the Uncertainty of Crop Classifications Based on the Random Forests Algorithm[J]. IEEE Transactions on Geoscience and Remote Sensing, 2012, 50(10): 4185-4200.

[7] Oommen T, Baise L G, Vogel R M. Sampling Bias and Class Imbalance in Maximum-likelihood Logistic Reg- ression[J]. Mathl Geosci, 2011, 43(1): 99-120.

[8] Nadeau C, Bengio Y. Inference for the Generalization Error[J]. Machine Learning, 2003, 52(3): 239-281.

[9] 家会臣,靳竹萱,李济洪.Logistic模型选择中三种交叉验证策略的比较[J].太原师范学院学报(自然科学版), 2012,11(1):87-90.

[10] Chawla N V, Japkowicz N, Kotcz A. Editorial: special issue on learning from imbalanced data sets[J]. ACM SIGKDD Explorations Newsletter, 2004, 6(1): 1-6.

Comparison of the Classification Performance AUC and Accuracy of Classifiers Based on Unbalanced Data

ZHAO Cun-xiu

(Department of Computing, Technology and Business College, Taiyuan 030006, China)

To solve the binary classification problem, accuracy is generally used to evaluate the classification performance of classifiers. In recent years, the area under the ROC (Receiver Operating Characteristics) curve, or simply AUC, has been used to evaluate the classifier classification performance. It avoids the supposed subjectivity in the threshold selection process and provides a single-number “summary” for the performance of the learning algorithms. It has been proved AUC a better measure than accuracy in balance data. In the paper, using consistent and discriminating proposed to comparing the AUC and accuracy of Logistic and LDA. Then we present the empirical estimation, and we get that the estimation of AUC for learning algorithm is better than the precision rate from the experiment.

Logistic; LDA; unbalanced; AUC; accuracy rate.

TP399

1009-9115(2019)06-0075-03

10.3969/j.issn.1009-9115.2019.06.019

2019-04-10

2019-08-27

赵存秀（1987-），女，山西寿阳人，硕士，讲师，研究方向为统计机器学习。

（责任编辑、校对：田敬军）