分类需求背后的真实用户想法—UC vs. Macro F1，辨析真正的分类评价标准

2018-06-17王悦林

科学与技术 2018年24期

摘要：在人工智能领域，分类任务占据了很大的比例，例如物体识别（计算机视觉）、信用卡欺诈（数值型预测）、情感分析（自然语言处理）等等。针对众多的分类需求，模型的评价标准只是简单的准确率（Accuracy）吗？ AUC和Macro F1，谁才是真正的分类评价标准呢？

对于业务用户来说，希望技术团队完成的是正确分类，然后要求准一点。那么什么是准一点呢？也许用户还没有意识到这个问题的复杂性，或者说没有意识到他们真正关心的是什么。

准一点就是准确度（Accuracy），也就是说用户给了我们数据，我们分好类把答卷交给用户，用户判卷子的结果。一般情况下这样的评估方式是合理的，但也有特殊的例子，例如真实的正负类比例是98比2，那么模型只要把所有的数据都判别为正类，准确率就是98%，非常高，但一个负类都挑不出来。

为了更方便描述问题，我们按下表把实际的正负类和判断的正负类分成四种情况，分别是TP、FP、FN、TN，那么准确率Accuracy就是（TP+TN）/ ALL。要提升准确率，就要降低左下角的FP（也就是误判，把不该判断为正类的误判为了正类）和右上角的FN（也就是漏判，把应该判断为正类的漏判为了负类）。下表也被称作混淆矩阵（Confusion matrix）。

那么用户实际关注的是什么呢？举两个例子。例如各大网站的商品推荐，建立一个模型的目的是尽量将正确的商品推荐给感兴趣的用户，如果推了一个产品用户没有兴趣，也不会有很大损失，这种情境下用户对于错误的推荐并不会很在意。这是一种情境。

而如果是欺诈、垃圾邮件、还款逾期判别的模型，对识别的用户和邮件会直接进行处理，被错判为欺诈的用户可能非常恼怒，被错判为垃圾邮件也许会直接影响用户工作。这种情况下宁可遗漏，也要减少误判。这是第二种情境。

这两种情境，用户关注点并不相同，情境一关注的是不要遗漏，可推荐可不推荐的都要给用户推荐过去。情境二关注的是误判，拿不准的宁可漏掉，也不要错误判定。使用技术语言，情境一关注的是查全率：Recall or TPR = TP/（TP+FN），情境二关注的是精确率：Precision = TP/（TP+FP）。那有没有平衡这两种评价标准的指标呢？有，就是F Measure，简化版本为F1。在多分类中，又细化为Micro F1和Macro F1。

到此天下太平，拿到需求只要跟用户确认好关注的是Recall，还是Precision就好。然而，新的捣乱分子出现了，那就是AUC：Area Under Curve。

AUC是反映ROC曲线下面的面积，面积越大，模型质量越好。而这个面积是由ROC曲线决定的。而组成ROC曲线的每一个点，是由TPR和FPR来决定。TPR和FPR，指的是TP的比率和FP的比率。TPR = TP/（TP+FN），其实就是Recall。而FPR是个新面孔，FPR=FP/（FP+TN）。如果全部分类正确，则TPR为1，FPR为0，ROC曲线的左上角就是坐标为0，1的点，此时AUC为1。

那么AUC和F1的区别是什么呢？AUC关注的是混淆矩阵里左右两边的关系，即放到正类答卷里的数据多，还是放到负类卷子里的数据多。

而F1关注的是正类被误判的多还是漏判的多：

那么AUC里为什么正类答卷和负类答卷的数据是变化的呢？因为AUC是在并不假设阈值是固定的前提下判断模型质量。这里的阈值是指，模型判断一行数据是正类还是负类时，是概率大于50%判断为正类？还是大于60%判断为正类？在这个阈值不固定的情况下，AUC仍可以判断模型质量，并且可以使用KS（Kolmogorov-Smirnov）来帮助查找最优阈值：KS=max（TPR-FPR）。可以说ROC曲线是由多个阈值形成的多个混淆矩阵的结果组合成的。而F1是指在阈值已经固定的前提下，判断模型质量。因而AUC更公正和合理一些。

总结一下，正确的做法是用AUC评价模型能力，选取好的模型之后根据实际需求确定阈值，再用Macro F1计算性能指标。

参考文献

[1]Alex Beutel，Jilin Chen，Zhe Zhao，and Ed H. Chi. 2017. Data Decisions and Theoretical Implications when Adversarially Learning Fair Representations. CoRR abs/1707.00075（2017）. http：//arxiv.org/abs/1707.00075

[2]Daniel Borkan，Lucas Dixon，John Li，Jeffrey Sorensen，Nithum Thain，and Lucy Vasserman. 2019. Limitations of Pinned AUC for Measuring Unintended Bias. CoRR abs/1903.02088，1903.02088v2（2019）. arXiv：1903.02088v2

[3]Tim Brennan，William Dieterich，and Beate Ehret. 2009. Evaluating the Predictive Validity of the Compas Risk and Needs Assessment System. Criminal Justice and Behavior 36，1（2009），21–40. https：//doi.org/10.1177/0093854808326545

[4]Joy Buolamwini and Timnit Gebru. 2018. Gender Shades：Intersectional Accuracy Disparities in Commercial Gender Classification. In Proceedings of the 1st Conference on Fairness，Accountability and Transparency（Proceedings of Machine Learning Research），Sorelle A. Friedler and Christo Wilson（Eds.），Vol. 81. PMLR，New York，NY，USA，77–91. http：//proceedings.mlr.press/v81/buolamwini18a.html

作者简介：王悦林，研究方向：人工智能。

（作者单位：聯想集团）