APP下载

集成学习在消费金融审计中的应用
——以随机森林检测信用卡欺诈为例

2022-08-25石向荣教授郭鹏赛郑祺叶一飞

商业会计 2022年15期
关键词:分类器准确率欺诈

石向荣(教授) 郭鹏赛 郑祺 叶一飞

(1浙江财经大学信息管理与人工智能学院 2浙江财经大学会计学院 浙江杭州 310018)

一、引言

近年来,随着居民个人收入水平的提升、家庭财富的不断积累,我国经济向消费主导型转变。根据中投产业研究院发布的《2020—2024年中国消费金融行业深度调研及投资前景预测报告》,2015到2020年,我国消费金融市场规模从19万亿元增长到45万亿元,消费金融业务量增速较快。截至2020年,银保监会公布的全国持有消费金融牌照的公司达30家,消费金融的广阔前景使这一市场成为资本的热门赛道。但是高速发展的消费金融也引发了一些问题,如现金贷的授信过度、交易平台的欺诈行为等,本文关注的信用卡欺诈也是情形之一。

2016—2020年,我国信用卡及借贷合一卡人均持卡量呈现持续增长趋势,五年间从人均0.39张增至0.57张;信用卡逾期半年未偿总额增长幅度在6.4%—18.9%之间(见表1),这也和我国过去五年消费金融市场的增长情况相一致。

表1 2016—2020年人均持卡量、逾期半年未偿总额

2020年12月,银保监会发布《消费金融公司监管评级管理办法(试行)的通知》,这一管理办法的施行体现出监管部门对促进消费金融行业合法合规经营的决心。2021年9月,中国银行业协会发布《中国银行卡产业发展蓝皮书(2021)》,提出要继续全面提升风险防控能力,加强金融科技与银行风控的结合,优化行业自律机制,有效防范和打击银行卡欺诈、反催收联盟等,完善风险管理体系。由于监管部门及社会公众和消费金融机构之间存在信息不对称,需要审计等社会力量作为中介,打破信息壁垒,通过技术手段及早介入并揭示问题,防范风险进一步放大。为此,本文提出基于集成学习算法的审计思路,也是对科技强审工作要求的具体实践。

二、文献综述

尹振涛、程雪军(2019)针对我国场景消费金融快速发展的背景,对我国场景消费金融的风险防控相关问题进行了研究,认为当前我国场景消费金融市场的主要风险为用户信用风险、欺诈与套现风险、法律滞后纠纷频发风险、资金流动性风险、金融科技风险和内部管理风险等。刘艳畅(2019)认为,一些借款人恶意逃避债务形成的重大错报风险,是网贷平台审计风险的重要来源之一,并对网络信贷平台审计提出了新的方法和思路,以降低审计风险。

对于信用卡欺诈检测模型的研究,国内外学者主要集中在机器学习的模型训练。国内学者徐永华(2011)研究发现,采用支持向量机的信用卡欺诈检测精度达到95%以上;陈启伟、王伟等(2018)基于Ext-GBDT集成的类别不平衡信用评分模型,使用欠采样的方法对数据集进行切割,结果表明该模型的性能较好;王红雨(2019)研究了基于机器学习的信用卡欺诈检测方案,对比了不同学习模型的检测效果,提出了基于训练集划分和聚类的集成学习框架、主动学习和半监督学习相结合的欺诈检测方案等;郭建山等(2020)研究了基于随机森林(Random Forest,RF)的信用卡违约预测,提出了SSD算法改进的随机森林检测模型;琚春华等(2021)提出了基于kNN-Smote-LSTM的消费金融风险检测模型,对判别分类器、生成器进行了融合,认为该模型对于降低噪音、提升分类性能、降低误分类呈现了更好的性能。

国外学者也对信用卡欺诈检测展开了研究,Bhatnagar Vishal等(2021)设计了一个深度学习欺诈检测框架,具体是采用基于神经网络的序列分类技术,同时引入阈值以度量交易(与正常交易之间的)偏离,以此对信用卡交易欺诈进行检测。Angela Makolo等(2021)提出了一种利用机器学习进行金融欺诈检测的直观方案,具体是建立基于遗传算法和多元正态分布的异常检测模型,识别信用卡上的欺诈交易。Kalhotra Satish Kumar等(2022)重点研究了C4.5、CART、J48、Naïve Bayes、EM、Apriori、SVM等多种数据挖掘算法,并对结果的准确性和精度进行了分析对比。

从以上文献可以看出,诸多学者对信用卡欺诈检测模型进行了较为充分的研究,但所完成的工作仍有改进提升空间:一是单一分类器存在拟合不足或过度拟合的状况;二是对模型评估指标不够全面,对模型的准确率(accuracy,Acc)、召回率(recall)、查准率(precision)、AUC值、F1值缺少综合分析。本文的贡献在于:(1)提出并验证了综合评估指标下检测性能优越的分类模型。本文结合几种性能较好的基分类器进行对比分析,得出随机森林、CatBoost的分类性能较好并且比较稳定,在此基础上采用基于马氏距离的SMOTE改进算法,即过采样方案以应对信用卡数据集两类样本的不平衡问题。应用多个指标对所提出的复合模型进行评估,结论是Maha-Smote-RF有着最为优越的检测性能。(2)提出将检测模型应用于信用卡欺诈审计的具体思路。本文在验证Maha-Smote-RF模型性能的基础上,进一步提出可行的审计思路,可帮助审计师精准、高效地锁定欺诈交易行为和交易主体。(3)丰富了消费金融行业的审计方法。消费金融行业在互联网的冲击下出现新的业态,传统的审计方法面对“科技+金融”的业务模式难以发现隐藏在数据背后的舞弊情形,必须采用机器学习等新工具,才能让审计插上信息化的翅膀,本文为基于数据的消费金融审计工作提供了有益借鉴。

三、模型原理介绍

(一)随机森林模型原理

随机森林模型于1995年由贝尔实验室的Tin Kam Ho提出,它的基本单元是决策树。由成百上千棵数构成了所谓森林,这种构成方式体现了集成学习的思想。通过组合多个弱分类器,并对弱分类器的结果投票表决,从而构成整体的强分类器。随机森林算法的优越性能,主要归功于“随机”和“森林”,前者使它具有抗过拟合能力,后者使它更加精准,模型工作原理见图1。

图1 随机森林工作原理

(二)随机森林算法流程

1.构造n组随机样本。从原始数据中,随机抽取n次样本,为简洁起见,每次抽取的样本数目均相同,设为m。

2.对每组样本进行特征抽样。假设每个样本数据都有K个特征,从所有特征中随机地选取k(k≤K)个,结合步骤1,形成样本1、样本2、…、样本n,它们的大小均为m×k。

3.选择最佳分割属性作为节点建立n棵CART决策树,这也是所谓的森林。

4.对以上n棵决策树的预测结果进行投票,确定样本的最后预测类别。对于最常见的二类分类问题,须注意设置n为奇数,以保障最终投票不产生平局。

(三)SMOTE方法

由于在现实世界中,欺诈行为发生的概率总是小的,大量的样本所对应的是正常交易,因此基于真实数据的原始数据集中,“正常”和“欺诈”两类样本数目相差悬殊,这就是所谓的样本不平衡问题。样本不平衡会导致模型偏差较大,预测精度下降。解决样本不平衡问题的思路有二:一是对正常类样本进行下采样,以缩小两者差异。但这样做的缺点明显,就是丢弃了大量有价值的正常类样本数据。二是对欺诈类数据进行上采样,即:在现有数据点的“周边”构造新的数据,以使得两类样本的数目相当或接近相当。这个思路就是SMOTE(Synthetic Minority Over-Sampling Technique),SMOTE方法解决的是不平衡样本中的少数类样本数量过少的问题,具体做法是:

找出每个样本的k个邻居(邻居通过距离来度量),然后分别在原样本和个邻居之间进行随机线性插值,这样保证了所构造的新样本处于原样本的周边,具体算法如下:

并且k是一个可灵活调节的参数,一轮操作之后,样本数量变为原数量的k倍,若不平衡问题依然存在,可继续重复上述过程。可见,随着不断重复,新样本的总数目将呈几何式增长。

(四)结合马氏距离的SMOTE方法:Maha-Smote

在上文提及的SMOTE方法中,须对距离进行度量,根据距离找出k个邻居,可见距离的定义是一个重要问题。在众多距离的度量方式中,最常见的是欧式距离,但对本研究所面临的问题,使用欧式距离并不合适,因为它无差别地对待每一个特征,而不考虑特征之间量纲的差异性。因此,由欧式距离方案所得的最近邻点,在很大程度上由量纲小而数值大的特征所决定,这当然是一种不合理的、需要解决的问题。为此,本文提出马氏距离(Mahalanobis Distance)方案。对数据集X中的两点x、x,马氏距离定义如下:

式中,∑为X的协方差矩阵,而Q是∑的特征向量组成的矩阵,以上均可通过主流数据分析模块的线性代数函数计算求得。

综上,通过马氏距离方案定义距离,依据所定义距离实施SMOTE上采样,构造新的建模数据,在更均衡的建模数据下实施随机森林集成学习,最终可得到理想的分类模型和预测结果。

四、案例分析

本文对真实的信用卡欺诈数据集进行数据预处理、模型训练以及实验分析对比,采用的数据集由比利时布鲁塞尔ULB(Université Libre de Bruxelles)的研究小组Worldline and the Machine Learning Group搜集整理,可从kaggle官网下载。数据集包含由欧洲持卡人于2013年9月某两天使用信用卡交易所产生的记录,共284 807笔,其中492笔被认定为欺诈,欺诈样本占总交易数的0.172%。可见,欺诈样本占比严重偏少,属于典型的样本不均衡情形。该数据集共有31列,其中Time(时间)和Amount(金额)是原始数据,最后一列为类别标签,其余28列为从大量特征经由PCA变换得到的28维新特征,记为V1、V2、…、V28。经PCA处理后,既降低了样本复杂度,又起到了保密原始数据、对原始数据进行脱敏的作用。

(一)数据预处理

该数据集是经过清洗的数据,已经进行了降维处理,故而28维特征的准确含义无法定性描述。可确定的是28维特征相互正交,特征之间不存在线性相关。Time列表示每个事务与数据集中第一个事务之间所相差的秒数,在本模型中未使用,故可作剔除处理。

(二)模型训练

我们同时训练了逻辑回归(Logistic Regression)、支持向量机(Supprot Vector Machine,SVM)、CatBoost、梯度提升决策树(Gradient Boosting Decision Tree,GBDT)以及随机森林(Random Forest,RF)五个业界应用广泛的基分类器。按照主流的模型数据相对多、测试数据相对少的配置,从284 807条总体中随机抽取80%作为建模数据,用于模型训练,其余20%作为测试数据,用于模型评价。

对每组建模数据进行训练,设置决策树数目n为15,特征数目k为28,即k=K,将测试数据代入训练模型,得到预测值,根据预测值和真实值的对比,计算出多个评价指标,分别为准确率、召回率、查准率、AUC值、F1值。设真实值为Y,预测值为Y,定义混淆矩阵为:

表2 混淆矩阵表

基于TP、FN、FP、TN,定义4个评价指标为:

AUC(Area Under Curve)值被定义为ROC曲线下的面积,ROC曲线全称为受试者工作特征曲线,它是以真阳性率(敏感性)为纵坐标、假阳性率(1-特异性)为横坐标绘制的曲线。根据以上定义,可编程或调用主流数据分析模块的函数求得AUC值,该值介于0、1之间,值越大分类器的性能越好。

重复以上步骤30次,以得到对评价指标更全面和准确的观察。

(三)实验结果对比分析

通过循环实验,发现所选取模型都有着较高的准确率,其中四个超过99.9%,相比而言,RF和CatBoost的准确率更高,达99.95%。需要说明的是,准确率每万分之一的差距,就代表每一万笔交易中有一个欺诈检测判断错误。根据中国人民银行《2021年支付体系运行总体情况》的报告,2021年全国银行共办理非现金支付业务4 395.06亿笔,若每提升万分之一的准确率,将至少减少四千万个检测错误发生。可见准确率的微小提高,放到全社会来看,都会产生较重大的影响。实验所得具体数据见下页表3。

表3 模型分类预测对比分析

在此基础上对比召回率、查准率、F1值,也都处于较高的水平,但RF和CatBoost模型略有领先,从AUC对比来看,RF和CatBoost相对于LR、SVM、GBDT有着明显的优势。因此,选择RF和CatBoost作为基础分类器进行模型提升。

五、模型提升及结果分析

基于上文基分类器的实验结果,将分类效果表现优异的CatBoost以及RF作进一步提升,引入结合马氏距离的SMOTE过采样方法,设置近邻邻居数目k为1,增加欺诈数据的样本量至8万条,增加之后总样本量为324 298条,此时欺诈样本占总样本的21.96%,样本均衡性显著改善。两个模型使用相同的方案进行提升,并且同样随机抽取80%和20%作为训练数据、测试数据,进行30次的循环实验,并求取平均值,使所得实验结果具有充分的可比性。两个提升后的模型同原模型各项指标的对比见表4。

表4 提升模型、基分类器分类效果比较

可见,模型提升后,Maha-Smote-RF相较于基分类器在准确率方面提升了万分之三,召回率相应下降,但从重要性的角度来说,准确率的提升更为重要。此外,AUC值提升了0.1108,其他方面也有小幅提升,有着较为理想的综合改进效果。Maha-Smote-CatBoost在AUC值上有提升,但其他方面尤其是准确率上并没有表现得更好。四个模型的单个指标30次循环变化情况见图2—图6。

图2 准确率循环变化图

图3 召回率循环变化图

图4 查准率循环变化图

图5 AUC值循环变化图

图6 F1值循环变化图

实验表明,Maha-Smote-RF模型在信用卡欺诈检测问题上,预测准确率达99.8%,在所有模型中最高,F1值高于其他模型,AUC值一直接近于1,表明分类效果高度稳定,查准率和召回率两个指标也都处于模型中的前两位,综合误分类水平最低。综上,Maha-Smote-RF模型在五个指标上综合表现优于Maha-Smote-CatBoost、RF、CatBoost三个模型,欺诈检测性能最为优越。

六、Maha-Smote-RF模型应用于审计实务

(一)新形势下传统审计工作面临的困境

我国信用卡业务规模激增,用卡环境日趋复杂。在卡片申请阶段,银行和客户之间信息不对称,加之部分银行为了抢占市场,增加发卡量,疏忽了对风险的管理和控制;在用卡阶段,移动支付的普及应用造成支付环节的安全性下降,信用卡欺诈手段日益复杂多样。现阶段我国商业银行信用卡审计工作方法主要是书面资料审阅、客观实物证实以及沟通分析调查方法等。新的经济形势下,传统的审计工作面临着以下三方面的困境。

1.审计抽样方法效度低。商业银行有大量的信用卡用户以及相应的交易记录,依靠现有的审计方法,加之人力资源和时间资源的限制,只能进行统计抽样和经验抽样审计,即使是各个部门相互配合,也难以做到对信用卡客户以及交易的全面精准把握,容易遗漏欺诈风险点。

2.审计分析方法滞后。商业银行现有的信用卡审计分析系统主要是建立在信贷审计需求之上,然而信用卡业务和信贷业务在交易笔数、交易方式、审核授信以及业务总量等主要风险点有较大差距,再加上信用卡营销和发卡环节中便携式发卡机、网络虚拟卡、营销APP等新技术层出不穷,信用卡审计分析系统滞后于业务发展。因此,现有的信用卡审计分析系统无法满足信用卡业务日益复杂的审计要求。

3.信息科技审计人才短缺。信息科技审计要求相关的专业人员了解掌握两种语言,一种是信息语言,一种是审计语言,将审计需求转化成可以实现的技术手段,通过模型工具获取审计所需要的相关数据,甚至利用技术打破原有的审计思维模式,提供更加有效的审计证据。然而目前,无论是内部审计部门还是会计师事务所,这样的复合型人才都十分稀缺,并且短期内难以培养成熟的专业人员。

综上,当前我国信用卡业务审计方法不够有效,风险管控机制不够成熟,审计效果不够理想。在大数据背景下,审计部门如何利用信用卡海量的数据资源,将大数据和信息化审计手段有效结合,从而提升信用卡业务审计的质量,已成为审计部门面临的重要问题。

(二)信用卡欺诈审计工作思路

信用卡欺诈可分为申请欺诈、交易欺诈和用途欺诈三种类型。本文结合当前信用卡业务审计工作困境,提出可信赖的高性能信用风险和异常交易分类模型,即Maha-Smote-RF欺诈检测模型,其应用于信用卡欺诈审计思路如下:第一步,构建数据库。金融机构对信用卡申请、交易等所产生的历史数据,以及已发现欺诈的客户进行记录,实时存储,形成数据库,将这部分数据作为模型的原始数据。第二步,预处理训练数据。数据库中包含的原始数据可能是多源、异构、高维度的,无法直接用于模型训练,必须首先对数据进行清洗、整理、去重、并采用诸如本文欧洲持卡人数据集中的PCA降维处理方法,最终得到与上列案例类似的规范输入数据。第三步,训练模型。对输入数据采用与本文案例类似方法进行Maha-Smote-RF模型训练,构造集成学习强分类器。第四步,检测目标交易。用训练后的Maha-Smote-RF模型对目标交易进行分类识别,获取预测结果。对客户信用卡申请、交易的状况做出判断,标定异常交易和异常客户,并以此作为审计疑点,提交相关部门进一步核实查证。

七、结语

本文以信用卡欺诈检测为例,基于真实的信用卡欺诈数据集,通过对不平衡分类、机器学习、集成学习技术等方面的研究,提出了融合基础分类器、数据生成器的Maha-Smote-RF欺诈检测模型,该模型与其他信用卡欺诈检测方法相比,可以更好地克服不平衡样本误分类的缺陷。从实验结果看,模型准确率达到99.98%,AUC值达到0.9998,查准率达到99.99%,各方面表现优越。

在实验的基础上,结合当前审计工作的难点,本文提出检测模型在信用卡欺诈审计实务中的应用思路,以提升金融机构内部审计部门、会计师事务所等识别信用卡欺诈行为的效率和审计工作的效果,可有效防范金融风险放大。本文是集成学习技术在消费金融审计领域的探索,为大数据审计实务拓宽了思路,为科技强审开辟了可行路径。

猜你喜欢

分类器准确率欺诈
分类器集成综述
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
学贯中西(6):阐述ML分类器的工作流程
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
欧洲网络犯罪:犯罪类型及比例
基于AdaBoost算法的在线连续极限学习机集成算法
意外、健康保险欺诈概率识别