APP下载

网贷平台数据的随机森林预测模型实证分析

2019-02-09杨晓伟刘倩倩

宜宾学院学报 2019年12期
关键词:借款人借款借贷

杨晓伟,刘倩倩,余 芳

(巢湖学院数学与统计学院,安徽巢湖238000)

关于网贷平台起源的主流看法有两种:一种认为其起源于北美的华人社会,是属于个人信贷的一种;另一种认为是受了“乡村银行”影响而形成的[1].世界上第一家网络借款平台ZOPA 于2005 年在英国成立,2006 年Prosper 在美国成立. 由于受到国外发展模式的影响,据不完全统计,国内网络借贷平台到2016年底共有2 448家.随着科学文明的进步,原有的金融体制已经不能够满足当今社会的发展,一种新的借贷方式应运而生,即基于互联网的一种创新型直接借贷模型,又称P2P 网络借贷. Lin 认为P2P 网络借贷的主体主要是在个体之间,相比于传统的借贷方式具有借贷风险分散的特点[2].P2P网络借贷规模可以涵盖到极大部分传统金融行业不能涵盖的人员,例如中低收入者、个体工商户、学生、初始创业的企业家等,所以有利于缓解中小企业“融资难”的问题[3]. 互联网的特性使得借款人可以在贷款平台上发布与自己相关的借款需求信息,贷款人也可以对这些信息进行分析,进而更好地对借款人进行鉴别.陈东宇研究信任和风险这两个因素对贷款交易意愿的影响,结果表明这两个因素对借款意愿都有影响,不过信任的影响要更显著一些[4]. 陈建中的研究表明,获得借款成功的概率与婚姻状态、信用等级、年龄、学历、住房情况密切相关[5]. 李悦雷通过研究,分析出对贷款成功率有重要影响的因素为借款人的基本特征、借款项目的基本特征和社会资本[6]. 廖理经过研究发现,借款者的贷款成本的高低与信用评级挂钩[7].Pope经过研究表明,在其余条件类似的情况下,白种人借款的成功率要高于其他人种[8]. 周玉琴等人研究发现,女性由于比男性保守的天性,因而更趋向于选择借款利率较高,风险较小的借款者[9].Puro在以往研究基础上,开发出了一种能够预测借款者是否可以按时还款以及按时还款概率的工具[10].在P2P借贷公司平台上,交易双方即投资人和借款人的交易进行过程是自行交易,平台存在的最主要的目的就是为双方提供必要的信息.而平台本身并不参与此借贷关系的发生上,因此不会成为双方的利益相关点,这样就可以保证一定的独立性与公平性. P2P 的特点是广泛参与性、准入门槛低、便捷高效性.

我国运用P2P 平台进行借贷的人多为“低信用用户”群体.同样,平台上很大一部分投资者也缺乏较为优秀的风险识别能力和风险承受能力. 因此,如何解决这一问题以提高平台借款的成功率、各变量影响程度,这些问题已成为解决P2P 平台发展问题的当务之急.故而本文将对此进行一定的深入分析. 由于传统的分析方法具有一定的局限性,不能够对各影响因素进行有效的分析和研究.因此本文采用一种新的分析方法——随机森林.随机森林算法可以通过R软件的编程来实现建模.随机森林是2001 年由Breiinan 所研究提出的理论,其在本质上是一种以机器学习理论为基础的组合分类算法.而这个算法的优点在于能简便、高效率地处理大样本及多维度的数据,其拥有极强的抗干扰能力且能够估计哪些特征变量更为重要.近几年我国更是将随机森林算法应用到了医学、农业、金融等各个领域.在医学方面,对于基因筛选可以利用随机森林进行分析研究[11];在农业方面,随机森林模型可以用来模拟分析山体滑坡的适应性[12];在金融方面,对于客户分类管理的研究随机森林算法要比神经网络构建的模型误差更小[13]. 随机森林的好处就是在提高样本预测精度的基础上,并没有过多的增加计算复杂度. 即使原始数据存在缺失或原始数据结构不平衡,采用随机森林算法,其稳健性实验也能通过,而且预测精度也不会因为自变量高达数千个就受到影响,故而,随机森林的方法作为机器学习中一种优良算法被广泛应用于各个领域.

1 随机森林理论

1.1 Bootstrap方法概述

Bootstrap方法的基本步骤如下:

第一步:抽取一定数量的样本,从含有N个样本的原始数据中,以有放回、重复抽样地进行;

第二步:提取每个样本的概率是P=1-(1-1/N),对产生的新样本计算其统计量T,重复以上步骤N次(一般情况下选取M大于1 000次);

第三步:计算出M个样本中对应的统计量T;

第四步:先计算M 个T 的样本方差,再估计总体统计量的方差,并进行区间估计.

1.2 随机森林算法原理

随机森林实质是一种类似于将多棵树进行分类的机器算法[14],其根本思路是首先对原始样本数据集进行Bootstrap 重复抽样,然后利用其中多次采集的样本分别建立其对应的分类器,生成各种分类结果.最后,利用这些结果对待定分类项进行投票,确定其分类结果.其工作流程如图1所示.

图1 随机森林的工作流程

1.3 随机森林变量重要性评分

随机森林算法能够在处理与分析数据的同时给出变量重要性评分(VIM). 现假设有变量X1,X2,X3,…,XN,需要计算N个VIM得分统计量.常规的VIM计算方法有两种,即利用Gini指数和袋外数据(OOB)错误率进行计算得出,分别用VIM(Gini)j和VIM(OOB)j表示变量Xj得分统计量.

1.3.1 Gini指数

Gini指数计算方法如下:

其中:fi为第i类的概率值;IGt( f )、IGr( f )表示两个新节点的Gini值;n为随机森林分类树的数量.

1.3.2 OOB错误率

为了构建训练集,需要先利用Bootstrap 方法从随机森林的每棵树中提取样本. 同时,充分计算口袋数据,预测其错误率.然后随机改变参数Xj,为观察者再次构建决策树提供数据支持,计算出新的OOB预测错误率.最后,两个OOB错误率做差并进行标准化处理得出排列变量Xj的重要性:

1.3.3 随机森林法优点

①可以处理高纬度数据及其输出变量的重要程度;②可以用来降低数据的维度,使模型更有效率,从而达到进一步提高模型预测精度的目的;③可以平衡数据,且当数据出现缺失情况时,随机森林算法也不会受影响,仍然会有很高的预测精度.

2 模型构建与实证分析

2.1 评估网贷成功率的模型及标准

2.1.1 Logistic回归模型

Logistic 回归模型具有使用稳定、运用广泛的特点. 其中运用最多的就是二值型Logistic,即因变量Y的值只有两个类别,例如:男或者女,晋级或淘汰.

Logistic模型具体形式为:

其中,Pi为借款成功的概率,βn为待估参数,Xi为自变量,εi为随机误差项.

2.1.2 随机森林算法评估模型

为了解决传统统计假设与现实数据不吻合的问题,机器方法和数据挖掘做出了很大贡献,被广泛应用于不同领域的预测与分析,并取得了良好的效果.为更好地对P2P网络借贷成功率进行评估,本文将采用机器学习中随机森林法进行建模与实证分析.

2.1.3 各个模型评价标准

为了评价出每个模型效果的好坏,本文将选取三个指标作为评价的标准,分别为特异性指标、灵敏性指标、准确度指标. 准确度是指正确分类占总样本的百分比,其模型效果的好坏与其所占比例的大小成正相关.灵敏度是指所有正类被正确划分的比率,其数值越大说明分类方法对正类的识别能力越强. 特异性是指所有负类被正确划分的比率,特异性越高说明分类方法对负类的识别能力越强.这三个指标的数值大小也与其模型效果的好坏成正相关.三个指标的计算如下:

其中TP为被正确划分为贷款成功的个数,TN为被正确划分为贷款失败的数目,FP为错误划分贷款成功的个数,FN为错误划分贷款失败的数目.

接着,在混淆矩阵中给出正类和反类,正类即为中关注的那一类数据,也就是贷款成功的样本,其他的则称为反类,具体分类如表1所示.

表1 混淆矩阵

2.2 变量描述和模型构建

2.2.1 变量的选择

通过查阅文献,将借款人的借贷喜好及基本特征等与网络借贷的成功率联系起来.

借款人的基本特征:借款人性别、年龄、婚姻状况等. 此外,多数的研究显示借款人的基本特征与借款行为之间存在着极高的线性相关性.

贷款人的历史信息:借款人严重逾期的笔数、历史借贷成功率等.

贷款的基本特征:贷款用途、贷款金额、贷款利率等.

认证信息包括:工作认证、收入认证等.

2.2.2 数据来源与变量说明

以“人人贷”2016 年第一季度数据(https://www.renrendai.com/)作为研究样本,贷款次数共计56 615 次,失败46 063 次,成功10 552 次. 表2 为2016年部分P2P网络借贷原始数据.

从原始数据中提取33个解释变量,每个变量的信息如表3所示.

2.2.3 数据预处理

在建模之前,对样本进行检测可知,缺失值为29 261 个. 去掉这些缺失值后剩下的有效样本是27 353. 其中9 522 人借款成功,17 831 人借款失败.

由表4 可以看出,借款成功率与缺失变量个数成反比. 当缺失变量为0 的时候,总样本为27 353 个,其中成功的样本为9 252 个,失败样本为17 831 个;当缺失变量个数为1 时,总样本为9 263 个,其中成功样本为797 个,失败样本为8 466 个;当缺失变量个数为2 时,总样本为4 229 个,其中成功样本为158个,失败样本为4 071个;当缺失变量个数为3时,总样本为969 个,其中成功样本为73 个,失败样本为14 799 个;而在3 以后,就会变的越来越低. 这时在总样本为14 801 个中成功样本只有2 个,失败样本却达到了14 799个.

表2 2016年部分P2P平台网络借款数据

表3 变量信息

把样本数据集进行分类,具体步骤如下:

(1)为了对最后的预测集进行外推,将在所有的有效样本中任意选取其20%的样本数据进行测试.

(2)用其余的80%的样本进行平衡抽样,并应用Smote 算法,将训练集之外的两个数据集中的样本按照借款成功与借款失败1∶3的比例进行平衡.

表4 样本中缺失变量个数统计表

(3)在平衡后的样本中,将训练集和测试集按照2∶1的比例进行分配.

2.2.4 特征描述

为了获得不同类型借款者的贷款成功率,将借款人的信用等级、性别、年龄分别与借款成功率进行了交叉分析,计算结果如图2所示.

图2 不同性别、年龄、信用等级与贷款成功率的交叉分析结果

从图2 中的不同性别贷款成功率,可以看出男性的成功率为3.85%,而女性的成功率为3.92%,由此可知,网贷的成功率与其借贷人的性别并无明显关系.不同年龄中年龄小于30岁的成功率为3.20%;年龄30-40岁的成功率在5.35%;年龄在40-50岁的成功率为4.13%;而大于50 岁的成功率为3.17%. 故分析出借款成功率在30-40岁和40-50岁这两个区间显示比较高,而在30岁以下和50岁以上的群体中相对较低,可能是因为30-50 岁这个年龄段的人收入比较稳定,相对有经济基础,认定的信用等级也会更高一点.不同信用等级中,等级为AA的成功率为0;等级为B 的成功率为16.67%;等级为C 的成功率为37.50%;等级为D的成功率为40%;等级为E的成功率为62.73%;而等级为HR 的成功率只有不到3%,显示出等级为HR 的人在P2P 平台借款相当困难,也就是说网上借贷平台和传统金融行业都不待见等级为HR的借款人,同时在其他等级中,不能得出等级越高借款越容易的说法.

下面分别从收入、婚姻状况和学历的角度分析P2P平台借款人在社会中的分布情况.

(1)收入状况. 从图3 中可以看出,借款人的收入在5 000-10 000元这个区间的人数所占的比例最多,而在1 000元以下这个区间所占的比例最少.很明显,借款人的收入在2 000-20 000元比较集中,低于2 000 元和高于50 000 元的人所占的比例较低.说明收入处于中间阶段的借款人更有创业的需求.由于缺乏资金才会前往P2P平台.

图3 借款人的收入分布状况

(2)婚姻状况.由图4知,借款人中已婚的最多,这部分人占了总人数的67.49%,其次就是未婚和离异的人,它们所占的比例分别为21.52%、10.55%. 而丧偶的人数所占的比率是最少的,只有不到百分之一. 产生这种情况可能是由社会中婚姻状况造成的,实际上离异和丧偶的人群本来占比就小.

图4 借款人的婚姻分布状况

(3)学历状况. 从关于借款人学历的分布状况图5中可得,大专学历的借款人占的比例比较高,占比48.55%;学历在研究生及以上的占的最少,只有2%;本科学历的借款人所占比例也比较高. 产生这种比例的原因可能是:研究生及以上学位的人找到的工作收入比较可观,能保障自己的生活;大专和本科学历的人不容易满足基本的薪资收入,想要借款投资创业改善生活状态.

图5 借款人的学历分布状况

2.3 实证分析

2.3.1 指标体系确定

通过筛选合适变量构建评估模型来减小变量间的相关性,达到降低对模型预测精度的影响,为借贷平台被借款者提供有利参考. 为确定各个变量在P2P 网贷平台对其借贷成功率影响的大小,采用随机森林启发式算法进行判别分析,结果如表5所示.

表5 变量重要性

从表5 中可以发现,首先,借款人的基本特征、历史信息、贷款的基本特征以及认证信息中都存在着对因变量借贷成功率较为重要的解释变量.其中历史借贷成功率和未还清借款数量对因变量产生的影响最大.其次,收入认证、工作认证和信用认证也是认证信息中对因变量影响较大的;同样在贷款的基本特征中,贷款金额和借款成本比其他的解释变量显得尤为重要,因此它们的作用是不容忽视的.

选取具有显著影响的排序中前6 个、前10 个等自变量分别建立随机森立预测模型(见表6).

由表6 可知,灵敏度并不是随着输入变量个数的增加而提高的,在训练集中第三个模型的灵敏度没有第二个的高,但在预测集中两个模型的灵敏度也都表示为100. 与此同时,第二个模型和第三个模型的灵敏度都比第四个模型要高,证明了建模前对影响因素进行筛选是有一定必要的. 对表6 进行深入分析可看出,输入变量为前10 个时构建的模型,其预测集灵敏度相比较其他的模型是最高的,在准确度这个指标上也是优于前6个变量所构建的模型的,虽然其在特异性这个指标上并不是表现最好的,但是综合考虑下来,该模型的精度还是较高的. 因此认为以历史借贷成功率、贷款金额、逾期金额、未还清借款数量、信用等级、借款成本、身份认证、信用认证、工作认证和收入认证这10个变量建立模型是最合理的.

2.3.2 模型结果及解释

由上文中已确定的10 个变量构建随机森林预测模型,同时选取除随机森林以外的5 种计算方法进行对比分析,交叉验证其优良性,得到表7结果.

表6 不同输入变量评价指标

表7 不同模型的比较

从表7可看出,与其他模型相比,随机森林法构建的模型各项指标明显更优一些. 而根据向量机(PSV)所建立的模型,虽然在灵敏度方面上比较突出,但是其他两个指标相比较随机森林而言效果都要逊色一些. 此外,随机森林在准确度和特异性这两个指标上表现的最好,表明该模型对于成功借款的预测准确度要高于其他方法建立的模型,而且对于失败借款样本的识别能力也非常强.

3 结语

基于网贷平台数据,本文构建了相对应的随机森林预测模型,并与其他五种模型算法进行了比对,得出了随机森林模型是最优的.利用随机森林启发式算法对模型进行检测与分析,其结果表明借款人的历史借款成功率、贷款金额、收入认证、工作认证这四个因素分别是影响贷款成功率重要性排序分别为第一、二、三、四的因素. 此外,选取表6 中对应的前6个、前10个、前14个和前18个自变量,分别建立其随机森林模型,得出各自的评价指标,并进行了交叉分析,结果表明由重要性排序表格中的前10个自变量构建的模型效果最优.此外,本文构建的P2P平台借款成功率的随机森林评估模型能高效的帮助投资者们选取出成功率较高的订单,同时避免了大量复杂的计算过程,因此该模型非常适合P2P 等网贷平台关于不断增加的网上订单的处理,对今后网贷平台能够快速、高效运转具有重要的理论指导作用.

本文以“人人贷”2016 年第一季度真实数据为基础,应用随机森林算法对其构建了借款成功率影响因素的模型,并发现该方法的预测精度比其他传统方法更高.采用随机森林算法研究了多个变量对网贷成功率的影响程度,且计算速度快、稳定性高.另外文中选取了多达33个自然变量进行研究,考虑因素较为全面,对网贷平台的数据分析更加精准.但并未完全克服随机森林算法自身的局限性,即容易过于拟合.因此在后续工作中将对此类模型选择会进行更深入的研究.

猜你喜欢

借款人借款借贷
微信上小额借款 请务必通话确认
中东铁路与三喇嘛借款
浅论借户贷款情形下隐名代理的法律适用
乡城流动借款人信用风险与空间收入差异决定
小微企业借款人
让民间借贷驶入法治轨道
热词
信息不对称下P2P网络借贷投资者行为的实证
一张图看懂民间借贷“防火墙”
一般借款利息费用资本化金额确定之我见