APP下载

基于BP神经网络的P2P网络借贷个人信用评价模型

2019-03-28王磊

现代商贸工业 2019年3期
关键词:P2P网络借贷BP神经网络信用风险

王磊

摘 要:当前互联网金融行业飞快发展,各种P2P网络借贷公司不断涌现,这种新型的借贷模式具有很多优点,但是也存在相应的问题,如何做好借款人的个人信用评价是保证P2P网贷行业健康运营的最重要一环。通过对近些年国内外个人信用评价模型的研究,以拍拍贷网站的用户数据为例,建立信用个人信用评价指标体系,利用BP神经网络算法,建立了借款人个人信用评价模型,为了达到更好的效果,采用不同的激活函数及权值调整方法进行模型优化,最终建立基于拟牛顿算法的BP神经网络模型,能达到对用户信命评级96.28%的准确率。

关键词:P2P网络借贷;信用风险;BP神经网络;指标体系

中图分类号:TB 文献标识码:Adoi:10.19311/j.cnki.1672-3198.2019.03.095

1 研究背景

随着互联网科技的不断进步,P2P网络借贷应势而生,这种互联网创新模式主要是为了解决中小型企业融资难的问题,P2P网络借贷为中小企业和私人资金需求者提供了高效快捷的融资渠道。在行业飞速发展的同时,问题也开始不断显现,出现了很多平台倒闭、跑路、提现困难等问题,使得建立并完善P2P自身征信体系迫在眉睫。本文结合国内行业实际情况,剖析P2P业务的风险特征,借助BP神经网络的方法评价借款人的信用风险,通过不同的训练算法使得模型的评价结果更为准确合理,对平台今后的信用评价起到了一定的参考作用。

2 数据准备

本文的数据取自拍拍贷,利用Python软件,编写爬虫代码,爬取1352条信用记录。为了保证数据质量,首先对于指标缺失值过半的信用记录进行删除,剔除无效样本,最终留下974条信用记录。拍拍贷网站用魔镜等级作为信用评价的标准,主要分为AA、A、B、C、D、E、F共7个等级,经过调研发现,魔镜等级主要集中在AA、B、C三者中,其他等级的信用记录相对较少甚至为零,所以,本文将信用等级分为三大类,具体划分方法及信用记录条数见表1。

3 构建指标体系及打分表

从拍拍贷上爬取的每条信用记录都有31各指标,通过相关性检验,有13个指标通过检验,分别为个人基本信息:年龄、性别、文化程度、借款用途、还款来源、工作信息、收入情况、网络借贷平台借款余额、认证信息。历史信用记录:正常还清次数、逾期笔数。负债相关:待还金额、历史最高负债。

科学完善的评估指标体系起着衡量评估结果是否公正的作用,为了尽量客观的对定性变量进行量化打分,本文对每个指标做出各指标与借款人信用交叉表。以性别为例,表格样式大致如表2。

通过建立借款人信用分类及性别交叉表格,可以清楚的发现女性的信用评级为良好的比重更大,而男性的信用评级则倾向于较差,所以男性赋值为0,女性赋值为1。由于本文篇幅所限,其余指标量化打分表不做赘述,指标量化打分表见表3。

根据信用评级打分表,将网站所爬取的数据进行量化处理,然后对数据进行缺失值处理、数据规范化处理。本文采用EM算法填补缺失值,采用X-min(X)/maxX-min(X)进行数据归一化处理,从源头保证数据质量。

4 模型的建立与调优

4.1 模型简介

BP神经网络又称为误差反向传播神经网络,目前广泛应用于分类、预测等领域。BP神经网络可以依托不同的数学函数,而做到学习和存储大规模输入、输出,并且不用事先设定某种特定对应关系。完整的BP神经网络包含了输入、隐含、输出三层次网络结构。

用数学的方式将BP神经网络模型可以表示为:

其中Y代表输出向量,X是输入向量,W是输入层和隐含层间连接权向量,B1、B2分别为隐含层和输出层的阈值向量,V为隐含层与输出层间连接权向量,g为传递函数。

4.2 模型参数选择

就本文而言,输入指标有13个,所以输入层节点个数为13,输出层的指标为信用分类,只有1个,输出节点数为1。对于隐含层的个数设置是设计的重要环节,它确定会密切影响到最后输出结果的准确性,目前关于隐层节点的设定并没有一个唯一的准则,公认的经验公式有以下4种:

根据以往经验及本文的背景,选择第三种作为隐层节点数的确认方法,隐层节点数的范围为[4,13]。

4.3 模型的建立

将规范化处理后的数据进行神经网络建模,随机抽取80%的信用记录进行神经网络模型的训练,剩余20%的信用记录对模型的结果进行检验。根据以往经验,设置神经网络模型的最大迭代次数为2000次,目标误差值为0.0001,输入节点数为13,输出节点数为1,隐层节点数根据经验公式,取值在[4,13]之间,目前不做决定,带入不同神经网络探索后取得。BP神经网络具有不同的激活函数和优化训练算法,常见的激活函数有空操作的激活函数(identity)、逻辑斯蒂函数(logistic)、双曲正切函数(tanh)、线性整流函数(relu),常见的训练算法有很多,结合本文的具体问题及算法特点,决定采用拟牛顿算法(lbfgs)、随机梯度下降算法(sgd)、自适应时刻估计方法(adam)进行训练,为了得到更好的预测分类效果,本文对以上四种激活函数、三种训练方法进行遍历组合。

经过综合考虑,最终决定采用relu激活函数,13-9-1的神经网络结构,此种网络结构的模型10次平均迭代次数为226.9次,平均误差为0.011206,判断准确率为97.50%。

其余两种方法确定过程类似,篇幅所限,不再赘述,sgd方法下选取tanh激活函数,节点数为8时模型效果最优。adam方法下选取tanh激活函数,节点数为11时模型效果最优,接下来将剩余20%数据带入三种最优模型进行验证。

我们选取20%的数据195条信用记录,带入三种最优的模型,结果如表4,列举5位。

表5列出了所有验证数据集的平均准确率、绝对误差及相对误差,可以清楚显示基于lbfsg方法建立的BP神经网络模型可以达到最优的模型评价效果,对数据预测的准确率能达到96.28%。

5 结论

本文通过搭建P2P个人信用评级密切相关指标体系并创建各指标交叉信用表进行更加客观合理的打分,建立了基于lbfsg方法的BP神经网络,实现了对借款人信用评级96.28%的准确预测。结果表明BP神经网络模型具有良好的特征抽取和知识发现能力,具有一定的推广性。

参考文献

[1]李昕,戴一成.基于BP神经网络的P2P网贷借款人的信用风险评估研究[J].武汉金融,2018,(2):33-37.

[2]邓逸,徐曉敏.基于互联网行为信息的P2P个人信用评价模型[J].背景信息科技大学学报,2017,32(2):90-94.

[3]涂艳,王翔宇.基于机器学习的P2P网络借贷违约风险预警研究—来自“拍拍贷”借贷交易证据[J].统计与信息论坛,2018,33(6):69-76.

猜你喜欢

P2P网络借贷BP神经网络信用风险
浅析我国商业银行信用风险管理
京东商城电子商务信用风险防范策略
个人信用风险评分的指标选择研究
信用风险的诱发成因及对策思考