基于BP神经网络的P2P网贷个人信用风险评估

2019-01-28李佳蓉蒋艳莉汤礼媛

时代金融 2019年24期

● 李佳蓉蒋艳莉汤礼媛

一、引言

P2P网贷（peer to peer lending）是指资金需求方通过在线网络平台与资金供给方进行直接交易的民间借贷行为。随着互联网的发展，民间借贷逐渐兴起，P2P网络借贷作为一种依托于互联网的新型金融模式开始兴起并迅速发展壮大。然而行业快速发展，风险也随之暴露，我国的P2P网络借贷平台在2011年开始出现了跑路事件，问题事件频发，因此建立一个信用风险评估模型显得尤为重要。

二、信用风险评估指标体系的建立

（一）指标选取原则

1.科学性原则。科学性是确保评估结果准确合理的基础。科学性原则要求评估指标能反映评估对象的特征，指标的选择理论依据要充分。计算方法要科学明确，保证借款人信用风险评估结果的真实性和客观性。

2.可操作性原则。指标设计的可操作性原则，是指指标体系应具有可行性和可采集性。

3.全面性与典型性相结合的原则。指标不是越多越好，应做到能精简的尽量精简，选取的每一个指标都要具有代表性，使估对象的现实状况能被准确地呈现出来。

4.独立性原则。独立性要求一个指标体系内的所有指标既相互排斥又做到方向上的一致性。相互重叠的指标会增大某一方面在测评中所占的比重，同时就相应削弱了其他指标的地位，进而影响整个评估体系的准确性，最终影响评估效果。

（二）指标要素的调查

关于个人信贷信用评估指标体系国外研究主要是在3C、5P原则下发展完善的，国内研究在借鉴和吸收国外经验的基础上，融入了符合我国社会信用国情的评估指标［1］。个人信用评价指标要素调查可以通过多种方法进行，本文通过文献分析法和访谈法对指标要素进行调查，充分有效地收集基础指标，并将收集到的基础指标要素分为个人基本指标、职业信息指标、历史信用指标三大类。

（三）指标要素的选取与分析

个人信用风险评估中最重要的一个环节就是评估指标的选取，如果评估指标过于单一，则信用风险评估模型对其风险揭示作用会存在局限性；如果评估指标过多，则容易造成评估模型过度拟合，实际应用繁杂。为了进一步发挥信用评估模型的风险揭示作用，应选择合理的信用指标。

为了使信用评估指标体系构建的更为合理科学，本文通过专家咨询法，征求专家的意见，对上述基本指标要素进行筛选、修改、补充、完善，最终选取了年龄、婚姻状况、文化程度、房产情况、工作时间、单位性质、收入情况、历史信用8个具有代表性、完备性的指标，构建P2P网贷借款人信用评估指标体系。

（四）指标要素的量化

为了进行风险评估，我们对选取的8个指标进行初步量化，将每个指标的数据量化成［0，1］之间的数值，以方便进行下一步的神经网络计算，总体量化如：一级指标：个人基本指标：二级指标：年龄：＜25：0.7；25-30：0.8；30-35：0.9；35-40：1.0；40-45：0.9；45-50：0.8； 50-55：0.7；＞55：0.6；婚姻状况：未婚：0.7；已婚：0.9；离异：0.5；文化程度：高中或以下：0.3；专科：0.5；本科：0.7；研究生或以上：0.9；房产情况：无房产：0.5；有房产有房贷：0.7；有房产无房贷：0.9。职业信息指标：工作时间：1年以下：0.3； 1-3年：0.5； 3-5年：0.7； 5年以上：0.9；单位性质：个体工商户：0.5；私企：0.6；国企：0.7；事业编制单位：0.8；政府机关：0.9；收入情况：1000元以下：0.2； 1000元-5000元：0.3； 5000元-10000元：0.4；10000元-20000元：0.7； 50000元以上：0.9。历史信用指标：历史信用：无违约记录：1； 1-3次：0.6； 4-6次：0.4；7-10次：0.2；10次以上：0。

三、信用风险评估模型的构建

（一）BP神经网络模型的概述

BP网络（Back Propagation Neural Network）又称反向传播神经网络，通过样本数据的训练，不断修正网络权值和阈值使误差函数沿负梯度方向下降，逼近期望输出。反向传播的基本思想就是通过计算输出层与期望值之间的误差来调整网络参数，从而使得误差变小。它是一种应用较为广泛的神经网络模型，多用于函数逼近、模型识别分类、数据压缩和时间序列预测等。

BP网络由输入层、隐藏层和输出层组成，隐藏层可以有一层或多层，网络选用S型传递函数通过反传误差函数为期望输出，为网络的计算输出），不断调节网络权值和阈值使误差函数达到极小。

（二）数据归一化处理

数据归一化处理即数据标准化处理。为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。

本文通过最大最小值法对个人信用指标定量数据进行归一化处理。最大最小值法是对原始数据的线性变换，使结果值映射到［0，1］之间，不会造成信息的过多丢失。转换函数如：其中max为样本数据的最大值，min为样本数据的最小值。

（三）BP神经网络模型的构建

1.输入输出层设计。本文选取年龄、婚姻状况、文化程度、房产情况、工作时间、单位性质、收入情况、历史信用8个信息指标作为神经网络模型的输入值，因此输入层节点数设定为8；模型以预测信用等级作为输出值，输出层节点数则为1。

2.隐含层设计。在网络设计过程中，隐含层神经元数的确定十分重要。隐含层神经元数目过多，会加大网络计算量，并容易产生过度拟合问题；神经元数目过少，则会影响网络性能，达不到预期效果。网络中隐含层神经元的数目与实际问题的复杂程度、输入和输出层的神经元数以及对期望误差的设定有着直接的联系。目前，对于隐含层中神经元数目的确定并没有明确的公式，只有一些经验公式，神经元个数的最终确定还是需要根据经验和多次实验来确定。本文在选取隐含层神经元数目的问题上参照了以下的经验

3.激励函数的选取。神经网络中的每个节点接收输入值，并将输入值传递给下一层，输入节点会将输入属性值直接传递给下一层（隐含层或输出层）。在神经网络中，隐含层和输出层节点的输入和输出之间具有函数关系，这个函数称为激励函数。

BP神经网络通常采用Sigmoid可微函数和线性函数作为网络的激励函数。本文选择S型正切函数tansig作为隐含层神经元的激励函数。而由于网络的输出归一到［-1，1］范围内，因此预测模型选取S型对数函数tansig作为输出层神经元的激励函数，即：

4.反传误差函数。通过将输出误差反传，将误差分摊给各层所有单元，从而获得各层单元的误差信号，进而修正各单元的权值。误差反向传播也就是网络的学习过程。此过程一直进行到网络输出的误差减少到可以接受的程度，或进行到预先设定的学习次数为止。反传误差函数如下：其中为期望输出、为网络的计算输出。

（四）BP神经网络模型的仿真

在完成100组样本的训练和拟合后，对经过训练生成的BP神经网络模型进行预测结果的验证。预测样本数据为：年龄： 0.8，0.7，1，0.7；婚姻状况：0.7，0.7，0.9，0.8；文化程度： 0.7，0.3，0.9，0.3；房产情况：0.8，0.2，0.6，0.4；工作时间：0.6，0.6，0.8，0.2；单位性质：0.5，0.5，0.7，0.5；收入情况： 0.4，0.2，0.8，0.2；历史信用： 0.8，0.8，1，0.5；信用等级： 6，5，8，4。

随机训练5次后，4个测试样本的预测等级与真实等级基本一致。通过对前100组借款人信用数据进行训练和学习，不断调整优化，得到了信用指标与信用等级的关系，使得该BP神经网络模型具有良好的对借款人信用风险评估的能力。