APP下载

基于随机森林的银行不良贷款率变动情况的预测

2019-12-20

新营销 2019年10期
关键词:不良贷款变动准确率

(天津财经大学统计学院 天津 300222)

一、引言

(一)研究背景

近年来,我国商业银行的不良贷款余额和不良贷款率持续上升,2019年2月我国银保监会公布了最新的监管年报数据,2018年末,我国不良贷款余额达2.03万亿元,相较2017年末增加了2 800亿元,同比增长16%。与此同时,我国银行业的不良贷款率为1.83%,相较2017年又增加了0.1%。在如此严峻的形势下,商业银行风险暴露的问题将变得更为尖锐,如果处理不当,容易引发系统性风险。未来我国银行业的不良贷款的风险还会不断积聚。由此可见,分析影响我国银行业不良贷款率的宏微观因素,具有十分重要的现实意义。

(二)文献综述

分析世界银行的经营史可知,导致银行经营失败的原因众多,但是银行不良贷款问题是导致银行经营危机的首要原因。因此,银行不良贷款受到世界各国广泛的研究和关注。从宏观角度分析,Akinlo和Emmanuel(2014)发现,从长期看,经济增长与不良贷款率呈反向关系。Tanskovic和Jandric(2015)分析结果表明这些因素与不良贷款率的增加呈正相关关系。徐晓通(2015)经过实证分析得知,M2增长率对不良贷款率有显著的正向影响。商业银行不良贷款率受GDP增长率的影响并与之呈负相关关系,受货币供应量增长率的影响并与之呈负相关关系。从银行自身角度分析,Zelalem(2014)就银行资产规模与商业银行不良贷款率的关系进行研究,发现二者之间成正相关关系。梁秋霞(2012)研究发现商业银行不良贷款率受银行的资产负债率的影响并与之呈正相关关系。徐晓通(2015)认为我国商业银行不良贷款率受银行自身的拨备覆盖率影响,且呈负相关关系。

二、数据处理与变量选择

(一)数据来源及数据处理

本文研究的数据主要包括两部分,一部分来源于Wind数据库中宏观经济板块2014—2018年各项宏观经济指标数据,其中包括季度数据与月度数据。另一部分数据是银行自身数据,来源于Wind数据库中股票板块中每只股票的银行专项指标数据,这部分数据是16家银行2014—2018年四个季度的各个银行专项指标数据。由于其他银行上市时间不足5年,所以只筛选出16家银行,对数据处理如下。第一步,宏观月度数据与宏观季度数据的匹配。对于宏观月度数据做两种处理,一种是将各季度的三个月的数据分别作为三个指标;另一种月度数据处理方法是将各季度三个月的数据的平均值作为一个指标。第二步,16家银行自身数据与宏观数据匹配。将第一步中的两种宏观数据分别与各个银行自身数据按照季度对应然后合并。

(二)变量的选取

自变量的选取:对预处理后的数据进行变量选取,得到四大类自变量。其中微观层面包括银行业务情况变量及银行各项贷款业务占比情况的变量,宏观层面包括宏观经济情况变量及金融市场流动性、风险性指标变量。

因变量的选取:以不良贷款率是否上升(Y)作为因变量。本文先选取各银行企业每年的不良贷款率为初始变量,然后计算出当年不良贷款率相对上一年不良贷款率的变动值,变动值为正代表不良贷款率上升,变动值为负或零代表不良贷款率没有上升。

三、模型选择

分别对两个数据集,以最大深度为3的决策树为基学习器,构建随机森林、AdaBoost、GBDT、XGBoost和LightGBM五种集成学习模型(基学习器均为50个)。将原始数据随机划分为训练集(80%)和测试集(20%),并对每个模型进行分类。对每个模型重复进行100次样本划分与分类,计算100次分类结果训练集的准确率与测试集的准确率的平均值,结果如下。随机森林训练集与测试集的准确率分别为0.84、0.76,AdaBoost训练集与测试集的准确率分别为1、0.74,GBDT训练集与测试集的准确率分别为1、0.76,XGBoost训练集与测试集的准确率分别为1、0.75,LightGBM训练集与测试集的准确率分别为0.83、0.74。比较5个模型可以发现,默认参数下随机森林的预测准确率较高,模型泛化能力较好,AdaBoost、GBDT、XGBoost、LightGBM存在过拟合现象。因此,选择随机森林模型作为预测模型。

四、银行不良贷款率变动情况的预测及变量重要性分析

(一)模型评价

模型调优后,混频数据集随机森林训练集与测试集的准确率分别为86.55%、81.25%,同频数据集随机森林训练集与测试集的混淆矩阵的准确率分别为87.89%、81.25%。可以发现,两种数据集的随机森林模型的测试集预测准确率均为81.25%,说明建立的模型对混频数据与同频数据都能准确地识别出不良贷款率上升的情况。

(二)变量重要性

随机森林模型按照两种数据集给出变量重要性排在前30位的特征。其中,国内信贷规模、国房景气指数、M2增速、资本充足率、房地产业贷款额占比,这5个变量的重要性明显大于其他变量。

将数据按照国有银行、股份制银行及城市商业银行将样本进行分类,然后利用随机森林模型拟合出影响不同类型银行不良贷款率变动的特征重要性排名。结果如下,影响国有银行不良贷款率变动的前六种因素分别为国房景气指数、国内信贷、生产价格指数、城镇登记失业率、M2增速和商业银行的流动性比率;影响股份制银行不良贷款率变动的前六种因素分别是国房景气指数、制造业贷款比例、批发和零售业贷款比例、城镇登记失业率、商业银行的流动性比率和国内信贷;影响城商银行不良贷款率变动的前六种因素分别是房地产业贷款比例、计息负债、单一客户集中度、资本充足率、成本收入比和商业银行的流动性比率。不难发现影响国有银行不良贷款率变动的主要因素为宏观经济指标,影响股份制银行的主要因素既包括宏观经济因素又包括银行各项贷款占比情况,而城商银行的不良贷款率变动主要受银行自身业务和各项贷款占比的影响。

五、结论

本文利用机器学习研究银行不良贷款率的变动情况得出以下结论。

第一,本文构建基于随机森林的银行不良贷款率变动预测模型发现,随机森林算法与其他集成学习方法比较,在处理样本少、特征多的数据时预测精度更高,模型泛化能力更好。利用随机森林构建银行不良贷款率变动预测模型,能较好地对银行不良贷款率上升或下降进行预测,尤其能够识别出不良贷款率上升的情况,预测精度在90%左右。

第二,研究银行每季度不良贷款率变动时,加入高频数据并做两种处理。一种是将各季度的三个月的数据作为三个指标,另一种是将各季度三个月的数据的平均值作为一个指标。对比预测结果发现,混频数据同频数据预测效果相同,后续考虑增加样本进一步进行比较。

第三,通过分析变量重要性发现,对整个的银行业来说,国内信贷资金的规模、房地产行业景气程度、货币供应量增速这些宏观经济因素会影响银行的不良贷款率的变动。对不同类型的银行分析发现,低水平国内信贷规模、高失业率以及货币供应量增速缓慢,容易引起国有银行不良贷款率上升;较高的制造业或批发和零售业贷款额占比、较高的社会失业率都易引起股份制银行不良贷款率的上升;客户集中度高、较高银行成本收入容易引起城商银行不良贷款率的上升。综合可以发现国有银行受宏观经济情况及金融系统流动性的影响比较大,股份制银行与城商银行受自身因素的影响比较大。

猜你喜欢

不良贷款变动准确率
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
北上资金持仓、持股变动
北向资金持仓、持股变动
南向资金持仓、持股变动
高速公路车牌识别标识站准确率验证法
变动的是心
关于加强控制商业银行不良贷款探讨
用活“三字经”密织不良贷款防控网
不良率农行最高