APP下载

基于随机森林模型的上市公司财务失败预警研究

2017-06-01周学忠彭朝晖曾杨

关键词:决策树预警准确率

周学忠,彭朝晖,曾杨

(1.长沙理工大学 数学与统计学院,湖南 长沙,410114;2.长沙理工大学 经济管理学院,湖南 长沙,410114)

基于随机森林模型的上市公司财务失败预警研究

周学忠1,彭朝晖2,曾杨1

(1.长沙理工大学 数学与统计学院,湖南 长沙,410114;2.长沙理工大学 经济管理学院,湖南 长沙,410114)

基于2003年1月—2016年5月我国A股连续2年财务亏损的上市公司样本,实证研究了随机森林模型对上市公司财务失败预警的应用。通过与逻辑斯蒂回归模型所得结果比较,证明了随机森林模型的预测精度高于逻辑斯蒂回归模型。

财务失败;预警;随机森林

改革开放以来,我国的资本市场快速发展,资本市场已经成为我国企业的筹集资金的重要途径。上市公司作为资本市场的主体,其财务状况对资本市场有重要影响。因此,上市公司的财务失败预警研究有重要的意义。财务失败预警是分析企业财务数据,建立预测模型来预测财务失败的发生。国内外学者对财务失败预警做过许多研究,如:单变量预警模型[1-2]、多变变量预警模型[3-4]、多元逻辑回归模型[5-6]、神经网络模型[7-9]、支持向量机模型[10]。然而国内外学者应用数据挖掘中组合分类技术研究财务预警的相关文献较少。组合分类技术是把多个模型组合在一起,旨在创建一个复合分类模型。对于给定新数据,每个模型独立给出预测,组合分类基于多个模型预测结果给出最终预测,不仅可以有效地提高单个分类模型的准确率,而且具有更好的鲁棒性。本文主要目的是建立基于随机森林的上市公司财务失败预警模型,并与逻辑斯蒂回归模型比较。

1 样本构建与指标选取

1.1 数据来源

本文选取2003年1月—2016年5月连续2年财务亏损的上市公司为财务失败的样本。本文所有数据均来源于万德数据库。剔除样本期间信息缺失的公司,最终得到512家上市公司为财务失败样本。其中金融业7家,公用事业56家,房地产业63家,综合业27家,工业327家,商业32家。配对样本来源于样本期内从未被 ST的公司。考虑到采用单维特征变量进行配对容易导致错配问题,本文引入 PSM方法,根据总资产规模、股东权益、总资产利润率、市盈率、资产负债比5维特征,在(t−3)年的同一行业内对512家ST公司按1︰1的比例进行配对,经配对后共获得1 024个样本。

1.2 指标体系选取

本文在前人财务失败预警模型[11-15]研究基础上,从上市公司的盈利能力、偿债能力、资本结构水平、现金流量水平、营运能力、成长能力等 6个方面选取了23个财务指标。盈利能力包括净资产收益率(roe)、总资产利润率(rota)、每股收益(eps)、每股净资产(vps)、流动负债比(rmd)。偿债能力包括资产负债率(rd)、流动比率(rwc)、速动比率(rq)、利息支付倍数(mip)。成长能力包括净利润增长率(rnpg)、总资产增长率(rtag)、营业总收入增长率(rorg)、市盈率(rpe)。营运能力包括存货周转率(rit)、固定资产周转率(rfat)、总资产周转率(rtat)、营运资本资产比(roca)。现金流能力包括现金比率(rc)、现金流动负债比(rctcd)。其他包括股东权益(esh)、机构投资者持股比率(rish)、资产规模(az)、应收账款周转率(rrt)。为了克服异常值影响,本文对所有指标按照5%标准进行了缩尾处理。

1.3 样本基本统计分析

为了了解每个指标对财务失败影响,本文对PSM配对样本中财务正常上市公司、财务失败上市公司的各个指标做了基本统计分析。表1给出了PSM配对样本上市公司的各个财务指标均值和中位数。由表1可知:rota、roe、rpe等指标财务正常和财务失败的均值、中位数存在较大差异;vps,rit,rnpg等指标差异较小。

本文对财务正常、财务失败上市公司各指标做了t检验。表2给出了各指标的t检验结果。在5%水平下,rota,roe,rc,esh,rtat等20个指标有显著差异,对财务失败具有很好的预警能力。

表1 PSM配对样本企业财务指标均值和中位数

表2t检验结果

2 模型

2.1 随机森林模型简介

随机森林是一种组合分类技术。2001年被Leo Breiman[16]首次提出,随机森林是由很多CART决策树分类模型组成的模型,它的构建步骤:第1步,利用Bootstrap重抽样方法从原始样本中抽取n个Bootstrap样本,对于每个Bootstrap样本,再从原始m个自变量选择k个输入变量(k<<m);第2步,对n个Bootstrap样本分别建立CART决策树模型,得到n个分类结果;第3步,根据这n个分类结果决定最终分类结果。一般采用给出最终结果。H(x)表示随机森林分类模型,hi(x)表示单个CART决策树分类模型,Y表示输出变量,I(·)表示示性函数。随机森林模型训练每棵CART决策树时,从原始样本进行有放回随机抽样得到Bootstrap样本,每个数据未被抽中的概率为(1− 1/N)N。当N很大时,(1 − 1/N)N极限为1/e ≈ 37%,也就是说有37%的数据未被抽中,这些数据被称为袋外数据。随机森林模型用袋外数据不仅可以检验模型的预测效果,还可以给出变量重要性度量。

2.2 随机森林模型的建立

由于az、esh、rd、rota、rpe已用于PSM配对,不参与随机森林模型的构建。图1为采用随机森林基尼系数法,剩余18个变量的重要性图,纵坐标为变量名称,横坐标为基尼指数值(值越大代表变量越重要)。根据图1选取前8个指标作为随机森林模型原始输入变量,即用rish、roe、rc、rtat、rfat、eps、mip、rwc建立基于随机森林的财务预警模型。

由随机森林模型的简介可知,随机森林模型有 2个参数需要设置,即决策树数量和每棵决策树随机输入变量个数。决策树数量通常设置为500棵,每棵决策树随机变量个数一般为原始输入变量个数开方的近似值。由于随机森林原始输入变量为8,所以每棵决策树随机输入变量数为3。按3︰1比例随机抽取768家公司作为训练数据集,用于构建模型;其余256家公司作测试数据集,用于检验模型。根据随机森林分类结果,得到随机森林模型的训练数据集准确率为76.17%,测试数据集准确率(预测正确数/样本数)为77.34%,正常公司错分率(正常公司错分数/正常公司数)为21.29%,ST公司错分率(ST公司错分数/ST公司数)为26.37%。

图1 变量重要性

2.3 模型比较

为了评估随机森林模型结果,本文在训练数据集和测试数据集不变,仍然选取前文8个原始输入变量,建立了逻辑斯蒂回归模型,并计算了逻辑斯蒂回归模型的训练数据集、测试数据集的准确率。表3为随机森林模型与逻辑斯蒂回归模型的准确率对比。可以看出,随机森林模型训练集准确率为76.17%,逻辑斯蒂回归模型训练集准确率为70.44%,前者高于后者。同样,前者测试集准确率亦高于后者。因此,随机森林模型预测效果优于逻辑斯蒂回归模型。

表3 模型的比较 /%

3 结论

本文在PSM配对方法基础上,探讨了随机森林模型在上市公司财务失败预警中的应用。通过上述研究,可以看出随机森林模型具有较高的预测精度,其训练集和测试集准确率都高于75%。因此,随机森林模型对财务失败预警有较好识别能力。通过与逻辑斯蒂回归模型比较,随机森林模型预测精度高于逻辑斯蒂回归模型,这说明随机森林模型在财务失败预警中有应用前景和实践价值。

[1]Fitzpatrick P.A comparison of ratios of successful industrial enterprises with those of failed firms [J].Certified Public Accountant,1932(2):598-605.

[2]William Beaver.Financail ratio as predictors of failure [J].Empirical Research in Accounting,1966(4):71-111.

[3]Altman E.Financial rations.Discrinimant analysis and the prediction of corporate bankruptcy [J].Journal of Finance,1968,9:589-609.

[4]Haldeman A E,Narayanan P.ZETA Analysis:A new model to identify bankruptcy risk of corporations [J].Journal of Banking and Finance,1977(1):32-39.

[5]McGurr P.Predicting business failure of retail firms:an analysis using mixed industry models [J].Journal of Business Research,1977,43:169-176.

[6]Ohlson J A.Financial ratios and the probabilistic prediction of bankruptcy [J].Journal of Accounting Research,1980,19:109-131.

[7]Dutta S,Shekhar S.Bond rating:a non-conservative application of neural networks [C]//Proceeding of the IEEE International Conference on Neural Networks.Los Alamitos:IEEE Press,1988:443-450.

[8]杨淑娥,王乐平.基于BP神经网络和面板数据的上市公司财务预警[J].系统工程理论与实践,2007(2):66-67.

[9]姚宏善.基于支持向量机的财务困境预测研究[D].武汉:华中科技大学,2006.

[10]吴冬梅,朱俊,庄新田,等.基于支持向量机的财务危机预警模型[J].东北大学学报(自然科学版),2010,31(4):601-604.

[11]Breiman L.Random forests [J].Machine Learing,2001,45(1):5-32.

[12]李应求,李依帆.我国创业板企业内部人交易择时行为研究[J].经济数学,2015,32(1):10-18.

[13]李应求,刘薇,陈文锋.聚类分析视角下地区保险业发展差异研究——基于湖南省各地市的截面数据分析[J].时代金融,2009(1):117-119.

[14]李应求,刘朝才,彭朝晖.不确定条件下企业的投资规模决策[J].运筹学学报,2008,12(2):121-128.

[15]李应求,甘柳,魏民.一类多险种复合Poisson-Geometric过程风险模型研究[J].统计与决策,2010,7:53-55.

[16]李应求,杨扬,欧阳迪飞,等.基于MGPD模型的地质灾害风险的统计度量[J].数理统计与管理,2016,35(3):381-390.

(责任编校:刘刚毅)

Financial crisis warning model based on the random forest

Zhou Xuezhong1,Peng Zhaohui2,Zeng Yang1
(1.College of Mathematics and Statistics,Changsha University of Science and Technology,Changsha 410114,China;2.School of Economics and Management,Changsha University of Science and Technology,Changsha 410114,China)

Using the sample that losses for two consecutive years of listed companies in China'sA shares from January 2003 to May 2016,the application of Random Forest on the prediction of listed companies financial failure is studied.Compare with Logistic model,it is confirmed that the accurace rate of the Random Forest is better than Logistic model.

financial crisis;crisis warning;random forest

F 222.3

A

1672-6146(2017)02-0017-04

周学忠,zhoisha@qq.com。

2017-01-20

国家自然科学基金(11571052);湖南省研究生科研创新项目(CX2016B417)。

10.3969/j.issn.1672-6146.2017.02.005

猜你喜欢

决策树预警准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
一种针对不均衡数据集的SVM决策树算法
法国发布高温预警 严阵以待备战“史上最热周”
决策树和随机森林方法在管理决策中的应用
高速公路车牌识别标识站准确率验证法
园林有害生物预警与可持续控制
基于决策树的出租车乘客出行目的识别
机载预警雷达对IFF 的干扰分析