APP下载

基于机器学习对公司未来ROE预测的研究

2020-11-16翟玉奇

市场周刊·市场版 2020年2期
关键词:多元回归机器学习

摘 要:ROE作为评价公司盈利能力的重要指标,可衡量公司对股东投入资本的利用效率。它弥补了每股税后利润指标的不足,因此,每一次的ROE都是影响上市公司的股价、未来业绩以及投资者期望进而营销的其投资者的投资决策。本文根据杜邦分析法中的若干因素,結合其他分析因子,运用R软件,通过机器学习,构建模型,有效弥补了简单的多元回归拟合不精确的情况,为预测公司ROE提供了一个新的方法,也为投资人进行投资决策提供了一个重要依据。

关键词:ROE;杜邦分析;多元回归;机器学习

一、 引言

净资产报酬率(ROE),是企业一定时期的净利润与平均净资产之比,该指标反映了企业所有者所获投资报酬的大小。该指标越好,则表示企业的经营给股东的回报越高,越容易吸引市场投资者的关注。如果企业对其财务管理的意识缺乏,就会盲目乐观,意识不到潜在的危机,可能会导致企业遭到巨大的损失。所以,只有用科学的方法进行综合性的财务预测才能对于企业的日常和未来的发展提供有效的建议,从而不断促进企业自身的发展。

传统的财务预测只能从单一的盈利能力、营运能力、偿债能力和发展能力进行简单分析,另外杜邦财务分析体系可以全面概括以上四个能力的分析结果。能够帮助企业的管理决策者对企业财务状况有更加全面、更具全局性的了解,但由于其内在因素可能会产生共线性或相关性较大的因素,应在杜邦分析的基础上,加入其保函因素之外的变量加以预测,进而及时调整企业的发展策略以及管理结构,使企业向正确的方向发展和进步。

机器学习是研究怎样使用计算机模拟或实现人类学习活动的科学,是人工智能中最具智能特征,最前沿的研究领域之一。本文运用的机器学习方法为随机森林和XGBOOST分析方法,从准确性和模型规范性上,对预测公司未来ROE有着质的提高。

二、 数据处理与模型介绍

(一)数据选择

根据杜邦分析我们可以知:资产净利率是影响权益净利率的最重要的指标,具有很强的综合性,而资产净利率又取决于销售净利率和总资产周转率的高低。总资产周转率是反映总资产的周转速度。对资产周转率的分析,需要对影响资产周转的各因素进行分析,以判明影响公司资产周转的主要问题在哪里。销售净利率反映销售收入的收益水平。扩大销售收入,降低成本费用是提高企业销售利润率的根本途径,而扩大销售,同时也是提高资产周转率的必要条件和途径。

因此,在选择杜邦因素数据方面,我们选择资产周转率、利润率、债务资本比率;杜邦因素之外的因素通过分析企业数据相关程度选择了成长速度、市倍率、收入质量、资产规模、当年净资产收益率作为指标。

(二)数据处理

根据choice金融客户端,通过比率分析,由抽取决策好的数据,并由下一年度ROE作为预测标准,本文选取了2432条观测数据如表1,以此提高机器学习的准确性,通过与线性回归的对比,验证其回归的准确性与优越性。

(三)数据描述

1. 数据统计性描述

为验证其选择数据准确性,应检测模型因素的准确性:

2. 数据相关性分析(图2)

3. 数据显著性分析

图3中我们可以看到,每个变量均普遍显著,适合做回归分析。

(四)模型介绍

1. 随机森林(Radom Forest)

本节提出适用于本问题的随机森林预测模型,介绍基于随机森林的电话销售车险预测模型,最后讨论该模型的设置。

随机森林为有监督学习算法,是在 Bagging算法的基础之上改动演化而来。Bagging算法是在原始的数据集上采用有放回的随机取样的方式来抽取m个子样本,利用这m个子样本训练 m 个基学习器,以此来降低了模型的方差。而随机森林的两处改动,第一,不仅随机的从原始数据集中随机地抽取 m 个子样本,而且在训练每个基学习器的时候,不是从所有特征中选择最优特征来进行节点的切分,而是随机地选取 k 个特征,从这k 个特征中选择最优特征来切分节点,从而更进一步地降低了模型的方差;第二,随机森林使用的基学习器是CART 决策树。随机森林随机选择的样本子集大小 m 越小模型的方差就会越小,但是偏差会越大,所以在实际应用中,通过交叉验证的方式来调参,从而获取一个合适的样本子集的大小。

集成方法由两层算法组成,训练成百上千个基学习器的低层算法,上层的算法控制基学习器的训练,使这些基学习器近乎相互独立,这样将这些基学习器组合起来就可以减少组合后的误差方差。自举集成方法对训练数据集进行自举抽样(即在一个原始样本中进行有放回的重复抽样),然后基于这一样本训练基学习器。随机森林是将自举集成作为高层算法,将修改版的二元决策树作为基学习器,这样有效地利用了决策树与集成方法的优点,同时避免了决策树的一些常见缺陷。随机森林的基学习器是二元决策树,分割点的选择是基于所有属性的一个随机抽样,而不是考虑所有属性。

2.  XGBoost

XGBoost算法是由华盛顿大学的陈天奇博士提出,在Kaggle的希格斯子信号识别竞赛中使用,因其出众的效率与较高的预测准确度而引起了广泛的关注。XGBoost(Extreme Gradient Boosting)是GBDT的一种高效实现,该算法可以做线性回归分类器,也可以做CART回归树。常规的GBDT算法是利用一阶导数算出的导数信息,而XGBoost是对损失函数做了二阶泰勒公式推导,使其提高模型的高效运行。XGBoost也学习了随机森林的优点,支持列抽样。具体到数据上,当训练数据为稀疏值时,XGBoost可以为缺失值或者指定值设置分支的默认分裂方向,这能大大提升算法的效率。虽然Boosting算法迭代本身不能支持并行,但XGBoost可以支持在特征级别上的并行计算,以上这些改进都使得XGBoost在防止过拟合和计算效率提升上都有了显著的提升。

三、 模型验证

(一)线性回归

根据线性回归的结果来看,可列出回归方程:

下一年ROE=3.354×資产周转率+0.485×利润率-4.106×债务资本比率-0.0002成长速度-0.122×市倍率+0.057×收入质量+1.106×资产规模+0.581×当年净资产收益率-23.781

但R2仅仅只达到了8%,是一个相当低的值,考虑到多元回归方程的原理仅仅为最小二乘法,但由于数据较为分散,控制回归会造成准确度偏低的情况,因此,此时仅仅运用多元回归是行不通的。

(二)RadomForest

1. RadomForest重要性分析

从Radom Forst给出的重要性权重中,可以看到当年ROE的对于预测下一年ROE有着重大的影响。

2. 模型精确度

[1]0.9919333

过历史数据检验,我们可以将准确度控制在99.19333%,这是一个相当大的准确度,但是模型的难度也相当庞大,建立模型的时间消耗巨大。

(三)XGBoost

1. 因素重要性分析(图6)

与随机森林的学习模型相同,当年ROE与下一年ROE有着密不可分的关系,这也是提高精确度必备可少的因素。

2. 模型精确度

通过XGBoost模型,可以迅速高效率地得到较为准确的预测模型,精确度达到了98.35419%。可以看到,虽然XGBoost精确度不如Radom Forest,但是从其速度来说,更胜Radom Forest一筹。

四、 结论

对比原始的多元回归分析,Radom Forest和XGBoost都有不同程度优势,在准确度方面,Radom Forest要比XGBoost模型有着更准确的优点,但其缺点也更加明显:随着数据的增多,其训练模型耗费的时间也越多,XGBoost在提升了速度之后,缺失了一部分准确度,由于数据过少,或者数据变量不够充分等因素或许是造成缺失准确度的原因。

五、 结束语

本文对传统的预测下一年度ROE问题进行了创新与改进,基于XGBoost和Radom Forest模型的预测结果往往更具有代表性,准确性和快速性,并经过数据对其模型的准确性进行验证,在今后金融市场投资者选择被投资公司的实践中,可以加入更多的有关变量提供模型的准确程度,这对调整对投资者投资行为指导有着巨大的意义,如果简单做一次预测ROE分析的话,根据现有的ROE数据进行判断,往往有着不俗的预测表现。

作者简介:

翟玉奇,山西大学。

猜你喜欢

多元回归机器学习
不同住房保障方式下住户居住满意度研究
江苏省实施税收优惠政策促进科技创新的实效性研究
我国大学生人生规划自主性的现状和影响因素
基于词典与机器学习的中文微博情感分析
中国装备制造业阶段竞争力研究
基于网络搜索数据的平遥旅游客流量预测分析
上证综指收益率的影响因素分析
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
计量经济学研究