APP下载

基于深度森林的选股策略

2019-11-09王伦

经济研究导刊 2019年27期

王伦

摘 要:多因子模型一直是量化投资领域的重要方法,而如何选择有效因子并确定因子权重从而构建有效的投资组合是研究者重点讨论的议题。以每只股票收益率作为分类标准,引入深度森林算法筛选股票,利用沪深300成分股进行选股回测,选取预测收益率大于0的概率排名靠前的30只股票进行实证分析。研究结果表明,深度森林算法比随机森林算法具有更高的超额收益,且具有更低的回撤率,该模型对量化投资策略的设计具有重要的实际意义。

关键词:深度森林;量化选股;多因子分析

中图分类号:F830.91        文献标志码:A      文章编号:1673-291X(2019)27-0078-02

预测股票市场价格走势是一项非常具有挑战性的任务,因为它涉及到许多不确定性和影响某一天市场价值的许多变量,如经济条件、投资者对某一特定公司的看法、政治事件等。这就使得股票市场易受快速变化的影响,造成股票价格的随机波动。股票市场序列通常是动态的、非参数的、混沌的、有噪声的,因此,股票市场价格的波动被认为是一个随机过程,具有较大的波动性短时间窗口的发音。然而,一些股票往往倾向于发展线性趋势超过长期的时间窗口。由于股票行为的混沌性和高度波动性,投资股票市场伴随着高风险。为了把风险降到最低先进的知识未来的股价走势是必要的。交易员更有可能购买其股票未来的价值预计会增加。另一方面,交易员可能会克制自己购买价值预计在未来会下跌的股票。所以,需要准确预测股票市场价格的趋势,以使资本收益最大化,损失最小化。

在预测股票价格行为的主要方法中,以下是特别的值得注意的:技术分析、时间序列预测、机器学习及数据产业(Hellstrom and Holmstromm,1998)和股票波动建模及预测使用微分方程(Saha,Routh和Goswami,2014)。本文主要研究的是第三種方法,是由于与股票市场预测问题相关的数据集太大而无法得到使用非数据挖掘方法处理。

一、深度森林gcForest

深度森林由南京大学周志华教授和冯霁博士2017年发表的论文中提出的,这是一种可以与深度神经网络相媲美的基于树的模型。

本文提出了一种新的模型gcForest(多粒度级联森林),它是一种基于树的集成方法,将树集成到树中,并将树集成到树中,以达到表征学习的效果。通过对高维输入数据进行多粒度扫描,可以增强其表征学习能力。序列中的层数也可以自适应地确定,这样模型复杂性就不需要是自定义超参数,而是根据数据情况自动设置的参数。值得注意的是,gcForest的超参数比DNN少。更好的部分是gcForest对参数具有很好鲁棒性,即使使用默认参数也是如此。换句话来说,gcForest相对于DNN,不仅超参数更少,而且对超参数的依赖性也更低。因为这样,gcForest的训练更为便捷,理论分析也更为清晰,这并不是说树比神经网络更好去解释,就单纯从超参数来说,更少超参数意味着更少的主观设定。

二、实证分析

在因子选择方面,为了比较不同因子选择方法的效果,本次研究尽可能多的筛选出有效因子。综合分析了多家券商的研究报告和各类学术论文,运用通联数据量化数据平台,从估值因素、规模因素、交易量因素、动量因素、趋势因素等方面筛选出了34个常用的有效因素。

本次实验数据为2010年1月1日至2018年12月31日沪深300指数各成分股选取最后一个交易日的所有交易的股票要素价值和收益率。将收益率大于0的标记为1,其他则标记为0,用于模型分类的目标值。用2010年1月1日至2017年3月31日的数据作为训练集来训练模型,回测用2017年4月1日到2018年12月31日的数据,所有因子数据都通过中性化、去极值、标准化处理,并去掉了含有缺失值的股票。

三、结语

利用上述34个因子值,根据主成分分析结果,选取前20个主成分作为分类的解释变量,构建多因子模型。将股票收益率作为模型分析的解释变量。首先采用随机森林算法进行实验,并利用优矿平台进行研究。

从表1的回测检验结果可以看出,随机森林多因子策略的年化收益率为26.5%,沪深300指数的市场收益率为15%,超额收益为11.8%,阿尔法超额收益说明了多因子模型的有效性。最大回撤率为8.9%,说明模型具有相当的稳定性。

从表2可以看出,深度森林多因子策略年化收益达到32.9%,并且获得了18.2%的阿尔法超额收益,故而深度森林在多因子选股策略是明显要优于随机森林的,且最大回撤只有7.9%,相比随机森林,该模型具有更高的稳定性。

参考文献:

[1]  L.Breiman.Random forests.Machine Learning,2001,(1):5-32.

[2]  Zhou Zhihua,Ji Feng.Deep Forest:Towards an Alternative to Deep onference on Artificial Intelligence,2017:3553-3559.