APP下载

多因子模型在中国股票市场的选股应用

2020-11-28孙奕迪李恒昊韩梦雪

现代营销·经营版 2020年11期

孙奕迪 李恒昊 韩梦雪

摘 要:量化投资随中国资本市场的快速发展而得到普及。本文以2014年至2018年沪深300为研究对象进行实证分析,通过连续五年多因子量化选股模型建立有效的股票投资组合。研究表明,基于多因子量化选股模型得到的股票组合可以跑赢市场。但是该模型具有局限性,模型的适用性因年份不同而出现差异,应依照年份建立不同股票市场的量化选股模型。

关键词:量化选股;多因子模型;有效检验

一、多因子量化选股模型研究现状

截至2019年4月22日,我国A股上市公司有3602家。如何能在这三千多家公司中选取具有投资价值和高成长性的股票进行投资并获利,受到了投资者的广泛关注。在量化投资受到业界关注的同时,多因子模型在我国证券市场也快速发展。随着上市公司信息披露制度的健全,如何捕捉市场动态以及识别市场动态的驱动因素,就需要一种有效的模型或者方法。因此,研究多因子选股模型在现阶段的中国股市就显得十分重要。目前,研究者大多数是拥有信息优势的机构投资者,研究成果也仅仅是用于在实务投资中获取更多的超额收益,给个人投资者带来不便。

二、研究思路

本研究以中国A股市场定量选股策略为主要研究方向。从定量方法和工具开始,首先确定库存股票池,然后选择候选因子,测试因子的有效性并消除冗余。考虑,评估和改进模型。完成因素筛选后,建立一个模型来筛选库存。最常见的构造方法是通过多元线性回归评估因子与未来收益之间的关系。基于线性回归的多因子模型具有数据挖掘的特征,可从历史数据中挖掘有效因子组合。线性回归方法是利用过去的股票收益回归多个因子以获得回归方程,然后用回归方程替代最新的因子值来预测未来的股票收益,然后以它们为基础。执行库存选择并评估库存选择模型的有效性和回报。回归方程的系数可以认为是选股因子的权重。假设此回归关系可以在下一个周期内保持,我们通过将回归方程替换为最近时期的因子值来获得回归方程的预测值,然后根据预测值对股票进行排序并选择一个更高的值。选择这一组股票作为投资组合。在长期内观察投资收益的稳定性和获利能力。

三、样本描述与数据选取

(一)样本描述

在本研究中,使用了来自沪深300指数的300只股票作为研究对象。样本研究间隔为2014年1月1日至2018年12月31日,共5年。这个时期大致涵盖了股市中所有可能的趋势。使用的数据取自wind信息。

(二)变量选取

大约有十个因子组成一个多因子模型。根据因子的性质,它可以分为价值因子,增长因子,质量因子和动量因子。评估指标包括,市净率,市销率,市盈率和股息率。获利能力指标包括总资产的净利率和净资产收益率。现金流量指标包括现金流量净额/营业收入的净现金流量。资本结构指标包括资产负债率。运营能力指标包括总资产周转率和固定资产周转率。增长能力指标包括:营业利润率、同比增长率、同比净收入增长率、净利润,总资产同比增长率以及净现金流量同比增长率。技术指标包括涨跌幅和换手率。

(三)数据标准化处理

由于样本数据的来源并不统一,会导致不同因子的取值范围存在差异,因此我们首先用Excel对数据中的异常值和缺失值进行了筛选,然后进行数据的标准化处理,用SPSS进行z-score标准化处理,使用公式:yi=(xi-■)/s

为原始数据的均值,s为样本标准差,其中新序列y1y2y3…yi的均值为0,方差为1,且无量纲。

四、实证分析

(一)候选因子有效性检验

由于多因子量化选股模型中不同因子对因变量的影响结果可能不同,因此需要检验筛选出对因变量影响显著的因子。具体方法为:分别用2014-2017年间沪深300中每一支股票经标准化处理后的年平均收益率和对应的候选因子进行时间序列回归,利用Excel、SPSS统计软件帮助回归检验。得到每支股票年平均收益率与对应的该年的各因子的回归系数coefficientβ(i=1,2,……n)(n为300支股票处理之后的可检验的统计量数目)。对有效的β值在5%的显著性水平下进行t检验,原假设H0:回归系数βi=0;备择假设Hi:回归系数βi≠0。以2014年数据为例,检验结果如下表1所示。

从上表可知,在2014年,以沪深300为例预测整个中国股市,有效的因子有市盈率、市净率、净利润增长率和年平均换手率。其中,市盈率和市净率为价值因子,净利润增长率为成长因子,年平均换手率为动量因子。用这些变量来构建后续的基本模型结构。

(二)多因子选股模型构建

以股票收益率为因变量,将上文中通过有效性检验得到的三类因子作为自变量,在价值因子中选取相关性更高的市盈率,以及净利润增长率,年平均换手率作为自变量,建立基于回归法的三因子模型,对2014年沪深300 指数各成分股的收益率进行估计,模型的估计方程为:

YE = 0.242 × PE + 0.067 × NIg + 13.774 × YTO + 44.45723.482

(三)模型适应性检验

将2015年相关因子的取值代入回归方程公式中,得到2015年每只股票的收益率估计值,按照估计值大小对股票进行排序,筛选出排名靠前的10只股票,构建2015年的投资组合。检验该证券组合在2015年1月5日至2015年12月31日的行情中能否稳定地跑赢沪深300指数,以检验上文建立的多因子量化选股模型的实际投资效果。

用股票组合的平均复合收益率减去该年股票市场的基准年收益率可得到超额收益率,结果如表2所示。我们可以发现,2015年利用多因子量化选股模型选出的股票投资组合的平均复合收益率跑赢沪深300指数的基准年收益率,超额收益率为31.32%。因此,2014年构建的多因子量化选股模型通过了模型的适应性检验。对沪深300指数成分股2015-2017年的标准化变量数据重复上述构建模型的步骤,分别得出2015年至2017年3年间不同系数的多因子线性回归方程,并分别将2016至2018年的相应数据代入得到股票收益率的估计值,根据各年不同的多因子量化選股模型构建股票池,选择下一年的股票组合。结合2015年多因子量化选股模型的选股组合,得到库存池在2015—2018年的实际投资收益率,其结果如表2所示。

如果使用上述定量选股模型选择股票并建立投资组合,则可以稳定地超越今年的市场,累计超额收益率达到71.17%,因此采用上述方法构建的定量选股模型为可以看出,可以选择成长的潜在股票,股票投资组合可以赚取超额收益。但是,并非总是可以每一年获得高利润。例如,在整个股市下跌的一年(例如2016年),实际投资回报率接近于零,这表明量化投资是一个长期过程,投资者希望获得更高的回报率、超额收入必须从长远来看,而不是计较短期的损益。

结束语:

通过比较每年建立的多因子选股模型的分析,本文得出以下主要结论:

首先,基于回归的多因子量化股票选择模型是可行且非常有效的。基于该模型的定量股票选择可以充分利用上市公司的价值信息,选择具有成长潜力的股票。通过该模型逐年建立的投资组合基本上跑赢市场基准。可以看出,本文设计的多因子模型在中国股票市场上是可行且非常有效的。其次,影响股票市场中股票收益的变量以及它们之间的相关性也会改变。比较2014年至2018年逐年建立的多因子量化选股模型,可以发现,该模型最终每年都会因为披露因子数据的变化有所不同,这意味着使用多年的累计超额收益率和年化复合平均收益率是不科学的,不合理的,无法筛选出影响股票收益率的固定因子,因此应根据股票市场情况建立量化的选股模型进行研究。

参考文献:

[1]吴荻.中国股市选股模型实证分析[D].复旦大学,2011.

[2]刘毅.因子选股模型在中国市场中的实证研究[D].上海:复旦大学,2012.

[3]王小龙.多因子定价理论和中国股票市场的检验[D].武汉:武汉大学,2015.

作者简介:孙奕迪(1998-),女,汉族,河北省石家庄市人,本科。研究方向:金融,量化投资。