APP下载

基于组合模型的股指价格短期预测

2023-06-08关永锋

运筹与管理 2023年4期
关键词:股指分量模态

关永锋, 喻 敏

(1.武汉科技大学 冶金工业过程系统科学湖北省重点实验室,湖北 武汉 430081; 2.武汉科技大学 理学院,湖北 武汉 430065)

0 引言

作为反映一个国家宏观经济状况的“晴雨表”,股指价格的变化直接影响金融市场的稳定以及国民经济的发展。准确的预测模型可以为金融市场的决策提供依据,但是,受经济、政治等因素的影响,股指数据呈现出高度波动的特征,因此,在金融市场中找到一个稳健的股指价格预测方案是一项困难和具有挑战性的任务[1~3]。

目前,常用的预测方法包括时间序列分析模型[4,5]、神经网络算法[6,7]、支持向量机[8,9]等。时间序列分析常用模型为自回归移动平均模型(Auto-Regressive Moving Average model, ARMA),其使用前提是序列必须为平稳的,强行将其用于不平稳数据的预测往往会出现“伪回归”现象;反向传播神经网络(Back Propagation network, BP)运用误差反向传播的思想,弥补了多层神经网络参数学习问题,但容易陷入局部最优;支持向量机模型常用于小样本建模预测,能较好的获取全局最优,但是该算法需要设定的参数过多,缺少使得多个参数同时达到最优的选择方案。

股指价格数据具有非线性、非平稳的特征,在对其进行预测前常常需要经过平稳化、线性化处理,常用的预处理手段包括小波分解[10]、经验模态分解[11,12]等。小波分解算法需面临小波基函数的选择问题,目前尚无统一的选择标准可供参考;经验模态分解算法则从数据自身出发进行自适应分解,无需进行参数的选择,但当原始数据含有较多噪音时,其分解出来的分量会出现模态混叠现象,使EMD分解结果无法表示真实的物理过程。

针对上述问题,本文从两方面入手改进,在预处理手段上,采用改进的经验模态分解算法(HF-EMD)对股指数据进行自适应分解,该算法在信号分解、故障检测[13,14]等领域的应用中取得了良好的效果,能有效改善EMD算法所产生的模态混叠现象;在预测模型的选择上,采用粒子群优化后的极限学习机模型(PSO-ELM)对分解后的各子序列进行预测,与传统的人工神经网络模型相比,ELM模型具有更快的学习速度,在非线性含噪数据的拟合中有较好的效果,在引入PSO算法进行优化后,模型整体的预测精度与鲁棒性也得到了进一步提高。最后,将各分量的预测值进行等权加和获得最终的预测值。以上证指数、日经225指数、恒生指数、标普500指数为代表的四组国内外股指数据进行的仿真实验表明,该组合模型在股指价格短期预测中具有较好的效果。

1 算法与模型

1.1 EMD算法

经验模态分解是由HUANG等[15]提出的一种用于处理非线性非平稳信号的方法,不同于傅里叶变换、小波变换等传统的时频分析方法,它不需进行基函数的选择,而是从信号自身出发进行自适应分解,具有很好的时频聚集性。

EMD算法可以将原始信号分解为一组本征模态函数(Intrinsic Mode Functions, IMF),每一个IMF反映了不同的频率特征。本征模态函数需要满足以下两个特征:

1)在IMF定义域中,极值点个数与零点个数要相等,或二者相差值不超过1;

2)由局部极大值和局部极小值形成的上下包络函数的和要恒为0。

当原始信号为x(t)时,EMD算法的分解流程如下:

1)由x(t)确定全部的局部极大值和局部极小值;

2)用三次样条曲线分别连接所有极大值和极小值,形成上包络线xu(t)和下包络线xd(t);二者的均值为m1(t);令差值为h1(t)=x(t)-m1(t),验证h1(t)是否满足IMF的两个条件。若满足,则h1(t)为第一个IMF分量;若不满足,则用h1(t)替代原始信号x(t),并重复上述步骤,直到满足IMF的两个条件,得到第一个IMF分量;

3)令余项为r1(t)=x(t)-h1(t),用r1(t)替换掉原始信号x(t),对上述三个步骤进行迭代,得到后续的分量,直到最后一个分量hn(t)产生的余项rn(t)小于某一特定值或为一个单调函数时,EMD分解过程结束。

最终,原始信号x(t)可以表示为各IMF分量及余项rn(t)的等权加和。

1.2 改进的EMD算法

EMD算法的分解过程很大程度依赖于原始信号极值点的选取,而股指数据受外界各种因素的影响常常会出现极为强烈的波动,导致其极值点分布不均匀,若强行对其进行EMD分解,会出现模态混叠的现象,大大降低分解效果。但是,在股指价格的预测当中,前人大都直接使用EMD分解方法对股指数据进行分解[11,12]。在此,本文首次将高频谐波抑制EMD算法模态混叠现象的方法应用到股指数据的预处理过程当中。该算法的思路是在EMD分解之前往原始信号中注入适当的高频信号,改变原始信号的极值分布,减弱或“淹没”引起模态混叠现象的高频短时扰动成份,从而使信号包络更自然,减小分解误差,优化EMD算法的分解效果。

对股指价格数据进行实验测试后,发现加入高频正弦谐波信号的频率为原始信号采样频率的1/3倍时,EMD分解出来的IMF分量更平稳,且频率尺度较低的分量的轴对称也更明显,能有效减少模态混叠现象。因此,本文选取幅值为未加入高频信号EMD分解的第一层分量IMF1的平均幅值,频率为1000Hz的正弦谐波信号。具体地,将该高频信号注入上证指数日收盘价序列后进行EMD分解,从分解出来的第一层分量中减掉高频谐波,分解结果如图1所示。未加入高频信号的EMD分解结果如图2所示。图中HF-EMD分解出来的IMF6与EMD分解出来的IMF7相对应,可看出注入高频谐波的EMD分解结果更平稳,并且该分量轴对称性也更明显。其他的分量也存在类似的改善。此外,HF-EMD的分解层数也减少了一层,这有利于减少预测模型的计算量,加快预测速度。

图2 EMD算法的分解结果

1.3 粒子群优化的极限学习机模型

神经网络模型对非线性数据具有较好的拟合效果,常用于股指价格的预测当中[6,7]。极限学习机是基于单隐含层前馈神经网络的一种改进算法,具有学习速度快、泛化能力较好等优点,能克服传统神经网络模型训练速度慢、易陷入局部最优等缺点。

设有M个不同的随机样本(xi,yi)∈Rn。若网络的隐含层神经元个数为L,激活函数为g(x),隐含层第i个节点的输入权值向量为wi,偏置值为bi,输出权值向量为βi,于是SLFN模型可表示为:

(1)

式中,j=1,2,…,M。

依据零误差逼近原则,上述模型能无限逼近M个训练样本,存在βi、wi和bi使得下式成立

(2)

式中,j=1,2,…,M。

对应的矩阵形式为:

Hβ=YT

(3)

式中,H+为隐含层输出矩阵H的Moore-Penrose广义逆矩阵。

粒子群优化算法是一种群智能优化算法,基于“种群”和“进化”的概念,通过个体间的协作与竞争,实现复杂空间最优解的搜索。而ELM模型初始的输入层与隐含层间的连接权值w,隐含层的偏置值b是随机产生的,为减小初始的随机设定所带来的偏差,增加ELM网络的稳定性,本文提出采用粒子群算法优化ELM的初始权值和偏置值。以上证指数日收盘价数据为例对该算法具体步骤的说明如下:

1)确定PSO-ELM模型的拓补结构。采用迭代寻优的方法确定网络的隐含层神经元个数,而网络的输出维数为1,激活函数选择的是Sigmoid函数;

2)粒子群的初始化及更新。本文的种群由ELM的输入层-隐含层的权值w,隐含层的偏置值b组成,群体规模N为10,最大迭代次数为50,粒子维数D为39;粒子速度最大值为1,最小值为-1;粒子位置最大值为5,最小值为-5;学习因子c1、c2均为1.5;以ELM训练集的输出误差作为适度值函数,计算出每个粒子的适度值fiti;将每个粒子的适度值fiti分别与个体极值pbest、全局极值gbest作比较,若适度值fiti更小,则可用其替换掉个体极值pbest和全局极值gbest;而后,通过迭代来更新每个粒子的速度和位置;

3)判断是否达到最大迭代次数或最小误差,若达到则停止,否则继续。

1.4 基于HF-EMD-PSO-ELM的短期预测组合模型

由于股指价格是一类具有非平稳性、非线性性的数据,使用单一模型对其进行预测很难捕获隐藏在原始数据中的所有信息,缺乏数据平稳化处理的过程,而采用多尺度分解算法与单一模型相结合的组合预测[16,17]能获得更好的效果。组合预测模型的思想是从不同角度获取数据的变化信息,集成单一预测模型的优点,避免单一模型预测过程中的误差累积。本文遵循“分解-组合”的思想,提出一种基于HF-EMD以PSO-ELM的股指数据预测模型,如图3所示,该模型的预测流程如下:

图3 本文模型的预测流程

1)向股指价格数据中注入高频谐波,利用EMD算法对其进行分解,获得若干个含不同频率成分的IMF分量,对每个分量数据区分训练集和测试集,并进行归一化处理;

2)对各IMF分量采用PSO-ELM模型依次进行预测,获得各分量预测值;

3)等权累加各分量的预测值获得最终的股指价格预测值。

1.5 指标评价及模型检验

为说明本文模型对于股指价格的预测效果,选取平均绝对误差(Mean Squared Error,MAE)平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)、均方根误差(Root Mean Square Error, RMSE)这三个指标对模型的预测性能进行评价。计算公式如下:

同时,引入Diebold-Mariano(DM)检验用于测试每个模型的残差序列间是否存在显著差异。

2 实证分析

2.1 样本选取和评价指标

本文选取2016.01.01~2019.12.31期间,以上证指数、日经225指数、恒生指数、标普500指数为代表的四组国内外股指指数的日收盘价进行实验分析。由于各国对于股指数据的统计方法存在差异,因此所获取的四组数据的样本数据量不尽相同,在此取各组数据的后100个数据作为测试样本,剩余的数据作为训练样本。图4给出了四支股票日收盘价的走势图,可看出这些序列存在明显的非线性性及波动性。

图4 各支股票收盘价走势

2.2 实验分析及对比

为说明本文所提组合模型的预测效果,选取ARMA、BP、ELM、PSO-ELM为单一基准模型,EMD-PSO-ELM为组合基准模型,与本文模型进行对比。各模型预测结果如图5~图8所示,表1为各模型评价指标的结果。

表1 各模型预测结果比较

图5 上证指数各模型预测效果

图6 日经225指数各模型预测效果

图7 恒生指数各模型预测效果

图8 标普500指数各模型预测效果

从单一模型的角度来看,与ARMA、BP、ELM模型相比,PSO-ELM具有更好的预测效果。以上证指数为例,优化后的ELM模型MAE值为16.2377,相较于其他单一模型中预测效果较好的ELM模型而言,降低了3.77%,其他指标MAPE、RMSE也有显著的改善,这说明结合了ELM模型学习速度快及PSO启发式全局寻优两个优点的PSO-ELM模型能有效提高股指价格数据的预测精度。

从组合模型的角度看,本文模型与组合基准模型的预测效果均高于单一基准模型,这说明引入了多尺度分解手段对股指数据进行预处理后,能有效降低数据的非平稳性,显著提高模型的预测精度。以恒生指数为例,本文模型的MAPE值为35.10%,相较于单一模型中预测性能较好的PSO-ELM模型而言,降低了35.81%,降幅达到了50.50%,其他指标MAE、RMSE也有显著的改善。进一步比较两种组合模型的预测精度,可发现HF-EMD-PSO-ELM模型具有更好的预测效果,以标普500指数为例,本文模型的RMSE为16.0382,相较EMD-PSO-ELM模型而言,降低了3.8444,降幅为19.34%,其他指标MAPE、MAE也呈现出相似的结果。可见,在引入了高频谐波对EMD算法进行改进后,能有效缓解模态混叠现象,有利于把握股指数据的变化规律。

最后,采用Diebold-Mariano检验对各模型的有效性进行检验,将本文提出的HF-EMD-PSO-ELM模型的残差序列与其余5类基准模型的残差序列分别进行DM检验,结果如表2所示。由表可知,在1%的置信水平下,本文模型与单一基准模型的预测精度具有明显差异;在5%的置信水平下,本文模型与组合基准模型的预测精度具有明显差异。

表2 各模型与HF-EMD-PSO-ELM模型的DM检验结果

综上,由于股指价格的波动呈现出复杂的非线性关系,在使用传统分解方法获取股指价格的高频扰动及长期趋势时会产生模态混叠,利用高频谐波改变原始股指价格序列的极值分布再进行经验模态分解,有利于准确提取不同分量的波动特征。同时,利用PSO-ELM模型对各模态分量进行组合预测,能准确反映股指价格的涨跌情况,为投资者的决策提供依据。因此,与传统预测模型相比,本文所提模型能准确把握股指价格的变化规律,有效提高预测的准确性与鲁棒性。

3 结论

本文基于改进的EMD算法和PSO优化的ELM模型,针对股指价格数据非平稳非线性的特征,提出了一种用于股指价格短期预测的组合模型。对近4年国内外四组具有代表性的股指数据进行实证分析,得出以下结论:

1)利用多尺度分解的方法对股指价格数据进行预处理后,能有效提高模型的预测精度。将原数据分解为不同频带的分量后,不仅解决了原数据非线性非平稳的问题,而且还丰富了预测数值的经济含义。同时,将多尺度分解方法与群智能优化算法引入单一模型的改进后,能显著提高股指价格的预测精度,有效避免单一模型在预测过程中的误差累积。

2)利用高频注入法的改进EMD算法(HF-EMD)对股指数据进行分解,能有效改善在仅使用EMD分解时所产生的模态混叠现象,各分量更平稳且轴对称性更好。同时,注入高频后,EMD分解的分量个数有所减少,可减少后续预测的计算量。该方法为股指数据预处理提供了一种新的思路。

猜你喜欢

股指分量模态
帽子的分量
论《哈姆雷特》中良心的分量
平安千亿回购 股指触底回升
股指再度回落 机构逢高减仓
降杠杆引发股指冲高回落
股指震荡走高筑底之日可期
分量
国内多模态教学研究回顾与展望
基于HHT和Prony算法的电力系统低频振荡模态识别
基于瞬时对称分量法的三相四线制D-STATCOM控制研究