APP下载

基于ARIMA与SVR滚动残差模型组合的股票预测

2022-05-27陈登建杜飞霞夏换

计算机时代 2022年5期
关键词:ARIMA模型金融

陈登建 杜飞霞 夏换

摘  要: 为提高金融市场股票的预测精确度,提出自回归差分移动平均与支持向量机滚动残差模型组合的预测股票方法。以贵州茅台的股票数据为研究对象,借助ARIMA模型实现对股票数据的线性趋势预测,通过滚动残差的SVR回归模型对ARIMA模型的预测残差进行数据修正,得到ARIMA_SVR滚动残差模型的预测值。实验结果表明,相较于传统ARIMA模型,ARIMA与滚动残差SVR组合模型的性能和预测精度都得到大幅提升,具有一定的学术价值和应用意义。

关键词: 金融; ARIMA模型; SVR滚动残差模型; 股票预测

中图分类号:TP183          文献标识码:A     文章编号:1006-8228(2022)05-76-05

Stock forecasting based on the combination of ARIMA and SVR rolling residual model

Chen Dengjian  Du Feixia Xia Huan

Abstract: In order to improve the accuracy of stock prediction, a prediction method based on the combination of autoregressive differential moving average and support vector machine rolling residual model is proposed. Taking the stock data of Guizhou Maotai as the research object, the ARIMA model is used to realize the linear trend prediction of the stock data. The predicted residuals of the ARIMA model are corrected by the SVR regression model of the rolling residuals, and the predicted values of the ARIMA_SVR rolling residuals model are obtained. The experimental results show that compared with the traditional ARIMA model, the performance and prediction accuracy of ARIMA and rolling residual SVR combined model have been greatly improved, which has certain academic value and application significance.

Key words: finance; ARIMA model; SVR rolling residual model; stock forecast

引言

我國股票二级市场的涨跌受到多种因素的影响,由于其不平稳、非线性等特点,导致为实现对股票数据的精确预测变得尤为困难。挖掘股票的波动规律,预测股票涨跌情况,有利于促进中国金融市场的稳定。

我国早期对股票走势预测主要包括对于基本面的分析和技术面的分析。基本面的分析是通过分析公司的运营情况和行业的发展态势,预测该公司股票的未来走势。技术的分析主要是分析金融市场各个因素,例如股票的成交量、成交价格等因素。

随着研究的进展,学者们以时间为维度构建出ARIMA模型,根据股票历史价格走势对股票进行短期预测[1-6]。计算机技术的发展,各种智能算法也越发的成熟,众多学者将机器学习的智能算法应用在股票数据的研究分析。如丁文绢通过构建ARIMA与LSTM神经网络模型,实现股票走势的预测,LSTM神经网络模型相较于ARIMA模型预测误差更小[7];邹菊红借助BP反向传播的神经网络模型实现对于股票价格的预测[8];齐甜方借助Seq2Seq和情感分析实现对于股票波动趋势的预测[9]。

本文选贵州茅台的股票价格数据[1]作为实验的研究对象,提出一种改进的差分自回归移动平均模型(ARIMA)与滚动残差的支持向量机回归模型(SVR)的组合,利用残差数据优化模型的参数,实现对贵州茅台高准确率的预测。

1 研究方法

1.1 ARIMA模型

时间序列是以时间作为自变量,随着时间变化并且互相关联的数据。ARIMA模型是经典的时间序列模型[10],该模型含义表达为将非平稳的序列转化为平稳的序列,用当前变量的滞后项,以及随机的误差值来解释当前变量,模型的输入为时间序列的单变量,该模型的表达式可以用式⑴来表示。

其中ϕi的i取值从1到p,θi的i取值从1到q。其分别代表ARIMA模型参的参数p和q,p是自回归模型的系数,q是移动平均模型的系数。

ARIMA(p,d,q)模型要求当前的时间序列是一个平稳的时间序列,平稳的序列的时间平移长度,可以决定当前函数的自相关与协方差,如下所示:

γ (t,s)表示为序列{Xt}的自相关协方差函数,μ为常数。时间序列进行差分处理后,可以将非平稳的时间序列转为平稳的时间序列,再将AR自回归模型与MA移动平均模型组合成ARIMA模型,该模型完整建模函数为:

函数⑶中Ñ表示差分算法,式⑷代表平滑系数多项式,式⑸代表自回归系数多项式。

本文的ARIMA建模步驟[11]

⑴ 观察数据的平稳性,将非平稳的时间序列利用差分处理转为平稳的时间序列,确定d参数。

⑵ 根据ACF确定自回归模型中参数p,根据PACF确定模型中的参数q。

⑶ 利用历史数据对模型进行训练,预测未来数据。

1.2 SVR模型

支持向量机模型,可以用于样本数据的分类与预测,用于对于连续值的预测称为支持向量机的回归SVR[12]该模型是基于统计学结构风险最小理论作为理论支撑{Yi}(i = 1, 2,…,M),输入N维的样本xi∈Rn进行训练,将样本xi低维度的特征,通过不同函数算法,映射为高维度的空间,输出yi∈R预测值。支持向量的线性函数完成数据的预测任务,SVR回归预测函数的表示为:

式⑹中Φ(x)完成输入数据映射为高维数据,通过梯度下降法,迭代训练,收敛参数w和常数b的值,得到w,b误差最小值,如下所示:

式⑺中C表示正则化系数,相较于普通的回归模型,SVR模型可以调整正则项系数,解决模型的过拟合和欠拟合问题,式中[Lε]为不敏感系数。支持向量机模型中的核函数k(xi,xj)是借助拉格朗日函数和沃尔夫对偶理论将问题转化为二次规划问题找最优,常用的核函数有线性核函数Linear kernel,多项式核函数Polynomial kernel,以及径向基核函数RBF等。

本文的SVR模型的建模步骤

⑴ 将ARIMA预测获得的残差,通过不同次的实验,获取适宜的循环滚动次数。

⑵ 对数据进行切分,获得得到训练集的train_x与train_y,选择核函数,对SVR模型进行训练。

⑶ 模型检验评估。

1.3 ARIMA_SVR滚动残差组合模型

本文选取贵州茅台的股票数据,本文的ARIMA_SVR滚动残差模型组合实现对未来数据的预测的步骤。

⑴ 借助ARIMA对于该数据线性部分数据处理,获得股票的涨幅趋势,以及预测值和残差。

⑵ 借助SVR解决函数的非线性的部分的数据的拟合,利用SVR模型实现残差值进行滚动训练,预测。

⑶ ARIMA模型和SVR模型预测结果叠加,得到最终的预测数据。

2 实例分析

2.1 ARIMA建模

本文选贵州茅台2008年1月至2021年8月的股票数据作为实验数据,如图1所示。

ARIMA建模前,首先需要将采集到的贵州茅台的股票数据进行预处理,再对股票数据进行重新采样。因为六日股市不开放,所以数据中存在断点。通过重新采样,保证数据之间的连续性,提高到数据预测的精确度[13]。对采集到的贵州茅台2008-2021年的股票收盘价数据按月进行重采样,对每个月的数据的总和取得均值,结果如图2所示。可知贵州茅台自2008-2014年间波动起伏大,并未有大幅度的上涨,但是自2016年后股票整体的走势的呈现指数式的上涨的。

股票数据并不平稳,不符合ARIMA对数据的要求,需对数据进行差分处理,转化为为平稳的时间序列才可预测,差分的公式如下:

其中Ñ和Ñs分别为一阶差分算子和周期差分算子;Yt和Yt-1分别表示为当前的实际值与上一个时间的值;B为时间序列的滞后值;s是时间序列的周期。如果经过一阶差分处理后,数据还处于不平稳,可以在一阶的基础上,再次进行一次差分处理,直到序列平稳。

贵州茅台数据差分处理结果如图3所示,蓝色实线Closeing price表示收盘价价格曲线,黄色实线diff_1表示经过对收盘价经过一阶差分处理后的波动情况,绿色实线diff_2表示对在一阶差分基础上的再次差分处理。原数据Closeing price数据不平稳,经过一次差分后的数据就已逐步达到平稳。

自回归AR,可以表示为当前值与序列历史值之间的相关关系。存在相关性才能用当前变量的历史数据[14]实现对自身的预测,可以用自相关图ACF进行初步观测。模型中移动平均模型MA,利用移动平均来消除在预测当中的随机波动,可以用偏自相关函数来确定q的值,该函数用来描述中间项的随机变量对模型的影响,可以用PACF实现对q值的确定。自相关分析和偏自相关分析结果如图4所示。

本文ARIMA模型根据赤池信息准则(Akaike Information Criterion,AIC)准则作为模型选择的参考,AIC是日本统计学家Akaike提出,用以拟合精度与参数个数的加权函数,L表示模型参数个数,k表示模型极大似然函数,函数表达式如下:

最终选择ARIMA(1,1,1),将数据集进行切分,2008年~2017年划分为ARIMA训练数据,对模型进行训练。将2014~2018为ARIMA预测数据,如图5所示。

蓝色的实线是实际的数据,橙色的直线是预测结果,ARIMA模型已经可以大致的预测出贵州茅台股票的增长的趋势,但是实际值与预测值之间的误差还是较大。

ARIMA残差的检验,主要对残差数据的自相关性与正态性进行检验。ARIMA残差应当符合正态分布的性质,若残差数据都集中于0值的附近,那么残差数据就服从正态分布,即这样的残差属于白噪声数据。ARIMA模型的残差检验主要用于判别模型是否已经完全捕捉到数据中的信息,性能良好的ARIMA模型的残差之间不具有相关性,若残差之间具有相关性,说明数据中还有未挖掘的信息,模型需要进一步优化。性能良好的ARIMA模型的残差的均值为0,若不为0说明模型中具有偏差。对数据进行白噪声检验,检验数据的随机性,最终的检测结果如图6所示。

残差Normal QQ图是线性分布则说明模型ARIMA(1,1,1)通过残差白噪声检验,由Standardized residual图可知残差数据符合正态分布,则ARIMA(1,1,1)模型的通过残差检验,且模型性能良好。

2.2 SVR滚动残差模型修正

计算得到残差的值,经过多次实验,最终选定循环滚动4个残差值,将这4个残差作为训练集的特征对SVR模型进行训练,改模型的训练还涉及核函数的选定,本文选择取径向基核函数作为模型的核函数,因为其不受样本参数大小的影响的优点,再多次反复实验发现,对本次贵州茅台的股票数据集有良好的表现,该核函数如下:

选定滚动数据集,对模型进行训练,预测2019年-2021年的股票数据的,结果如图7所示。

从图7可以发现,相较于ARIMA模型的单模型,利用SVR模型循环滚动残差值来修正原模型,已经有了良好的预测效果,模型性能与精度都得到提升。

2.3 预测效果对比分析

分别用ARIMA、SVR和ARIMA-SVR模型对数据对相同的时间区间的真实数据进行预测,通过比较各个模型之间的预测误差进行对比分析。为评价回归模型的性能,本文主要采用平均绝对误差(mean absolute error,MAE)和中位绝对值誤差(mean percentage error,MPE)选用这两个个指标分别对ARIMA(1,1,1)和ARIMA_SVR模型的预测性能进行评估,这两个指标的计算如下所示:

式⑿中yi的表示数据中的真实值,而[yi]表示模型的预测值,式⒀中MAD代表的是数据点Xi到中位数X的绝对值偏差。这两个指标的值越小说明,模型的预测的准确性越高,模型的预测性能越好。

ARIMA,SVR,ARIMA_SVR三个模型的具体的预测值,如表1所示。可见ARIMA_SVR模型的预测误差相较于单个的ARIMA(1,1,1)模型的预测值误差,得到了改善。在ARIMA的预测基础上可以实现预测贵州茅台股票的大体的趋势,实现了对于股票数据的线性预测。基于SVR的滚动残差模型可以对ARIMA(1,1,1)预测的偏差进行修正。

对于ARIMA与ARIMA_SVR模型的预测性能的评估,如表2所示。可以发现相较于单个模型的ARIMA的MAE已经从428降到44.35,MAD从224降到26.71。组合模型有更加良好的预测性能。

3 结束语

近年来,股票受到了越来越多人的追捧。而贵州股票自上市以来股票价格涨幅一直都处于良好趋势,已然成为股民心中的大股票。针对传统的股票预测方法预测精度低的问题,本文提出的基于ARIMA时间序列结合测SVR滚动残差的股票价格的预测模型,以贵州茅台的股票数据作为研究对象进行实证研究。研究结果表明本文方法是可行、有效的,可以为相关的投资者或者公司进行决策时提供参考策略,避免盲目的投资。

本文的研究不足之处在于,仅以时间的维度作为自变量出发,仅反映在时间序列下数据之间的相关性与规律,这样可以实现对于股票数据的短期价格的预测。而股票的涨跌受到多种因素的影响,因此,本模型并不能实现对于股票数据的长期的预测。

参考文献(References):

[1] 袁仁国.危机时代,激发创新与改革的力量[N].贵阳日报,

2013-12-18(003)

[2] Rao T S,Gabr M M.An introduction to bispectral analysis

and bilinear time series models[M].New York:Springer,2012

[3] Zheng T,Farrish J,KitterlinM.Performance trends of hotels

and casino hotels through the recession:an ARIMAwith intervention analysis of stock indices[J].Journal of Hospitality Marketing & Management,2016,25(1):49-68

[4] Rangel-Gonzalez J A,Frausto-Solis J,González-Barbosa

JJ,et al.Comparative study of ARIMA methods for forecastingtime series of the mexican stock exchange[J].Studies in Computational Intelligence,2018,749:475-485

[5] 宋刚,张云峰,包芳勋,等.基于粒子群优化LSTM的股票预测

模型[J].北京航空航天大学学报,2019,45(12):2533-2542

[6] 李超.机器学习模型在股票价格时间序列分析中的应用与

比较[J].电子世界,2021,615(9):66-70

[7] 丁文绢.基于股票预测的ARIMA模型、LSTM模型比较[J].

工业控制计算机,2021,34(7):109-112,116

[8] 邹菊红.基于BP神经网络的改进粒子群优化股票预测[J].

山东工业技术,2021,297(1):34-38

[9] 齐甜方,蒋洪迅.基于Seq2Seq文本摘要和情感挖掘的股票

波动趋势预测[J].管理评论,2021,33(5):257-269

[10] 陈维荣,关佩,邹月娴.基于SVM的交通事件检测技术[J].

西南交通大学学报,2011,46(1):63-67

[11] 李奋华,赵润林.一种基于时间序列分析的股票走势预测模

型[J].现代计算机(专业版),2016(20):14-17

[12] 刘家学,白明皓,郝磊.基于ARIMA-SVR组合方法的航班

滑出时间预测[J].中国科技论文,2021,16(6):661-667

[13] 杨翠娟.基于机器学习方法的金融股票预测研究[D].湖南

大学,2020

[14] 赵杜羽.基于ARIMA模型的深证成指收盘价的分析和

预测[J].老字号品牌营销,2021(8):96-98

收稿日期:2021-10-19

*基金项目:贵州省科技计划项目(No.黔科合基础[2019]1041,No.黔科合基础[2019]1403,No.黔科合基础[2020]1Y279,No.黔科合基础[2020]1Y420); 贵州省教育厅青年科技人才成长项目(No.黔教合KY字[2021]135)

作者简介:陈登建(1997-),男,福建福州人,硕士研究生,主要研究方向:机器学习,自然语言处理。

通讯作者:夏换(1982-),男,湖南永州人,博士,教授,主要研究方向:计算机仿真,大数据分析。

猜你喜欢

ARIMA模型金融
何方平:我与金融相伴25年
君唯康的金融梦
基于时间序列模型的中国出口总额分析及预测
基于R软件的金融时间序列的预测分析
基于Eviews上证综合指数预测
基于ARIMA模型的沪铜期货价格预测研究
对我国进出口总额的预测
组合预测法在我国粮食产量预测中的应用
P2P金融解读
支持“小金融”