APP下载

基于时间序列分析的山东省CPI预测

2020-10-15张洋洋宋长钰

关键词:马尔科夫预测值山东省

张洋洋 邓 伟 宋长钰

( 1) 西南财经大学统计学院,611130,成都; 2) 山东建筑大学理学院,250101,济南;3) 河北大学经济学院,071002,河北保定 )

1 引 言

CPI是反映居民家庭在一定时期购买的消费品和服务项目价格水平变动情况的宏观经济指标,其变动率在一定程度上反映了通货膨胀或紧缩的程度,准确预测短期CPI变动情况对于提高居民生活福利以及维护社会稳定均具有重要意义.自英国统计学家Yule于1927年提出自回归模型(AR)后,国内外学者相继提出移动平均模型(MA)、自回归移动平均模型(ARMA)、求和自回归移动平均模型(ARIMA)等,这些模型奠定了时间序列的基础,被称为经典时间序列分析方法[1].

近年来,国内外学者又提出了许多预测CPI的模型,如:马尔科夫链模型、灰色预测模型、神经网络模型、组合预测模型、统计回归模型等,并根据实际问题对这些经典预测模型不断改进,取得了不错的预测效果.然而,由于CPI受到经济、环境、社会等诸多不确定因素的影响,仅仅采用单一模型无法充分提取数据中蕴含的信息.因此,本文建立了不同的模型:时间序列模型、加权马尔科夫链模型、改进的GM(1,1)模型、组合预测模型,从中寻找预测效果相对更优的模型,为CPI等宏观经济指标的预测提供参考.

2 基本原理

2.1时间序列模型时间序列模型是从序列自相关的角度揭示数据的发展规律,该模型建模步骤包括:数据预处理、模型定阶、模型求解、优化、检验、预测.在建立时间序列模型前需要判断数据是否具有平稳性、纯随机性.根据数据性质确定模型结构,再结合自相关和偏自相关系数的性质确定模型阶数,由最小二乘法估计模型中未知参数,确定模型最终形式,对模型进行显著性检验,寻找相对最优模型,最后依据线性最小方差法进行外推预测.

对于非平稳的时间序列数据主要建立求和自回归移动平均模型,通常简记为ARIMA(p,d,q).该模型具有如下结构:

(1)

Φ(B)=1-φ1B-φ2B2-…-φpBp,

(2)

Θ(B)=1-θ1B-θ2B2-…-θqBq.

(3)

ARIMA(p,d,q)模型具有结构简单,只需要内生变量而不需要其他外生变量就可以做出较好拟合结果的优点,在预测国民经济指标上效果良好[2-4].

2.2加权马尔科夫链模型马尔科夫链模型是一种基于事件发生概率来分析时间序列变化规律并做出预测的方法.主要目的是根据变量现在的情况和变动趋势来预测它在未来某段时期内的变化,以此作为决策的依据.而加权马尔科夫链模型是在经典马尔科夫链模型的基础上对各步的状态转移概率矩阵的预测值赋予不同权重,并将这些预测值的加权和作为最终预测值.该模型的建模步骤包括:划分状态、建立状态转移概率矩阵、马氏性检验、确定各步预测值权重、加权求和.

马尔科夫链的一步转移概率表示随机过程从状态i经一步转移到状态j的概率,由此可构建一步转移概率矩阵P[5]为

pij=p{Xn+1=j|Xn|=i}.

(4)

(5)

根据C-K方程,k步状态转移概率矩阵可由一步状态转移概率矩阵求得[5],即

(6)

计算各阶的自相关系数,归一化处理后得到权重系数为

(7)

2.3改进的GM(1,1)模型灰色模型是利用离散随机数经过生成随机性减弱而规律性增强的生成数而建立起的微分方程形式的模型.用灰色预测模型在数据量较少(6~15)时就可得到较高的预测结果.灰色模型的记号是GM(M,N),其中N表示变量的个数,M表示常微分方程的阶数.一般情况下GM(1,1)模型应用更为广泛[8].改进的灰色预测模型在经典GM(1,1)模型的基础上改进了其原始数据、生成序列或者模型结构,克服了数据具有剧烈变化而不平滑导致模型预测精度下降的缺点.该模型的建模步骤主要包括:级比检验、生成序列、模型求解、模型检验和预测[9].

在建立灰色预测模型前,需先对原始数据进行级比检验,若级比落入级比范围内就可以建立GM(1,1)模型,级比的计算公式为

(8)

设有原始数列x(0)=(x(0)(1),x(0)(2),…x(0)(n)),对原始数据进行累加运算就可以获得累加序列,累加序列中的每一项可由公式计算得到

(9)

定义白化的GM(1,1)灰微分方程为一阶线性微分方程,其形式为

(10)

其中a和b是待识别的参数,a为发展系数,b为灰作用量,用最小二乘法估计模型中的未知参数,得到模型的最终形式为

(11)

对模型进行检验的常用方法有:相对误差Q检验、方差比C检验和小误差概率P检验,可以根据统计量值的大小来划分模型的精度等级.对模型计算得到的预测值是累加序列的预测结果,对其做累减还原可得到未来预测值[8-10].

2.4组合预测模型设时间序列模型和改进的灰色预测模型得到的第i个预测值为fi,i=1,2,…m,wi为第i个单项预测模型的权重.组合模型的任务是在权重和为1的前提下,使组合模型误差的方差最小.线性组合预测模型的形式为[11]

(12)

记Si为第i种单项预测方法的标准差,则标准差法赋予单项预测模型不同的权重分别为[12]

(13)

3 山东省CPI的预测

3.1时间序列模型预测山东省CPI图1为山东省1995年1月至2020年5月CPI时序图.用SAS软件对序列值进行预处理,步骤包括:平稳性检验(表1)和纯随机性检验(表2).

由图1可知,序列非平稳,故对序列进行一阶差分运算,再对差分后的序列做ADF检验考察其平稳性,由表1可知一阶差分后序列平稳.对一阶差分后序列做白噪声检验,由表2可知一阶差分后序列不是白噪声序列,其中仍然含有大量相关信息待提取,应当继续对该序列进行统计分析.

图1 山东省CPI时序图

表1 一阶差分后平稳性检验

表2 纯随机性检验

由上述分析可知一阶差分后序列为方差齐性的平稳非白噪声序列,可以拟合ARIMA(p,d,q)模型.为获得相对最优的拟合模型,根据自相关系数和偏自相关系数确定不同阶数,尝试建立不同的ARIMA(p,d,q)模型.引进AIC和SBC准则作为模型优劣的评价指标,在所有通过检验的模型中寻找使AIC和SBC函数值最小的模型作为相对最优模型,最终得到的模型是ARIMA(2,1,2),其形式为

xt=-1.395 4xt-1-0.673 0xt-2+εt+1.615 9εt-1+0.673 0εt-2.

(14)

模型拟合效果图(图2)中黑色为真实值,红色为模型拟合值,绿色为上下95%置信区间,从图2中可以看出,模型拟合值与真实值较为接近,模型拟合效果较好.由于预测方差仅与预测步长有关,步长越大,预测的方差也越大,所以时间序列数据通常只适合做短期预测.采用ARIMA(2,1,2)模型预测未来五个月山东省CPI分别为102.712、102.912、102.760、102.838、102.831.

图2 ARIMA(2,1,2)模型拟合效果图

聚类结果表明,将误差划分为四类较为合适.处于状态一的误差范围为[-2.9,-1.057),处于状态二的误差范围为[-1.034,-0.108),处于状态三的误差范围为[-0.058,0.674),处于状态四的误差范围为[0.675,2.827].为保证数据的连续性和区间范围的封闭性,将上一区间的最小值和下一区间的最大值的均值作为相邻两区间的间断点.调整后的各状态的误差范围分别为[-2.900,-1.504),[-1.504,-0.180),[-0.180,1.384),[1.384,2.827].根据状态序列构建一步转移概率矩阵

在应用马尔科夫链模型分析时需要满足三个假设条件:预测期系统状态个数不变;系统状态转移概率矩阵不变;状态转移仅受前一状态影响,从时刻t到时刻t+k的状态转移与t无关,仅与k有关.显然最后一条假设也就是要求数据满足马氏性即无后效性,这表明过程将来的状态仅仅与此刻的状态有关,而与之前的状态无关.一般在获得数据后需要对数据进行马氏检验,只有通过检验的数据才可以进一步应用马尔科夫链模型分析.

马氏性检验统计量值χ2=70.401,查表可知数据序列通过马氏检验,即可建立加权的马尔科夫链模型.根据C-K方程,获得2-4步状态转移概率矩阵如下:

计算得出k阶的自相关系数,数值越大就说明k步转移概率矩阵预测结果越稳定,应对其赋予较大的权重[13,14].按照这一思想得到1~4阶权重分别为0.011, 0.054,0.043,0.032.选取2020年2月至2020年5月这四期误差数据,先将权重乘预测状态转移概率矩阵对应的各行,然后将预测状态转移概率矩阵各列元素相加,得到各状态最终的概率值[15],最终计算出ARIMA模型预测的2020年6月山东省CPI误差所属的状态概率分布,计算结果如表3所示.

表3 2020年6月误差状态概率分布

由最大隶属原则可知,概率分布中的最大值所对应的状态就是该期误差最可能的状态,由表3可知:2020年6月预测的误差值最有可能处于状态四,取状态四对应的误差范围区间端点的平均值1.751作为误差的预测值.2020年6月CPI预测值为ARIMA(2,1,2)模型预测值与加权马尔可夫链模型预测值之差,即100.961.

对于后续的预测有两种做法:一种方法是将新的预测值计入观察值序列,重新构建马尔科夫链模型,重复该过程进行逐期预测;另一种方法是将新的预测值代入观测值序列后,删除原始数据的第一个数据,使样本量始终不变,再构建马尔科夫链模型得到预测数据[16].经实例验证,第二种方法的预测精度更高.在本文中也将采用第二种方法.

将2020年6月的预测值代入原始数据,去掉1995年1月数据,重新建立加权马尔可夫链模型,得到2020年7月误差最可能处于状态四,所以2020年7月山东省CPI预测值为101.161.同样地,可以得到2020年8月至2020年10月山东省CPI预测值分别为101.008,101.086,101.080.

x(0)=(x(0)(1),x(0)(2),…x(0)(9))

=(106.200,105.979,105.700,105.311,104.800,104.209,103.600,103.123,102.900).

对所得到的生成序列进行级比检验,根据公式计算级比范围为(0.717,1.396),计算改进的生成序列可知级比均落在该范围内,因此可建立改进的GM(1,1)模型.对山东省CPI序列值进行一次累加后,CPI增长率呈现出线性增大的特点(普遍规律),而在局部出现了稍微的跳跃(特殊现象),建立满足初始条件的白化模型,由最小二乘法估计未知参数值得到模型形式为

x(0)(k+1)=[x(0)(k)-23 230.960]e-0.005+23 230.960.

(15)

用建立好的灰色预测模型对原始数据进行拟合,计算方差比检验C统计量为0.009,对比灰色预测精度检验对照表,可知精度为Ⅰ级,可见模型预测效果良好.利用改进的GM(1,1)模型预测得到未来五个月山东省CPI分别为102.318,101.851,101.386,100.923,100.462.

3.4线性组合预测模型预测山东省CPI由于单项模型预测时只能从某个方面来提供有效信息,还受限于模型的设定形式,因此接下来考虑组合预测模型[17].本文将对时间序列模型和灰色预测模型赋予不同的权数,得到相应的组合预测模型.

由计算可得ARIMA(2,1,2)模型和改进的GM(1,1)模型的预测误差均方误差分别为0.714和0.102,可见ARIMA(2,1,2)模型预测方差较大,处理预测精度较低,应在线性组合预测模型中被赋予较小权重.对这两个单项预测模型的预测标准差进行归一化处理,得到上述两个模型在线性组合预测模型中所占权重分别为w1=0.125,w2=0.875.按照线性组合预测模型公式拟合原始数据,可以预测得到未来五个月山东省CPI分别为102.367,101.983,101.557,101.162,100.758.

4 结 论

拟从两个方面对上述四种模型预测结果进行分析:一是从统计学的角度对其预测结果的合理性进行比较分析,找出相对更合理的模型及其预测结果;二是从经济学的角度对得到的预测结果进行分析,即从经济解释方面分析其合理性.

4.1预测结果及分析各模型的预测结果如表4所示.

表4 各模型预测结果

比较上述模型的预测结果可以发现:

1) 加权马尔科夫模型的预测结果小于时间序列模型,这是因为使用马尔可夫模型对时间序列模型的预测误差进行修正时,预测误差都为正值,导致时间序列模型预测值与修正后的预测误差之差小于时间序列模型预测值.计算该模型的均方误差为2.063,这一均方误差较大,表明预测效果并不理想,若对残差序列使用其他聚类方法或更改聚类数可能提高预测精度.

2) 灰色预测模型预测结果略小于时间序列模型预测结果,这是由于灰色预测模型仅考虑了最近五个月的数据,而这一阶段山东省CPI有下降的趋势,用这种方法可能会低估未来五个月山东省CPI的预测值.计算时间序列和灰色预测模型的均方误差分别为0.624和0.016.由这两个模型所组成的线性组合预测模型的均方误差为0.009.组合预测模型的预测结果表明未来五个月山东省CPI将在101.5%左右.基于ARIMA(2,1,2)与改进的GM(1,1)模型所构成的线性组合预测模型误差均方误差最小,在误差可接受的范围内预测效果相对更好.该模型可作为今后预测山东省乃至全国CPI的参考模型.

3) 加权马尔可夫模型对不同时期的数据采用不同的权重,充分运用原始信息,具有一定的实际应用价值,是一种合理预测CPI的方法.时间序列模型结构简单,只需要内生变量而不需要其他外生变量就可以做出较好的拟合结果,但该模型仅适用于有限次差分后平稳的序列,本质上只能捕捉线性关系,无法很好地刻画非线性序列所蕴含的数据规律.改进的GM(1,1)模型适用于因素众多、结构复杂、综合性强、涉及面广的社会经济系统,但这种模型仅仅基于指数率的预测,没有考虑系统随机性和序列值之间的相互影响.线性组合预测模型恰恰弥补了上述两种预测模型的不足,可以深入挖掘数据蕴含的规律[17,18].

4.2经济解释及建议同比来看,2019年6月-10月山东省CPI分别为102.8,103,102.5,103,104.3,高于2020年同期山东省CPI预测结果.就预测结果自身而言,未来5个月,山东省CPI增长率将在1.5%左右,消费价格水平相对比较平稳.究其原因如下:1) 2019年受“非洲猪瘟”疫情因素影响,国内猪肉市场出现了一定程度的供不应求情况,猪肉价格水平上涨明显,从而带动了牛羊肉、鸡蛋等其它相关生活必需品价格的上涨,CPI值相应偏高.2) 2020年受新冠肺炎疫情影响,国内经济遭受一定程度的冲击,就业压力和经济下行压力在一定时期内仍然较大,居民消费疲软,消费预期也不乐观,再加上国际市场需求下滑,导致了国内需求不足,在国家出台了一系列保就业、稳生产的政策后,CPI值相对稳健.

总的来说,所选择的模型预测结果比较符合山东省经济运行的实际情况,具有较高的可信水平.根据上述预测结果,提出如下建议:1) 在继续稳定物价的基础上,采取价格补贴等方式,努力扩大居民消费.居民消费的增加不仅可以促进消费品需求的增加,还可以促进资本品需求的增加,从而既可以保障居民基本生活水平,还有利于增加生产,带动经济的持续稳定增长.2) 针对消费预期不乐观问题,建议在短期内采取一系列积极的财政政策,保障居民收入,扭转经济预期,提振消费信心.

猜你喜欢

马尔科夫预测值山东省
山东省交通运输研究会正式成立
基于三维马尔科夫模型的5G物联网数据传输协议研究
RCEP对山东省高质量对外开放的影响
加拿大农业部下调2021/22年度油菜籽和小麦产量预测值
眷 恋
——山东省济宁市老年大学之歌
±800kV直流输电工程合成电场夏季实测值与预测值比对分析
基于叠加马尔科夫链的边坡位移预测研究
AI讲座:ML的分类方法
基于改进的灰色-马尔科夫模型在风机沉降中的应用
山东省即墨市