APP下载

ARIMA与GM(1,1)模型对我国肺结核年发病人数预测情况的比较*

2019-03-18潍坊医学院261053

中国卫生统计 2019年1期
关键词:肺结核病乘积差分

潍坊医学院(261053)

孙 娜 许小珊 冯佳宁 马 洁 黄 璐 田 野 杜泽玉 孟维静 王素珍△ 石福艳△

s

国家掌握肺结核的发展情况,有利于及时制定方针政策,更好的做到“早发现、早隔离、早治疗”,从而及时做好肺结核的防治工作[1]。本次研究利用2011年至2016年我国肺结核的发病人数,分别构建ARIMA乘积季节模型和GM(1,1)模型,采用平均绝对百分误差(MAPE)来评价模型的拟合效果,并给出肺结核发病人数的预测值,为我国传染病应急预案的制定提供依据。

资料与方法

1.资料来源

研究中使用的2011年至2016年肺结核的发病人数资料来源于中国疾病预防控制中心发布的中华人民共和国国家卫生和计划生育委员会公报。利用2011年至2016年肺结核的月发病人数拟合ARIMA乘积季节模型,利用2011年至2016年肺结核的年发病人数拟合GM(1,1)模型。

2.分析方法

分别利用ARIMA乘积季节模型和GM(1,1)模型拟合我国肺结核的发病人数,用于我国肺结核发病人数的预测,并通过比较平均绝对百分误差(MAPE)得到拟合效果较好的模型。

(1)ARIMA乘积季节模型

当序列既具有短期相关性还存在季节效应,同时短期相关性和季节效应通过加法模型无法充分、有效提取时,就可以使用乘积季节模型来进行拟合。

(2)ARIMA乘积季节模型的构造原理

当原始序列具有季节效应,季节相关性可以通过以周期步长为单位的ARMA(P,Q)模型提取;当原始序列具有短期相关性时,一般可通过低阶ARMA(p,q)模型提取。当短期相关性和季节相关性之间具有乘积关系时,我们要拟合模型的模型则为ARMA(p,q)模型和ARMA(P,Q)模型的乘积。

(3)ARIMA乘积季节模型的建模流程

①平稳性检验:根据时序图显示的特征与ADF单位根检验结果判断序列的平稳性。②白噪声检验:对平稳序列进行白噪声检验,若序列为白噪声序列则分析结束,若序列不是白噪声序列则进一步拟合ARMA模型。③拟合ARMA模型。

其中拟合ARMA模型的过程主要包括:①计算得到平稳后序列的样本自相关系数(ACF)与样本偏自相关系数(PACF)的值。②根据样本ACF和PACF,选择合适的ARMA(p,q)模型进行拟合。③运用极大似然估计法估计模型参数。④模型的检验。当拟合模型不能通过检验时,则重新进行步骤(2)。⑤模型的优化。当拟合模型检验通过了,仍然重新进行步骤(2),拟合新的模型,并且通过AIC和SBC最小原则选择最优模型。⑥预测。利用所选的最优模型进行预测。

(4)GM(1,1)模型的建立

利用灰色预测法来拟合GM(1,1)模型[2]。设时间序列x(1)有n个观察值,x(1)={X(0)(1),X(0)(2),…,X(0)(n)},通过一次累加生成以弱化其随机性,强化其规律性的序列X(1)={X(1)(1),X(1)(2),…,X(1)(n)},则GM(1,1)模型相应的微分方程为:

式中,a称为发展灰数,μ称为内生控制灰数。利用最小二乘法求解a和μ,可以得到预测模型:

(5)GM(1,1)模型的检验

(6)外推预测

若所建模型的残差检验、后验差检验和关联度检验均符合条件,我们就可以用该模型进行预测,预测公式为:

以2011-2016年我国肺结核发病人数为原始序列,利用SAS 9.4调用IML宏程序建立肺结核发病人数预测模型[4],然后对模型进行检验,检验通过后,运用该模型预测我国2017-2018年肺结核的发病人数。

(7)ARIMA与GM(1,1)模型效果评价

本次研究采用平均绝对百分误差(MAPE),比较ARIMA乘积季节模型和GM(1,1)模型两种模型在预测我国肺结核年发病人数中的效果。

MAPE=(∑|(xi-x)/x|*100%)/n

式中xi与x分别代表为预测值和实际值。

结 果

1.ARIMA乘积季节模型建立

(1)判断序列的平稳性

图1 2011-2016年我国肺结核发病人数时序图

时序图显示,该序列具有明显的单调递减的趋势,同时也具有周期变化规律。我们尝试进行1阶差分,实现其趋势平稳;进行12步差分,提取其中的周期信息。

时序图显示,差分后序列在0附近比较稳定地波动,可以初步认为差分运算后的序列平稳。ADF单位根检验结果如表1所示。

由于ADF单位根检验结果显示检验统计量所对应的P值均小于0.05。因此,可以认为经过差分后的序列已经平稳。

(2)白噪声检验

图2 差分后序列时序图

表1 增广 Dickey-Fuller 单位根检验

表2 差分运算后序列白噪声检验

在检验的显著性水平取0.05的条件下,由于延迟6阶的卡方统计量的值为23.16,P值为0.0007,小于0.05,所以该差分后的序列不能视为白噪声序列,即差分后序列还蕴含着相关信息可供提取。

(3)ARIMA模型识别

图3 差分后序列自相关图

样本自相关图显示延迟12阶自相关系数显著大于2倍标准差范围,这说明差分后序列中仍蕴含着非常显著的季节效应。而且延迟1阶的自相关系数也大于2倍标准差,这说明差分后序列还具有短期相关性,考虑拟合乘积模型ARIMA(p,d,q)(P,D,Q)s。根据ACF图和PACF图所显示的特征,认为12阶以内的自相关图1阶截尾,偏自相关图拖尾,尝试ARMA(0,1)模型提取成分后序列的短期相关信息。一般P、Q阶值比较难判断,根据有关文献[5]提示,P、Q阶值通常不会超过2阶,所以我们对P、Q分别取0、1、2,由低阶到高阶逐个实验,根据AIC和SBC最小原则选择最优模型[6]。最终得到的可以充分提取序列信息的模型有以下两个:

图4 差分后序列偏自相关图

表3 ARIMA(p,d,q)(P,D,Q)s模型的组合与最优模型的选取准则检验

根据AIC和SBC最小原则确定最优模型为ARIMA(0,1,1)(0,1,1)12。

(4)ARIMA模型参数估计与模型检验

运用极大似然估计法估计模型参数。

表4 ARIMA(0,1,1)(0,1,1)12模型参数显著性检验

模型参数检验的检验统计量的P值都小于0.05,因此,在显著性水平为0.05条件下,可以认为模型参数值与0之间的差异具有统计学意义。

表5 ARIMA(0,1,1)(0,1,1)12模型残差白噪声检验

延迟各阶的LB统计量的P值均大于0.05,所以拟合的ARIMA(0,1,1)(0,1,1)12模型成立。拟合模型的具体形式为▽▽12xt=(1-0.83148B)(1-0.73177B12)εt

根据拟合出的ARIMA(0,1,1)(0,1,1)12模型得到2017-2018年我国肺结核的月发病人数依次为82561、78303、109046、103622、99448、92873、93436、90499、86277、79478、82595、83082、78809、74552、105295、99871、95697、89122、89685、86748、82525、75726、78844、79330人。因此,2017-2018年我国肺结核的年发病人数依次为1081220、1036204人。

2.GM(1,1)模型

以我国2011-2016年肺结核发病人数为原始序列,运用SAS 9.4计算得出模型参数a=0.053161,μ=1469122.88,因此,应用GM(1,1)模型建立我国肺结核发病人数预测模型:

(1)残差检验

表6 预测值与真实值之间的比较

结果显示,所有的相对误差均小于0.05,所以该模型可以通过残差检验。

(2)后验差检验

经检验,后验差C值为0.17385,小概率P值为1.00,模型预测精度等级为好[3],可以将该模型用于外推预测。

(3)关联度检验

运用SAS 9.4进行计算,结果显示,关联度r=0.63042>0.6,满足检验准则。因此,模型通过了关联度检验。

(4)肺结核发病人数的预测

根据拟合的GM(1,1)模型进行肺结核发病人数的预测。预测我国2017-2018年肺结核的年发病人数依次为1042909、988915人。

3.模型效果评价

根据模型预测结果,计算2011-2016年两模型的MAPE值。肺结核年发病人数ARIMA乘积季节模型和GM(1,1)模型MAPE分别为1.70%和1.45%。通过比较MAPE可以发现GM(1,1)模型拟合效果要好于ARIMA乘积季节模型。

讨 论

目前在时间序列预测中应用比较多的模型就是ARIMA乘积季节模型和GM(1,1)模型。本研究中运用GM(1,1)模型和ARIMA乘积季节模型对我们肺结核发病人数进行拟合,用于比较ARIMA乘积季节模型和GM(1,1)模型在我们年肺结核发病人数预测中的准确性。两种模型拟合均通过了模型检验,均可用于我国肺结核发病人数的外推预测,通过比较两种模型的MAPE可以发现,GM(1,1)模型的MAPE小于ARIMA乘积季节模型的MAPE。因此GM(1,1)模型对我国肺结核年发病人数的拟合效果高于ARIMA乘积季节模型。可能是因为我们在进行年发病人数预测时,体现不出ARIMA乘积季节模型的预测优势。但是,通过ARIMA乘积季节模型可以得到我国肺结核的月发病人数,也具有其独特的优势。

运用所得到的GM(1,1)灰色预测模型预测我国未来两年肺结核的发病人数依次为1042909、988915人。预测结果显示,我国2017-2018年肺结核的发病人数将呈现出下降的趋势,但是其发病数仍然处于较高的水平。

肺结核是慢性传染性病,其流行趋势是有规律可循得,因此疾病预防控制中心应积极采取综合措施,聚焦重点人群、强化业务知识培训、全面深入推进全民肺结核预防策略与措施的宣传,提高公众对肺结核预防知识的知晓率[7],更好的做到“早发现、早隔离、早治疗”,从而提高肺结核病人的发现率。疾病预防控制中心还应该采取措施强化联防联控,在宣传肺结核预防策略与措施的同时宣传现代肺结核治疗策略与措施,让公众更好地了解到国家对肺结核病人所采用的政策与措施,使肺结核的病人可以得到规范的治疗和管理,从而使肺结核病人的治愈率得到提高。对于确诊为肺结核的患者,我们应该根据他们的实际病情,及时的采取有效的治疗措施,对患者的病情进行控制,才能有效控制传染源,从而降低肺结核病人的传染率。对于肺结核的病人,我们还应该及时的掌握病人的病情资料以及药物的使用情况,督促病人及时用药,加强肺结核病人规律治疗的意识,避免不规律服药造成的治疗失败等后果。对肺结核病人进行长期的追踪治疗,还可以及时获得他们的病情详细资料,为将来对肺结核的观察性研究提供资料。

猜你喜欢

肺结核病乘积差分
RLW-KdV方程的紧致有限差分格式
符合差分隐私的流数据统计直方图发布
健康教育对于肺结核病防控管理的效果研究
数列与差分
乘积最大
2008—2018年南昌市肺结核病的流行病学特征分析
最强大脑
最强大脑
“无限个大于零小于1的数的乘积不等于零”的一则简例
相对差分单项测距△DOR