APP下载

组合模型对肺结核发病趋势的预测研究

2014-02-08陈银苹吴爱萍余亮科许雅丽张静宇曹燕花

中国全科医学 2014年21期
关键词:迁安市残差传染病

陈银苹,吴爱萍,余亮科,许雅丽,蒋 宁,杨 阳,张 锦,张静宇,曹燕花

肺结核是我国发病、死亡人数最多的重大传染病之一。根据2010年全国第五次结核病流行病学调查结果,估算我国全人群活动性肺结核患病率为392/10万,其中传染性肺结核患病率为100/10万。据此估算2010年我国现有活动性肺结核患者总数为523万,其中传染性肺结核患者总数为134万,占全球发病的14.3%,仅次于印度[1]。本文运用自回归积分移动平均(ARIMA)-灰色模型(GM)组合模型对迁安市2004年1月—2012年12月的肺结核逐月发病率进行拟合,并预测该市2013年肺结核逐月发病情况,以探讨使用此模型预测肺结核未来发病率,为加速防控肺结核提供依据。

1 资料与方法

1.1 资料来源 迁安市2004年1月—2012年12月肺结核的发病资料来源于中国疾病预防控制信息系统中疾病监测信息报告管理系统,相应的人口学资料来源于中国疾病预防控制信息系统的基本信息系统。

1.2 ARIMA模型

1.2.1 ARIMA模型原理 ARIMA模型是由博克思(Box)和詹金斯(Jenkins)于20世纪70年代初提出的著名时间序列预测方法,又称为Box-Jenkins模型、博克思-詹金斯法[2]。医学研究中,某些传染病的发生发展规律随时间而变化,将这组依赖于时间变化的变量称之为时间序列资料,就是依赖于时间(t)的数据,记作:Y1,Y2……Yt。如肺结核就是一种随时间而发生有规律变化的传染病,可以用t函数关系来描述其发生及变化规律。

1.2.2 建模步骤 (1)预处理数据;(2)模型的识别:采用最小二乘估计等方法对识别阶段提供的粗模型进行参数估计并假设检验,确定赤池信息量准则(AIC)值〔或贝叶斯信息准则(BIC)值〕最小的模型[3];(3)参数估计及模型诊断:模型是否合适需要对其拟合优度进行检验,如果残差序列不是白噪声序列,则需要重新建立模型,重复上述步骤直到残差序列是白噪声序列为止;(4)预测:包括点预测和区间预测。

1.3 GM(1,1)模型

1.3.1 GM(1,1)模型原理 灰色系统理论是我国学者邓聚龙教授于19世纪80年代初提出的,主要内容包括以灰色朦胧集为基础的理论体系,以灰色关联空间为依托的分析体系,以灰色序列生成为基础的方法体系,以GM为核心的模型体系,以系统分析、评估、建模、预测、决策、控制、优化为主体的技术体系。GM(1,1)模型的核心思想是利用离散随机数经过生成(其中包括累加、累减生成、均值生成等)变为随机性被显著削弱而且较有规律的生成数,建立起微分方程。GM(1,1)模型实质是一阶一个变量的微分方程模型,是一阶n个变量的微分方程模型GM(1,n)中最基本的模型[4]。

1.3.2 建模步骤 设由n+1个原始数据组成的原始数据组成的原始数列为 (t=0,1,2……n),其建模具体步骤[5]如下:(1)累加生成;(2)均值生成;(3)建立GM(1,1)模型的一阶线性微分方程;(4)计算 的估计值。

1.4 ARIMA-GM组合模型 由于肺结核发病率的历

本文创新点

本研究运用时序图对唐山迁安市肺结核发病率数据进行描述性分析后,发现肺结核发病率的历史数据中既有线性趋势又有非线性趋势,因此提出一种基于时间序列的自回归积分移动平均(ARIMA)模型和灰色模型(GM)(1,1)的组合模型。利用ARIMA季节乘积模型对周期型时间序列提取线性信息,然后用一带阈值的GM(1,1)模型对其残差进行修正提取非线性特征信息,最后结合二者结果构造出对肺结核发病率预测的组合预测方法,以弥补ARIMA模型非线性映射性能弱的不足,并将指标C值、P值结合平均绝对误差(MAE)、平均绝对百分比误差(MAPE)综合评价模型精度以筛选最佳预测模型。结果显示带阈值的ARIMA-GM组合模型的MAE为0.965 7,MAPE为18.63%,均比单个模型小,证明组合模型确实可以提高预测精度。ARIMA-GM组合模型较好地拟合了唐山迁安市肺结核发病情况,预测结果能够对肺结核的早期预测预警模型的建立提供借鉴。

史数据中既有线性趋势又有非线性趋势,因此可以先使用ARIMA季节乘积模型预测肺结核发病率,获得每个实际观察值的ARIMA模型拟合序列及残差序列,对残差序列用一阈值更新为非负序列,然后用GM(1,1)模型预测ARIMA季节乘积模型的残差序列。将以上ARIMA季节乘积模型的肺结核发病率预测值和GM(1,1)模型预测的残差预测值综合一起,即得到组合模型对2013年迁安市肺结核发病情况的预测值。

1.5 统计学方法 利用Excel 2003建立迁安市2004—2012年肺结核发病人数和人口数的数据库,并用Excel 2003和SPSS 13.0统计软件进行数据分析。

2 结果

2.1 ARIMA模型的建立 本资料肺结核月发病时间序列具有季节波动性,即该序列不是平稳序列。差分是消除时间序列趋势,达到时间序列平稳化目的常用的方法,因此进行季节性差分后得出自相关图和偏自相关图(见图1)。

经一次季节性差分后消除了季节波动性的影响,自相关关系图(ACF图)呈现逐渐衰减趋势,处理后的序列符合运用ARIMA模型的条件(见图1)。可初步确定形式为ARIMA(p,d,q)(P,1,Q)12,这是一个综合了连续模型和季节模型的复合季节模型,其中季节以12个月为周期。

对模型ARIMA(p,d,q)(P,1,Q)12中p、d、q、P和Q各参数采取从低阶到高阶逐个进行尝试的办法,而模型阶数过高会造成过拟合,各阶数限定在0~2,选取参数有统计学意义的部分模型的结果及拟合优度检验见表1和表2。

图1 迁安市2004—2012年肺结核发病率(1/10万)经季节差分自相关系数与偏自相关系数图

Figure1 Plotting of the incidence of pulmonary tuberculosis after seasonal difference in Qian′an from 2004 to 2012

根据AIC、BIC信息准则以及简约性原则,选择AIC、BIC、标准误差均最小的模型,模型最终确定为ARIMA(0,1,1)(0,1,1)12。对该模型的残差序列进行白噪声检验,残差自相关系数均很小且不表示出任何特征,按α=0.05水准,检验结果表明残差不存在自相关,即残差是一个随机序列,因此可以确定肺结核发病率的预测模型(见表3)。

2.2 GM(1,1)模型残差序列分析 针对ARIMA(0,1,1)(0,1,1)12模型得到残差序列,取阈值为4。然后利用GM(1,1)模型预测带阈值的残差序列,预测模型通过了精度检验(C=0.573,P=0.805),所建立的模型拟合精度为基本合格,再进一步将该残差序列还原后得到GM(1,1)模型预测的残差序列。然后运用平均绝对误差(MAE)、平均绝对百分比误差(MAPE)对2004—2012年发病率进行检验,组合模型的MAE、MAPE都比单个模型小,说明该组合模型预测精度较高,且由MAPE的评价标准可知,组合模型的预测结果为良好预测(见表4)。

表1 ARIMA(p,d,q)(P,1,Q)12不同参数组合拟合后的部分结果

Table1 Parts of the parameters′ estimates for the ARIMA(p,d,q)(P,1,Q)12model

模型AR1MASAR1SMA常数项ARIMA(1,1,0)12 β---0516--0182 t值---6158--1840 P值-- 0000-0069ARIMA(0,0,1)(0,1,1)12 β--0084--0958-0176 t值--0913-1795-3801 P值-0364-00760000ARIMA(1,0,0)(0,1,1)12 β0113--0983-0176 t值1245--0755-3871 P值0216--04520000ARIMA(0,1,1)(0,1,1)12 β-0850-09440004 t值-15729-24180527 P值-0000-00180599

注:-无此项;AR1=1阶自回归模型,MA=滑动平均模型,SAR1=1阶季节性自回归模型,SMA=季节性滑动平均模型

表2 备选模型拟合优度统计量

Table2 Goodness-of-fit results among ARIMA(p,d,q)(P,1,Q)12models

模型AICBIC标准误差对数似然ARIMA(1,1,0)121979-169839343679348807ARIMA(0,0,1)(0,1,1)121359-161765329530337223ARIMA(1,0,0)(0,1,1)121324-161863329727337420ARIMA(0,1,1)(0,1,1)121459-163736333472341133

表3 ARIMA(0,1,1)(0,1,1)12模型残差检验结果

Table3 White-noise test of the residuals of ARIMA(0,1,1) (0,1,1)12model

时滞自相关系数标准误Box-Ljung统计统计量 自由度 P值1-004101010168106822007901000789206743009601001714306344-011900993142405345002500993203506696-006600983659607237-006500984096707698-0058009744518081490043009746499086410-00530096495410089411-00220095500611093112-003800955163120952

2.3 ARIMA-GM组合模型预测结果 将以上ARIMA季节乘积模型的肺结核发病率预测值和GM(1,1)模型预测的残差预测值综合一起,就得到了组合模型对迁安市2013年肺结核月发病率的预测值(见图2)。

表4 ARIMA模型、GM(1,1)模型及组合模型预测残差结果比较(2004—2012年)

Table4 Results of the residuals accuracy of ARIMA,GM (1,1) and combination models (from 2004 to 2012)

模型平均残差MAEMAPE(%)ARIMA模型-001100143647GM(1,1)模型 001099652105ARIMA-GM组合模型 001096571863

注:MAE=平均绝对误差,MAPE=平均绝对百分比误差

3 讨论

肺结核是我国发病、死亡人数最多的重大传染病之一,对人们的健康造成了严重的威胁,特别是耐药菌株的出现,给我国卫生系统带来了很大的挑战。肺结核的预测是结核病防治工作中非常重要的一个环节。随着预测理论及预测技术的发展与完善,越来越多的统计理论、预测方法及统计模型被应用于传染病的预警和预报,但对一个地区来说,传染病流行的影响因素错综复杂。因此,对某单一因素的分析不能全面把握传染病的流行特征及规律,而且各种模型的应用条件不同,对相同的传染病发病资料拟合不同的预测模型,其拟合的准确性可能不同[6]。

ARIMA模型的优势在于时间序列分析可将多种影响疾病发生、发展的因素包括未知因素的综合效应统一蕴含在时间变量中[7],通过综合考虑序列的趋势变化、周期变化和随机干扰并借助统计模型进行量化表达,且可以通过反复识别及修改以获得更为满意的模型,且其过程简便、经济、适用,短期预测精度较高[8];而建立季节ARIMA模型时,季节差分使得模型需要比较大的样本容量,另外当实际问题比较复杂时,模型的定阶也变得困难,这就需要应用者对实际资料的特点有深刻的理解,并不断积累经验,才能获得更合适的模型。灰色系统理论是由中国学者邓聚龙教授于20世纪80年代初创立的,主要应用于复杂系统中某一主要变量特征值的拟合和预测,以揭示该主要变量随时间的变化规律和未来的发展态势,在一定程度上克服了传统预测模型多建立在数理统计基础上、并需要大量样本和典型概率分布的局限性,一定程度上有助于减少时间序列的随机性和提高预测精度;但GM(1,1)只能用于数据离散较小且发展趋势呈单调性的情况,无法分析系统的波动规律[9],并且远期预测误差较大。

本研究考虑到肺结核发病率的历史数据中既有线性趋势又有非线性趋势,因此提出一种基于ARIMA-GM的组合模型,利用ARIMA季节乘积模型对周期型时间序列提取线性信息,然后用一带阈值的GM(1,1)模型对其残差进行修正提取非线性特征信息,最后结合二者结果构造出对肺结核发病率预测的组合预测方法,以弥补ARIMA模型非线性映射性能弱的不足,从而提高预测的精度。结果显示ARIMA-GM组合模型的MAE为0.965 7,MAPE为18.63%,均比单个模型小,说明组合模型确实可以提高预测精度。

但实际建立拟合模型时还应注意到,要提高组合模型的预测精度不仅取决于每个单一模型的优劣,还应该考虑到各种其他影响数据的外在因素,得到的模型才会更接近真实数据,预测效果才会更优,也可以把其应用在其他数据的预测上。目前,我国针对几种主要的传染病均通过立法的形式进行长期监测和网络报告,但针对影响传染病发生、发展的各种自然、社会因素监测数据的收集却并不充分,这些均影响了数学模型预测传染病疫情的准确度[10]。因此,为提高模型预测的准确度和精度,应全面收集影响传染病发生的相关因素,建立可以考虑到影响因素的预测模型[11]。在进行肺结核发病情况预测时,尽量综合考虑和比较多种模型的预测效果,选择适合本地区的预测模型进行预测;其次,应不断更新数据对模型进行重新拟合且谨慎使用统计模型的预测结果。在实际工作中对肺结核发病率的预测常很难做到绝对的准确,但总体上完全可以为公共卫生人员预测疫情发展趋势和及时采取控制对策提供可靠的科学依据。

图2 迁安市2004—2012年肺结核月发病率及2013年肺结核预测月发病率

1 World Health Organization.Global tubereulosis control 2010[R].WHO/HTM/TB/2010.7.Geneva:WHO,2010:102.

2 Box GEP,Jenkins GM.Time series analysis:foreca-sting and control[M].San Francisco:Holden Day,1976:181-218.

3 张文彤.SPSS统计分析教程[M].北京:北京希望电子出版社,2002:557-582.

4 邓聚龙.灰色理论基础[M].武汉:华中科技大学出版社,2002:215,218-227.

5 黎健,吴寰宇,李燕婷.应用EXCEL实现上海市乙肝发病灰色模型的预测研究[J].中国卫生资源,2011,14(2):109-118.

6 金如锋,邱宏,周霞,等.ARIMA 模型和GM(1,1)模型预测全国3种肠道传染病发病率[J].复旦学报:医学版,2008,35(5):675-680.

7 Lal A,Ikeda T,French N,et al.Climate variability,weather and enteric disease incidence in new zealand:time series analysis[J].PLoS One,2013,8(12):e83484.

8 Tanaka M,Katayama F,Kato H,et al.Hepatitis B and C virus infection and hepatocellular carcinoma in China:A review of epidemiology and control measures [J].J Epidemiol,2011,21(6):401-416.

9 盛艳霞,徐娜,霍飞,等.灰色模型在预测天津市肠道传染病发病趋势中的应用[J].职业与健康,2011,27(1):16-17.

10 胡建利,祖荣强,彭志行,等.江苏省戊型肝炎发病趋势的时间序列模型应用[J].南京医科大学学报:自然科学版,2011,31(12):1874-1878.

11 韩琴,苏虹,王忱诚,等.ARIMA模型与GRNN模型对性病发病率的预测研究[J].现代预防医学,2012,39(6):1337-1340.

猜你喜欢

迁安市残差传染病
《传染病信息》简介
传染病的预防
基于双向GRU与残差拟合的车辆跟驰建模
3种传染病出没 春天要格外提防
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
The Origin and Development of Western Humanism
迁安市农村休闲体育服务体系探析
综合电离层残差和超宽巷探测和修复北斗周跳
幸福的课余小社团:记河北唐山迁安市扣庄乡寺前小学“四点钟课堂”