APP下载

三种时间序列模型探讨1989~2012广西肺结核发病趋势*

2012-12-04潘姣姣董柏青付志智

中国卫生统计 2012年6期
关键词:残差肺结核发病率

潘姣姣 董柏青 吕 炜 付志智

时间序列指随时间变化的、具有随机性的、且前后相互关联的动态数据序列,它是依特定时间间隔而记录的指定变量的一系列取值〔1〕。近年来,时间序列分析越来越广泛地应用在疾病的发生和死亡中。肺结核是通过呼吸道传播的重大传染病之一,为探讨肺结核暴发早期探测预警模型,本文通过分析、选取最佳模型,拟合1989~2009年广西肺结核发病率的变化轨迹,外展预测2010~2012年肺结核的发病趋势,现将结果报告如下。

资料与方法

1.资料来源:1989~2010年疫情资料来源于广西壮族自治区疾病预防控制中心疫情室,人口资料来源于广西壮族自治区统计局。

2.统计方法:

(1)曲线回归法(curve estimation):在一般情况下,研究者对已有的数据的认识是不完整的,不能辨别变量之间的准确关系,这时,可以先将数据绘制成散点图,观察数据在图中的分布情况,再根据图形的特点来确定应采用的模型形式〔2〕。一个比较直接的方法是从拟合优度R2值的大小进行比较,找出最佳模型。

(2)指数平滑法:指数平滑法(exponential smoothing method)是通过去除数据中一些随机的波动,找到其中的显而易见的规律性,并对未来的发展趋势进行合理的预测〔2〕。指数平滑法预测步骤:①绘制序列图;②根据序列图判断有效参数;③绘制拟合曲线图,观察拟合效果;④建立指数平滑模型对未来数据进行预测。

(3)ARIMA方法是以时间序列的自相关分析为基础的,以便识别时间序列的模型,实现建模和完成预测任务〔3〕。一般来说:ARIMA方法把预测问题划分为三个阶段:①模型的识别;②模型中参数的估计和模型的检验;③预测的应用。

结 果

1.曲线回归模型拟合效果分析(表1)

表1 曲线回归法模拟广西1989~2009年肺结核发病趋势

2.指数平滑模型拟合结果分析

指数平滑法拟合广西1989~2012年肺结核发病率情况如图1,1990~2009年广西肺结核预测发病率与实际值相差不大,实际值与拟合值基本趋势水平相似度高,表示拟合程度好。

图1 指数平滑法模拟广西1989~2012年肺结核发病趋势

指数平滑法在预测过程中会出现预测值偏高或者偏低,对于上升的数据,预测值总是偏低;对于下降的数据,预测值总是偏高〔3〕。

3.ARIMA模型拟合结果分析

(1)检验序列的平稳性 根据1989~2009年各季度肺结核报告发病率序列图和自相关(ACF)分析图判断序列的平稳性,由于发病率序列的方差前后波动较大,并且存在明显的季节性趋势,可以定义为不稳定序列;因此先对发病率序列进行一阶差分使之转化为平稳序列,如图2。

图2 数据进行转化后的ACF和PACF图

(2)模型识别 根据数据的自相关(ACF)和偏相关(PACF)分析图,进行模型的初步识别和定阶。根据差分的次数可以确定模型的形式为:ARIMA(p,1,q)(P,1,Q)4,其中,p,q,P,Q 都是待定的参数,分别表示连续模型和季节模型中的自回归阶数和移动平均阶数,4表示季节模型以4季度为一个周期。对于p,q,P,Q的确定可以由ACF图PACF图判断,图中显示偏回归系数在q>1骤减,根据以上特征初步判断模型的形式:ARIMA(0,1,1),季节模型的参数 P,Q 较难判断,但根据文献可知,季节模型的参数超过2阶的很少,可以分别取0,1,2,然后由低阶到高阶逐个试验,根据模型的拟合优度,残差情况及系数间的相关性进行综合判断。根据以上分析,可初步判断时间序列的ARIMA 模型为 ARIMA(0,1,1)(0,1,0)4、ARIMA(0,1,1)(0,1,1)4或 ARIMA(0,1,1)(0,1,2)4

(3)参数估计和模型诊断 备选模型的参数估计应该包括以下几个方面:(1)模型参数是否有统计学意义:模型主要参数有统计学意义(P<0.05),见表2;(2)备选模型的拟合度比较:SPSS输出拟合优度统计量有平稳R2在内的8个拟合优度统计量,模型拟合度最好的是 ARIMA(0,1,1)(0,1,0)4;(3)参数独立性检验:若同一模型的两个参数之间具有较高的相关性,应考虑剔除其中一个,重新计算模型;(4)残差检验:若残差为白噪声,则意味着所建立的模型包含了原始序列的所有趋势,应用于预测是合适的,若不是则需要继续改进重新估计。

表2 备选ARIMA模型的参数估计

(4)预测 1989~2009年的数据建立模型对2010~2012年各季度肺结核发病率进行预测,如图3。

图3 ARIMA模型拟合广西1989~2012年肺结核发病趋势

4.三种模型拟合结果分析及比较

三种模型拟合效果可以通过决定系数(R2)、正态BIC和残差均方(MSE)来比较:曲线回归法<ARIMA<指数平滑法;同时要检查残差是否为白噪声,LBox Q统计量>0.05。指数平滑法L-Box Q=0.03<0.05,选择决定系数最高、残差为白噪声的模型为最佳预测模型,即ARIMA模型,它同时可以预测年发病率和各季度发病率。

讨 论

本文利用SPSS软件包对同一资料进行不同模型的拟合预测,根据资料的具体情况及决定系数R2进行多个模型的比较预测,选择最佳模型,克服单一模型拟合的局限性,提高现有资料的利用率。

指数平滑法通过监测医院抗菌药物使用情况来预测医院耐药菌的发病率取得了良好的效果〔4〕,ARIMA模型综合考虑了序列的趋势变化、周期变化及随机干扰,并借助模型参数进行量化表达;ARIMA模型可以预测和评价疟疾防治效果〔5〕。一般来说,ARIMA模型考虑时间序列过程中的季节分布的特点;大大消除了季节因素的影响,提高预测精度。肺结核具有季节分布特征,其拟合过程应充分考虑周期、季节趋势,李娜〔6〕等人研究结果发现:季节差分ARIMA模型能够较好地拟合短期内肺结核的发病率。因此,可以认为ARIMA模型预测季节性传染病的效果较好,但ARIMA模型并非唯一预测季节性传染病的方法,该模型进行短期预测的效果较佳,一般不用于长期预测。

广西肺结核在1989~2007年间,发病率总体呈上升趋势,随后逐年降低。本文在时间序列水平下研究广西肺结核的发病率,通过三种不同模型进行拟合预测,经检验可知:拟合精度ARIMA模型>指数平滑法>曲线回归法,ARIMA模型预测2010~2012年广西肺结核的发病率呈季节性分布,实际发病率均在预测值95%置信区间内。

传染病的预测能了解疫情的动态发展,及时采取措施,但传染病的流行受到自然环境、社会环境、人文环境等多种非规律性因素的影响,本文研究单变量型ARIMA模时间序列的水平,没有考虑到其他因素的影响;由于肺结核发病时间序列不稳定,因此,单变量提出的预测模型不能作为长期不变的预测依据,只可以进行短期预测〔7〕。对于肺结核的预测,应该尽可能收集更多的数据并不断加入新的观测值,建立多变量动态预测模型,才能达到高效预测的目的。

1.杜强,贾丽艳.SPSS统计分析从入门到精通.北京:中国邮电出版社,2010:377-405.

2.孙振球,徐勇勇.医学统计学.第3版.北京:人民卫生出版社,2010:383-404.

3.孙振球主编.医学统计学(供研究生用).北京:人民卫生出版社,2004:358-372.

4.Ngo L,Tager IB,Hadley D.Application of exponential smoothing for nosocomial infection surveillance.American Journal of Epidemiology,1996,143(6):637-647.

5.Wangdi K,Singhasivanon P,Silawan T,et al.Development of temporal modeling for forecasting and prediction of malaria infections using timeseries and ARIMAX analyses:a case study in endemic districts of Bhutan Malaria Journal,2010,9:251-259.

6.李娜,殷菲,李晓松.时间序列分析在肺结核发病预测应用中的初步探讨 .现代预防医学,2010,37(8):1426-1428.

7.陈勇,陈建国,朱健,等.江苏省启东市1972-2001年肺癌发病趋势分析及预测模型比较研究.中华流行病学杂志,2005,26(12):955-959.

猜你喜欢

残差肺结核发病率
基于双向GRU与残差拟合的车辆跟驰建模
多晒太阳或可降低结直肠癌发病率
T-SPOT.TB在活动性肺结核治疗效果的监测
基于残差学习的自适应无人机目标跟踪算法
ARIMA模型在肺癌发病率预测中的应用
基于递归残差网络的图像超分辨率重建
爱情是一场肺结核,热恋则是一场感冒
72例肺结核合并糖尿病的临床护理
老年慢阻肺合并肺结核临床治疗效果观察研究
综合电离层残差和超宽巷探测和修复北斗周跳