APP下载

分布滞后非线性模型*

2012-05-23欧春泉陈平雁

中国卫生统计 2012年5期
关键词:样条广义线性

杨 军 欧春泉△ 丁 研 陈平雁

空气污染、气象等暴露因素的健康效应均有一定的持续性和滞后性〔1-2〕。换言之,人群健康指标(如死亡率、发病率)不仅与当天的暴露水平有关,还可能受昨天乃至十多天前暴露的影响。评价暴露因素滞后效应的方法众多,如:滑动平均法、广义线性模型等方法,但各有其不足之处。近年来,分布滞后线性模型的提出使得该问题的研究有了很大的进展,国外目前普遍运用该法研究空气污染的健康效应,但该法的应用前提是暴露-反应关系呈线性。然而,现实研究中有的暴露-反应关系呈现非线性,如气温效应通常呈U型、V型或J型分布〔3〕,并不适合使用该法。分布滞后非线性模型同时考虑暴露因素的滞后效应和暴露-反应的非线性关系。本文将详细介绍模型的基本理论,并以实例阐述其应用。

方法介绍

分布滞后线性模型(distributed lag linear models,DLM)由Almon于1965年提出,并应用于经济学研究〔4〕。2000 年,Schwartz和 Braga等〔2〕将该模型引入环境健康效应的定量化评估。同时期Zanobetti〔5〕将广义相加模型的思想与分布滞后模型思想综合,提出广义相加分布滞后模型(generalized additive distributed lag models)。分布滞后非线性模型(distributed lag non-linear models,DLNM)最早在流行病学研究中提及。2006年Armstrong〔6〕将DLNM引入气温健康效应研究中,并提出该模型思想。2010年Gasparrin、Armstrong等人进一步以广义线性模型和广义相加模型等传统模型的思想为基础,利用交叉基(cross-basis)过程,阐述了分布滞后非线性模型的理论〔7-8〕。本文将从以下5个步骤对该模型进行介绍。

1.模型的基本结构

μ≡E(Y),g是连接函数族,Y可为多种概率分布,如正态分布、gamma分布、Poisson分布等;环境健康效应研究中,因变量yt(t=1,2,…,n)通常是人群中某阳性事件的逐日累计人数(如每日死亡人数,每日患病人数等),而自变量xj通常是同期的逐日空气污染物浓度、温度、相对湿度等环境因子,连接函数通常采用Poission。uk表示其他混杂因素的线性效应,βj、γk为相应的参数〔7,9〕。fj表示自变量 xj的各种基函数(basis function)。通过选择合适的基函数,可将自变量xj转化成一个新的变量集,包含在模型的设计矩阵中,从而对其效应进行估计。常用的基函数有正交函数、线性阈值函数和样条函数等。其中样条函数应用最广,如:样条平滑(smoothing spline),自然三次样条(natural cubic spline),B样条(B spline)等,见公式(2):

Zt为n×vx矩阵,是自变量x通过基函数转换产生的新变量,称基变量。通过转化能更好描述因变量随自变量变化的分布,结果更便于解释。

2.滞后效应

由于暴露的影响存在滞后性,当天的结局可能受l天前暴露的影响。为了描述暴露的滞后效应,对x自变量进行简单转换产生n×(L+1)的Q矩阵,即

L是需定义的最长滞后天数,q1·≡x(Q的第一列),l= [0,…,l,…,L]T

这样,通过给暴露-反应关系添加滞后维度,实现同时描述因变量在自变量维度与滞后维度的分布。

3.分布滞后模型

分布滞后模型假设暴露的效应存在于某一特定时间内,通过对参数L设置不同的值估计不同滞后时间的效应。以往滞后效应的研究,往往简单地将每个滞后时间与其设定的相应参数乘积累加。这种模型往往会产生很高的共线性和相关性,从而估计结果出现偏差、预测效能降低。Braga、Schwartz等〔2〕人改进的方法是给滞后分布强加某些限制,选择适当的基函数转换。如采用分层的思想,假设滞后一定区间内有相同的固定效应,或者使用连续函数(正交函数、样条函数等)来描述平滑曲线等,见公式(4):

C为对滞后向量选择特定基函数转换得到的(L+1)×vl矩阵为每个滞后时间的线性效应的估计为对滞后分布所作的限制。

4.分布滞后非线性模型

分布滞后非线性模型其算法相当复杂,其核心思想为交叉基。对自变量与因变量的关系、滞后效应的分布分别选择合适的基函数,求两个基函数的张力积即得交叉基函数。具体步骤如下:首先建立因变量与自变量的模型,选择基函数定义因变量随自变量的分布,即公式(2),得到基向量Z;接着为暴露添加新的滞后维度,公式(3),再给矩阵Q每列选择合适的基函数,这样得到n×vx×(L+1)的三维序列R,见公式(5):

rij为滞后暴露(qt·)通过基函数j变换得到,wt是自变量x的交叉基函数变换。与传统模型不同,分布滞后非线性模型能同时描述效应在自变量的维度与滞后维度的变化分布。

5.累积效应

暴露对反应的影响是非线性的,计算过程相当复杂、分析结果包含丰富信息。Gasparrini和Armstrong等人提供了R语言编写的分布滞后非线性模型软件包(Package=dlnm)。他们采用三维图形表达滞后效应的估计结果,通过为特定滞后时间与暴露组合设定一个网格,随着这两个坐标变化的效应值就构成一个形象直观的3-D图〔7-8〕。而且特定滞后时间或特定暴露的滞后效应可以通过对滞后效应分布图进行简单横截得到,将每个滞后时间的滞后效应的贡献相加便得到累积滞后效应,其估计值与标准误的计算如式(6),其中)为估计参数的方差-协方差矩阵。

实例分析

选取广州市某城区2003年1月1日至2007年12月31日每日居民死亡数据,同时段的气象数据来自国家气象数据共享中心,包括:日均气温、气压、相对湿度;自变量还有时间变量(t=1,2,3,…,1826),用以控制日死亡数本身的长期变化趋势和季节性,反映其他未加考虑的混杂因素的影响。利用R软件进行分析。

基本模型选择广义线性模型拟合每日全死因的死亡人数,通过对每日平均气压、每日平均相对湿度,时间变量三次样条函数平滑,这些变量的自由度(df)分别为3、3、7/年。这种自由度的选择在众多时间序列研究中被推荐〔7〕。其他影响因素还有年份与节假日哑变量。滞后时间与温度基函数均选用自然三次样条函数。

从所有的结果来看,相对危险度(RR)的分布随着温度变化而变化,暴露-反应关系近似V型,27℃为最适温度(该温度人群死亡率最低),在此温度以上,气温越高死亡风险越大,在此温度以下,则气温越低死亡风险越大(图1)。这与国内外研究报道气温健康效应为非线性相吻合〔3,10〕。

气温的影响存在明显的滞后性和持续性。高温的影响持续一周,而低温的影响持续时间更长,可达15天(图1)。高温(27℃以上)15天的累计相对危险度(RR)为1.042(95%CI:1.010~1.074),即日均气温达27℃以上时,气温每升高1℃,造成15日内人群死亡率累计上升4.2%。低温(27℃以下)的15日累计RR为1.027(95%CI:1.006~1.048)。

图1 相对危险度(RR)随温度与滞后时间(lag)的变化3-D图,27℃为参照

讨 论

虽然刘方和赵耐青〔9-10〕等人介绍了GAM 在气温健康效应影响评估中的应用,但国内普遍采用线性相关与回归方法,此种方法一则有悖于死亡人数在单位时间通常呈现Poisson分布的特性,二则忽视各观察点之间存在相关关系的特性。

国外众多研究发现,空气污染和气象等环境因素的影响通常存在滞后性,而传统单一的模型(如广义线性模型、广义相加模型、滑动平均法等)只考虑到某一特定时时间内的效应,在模型中简单地同时引入连续数天的暴露水平,不考虑滞后分布的特点,必然产生很高的共线性,导致分析结果存在不容忽视的偏差。气温健康效应滞后时间相当长(可达两周),该问题尤为突出。

分布滞后线性模型是研究暴露滞后效应的好工具,国外已大量应用于空气污染对健康影响的研究中,但该模型只限于呈线性的暴露-反应关系研究。分布滞后非线性模型在分布滞后线性模型的基础,先建立基于传统方法的基本模型,可为广义线性模型、广义相加模型以及广义估计方程等;接着对暴露-反应和滞后效应在时间维度的分布给予某些限制,从而估计不同滞后时间的暴露-反应关系,传统模型可视为该模型的一个特例。该模型不仅限于空气污染或气温对人类健康影响的研究,还可推广应用于任何探究预测变量与结局关系及滞后效应的时间序列研究,甚至有望应用于病例-对照、前瞻性研究等临床试验中〔7〕。

目前分布滞后非线性模型面临的问题主要在于基函数、节点的数目与位置、最大滞后天数、最佳模型等的选择上缺乏公认的标准。这些问题均有待深入研究。

1.Zanobetti A,Schwartz J,Samoli E,et al.The temporal pattern of mortality responses to air pollution:a multicity assessment of mortality dis-placement.Epidemiology,2002,13(1):87-93.

2.Braga A,Zanobetti A,Schwartz J.The time course of weather-related deaths.Epidemiology,2001,12(6):662-667.

3.Curriero F,Heiner K,Samet J,et al.Temperature and mortality in 11 cities of the eastern United States.Am J Epidemiol,2002,155:80-87.

4.Almon S.The distributed lag between capital appropriations and expenditures.Econometrica,1965,33:179-196.

5.Zanobetti A,Schwartz J,Ryan M.Generalized additive distributed lag models:quantifying mortality displacement.Biostatistics,2000,1(3):279-292.

6.Armstrong B.Models for the relationship between ambient temperature and daily mortality.Epidemiology,2006,16(6):624-631.

7.Gasparrini A,Armstrong B,Kenward MG.Distributed lag non-linear models.Statistics in Medicine,2010,29(21):2224-2234.

8.Wood S.Generalized additive models:an introduction with R.Chapman& Hall/CRC Press:London/Boca Raton,2006.

9.董英,赵耐青,汤军克.广义相加模型在气温效应研究中的应用.中国卫生统,2008,25(2):144-146.

10.刘方,张金良,陆晨,等.北京地区气温与急性冠心病的时间序列研究.环境与健康杂志,2005,22(4):252-255.

猜你喜欢

样条广义线性
线性回归方程的求解与应用
对流-扩散方程数值解的四次B样条方法
从广义心肾不交论治慢性心力衰竭
二阶线性微分方程的解法
非齐次线性微分方程的常数变易法
王夫之《说文广义》考订《说文》析论
ℝN上带Hardy项的拟线性椭圆方程两个解的存在性
三次参数样条在机床高速高精加工中的应用
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
广义RAMS解读与启迪