多类型复发事件数据下一类半参数转移模型

2018-04-18杜彦斌戴家佳

统计与信息论坛 2018年4期

杜彦斌，戴家佳，金　君

(贵州大学数学与统计学院，贵州贵阳 550025)

一、引言

在许多纵向研究中，研究的个体有时会不止一次的经历某一事件，这种事件叫做复发事件。复发事件频繁的出现在生物学、医学、社会和经济学等研究领域中。例如：接受肾脏移植的病人术后的反复感染；癌症患者在治疗过程中的多次复发；顾客对一件商品的重复购买等等。在复发事件过程中产生的数据叫做复发事件数据。

根据研究对象种类的不同，复发事件一般又分为两种类型：一种是单类型复发事件，即感兴趣的事件只有一种类型，并且不止一次发生，例如某种机器故障的多次发生，某种病毒的多次感染；然而，在许多生活应用中，经常会遇到多种不同类型的复发事件，即多类型复发事件。例如，在病人手术后的感染研究中，研究人员需要同时考虑病毒、真菌和细菌的感染，在临床研究中，我们在考虑硒元素和皮肤癌关系时，需要同时研究几类皮肤癌的复发。由于不同类型的复发事件之间是相依的，我们需要同时对它们进行分析，而不是只研究某类特定的复发事件，所以对多类型复发事件的统计建模和推断具有更大的难度。

对复发事件数据的分析，研究者通常关心的是协变量对复发事件率的影响。多年来，学者已提出多种方法来分析复发事件数据，包括强度模型[1]、脆弱模型和边际均值(比率)模型[2，4]。经过多年的发展，单类型复发事件的研究已经比较成熟，但是多类型复发事件的研究却有很大的空间。Abu-Libdeh和Turnbull考虑了有随机和固定效应的非齐次泊松过程，利用极大似然的方法对未知参数进行估计[3]。然而，这些参数估计方法需要知道个体内部潜在的相依结构，这对于多类型复发事件数据是很难做到的。因此，很多学者建立了半参数模型来处理多类型复发事件[5]。在半参数模型方面，已有的文献主要研究的是加性比率模型[6-10]和乘性比率模型[11-12]。下面简单介绍复发事件下几个重要的半参数模型。

对于乘性比率模型Lin等提出了复发事件的半参数乘性比率模型[2]：

(1)

其中，β0是p维未知回归参数向量，λ0(·)为未知基本比率函数。

对于加性比率模型，Schaubel等研究了复发事件的半参数可加比率模型[7]：

(2)

Liu提出复发事件数据下可加转移模型[13]：

(3)

其中，μ0(·)为未知基线均值率函数，β0是p维未知回归参数向量，Q(t,x)为一个预先设定的非负连接函数，且满足：对于任意x，Q(0，x)=0。

容易发现，当Q(t,x)=tx，且协变量Z(t)与时间无关时，模型(3)即：

孙晓娜提出了多类型复发事件数据下的可加转移模型[14]：

(4)

在实际应用中，研究个体可能具有多个协变量的影响，有些协变量的影响是加性的，有些是乘性的，或者某些变量的影响既是加性的又是乘性的。如戴家佳和何穗提出了一类加性-乘性比率模型[4]：

(5)

其中，β0和γ0分别表示p1和p2维回归系数向量，g(·)和h(·)为已知联系函数。显然，协变量Wik(t)对基线均值率函数具有加性的影响，而协变量Xik(t)具有乘性的影响。

Schbuael在文章复发事件数据半参数可加比率模型中，假定协变量对未指定的基线均值率函数有一个加性的影响，并且这个影响随着时间变化是线性的[7]。但是，在实际问题中，这种线性假定往往是不合理的[14]。例如：癌症患者的治疗过程中，塞替派对癌细胞的控制并不是线性的；商品的价格对顾客购买力的影响也不是线性的。因此，除了这种线性的假定，其他一些加性形式也是值得考虑的。所以，Liu等提出了另外一种更为一般的模型[13]：可加转移模型，即模型(3)。模型中他们将协变量对基线均值率函数的加性影响用一个预先设定的非负连接函数来表示，且函数是关于时间和协变量的二元函数。这样就可以根据己有的数据和想要得到参数的解释为依据去选择合理的连接函数。同时，本文用模型来表示协变量对复发事件的影响也更加的灵活和广泛。

模型(4)不同于戴家佳和何穗提出的一类加性-乘性比率模型(5)[4]，因为它不包含协变量乘性的影响。事实上，在研究实际问题时，协变量的加性和乘性影响可能会同时存在。所以，结合模型(4)和(5)的思想，本文提出多类型复发事件数据下一类半参数转移模型。

二、模型和估计方法

设Wik(t)和Xik(t)分别表示p1和p2维协变量，Zik(t)=(Wik(t)′,Xik(t)′)′为p维协变量过程向量，其中p=p1+p2。我们提出的多类型复发事件数据下一类半参数转移模型具有以下形式：

(6)

其中，β0和α0分别表示p1和p2维未知回归系数向量，μ0k(t)是未知基准均值函数，gk(·)和Qk(t,x)是预先设定的非负连接函数。

当gk(x)=1时，模型(6)即为模型(4)；当Qk(t,x)=x时，模型(6)即为模型(5)。可见，本文提出的模型包含了一些重要的半参数模型。

如何选择模型(6)中的连接函数主要基于对历史数据和回归系数的实际解释来确定。下面，对模型中的未知参数向量和非参数函数给出估计方法。

在多类型复发事件下，可观测的数据是：

{Nik(·)，Yik(·)，Wik(·)}(i=1，2，…；k=1，2，…，K)

定义如下过程：

对于给定的第k类事件与θ={α′，β′}′，μ0k(t)的一个自然估计是下列方程的解：

(7)

其中τ是一个预先设定的常数使得p(Ci≥τ)>0。

求解式(7)得到：

(8)

(9)

其中τk>0，Hnk(t)是[0,τk]上递增的权函数。

将式(8)代入式(9)并做简单的代数运算可以得到：

(10)

其中

三、估计量的渐近性质

(C1){Nik(·),Yik(·),Zik(·)},(i=1,2，…,n;k=1,2，…,K)独立同分布，其中Zik(·)=(Wik(·)′,Xik(·)′)′。

(C2)P{Cik≥τk}>0,并且Zik(t)是一个有界变量。

(C4)Qk(t,x)关于t单调递增，关于x严格单调递增且关于x的二阶偏导数连续。

(C6)A是非奇异矩阵，其中：

为了方便推导，本文给出以下标记：

由于

所以

(11)

证明由泰勒展开式可得：

(12)

Γ(s,t)=E{ψik(s)ψik(t)}

用估计量代替未知量，可以得到协方差函数的一个相合估计为：

其中：

证明首先：

(13)

运用泰勒展开式，式(13)右端第一项可以写为：

(14)

由于

直接计算可得：

由式(12)可得：

(15)

因此，结合式(14)和(15)可得：

Mik(t;θ0)dHnk(t)+op(1)

(16)

另一方面可推导：

(17)

最后由式(13)～(17)可得

(18)

Γ(s,t)=E{ψik(s)ψik(t)}

四、结论

本文在多类型复发事件数据下提出了一类半参数转移模型，模型不仅考虑了协变量的加性和乘性影响，同时假定加性影响是时间的函数。利用广义估计方程的思想，对参数进行了估计，并证明了估计量的相合性和渐近正态性。

参考文献：

[1]Yin G,Cai J.Additive Hazards Model with Multivariate Failure Time Data[J].Biometrika，2004，91(4).

[2]Lin D Y，Wei L J，Yang I，et al.Semiparametric Regression for the Mean and Rate Functions of Recurrent Events[J].Journal of the Royal Statistical Society，2000，62(4).

[3]Abu-Libdeh H，Turnbull B W，Clark L C.Analysis of Multi-type Recurrent Events in Longitudinal Studies Application to a Skin Cancer Prevention Trial[J].Biometrics，1990，46(4).

[4]戴家佳，何穗.多类型复发事件下的加性乘积比率回归模型[J].工程数学学报，2008，25(6).

[5]赵明涛,许晓丽.半参数纵向模型的惩罚二次推断函数估计[J].统计与信息论坛,2014,29(8).

[6]Chen X，Wang Q,Cai J，et al.Semiparametric Additive Marginal Regression Models for Multiple Type Recurrent Events[J].Lifetime Data Analysis，2012，18(4).

[7]Schaubel D E，Zeng D，Cai J.A Semiparametric Additive Rates Model for Recurrent Event Data[J].Lifetime Data Analysis，2006，12(4).

[8]Ye P，Zhao X，Sun L，et al.A Semiparametric Additive Rates Model for Multivariate Recurrent Events with Missing Event Categories[J].Computational Statistics&Data Analysis，2015，89(C).

[9]Zeng D，Cai J.Additive Transformation Models for Clustered Failure Time Data[J].Lifetime Data Analysis，2010，16(3).

[10] He S，Wang F，Sun L Q.A Semiparametric Additive Rates Model for Clustered Recurrent Event Data[J].Acta Mathematicae Applicatae Sinica，English Series，2013，29(1).

[11] Liu Y，Wu Y,Cai J，et al.Additive-multiplicative Rates Model for Recurrent Events[J].Lifetime Data Analysis，2010，16(3).

[12] Sun L，Kang F.An Additive-multiplicative Rates Model for Recurrent Event Data with Informative Terminal Event[J].Lifetime Data Analysis，2013，19(1).

[13] Liu Y，Sun L，Zhou Y.Additive Transformation Models for Recurrent Events[J].Communications in Statistics-Theory and Methods，2013，42(22).

[14] 孙晓娜.多类型复发事件的加性变换模型[D].武汉：华中师范大学，2015.

[15] Zhang H，Yang Q L,Lianqiang Q U.A Class of Transformation Rate Models for Recurrent Event Data[J].Science China Mathematics，2016，59(11).