右删失左截断数据下离散威布尔分布的参数估计

2016-06-27何朝兵

郑州大学学报（理学版） 2016年2期

关键词：置信区间参数估计布尔

何朝兵

(安阳师范学院数学与统计学院河南安阳 455000)

右删失左截断数据下离散威布尔分布的参数估计

何朝兵

(安阳师范学院数学与统计学院河南安阳 455000)

研究了右删失左截断数据模型下离散威布尔分布参数的极大似然估计和渐近置信区间.介绍了参数估计的牛顿迭代方法和EM算法,给出了参数的渐近置信区间.随机模拟的结果表明，牛顿迭代方法和EM算法得到的参数估计结果差别不大.

极大似然估计; 牛顿迭代方法; EM算法; 缺损信息原则; 渐近置信区间

0 引言

离散威布尔分布是一种很重要的离散型寿命分布[1-3],它是威布尔分布的离散化,在排队论和可靠性数学等分支中有着很广泛的应用，并且几何分布是特殊的离散威布尔分布.当观察寿命数据时,右删失与左截断情形经常同时发生.例如,对确诊为艾滋病的患者进行观察研究,如果患者仍然存活或提前退出研究,这就是右删失；如果患者在研究开始之前就已经死亡,这就是左截断.右删失左截断数据模型广泛应用于医学、生物学、经济学等领域,近年来对此模型的研究比较热.文献[4-8]研究了此模型下寿命分布为连续型的情形,但对离散威布尔分布情形的研究尚未见报道.本文主要利用牛顿迭代(NR)方法和EM算法研究了右删失左截断数据模型下离散威布尔分布参数的极大似然估计和区间估计,随机模拟的结果表明,由这两种方法得到的参数估计结果差别不大.

1 离散型分布右删失左截断数据的试验模型

设(X,Y,T)是离散型随机变量,X的分布函数为F(x,θ)=P(Xi≤x),分布律为f(x,θ),其中θ是向量参数;Y是右删失随机变量,分布函数为G(y),分布律为g(y);T是左截断随机变量,分布函数为H(t),分布律为h(t),且Y,T的分布与参数θ无关.假定X,Y,T是相互独立且取正整数的随机变量,X是所感兴趣的随机变量.右删失左截断数据的试验模型是：仅在Zi≥Ti时得到观察数据(Zi,Ti,δi),而在Zi

求以下样本的似然函数：

P(无样本观察值)=P(Zi

为了叙述与书写方便,假定前n1个样本有观察值,剩下的n2个样本没有观察值(n1+n2=n)，则基于数据{(Zi,Ti,δi),1≤i≤n1}的似然函数为

2 离散威布尔分布的参数估计方法

若X的分布函数为F(x;α,β)=1-e-(x/β)α,x>0,且α>0,β>0,则称X服从尺度参数为β,形状参数为α的威布尔分布,记为X～Wei(α,β).若X的分布律为P(X=k)=q(k-1)α-qkα,k=1,2,…,且00,则称X服从尺度参数为q,形状参数为α的离散威布尔分布，当α=1时,归结为几何分布Geo(1-q).容易证明:若X～Wei(α,β),且β=(-1/lnq)1/α,则Y=[X]+1服从尺度参数为q,形状参数为α的离散威布尔分布.利用此结论可以产生离散威布尔分布的随机数.

假设右删失左截断数据试验中,所感兴趣的变量X服从形状参数为α,尺度参数为q的离散威布尔分布,此时θ=(α,q),下面介绍参数α与q的估计方法.

2.1 牛顿迭代(NR)方法

基于数据{(Zi,Ti,δi),1≤i≤n1}的似然函数为

其对数似然函数为

令其两个偏导数为零,得到的两个似然方程为超越方程,只能用数值方法求解,本文利用NR方法求解. NR方法是通过使似然函数最大化而获得极大似然估计的一种直接方法,它需要计算对数似然函数关于参数的一阶和二阶偏导数,所以十分烦琐.这里,通过使用R软件maxLik程序包中的maxNR函数来获得q和α的极大似然估计.

注如果Y服从几何分布Geo(p0),T服从取值1,2,…,s的离散均匀分布,则

2.2 EM算法

EM算法是一种迭代方法,最初由文献[9]提出,主要用来求后验分布的众数.它的每一步迭代由两步组成:E步(求期望)和M步(极大化).EM算法处理不完全数据非常方便[10-11],下面用EM算法来求α和q的极大似然估计.

若第i个样本没有观察值,添加其观察值为(Wi,βi),其中：Wi=Xi∧Yi=min(Xi,Yi),βi=I(Xi≤Yi),i=n1+1,n1+2,…,n,则

可得似然函数

取(α,q)的先验分布为无信息先验分布π(α,q)=c,00,c为常数,则θ=(α,q)的添加后验分布为

E步:

在给定θ,δ,Z和T下,(Wi,βi)的分布律为

则(Wi,αi)关于Wi的边缘分布律为

P(Wi=k)=ψ1(k,θ)+ψ2(k,θ)ψ3(k,θ),k=1,2,….

所以

注如果Y服从几何分布Geo(p0),T服从取值1,2,…,s的离散均匀分布,则

2.3 极大似然估计的渐近方差和协方差

利用NR方法求极大似然估计时,I0可以直接得到.而利用EM算法时,由于似然函数为基于完全数据的似然函数,所以I0不能直接得到,但根据缺损信息原则可以获得观察信息阵I0.缺损信息原则为:观察信息=完全信息-缺损信息.下面求基于EM算法的观察信息,完全数据的似然函数为

为了方便书写,记

φ2=n2{βln[q(w-1)α-wα-1]+wαlnq},

ψ(β,w)βψ1(w)+(1-β)ψ2(w),β=0,1,

lnL2n2lnψ(β,w).

则完全信息为

(1)

损失信息为

(2)

根据缺损信息原则,可得观察信息为

2.4 置信区间

式中：bq和σq分别为q的1 000个估计值的bootstrap偏差和方差；zβ/2为标准正态分布的上β/2分位点.α的参数bootstrap置信区间的构造与q的类似.

3 随机模拟结果

表1 NR方法和EM算法下参数估计的均值(M)、偏差(B)、均方误差(MSE)和置信区间的覆盖率(CP)

从表1可以看出,通过NR方法和EM算法得到的参数估计的均值、偏差、均方误差以及置信水平为0.95的置信区间的覆盖率都比较接近,说明这两种方法差别不大.同时可以看出，样本容量对估计值的影响也不大,说明得到的估计值是比较稳定的,并且精度也较高.

表2 由3种方法构造的置信区间

由表2可以看出，通过NR方法和EM算法构造的置信区间是一样的，虽然它们与参数bootstrap置信区间不一样，但差别不是很大.

[1] NEKOUKHOU V, BIDRAM H. The exponentiated discrete Weibull distribution[J]. SORT, 2015, 39(1): 127-146.

[2] ALMALKI S J, NADARAJAH S. Modifications of the Weibull distribution: a review[J]. Reliab Eng Syst Safe, 2014, 124: 32-55.

[3] ENGLEHARDT J D, LI R. The discrete Weibull distribution: an alternative for correlated counts with confirmation for microbial counts in water[J]. Risk Anal, 2011, 31(3): 370-381.

[4] DEWAN I. Comments: EM-based likelihood inference for some lifetime distributions based on left truncated and right censored data and associated model discrimination[J]. S Afr Stat J, 2014, 48(2): 183-185.

[5] SHEN P S. Aalen’s additive risk model for left-truncated and right-censored data[J]. Commun Stat Simul Comput, 2014, 43(5): 1006-1019.

[6] BALAKRISHNAN N, MITRA D. Likelihood inference based on left truncated and right censored data from a gamma distribution[J]. IEEE Trans Rel, 2013, 62(3): 679-688.

[7] SU Y R, WANG J L. Modeling left-truncated and right-censored survival data with longitudinal covariates[J]. Ann Stat, 2012, 40(3): 1465-1488.

[8] AHMADI J, DOOSTPARAST M, PARSIAN A. Estimation with left-truncated and right censored data: a comparison study[J]. Stat Probab Lett, 2012, 82(7): 1391-1400.

[9] DEMPSTER A P, LAIRD N M, RUBIN D B. Maximum likelihood from incomplete data via the EM algorithm[J]. J R Stat Soc, 1977, 39(1): 1-38.

[10] CHUNG Y, LINDSAY B G. Convergence of the EM algorithm for continuous mixing distributions[J]. Stat Probab Lett, 2015, 96(1): 190-195.

[11]GRIGOROVA D, ENCHEVA E, GUEORGUIEVA R. EM algorithm for MLE of a probit model for multiple ordinal outcomes[J]. Serdica J Comput, 2013, 7(3): 227-244.

(责任编辑：孔薇)

Parameter Estimations of Discrete Weibull Distribution with Left Truncated and Right Censored Data

HE Chaobing

(SchoolofMathematicsandStatistics,AnyangNormalUniversity,Anyang455000,China)

The maximum likelihood estimation and asymptotic confidence intervals of the parameters of discrete Weibull distribution were mainly studied with left truncated and right censored data. Newton-Raphson method and EM algorithm of parameter estimation were introduced, and the asymptotic confidence intervals of the parameters were given. Random simulation test results showed that there was little difference on parameter estimation between Newton-Raphson method and EM algorithm.

maximum likelihood estimation; Newton-Raphson method; EM algorithm; missing information principle; asymptotic confidence interval

2015-10-18

国家自然科学基金资助项目(61174099)；河南省高等学校重点科研项目(16A110001).

何朝兵(1975—),男,河南周口人,讲师,硕士,主要从事概率统计研究,E-mail:chaobing5@163.com.

何朝兵．右删失左截断数据下离散威布尔分布的参数估计[J]．郑州大学学报(理学版), 2016,48(2): 18-23.

O213.2

1671-6841(2016)02-0018-06

10.13705/j.issn.1671-6841.2015220