APP下载

密度比模型下两独立总体方差比的半参数推断

2019-02-09

宜宾学院学报 2019年12期
关键词:置信区间估计值参数估计

彭 凯

(南京财经大学应用数学学院,江苏南京210023)

现实中,常常需要比较不同分布的方差,尤其需要知道总体间是否具有方差齐性.例如在容器制造过程中,为了更高的适配率,质控人员不仅希望其生产的容器和盖子的尺寸有相等的均值,而且希望它们具有方差齐性;大型考试,常常需要多名批卷老师合作批卷,管理者会希望不同的老师有相似的改卷风格即具有方差齐性,以使批卷结果对不同的学生更为公平合理. 因此,比较不同分布的方差具有非常重要的现实意义.

传统的参数统计领域,对于两总体方差的比较是在总体为正态分布的假设下进行的.在实际研究中,遇到的多是非正态数据,这时用传统的方法并不合理,要想去证明非正态总体下检验统计量的分布或渐进分布也未必容易.

本文基于Qin 和Zhang[1]提出的半参数密度比模型,以方差比作为统计指标来比较总体间方差大小.以G,H分别表示随机变量X,Y的分布函数,以g(x),h(x)分别表示两个总体的密度函数. 该模型如下:

这里α 是一个标量参数,β 是一个p×1 的向量参数,r(x)是一个p×1 的关于x 的光滑的向量函数.该模型已被应用到各种具体统计方法上. 例如:Zhang[2]研究了半参数分位数估计方法;Qin 和Zhang[3]以及Wan 和Zhang[4]建立了该模型下进行ROC 曲线估计的半参数方法;Wan 和Zhang[5]建立了该模型下进行ROC 曲线比较的半参数方法;Folkianos[6]、Cheng 和Chu[7]、Qin 和Zhang[8]建立了半参数密度函数估计方法;Wan 和Xu[9]证明了半参数估计下的均值差以及方差之差各自渐进服从于正态分布,并且给出半参数估计量比参数估计量渐进有效的理论证明. Kay 和Little[10]讨论了r(x)的选取以及其下适用的具体分布类型.

本文的核心思想是假定两总体服从密度比模型下用经验似然方法讨论两独立总体方差比的推断问题. 密度比模型不设定总体分布类型,并且模型包含未知参数,因此属于半参数模型范畴. 这种方法可以看作是常用F统计量推断的一种半参数推广.

1 主要方法

设两总体样本数据分别为X1,X2,…,Xn0~g(x),Z1,Z2,…,Zn1~h(x)并且设定联合数据为{X1,X2,…,Xn0,Z1,Z2,…,Zn1} ={t1,t2,…,tn} ,记n=n0+n1.另,设g(x)的均值为μ1,方差为;h(x)的均值为μ2,方差为.此外,假定模型(1)成立.

根据经验似然方法,可以写出经验似然函数:

其中pi=dG(ti)(i=1,2,…,n)是概率的跃迁,且总和为1.

时获得. 式中ρ= n1n0,(ᾶ,β͂)是(α,β)的似然估计量,其数值可解以下计分方程组而获得:

这里l(α,β)是关于(α,β)的剖面对数似然函数,其值为:

那么,可以用以下半参数经验分布函数作为总体G,H的半参数估计量:

为使表达式更为简便,规定:

根据以上结果能得到θ的半参数估计量:

2 Bootstrap 推断

Bootstrap 置信区间有多种构建方式,对于该假设检验采用EP法获得置信区间,那么Bootstrap推断算法步骤如下:

(1)根据原始数据X,Z计算θ的点估计数值θ͂.

(2)从样本X 中有放回重抽样(以原始数据容量)得到B组Bootstrap数据X*(b).

(3)从样本Z 中有放回重抽样(以原始数据容量)得到B组Bootstrap数据Z*(b).

(4)联合以上数据得到B 组Bootstrap 数据( X*(b),Z*(b)),b=1,2,…,B进而计算θ͂*(b)的数值.

(5)对{θ͂*(1),θ͂*(2),…,θ͂*(B)}数值向量进行升序排列,并用百分位数法获得95% 等尾置信区间(),其中是百分位数.

(6)把Bootstrap 置信区间用于假设检验H0:θ=θ0vs H1:θ ≠θ0. 如果θ0数值落在该置信区间内则保留原假设,否则拒绝原假设. 这一步相当于置信水平为0.05 时的显著性检验. 类似地,还可以运用单侧置信区间进行单侧假设检验.

3 统计模拟

模拟实验目的是验证方法的可行性. 这里考虑正态和指数分布两类情况.

3.1 总体分布类型设定

3.2 统计模拟步骤

(1)对每种情况下产生N组容量为(n,n) 的蒙特卡洛模拟数据.

(2)对每组蒙特卡洛数据进行有放回重抽样得到B组Bootstrap数据,其容量为(n,n).

(3)每组蒙特卡洛数据下可以得到B 对ᾶ,β͂估计值,从而得到B个θ͂估计值.

(4)计算N×B个θ͂估计值的均值.

(5)计算N×B个θ͂估计值的均方误差.

(6)对每组蒙特卡洛数据构造一个95%等尾置信区间,并计算覆盖概率(即N个置信区间中包含θ真值的个数与N的比例).

3.3 统计模拟结果

表1、表2 是统计模拟结果. 从表1、表2 可以看出,参数真值与估计值的均值相差较小. 随着样本容量增加,参数真值与估计值均值逐渐接近,均方误差逐渐减小.另外,置信区间覆盖概率与预期的95%非常接近.因此,该方法是可行的.

表1 正态分布模拟结果(g( x )~N( 1,4 ),h( x )~N( 3,4 ),N=500,B=1000)

表2 指数分布模拟结果(g( x )~exp( 2 ),h( x )~exp( 1 ),N=500,B=1000)

4 实例分析

4.1 拟合优度检验

在给定数据下使用半参数密度比模型时一个必要的步骤是检验该模型对于数据的适合度即拟合优度. 该模型的拟合优度检验统计量有很多种,例如Qin[1]提供的KS 统计量,Zhang[11]给出的卡方型检验统计量,Zhang[12]给出的信息矩阵统计量等等. 以下用到的实例数据已经完成拟合优度检验,其结果可参考Qin[1].

4.2 数据来源

采用Glovsky & Rigrodsky(1964)的数据作为分析案例.作者分析比较了智力缺陷儿童的发展历史数据,研究了参加新泽西维兰培训学校的语言治疗项目的41 名儿童. 其中有20 个儿童在其早年发展中被诊断出患有失语症,剩下的21个儿童被诊断患有智力障碍. 令随机变量Z 代表患有失语症儿童的指标变量,X代表患有智力障碍儿童的指标变量.根据威尼兰社会成熟量表测量得到的每个儿童的得分如下:

4.3 估计与检验

考虑以下假设检验

根据前面的推断算法,得到θ͂=1.088,置信区间为( 0.752,1.591 ). 另外,θ0=1 落在置信区间内,因此选择保留原假设. 换句话说,无法做出拒绝原假设的判断.

猜你喜欢

置信区间估计值参数估计
基于新型DFrFT的LFM信号参数估计算法
Maxwell分布参数的最短置信区间研究
p-范分布中参数的置信区间
多个偏正态总体共同位置参数的Bootstrap置信区间
不完全观测下非线性非齐次随机系统的参数估计
一种GTD模型参数估计的改进2D-TLS-ESPRIT算法
一道样本的数字特征与频率分布直方图的交汇问题
列车定位中置信区间的确定方法
2018年4月世界粗钢产量表(续)万吨
基于竞争失效数据的Lindley分布参数估计