Behrens-Fisher问题的参数Bootstrap检验

2015-02-18徐礼文

统计与决策 2015年10期

徐礼文，梅波

(北方工业大学理学院，北京 100144)

0 引言

当总体的方差任意且未知时，两个正态总体均值的比较一直是统计学的理论和应用研究中感兴趣的问题，称为Behrens-Fisher问题[1,2]。在正态总体异方差下均值相等性检验的文献中，一种流行的方法是Welch[3,4]给出的基于近似t分布的检验，这种方法因其具有简单性和较好的精确性得到广泛运用。但是这种方法是建立在随机自由度近似t分布基础上的，自由度不仅和样本方差相关，还依赖样本容量。金华,郑圣听和陈伟权[5]提出了一种结合极大似然思想的检验方法，称作得分（Score）检验。在原假设下构造的U统计量逼近标准正态分布，从而使得检验的操作只依赖于标准正态分布表，操作也比较简单，并显示出在控制第一类错误标准下优于Welch的近似t检验。但是这种方法运用了极限分布理论，从而对样本量的要求相对严格，样本量不能太小；且在样本量不近似相同时，Score检验与Welch近似t检验都受到总体间方差比率的影响比较明显。

Behrens-Fisher问题的困难之处在于冗余(讨厌)参数总体的存在，使得我们一般无法构造出零分布已知的检验统计量。因此，Tsui和Weerahandi[6]通过拓展检验统计量的概念，提出了广义检验变量的概念，得到了Behrens-Fisher问题的一个广义p值(generalized p-value,GP)检验方法。通过提前的模拟研究发现在样本容量较小且两总体方差接近时，GP检验和Welch近似t检验的第一类错误都过于保守，距离给定的名义水平较远。

本文的目的是提供Behrens-Fisher问题新的参数bootstrap(parametric bootstrap，PB)检验。参数bootstrap方法已经被广泛应用于许多传统方法难以或无法给出精确检验的问题中[7-10]。基于文[5]构造的U统计量和其中涉及的T统计量，我们不是利用正态逼近和近似t分布的理论，而是提出了新的参数bootstrap方法来改进已有的检验，为消除已有检验方法受样本量的影响和方差比率的影响，从而提高检验的有效性。值得注意的是，可以证明我们提供的两种参数bootstrap检验之一和Krishnamoorthy,Lu和Mathew[7]给出方法等价。

1 均值相等性检验

接下来，我们分别描述Welch近似t检验、Score检验、GP检验和我们提供的PB检验。

1.1 Welch近似t检验

1.2 Score检验

1.3 GP检验

其中T=Z[(U1+U2)/(n1+n2-2)-1/2]服从自由度为(n1+n2-2)的 t分布，B=U1/(U1+U2)～beta((n1-1)/2，(n2-1)/2)，二者相互独立。GP检验法则为：对于给定的显著性水平α，当 p＜α值时，拒绝原假设。

1.4 PB-t检验

1.5 PB-S检验

2 模拟研究

上文已经描述了 Behrens-Fisher问题的五种检验方法，下面通过Monte Carlo随机模拟的方法，比较五种检验方法在控制第一类错误和检验功效方面的优劣。使用Monte Carlo方法模拟计算PB-S检验的p值算法如下：

注意到，GP检验、PB-t检验、PB-S检验的模拟算法中涉及内循环(计算p值)和外循环(经验水平)。外循环从设置参数模型中产生模拟样本，计算第一类错误概率；内循环从估计的模型中产生bootstrap样本，用Monte Carlo方法计算 p值。而Welch近似t检验和Score检验分别利用近似t分布和近似正态分布，只需外循环计算第一类错误即可。相应的循环次数设定如下表1。

表1 计算第一类错误的模拟次数表

在模拟PB-t、PB-S检验时，为了节约计算时间并也能保证p值计算的准确性，适当地减少了模拟的次数，这对模拟结果的影响不是很大。

表2 第一类错误概率的Monte Carlo估计值

表2中的第一类错误结果显示，在小样本下样本量相等时，Welch近似t检验、PB-t检验和PB-S检验控制第一类错误基本稳定在名义水平0.05上，受方差比率的影响不是很明显。值得注意的时，随样本量的减小，Score检验和GP检验的将变得相当的保守，使用的该检验时样本量的选取须相当注意。当样本量不等时，Welch近似t检验和PB-t检验犯第一类错误概率有所上升，横向可以看出GP检验要想达到同样的控制第一类错误的能力，所需的样本量大一些。而PB-S检验犯第一类错误的结果相对稳定得多，在所有样本量和总体方差参数设置下，PB-S检验受样本量和方差比率影响最小，整体检验效果也最优。在样本量不断变大时，四种检验方法在控制第一类错误能力方面逐渐趋于相同。

表3中检验势函数的结果表明，在两组样本量相等时，Welch-t检验、PB-t检验和PB-S检验具有十分相似的检验功效；Score检验与GP检验的势受总体方差比率影响明显，Score检验的势随着方差比率变大而变大，GP检验的势则相反，这点与第一类错误概率相似。在两组样本量不相等时，Welch-t检验和PB-t检验的势时而表现突出，但同时不可避免它们犯第一类错误概率也偏大；Score检验和GP检验受总体方差比率影响更加明显，二者控制第一类错误都偏向保守，检验势也劣与其他三种检验。PB-S检验具有稳定且较好的势。

综上比较，可以发现PB-S检验可以较好控制第一类错误概率，具有不亚于传统检验的势，并且检验效果受总体方差差异和样本差异影响较小，其次是PB-t检验。Welch近似t检验、Score检验和GP检验各有自己的缺陷，本文提出的PB-S检验对样本量和总体方差的要求更加宽松，提高了异方差下均值检验的精确性，在实际应用中更有意义。

3 结论

当存在异方差性和样本容量较小情形下，已有检验无法保证第一类错误概率的问题没有得到足够的重视。本文提出使用参数bootstrap方法构造Behrens-Fisher问题的有效检验模拟比较研究结果显示，参数bootstrap方法在保证第一类错误概率和势函数均有满意的表现。参数bootstrap检验即使在小样本情形下适用范围也比较广，这对于很多实际应用领域只存在小样本的问题提供了帮助，如医学、法庭科学等。也就是说，此时我们依然可以使用参数bootstrap方法提供可信赖的检验报告。而Welch近似t检验受样本量和总体方差之间关系的影响，以及Score检验和广义p值检验在小样本情形下第一类错误概率表现保守的问题，应提醒我们谨慎选择适合实际情况的检验方法。

表3 检验函数势的Monte Carlo模拟估计值

[1]Behrens B V.Ein Beitrag zur Fehlerberechnung Bei Wenige Beobachtungen[J].Landwirtch.Jb.,1929,6.

[2]Fisher R A.The Fiducial Argument in Statistical Inference[J].Annals of Eugenics,1935,(6).

[3]Welch B L.The Specification of Rules for Rejecting Too Variable a Product,with Particular Reference to an Electric Lamp Problem[J].Supplement to the Journal of the Royal Statistical Society,1936,3.

[4]Welch B L.The Significance of the Difference Between Two Means when the Population Variances are Unequal[J].Biometrika,1938,29.

[5]金华,郑圣听,陈伟权.Behrens-Fisher问题的正态逼近[J].统计研究,2009,(26).

[6]Tsui K W,Weerahandi S.Generalized P-Values in Significance Testing of Hypotheses in the Presence of Nuisance Parameters[J].Journal of the American Statistical Association,1989,84.

[7]Krishnamoorthy K,Lu F,Mathew T.A Parametric Bootstrap Approach for ANOVA with Unequal Variances:Fixed and Random Models[J].Computational Statistics&Data Analysis,2007,51.

[8]Efron B,Tibshirani R J.An Introduction to Bootstrap[M].Chapman&Hall London,1993.

[9]Xu L W,Yang F Q,Abula A,et al.A Parametric Bootstrap Approach for Two-way ANOVA in Presence of Possible Interactions with Unequal Variances[J].Journal of Multivariate Analysis,2013,115.

[10]Tian L L,Ma C X,Vexler A.A Parametric Bootstrap Test for Comparing Heteroscedastic Regression Models[J].Comm.Statist.Simulation Comput,2009,38.