基于重复测量数据的异方差测量误差模型参数估计

2015-02-18曹春正侯明辉

统计与决策 2015年10期

曹春正，徐越，侯明辉

（南京信息工程大学数学与统计学院，南京210044）

0 引言

在经典回归模型中，协变量假定为确定性的，即可以准确获得。实际上，这点很难保证。协变量值的观测值可能与真实值之间存在一定的误差，称之为测量误差。如果忽略掉这一误差建模，推断或分析结果就会产生偏差。为处理此类数据，测量误差模型得到了广泛的研究与应用。[1～3]然而，大多数学者致力于研究同方差的测量误差模型，对于在化学和医学上常见的异方差情况研究较少。

一般线性测量误差模型可表示如下：

一般的测量误差模型理论大都基于测量误差同方差假设。即便考虑了异方差情况[4,5]，也并没有针对重复测量数据作研究。基于此，本文研究了异方差重复测量误差模型（H-RME）的参数估计问题，并对模型的有效性进行验证。

1 模型构建

假设在位置t，对于真值ξt和ηt，分别可获得 p和q个重复观测值 xti，i=1，2，…，p ，ytj，j=1，2，…，q 。于是异方差重复测量误差模型可表示为

其中，ξt，δti，εtj两两相互独立。

2 极大似然估计

一方面均值参数与尺度参数不正交，使得在迭代时算法很可能不收敛或异常；另一方面由于异方差的存在，使得估计变难。所以直接基于观测数据对对数似然函数进行优化很难有效获得模型的参数估计。Lin等[6]在正态分布假定下，建立了无方程误差的RME模型EM算法估计迭代式，Lin和Cao[7]将其推广到更一般的椭球分布情形。因此，我们利用EM算法[8,9]对模型(2)进行参数估计。

上述似然表达式中均忽略了常数项，下同。协方差矩阵Σ1t的逆可以根据矩阵求逆的理论[10]由下述闭合式得到：

3 模拟研究

利用Monte Carlo方法说明该模型的有效性，并对异方差重复测量误差模型（“H-RME”），一般重复测量误差模型（“RME”）的极大似然估计结果，不考虑测量误差的基于均值的简单最小二乘估计（记为“OLS”）和基于均值的回归校正估计（记为“RC”）进行比较评判。

我们首先根据上述模型产生2000组样本容量为30的随机样本。然后，基于此样本数据，计算各种模型下参数的估计值和标准差。表1、2和3分别给出了不同异方差强度比下兴趣参数 β0和 β1的模拟样本偏差（记为“BIAS”）、模拟样本标准差（记为“MCSE”）、平均渐近标准差（利用信息阵计算，记为“AESE”）以及模拟均方误（记为“MSE”）。分析可得，H-RME估计在各种异方差强度下均方误都最小，其次为RME估计，OLS估计最差。随着异方差强度的增加，H-RME估计的偏差、标准差有略微的增大，但相比其他几种估计的优势却越来越明显。这说明，当存在显著的异方差问题时，不考虑异方差性将使统计推断出现严重偏差。另外，从样本标准差和渐近标准差的接近程度来看，利用估计渐近标准差推算估计精度是合适的。

以上模拟结果充分表明了本文估计方法的有效性和存在严重异方差性时考虑异方差的重要性。

表1 异方差强度比h=1/2时各种估计方法比较

表2 异方差强度比h=2时各种估计方法比较

表3 异方差强度比h=10时各种估计方法比较

4 实例分析

我们将基于CSFII（Continuing Survey of Food Intakes by Individuals）数据[11]说明该模型应用。CSFII数据包含了1722名女性关于饮食习惯的24小时回访记录。在该数据中，我们将样本分为“饮酒”和“不饮酒”两组。我们视卡路里摄入量/5000为ξ，饱和脂肪酸摄入量/100为η，根据24小时回访记录计算出的对应营养物质量为ξ和η的观测值x和y。

表4 CSFII数据估计方法比较

图1给出了基于CSFII数据，由4种估计方法得到的两变量间的线性拟合图。通过散点的分布可以看出平均卡路里（xˉ）和平均饱和脂肪含量（）之间存在极强的线性关系。四种估计下，简单最小二乘法（OLS）估计的斜率最小，这是由于OLS估计未考虑测量误差，导致估计斜率出现了衰减现象。相比基于平均值的RC估计，H-RME估计和RME估计斜率要小些，且两者最为接近，这是因为CSFII数据中只有δt具有不同方差，并且尽管存在异方差性，但方差变化范围相对较小。总之，对于CSFII数据，就以上四种估计来说，基于RME和H-RME的估计要比RC估计和简单OLS估计要可靠，而依据是否饮酒为分类标准的异方差测量误差模型更加适合该数据。

图1 平均卡路里和平均饱和脂肪量的线性趋势图

5 结论

异方差现象广泛存在于各种数据中，忽略它将会给统计推断带来不同程度的偏差。本文研究了重复测量数据的异方差测量误差模型建模和估计问题，给出了极大似然估计的EM算法。正如CSFII数据一样，实际数据中，异方差的产生来源可能有多种，如年龄、性别、种族等。后续研究内容将包括含方程误差的H-RME模型的参数估计和模拟研究等。

[1]Fuller W A.Measurement error models[M].New York:Wiley,1987.

[2]Cheng C L，Van Ness J W.Statistical regression with measurement error[M].London:Arnold,1999.

[3]Carroll R J,Ruppert D，Stefanski L A，et al Measurement Error in Nonlinear Models:a Modern Perspective(2nd edn)[M].Boca Raton:Chapman and Hall,2006.

[4]Cheng C L,Riu J.On Estimating Linear Relationships when Both Variables Are Subject to Heteroscedastic Measurement Errors[J].Technometrics,2006,48.

[5]Kulathinal S B,Kuulasmaa K,Gasbarra D.Estimation of an Errors-in-Variables Regression Model When the Variances of the Measurement Errors Vary Between the Observations[J].Statistics in Medicine,2002,21（8）.

[6]Lin N,Bailey B A,He X M,et al.Adjustment of Measuring Devices with Linear Models[J].Technometrics,2004,46(2).

[7]Lin J G,Cao C Z.On Estimation of Measurement Error Models with Replication under Heavy-tailed Distributions[J].Computational Statistics,2013,28(2).

[8]Dempster A P,Laird N M,Rubin D B.Maximum Likelihood from Incomplete Data via the EM Algorithm(with discussion)[J].J.R.Statist.Soc.B,1977,39.

[9]McLachlan G L,Krishnan T.The EM Algorithm and Extensions[M].New York:Wiley,1997.

[10]Harville D A.Matrix Algebra from a Statistician's Perspective[M].New York:Springer-Verlag,1997.

[11]Thompson F E,Sowers M F,Frongillo E A,et al.Sources of Fiber and Fat in Diets of U.S.Women Aged 19-50:Implications for Nutrition Education and Policy[J].Amer.J.Pub.Health,1992,82.

[12]朱晓欣，孟香楠，曹春正.含方程误差的重复测量误差模型参数估计[J],应用数学，2013,26(3).