APP下载

多目标变量调查的小域的稳健估计量研究

2011-11-01吕萍

统计与决策 2011年7期
关键词:权数估计量变量

吕萍

(北京大学中国社会科学调查中心,北京100871)

多目标变量调查的小域的稳健估计量研究

吕萍

(北京大学中国社会科学调查中心,北京100871)

大型的抽样调查不仅是多目标的复杂调查,而且在估计总体目标变量的基础上还需要对其中的一些域的目标变量进行估计,所以小域估计和多目标估计问题一直是抽样调查的热点问题。文章主要利用模型校准权数的方法,解决小域中的多目标估计问题,并得到小域的多个目标变量的稳健估计量。

小域估计;多目标调查;模型校准权数;稳健估计量

0 引言

小域估计[1]是当今抽样调查的热点的问题之一,许多大型的调查都需要在估计总体的目标变量的同时,对相应的域的目标变量进行有效的估计。小域指规模很小的域,包括地理上的小域,也包括总体中按照某种属性划分的一个很小的子总体,“小”是指样本量很小,甚至为零,此时无法利用传统的直接估计法对小域的目标变量的进行有效的估计,称为小域估计问题。小域估计的主流发展方向是基于模型的间接估计方法,即基于相邻或相似域的信息借助于辅助模型对小域的目标变量进行估计的方法。这种方法有明确的模型形式,不仅可以处理比较复杂的数据类型,还可以通过样本数据对模型的合理性进行验证。

多目标问题一直是抽样调查的热点问题之一,人们总是希望用一套样本数据满足不同目标变量的估计要求,也称为多主题或多指标抽样,即用一套样本数据同时估计两个或是两个以上的目标变量的抽样调查方法。由于在抽样设计中各个调查变量的样本分布是不同的,多个变量的联合分布很难确定,这大大增加了抽样设计的难度。解决多目标问题的方法主要有四种:

第一种方法体现在抽样方式的选择上,即如何选择一种有效的抽样方法得到样本数据,使各个目标的抽样误差都能达到最小。

第二种方法体现在抽样设计方法的选择上。抽样设计有多种方法,主要有随机化抽样方法,包含多目标分层抽样方法、多目标平衡抽样方法、多目标比率与回归估计方法、多目标双重抽样方法、多目标双重事后分层抽样方法、成本条件下的多目标复合抽样法以及多变量与规模成比例的抽样方法(MPPS);模型抽样方法;模型辅助抽样方法。

第三种方法体现在样本容量的确定上,样本量的大小既涉及到抽样估计的精度,又涉及到调查的费用,在多目标抽样设计中各个目标的抽样误差的大小可能不同,选择合适的样本量是十分重要的。

第四种方法是估计量的选择。即在没有比较好的抽样方法并且经费有限的情况下,选择合适的估计方法尽可能地提高估计量的精度。

多目标问题也是小域估计中普遍存在的问题。本文拟从估计量选择的角度对小域估计中的多目标问题进行研究,并用基于模型校准权数的小域估计方法得到小域的多个目标变量的稳健估计量。

传统的小域估计方法是基于混合模型的模型依赖的估计方法,它的目标估计量依赖于模型的假定,当模型的假定不成立,估计是有偏的,甚至是无效的。在实际调查中,由于抽样设计和实际调查过程的复杂性,总体模型和样本模型往往是不一致的,用样本数据得到的目标变量的估计量是有偏的。针对这个问题,Chambers提出了利用模型校准权数[3][4]的方法,这种方法可以有效地防止模型假定错误和样本选择过程产生的偏差,得到小域的目标变量的稳健估计量[5]。

1 多目标变量调查的小域的稳健估计量

设一个多目标的抽样调查,有k个目标变量是Y=(Y1,Y2,…,Yk)T,调查总体中包含m个小域,设每个目标变量Yk满足线性混合模型[1]

Yk=Xβk+zTuk+ek

其中辅助变量是X=(X1T,x2T,…,xmT)T;设计变量是Z=diag(Zj,1≤j≤J);域随机变量是uk=(uk1,uk2,…,ukm)T;ek=(ek1,ek2,…,ekm)T;Var(uki)=∑ki;Var(eki)=σki2INi;INi是Ni阶的单位矩阵。则Yk的协方差矩阵为Var(Yk)=σki2INi+Zki∑kiZkiT。首先按照样本单元和非样本单元拆分为:

(1)对各个目标变量Yk用小域估计的基本混合模型的方法得到各个目标变量的经验最佳线性无偏估计量,这种方法的计算量比较大,并且依赖于模型的假定条件,稳健性比较差。

(2)对各个目标变量利用基于模型校准权数的小域的稳健估计方法模型校准权数得到小域的各个目标变量的稳健估计量,但是计算量比较大。

(3)在实际过程中,为了计算简便,可以用一个共同的模型校准权数对小域的个目标变量进行估计。这个共同的权数可以通过对每个目标变量的模型校准权数的加权平均,即

利用这个共同的模型校准权数w(1)得到小域的各个目标变量的稳健估计量,但是这个方法同样需要对每一个目标变量求解模型校准权数,计算量依然比较大。

用这个共同的模型权数wk(2)得到各个目标变量的稳健估计量,这个方法同样需要求解k个目标变量的方差元素的估计量赞ki,计算量也比较大。

上面四种方法都需要分别对k个目标变量计算,计算量比较大。下面用模型校准权数的方法,通过在满足k个目标变量都是无偏估计量的情况下使k个目标变量的方差的加权平均和最小,得到k个目标变量的共同的模型校准权数,进而得到目标变量的稳健有效的估计量。调查总体的多个目标变量之间可能相关也可能无关。

2 多个目标变量无关时的稳健估计量

若个目标变量是无关的,则k个目标变量的模型校准权数需要满足在无偏的情况下使每个目标变量的加权平均和最小,即满足:

利用拉格朗日数乘法求解,拉格朗日函数为:

分别对wk和λ的求偏导,并令其为零,即:

上式乘以XsT得到:

得到最优的模型校准权数为:

即k个目标变量的共同的最优的模型校准权数为:

其中Vkss,Vksr的估计量由极大似然估计、矩估计等方法得到,所以k个目标变量的共同的模型校准权数为:

由上述模型校准权数得到第i小域的第k个目标变量Yk的均值的稳健估计量为:

其均方误差的稳健估计量为:

3 多个目标变量相关时稳健估计量

当k个目标变量相关时,得到k个目标变量最优的模型校准权数同样需要满足下面两个条件

其中第个目标变量的协方差为:

同样地,运用拉格朗日数乘法,得到:

上式分别对wk和λ的求偏导,令其为零,得到:

由于k个目标变量是相关的,即Yk,Yl相关,此时:

第i个小域的第k个目标变量Yk的均值估计量为:

均方误差的估计量为:

通过上述方法,可以有效地处理小域中的多目标估计问题。模型校准权数的估计方法是一种稳健的小域估计方法。

4 结论

小域估计和多目标问题都是抽样调查的难点问题,小域的多目标问题是一个备受关注的焦点问题。模型校准权数方法是一种稳健的小域估计方法。本文用模型校准权数的方法解决多目标的小域估计问题,并得到稳健、有效的估计量。

[1]Rao,J.N.K.Small Area Estimation[M].New York:Wiley,2003.

[2]Longford N.T.Missing Data and Small-Area Estimation.Modern Analytical Equipment for the Survey Statistician[M].New York:Springer,2005.

[3]Chandra,H.,Chambers,R.L.Comparing EBLUP and CEBLUP for Small Area Estimation[J].Statistics in Transition,2005,(7).

[4]吕萍.基于最佳线性无偏估计的模型权数的小域估计[J].统计与决策,2009,(1).

[5]Devile,J.C.,Sarndal,C.E.Calibration Estimators in Survey Sampling[J].Journal of the American Statistical Association,1992,87.

O212

A

1002-6487(2011)07-0021-03

中国博士后基金资助项目(20100470129)

吕萍(1981-),女,山东泰安人,博士后,研究方向:统计调查和数据分析。

(责任编辑/亦民)

猜你喜欢

权数估计量变量
最小二乘估计量优于工具变量估计量的一个充分条件
抓住不变量解题
也谈分离变量
微观调查数据抽样权数的可忽略性检验及实证研究
猪肉在CPI中的权数被调低了吗?
猪肉在CPI中的权数被调低了吗?
权数可靠性的假设检验探讨
浅谈估计量的优良性标准
分离变量法:常见的通性通法
正态总体方差和标准差的无偏估计