APP下载

乘积模型的最小二乘相对误差估计

2016-11-28周生彬张波

统计与决策 2016年20期
关键词:估计量乘积方差

周生彬,张波

(1.中国人民大学统计学院,北京100872;2.哈尔滨师范大学数学科学学院,哈尔滨150025)

乘积模型的最小二乘相对误差估计

周生彬1,2,张波1

(1.中国人民大学统计学院,北京100872;2.哈尔滨师范大学数学科学学院,哈尔滨150025)

文章提出了一种基于最小二乘准则下的乘积模型的相对误差估计方法。该方法的目标函数是光滑的凸函数,所得到的估计量具有强相合性和渐进正态性,估计量的渐进方差可以用插入法直接估计。模拟结果显示所提方法与其他同类方法比较具有一定的优势。

乘积回归模型;相对误差;最小绝对值相对误差;随机加权

0 引言

在统计分析中,线性回归模型是最流行最重要的模型之一。通过指数变换,线性模型可以写成乘积模型的形式:

其中yi是响应变量,Xi是协变量,β是含有截距项的回归系数,εi是不可观测的误差项且与Xi独立。模型(1)在经济理论和生存分析中有着广泛的应用。比如,生存分析中的加速失效模型,经济理论中的Cobb-Douglas类型的乘积函数,引力贸易流动方程和乘积需求函数[1],这些模型的响应变量都是正值且可以写成模型(1)的形式。在估计乘积模型时,通常的做法是先做对数变换把乘积模型转化成线性模型,然后对线性模型做参数估计,最后把估计的参数做指数变换。但是,在实际中有时我们关心的是变量之间的乘积结构而不是线性结构。另外,当我们感兴趣的是E(Y|X)而不是参数β时,上面这种做变换的方法就会使得结果不具有一致性。线性模型最常用的估计方法是最小二乘估计和最小绝对值估计,这两种方法都是基于绝对误差。但是在实际中,我们可能更感兴趣的是相对误差而不是绝对误差,因此,有必要建立一种基于相对误差的统计方法。当考虑相对误差时,响应变量通常为正值,而乘积模型处理正是这种变量的模型。在国内,相对误差的研究通常是应用性质的研究[2,3],国外对于相对误差已有一些统计方法的研究[4-8],但是一直没有证明相对误差下估计量的统计性质(如相合性和渐进正态性)。Chen等[9]提出最小绝对值相对误差(LARE)准则:

并证明了该准则下估计量的渐进正态性。该准则同时考虑两种类型的相对误差:其中为yi估计值。最近,许多学者研究了基于LARE准则下的相对误差估计。Zhang等[10]通过局部光滑的方法把LARE准则推广到部分线性乘积模型并且对于线性部分提出了一种变量选择的方法。Yang等[11]提出一种一般的相对误差准则(GREC)估计乘积模型的未知参数,通过将相对误差准则变换为一般的绝对误差准则研究了估计量的渐进性质。Li等[12]提出一种经验似然的方法从而避免了未知的密度估计。在一定的正则条件下,Chen等[1]证明了LARE的渐进性质。但是,该准则得到的估计量的渐进方差含有未知的误差项的密度函数。另外,LARE准则定义的函数不是光滑函数这使得求解计算非常费时。因此,有必要建立一种准则,该准则不仅含有相对误差项而且所定义的函数是光滑的凸函数。准则函数的凸性保证了所得估计量的唯一性和一般的三明治类型的插入估计量的相合性。本文基于LARE准则进一步提出最小二乘的相对误差(LSRE)准则,该准则下目标函数为光滑的凸函数,估计量的渐进方差可以用插入法直接估计。

1 最小二乘相对误差准则

在LARE准则的基础上,基于上述两种类型的相对误差,本文提出一种最小二乘相对误差准则:

由式(4)可以看到LSRE准则的一些优点。首先,LSRE准则得到的目标函数是光滑的且有无穷阶导数。其次,由于指数函数是严凸函数,所以目标函数也是严凸函数。于是,最小化目标函数(4)等价于求其一阶导数的根。所以,可以用局部二项式展开直接得到估计量的渐进性质而且可以应用M-估计的方法进行统计推断。记为β的估计量,即:

由式(4)的严凸性可知,如果式(4)存在最小值,则最小值一定是唯一的。若设计阵是非奇异的,那么存在且唯一。为了得到估计量的渐进性质,假设如下条件成立:

条件1:E(XXT)是正定阵;

条件2:存在ψ>0使得E{(ε2+ε-2)exp(ψ‖X‖)}<∞;

条件3:存在ψ>0使得E{(ε2+ε-2)2exp(ψ‖X‖)}<∞;

条件4:误差项满足E(ε2)-E(ε-2)=0。

条件1保证了设计阵是非奇异的,该假设是回归参数可识别的最小条件。条件2几乎是目标函数(4)在真实参数β0的某个邻域内有有限期望的最小条件,同时保证了式(4)的极限关于β是可微的且微分和期望是可交换的。条件3与假设2类似,为了证明估计量的渐进正态性。条件4等价于目标函数(4)在β点导数的均值为0,这一假设也是估计量渐进无偏的最小条件。严凸性和渐进无偏性使得估计量一定是相合的。

n0的一个邻域内收敛到E{LARE(β)}且二者都是凸的。

n因此,由Rockafellar[13],收敛到β0,其中为 LAREn(β)的最小值,β0为E{LAREn(β)}的最小值。

证明:记Ln(β)=LAREn(β),由的定义有因为是相合的,由泰勒公式,所以,

估计量的渐进方差可以用插入法直接估计。定义插入估计量为:

性质:设条件1成立,如果误差项ε的密度函数有如下形式:

其中c是正则常数,则估计量βˆn是渐进有效的,其中I(·)为示性函数。

证明:给定ε的密度函数,则:

因此,Y的似然函数为:

最大化上面的似然函数等价于最小化所提的LSRE准则,所以,当时,最小化LAREn得到的估计量是有效的。

2 数值模拟

采用蒙特卡洛模拟方法比较最小二乘(LS),最小绝对值偏差(LAD),最小绝对值相对误差(LARE)和本文所提的最小二乘相对误差(LSRE)在有限样本情形下的有效性。模拟研究基于如下模型:

其中X1i和X2i都服从标准正态分布N(0,1)且相互独立,β0,β1和β2是回归参数,取值为(β0,β1,β2)T=(1,1, 1)T。考虑四种误差分布:(1)ε的分布使得LSRE的估计为有效估计;(2)logε服从N(0,1);(3)logε服从(-2,2)的均匀分布;(4)ε的分布使得LARE的估计为有效估计,即, ε~feff1(x)=c1exp(-|1-x|-|1-x-1|-log x)I(x>0),其中c1为正则化常数。样本量n取200。LARE和LAD的方差估计采用随机加权的方法且重抽样的次数为N=500,LS和LSRE的方差估计采用插入法直接估计。模拟结果为重复1000次的情形。

表1 LSRE,LARE,LS和LAD在β=(1,1,1)T时的对比结果

3 应用举例

人体脂肪数据共收集252个人的多项人体指标,该数据可用来分析人体脂肪所占体重的百分比,对于该数据的具体描述可参考Penrose[14],从原始数据中收集到12个解释变量:年龄(X1)身高4/体重2(X2)和10个其他人体围度指标(颈、胸、腹、臀、大腿、膝、踝、二头肌、前臂和手腕、分别记为Xi,i=3,…,12),其中X2对体质指数(BMI=体重/身高2)变换得到。响应变量Y为人体脂肪百分比。该数据有一个观测值Y=0,将其删除并用多元回归模型拟合剩余n=251个数据:

其中Zj,j=1,…,12表示标准化的解释变量。为了对不同的方法进行评估,数据集被分成两部分。第一部分有200个样本,用来拟合模型(7),剩余51个样本被用来评估预测效果。表2和表3给出了拟合结果。p-值的计算公式为,其中是回归系数的估计值,是的标准偏差的估计,Φ(·)是标准正态累积分布函数。LSRE和LS的方差用插入法估计,LARE和LAD的方差用随机加权重抽样的方法估计。表2说明这四种方法都能够识别出某些共同的变量(p-值<0.05),比如年龄、1/BMI和腹围。随着年龄的增长、BMI的增加和腹围的变大,人体脂肪的比例也会随着增加,这一点是非常合理的。但是,只有LSRE识别出了肱二头肌和大腿的围度而其他三种方法却没有识别出来,这说明人体脂肪的比例会随着大腿变粗和肱二头肌的围度变大而增加。

表2 LSRE,LARE,LS和LAD四种方法分析人体数据的结果

表3 LSRE,LARE,LS和LAD四种方法预测误差的中位数的比较结果

这四种估计的预测效果用两种不同的中位数指标度量:乘积相对误差中位数(MPPE)和可加相对预测误差中位数(MAPE),其中i=201,…,251。表3表明LSRE的MPPE和MSPE比LARE、LS和LAD都要小。

4 结论

本文提出一种乘积模型的最小二乘相对误差(LSRE)准则。所提的LSRE准则的形式简单而且渐进方差不包含未知的误差项的密度,因此可以直接用插入法估计渐进方差。而Chen[1]所提方法要用随机加权的方法估计渐进方差,该方法无论是算法的复杂度还是计算时间都要比插入法复杂得多。因此,本文所提方法进一步改进了LARE的估计效率。相对误差还没有像绝对误差那样受到人们普遍的关注,在相对误差准则下也没有哪一个准则像最小二乘准则那样被人们普遍接受,因此,本文所提出的LSRE准则无论是在理论上还是在计算上都是LARE准则的另外一种可能的选择。数值模拟和实证研究结果表明LSRE准则的优良性。

[1]Chen K,Guo S,Lin y,etal.LeastAbsolute Relative Error Estimation. [J].Journalof the American StatisticalAssociation,2010,(105).

[2]Teekens R,Korets J.Some Statistical Implications of the Log Transformation ofMultiplicative Models[J].Econometrica,1972,(40).

[3]云连英,曹勃.基于优化的相对误差意义下的数据拟合[J].统计与决策,2007,(21).

[4]高尚,张绍虎,梅亮.基于相对误差的线性组合预测研究[J].系统工程与电子技术,2008,(3).

[5]Narula S C,w ellington,J F.Prediction,Linear Regresion and the Minimum Sum ofRelative Errors[J].Technometrics,1977,(19).

[6]Makridakis S,Andersen A,Carbone R,etal.The Forecasting Accuracy ofMajor Time SeriesMethods[M].New y ork:w iley,1984.

[7]Khoshgoftaar T M,Bhattacharyya B B,Richardson G D.Predicting Software Errors,During Development,Using Nonlinear Regression Models:A Comparative Study[J].IEEE Transactions on Reliability, 1992,(41).

[8]Park H,Stefanski L A.Relative一Error Prediction[J].Statist.&Prob. Letters,1998,(40).

[9]ye J.Price Models and the value Relevance of Accounting Information[R].TechnicalReport,2007.

[10]Zhang Q,w ang Q.Local Least Absolute Relative Error Estimating Approach for Partially Linear Multiplicative Model[J].Statistic Sinica,2012,(23).

[11]y ang y,ye F.General relative Error Criterion And M一estimation [J].FrontiersofMathematics in China,2013,(8).

[12]Li Z,Lin y,Zhou G,et al.Empirical Likelihood for Least Absolute Relative Error Regression[J].Test,2013,(23).

[13]Rockafellar R T.Convex analysis.Princeton University Press[M], Princeton:N J,1970.

[14]Penrose K w,Nelson A G,Fisher A G.Generalized Body Composition Prediction Equation for Men Using Simple Measurement Techniques(Abstract)[J].Medicine and Science in Sports and Exercise, 1895,(17).

(责任编辑/亦民)

O212

A

1002-6487(2016)20-0009-03

国家自然科学基金资助项目(71471173)

周生彬(1979—),男,吉林延边人,博士研究生,研究方向:高维数据分析。张波(1960—),男,黑龙江哈尔滨人,教授,博士生导师,研究方向:概率统计。

猜你喜欢

估计量乘积方差
含单调约束的广义回归估计量
受扰动长记忆随机场的BNLP回归估计
概率与统计(2)——离散型随机变量的期望与方差
最小二乘估计量优于工具变量估计量的一个充分条件
乘积最大
最强大脑
最强大脑
方差越小越好?
计算方差用哪个公式
方差生活秀