APP下载

波士顿住房数据变系数误差模型的核实方法研究*

2018-05-11

关键词:核实测量误差房价

尹 雯 雯

(南京理工大学 理学院, 南京 210094)

0 引 言

房价一直是备受关注的话题,很多学者对房价都进行了各种建模分析,刘峰等[1]对重庆房价进行了变系数模型的建模分析,考虑房价的变动是有很多因素影响,普通的多元线性回归模型可能产生很大的误差,因为变量的系数经过检验可能是根据某个混淆变量发生变化的,变系数模型能够更好地拟合数据。翁[2]在对半参数变系数分位数回归模型研究中,把14个变量分为四大类:结构性因素(房间数)、交通因素,邻近因素(教育程度,不动产率)以及环境因素。然后通过变量选择,选取6个变量进行模型拟合:MEDV(Y),CRIM(X1),RM(X6),TAX(X10),PTRATIO(X11)以及LSTAT(U)(混淆变量),本文也也将对这6个变量进行建模分析。

简单介绍一下核实方法,现实情况下,为了节省成本,通常利用容易获得的粗糙变量或者替代变量,这肯定会引起不可避免的测量误差。在文献[3]中描述,心肌梗死对心肌危害程度可由毛细血管拍照的方式精确测量,但对病人伤害大且价格昂贵,通常采用心肌酶等在血液中的含量作为替代变量,肯定含有测量误差。此案例中,心肌酶含量和吸烟问卷调查数据都是替代变量(Surrogate Variables),带有误差,而相对小的部分精确测量的数据为核实样本(Validation Variables)。现实情形可能是真实变量与替代变量间不应该假设任何结构模型,但可以用回归方法去捕捉真实数据与替代数据之间的关系。对于住房数据,有些人研究的是不带测量误差的,有些人研究的是带有测量误差的,其中研究测量误差模型基本上假设的是可加的。但是获取的房价数据并不是全部带有误差的,以后的住房数据获取中可以想方法获取一部分真实数据,这样可以用核实方法去减小因为数据带有误差而造成的拟合误差。

1 数据介绍

波士顿住房数据的变量如表1,通过散点图分析其他变量和MEDV(Y)房价中位数的关系。从图1中可以看出MEDV(Y)与RM(X6),LSTAT(U)线性负相关,与TAX(X10),CRIM(X1)和PTRATIO(X11)存在非线性关系,相关系数矩阵如表2。

房价的影响因素在正常认知中,应该还要考虑环境、交通便利等因素,这些因素显然与房价是负相关的,一些研究也对这些因素进行多元线性回归分析,虽然都可以得到一些较好的经济解释,但是还是有很多隐藏的信息没有提取出来。

(a) Y与X1-X4散点图 (b) Y与X5-X8散点图

(c) Y与X9-X12散点图 (d) Y与U散点图

变量名称变量意义变量名称变量意义CRIM(X1)人均犯罪率DIS(X8)离五大就业中心加权距离ZN(X2)住房用地所占比例RAD(X9)到高速公路的方便指数INDUS(X3)非商业用地所占比例TAX(X10)每1万美元不动产税率CHAS(X4)是否临河(1,0)PTRATIO(X11)城镇中教师学生比例NOX(X5)氮化物浓度BLACK(X12)黑人比例RM(X6)房子平均屋数LSTAT(U)房东低阶收入比例AGE(X7)1940年前自住房比例MEDV(Y)房价中位数

表2 相关系数矩阵Table 2: Correlation coefficient matrix

2 模型分析

考虑变系数模型有如下形式:

Y=αT(U)X+e

(1)

其中,X=(X1,…,Xp)T∈Rp,α(·)=(α1(·),…,αp(·))T是定义在R到Rp的未知函数,U为单指标变量,模型误差e满足E(e|X,U)。很多研究者对此模型已提出多种估计方法,文献[4]提出针对系数函数部分的两步估计法;文献[5]在变系数模型估计论文中也有详细的介绍。

对于核实方法,文献[8]研究了带测量误差的线性模型;文献[9]运用了经验似然方法。

3 模型拟合

采用Harrison和Rubinfeld在1978年研究的波士顿房价数据,有506个数据,共14个变量,主要研究的是MEDV(Y)与CRIM(X1),RM(X6),TAX(X10),PTRATIO(X11)的关系,将LSTAT(U)作为混淆变量放入模型式(1)中,对所有变量进行Min-Max标准化处理,本文假设波士顿在测量这些变量时花费代价获取了106个几乎无误差的数据,其余400个是粗糙的带误差的数据,可以用核实的方法去处理这些数据,不假设任何误差结构,令T=(Y,X,U)T,V=(X,U)T,以及X=(X1,X6,X10,X11)T。利用交叉核实验证的方法选择带宽,非参数局部核估计都涉及带宽选择问题,在核实数下涉及多个带宽选择问题,很多文献说明h1,h2的选择对α(·)的估计没有起决性影响。因此,对于α(·),使用交叉核实验证的方法选择最优带宽h3。通过数据,CV方法选择的带宽如下:h3=0.464以及h1=(0.229,0.025,0.2,0.025,0.025,0.464)T,h2=(0.025,0.2,0.025,0.025,0.464)T,拟合结果如图2,模型计算结果各个变量的系数都不是常数,说明变系数模型更能动态地反映房价中位数的波动趋势,符合实际。

4 结 论

很多测量误差模型大部分假设误差结构是可加的,但是对于复杂数据情形的研究,还是有一定困难性的。将核实方法运用到统计推断可以减少因为误差模型的假设带来的偏差,在实际应用中,利用核实方法,也可以极大地减少成本,以相对小的代价获得预期的效果。另外运用变系数模型拟合住房数据比线性模型更加灵活,也能更好解释房价的变动原因。

(a) α1(·)的估计 (b) α2(·)的估计

参考文献(References):

[1] 刘锋, 张星, 张光锋. 重庆市房价变系数回归模型的建模与分析[J]. 重庆理工大学学报, 2014(28):150-154

LIU F, ZHANG X, ZHANG G F. Modeling and Analysis of Chongqing House Prices Varying Coefficient Regression Model[J]. Journal of Chongqing University of Technology, 2014(28):150-154

[2] 翁云妹. 半参数变系数分位数回归模型及其两阶段估计:以波士顿房价应用为例[D]. 厦门:厦门大学, 2008

WENG Y M. Semi Parametric Variable Quartile Regression Model and Its Two-step Estimation: A Case Study of Boston Housing Price Data [D].Xiamen: XiaMen University, 2008

[3] WANG Q H, ZHANG R Q. Statistical Estimation in Varying Coefficient Models with Surrogate Data and Validation Sampling[J]. Journal of Multivariate Analysis, 2009(100): 2389-2405

[4] FAN J, ZHANG J T. Two-Step Estimation of Functional Linear Models with Applications to Longitudinal Data[J]. Journal of the Royal Statistical Society, 2000(62): 303-322

[5] FAN J, ZHANG W. Statistical Estimation in Varying Coefficient Models[J]. Annals of Statistics, 1999(27): 1491-1518

[6] LV Y Z, ZHANG R Q, HUNG Z S. Estimation of Semi-varying Coefficient Model with Surrogate Data and Validation Sampling[J]. Acta Mathematicae Applicatae Sinica, 2013(29): 645-660

[7] LV Y Z, ZHANG R Q, HUANG Z S. Non-parametric Estimation of Varying Coefficient Error-in-variable Models with Validation Sampling [J]. Journal of Statistical Planning & Inference, 2011(141): 3323-3344

[8] WANG Q H. Estimation of Linear Error-in-Covariables Models with Validation Data Under Random Censorship[J]. Journal of Multivariate Analysis, 2000(74): 245-266

[9] WANG Q H, RAO J. Empirical Likelihood-based Inference in Linear Errors-in-covariables Models with Validation Data[J]. Biometrika, 2002(89): 345-358

猜你喜欢

核实测量误差房价
密度测量误差分析
两大手段!深圳土地“扩权”定了,房价还会再涨?
阅读理解精练精析
纵向数据下变系数测量误差模型的渐近估计
防范未然 “稳房价”更要“稳房租”
去库存的根本途径还在于降房价
2016房价“涨”声响起
基于敏感因子的GPS速度测量误差补偿算法
IMU/GPS测量误差对斜视条件下机载重轨干涉
中国2012年增速确认为7.7%