APP下载

基于多元回归法的武汉市二手房价格影响因素研究

2017-03-01缪格李英冰袁菲

城市勘测 2017年1期
关键词:差价二手房对数

缪格,李英冰,袁菲

(1.武汉大学测绘学院,湖北 武汉 430079; 2.武汉大学测绘学院时空大数据研究中心,湖北 武汉 430079)

基于多元回归法的武汉市二手房价格影响因素研究

缪格1*,李英冰1,2,袁菲1

(1.武汉大学测绘学院,湖北 武汉 430079; 2.武汉大学测绘学院时空大数据研究中心,湖北 武汉 430079)

二手房价格受到区域因素、房屋自身因素、市场因素等多种因素综合影响,传统估价方法过多关注于房地产自身属性的差异及修正,有较强的主观性。本文以特征价格模型为基础,采用多元线性回归模型和多元对数回归模型,建立二手房价格与区位因素、房屋自身因素等影响因子之间的函数关系,并采用武汉市二手房挂牌数据、看房价网(www.kanfangjia.cn)数据和百度热点数据,对武汉市二手房各个特征变量进行筛选、量化和整合,并对比分析不同区域各个特征变量对二手房价格的影响程度,实验结果与实际情况符合度较好。

二手房;特征价格;价格评估;影响因素;多元回归法

1 引 言

二手房价格是政府和广大人民的关注焦点,而如何给出相对客观价格,受到研究人员和市场交易的广泛关注。传统的房价评估方法常用的是市场比较法、收益还原法和成本法,但在实践中往往依赖评估师的经验,对数理模型的运用比较少[1]。Cour最早提出特征价格模型,当时多用于耐用消费品的定价[2]。特征价格模型从产品的差异性出发,把二手房产品价格分解为各个特征价格,核心在于建立二手房特征与价格之间的函数关系[2]。特征价格模型将房屋价格特征化能让消费者更能理解房价构成,购房者可以根据自己的需求与经济状况有针对性地选择自己想要的居住环境;此外,从消费者的需求角度出发,从房屋特征的角度看待房屋价格,在一定程度上反映出消费者对房屋特征变量的关心程度,使房价的评估更为简易,为政府等有关部门提供借鉴[3]。

特征价格模型自提出以来,被国内外研究不断深入且紧密联系实际开展研究。1999年,Paliwal等基于特征价格模型,引入三角模糊数法衡量人们对土地购买的意愿[4];Peterson(2009)将人工神经网络法与特征价格模型相结合[5];Badi H.Baltagi(2011)用极大似然估计拟合了特征价格模型[6]。国内学者最早是由中国人民大学蒋一军、龚江辉(1996)利用特征价格方法提出了计算异质商品价格指数的方法,并将其应用于房地产价格指数的计算[7],温海珍(2003)开启了国内特征价格模型实证研究之路,对杭州市二手房交易案例进行数据整合,研究特征影响变量[8];黄古博、李雨真(2011)应用主成分法改进二手房的特征价格模型,排除变量间因多重共线性产生的误差[9];李恒凯(2012)结合地理信息系统(GIS)和主成分分析(PCA)算法研究如何提高二手房特征价格模型函数拟合效果及准确性[10]。

二手房价格往往受到多种因素的影响,特征价格模型将二手房价格分解为各个特征价格,得出各个特征对二手房价格的影响,从而实现二手房价格的估算。本文采用特征价格模型,从消费需求出发,用多元回归分析法将房价分解为各个特征价格来研究房价的影响因素,其中通过逐步回归和变量整合以避免变量间的多重共线性,从理论上分析二者的函数关系。

2 特征价格模型的构建

2.1 特征价格模型理论及参数估计

二手房的真正效用源自于其包含的各个分散的功效特征,如面积、楼龄、朝向,如果二手房所包含的特征不同,则相应的价格也不同。消费者愿意为二手房的某个特征的每单位增加而支付的额外费用,则称为该特征的隐含价格(特征价格),它反映了各个特征对二手房价格的贡献程度。构建回归函数是特征价格模型的研究的核心,Butler理论阐述房屋价格受区位特征(L)、建筑特征(S)、邻里环境(N)三大特征变量影响[11]:

P=f(L,S,N)

(1)

在其他条件不变前提下,将每个特征求偏导即为边际隐含特征价格。国外文献出现最频繁的模型变量为面积,总层数,装修程度,有无CBD,公交站,有无地铁,楼龄,教育设施与生活、娱乐设施等[1]。在函数形式的设定中,最常用的函数形式为线性形式和对数形式,计算公式分别为式(2)和式(3):

P=α0+∑αiZi+ε

(2)

ln(P)=α0+∑αiln(Zi)+ε

(3)

其中P是特征价格,Zi是住房的特征变量,αi是常数项,ε是随机干扰项。

对数模型中,自变量和因变量以对数形式进入模型,则回归系数对应着特征的价格弹性。对数模型是假设函数经过显性化处理后得到的表达,对数模型考虑到了二手房特征应当遵循边际效用递减规律,即房屋价格随某种特征的增加而增加,但增加速率会越来越慢,对数模型能较好地反映价格与各个特征之间的函数关系。

经典线性计量经济学模型最常用的最小二乘法实现参数估计法的应用。参数的最小二乘估计(OLS):选择合适的参数αi使得全部样本值的残差平方和(Rss)最小,即

(4)

Yi——为样本的真实值

线性、无偏性、最小方差性是运用最小二乘法所得的多元线性回归参数估计值所具有的特性[2]。

2.2 模型变量的选取与量化

选取房价相应的解释变量是在对武汉市二手房价格分析建模前必须考虑的步骤。根据已有的数据及后期可以获取到的数据,结合国内外特征价格模型常用的解释变量,初步选取室厅、面积、有无景点、首付、层数、有无车库、总层数、朝向、楼龄、有无地铁、装修程度、学校、公园、CBD、公交线路、医院、商场这17个解释变量研究。

特征变量,详细信息主要包括室厅、面积、总层数、朝向、装修程度、楼龄、学校、公园、医院、商场、中央商务区(CBD)、有无地铁等解释变量。

二手房的特征变量分定量、定性变量,为了从数理模型是研究各个特征变量对二手房价格产生的影响,需要将各个变量进行量化整合,不同类别的变量量化方式不同,如表1所示。

住宅解释变量的初步选取 表1

(1)定性变量的量化

定性变量用三种方法来量化,即虚拟变量量化法、李克特量表量化法和综合性指标量化法[3],具体量化法如表2所示:

定性变量量化表 表2

表2中,地铁凸显了交通的便捷程度,因此二手房周围有地铁也会让房价相应提升,预期影响为正;其次,将装修程度量化为四个等级,装修程度越高,表明住宅的成本价格越高,住宅价格也越高。

当特征变量选取较多时,自变量之间可能存在较大的相关性,为了避免自变量的多重共线性问题,采用综合性指标量化法来进行特征变量的整合以减少变量数目。

(2)定量变量的量化

二手房价格、面积、楼龄、室厅数、层数、总层数、公交站数这7个定量变量直接用实际数值(对数模型中对二手房面积进行简单的自然对数变换)进行量化,如表3所示,变量内涵也比较简单客观[1]。

定量变量量化表 表3

小区周围公交站个数越多,居民出行越方便,住宅价格越高。楼龄是住宅竣工日期到2016年的时间段长度,计量单位为年,例如2015年竣工的住宅楼龄为1,楼龄反映建筑本身的新旧与使用程度,楼龄与住宅价格呈负相关关系。

变量经过整合和量化后,初步确定进入模型的特征变量有12个。

2.3 模型变量的剔除与筛选

由于初步选择的特征变量较多,特征变量之间可能存在比较严重的线性关系,上述采用综合性指标方法量化部分变量克服自变量之间的多重共线性,本文还采用逐步回归法,逐步回归是向前回归法和向后回归法的结合,首先按自变量对因变量的贡献率进行排序,按照从大到小的顺序选择进入模型的变量。每将一个变量加入或删除模型(步进)时,要进行偏F检验,剔除不显著的变量,然后再对留在模型中的变量进行检验,直到没有变量可以纳入,也没有变量可以剔除为止,从而尽量排除变量多重共线的可能性。步进准则中,F检验的概率≤0.050表示自变量对因变量的影响显著,判断结果为进入(enter)模型;F检验的概率≥0.100表示自变量对因变量的影响为不显著,判断结果为移出(remove)模型。

模型构建最终确定的特征变量 表4

由表4可见,被移去的变量有层数,室厅和朝向,可能是因为研究的数据中包含一定量的商铺,使得一些自变量与因变量的函数关系不明显。最终进入回归模型的特征变量共9个,分别是面积,总层数,装修程度,有无CBD,公交站,有无地铁,楼龄,教育设施与生活、娱乐设施。

量化整合修正后共有9个特征变量,将其逐步导入模型,当9个特征变量全部导入模型时,模型的拟合效果最好。所以,最终确定的解释变量分别是面积,总层数,装修程度,有无CBD,公交站,有无地铁,楼龄,教育设施与生活、娱乐设施。

3 实证研究

3.1 实验数据说明

武汉市近几年房价成稳定增长趋势,且武汉市各区域房价差异较大,本文选取了2015年武汉市10个区二手房交易挂牌数据2 000个进行研究。

通过对数据的统计分析,删除不符合常理的数据记录后,分别作各个自变量与因变量的箱线图,如图1所示:横坐标表示二手房的建成年份(年),反映出二手房的楼龄,纵坐标表示所研究的二手房价格(万元/m2)。

箱线图利用数据中的5个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述、判断数据异常值,从中鉴别出离群值和极端值。描绘个案偏离箱体边缘(上端、下端)的距离是箱体的几倍,其中“∘”表示离群点(1.5倍~3倍),“*”表示极端离群点(超过3倍),然后进行异常值剔除后,最后采用的样本数为 1 494个。

图1 二手房总价与二手房建成年份箱线图

3.2 拟合分析与自相关DW检验

当选取的9个特征变量全部进入模型时拟合效果最好,多元回归分析结果如表5所示,R代表复相关系数,在多元回归中,为了避免拟合效果单调随变量X的增加而变大,R(a)更能体现拟合和方程的显著性检验。R的平方即R2表示回归方程对样本观测值的拟合程度,越接近于1,方程的拟合度越高。线性模型与对数线性模型的复相关系数分别为0.927,0.935。当给模型增加自变量时,复决定系数也随之逐步增大,当自变量足够多时会得到模型拟合良好,而实际却可能并非如此,于是考虑对R2进行调整,称调整R2,分别为0.858,0.873;模型所能解释因变量差异的百分比都大于85%,自变量和因变量间表现出较良好的线性关系,有较好的模型解释能力。但线性模型的标准估计误差远远高于对数模型,且对数模型的解释力度更强,经对比可见,对数线性模型具有更好的解释力。

估计标准误差是说明实际值与其估计值之间相对偏离程度的指标,主要用来衡量回归方程的代表性,对数模型的误差值远小于线性模型,对数模型方程代表性更优。

更改后的F检验值分别为905.605、1144.248,sig显著性水平都为0.000,小于0.05,则F检验通过,表示统计量显著,方程中自变量因变量间线性关系能够成立,模型对样本数据的拟合在统计上有意义。

多元线性回归分析的一个假定是误差项的相互独立性,要验证在误差之间是否存在自相关联系效应,避免导致线性回归分析出现严重的偏误,所以用较为精确的自相关检验方法——自相关DW检验来考察,两个回归方程的DW检验值,分别为1.820和1.744,都接近于2,可认为两个模型中的误差项基本上是独立的,基本不存在异方差问题,如表5所示。

多元回归分析结果的拟合优度表 表5

3.3 多重共线性检验与回归方程分析

多元系数回归如表6所示。B值是指回归系数和截距,常数则代表截距,变量对应的B值代表回归系数。

标准误差用来衡量抽样误差,越小表明样本对总体越有代表性,用样本推断总体参数的可靠度越大。经对比可见,对数模型中的标准误差远小于线性模型,说明对数模型二手房价格回归方程房价预测可靠性较好。

标准化回归系数是指去除了因变量Y和自变量X1,X2,…Xn量纲影响之后的回归系数,其绝对值的大小直接反映了Xi对Y的影响程度。

VIF为方差膨胀因子,用于检验自变量的多重共线性,标准为10,超过10即表明自变量间存在较严重的多重共线性,表中VIF最大为2.152,远远小于10,可认为自变量间不存在显著的多重共线性,如表6所示。

多元回归系数表 表6

由上述多元线性回归分析回归系数表可知,最终的回归方程为:

(2)线性模型多元回归方程:

P=-54.859+0.485X1+4.922X2-0.635X3+5.741X4+0.196X5+5.537X6+13.837X7+3.638X8+0.827X9

(5)

(3)对数模型多元回归方程:

LnP=-0.724+0.004X1+0.055X2-0.007X3+0.066X4+0.002X5+0.088X6+0.220X7+0.041X8+0.964LnX9

(6)

式(5)与式(6)为多元线性回归分析最终确定的回归方程,其中,P代表二手房价格,X1,X2,…X9分别代表总层数、装修程度、楼龄、教育设施、公交站、有无CBD、有无地铁、生活、娱乐设施和面积。对各个特征变量对房价的预期影响进行回归参数公式符号的验证分析,验证结果符合预期值。经过对比,线性模型中各项标准误差较大,可能是因为定量变量面积的数值较大,从而引起了数值较小的定性变量的回归参数的畸变。对数模型各个回归参数的标准误差远远小于线性模型,在一定程度上反映出对数模型有更好的解释能力。

3.4 残差分析与模型应用

(1)残差分析

在模型假定基础上建立判定系数的计算和显著性检验,这就考虑到模型的假定基础的真实性问题。如果模型的假定不真实,那么模型的适用性就遭受怀疑,残差分析是证实模型假定真实性的基本方法,两个模型的绝大多数标准化残差随机落于-2和+2之间,满足方差齐次性的假设,可认为两个模型的假定都合理。

(2)参数回代差价分析

目前共有1 494个武汉市二手房样本案例,通过所得出的两个模型回归公式做参数回代,得出计算出的理论价格,并且与相应的实际二手房价格做差价作为横坐标,纵坐标为差价数值出现的频率,形成频率分布直方图,如图2所示:

图2 武汉市线性模型与对数模型差价频率直方图

线性模型和对数模型分别对应差价频率直方图都满足正态分布,每平方米价格差价大多数都集中在 1 500元以内,对比可见对数模型的差价频率曲线更为陡峭,且超出 2 000元范围的差价相比于线性模型要少得多,模型拟合效果更好。

(3)特征变量影响程度的区域分析

各个二手房特征价格的量纲不同,故采用标准化回归系数(去除量纲)来衡量自变量的相对重要性,可将自变量对因变量的相对影响程度大小进行排序,如表7所示。

(4)实例验证分析

随机选取武汉市某一二手房案例来进行参数回代反算二手房价格,线性模型回归方程案例计算出来的二手房总价差价为2万元,二手房每平方米价格差价172元。对数模型回归方程案例计算出来的二手房总价差价为1万元,二手房每平方米价格差价85元,可见这个案例拟合效果不错。从整体看,线性模型每平方米价格差价均值在870元,对数模型的每平方米价格差价均值在820元,由差价频率分布直方图可看出每平方米价格差价大多数分布在 1 500元以内。

对数模型下武汉各区标准化回归系数及特征影响程度分析表 表7

4 结 论

本文基于特征价格模型,结合武汉二手房数据,采用多元回归方法,评估了二手房价格的影响因素,主要工作与贡献为:

(1)利用挂牌数据、看房价网数据、百度API数据查询获取了武汉市及其江汉区、江夏区、武昌区的二手房各个特征变量的数据并且进行筛选、量化和整合。并对影响因素进行了排序。

(2)分别构建了可供实际应用的线性模型、对数模型对二手房价格评估进行分析比较,经过模型拟合优度、标准误差、残差分布与差价频率图的对比分析,对数模型拟合效果更好,其回归方程解释能力更强。

在数据分析时,有些问题需要进一步研究。如有些数据仍不容易获取,如居民的收入水平、小区环境质量、小区居民素质等,可能会导致特征变量因素不全面进而影响模型的拟合。以后的研究应重点学习如何量化人文因素与环境质量这些未有特定量化标准的特征变量。

[1] 张鑫. 基于特征价格的二手房价格评估方法研究[D]. 杭州:浙江大学,2007.

[2] Court,A T. Hedonic Price Indexes with Automotive Examples,In The Dynamics of Automobile Demand,New York:General Motors,1939.

[3] 李志辉. 基于Hedonic模型的武汉住宅特征价格研究[D]. 武汉:华中农业大学,2008.

[4] Paliwal R,Geevarghese G A,Babu P R,et al. Valuation of Landmass Degradation Using Fuzzy Hedonic Method:A Case Study of National Capital Region[J]. Environmental & Resource Economics,1999,14(4):519~543.

[5] Jonathan P,Russell J A,Andrew G,et al. The neurophysiological bases of emotion:An fMRI study of the affective circumflex using emotion-denoting words[J]. Human Brain Mapping,2009,30(3):883~895.

[6] Baltagi B H,Bresson G. Maximum likelihood estimation and Lagrange multiplier tests for panel seemingly unrelated regressions with spatial lag and spatial errors:An application to hedonic housing prices in Paris[J]. Journal of Urban Economics,2011,69(1):24~42.

[7] 蒋一军,袭江辉. 房地产价格指数与Hedonic模型[J]. 中国资产评估,1996(3),30~32.

[8] 温海珍,贾生华. 二手房的特征与特征的价格——基于特征价格模型的分析[J]. 浙江大学学报·工学版,2004(10):1138~1149.

[9] 黄古博,李雨真. 基于主成分分析法的商品住宅特征价格模型改进[J]. 华中农业大学学报:社会科学版,2011(4):93~97.

[10] 李恒凯,王秀丽,刘小生. 基于GIS和PCA的住宅房产特征价格模型[J]. 测绘科学,2012,37(2):119~122.

[11] Butler,R V. The specification of hedonic indexes for urban housing[J]. Land Economics,1982,58,94~108.

[12] Lee J,Kwak S J,List J A. Average Derivative Estimation of Hedonic Price Models[J]. Environmental & Resource Economics,2000,16(1):81~91.

[13] 马思新,李昂. 基于 Hedonic模型的北京住宅价格影响因素分析[J]. 土木工程学报,2003(9):59-64.

[14] 周丽萍. 商品住宅特征价格模型与指数的应用研究[D]. 西安:西安建筑科技大学,2008.

The Influence Factors research of Second-hand House Price in Wuhan City Based on the Multiple Regression Method

Miao Ge1,Li Yingbing1,2,Yuan Fei1

(1.School of Geodesy and Geomatics,Wuhan University,Wuhan 430079,China; 2.Spatial-temporal Big Data Research Center,School of Geodesy and Geomatics,Wuhan University,Wuhan 430079,China)

Second hand housing prices are subject to regional factors,housing factors,market factors and other factors. A lot of attentions are paid to the real estate property of the differences and amendments for the traditional evaluation methods. There is a strong subjectivity. Based on hedonic price model,the multiple linear regression model and multiple regression model are used to establish the function relationship between the price of second-hand house and location factors,housing factors and other influencing factors. By using Wuhan second-hand housing listing data,the data from the website of kanfangjia (www. kanfangjia. cn),and the data form the website of Baidu,making the screening,quantification and integration the various characteristics of second-hand housing variables of Wuhan,and to compare and analyze the influence degree of each characteristic variable on the price of second-hand house,and the results of the experiment fit well with the actual situation.

second hand housing;hedonic price;price evaluation;influencing factor;multiple regression method

1672-8262(2017)01-33-06

P208.2

A

2016—08—17 作者简介:缪格(1994—),女,硕士研究生,研究方向为时空大数据分析。 基金项目:武汉市住房保障和房屋管理局信息化建设项目:“智慧房管”主数据库设计及一期建库WHZC-2014-075A(2210、2415、2416)

猜你喜欢

差价二手房对数
含有对数非线性项Kirchhoff方程多解的存在性
指数与对数
指数与对数
对数简史
浅谈火电企业煤炭计划采购管理的几个难题
二手房买卖之卖方违约纠纷解析
庄家短线差价与洗盘结合操作法
下半年北京二手房或将迎来降温盘整
没有中间商赚差价可以做好农资生意?
本市二手房成交量及价格走势图