基于NPP-VIIRS夜间灯光数据的区县房价研究
2021-03-25仇嘉豪
仇嘉豪
(山东科技大学测绘与空间信息学院,山东 青岛 266590)
0 引言
随着中国经济的飞速发展,以及相关住房制度的改革实施,各地区的房价也在不断攀升,城市房价早在多年前就已成为人民和政府关注的重要问题。房价不仅对人民生活水平和相关市场经济有重要影响,对社会稳定及其发展也具有重要意义[1]。研究表明,区域的经济发展水平是影响其房价变化的重要因素[2-3],而夜间灯光数据对区域经济发展具有非常强的直观性[4],已有不少该方面的研究。李峰等[5]利用夜间灯光数据在市级尺度上分产业对GDP进行空间化模拟;刘沼辉等[6]和柴子为等[7]则是在更小尺度上对区县和乡镇GPD进行相关性分析和建模;但是不同区域间的经济发展存在很强的相关性,并且存在多种因素共同影响,因此有研究从多种模型和多种因素共同作用的方面来分析经济发展的规律[8-9]。夜间灯光数据对经济发展的直观表征也让一些学者对其在与经济发展有一定关联的领域进行了相关研究。廖书冰等[10]在利用夜间灯光数据反应研究区社会经济发展状况的基础上,分析了灯光强度对高血压与糖尿病患病率分布的影响;潘竟虎等[11]在夜间灯光数据的支持下构建了电力消耗估算模型,对中国大陆2000-2012年电力消耗情况进行了定量估算和分析。从不同方面的研究可以发现,夜间灯光数据不仅仅支持经济方面的研究,对与其相关领域的研究也有一定的基础。在考虑到经济发展对房价有着极强相关性的基础上,本文以山东省为研究对象,通过提取夜间灯光数据的多个指标,探究其与房价之间的空间关系,为夜间灯光数据在该方面研究的适用性提供一定的参考。
1 研究区域及数据来源
山东省地处中国华北地区,东部邻海,西部连接中原,全省共辖17个地级市,包含137个区县。山东省既是经济大省,也是旅游大省。
本文采用的研究数据主要包含山东省县级行政区划数据、NPP-VIIRS夜光数据以及山东省各区县房价数据,如图1所示。山东省县级行政区划数据来源于山东省地理信息公共服务平台。NPP-VIIRS(national polar-orbiting partnership' s visible infrared imaging radiometer suit)夜间灯光数据来源美国国家海洋和大气局,研究采用的是2018年的年度均值掩膜数据,该数据是在第一版本的年度数据(2015,2016)处理方法的基础上进行了改进[12],根据每年月度数据合成第二版本的年度数据,该方法去除了火光、极光和噪声背景等,并使用12个月的中值去除离群值,从而剔除了极高值和极低值等异常值,并且第二版本的年度数据比第一版本的年度数据能更多地检测到微弱灯光区域。山东省区县房价数据来源于安居客,采集了各区县2018年每个月份的房价数据。
图1 实验数据
2 研究方法
2.1 数据预处理
夜光数据已经进行了几何校正,根据山东省县级行政区划矢量数据提取出山东省的灯光数据。考虑到原始数据的处理是大范围区域的,存在一定误差,所以对提取后的山东省灯光数据还需进行一定的预处理。
参考前人研究[13],为去除噪声值和异常值,提取出研究区域内大型湖泊、水库、河流以及高植被覆盖区域的原始像元值,取其中值作为背景噪声值,将小于等于背景噪声值的像元赋值为0,并将这些区域内的像元也赋值为0;同时选取各市的城市中心区域,提取出这些区域的最高像元值作为各市的最大像元阈值,对于各市区域内大于该值的像元,用其3×3范围内的中值进行替代以消除各市的孤立极亮像元。
原始灯光数据为WGS84地理坐标系,为使投影面积变形最小,将灯光数据投影为符合中国区域的Albers等面积投影(中央经线105°E,起始纬度0°,双标纬线25°N和47°N),并用采用双线性插值法重采样为500m×500m格网大小。
2.2 房价指标与灯光指标的构建
由于灯光数据在区县房价建模方面的研究较少,但其与经济发展密不可分,为探寻合适指标,在前人对经济研究的基础上,本文构建了其多种常用灯光指标,包括总灯光强度(TNL)、相对平均灯光强度(I)、灯光面积比(S)以及非0像元平均灯光亮度(MND),各指标公式分别为:式(1)-(4)中:n为研究区域内像元总数, 为i像元的亮度值, 为像元的最大亮度值,N为非0像元数,每个指标都以区县为单位进行统计。
房价指标构建。根据安居客提供的各区县2018年每个月份的房价数据,求出2018年的年平均房价。计算公式如下:
式(5)中:MHPj代表j区县的2018年的年平均房价,代表j区县的第i个月的房价,m代表月份数量。
2.3 房价指标与灯光指标的多种模型的构建
根据计算出来的年平均房价发现,年平均房价大于9000元的区县有22个,在6000-9000元范围的有59个,在3000-6000元范围的有56个,从中选取107个区县进行相关性分析,30个区县进行估算以检验模型精度,三个范围内估算区县依次选取5个、14个和11个。为探究年平均房价与各灯光指标之间的较优模型,分别构建了线性函数、指数函数、对数函数、二项式以及幂函数5种常用模型进行回归分析,横向对比不同模型的适用性。
3 结果与分析
3.1 多模型中最优模型的选取
根据各区县统计的年平均房价和各灯光指标建立多种回归模型,并由模型的拟合优度R2确定最优模型。结果如表1所示。
表1 年平均房价与各灯光指标的多种模型拟合优度R2
由表1结果可知,在不考虑模型类别的情况下,MND灯光指标与年平均房价的总体拟合优度最佳,指标I次之,而对于指标TNL和S,其总体拟合优度均低于0.6,因此这两类灯光指标并不适用于年平均房价的相关性分析;对于总体拟合优度最佳的指标MND,对比不同的回归模型可以看出,二项式和线性函数的拟合优度较高,均达到0.8以上,其中二项式的拟合优度最高,由此确定灯光指标MND的二项式回归模型作为该相关性分析的最优模型,公式为:
式(6)中:代表j区县的2018年的年平均房价,代表j区县的非0像元平均灯光亮度。
3.2 年平均房价的预测分析
根据选取的最优模型对其他区县的年平均房价进行估算,并计算实际年平均房价与估算值之间的相对误差。结果表明:30个区县年平均房价估算值的平均相对误差为18.07%,总体而言结果较为准确。其中相对误差小于10%的区县含16个,占总体的53.33%;误差介于10%~30%的区县有11个,占总体的36.37%;而误差大于30%的仅有3个,只占总体的10%。相对误差分布如表2所示。
表2 年平均房价估算误差分布
相对误差大于30%的3个区县分别为潍坊市奎文区、济南市历城区以及青岛市崂山区,其中奎文区虽然灯光指标MND较高,但其地处于山东省中部,该区域的城市房价普遍不高,因此造成该区县房价的较大高估;而对于较大低估区县历城区和崂山区,历城区位于山东省会济南市,该区域房价普遍较高,但其灯光指标MND却并不突出,由此造成房价较大低估;崂山区由于地处旅游热点城市青岛市,且自古以“宜居”闻名,拥有丰富的山海资源,但又不处于青岛市的经济中心区域,所以灯光指标较低,而房价则位居山东省首位,因此造成房价较大低估。
4 结语
本文利用NPP-VIIRS夜间灯光数据对山东省各区县年平均房价数据进行了相关性分析。根据灯光数据提取了4种常用灯光指标,并与房价数据构建了线性函数、指数函数、对数函数、二项式以及幂函数5种常用模型。在对比不同指标不同模型的拟合优度后,发现其中的最优模型为依据MND指标建立的二项式模型,并利用其余部分数据进行估算以检验该模型的精度,其总体相对误差在18%左右,因此依据灯光数据进行区县尺度的房价分析具有一定的可行性,可为后续房价调查和研究提供一定的参考。
当然本研究也存在不足之处,本文只采用了单一的灯光数据对房价进行分析,后续研究可以考虑引入多源数据对房价进行分析建模;研究虽然对比了多种不同模型的适用性,但都是传统的线性模型,而根据实验采用的区县房价数据及灯光数据的空间分布特点来看,可以明显发现其存在空间相关性,因此后续研究可以考虑采用空间模型进行分析研究。