APP下载

Lasso变量选择法在广西区域经济发展影响因素选取中的应用

2021-06-28农秋红韦程东罗文婷

中国商论 2021年10期
关键词:区域经济广西影响因素

农秋红 韦程东 罗文婷

DOI:10.19699/j.cnki.issn2096-0298.2021.10.

摘 要:影响区域经济发展的因素有很多,基于不同的变量选择方法可以构建不同的指标体系,本文通过Lasso变量选择法和逐步回归法的比较,说明Lasso变量选择法选取的指标在广西区域经济发展研究中更具代表性,预测精度也更高。

关键词:区域经济;Lasso;影响因素;广西;变量选择法

中图分类号:F127 文献标识码:A 文章编号:2096-0298(2021)05(b)--03

广西是我国西南经济圈的重要组成部分,近年来,中央对广西经济发展的政策扶持力度不断加大,相继出台了珠江—西江经济带发展规划、西部陆海新通道总体规划、中国(广西)自由贸易试验区总体方案、中国—东盟信息港建设方案、面向东盟的金融开放门户总体方案等多项政策文件,为促进广西经济的增长增添了动力。

凭借特殊的地理位置,广西成为我国“一带一路”倡议的重要支点,为广西构建“南向、北联、东融、西合”新格局提供了重大发展机遇。

由于不同区域之间自然环境、社会资源、人文因素等方面的差异,广西的区域经济发展仍存在较大差异。探讨广西区域经济发展差异的影响因素,经济指标的选择是关键环节,本文运用Lasso变量选择方法选取影响广西区域经济发展的主要因素。

1 Lasso变量选择方法简介

Lasso方法因能从高维变量中高效提取出关键变量,并能有效解决变量间的多重共线性问题、提高模型的解释精度而获得高度评价和广泛应用。

假设有自变量矩阵X=(x1,x2,...,xn),其中,因变量,且假定数据已进行标准化处理即,则建立Y与X之间的线性模型:

其中,为常数项,为各变量系数,为随机扰动项。

记,则的Lasso估计如下:

其中惩罚参数。若为最小二乘估计的值,则,那么当时,模型(1.1)中回归系数的Lasso估计,其绝对值将小于的绝对值。而当s逐步减小时,某些的Lasso估计值也会随之变小甚至为0,此时,与等于0相应的变量代表它和因变量Y的关系不大,将被剔除,进而实现变量选择的作用。关于惩罚参数s常用的估计和检验方法有交叉验证法、广义交叉验证法及常用的Akaike信息准则(Akaike info criterion,:AIC)。

关于Lasso问题的求解,最小角回归算法(least angle regression,LARS),极大提高了Lasso的计算效率。LARS算法解析

2 广西区域经济发展影响因素的选取

2.1 指标选取原则

根据经济增长理论,影响经济增长的因素有很多,在构建指标体系的过程中,以指标的科学性、代表性、可得性为原则,运用相关系数来反映各指标对广西区域经济增长的影响程度,进而从广西国民经济和社会发展主要指标中筛选出与广西各地市GDP有显著线性关系的因素,建立指标体系。在三次产业当中,第二产业对广西经济发展的贡献较大,因此三次产业中考虑选用第二产业占GDP的比重作为备选影响因素,其他备选影响因素及相关系数见表1。

2.2 基于Lasso方法的变量选择

以2017年广西各地市GDP作为被解释变量,记为Y,表1列举的13个自变量中,除了X1、X2,其他变量及Y需做取自然对数处理,分别记…,随后运用Lasso方法建立模型:

其中,为常数项,βi(i=1,2,3,...,13)为各变量系数,为随机扰动项。

图1是利用R语言程序运行得到的变量选择路径图,AIC值作为模型拟合优良性的衡量标准,当其值变小,表明模型的拟合度得以提高,因此根据AIC准则,基于Lasso方法最终选取出X1、X2、X3、X4、X6、X106个主要变量,如表2所示。

由表2可知,基于Lasso变量选择法,影响广西区域经济发展的主要因素即为第二产业比重、投资力度、财政收入、社会消费品零售总额、就业人员和出口总额。

2.3 基于逐步回归法的变量选择

利用逐步回歸法可以筛选和剔除不显著及引起多重共线性的解释变量,从而达到保留最优解释变量的效果。以下将采用逐步回归法选取变量,以便与Lasso变量选择法的结果进行比较。

由表3可知,基于逐步回归法,对广西区域经济发展产生影响的显著因素有第二产业比重、社会消费品零售总额、进出口总额和私人汽车拥有量。

3 实证分析

基于Lasso变量选择法和逐步回归法的结果表明,作为经济结构指标的第二产业比重和生活质量指标的社会消费品零售总额对广西区域经济发展均起到显著的促进作用。但Lasso变量选择法中投资力度、财政收入、就业人员和出口总额在逐步回归法中并不显著,为了进一步比较两种方法的拟合效果,接下来分别采用两种方法的指标体系对2018年广西14地市的GDP进行回归预测。结果整理如表4所示。

基于Lasso法得到的指标体系在进行回归分析时,R2= 0.998009,而基于逐步回归法建立的回归模型R2=0.995781,故基于Lasso方法所选指标回归模型的拟合优度值更高。从图2的预测结果对比图来看,基于Lasso方法所选的指标体系经过回归预测得到的结果与2018年广西14地市的实际GDP总量在整体上的偏差小于逐步回归预测所得的结果。由此可见,基于Lasso变量选择法选出的指标更为合理,为下一步应用于空间计量模型来深入研究广西区域经济的发展奠定了基础。

参考文献

钟金花.基于Lasso方法的上海经济增长影响因素实证研究[J].统计与决策,2013(01):154-156.

张静.基于Lasso方法和BP神经网络的居民消费支出预测研究[D].长沙:湖南大学,2014.

喻胜华,龚尚花.基于Lasso和支持向量机的粮食价格预测[J].湖南大学学报(社会科学版),2016,30(01):71-75.

刘沛榕,肖敏慧.基于LARS-Lasso算法的宏观经济相关性支付指标的挑选[J].中国国际财经(中英文),2017(07):206-210.

刘睿智,杜溦.基于Lasso变量选择方法的投资组合及实证分析[J].经济问题,2012(09):103-107.

猜你喜欢

区域经济广西影响因素
历届全国美展广西作品展(三)
历届全国美展广西作品展(一)
2018广西版画邀请展作品选登
毛主席来到我广西
适应区域经济发展的产学研用合作模式实践研究
基于物流经济的区域经济增长研究
中国社会信任基础对区域经济发展的研究
农业生产性服务业需求影响因素分析
大湘西地区人口流动对经济发展的影响研究
村级发展互助资金组织的运行效率研究