基于改进PCA-Logistic模型对个人汽车保有量预测

2020-08-26赵天舒张冉霞

公路交通科技 2020年8期

刘斌，赵天舒，张冉霞

(大连海事大学航运经济与管理学院，辽宁大连 116024)

0 引言

随着我国经济健康持续发展，社会收入水平不断提高，城市化步伐逐渐加快，我国的个人汽车保有量在连年攀升[1]。个人汽车保有量是指公安交通管理部门按照《机动车注册登记工作规范》，已注册登记领有民用车辆牌照的全部私人汽车数量，也可以称为私人或私家的汽车拥有量。根据《中国统计年鉴》[2-5]，1985年我国个人汽车保有量只有约28万辆，随着改革开放的深入进行，我国汽车工业目前进入全面高速发展阶段，2003年我国个人汽车保有量首次突破1 000万辆。2006年，个人汽车保有量突破2 000万辆，仅3年时间数量翻了一番。2013年我国个人汽车保有量突破了1亿辆。截止到2018年，我国个人汽车保有量超过2亿辆。

个人汽车带给我们方便的同时，也为我们的生活带来了一系列问题，如道路拥堵、交通事故频发，停车困难、停车位昂贵，能耗严重、环境污染加剧，交通设施更替加速等。通过对个人汽车保有量的预测，可以为城市道路交通规划工作的展开提供数据支撑，为政府对交通设施建设的投资成本预算提供依据[6]。

对于汽车保有量的预测，国外学者首先做了较多的研究，提出了许多模型，比如基于集合模型的Comperta模型[7]、基于非集合模型的多项Logit模型及多项Probit模型等，这些模型基于当地的人口、社会等数据信息，已经成功应用于发达国家。近年来国外学者也对印度等发展中国家汽车保有量建立模型进行了分析，Dash等提出分段线性多项Logit模型对印度个人汽车保有量进行了研究[8]。Shaygan等对伊朗的汽车保有量模型进行了综述性分析，指出需要对已有模型进行更多改进才可适用于当地城市[9]。从中可以看出国外预测模型存在一定的区域性，由于国外汽车文化和经济水平与国内相差较大，所以难以直接将其应用于国内的个人汽车保有量分析[10-11]。

国内的汽车保有量预测研究起步较晚，同样也提出了许多模型与方法。陈勇和孔峰利用BP神经网络建立了具有时间序列预测模型对我国私人汽车保有量进行了分析和预测[12]。朱开永等利用灰色系统理论建立私家车保有量预测模型对某地区1996—2007年私家车保有量分析[13]。张雪伍和常晋义通过主成分分析法将影响汽车保有量因子间的重复信息进行消除，建立了PCA-BP神经网络预测模型对南京市1978—2005年的汽车保有量进行分析，并对未来南京市汽车保有量进行预测[11]。王传鑫等基于改进密度峰值聚类方法研究了不同地区间私人汽车保有量影响因素的差异性，为研究的两类地区私人汽车发展提供一定的参考[14]。蒋艳梅和赵文平建立了分别基于遗传算法和非线性最小二乘法的Logistic模型，对我国汽车保有量进行了预测，并和其他文献进行对比，结果表明Logistic模型预测私人汽车保有量的精确度比其他模型高[15]。张兰怡和胡喜生等通过对影响汽车保有量的8个指标进行主成分分析，得到了综合经济发展值的预测方程，并采用Logistic模型预测福建省2020年汽车保有量[16]。任玉珑等基于传统Logistic模型和以灰色理论为基础的极差格式的Logistic模型为基础，建立了以误差标准差为权重的Logistic组合模型对我国汽车保有量进行预测，得出了到2020年我国汽车保有量达到2.35亿辆的结论[17]。

通过对国内外相关文献进行整理可以发现，汽车保有量的发展趋势比较符合随时间变化呈S型变化的Logistic模型，同时许多研究都是通过分析影响汽车保有量的因素进行展开。主成分分析法可以通过“线性”降维技术将多个影响因素尽可能压缩为少数几个代表性综合指标，再结合Logistic模型可以对汽车保有量进行分析和预测。但在实际应用中，影响因素可能存在非线性关系，尤其是对于时间跨度较长的数据，直接用传统主成分分析的线性方法会影响降维效果，进而影响预测精度[18]。因此，本研究使用对数变换法对传统主成分分析法进行了改进，结合Logistic模型，提出了改进PCA-Logistic模型，并对我国个人汽车保有量进行分析和预测。通过实证分析结果可以表明，改进PCA-Logistic模型可以消除数据之间的非线性影响，使得模型的模拟精度更高。

1 模型建立

1.1 改进的主成分分析法

传统的主成分分析法是一种“线性”降维方法，如果变量间存在非线性关系，会导致降维效果不明显，因此需要对传统主成分分析法进行改进。常见的改进方法有均值法、对数变换法和平方根变换等，对原始影响因素数据进行分析，发现其随着时间呈现类似指数形式的变化趋势，于是改进方法采用对数变换法，以达到更好的降维效果。具体步骤如下[18]：

(1)对原始数据进行对数变换：设原始数据矩阵为X=(xij)n×p，令yij=lnxij，对数变换后矩阵为：Y=(yij)n×p，其中i=1,2,…,n;j=1,2,…,p。

(2)以yij作为新的数据代替原始数据，并对其进行标准化处理，以消除各个特征在数量级或量纲上的影响，公式如下：

(1)

式中，μ为各个指标数据的平均值;σ为各个指标数据的标准差。

(3)根据标准化矩阵，计算其协方差矩阵，计算公式为：

(2)

式中，c为协方差矩阵;n为数据指标的元素个数;Y*为标准化的数据。

(4)根据协方差矩阵计算特征值与特征向量，并将特征值从大到小进行排列。

(5)计算主成分贡献率及累积贡献率，并根据计算结果提取主成分。通常选取累积贡献率在85%以上的对应成分作为主成分。

1.2 Logistic模型

Logistic方程由比利时数学家P.F.Verhulst在1838年首次提出，它是描述因变量随时间变动趋势的模型，能较好地描述某些呈现S型曲线增长的现象，并已经广泛应用于农业、经济学、医学等领域。对于产品市场扩展分析，采用美国Edwin Mansfield提出的Logistic模型微分方程为[19]：

(3)

式中，b为常数；F=y(t)/m，它是t时刻市场汽车保有量y(t)与市场最大保有量m的比值。

由分离变量法求解式(3)得：

(4)

式中,a为常数。最终得t时刻汽车保有量为：

y(t)=m×F(t)。

(5)

1.3 改进PCA-Logistic模型

结合前面两个方法，提出改进PCA-Logistic模型。首先选取影响我国个人汽车保有量的几个代表性因素作为评价指标，将原始数据进行对数转换，以消除非线性的影响，再进行标准化处理以消除量纲或数量级上的差异。然后再利用SPSS软件中的降维因子分析模块对其进行改进的主成分分析，确定主成分，并计算主成分得分。

根据主成分贡献率及累计贡献率的计算结果，选择第一主成分FAC1_1作为自变量，个人汽车保有量作为因变量，对其进行Logistic模型回归分析，由于没有采用时间序号作为自变量，对公式(4)进行等价变换，最终采取的模型方程为：

(6)

式中，α0和α1为待求参数。采用非线性最小二乘法进行参数求解，首先选取合适的最大个人汽车保有量m作为固定值，然后给出参数α0和α1初始值进行迭代求解，迭代算法为麦夸特法。

2 实证分析

2.1 变量选取与数据来源

通过文献资料的搜集与整理可以发现[20]，影响我国个人汽车保有量变化的因素有多种，如经济因素，包括人均GDP、居民收入、经济产业结构、居民消费水平等；社会因素，包括城市人口、城市化率、失业率、拥塞成本等；环境因素，包括公路网规模、基础设施完善度等。考虑长期完整数据的可获得性，选取了城市人口、城市化水平、人均GDP、居民消费水平、公路里程、第一产业生产值所占比重、第二产业生产值所占比重、第三产业生产值所占比重这8个代表性的影响因素进行分析。我国个人汽车保有量及其影响因素的样本数据见表1，选取区间为1985—2018年，统计数据均来源于《中国统计年鉴》[2-5]。

表1 我国个人汽车保有量与影响指标因素数据(1985—2018)Tab.1 Data of private car ownership in China and influencing factors(1985—2018)

2.2 改进的主成分分析

应用SPSS22.0计算软件，对我国个人汽车保有量的影响因素按以下步骤提取主成分：

(1)将原始数据进行对数变换处理。

(2)将变换后的8个影响因素标准化处理后，再进行主成分分析，得到解释的总方差见表2。

表2 总方差解释Tab.2 Explanation of total variance

由表2可以看到，第一主成分的特征值为6.865，其方差占总方差比为85.812%，对个人汽车保有量影响占主要作用，根据主成分选择标准，将原来的8个影响因素用这一个主成分来代替。

(3)成分得分系数矩阵见表3。根据表3可以写出第一主成分的因子表达式为：

Y1=0.146P1+0.145P2+0.145P3+0.144P4+

0.142P5-0.145P6-0.008P7+0.143P8。

(7)

表3 成分得分系数矩阵Tab.3 Component score coefficient matrix

根据上述表达式对标准化后的数据进行计算，计算后的第一主成分FAC1_1相关数据见表4。

2.3 主成分分析法改进前后的主成分回归曲线比较

利用1985-2018年之间我国个人汽车保有量的影响因素原始数据，采用传统主成分分析法进行分析。图1与图2分别表示用传统主成分分析法与改进主成分分析法拟合得到的第一主成分FAC1_1与时间序号的回归曲线，从两个图可以看出传统主成分分析法的回归曲线与时间几乎呈现二次非线性关系，而改进主成分分析法得到的回归曲线和时间几乎呈现线性关系。由于主成分分析方法更适用于线性结构数据，可以看出通过改进主成分分析法消除了数据之间的非线性关系，更符合主成分分析法的原则，从而有利于提高预测的准确性。

表4 第一主成分FAC1_1计算数据Tab.4 Calculated data of 1st principal component FAC1_1

图1 传统主成分分析法的第一主成分FAC1_1与时间序号的回归曲线Fig.1 Regression curve of 1st principal component FAC1_1 vs. time serial number by conventional PCA

图2 改进主成分分析法的第一主成分FAC1_1与时间序号的回归曲线Fig.2 Regression curve of 1st principal component FAC1_1 vs. time serial number by improved PCA

利用线性回归模型可得改进主成分分析法的第一主成分FAC1_1与时间序号t之间的回归公式为：

FAC1_1=-1.754+0.1t。

(8)

2.4Logistic模型回归分析2.4.1改进主成分分析法的Logistic回归分析

利用Logistic模型对第一主成分FAC1_1和个人汽车保有量进行回归分析，由于最大汽车保有量m具有不确定性，需要提前进行估算。对m的估算方法大致有3种，分别是直接选取最大值法、专家判断法和纯粹数学推导法。本研究采用专家判断法确定个人汽车最大保有量m。根据文献[21]，国家信息中心信息资源部主任徐长明认为，汽车保有量最高可达4.5亿辆。根据表1中个人汽车保有量占比的历年数据，可以看出该比值一直呈增长趋势，1985年为8.87%，2018年为88.57%，为了合理地预估我国个人汽车保有量极限，本研究假设其极限占比为90%，计算得出我国个人汽车最大保有量为4.05亿辆，则原公式(6)变为：

(9)

令α0和α1的初始值为1，利用计算工具SPSS22.0对样本数据进行Logistic非线性回归，得到的参数估计结果见表5。

表5 改进PCA-Logistic模型的参数估计结果Tab. 5 Estimated parameters by improved PCA-Logistic model

根据表5可得到拟合程度的相关系数为R2=0.998。当R2越接近于1，表明回归曲线与数据越接近，可以看出得到的Logistic回归曲线拟合程度非常高，最后曲线方程为：

(10)

2.4.2主成分分析法改进前后的Logistic回归比较

同样根据上述步骤，利用传统PCA-Logistic模型对我国个人汽车保有量进行回归分析，得到的参数估计结果见表6，此时R2=0.996<0.998，说明改进PCA-Logistic模型的回归曲线拟合程度更好，会使预测结果更准确。

表6 传统PCA-Logistic模型的参数估计结果Tab.6 Estimated parameters by conventional PCA-Logistic model

图3是主成分分析法改进前后通过Logistic模型得到的个人汽车保有量预测曲线与实际汽车保有量数据点的比较，横坐标为时间序号。由图可以看出，在2007年之前，传统PCA-Logistic模型得到的个人汽车保有量预测数据曲线要高于实际个人汽车保有量数据点，而在2007年之后，其又低于实际个人汽车保有量数据点。而改进PCA-Logistic得到的个人汽车保有量数据曲线更接近实际个人汽车保有量数据点，这也再次证明改进主成分分析法有利于提升Logistic回归曲线的拟合度，并提高预测的准确度。

图3 主成分分析法改进前后Logistic模型的预测值与实际值对比Fig.3 Comparison of predicted and actual values obtained by Logistic model before and after PCA improvement

2.5 个人汽车保有量预测

为了预测我国2019—2024年的个人汽车保有量，将对应时间序号代入公式(8)中得相应的FAC1_1值，再将所得结果代入Logistic模型公式(10)，可得2019—2024年个人汽车保有量预测值见表7。

表7 2019—2024年个人汽车保有量预测值Tab.7 Predicted values of private car ownership from 2020 to 2024

经过预测，我国个人汽车保有量在2021年可能会突破3亿。2019年实际个人汽车保有量为22 635万辆，发现预测值大于实际值，这可能是因为近来年国家为了缓解交通拥挤压力而实施的限购限号等政策延缓了汽车保有量的高速增长，说明国家政策会短期性的影响个人汽车保有量的变化。

3 结论

通过对数变换法对传统主成分分析法进行了改进，并结合Logistic模型，提出了改进PCA-Logistic模型。采用改进主成分分析法对影响我国个人汽车保有量的8个代表性主要因素进行“非线性”降维处理并提取主成分，利用Logistic回归模型研究主成分与汽车保有量之间的关系。

通过将PCA-Logistic模型改进前后得到的估计结果进行对比，发现改进PCA-Logistic模型可以有效地消除长时间跨度的数据之间的非线性关系，得到的线性主成分回归曲线更符合主成分分析法原则，同时也有效地提高Logistic模型回归的拟合度，从而更准确地预测未来我国个人汽车保有量。经过预测，我国个人汽车保有量在2021年可能会突破3亿。

本研究在提取主成分时仅仅对影响因素进行分析，没有考虑其与汽车保有量之间的关系，也没有考虑国家政策对汽车保有量的影响，后续工作会考虑更多的影响因素进行分析，从而对汽车保有量进行更合理的评价。