基于XGboost和LightGBM线性加权模型对二手车价格预测的研究

2021-04-18杨康

科技研究·理论版 2021年22期

杨康

摘要：为解决二手车交易价格的预测问题，本文建立了基于XGboost和LightGBM的线性融合模型对二手车交易价格进行预测。首先对数据进行清洗，包括异常值检验和缺失值处理。由于交易价格频率分布呈现右偏情况，因此对交易价格进行对数调整使其呈现正态分布。模型对于时间变量学习效果较差，本文将时间变量转换为数值变量进行模型学习。根据不同离散数据的特点分别采用独热编码和目标编码进行编码处理。模型调优采用5折交叉验证和网格搜索对模型的参数进行优化，最后将XGboost与LightGBM以0.55：0.45的比例进行模型融合，并在测试集上的评分为0.5915，为二手车平台的定价提供了重要依据。

关键词：XGboost模型; LightGBM模型;数据编码;二手车;模型融合

0 引言

随着我国经济的飞速发展以及人们生活水平的提高，机动车的数量也不断升高。对于一些资金不足的卖家来说，二手车是一个不错的选择，同时二手车也能够使得资源得到更大限度的利用。到2014年，中国成为世界上第二大二手车市场，仅次于美国;到2020年，中国二手车销量达到2230万辆[1]。随着二手车需求的增加，二手车的定价问题成为了二手车交易平台需要考虑的问题。如果定价过低会使得二手车销售平台的利益得到损失定价过高会导致二手车滞销消耗更多的仓储费用，也同样会影响二手车平台的收益。

1数据预处理

1.1异常值处理

计算全部数据二手车交易价格上四分位数、中位数、下四分位数以及均值，分析数据分布发现一个明显的离群值109000，查找该组数据的所对应的新车价为15.28万元，合理推测该离群值可能单位错误将其转换为万元对应10.90万元，修改该数据为10.90万元。

1.2缺失值处理

数据集為门店二手车交易数据，存在缺失值。计算各特征的缺失率（缺失率=有缺失值得样本数/总样本数），其中匿名15得缺失率甚至达到了92%，缺失值的存在会影响后续模型的建立，对于缺失率较高的特征予以剔除，其他缺失数值特征采用均值填充，离散特征采用出现频率最高的变量填充，对于离散特征需进行编码[2]，本文采用目标编码和独热编码处理。

1.4数值特征正太化处理

计算得知二手车的交易价格的平均值为14.04万元，标准差为14.007，在1到10万所占的比例较大，数据呈现有右偏情况，因此需要对数据进行对数调整，与此同时对价格数据做对数变换后还会防止模型的预测数据出现小于0的情况，根据下式对数据进行转换。

经过对数调整后的交易价格的频率分布服从正太分布。

2模型的建立

2.1 模型的评价标准

以平均相对误差以及误差准确率作为对模型评价的标准，其中平均相对误差为训练集中所有样本的预测值与真实值相对误差的平均值，公式为

2.2 XGboost模型建立及调优

XGboost（Extreme Gradient Boosting）由华盛顿大学的陈天奇博士提出，最开始作为分布式机器学校研究社区小组的研究项目之一，后来在数据科学应用种广泛应用[3]。XGboost对各类任务都具有良好的学习能力，因此本文选用XGboost模型进行建模。

对应XGboost模型参数的调优，本文采用留出法和5折交叉验证混合的方式对XGboost模型进行调参和评估。

留出法的验证方式最为简单直接，在训练过程中仅分割一次数据，模型调参过程过分依赖于数据划分情况。5折交叉验证将训练集的数据划分为5个数量相等数据块，每次使用第i（i=1，2…5）个数据块作为模型的验证数据，而其余数据块作为模型的训练数据，反复5次，得到5个不同的评分，将其取平均值作为该参数的评分。

留出法和5折交叉验证混合进行调参和评估的思路是：首先使用5折交叉验证对模型参数进行逐个调参，确定最优参数后，在最初始划分的训练集中计算模型的最终评分并展示其预测效果。本方法的优点是保证一部分数据始终未参与模型的训练，使用这部分数据对模型进行评估，得到评估结果更加接近于真实预测情况。同时，本方法也大大增加了模型的泛化能力。

经过网格搜索和5折交叉验证，n_estimators在取值 [1000，1200，1500，2000]和learning_rate在取值 [0.05，0.06，0.1，0.15，0.2] 中确定最优的 n_estimators为1500，learning_rate为0.15。此时模型在训练集的得分为0.5697。

使用XGboost模型，计算其在测试集的评分为0.5650与训练集的0.5697相差无几，证明该模型泛化能力较强，具有良好的预测效果。

2.3 LightGBM模型的建立和调优

对于LightGBM模型的超参数调整同xgboost模型一样采用5折交叉验证和网格搜索算法，最后使用训练集对模型预测效果进行评估。经过交叉验证和网格搜索确定最优超参数为n_estimators：200，learning_rate：6，num_leaves：64，min_gain_to_split：5，使用测试集计算模型评分得 0.5674 略差于xgboost模型。

2.4 XGoost和LightGBM模型融合

XGboost在测试集的评分为0.5650，LightGBM在测试集的评分为0.5599。观察xgboost和LightGBM的预测特点，发现xgboost为对二手车价格较低的数据具有良好的预测效果，但对于离群的价格较高的数据预测能力较差，相反LightGBM对离群值具有较好的预测能力，但对价格较低的数据预测效果不如xgboost。因此本文采用线性融合的办法来提高模型整体的预测能力。

经过不断迭代模型融合的线性参数，最终得到以0.65：0.35融合模型，在测试集上具有较高的评分为0.5915，相较于融合前的两个模型预测能力具有较高的提升。

3结语

本文创造性的运用了机器学习领域的XGboost和Lightgbm模型并对其线性加权从而建立预测效果更叫良好的融合模型。本文对二手车价格的预测准确率较高，对二手车平台及其销售门店提供了良好的理论支撑。

参考文献

[1]. 宁利涛，分析预测我国二手车销量 2020年将超新车，https：//auto.163.com/11/0330/17/70DL9NAH00084IKG.html，20210105

[2]焦岑.基于随机森林与神经网络的汽车价格影响因素的研究[D].苏州大学，2020.

[3]何龙，深入理解XGBoost[M].北京：机械工业出版社。2020