APP下载

基于随机森林视角的空气质量分类预测

2018-05-11

关键词:空气质量准确率森林

孟 倩

(安徽大学 经济学院, 合肥 230601)

0 引 言

经济的发展带来物质生活改善的同时也造成了严重的城市污染,人们共同赖以生存的家园受到威胁。人们日益重视空气质量问题,各地的空气质量好坏也被当作评价居住环境和政府工作的重要指标[1-2]。大气中的颗粒物会破坏呼吸道和心血管系统;无刺激性气体如一氧化碳会导致机体慢性中毒等。因此,依据大气污染的各项指标值来预测城市空气质量级别,给出哪些因素起主导作用,对政府及相关部门出台相应政策和措施有重要意义[3-4]。

以往的研究主要从开展环境综合质量评价和主要影响因素两方面探讨大气质量与影响因素之间的关系,比如探讨大气污染物排放的时间序列特征、污染物排放的空间布局和空气质量影响因素及改进措施等。在以往的文献中,由于国内外和不同省份采用的评价因子不同导致生成的影响因素也不同;使用的研究方法不具备自主选择因子的能力,需要结合其他方法来选出影响因素而且以往的研究方法如支持向量机、决策树和逻辑回归等都易受噪声影响,不具有良好的鲁棒性。以往的研究主要通过提取主成分再给出具有经济意义的方法来提供相应的解决方案,BP、SVM通过不断调整自身参数来提高准确率。随机森林(Random Forest,RF)的方法可给出变量的重要得分,增加了模型的可解释性,可找出影响空气质量的因素,并通过混淆矩阵对比不同方法的分类准确率。

1 随机森林的理论基础

1.1 随机森林算法

随机森林是由多个树型分类器{h(x,θk),k=1,2,…,n}组合分类的方法。其中以分类回归树h(x,θk)为基础分类器;x和θk分别为输入向量和用于决定树的生长过程的一个独立同分布的随机向量。具体做法如图1所示。

从原始训练数据集中以重抽样的方法抽取用于单独生成k个分类树的k个训练样本集。

每个树对检验集进行预测投票决定得出分类结果为

Vmajority vote为多数投票,Ntree为树个数。

图1随机森林算法

Fig.1Randomforestalgorithm

1.2 变量重要性计算

采用放回重抽样方法,约有1/3的原始样本不会被用于生成训练集,不会被抽中的这些数据被称为袋外(OOB)数据,OOB数据用于检验预测分类的效果。随机森林的一个重要特征是给出变量重要性测量,具体如图2所示。

对已生成的树,一个OOB数据对应一个准确率ε。

随机在原OOB数据中改变某个特征的值再进行性能测试得到新的准确率ε1。

ε-ε1用于度量相应特征重要性大小。

图2重要性测量方法图

Fig.2Importancemeasurementmethod

综上所述,随机森林变量重要性计算是描述所有变量对所有类别的一个整体计算[5]。

2 空气质量分类预测建模

2.1 确定模型变量与数据处理

通过查阅相关资料,选取6个空气污染的指标来说明空气质量预测的影响因素[6],见表1。

表1 变量指标Table 1 Variable indicators

表1中6个指标作为模型的输入变量。经查,相关统计年鉴发现,衡量空气质量的方法不一,因此选用与空气质量等级相关性极大的二级以上达标天数来衡量,通过对达标天数进行处理,求出2015年各城市的达标比例。空气质量等级中二级及以上空气状况为优良对人体健康无害;二级以下均会造成不同程度的污染,使健康人群产生刺激不适状态。从对人体健康有无影响的角度出发,重新对空气质量等级进行定义,分别为不影响健康和影响健康两大类。经统计公报等资料显示:空气质量达到二级以上的达标天数大约在75%左右,基本上可以认为空气质量良好,因此对达标比例进行划分得到一个二分类输出变量。

收集整理了113个样本数据[7],将训练样本和检验样本分别以7∶3的比例分离。训练集用于生成树,检验集用以衡量模型的预测能力,随机森林方法对数据量纲和单位容忍度高,故直接对原始数据进行处理。

2.2 模型的性能评价标准

对检验集进行分类时,存在误判样本,这些信息可以通过混淆矩阵反映出来。混淆矩阵的两个评价指标的准确度和真正率可用以评价模型的预测能力,混淆矩阵内容如表2。

表2 混淆矩阵Table 2 Confusion matrix

准确率(TP/(TP+FP))为正类中实际为正类的记录中所占的比例;召回率(TP/(TP+FN))为被模型正确预测的正样本的比例;F值为准确率和召回率的调和平均数。

2.3 建模步骤

本文使用R语言中的RandomForest 程序包来建立随机森林的模型,模型为

RF=randomForest(formula,data,ntree=500,mtry=3,importance=TRUE)[9],其中formula表示模型公式,data表示数据集,ntree表示模型中包括的单棵树数量,树的多少会影响模型的精度。mtry为在分离数据时选取的变量个数,本文依据平均误差最小原则确定参数mtry=1。Importance函数给出变量重要性代表值,使用精度平均较少值作为度量标准即type=1,取值的大小对应变量重要性的强弱[8]。

3 模型检验

3.1 模型误差分析

绘制模型误差曲线图,图3中横轴为随机森林树的个数,纵轴为模型的均方误差。随着树数量增加,模型误差逐渐递减,在300之后趋于稳定时误差最小,因此树的数量为300。

图3 误差曲线图

将相同的样本数据应用在支持向量机、逻辑回归和决策树模型上[10],对比混合矩阵发现随机森林的准确率最高,体现了其抗噪能力和预测能力很强,如表3。

表3 建模方法比较Table 3 Comparison of modeling methods

3.2 变量重要性分析

随机森林模型可以对变量的重要性进行排序,这样可以发现在影响空气质量的变量中,哪些解释变量比较重要。

图4所示为各变量的重要性度量,即模型中一旦缺失该变量对误差的影响。图4(a)是OOB估计误差,通过对森林中所有树的OOB的估计误差进行加权平均得到,可作为模型正确率的评估指标。OOB估计为5.06%,说明随机森林这个模型对训练数据拟合精度很高[13]。

图4(b)的误差是通过Gini系数计算依赖划分后子集的纯度。因此,模型中影响空气质量最重要的变量是X6和X3,影响最小的两个是X1和X4。

(a) OOB估计误差 (b) Gini数计算的误差

4 结 语

对2016年全国重点环保城市进行基于随机森林模型的分类预测,模型的混淆矩阵显示准确率较高为94%。模型得到细颗粒物PM2.5和可吸入颗粒物PM10是影响空气质量的最重要的两个因素。PM2.5易引起呼吸系统和心脏系统疾病恶化,提高重病和慢性病患者的死亡率和传染病等,影响人们的身心健康。而PM2.5含量较高的5个城市有保定、郑州、淄博、安阳和邯郸。保定[11]含量高达107,已经远远超出了二级标准,经核实发现造成这种现象的原因除了区域输送的二次污染外,燃煤和机动车排放的污染物也很多,因此可以从推进煤炭清洁利用、严把企业关淘汰分散燃煤锅炉方面入手,降低燃煤消耗量;还应提升燃油品质、大力推进新能源汽车和增强人们多乘公交和骑行的环保意识以及扩大绿化等,其他城市以此类推。

随机森林的优点在于因其可以自动辨识最重要的输入变量,数据在分析前不需要过多地预处理也不需要进行变量筛选,由于其采用自助重抽样的方法,其子模型之间相互独立,因此随机森林不易受到异常值和噪声的影响,使用袋外数据来估计泛化误差不易造成过拟合现象[12],因此将随机森林模型应用于空气质量级别分类中相比于其他分类器精度较高。

参考文献(References):

[1] YANG H S,JIA J,ZHOU Y E,et al.The Impact on Environmental kuznets Curue by Trade and Foreign Direct Inuestmeat in China[J].Chinese Journal of Population Resources & Environment,2005,3(2):14-19

[2] WANG S,HAO J. Air Quality Management in China Issues,Challenges and Options [J].Journal of Environmental Sciences(China),2012,24(1):1001-0742

[3] 杨海林,宁丰收,游霞.小城镇发展可持续性定量测度的生态足迹方法[J].重庆工商大学学报(自然科学版),2005,22(3):253-256

YANG H L,NING F S,YOU X. The Ecological Footprint Method of Sustainable Quantitative Measurement of Small Towns[J].Journal of Chongqing Technology and Business University(Naturnal Science Edition),2005,22(3):253-256

[4] 中国环境状况公报[R].北京:中华人民共和国环境保护部,2015

China Environmental Bulletin [R]. Beijing:Beijing Ministry of Environmental Protection of the People’s Republic of China,2015

[5] TAN P N. Data Mining[M].Beijing:China Nachine Press,2010

[6] 杨阳,沈泽昊,郑天立,等.中国当前城市空气综合质量的主要影响因素分析[J].北京大学学报(自然科学版),2016,52(6):1102-1108

YANG Y,SHEN Z H, ZHENG T L,et al. Analysis of the Main Influencing Factors of Air Quality in China’s Current cities [J]. Journal of Peking University (Natural Science Edition), 2016, 52 (6) : 1102-1108

[7] 中华人民共和国国家统计局. 中国统计年鉴[M].北京:中国统计出版社,2016

National Bureau of Statistics of the People’s Republic of China. China Statistical Yearbook [M]. Beijing: China Statistics Press, 2016

[8] ROBERT K.R in Action[M].New York:Manning

Publications,2015

[9] 明均仁,肖凯.基于R语言的面向需水预测的随机森林方法[J].统计与决策,2012年,357(9):81-83

MING J R, XIAO K.The Random Forest Method Based on R Language for Water Demand Prediction [J]. Statistical and Decision-making, 2012, 357 (9) : 81-83

[10] 张丽,李静,葛汝冰.全国主要城市空气质量级别的分

类预测基于支持向量机视角[J].管理工程师,2013(1):55-57

ZHANG L, LI J, GE R B. The Classification Prediction of Air Quality Level in Major Cities in China is based on Support Vector Machine Perspective [J]. Management Engineer, 2013 (1):55-57

[11] 王晨.保定市环境空气质量评价及影响因素分析[D].保定:河北农业大学,2014

WANG C. Environmental Air Quality Assessment in Baoding City and Analysis of Factors Influencing Factors [D].Baoding:Hebei Agricultural University, 2014

[12] 庄进发,罗健,彭彦卿,等.基于改进随机森林的故障诊断方法研究[J].计算机集成制造系统,2009,15(4):777-785

ZHUANG J F, LUO J, PENG Y Q, et al.Study of the Fault Diagnosis Method Based on Improved Random Forest [J]. Computer Integrated Manufacturing System, 2009, 15 (4) : 777-785

[13] 温廷新,张波,邵良杉.煤与瓦斯突出预测的随机森林模型[J].计算机工程与应用,2014,50(10):233-237

WEN T X, ZHANG B, SHAO L S.A Random Forest Model of Coal and Gas Outburst Prediction [J]. Computer Engineering and Application, 2014, 50 (10) : 233-237

猜你喜欢

空气质量准确率森林
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
高速公路车牌识别标识站准确率验证法
“空气质量发布”APP上线
哈Q森林
车内空气质量标准进展
重视车内空气质量工作 制造更环保、更清洁、更健康的汽车
开展“大气污染执法年”行动 加快推动空气质量改善
哈Q森林