APP下载

基于MLR模型的雾霾天气预测研究

2019-12-16艾洪福

农业与技术 2019年22期
关键词:长春市雾霾回归方程

摘 要:

雾霾影响生活,危及健康,雾霾的形成主要在于空气中PM2.5的含量值。在大数据背景下,科学合理的雾霾预测,及时的雾霾预警至关重要。本文基于多元线性回归方法,建立了空气中PM2.5含量的预测模型,并收集了长春市2018年10—11月的空气质量数据,进行实验验证。结果表明,该模型对于雾霾的预测准确率较高,预测结果科学、有效。

关键词:

雾霾;多元线性回归;预测

中图分类号:S16

文献标识码:A

DOI:10.19754/j.nyyjs.20191130058

基金项目:吉林省教育厅“十三五”规划课题“大数据背景下“雾霾”天气预测方法研究”(项目编号:JJKH20180651KJ)

引言

随着社会的进步,经济的发展,环境问题越来越受到重视。空气质量与人们的生活息息相关[1]。为了实时了解空气质量状况,我国很多地区均建立了实时的监测站,长春市目前已建立的空气质量监测站有10处,主要监测空气中PM2.5、PM10、CO、SO2、氮氧化物(NOx)、O3等含量,通过监测数据可以对空气质量情况作出预报。每年的10月以后,随着供暖季的到来,发生雾霾情况的概率大大增加。雾霾对人们的生产生活以及身体健康产生极大的危害。准确的预测雾霾天气,可以指导性的做好防护措施,最大限度地减少雾霾带来的危害,具有重要的研究意义[2]。

近几年,很多学者都对雾霾的预测与预警做了相关研究,主要使用的研究方法包括人工神经网络、深度学习、支持向量机等。这些方法所建立的模型,对雾霾的预测与预警起到了一定的积极作用[3]。本文针对雾霾的主要污染物PM2.5指数进行预测,采用了统计学中常用的多元线性回归(MLR)方法预测模型,并应用SPSS软件进行了分析预测,结果表明,该模型在预测雾霾情况准确率较高。该模型具有节省性、高度拟合性、可识别性等优点,并达到了理论一致性[4]。

1 多元线性回归

1.1 回归分析

统计分析在很多研究领域有着广泛的应用,回归分析是统计分析的重要组成部分,回归分析主要包括线性回归分析和非线性回归分析,在线性回归分析中根据因素的个数又可分为一元线性回归和多元线性回归分析。回归分析也是大数据背景下进行数据挖掘的重要方法之一[5]。它不仅可以将隐藏在海量数据集合中的有价值的信息挖掘出来,还可以基于回归分析可以得到回归方程(数学表达式),有助于把握数据的主要特征[6]。回归方程是否科学有效,可根据概率统计知识进行判断。回归分析的重要意义更在于可以利用函数关系式,由自变量预测因变量,得到预测结果。

回归分析的主要内容包括以下4个方面:确定回归模型;对回归模型的拟合度进行统计检验,验证其可信度;显著性检验;预测分析。

1.2 多元线性回归模型

多元线性回归的数学模型一般可表示为式:

y=β0+β1x1+β2x2+β3x3+…+βp-1xp-1+ε

式中,ε为随机因素,并且服从N(0,δ2)分布,β0,β1,β2,…βp为回归方程的系数,系数βi表示在其他自变量不变的情况下,自变量xi变动到1个单位时引起的因变量y的平均单位。从集合角度说,多元线性回归是多维空间上的1个平面[7]。

对y和x0,x1,x2,…xp分别进行n次独立观测,取得n组数据yi,xi1,xi2,…xip-1,(i=1,2,3,…,n)

则有:y1=β0+β1x11+β2x12+…+βp-1x1p-1+ε1y2=β0+β1x21+β2x22+…+βp-1x2p-1+ε2…yn=β0+β1xn1+β2xn2+…+βp-1xnp-1+εn

Y=y1y2ynβ=β1β2βp-1ε=ε1ε2εp-1x=1x11x12…x1p-11x21x22…x2p-1…1xn1xn2…xnp-1

則有:y=xβ+ε

1.3 模型检验

多元线性回归方程中回归系数的估计采用最小二乘法。残差平方和SSE=∑y-=0根据微积分中求极小值的原理,SSE存在极小值,SSE对β0,β1,β2,…βp的偏导数必须为零。

多元线性回归需要进行3方面检验分别为:回归方程的拟合度检验;回归方程的显著性检验;回归系数的显著性检验。多元线性回归的拟合度检验主要应用多重判定系数,具体为:

R2=SSRSST=1-SSESST

式中,SSR为回归平方和,SSE为残差平方和,SST为离差平方和。拟合优度一般由R2表示,0≤R2≤1R2越接近1,则拟合度越好,R2越接近0,拟合度则较差。一般情况下认为R2≥0.85则该回归方程可用。进而用该回归方程进行预测分析。

2 仿真实验

2.1 数据来源及处理

目前,长春市已经建立了10处空气质量实时监测站,分别为邮电学院、食品厂、甩弯子、岱山公园、园林处、劳动公园、客车厂、高新区管委会、经开区环卫处、净月潭等。这些监测站实时监测空气质量的相关参数数据[5]。为了保证预测分析的准确率,数据必须真实、可靠。本文将长春市10处监测点的各项实时指标值统计为每天的均值进行研究,由于每年的供暖季是长春市雾霾的高发时期,所以选择了2018年10—11月共61d的各项统计数据,原始数据如表1所示。

通过表1 可以看出各项监测数据值存在量纲上的差别,为了得到拟合度较高回归方程,得到较好的雾霾预测效果,所以对原始数据进行了预处理,主要包括缺失值和离群值处理、消除量纲差别处理。

2.2 基于MLR模型的数据分析

本文基于SPSS软件对空气质量数据进行分析,采用的方法为多元线性回归(MLR)。其中,设定PM10、CO、NO2、O3、SO2为自变量,PM2.5为因变量。其中自变量与因变量的散点如图1所示(部分)。

通过散点图可以看出PM2.5含量与其它空气污染物密切相关。通过进一步验证,得到因变量PM2.5与自变量的拟合优度达到R2为0.912,调整后的R2为0.898 ,明显大于经验值0.85,表明拟合度较好。在回归方程的显著性检验中,残差平方和为2535.231,F值为62.074,显著性水平的伴随概率为0.000。表明该回归方程有效,用该方法进行预测效果较理想。

根据该回归方程得到的实际观测值与拟合值的折线图如图2所示。

通过图2可以看出,预测值与观测值的折线图对比基本达到了吻合状态,所以用该模型对长春市进行未来几天PM2.5进行预测是可靠的。基于该回归方程对长春市2018年12月1—5日的PM2.5含量进行了预测。预测结果如表2所示。

对应的折线图如图3所示。

2.3 结果分析

通过该模型对长春市未来5d的PM2.5含量进行了预测,预测结果在表2和图3中给出,通过结果可以看出,用该模型进行PM2.5含量的预测是可行的,并且准确度较高,平均准确率为81.82%,预测效果较为理想。只有12月4日的预测值与实际值偏差较大,通过查询当日的气候条件,发现当日风力为5级,表明PM2.5含量值与风力等气候条件有关。通过大量的实验表明,基于多元统计分析方法的预测模型能够较理想的预测PM2.5含量值,进而预测雾霾天气的发生。

3 结束语

雾霾天气的预测与预警受到了广泛和深入的研究,本文基于统计学的多元统计分析方法建立了PM2.5含量预测模型。收集了长春市的空气质量数据,并经过实验验证,结果表明,应用该模型对长春市的PM2.5含量进行预测分析是科学和有效的,并达到了理想的预测精度。该模型的运算复杂度较小,效果较理想,为雾霾天气的预测提供很好的研究方法,本文建立的PM2.5含量预测模型具有一定的参考价值和应用意义,能够为长春市的雾霾预警提供参考。

参考文献

[1]蘇维,赖新云,赖胜男,等.南昌市城市空气PM2.5和PM10时空变异特征及其与景观格局的关系[J].环境科学学报.2017,37(7):2432-2439.

[2]赵金霞,沈岳峰,范苏丹.天津市滨海新区持续性重度雾霾成因分析[J].沙漠与绿洲气象,2017,11(6):69-74.

[3]牛玉霞.基于遗传算法和BP神经网络的空气质量预测模型研究[J].软件,2017,38(12):49-53.

[4]刘小兵.基于支持向量回归机的PM2.5浓度预测模型分析与研究[D].成都:西南财经大学,2016.

[5]尹琪,胡红萍,白艳萍,等.基于GA-SVM的太原市空气质量指数预测[J].数学的实践与认识,2017,47(12):113-120.

[6]付倩娆.基于多元线性回归的雾霾预测方法研究[J].计算机科学.2016,43(6):526-528.

[7]周晨,冯宇东,肖匡心,等.基于多元线性回归模型的东北地区需水量分析[J].数学的实践与认识,2014,44(1):118-123.

作者简介:

艾洪福(1980-),男,硕士,讲师。研究方向:数据挖掘、环境质量。

猜你喜欢

长春市雾霾回归方程
登泰山
采用直线回归方程预测桑瘿蚊防治适期
走进回归分析,让回归方程不再是你高考的绊脚石
可以消除雾霾的新型无人机
从雾霾中突围
雾霾的中医认识及其防治
雾霾下的清晰
拾荒助学子 温暖众少年长春市