APP下载

空气质量数据的异常值监测

2016-11-02王深蔡雪郭秋岑

中国新通信 2016年18期
关键词:多元回归空气质量

王深 蔡雪 郭秋岑

【摘要】 目的:海量的空气质量数据中,异常数据会干扰后续的实验与分析。因此,有必要对异常数据进行监测,提高数据的准确性。方法:通过对北京市AQI和空气污染物和天气气象数据的分析,发现AQI与这些因素具有较高的相关性。通过逐步回归的方法找出AQI与PM2.5,PM10,CO, ,温度,相对湿度相关性很强,进而我们建立了多元回归模型。之后,我们对单一的AQI进行检测,使用ARMA时间序列模型,有效地减少多重线性和过度参数化对模型的影响。结果:结合监测值和真实值图像可以看出这两种模型大部分监测数据与真实数据相同,只有个别天数出现异常,符合实际的情况。

【关键词】 多元回归 ARMA时间序列 异常值检测 空气质量

The Abnormal Value Monitoring of Air Quality

Abstract: the objective: the abnormal data will disturb subsequent experiments and analysis in lots of air quality data. Therefore, it is necessary to monitor abnormal data to improve the data accuracy. The method: through the analysis of AQI, air pollutant data and weather data in Beijing, we find that AQI has a higher correlation with these factors. With the method of stepwise regression, we also find that AQI also has a strong correlation with PM2.5, PM10, CO, temperature and relative humidity, and then we establish a multiple regression model. After that, the single AQI is tested, and we use an ARMA time series model to reduce the influence of multiple linear and excessive parameterization on the model. The result: combining the monitoring value and true value image, we can find that most monitoring data are the same as true data for these two models, with a few abnormal day-numbers, which is in accord with the actual situation.

Key words: multiple regression; ARMA time series; abnormal value monitoring; air quality

引言

空气质量问题始终是政府、环境保护部门和全国人民关注的热点问题。空气质量监测是空气质量科学表征的重要数据来源,其目的是获得高质量的环境监测数据,并由此推断整个环境现有的质量特征。但在实际监测过程中,样品的采集、分析和采样地点的偶发事件以及各种环境要素本身的时空变化等一系列因素都可能对监测结果产生影响,导致数据出现异常。

以往对此课题的研究最为常见的即为“断点检验法”的方法[1],发现数据中的确存在值得关注的造假问题,其表现是:在临界点上出现不连续的断点。二氧化硫和二氧化氮的数据异常并不明显。在有便是利用数学统计的方法[2]研究中直观判断残差图,方差齐性时在零值附近随机波动,不带任何趋势。直观判断残差平方图,由于残差均值为零,从而残差异方差性取决于参加平方的性质,方差齐性意味着残差平方图在某个值附近波动,不具有某种趋势。构造检验统计量,异方差的检验实质上就是异方差相关性检验,考虑残差均值为零,只需对残差平方的随机性进行检验,即如果残差满足随机性,而残差平方满足相关性,就说明残差具有异方差性。

本文通过多元回归分析和ARMA(2,3)模型对AQI 进行监测,及时的发现异常值,以便于对异常点进行合理分析,剔除其中的可疑或不合理的数据,并分析产生异常的原因,使被监测的客观环境质量状况能够得到真实反映。

一、模型构建与数据处理

1.1数据来源

数据来源于2013-2015年北京市气象局统计年鉴和中国天气网。

1.2多元回归分析原理

因为产能预测可看成一个变量与多个变量之间的相关关系,所以可利用多元线性回归的方法进行模拟预测。

1.3模型建立过程

1.相关性分析

由于各个地理位置所处的环境不同,影响AQI的因素也是多种多样,但PM2.5,PM10,NO2,CO,SO2,这5个因素的浓度对AQI有直接的影响关系。天气对空气质量同样也有影响,气压的高低影响大气内部气流运动,风速大小,对低空污染物的稀释与扩散有影响。温度高低影响气体的垂直运动。相对湿度大小影响水汽吸附空气中的污染物。风速大小对大气污染物的影响主要体现在稀释作用。

研究表明:当风速较大时,污染物与风速呈正相关,与本研究结果类似。大气污染物与气象因素的相关分析表明,和气温、风速、湿度之间存在较为显著的相关关系。统计与分析结果见表1。

将样本值带回式子(1)得出回归分析值与实际值的对比图,见图1。图表中黑色线为实际值,灰色线为回归值。我们可以看出真实值和回归值绝大多数是吻合的,但是有个别的数值偏差较大。

1.4.2 残差分析

通过残差检验得到Durbin-Watson值为1.677,所以残差符合正态分布,之后我们对回归方程进行残差分析筛选异常值,我们通过标准残差来识别异常值,如果某一个观测值所对应的标准化残差较大,就可以识别为异常值。根据经验,通常将标准化残差小于-2,大于2的值视为异常值,筛选结果如图2所示。

1.4.3模型的不足

通过常识可以知道,重工业排放时,各种化学成分会被同时排放,排放的增加量之间是存在系数关系的。

通过相关性表(表1)我们可以看出,空气中各个化学元素成分存在很强的线性关系,因此我们怀疑可能出现共线性问题和过多参数化问题。因此我们提出单一的对AQI进行分析,提出时间序列模型进行检测。

1.5模型的不足

通过常识可以知道,重工业排放时,各种化学成分会被同时排放,排放的增加量之间是存在系数关系的。

通过相关性表(表1)我们可以看出,空气中各个化学元素成分存在很强的线性关系,因此我们怀疑可能出现共线性问题和过多参数化问题。因此我们提出单一的对AQI进行分析,提出时间序列模型进行检测。

二、ARMA模型

2.1 ARMA模型的简介

自回归移动平均模型(Autoregressive Moving Average Models,ARMA),简称B-J方法,其基本原理是:将时间序列视为随机过程,用一个数学模型来描述或模拟;一旦该模型确定,就可用该序列的过去值和现值来预测未来值 [4] 。

2.2ARMA模型建立

2.2.1模型假设

我们假设在分析AQI数值的时间范围以内,无人为的主观扰动(如举行大型会议,进行车辆限行,工厂限排放等)。

2.2.2模型识别

观察每天的AQI值,通过统计分析发现,AQI的均值为118.7,标准差为75.9,通过观察可知AQI的波动较小,相对比较平稳。

通过相关性图像可以观测到时间序列是平稳的,自相关图,偏自相关图在2阶和3阶之后是趋近于0的,并且ADF的检测值为-11.98,比1%显著性水平临界值-3.45要小,因此在99%的置信水平下,可以拒绝原假设,认为序列PM2.5不存在单位根,即序列平稳。由于无法判断自相关图和偏自相关图是拖尾还是截尾。

因此,我们通过SAS建立一个ARMA模型组,设AR从0到4,MA从0到4,通过比对AIC和SBC的值初步筛选出下面7个比较符合的ARMA模型。

2.2.3参数估计值

我们对这7个模型的每一个系数做相关参数的评估,发现这前六个模型的AIC比较接近,SBC值中ARMR(2,3)模型比较小,所以我们对ARMR(2,3)的模型的系数进行检验,结果显示该模型每一项的t值都小于0.01,ARMR(2,3)的各个参数如表3。因此。得出ARMR(2,3)模型是比较适合对AQI值进行评估的。

把表3的参数估计值带入ARMR(2,3)模型中,整理后可以得出北京市的AQI指数的分析评估模型,我们将分析值和实际的AQI绘制成一张图,如图所示,我们将置信区间定为95%,因此可以筛选出偏离值较大的数值,我们将它们做成图表如图3所示。

三、结论

多元回归模型是使用多个维度来重新评定的AQI数值,通过观察各个因变量之间的相关性,进行逐步回归最终确定回归系数,但是在多次回归过程中,可能造成过度参数化和共线性的问题。

于是,我们提出ARMR(2,3)模型,ARMA模型是目前最好的单一变量随机时序预测法,其基本思想是用时间序列的过去值和现在值的线性组合来预测其未来值,即ARMA时间序列模型不需要考虑预测变量的相关因素及其关系,而是利用事物发展的延续性,建立时间序列模型来分析之后的变化。因此,突然的急剧增大和减少,就极有可能是异常值。

参 考 文 献

[1] Dalia Ghanem. Junjie Zhang. Do Chinese Cities Manipulate Air Pollution Data?[J]. Journal of Environmental Economics and Management.2005.

[2]李航.统计学习方法.清华大学出版社,北京,2012.

[3]王燕.应用时间序列分析.第二版.中国人民大学出版社,北京,2008.

[4]王振龙.应用时间序列分析.第二版.中国统计出版社,北京,2006.

[5]周世峻.大连市空气污染预测预报统计方法的研究.环境保护科学,2000(8).

[6]刘晓利.试验设计中多元回归分析方法的研究.数理统计与管理,2001(4).

猜你喜欢

多元回归空气质量
乌海市雾对空气质量的影响
不同住房保障方式下住户居住满意度研究
江苏省实施税收优惠政策促进科技创新的实效性研究
我国大学生人生规划自主性的现状和影响因素
中国装备制造业阶段竞争力研究
上证综指收益率的影响因素分析
计量经济学研究
看雾霾新闻,为提高空气质量支招