APP下载

浅论空气质量的校准

2020-11-30苏梅容邹涌涛胡捷

科技风 2020年30期
关键词:线性回归相关性分析主成分分析

苏梅容 邹涌涛 胡捷

摘 要:本文首先对自建点和国控点的数据进行探索性数据分析,利用主成分分析法和因子分析法分别对国控点和自建点的数据进行简要的分析,得出一些初步的结论。其次对导致自建点数据与国控点数据造成差异的因素进行分析。对国控点和自建点的“两尘四气”建立一元线性模型进行一一对比,最后再利用多元线性回归逐个分析每个因素的影响程度。但由于非常规气态污染物(气)浓度变化对传感器会存在交叉干扰,所以我们接着用相关性分析对每个因素的交互干扰进行分析。最后,利用国控点数据,建立数学模型对自建点数据进行校准。

关键词:主成分分析;因子分析;相关性分析;线性回归;校准

一、问题假设和符号说明

(1)假设忽略空气中其他污染物对微型空气质量检测仪造成的影响。

(2)假设该地区各种影响空气质量的软因素(如工业发展,人口数量)保持平稳变化。

X1~X6分别表示自建点的PM2.5、PM10、CO、NO2、SO2、O3;X7~X11分别表示温度、湿度、风速、气压、降水;β0、β1、…βn是多元線性方程的参数。

Y1~Y6分别表示国控点PM2.5、PM10、CO、NO2、SO2、O3。

二、模型建立与求解

(一)主成分分析法

主成分分析[1],是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量。如第一主成分为:“PC1=a1X1+…+akXK”对国控点的数据进行主成分分析:

(1)首先判断主成分的数目,这里使用Cattell碎石检验,表示了特征值与主成数目的关系。一般的原则是:要保留的主成分的个数的特征值要大于1且大于平行分析的特征值。前四个主成分的累积贡献率已达到91%,另外三个主成分就可以舍去,达到降维的目的。从程序运行结果来看:第一主成分(PC1)的贡献率将达到50%,起最大的作用,其中PM25、PM10和CO的系数都在0.5左右,也就是说,PM25、PM10和CO对空气质量的影响较大,可用来进行一般性评价的维度。

(2)运用主成分分析法对自建点的数据进行分析,分析结果可以发现前七个主成分的累积贡献率已达到92%,另外四个主成分就可以舍去,达到降维的目的。从程序结果来看:第一主成分(PC1)的占比较多,起较大的作用,其中PM2.5、PM10和CO的系数都在0.5左右。而国控点的影响因素也包含PM2.5、PM10和CO,初步推断两组数据比较吻合的,且PM2.5、PM10和CO对空气质量的监测中有比较大的影响。

(二)因子分析法

因子分析[2](factor analysis)是主成分分析的推广和发展,它也是多元统计分析中降维的一种方法,是一种用来分析隐藏在表面现象背后的因子作用的一类统计模型.因子分析是研究相关阵或协方差阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系。可表达为:“Xi=a1f+Ei,i=1,2,…,P,”。

其中f是对所有x(=12,…,D)都起作用的公共因子(common fotor),它表示影响因素的因子,系数ai称为因子载荷(loading),变量x特有的特殊因子这就是一个最简单的因子模型进一步,可把简单因子模型推广到多个因子的情况,用这m个不可观测的互不相关的公共因子f1,f2,…,fm(也称为潜因子)和一个特殊因子c1来描述原始可测的相关变量X1,X2…,X,并解释分析影响因素它们的系数a1,a2,…,am称为因子载荷,这就是一个因子模型。根据结论进行分析:在国控点的数据中,因子分析的结果显示在第一个公共因子中,系数绝对值较大的是PM2.5、PM10和CO,可以与主成分分析中的结论相对应。

在自建点的数据中,因子分析的结果中显示在第一公共因子中,系数绝对值较大的也是PM2.5和PM10,根据以上的模型结果,大致可以推出PM2.5和PM10对空气质量的监测数据影响较大。

(三)一元线性回归模型

在统计学中,线性回归[3]是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。本题运用到一元线性回归表示式如下:“Y=β0+β1X”中,Y代表国控点的PM2.5、PM10、CO、NO2、SO3、O3浓度;β0、β1代表一元线性回归方程的参数;X代表自建点的PM2.5、PM10、CO、NO2、SO3、O3浓度。

我们对自建点和国控点的“两尘四气”监测数据做了一元线性回归模型,根据题目的要求我们建立一元线性回归模型,得出以下结果:

1.PM2.5(国控点)和PM2.5(自建点)的对比

建立一元线性回归模型,得出两者的函数关系式:Y1=1.27X1+3.37,从模型结果来看两者之间的关系是显著的,反映出国控点的PM2.5和自建点的PM2.5成线性关系,回归系数也在置信区间内,可知该模型是成立的。

2.PM10(国控点)和PM10(自建点)的对比

建立一元线性回归模型,得出两者的函数关系式:Y2=1.16X2+30.01,从模型结果来看两者之间的关系是显著的,反映出国控点的PM10和自建点的PM10的线性关系。回归系数也在置信区间内,可知该模型是成立的。

3.CO(国控点)和CO(自建点)的对比

建立一元线性回归模型,得出两者的函数关系式:Y3=0.12X3+0.47,从模型结果来看两者之间的关系是显著的,反映出国控点的CO和CO的线性关系。回归系数也在置信区间内,可知该模型是成立的。

4.NO2(国控点)和NO2(自建点)的对比

建立一元线性回归模型,得出两者的函数关系式:Y4=0.42X4+44.01,从模型结果来看两者之间的关系是显著的,反映出国控点的NO2和自建点的NO2的线性关系。回归系数也在置信区间内,可知该模型是成立的。

5.SO3(国控点)和SO3(自建点)的对比

建立一元线性回归模型,得出两者的函数关系式:Y5=0.03X5+15.67,从模型结果来看两者之间的关xi不是很显著的,但是国控点的SO2和自建点的SO2还是线性关系。回归系数也在置信区间内,可知该模型是成立的。

6.O3(国控点)和O3(自建点)的对比

建立一元线性回归模型,得出两者的函数关系式:Y6=0.27X6+53.05,从模型結果来看两者之间的关xi不是很显著的,但是国控点的SO2和自建点的SO2还是线性关系。回归系数也在置信区间内,可知该模型是成立的。

(四)多元线性回归模型

在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。(这反过来又应当由多个相关的因变量预测的多元线性回归区别,而不是一个单一的标量变量)。本题运用到多元线性回归[4],多元线性表示式:“Yn=β0+β1X1+β1X2+……+βnan”式中,我们以自建点的湿度、温度、风速、气压、降水为自变量,分别以国控点的“两尘四气”为因变量,做多元线性回归模型(程序见附录四),根据题目的要求我们建立多元线性回归模型。得出结果:除了风速对PM2.5的影响不显著,其他结果都很显著。从结果看:湿度、温度、风速、气压、降水对自建点监测的“两尘四气”的数据是有影响的。但是由于非常规气态污染物(气)浓度变化对传感器会存在交叉干扰,所以我们接着用相关性分析[5]对每个因素的交互干扰进行分析。

研究结果显示:AQI的六个指标之间两两的相关性,即相关程度。现对其一一解释:

(1)PM2.5与其余的五个指标PM10,CO,NO2,SO2,O3的相关系数分别为0.8157,0.6624,0.2590,0.2713,-0.2690,可知PM2.5与PM10,CO相关性较大,而与PM10的相关程度超过80%,说明与PM10是强相关的,而与O3的相关性是负相关,而且值较小,所以是弱相关。

(2)PM10与其余指标CO,NO2,SO2,O3的相关系数分别为0.5822,0.3064,0.3064,-0.1765,可知PM10与CO,NO2,SO2是正相关,而与O3是负相关,且相关性不强,相关系数为-0.1765。

(3)CO与NO2,SO2,O3的相关系数分别为0.2983,03119,-0.2737,可知CO与NO2,SO2的相关程度在30%以上为正相关,而与O3相关系数为-0.2737,说明为负相关,说明两者相关性不高。

(4)NO2与SO2,O3的相关性系数是-0.3440,-0.2544,都为负相关,从数值上看,相关性都不是很强。

(5)SO2与O3的相关性系数为-0.2840,为负相关,从数值上看,相关性不强。

三、模型推广与评价

模型的优点:线性回归模型较简单,应用较广,容易操作;因子分析法能很好的涵盖原始数据的各个项,同时将分析过程简化为因子项的分析,变量比原始的变量少了很多,起到了降维的作用,为我们处理数据降低了难度,从而更加简便。

模型的缺点:回归分析中,选用何种因子和该因子采用何种表达式只是一种推测,这影响了因子的多样性和某些因子的不可测性,使得回归分析在某些情况下受到限制。未能完全考虑到其他各种因素。

参考文献:

[1]陈立萍,薛毅.统计建模与R软件(下册)[M].清华大学出版社,2006,07.

[2]Abhishek Singh,Karthik Ramasubramanian.R语言机器学习[M].机械工业出版社,2018,06.

[3]洪锦魁,蔡桂宏.R语言[M].清华大学出版社,2016,06.

[4]司守奎,孙玺菁.数学建模算法与应用[M].国防工业出版社,2012,06.

[5]Andrie de Vries,Joris Meys.R语言可以很简单[M].人民邮电出版社,2017,07.

猜你喜欢

线性回归相关性分析主成分分析
国道公路养护管理与规划研究
上市公司财务指标与股票价格的相关性实证分析
淘宝星店成长中的粉丝力量
中国城市化与经济发展水平关系研究
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用
企业退休金收支平衡的研究
企业退休金收支平衡的模型分析