APP下载

基于电化学气体传感器的空气质量数据校准模型

2021-04-24隋欣

科学技术创新 2021年9期
关键词:检测仪回归方程线性

隋欣

(长春汽车工业高等专科学校,吉林 长春130000)

1 问题分析

随着工业的发展,我国空气质量的下降对生态环境和人类生活造成影响,人们开始通过仪器实施检测空气质量。电化学传感器是把测量对象气体在电极处氧化或还原而测电流,得出对象气体浓度的探测器[1-2]。本题给出两种监控仪器对两尘四气进行数据监测,一种是国家检测站点,另一种是某公司自主研发的空气质量检测仪,它与国控点检测仪器在同一检测时间内检测的数据存在差异,本题要通过自建点与国控点数据的探索性数据分析,解决两组数据存在的差异,分析造成差异产生的因素,从而建立模型,利用国控点数据对自建点数据进行校准[3]。

2 模型建立与求解

2.1 问题1 的求解

数据观察:在对问题进行探索性数据分析前,通过观察数据发现国控点数据是按小时进行检测,而自建点按照(对应于国控时间每五分钟内监测),二者的样本量存在明显差异,但是时间范围都是18 年11 月到19 年6 月之间。

数据的预处理:由于这两组数据样本差异很大,我们需要把两组数据进行对应的处理。将公司研发的检测仪自建点数据求取以每小时为单位的平均值来代替自建点数据,使自建点数据与国控点时段对应。经过处理后发现两组数据均有不同时段的缺失,我们对国控点与自建点数据进行插值和剔除处理,例如在国控点18 年11 月15 日9 时-13 时数据缺失,所以我们把自建点对应这一时段的数据剔除处理。而对于个别离散点我们是通过线性差值进行缺失点的添加,从而得出新的自建点与国控点对应数据表。

探索性分析:针对问题一对自建点和国家检测站点的数据进行探索性分析,我们按照月份进行探索分析,例如以国控点十一月探索分析结果中以PM2.5 为例,分析的工具是用直方图、茎叶图、制表、汇总统计量、箱图来探索PM2.5 的集中变化趋势。对调查和观察得来的原始数据处理得到所有的汇总统计量,从中得出均值和中位数用于考察在总体中的集中趋势。从正态性检验值sig 小于0.05 并且正态检验Q-Q 图观察得出六个指标变化趋势都不符合正态分布,所以我们不考虑偏度和峰度。由PM2.5 茎叶图可以直观看出PM2.5 月平均数据以2.0-3.0,6.0-7.0 之间最多,其次1.0-2.0,3.0-4.0,8.0-10.0 之间最多。再从箱形图得出异常值,例如PM2.5 异常值为380,379,异常值对总体集中趋势影响较大,不能真实地反映数据的总体特征,我们把这些异常值从数据中剔除。

2.2 问题2 的求解

2.2.1 按月份对比分析

我们进行了PM2.5,PM10,CO,NO2,SO2,O3共6 个指标的对比度分析,观察风速,压强,降水,温度,湿度五个因素的影响,第一步,我们对自建点和国家监测点以每月为标准进行对比,对每月平均标准数据保留一位小数,做出6 个指标月份和五个因素比较,以分析PM2.5 与PM10 的变化趋势为例,通过对比我们发现PM2.5,PM10 在11 月至次年2 月变化差距较大,3 月到6月数据变化小,通过观察五个因素月份的变化趋势发现其中温度影响关系显著,8 个月中11 月-2 月温度低,2 月-6 月温度高,综合上述11 月到2 月低温对检测仪影响较大,3-6 月温度逐渐升高对检测仪的影响较小,可见温度影响自建点检测仪测量数据。

2.2.2 按时段对比分析

我们以对六种指标按小时为变量分析各月份的变化趋势,进一步说明第一步的验证,以PM10 数据2-3 月时段分析,我们将PM10 和NO2浓度按两个小时为一个时段分析,并讨论自建点检测指标是否与一天早晚因素变化情况有关。

由第一次分析12 月到次年3 月份温度变化趋势,从12 月、2 月、3 月可以明显看出,12 月份自建点与国控点对比差距较大,3 月份两者的差距逐渐接近,再次说明温度对自建点检测检测仪有明显的影响。假设白天的时间为8 时-20 时,其余时间为夜晚,通过分析得出自建点白天PM10 浓度与国控点数据相比较差距较小,而夜晚时自建点数据明显偏离国控点,说明受早晚温差的影响,并且可能由于自建点附近的社会生活的影响,如工厂制造,人群流动(夜晚人群流动较少)等因素对自建点数据造成差异。

NO2各时段浓度变化趋势,我们分析了12 月-1 月的变化趋势,不难看出12 月份自建点浓度与国控点差距较大,1 月份差距较小,从各月份的变化趋势中能了解到12 月份到1 月份风速,压强,湿度,温度这四个因素变化趋势不明显,而12 月平均降水量为204.7mm/m2,1 月平均降水量111.9mm/m2,并从所有NO2浓度数据中得出NO2浓度变化不受早晚时间影响,这说明因为降水量减小对自建点检测仪检测的数据接近国控点,降水量对自建点检测仪检测NO2数据会产生影响。

综上所述,从两个角度的对比发现国控点数据与自建点数据存在差异的原因主要受季节温度和早晚温差的影响,通过资料查询也存在湿度和降水对检测指标产生影响,我们通过建立多元回归模型分析这些因素。

2.3 问题3 的求解

使用国控点数据,建立合理的数学模型对自建点数据校准,首先利用预处理的国控点和自建点数据进行分析,我们通过做x,y 散点图直观可以看出数据分布状况,以PM2.5 在2-6月的散点图呈线性趋势,因此我们选择多元线性回归模型。

2.3.1 模型的建立

建立校准数据的多元线性回归模型,以自建点数据减去国控点数据为因变量,以温度、湿度、风速,压强、降水量五个因素为自变量,又根据第二问分析结果,季度对数据影响较大,故我们考虑以月份划分进行模型建立。

设n 个相互独立的实验观测数据为

下面以PM2.5 为指标,将数据带入数学模型进行求解。

2.3.2 模型的求解

我们利用SPSS 软件进行逐步线性回归,得到结果如表1 所示:

表1 模型汇总

从表1 中我们可以看到模型五的R 方值最接近1,说明第五个模型拟合优度好,且与五个因素都有关,得到PM2.5 回归方程3-6 月份的回归系数。

得到PM2.5 的多元线性回归模型为:

11 月-2 月:W* 0.399S 0.359P 2.559F 0.209T 373.592

3 月 -6 月:W* 0.42S 0.046J 0.518P 5.202F 0.139T 551.567

利用同样方法得到其他指标的多元线性回归方程。对回归方程分析:PM2.5 回归方程受五个因素的影响,PM10 回归方程3-6 月受温度影响较小CO 回归方程3-6 月受降水量影响不显著,1-2 月份受温度和降水量的影响较小,11-2 月受降水和压强影响较小。NO2回归方程11-12 月受温度影响较小,SO2回归方程3-6 月份受压强影响较小;O3回归方程11 月-2 月受湿度影响较小。

表2 系数

2.3.3 模型检验

将结果进行拟合优度检验及F 检验。例如在PM2.5 指标在3 月-6 月中回归函数进行检验,我们看到R20.52 拟合度较好,F 检验中sig 值0.023<0.05,线性程度显著。

3 结论

温度是影响数据的主要因素,而其他因素是否影响需要进一步分析。我们把预处理的两组数据按月份分析,得出某指标的月份散点图,得出该数据呈线性趋势,确定为线性回归模型,做出合理的模型假设,建立多元线性回归模型,应用数学软件SPSS 将各个影响因素逐步回归,运算出回归系数,并检验模型的拟合优度和线性趋势取得较好的效果。

猜你喜欢

检测仪回归方程线性
二阶整线性递归数列的性质及应用
采用直线回归方程预测桑瘿蚊防治适期
一种防雷接地装置的便携式检测仪电路
非齐次线性微分方程的常数变易法
体脂检测仪
巧用故障检测仪中的Reset功能
家庭食品安全检测仪