APP下载

基于单类分类方法的道路高排放源识别算法*

2023-02-02周汉胜李泽瑞周金华

传感器与微系统 2023年1期
关键词:傅里叶尾气道路

周汉胜, 李泽瑞, 周金华

(1.安徽医科大学 生物医学工程学院,安徽 合肥 230032; 2.合肥综合性国家科学中心 人工智能研究院,安徽 合肥 230088)

0 引 言

随着汽车保有量的增加,机动车等道路移动污染源已经成为大气污染的重要来源[1,2],其中,尾气排放量超过排放标准的道路的高排放源所造成的大气污染问题尤为突出。为缓解道路高排放源对大气环境造成的不利影响,需要加强对道路高排放源的监测与控制。如今,随着遥感监测技术的发展,道路遥感监测技术在识别道路高排放源中发挥越来越重要的作用。

早期基于遥感监测技术的道路高排放源识别方法需要对监测数据中各种污染气体体积分数设定限值,当排放尾气中一种或多种污染气体体积分数超过对应限值时,该机动车将被认定为道路高排放源。例如,Rueff R M等人[3]将CO排放限值设为4 %,Stephens R D等人[4]将CO、HC 和NO的排放限值分别设定为3 %、0.3 %和0.2 %。但设定限值的方法均假设尾气污染物在最佳空燃比条件下生成,未考虑尾气中残余氧气对测量的影响[5]。考虑到设定限值方法的局限性,目前,已有研究人员利用相关技术挖掘道路遥感监测数据中的潜在规律,探索道路高排放源识别的新方法。Li Z R等人[6]提出了基于加权极限学习机(extreme learning machine,ELM)的道路高排放源识别模型,并通过主动学习选取有价值的样本进行标记,实验结果表明:该方法提高了对高排放源的识别性能。这类方法大多需要利用尾气遥感监测数据及其对应的正常和高排放源标签来训练模型,标签通常来自机动车的尾气检测报告。然而部分在2次车检之间,正常排放的机动车可能因尾气处理系统故障等因素使尾气超过排放标准,但其对应的标签却仍为正常排放源,降低了正常排放源标签的可信度,也使得这类模型的性能难以保证。

针对高排放源数据可信度高、正常排放源可信度低的情况,本文提出基于随机傅里叶特征(random Fourier feature)[8]和非常稀疏映射(very sparse random projection)[9]的单类分类(one-class classification,OCC)宽度学习系统(broad learning system,BLS)[10]算法,即OCC-FS-BLS算法,只利用可信度较高的高排放源数据训练模型。OCC-FS-BLS在OCC-BLS[7]的基础上,引入随机傅里叶特征和非常稀疏随机映射(FS)对BLS的网络结构进行优化,实现了对道路高排放源的有效识别。

1 BLS及其改进

1.1 BLS

BLS由Gong X等人提出,其结构如图1其已经在计算机视觉、生物医疗、系统建模与预测、故障检测与诊断和互联网通信工程等领域中广泛应用[11]。

图1 BLS的结构

Zi=φ(XWi+Bi),i=1,2,…,n

(1)

其中,Zi∈RN×K为BLS第i个特征节点,Wi∈RN×K和Bi∈RN×K为线性随机映射的权重和偏移量,φ()为激活函数,n为特征结点的个数。所有的特征节点Zi拼接到一起得到Z∈RN×(n×K)。

特征节点再次线性随机映射生成BLS增强节点

Hj=ζ(ZWj+Bj),j=1,2,…,m

(2)

其中,Hj∈RN×P,Wj∈R(n×K)×P和Bj∈RN×P为线性随机映射的权重和偏移量,ζ()为激活函数,m为增强结点的个数。将所有的Hj连接在一起得到H=[H1,…,Hm],H∈RN×(m×P),所有的特征节点和增强节点拼接在一起得到输出层的输入

A=[Z|H],A∈RN×D

(3)

其中,D=n×K+m×P。此时目标函数及其解析解

minL=‖β‖2+λ‖ε‖2,s.t.Aβ=y-ε

(4)

(5)

式中I为单位矩阵,λ为常系数,用来调节正则项和经验损失项之间的关系。

1.2 改进的BLS

上述BLS特征节点由输入数据经过线性随机映射生成,但在面对某些任务时非线性特征映射可能发挥更重要的作用[12]。Gong X等人[11]将数据特征通过随机傅里叶特征映射生成BLS特征节点,实验结果表明,与其他基于核函数的方法相比,改进方案在UCI数据集上取得了最高的准确率。同时,为保证BLS的函数拟合能力,通常需要设置较大的节点数量,但也提高了引入冗余节点的可能性,降低模型的泛化能力和识别精度[13]。Chen C等人[14]为了缓解ELM隐含层中的冗余节点对模型泛化能力的影响,利用非常稀疏映射降低了隐含层的输出维度,有效减少了隐含层中的冗余信息,并且比ELM识别准确率提升了6 %。

因此,为了提高BLS样本数据特征学习能力同时缓解特征增强可能出现的节点冗余问题,BLS的特征节点由样本数据的随机傅里叶特征构成,BLS的增强节点由特征节点进行非常稀疏映射构成。改进BLS结构如图2所示。

图2 改进BLS的结构

2 OCC-FS-BLS算法

2.1 OCC-BLS算法

OCC-BLS算法[7]流程为两步:1)根据训练数据计算输出权重β;2)确定判定样本正负类的阈值θ。

首先将训练数据X再次输入BLS中,根据权重β可以得到输入数据对应预测结果如下

ytrain=Aβ

(6)

考虑到训练数据可能存在噪声,以及避免模型过拟合,对于预测结果ytrain并不可全部视为目标类,需要进一步计算预测结果ytrain与目标类的距离,并按照一定的比例μ将与目标类最远的若干训练样本视为异常类数据。计算预测标签ytrain和目标类y之间的距离dtrain,将dtrain由大到小排列可以得到d,如下

dtrain=|ytrain-y|

(7)

d=Sort(dtrain)=[d1,d2,…,dN]

(8)

将d的第μ×N各元素定义为判定目标类和异常类的阈值θ=d⎣μ×N」,0<μ<1。根据定义,对于测试样本Ztest∈R1×M的所属类别判定准则如下

(9)

式中Atest为测试样本经过线性特征映射和线性增强映射生成的特征节点和增强节点的拼接。

2.2 OCC-FS-BLS算法流程

OCC-FS-BLS的实现过程分为2步:1)将正类数据输入到改进的BLS中,通过伪逆得到输出权重β;2)再次将训练数据输入改进的BLS中,根据事先设定的比例系数μ确定判断正负类样本的阈值θ。

对于BLS的改进主要是通过随机傅里叶特征生成特征节点,增强节点的生成方式由普通映射改为非常稀疏映射。根据文献[8],随机傅里叶特征可以根据以下计算得到

经营能力提升指标的重点在于“提升”二字,应通过上一个经营年度该类指标的公示来引导学生发现经营过程中相应的问题,要有目标、有针对性的在新的年度经营过程中提出相应的策略,并不断优化该项指标。每后一年度的指标值较前一年度更好时则可获得相应分数,否则不得分。

(10)

(11)

式中z(xi)∈R1×K,w∈RM×K,wi∈RM×1,p(wi)为高斯核函数的概率密度函数,w~p(wi),b为[0,2π]上均匀分布的随机向量,b∈R1×K。随机傅里叶特征进行点积近似高斯核函数

(12)

其中,j=1,2,…,N,(xi,xj)∈R1×M,zk(xi)计算xi随机傅里叶特征维度为k处的向量。根据式(10),将所有的样本进行随机傅里叶特征映射并组合到一起得到Zi=[z(x1)T,…,z(xN)T]T,Zi∈RN×K。将n次特征映射的结果组合到一起得到Z∈RN×(n×K)。

同时,将增强映射的随机映射矩阵Wj改为非常稀疏随机映射矩阵Fj,根据文献[15]Fj服从如下分布

(13)

OCC-FS-BLS是在上述改进BLS基础上所构建的单类分类算法,其构建方法与OCC-BLS相同。根据式(6)~式(9),可以确定OCC-FS-BLS中判断正负类的阈值θ,当预测值到正类的距离大于阈值θ时认定为负类,反之认定为正类。

3 结果与分析

3.1 数据集

1)数据集的采集:实验数据是通过安装在主干道或者路口的各种遥感监测设备采集的,所用设备包括移动式遥感监测设备、横穿式遥感监测设备及垂直式遥感监测设备。

2)数据集的处理与组成:原始数据中的缺失值用其所在特征的均值补全,同时,为了避免不同维度中数值的差异对模型分类的影响,对所有维度的数据进行归一化。经过以上预处理得到4 092条实验数据,其中,包含遥感检测数据以及检测机构给出的对应标签。数据包含11个特征,分别是CO,HC,NO,CO2的浓度 、车速、加速度、VSP、风速、风向、温度以及车牌颜色。在4 092条数据中,218个正类样本(高排放源),3 874个负类样本(正常排放源)。

3)数据集的划分:根据文献[16],将218个正类样本随机分成两等份,一份作为训练集,另一份和3 874个负类样本并作测试集。

3.2 性能指标

本文选取精确率P(precision)、召回率R(recall)和F1分数作为模型的评价指标。P反映了模型预测为道路高排放源样本中预测正确的比例;R为实际高排放源样本中被模型正确识别的比例;F1分数是综合考虑精确率和召回率的评价指标。本文主要使用F1分数评估道路高排放源识别模型,但同时也需要对P和R分析,这可以给模型提供改进的方向。

3.3 实验结果分析

实验设置:考虑到数据集的不同划分对实验结果产生的影响,为提高实验结果的可信度,随机划分5组训练集和测试集,相同参数配置的模型在5组数据集分别实验,取5次实验中F1分数的平均值作为最终结果。

本文实验选取了几种主流的机器学习单分类算法作为对比方法,分别是OCELM[16]、OCCSVM[17]和OCC-BLS,同时,为证明随机傅里叶特征和非常稀疏映射的有效性,与只使用随机傅里叶特征的OCC-F-BLS以及只使用非常系数映射的OCC-S-BLS进行对比,实验结果如表1所示。在所有的方法中,OCCFSBLS取得最高的F1分数和精确率P,分别达到了67.5 %和65.0 %,相比较非线性映射的OCCSVM 和OCFBLS,F1分数分别高出2.5 %和1.8 %。与线性随机映射的 OCELM、OCC-BLS和OCC-S-BLS相比,OCC-FS-BLS的F1分数分别提升23.9 %、18.1 %和16.2 %。显然,基于非线性随机映射的模型更加适合道路高排放源识别。OCC-S-BLS的F1分数为51.3 %,比OCC-BLS高出1.9 %,F1分数提升的原因可能是非常稀疏映射缓解了BLS节点冗余带来的不利影响,提高了模型拟合的准确性。OCC-F-BLS的F1分数相比OCC-BLS大幅提高了18.1 %,表明随机傅里叶特征作为一种非线性映射方法生成BLS特征结点是有效的。相比较OCC-S-BLS和OCC-F-BLS,OCC-FS-BLS取得最高的F1分数,说明通过随机傅里叶特征映射和非常稀疏映射,同时改进BLS的特征节点和增强节点的生成方式有助于提升模型对正常排放源和高排放源的识别。

表1 各算法的F1、召回率和精确率 %

如图3所示,为OCELM、OCC-SVM、OCC-BLS、OCC-S-BLS、OCC-F-BLS和OCC-FS-BLS的识别效果。圆点表示测试集中正常排放源样本,三角形和星型分别表示训练集和测试集中高排放源样本,图中落入深色区域的样本会被模型预测为高排放源,落入浅色区域的点将被识别为正常排放源。在图3(a)~(c)中,大部分道路高排放源落入深色区域被准确识别,但在深色区域内同样存在很多正常排放源样本被错误识别。相比之下,在图(d)~(f)中,OCC-F-BLS、OCC-SVM 和OCC-SF-BLS可以保证高排放源样本尽可能多的落入深色区域,并显著减少深色区域内正常排放源的数量。为进一步了解OCC-F-BLS、OCC-SVM 和OCC-SF-BLS之间性能的差异,对图3方框区域进行放大如图4所示,相比较OCC-FS-BLS,OCC-F-BLS将很多正常排放源识别为高排放源,OCC-SVM将很多高排放源样本错误的识别为正常排放源。

图3 各算法分类结果的可视化

图4 OCC-F-BLS、OCC-SVM和OCC-FS-BLS局部分类结果的可视化

3 结束语

面对道路尾气排放遥感监测数据中高排放源数据可信度高、正常排放源数据可信度低的问题,提出了基于随机傅里叶特征和非常稀疏映射的OCC-BLS算法,可以仅利用可信度高的高排放源数据训练模型,就可以对高排放源有效识别。实验结果显示,相比较对比方法,本文的方法在F1分数下取得了最好的识别结果。在日后的工作中,将通过直推学习构建半监督的单分类算法,充分利用有标签和无标签的样本信息,进一步提高模型对高排放源数据的识别性能。

猜你喜欢

傅里叶尾气道路
坚持中国道路——方向决定道路,道路决定命运
道听途说
法国数学家、物理学家傅里叶
我们的道路更宽广
双线性傅里叶乘子算子的量化加权估计
机动车尾气污染物排放和控制探究
任意2~k点存储器结构傅里叶处理器
基于傅里叶变换的快速TAMVDR算法
一次骑行带来的感悟
多层介质阻挡放电处理柴油机尾气颗粒物