基于可拓神经网络的大气污染评估算法研究

2014-02-09龙熙华

计算机工程与设计 2014年4期

龙熙华，党婕

（西安科技大学计算机科学与技术学院，陕西西安710054）

0 引言

大气污染评估预报工作不仅可以更好地了解大气污染变化动态，提供实时、系统、精确的空气质量信息，同时加强了环境污染的控制，避免了严重污染事件的发生。

现阶段，大气质量评价与分析方法的研究已不局限于指数评价法、主成分分析法、灰色系统分析法及模糊数学分析方法，多种大气污染评估的方法还包括人工神经网络方法［1－3］、物元可拓法［4］、投影寻踪分析法和集对分析法［5］等。人工神经网络是模拟人脑结构和功能的人工智能机器，目前已广泛用于图像处理、金融市场模拟、地震预测和水力发电等领域。与其他方法相比，人工神经网络具有自学习、联想储存功能和高速寻找优化解的能力，是处理非线性、不确定复杂问题的有力工具。目前城市大气污染评估预测报告主要通过换算成空气污染指数（air pollution index，API）进行评价，其结果简明直观，适于表示城市的短期空气质量状况和变化趋势。可拓神经网络［6，7］（exten－sion neural networks，ENN）作为可拓学与人工神经网络的有机结合，融合了两个新兴学科领域的优点，从而具有更强的功能和优势。在变压器故障诊断、废气检测、分类等方面得到较好应用，特别是对解决特征向量是基于区间的分类、聚类和识别效果显著。本文通过对北京市各监测点同一年份不同日期的监测数据进行网络建模，获得污染物浓度与API之间的映射关系，从而实现监测点的智能评估与预测。

1 可拓神经网络的评估算法设计

1.1 可拓神经网络的基本结构

可拓神经网络具有一般神经网络的特点，都是由大量神经元相互连接而成，其基本单元由可拓理论中的物元或物元可拓集充当。与经典数学和模糊数学相比，可拓理论构造了一种把质和量相结合的物元模型，以克服数学模型只研究数量关系的局限性。可拓神经网络即是在此基础之上建立的一个单层或多层的网络拓扑模型，其结构参数由反馈信息进行调节，从而更好的模拟人脑的思维系统，使之具有重新组织已有知识结构的能力，实现特征与功能的互补，并在学习过程中不断改善自身的性能，完善自己［8］。

由M.H.Wang最先提出的双权连接网络结构适于解决大量基于区间的分类与聚类问题，如图1所示，该网络结构简单，网络含义清晰明了，由输入层和输出层组成。而空气污染评估问题正是标准的区间分类问题，随着污染浓度的增加，污染级别也会随之变大。若将污染浓度的n个指标X＝｛x1，x2，…xn｝作为网络输入，污染级别Y作为网络输出，那么当x1，x2，…xn都增加时，污染级别必然上升；当存在部分指标增加，部分减少时，则无法给出一个准确的评判标准，此时就需要网络构造的非线性映射关系给出准确结果。﹤wL，wU﹥代表某一指标的特征域，wL为下限值即X的各个分量的最小值，wU为上限值即各分量的最大值。

图1 可拓神经网络结构

1.2 可拓神经网络学习规则

可拓神经网络中一个重要的测度工具是可拓距离。可拓距离作为ENN的关联函数，决定待测物体与确定区间的距离大小。若表示一点x到区间﹤wL，wU﹥的距离，如式（1）所示

式（1）定义的距离主要用来判定一点对于某个固定区间距离的大小，对于两个区间并不具有可比性。若取Z1和Z2的中点p为待测物体位置，如图（2）所示p到区间﹤wL1，wU1﹥与﹤wL2，wU2﹥的距离相等，然而很显然p是属于区间﹤wL2，wU2﹥的，p到区间﹤wL2，wU2﹥的距离应小于到﹤wL1，wU1﹥的距离。因此将改进后的式（2）作为测度工具，从图3可以看出，式（2）将wL到wU上的点映射到［0，1］区间，当x趋于﹤wL，wU﹥的端点时，距离接近1；当x趋于中心Z时，距离为0。同时，不再简单的将待测物体与区间中心的距离作为衡量相似程度的标准，而是加入区间长度系数，区间长度越大越具有包容性

图2 式（1）点到区间的距离

图3 可拓距离

双权连接的ENN结构根据是否存在外部教师又分为有监督学习和无监督学习。本文采用有监督学习机制，即利用几组已知类别的样本调节网络参数，使其性能达到要求的过程，也称为监督训练或有教师学习。在网络建立初期首先构造物元模型M＝（O，C，V），确定连接权值的初始状态，即wLmn和wUmn，其中m为样本数目，n为特征向量个数。然后以可拓距离最小为测度，判断待测物体的类别。若与已知输出相同，则输入下一个样本；若与已知输出不同，则对实际输出类别k与已知输出类别p同时进行调整，具体如下:

（1）类中心的调整

（2）权值的调整

这里η表示学习速度或学习步长，一般为常数。学习步长的选取对网络收敛速度、搜索结果起着决定作用。在网络训练初期，待测物体偏离准确分类较远，为加快速度，此时学习步长应取较大值。随着移动次数的增加，错误类别与正确类别距离越来越小，此时学习步长应逐步缩小，以免跳过最佳距离。因此，本文采用动态步长代替原有固定步长，如下所示

由式（3）可以看出，η随着迭代次数n的不断增加，由ηmax递减到ηmin，其中run表示最大运行次数。

1.3 算法描述

步骤1 收集训练样本数据和测试样本数据，确定特征向量个数以及判别种类。

步骤2 构建物元模型，确定初始连接权值，模型如下

其中，ci（i＝1，2，…，n）表示某一类别的第i个特征值，﹤wL，wU﹥表示第i个特征值的经典域，由样本数据的最大值和最小值表示。

步骤3 设置每一个类别中每个特征值的初始中心点及误差范围Er。即

其中M为总样本数，Nr为一个学习过程中错误分类个数。

步骤4 输入训练样本i与所对应的类别p。计算第i个样本与每个类中心的可拓距离

其中EDik表示样本i到k类的距离，确定k～，使得Min｛EDik｝。

步骤5 当k～＝p时，转到步骤4判断下一个训练样本的类别；否则先对第k～类和第p类的类中心和权值进行相应的调整，然后再转到步骤4，直到所有样本训练完成后结束。

步骤6 若一个学习过程的总误差值小于既定误差Er，则结束；否则转到步骤4，进行下一轮训练。

2 实例仿真

目前，根据空气污染特点和污染防治工作的重点，我国城市污染监测项目主要有3个，包括SO2、NO2和可吸入颗粒物PM10。空气污染等级根据污染浓度不同可分为:优、良、轻度污染、中度污染、中度重污染和严重污染。本文将北京市海淀区、朝阳区、丰台区等12个区的158个历史数据作为样本进行训练，最终通过构建好的网络获得未知空气质量级别，达到空气质量评估的目的。

2.1 数据处理

由于获得的样本可能存有奇异样本数据，所谓奇异样本数据是指相对于其他输入样本特别大或特别小的样本矢量。奇异样本存在会引起网络训练时间增加，并可能引起网络无法收敛。因此在训练之前需对训练数据及测试数据进行归一化处理。本文采用式（4）最大最小值法将样本数据归一化到［0，1］范围内。表1为部分训练数据

表1 训练样本数据

2.2 网络训练

物元作为可拓学的逻辑细胞之一，能够清晰的描述事物各项指标之间的关系和变化，包括物、特征和量值3个内容。建立以物om为对象，cn为特征，vn为量值的物元Mm＝（Om，Cn，Vn）。即是将质与量的相应特征分别统一在一个三元组中，可以形式化描述事物的关系。针对大气污染评估问题，om（m＝1，2，…，6）代表6种不同的污染级别，cn（n＝1，2，3）为主要影响因子，包括SO2、NO2和可吸入颗粒物PM10。vn表示样本中不同类别不同影响因子下的区间范围。

大气污染评估的物元模型，见表2。

由物元模型得到初始连接权值，确定特征向量个数、判别种类及模型参数，最后输入样本数据进行训练。图4是一个用matlab搭建的测试软件，界面包含模型参数说明及测试结果显示。设置如下:最大训练次数为500，训练精度为0.02，训练速度为0.03，这里的训练速度为最小训练速度ηmin，最大训练速度ηmax内置为0.09。内部函数通过调整类中心位置和权值大小建立ENN网络，网络性能在不断调整各参数下达到最优。由图5可以看出，错误率在训练初期急速下降，在第8步就达到0.1的精度。最后通过不断微调达到0.02的训练精度。

表2 大气污染评估的物元模型

将北京市2012年10月－12月的284组实测数据作为测试样本，预测结果显示昌平区、延庆县、怀柔区和密云县均达到国家二级标准。与实际结果进行对比，正确率可达到98%，基本达到准确评估的要求。当训练样本数据足够大时，预测结果欲将达到100%准确。图4右边部分为以北京市12区为例的测试结果。

图4 基于可拓神经网络的评估测试结果

图5 总错误率变化曲线

2.3 比较分析

对于城市大气污染预报问题，最常用的智能算法［9，10］是BP神经网络（back－propagation network）算法，即反向传播网络。BP网络是目前研究最多、应用最广泛的网络，学习规则是梯度下降法。其自身的缺陷和不足也是比较突出的，主要表现在:易陷入局部最小值、训练时间长、对参数选择敏感等。而可拓神经网络与BP网络相比又有其独特的优势，包括网络结构简单，待测参数少以及容错度高等。本文用到的双权连接网络，针对特征值在一个有限范围之内的问题特别有效。该网络结构简单，权值的意义清晰明了，网络设计容易。与BP网络结果对比，见表3。

表3 BP网络与ENN网络的对比

3 结束语

可拓学是以矛盾问题为研究对象，以可拓方法为主要研究方法的一门新兴学科。通过研究基于变换的动态集合论，使矛盾问题转化为不矛盾问题。但可拓系统缺乏自学习、并行处理能力以及自适应能力，而这正是神经网络自身独有的特质。将二者结合起来可以更加智能、有效的处理矛盾问题。本文将可拓学的物元概念用于描述大气污染评价指标的构建过程，以可拓距离作为待测物体的评价函数，仿真实例验证了可拓神经网络对大气进行评估预测的有效性和可行性。由于其网络结构的优越性，可以广泛用于各门学科和工程技术领域，为处理区间分类、聚类、识别问题提供了新思路和方法。

［1］GUO Qingchun，HE Zhenfang，LI Li.The neural network of Xi'an air pollution prediction［J］.Science in Henan，2011，29（7）:863－867（in Chinese）.［郭庆春，何振芳，李力.西安市空气污染指数的神经网络预测模型［J］.河南科学，2011，29（7）:863－867.］

［2］QING Yiwei，YANG Lin.Application of artificial neural network to forecast air pollution index［J］.Journal of Qinghai University（Natural Science Edition），2008，26（4）:25－31（in Chinese）.［庆易微，杨林.应用人工神经网络法预报空气污染指数［J］.青海大学学报（自然科学版），2008，26（4）:25－31.］

［3］HAN Bo，HUANG Xiongwei.Neural network model in the application of passengers daily air pollution index calculation［J］.Chinese Journal of Environmental Management Cadre Institute，2012，22（3）:55－69（in Chinese）.［韩波，黄雄巍.神经网络模型在北海市空气日报污染指数计算中的应用［J］.中国环境管理干部学院学报，2012，22（3）:55－69.］

［4］ZHANG Hongfei，LIU Zhibin，DONG Xin.Atmospheric environmental quality assessment analysis and matter－element extension instance validation［J］.Journal of Energy and the Environment，2008（6）:63－64（in Chinese）.［张鸿飞，刘志斌，董欣.大气环境质量物元可拓评价分析和实例验证［J］.能源与环境，2008（6）:63－64.］

［5］GUO Shaoying，ZHANG Jiangshan，ZHENG Yuyi.Set pair analysis method in the application of atmospheric environmental quality assessment［J］.Journal of Environmental Engineering，2009，27（4）:113－116（in Chinese）.［郭绍英，张江山，郑育毅.集对分析法在大气环境质量评价中的应用［J］.环境工程，2009，27（4）:113－116.］

［6］ZHAO Mingfu，LIAO Qiang，LI Wenjie，et al.Extension neural network fusion technology in the application of biological waste gas detection［J］.Journal of Southwest Agricultural University（Natural Science Edition），2006，28（5）:863－867（in Chinese）.［赵明富，廖强，李文杰，等.神经网络可拓融合技术在生物废气检测中的应用［J］.西南农业大学学报（自然科学版），2006，28（5）:863－867.］

［7］YANG Guowei，WANG Shoujue.Extension identification model and the neural network model［J］.Journal of Harbin Institute of Technology，2006，38（7）:1129－1132（in Chinese）.［杨国为，王守觉.模式可拓识别及其神经网络模型［J］.哈尔滨工业大学学报，2006，38（7）:1129－1132.］

［8］ZHOU Yu，QIAN Xu.Extension neural network research review［J］.Journal of Computer Applications，2010，27（1）:1－5（in Chinese）.［周玉，钱旭.可拓神经网络研究综述［J］.计算机应用研究，2010，27（1）:1－5.］

［9］BAI Xiaoping，LI Hong，ZHANG Qiming，et al.Artificial neural network in the research development of air pollution forecast［J］.Science ＆Technology Review，2006，24（12）:77－81（in Chinese）.［白晓平，李红，张启明，等.人工神经网络在空气污染预报中的研究进展［J］.科技导报，2006，24（12）:77－81.］

［10］GUO Qingchun，HE Zhenfang，KOU Liqun，et al.The BP neural network application in the Beijing API forecast［J］.Journal of Environmental Engineering，2011，29（4）:106－108（in Chinese）.［郭庆春，何振芳，寇立群，等.BP神经网络在北京市API预报中的应用［J］.环境工程，2011，29（4）:106－108.］

［11］XU Yang，WAN Li，LI Yan，et al.Shandong provincial urban air automatic monitoring network monitoring and management information system［J］.Chinese Journal of Environmental Management Cadre Institute，2011，21（6）:65－68（in Chinese）.［许杨，万黎，李彦，等.山东省辖城市空气自动监测网运行监控及信息管理系统［J］.中国环境管理干部学院学报，2011，21（6）:65－68.］

［12］WANG M H.Extension neural network type－3［M］.Berlin:Springer－Verlag，2005:503－508.

［13］YE Jun.Application of extension theory in misfire fault diagnosis of gasoline engines［J］.Expert Systems with Applications，2009，36（2）:1217－1221.