APP下载

基于SVM的畜禽舍废气监测缺失数据恢复

2015-09-10刘金明谢秋菊刘浩然

江苏农业科学 2015年8期
关键词:数据恢复支持向量机遗传算法

刘金明 谢秋菊 刘浩然

摘要: 针对畜禽舍内废气浓度监测过程中因传感器故障造成部分数据缺失的问题,提出一种基于支持向量机的缺失数据恢复方法。该方法综合考虑畜禽舍内废气浓度对应的时间、空间和环境等多种影响因素,建立支持向量机回归模型对缺失的监测数据进行恢复性估算;为了获得更好的估算结果,使用量子遗传算法结合标准遗传算法对回归模型的参数进行优化。以氨气浓度为例,用某养殖场3 d的监测数据测试该方法,缺失数据估算的最大相对误差为604%,平均相对误差为1 94%,可见估算值与实际监测值的误差很小。测试结果表明,本研究提出的方法可以有效地对缺失性数据进行恢复,为畜禽舍废气监测提供可行的数据恢复方法。

关键词: 遗传算法;量子遗传算法;支持向量机;废气监测;数据恢复

中图分类号: TP274 文献标志码: A

文章编号:1002-1302(2015)08-0421-03

伴随着畜禽养殖的规模化发展,畜禽饲养过程中产生的各种有害气体,不仅直接影响工作人员和邻近居民的身体健康,还对畜禽本身的健康生长和食品安全产生重大影响 [1]。因此,在畜禽舍内安装多种有害气体浓度检测传感器,实时监测相应的废气浓度,进而精确计算废气的排放量,对分析各种有害气体的排放规律和影响因素 [2],进而采取有效措施控制和处理有害气体具有重要意义。然而,畜禽舍内的复杂环境可能导致传感器损坏,进而造成监测数据缺失 [3]。为了保证监测数据的完整性,须要对缺失的废气浓度监测数据进行恢复。但畜禽舍内的废气浓度与时间、空间和环境等多种因素相关,各因素之间存在相互作用,是复杂的非线性系统,使用线性插值法进行缺失数据恢复误差较大。朱伟兴等提出使用神经网络进行废气监测缺失数据处理,并取得了较好的估算结果 [4-5];但神经网络存在局部极小值问题,容易出现过学习,且结构和类型的选择过分依赖经验。支持向量机(support vector machine,SVM)是基于小样本统计学习理论和结构风险最小化原则的机器学习方法,具有良好的泛化能力,解决了神经网络的不足,能够有效地处理各种非线性问题,广泛用于各种回归预测问题的求解 [6-7]。SVM相关参数的选取直接关系到SVM的预测精度,相关学者提出使用粒子群算法(particle swarm optimization,PSO)、遗传算法(genetic algorithm,GA)等智能算法 [8-9]对SVM的参数进行优化。其中,GA具有很强的鲁棒性和全局优化搜索能力,适合复杂优化问题的求解,但其存在早熟问题。因此,本研究将量子遗传算法(quantum genetic algorithm,QGA)与标准GA相结合构建混合遗传算法(hybrid genetic algorithm,HGA),并利用HGA对SVM回归模型的参数进行优化,提出一种基于 HGA-SVM 预测模型的畜禽舍废气监测缺失数据恢复方法。

1 材料与方法

1 1 SVM回归模型理论

SVM回归的目标就是要寻求函数f(x),使其在训练后能够通过样本以外的自变量x预测对应的因变量,即寻求回归函数:

f(x)=([WTHX]w[WTBX]Tx)+b。 (1)

式中:[WTHX]w[WTBX]为权重;b为阈值。所求的回归函数 f(x) 是使下面的目标函数最小:

g(x)=min[JB((][SX(]1[]2[SX)]|[WTHX]w[WTBX]|2+c·Remp[JB))]。 (2)

式中:c为惩罚因子;Remp为训练误差。

SVM非线性回归的基本思想是利用非线性变换将原问题映射到高维特征空间的线性问题上,并在该空间中进行线性回归,而这种非线性变换是通过定义适当的内积函数实现的。在高维特征空间中,线性问题中的内积运算可以用核函数代替,常用的核函数有线性核函数、多项式核函数、径向基(radial basis function,RBF)核函数、Sigmoid核函数等。由文献[10]可知,在求解非线性多因素预测问题时,RBF核函数SVM回归模型的预测精度最高。最常用的RBF核函数是高斯核函数,其计算公式如下:

K(u,v)=exp(-γ|u-v|2)。 (3)

式中:r=[SX(]1[]2σ2[SX)];u为空间内任一点;v为中心点;σ为宽度参数。

本研究应用LibSVM工具箱设计并实现缺失数据SVM预测模型,采用的SVM类型为epsilon支持向量回归机(epsilon-support vector regression,epsilon-SVR),采用的核函数为RBF高斯核函数,待优化参数包括惩罚参数c、核函数参数γ和不敏感损失函数参数ε。

1 2 HGA优化SVM回归模型参数

利用HGA对SVM进行参数寻优时,HGA由QGA和GA两部分构成。其中,QGA部分负责种群初始化及扰动解集的生成,GA部分完成种群的标准遗传进化。HGA通过扰动解集来扩展种群的多样性,有效避免早熟收敛。

1 2 1 HGA编码及种群初始化 HGA初始解集的编码方式采用多量子比特编码,将SVM的3个参数c、γ和ε编码为染色体的3个基因,每个基因对应k位量子比特,具体结构如下:

[WTHX]P[WTBX]=[JB<2[][JB(]α11β11[JB)][JB>2|][JB(]……[JB)][JB<2|][JB(]α1kβ1k[JB)][JB>2|][JB(]α21β21[JB)][JB<2|][JB(]……[JB)][JB>2|][JB(]α2kβ2k[JB)][JB<2|][JB(]α31β31[JB)][JB>2|][JB(]……[JB)][JB<2|][JB(]α3kβ3k[JB)][JB>2]]。 (4)endprint

式中:(αmn,βmn)为量子态的概率幅,且|αmn|2+|βmn|2=1,m=1,2,3,n=1,2,…,k。种群初始化时,设(αmn,βmn)为(1/[KF(]2[KF)],1/[KF(]2[KF)])即可。

在进化过程中,QGA的编码方式依然采用多量子比特编码,QGA的初始种群直接采用HGA的初始种群。而GA的编码方式采用二进制实数编码,GA的初始种群由HGA的初始种群经过1次量子概率塌陷获得。

1 2 2 HGA适应度函数设计

采用K折交叉验证结合HGA对SVM参数进行优化时,为使预测值与实际值的误差尽量小,可直接把K折交叉验证的均方误差(mean squared error,MSE)作为HGA的目标函数。显然,目标函数值越小,模型的预测精度越高。直接采用HGA的目标函数作为QGA的适应度函数,通过遗传算法工具箱中内置的ranking()函数对HGA的目标函数进行处理后,可获得GA的适应度函数。

1 2 3 HGA遗传进化设计

HGA的遗传进化包括QGA的量子遗传进化和GA的遗传进化2部分。QGA的量子遗传进化采用文献[11]中介绍的量子旋转门更新策略,保证QGA种群向MSE最小化方向进化,进而可在QGA的每一代种群中选取部分优良个体构成扰动解集。GA的遗传进化包括选择、交叉和变异3种操作,其选择操作采用结合最优保留策略的随机遍历抽样方法,交叉操作采用单点交叉,变异操作采用多位变异。

综上所述,给出使用HGA对SVM回归模型进行参数优化的具体步骤:步骤1,产生popSize个以量子比特编码的染色体,作为QGA的初始种群,并进行量子概率塌陷获得GA的二进制初始种群。步骤2,对GA种群中的二进制染色体进行实数解码,得到参数c、γ和ε的值,并结合K折交叉验证计算目标函数MSE和相应适应度函数,基于适应度函数以GGAP为代沟进行遗传进化生成GGAP×popSize个新个体;再将生成的新个体以基于适应度选择的方式逐一替代原种群中适应度最小的个体,生成新一代种群。步骤3,对QGA种群进行概率塌陷和实数解码后,计算目标函数MSE,在塌陷后的QGA二进制种群中选出(1-GGAP)×popSize个优良个体形成扰动解集,并采用步骤2中介绍的方式,将扰动解集加入到GA种群中;然后再对QGA种群进行基于目标函数的量子遗传进化生成新的QGA种群。步骤4,若满足结束条件则退出;否则转到步骤2,继续进行参数优化。

1 3 SVM缺失数据预测模型

综合考虑影响畜禽舍废气浓度的时间、空间和环境等因素,建立SVM多输入单输出预测模型,对某一时刻的缺失监测数据进行恢复。多个输入包括:缺失数据前一采样时刻的废气浓度监测值,相邻采样点的废气浓度变化量,缺失数据采样点处对应的环境温度、相对湿度和风速监测值;单一输出为缺失数据采样点的废气浓度估算值。在使用参数寻优及训练后的预测模型进行缺失数据恢复时,要由前一采样时刻的估算值结合当前时刻的其他输入参数对当前时刻的废气浓度值进行估算,这是一个典型的时间序列预测问题。

2 试验仿真及分析

本研究以文献[12]中某养殖场连续监测3 d的氨气浓度相关数据为例,对提出的缺失数据恢复方法进行评测。监测数据采样1次/h,3 d共计72组数据样本,以前48个样本作为训练集,后24个样本作为测试集。运用K折交叉验证结合HGA对SVM回归模型进行参数寻优时,相关参数设定包括:种群规模popSize为20,基因长度k为20,遗传代数为50,代沟GGAP为0 9,参数c、γ和ε的寻优范围分别是[0,100]、[0,100]和[0 001,1],交叉概率为07,变异概率为0 7/Lind(Lind=60,为染色体码长),采用5折交叉验证。通过多次测 试得到最佳预测模型对应的SVM参数寻优结果:c为33784 5, γ为0 039 6,ε为0 023 5; 对应的均方误差MSE为0 001 3。参数寻优的进化过程如图1所示。

由图1可知,与GA相比,HGA在进化前期的平均目标函数值较小,而进化后期的平均目标函数值却比较大,且收敛速度较快。原因在于QGA生成的扰动解集由优良染色体组成,进化前期可有效加快收敛速度;同时,扰动解集由量子概率塌陷而来,具有一定的不确定性,进化后期又能在一定程度上拓展种群的多样性,避免早熟收敛。

采用训练好的预测模型对测试集进行测试验证时,针对这个时间序列预测问题,没有采用MSE作为评价标准,而是采用相对误差对预测结果进行评价。通过多次测试,得到最佳预测模型对应的测试集回归拟合结果:最大相对误差为604%,最小相对误差为0 07%,平均相对误差为1 94%。测试集回归拟合结果如图2所示。

为了评价HGA-SVM预测模型在缺失数据恢复方面的优越性,本研究将其与文献[12]中的BP神经网络方法、网格搜索参数寻优SVM方法(简称网格-SVM)、粒子群算法参数寻优SVM方法(简称PSO-SVM)和遗传算法参数寻优SVM方法(简称GA-SVM)进行对比。在Win7 64位系统下,使用Matlab R2012b和LibSVM-3 1工具箱对各预测模型进行评测。硬件设备中CPU为AMD Athlon(tm) X4 730,内存容量为4 GB。不同预测模型的效率和性能对比结果如表1所示。

由表1可知,4种SVM预测模型的执行时间明显少于BP神经网络方法,虽然HGA-SVM模型的执行时间稍高于 GA-SVM 模型,最大相对误差稍高于BP神经网络方法和PSO-SVM模型,最小相对误差稍高于网格-SVM模型和PSO-SVM模型,但其平均相对误差最小,实现了效率和性能

3 结论

通过综合考虑畜禽舍内的废气浓度与时间、空间和环境等多种因素的关系,将QGA与GA相结合构建HGA优化SVM回归模型的参数,建立HGA-SVM预测模型,对废气监测缺失数据进行有效的恢复性估算。仿真结果表明,该方法既增强了传感器之间的数据互补性,又提高了监测系统的可靠性,为较准确地计量畜禽养殖场某一段时间内连续排放的废气总量、分析畜禽舍内废气排放规律提供可靠的依据,进而可以采取有效的措施对畜禽舍排放的有害气体进行控制和处理。endprint

参考文献:

[1] 田爱军,吴云波,邢雅囡,等 江苏省畜禽养殖污染特征及成因分析[J] 江苏农业科学,2013,41(10):337-339

[2]Guo H,Dehod W,Agnew J,et al Daytime odor emission variations from various swine barns[J] Transactions of the ASABE,2007,50(4):1365-1372

[3]Jacobson L D,Hetchler B P,Schmidt D R,et al Quality assured measurements of animal building emissions:odor concentrations[J] Journal of the Air & Waste Management Association,2008,58(6):806-811

[4]朱伟兴,李 丽,庞 敏 基于神经网络的数据融合在废气测量中的应用[J] 中国安全科学学报,2007,17(6):162-165

[5]黄建清,朱伟兴,李 丽 BP神经网络在废气测量中的应用[J] 农机化研究,2009,31(4):191-195

[6]都平平 基于支持向量机的综合地质环境评价研究[J] 采矿与安全工程学报,2012,29(4):555-558

[7]戴 栋,黄筱婷,代 州,等 基于支持向量机的输电线路覆冰回归模型[J] 高电压技术,2013,39(11):2822-2828

[8]刘 伟,王建平,刘长虹,等 基于粒子群寻优的支持向量机番茄红素含量预测[J] 农业机械学报,2012,43(4):143-147,155

[9]陈伟根,滕 黎,刘 军,等 基于遗传优化支持向量机的变压器绕组热点温度预测模型[J] 电工技术学报,2014,29(1):44-51

[10] 王 霞,王占岐,金 贵,等 基于核函数支持向量回归机的耕地面积预测[J] 农业工程学报,2014,30(4):204-211

[11]吴 朋,林 涛 基于QGA-SVM的铠装热电偶传感器辨识建模研究[J] 仪器仪表学报,2014,35(2):343-349

[12]黄建清 具有缺失数据恢复性估算的畜禽养殖场有害物质数据处理系统设计[D] 镇江:江苏大学,2009:59-60endprint

猜你喜欢

数据恢复支持向量机遗传算法
基于自适应遗传算法的CSAMT一维反演
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于遗传算法和LS-SVM的财务危机预测
基于支持向量机的金融数据分析研究
基于改进的遗传算法的模糊聚类算法