APP下载

SVM算法应用于大气污染时间序列预测

2014-07-24倪振威宋道柱朱成龙王强李洁

新媒体研究 2014年8期
关键词:预测

倪振威 宋道柱 朱成龙 王强 李洁

摘 要 支持向量机(SVM)的在大气污染预测中显示出良好的非线性回归预测性能,本文通过建立基于该算法的时间序列模型,通过选取最优超平面,利用RBF核函数来解决在大气预测中线性不可分的问题。并取得了很高的预测精度结果,为大气回归预测方面的问题研究提供了一种崭新的思路。

关键词 向量机;RBF核函数;预测

中图分类号:TP18 文献标识码:A 文章编号:1671-7597(2014)08-0050-02

SVM algorithm is applied to time series prediction of atmospheric pollution

Ni Zhen-wei1;Song Dao-zhu2;Zhu Cheng-long3;Wang Qiang1;Li Jie4

(1Xuzhou Institute of Environmental Engineering Jiangsu Xuzhou 221111;2 Xuzhou Institute of Mechanical and Electrical Engineering Jiangsu Xuzhou 221111;3 Xuzhou Institute of Information and Electrical Engineering College Jiangsu Xuzhou 221111;4 Xuzhou Institute of Humanities Jiangsu Xuzhou 221111)

Abstact: Support Vector Machines () in air pollution forecasting nonlinear regression showed good predictive performance, this paper established time series model based on the algorithm, by selecting optimal hyperplane, the use of nuclear functions to solve linear prediction in the atmosphere can not be separated problems. And achieved a high prediction accuracy results for the atmospheric research questions regression prediction provides a new way of thinking.

Key Words: Vector machines; kernel function; forecast

随着城市经济的快速增长,工业化的进程日益加快。近几十年来,大气污染问题愈演愈烈,提高空气质量,建立合理精确的预测模型是目前大气污染预测的基础。美国环保局(EPA)在进行大气质量预测与评估时,主要用到了扩散模型与箱式模型,此外神经网络统计模型能更为完善地模拟大气污染因素的非线性关系,在大气污染预测时取得了较好结过果。然而以上的模型或很难模拟复杂多变的大气系统,或具有推广能力差,过拟合等缺点。

支持向量机是由Vapnik实验小组于1995年提出的一种新一代的机器学习技术,使用的是数学方法和优化技术[1,2],它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预测样本的“转导推理”,大大简化了通常的分类和回归等问题。成功应用于分类、回归和时间序列预测等领域。本文主要讨论基于支持向量机(SVM)算法在时间序列预测大气污染中的问题研究。

1 基于支持向量机的时间序列预测模型

利用SVM进行回归与预测的基本思想是:通过非线性映射将数据映射到高维特征空间Ω中,并在该特征空间进行线性

回归[1]。

1.1 最优超平面

首先考虑两个类别的分类问题,数据点用x来表示,这是一个n维向量;类别用y来表示,则超平面方程表示为:

圆点和方点代表两类样本,H为分类线,H1,H2分别为过各类中离分类线最近的样本且平行于分类线的直线,它们之间的距离称为分类间隔,推广到高维空间,最优分类线就变为最优分类面。

1.2 拉格朗日函数和对偶变量

将问题转化为一个二次目标函数,约束条件为线性,即:

(表示w的二阶范数)

在一定的约束条件下,目标最优,损失最小。通过拉格朗日二元变换到对偶变量的函数,这样的优点在于:对偶问题往往更容易求解并且可以自然的引入核函数,进而推广到非线性问题。回归分析问题将最终转化为以下优化问题[3]:

1.3 核函数及参数的选择

由于大气污染的回归与预测是高度非线性的,于是在上述基础上,对于非线性的情况,选择一个核函数,通过核函数将数据映射到高维空间,来解决在原始空间中线性不可分的问题。另一方面,核函数反映了训练数据样本的特性,对于系统的泛化能力影响较大,选择哪种核函数进行预测很重要[4]。

在支持向量机中使用的核函数主要有四类:线性核函数、多项式核函数、RBF核函数、Sigmoid核函数。RBF核函数[3]的均方根误差最小,因此本文在大气污染预测时选取该核函数。下图1所示的例子便是把低维线性不可分的数据通过高斯核函数映射到了高维空间。

图1 多维图形

2 预测实验

根据04年4月全月武汉气象资料SO2浓度值的数据进行试验[4]。每组数据包括7个输入因子和一个浓度实际值,采用最小信息预报准则评价模型的预测误差,以当误差最小来确定m,我们将前月年15组数据作为训练数据,后15组作为测试数据,利用SVM回归预测算法,将RBF作为核函数,确定训练误差e=0.001,通过MATLAB编程作图分析,最后即得到污染平均浓度的时间序列数据,如图3所示。

图2 逐日SO2图形

分析图2可知,SO2误差的来源主要收到环境空气状况的影响,一般一旦有风雨天,其衰减幅度加大,误差加大。实测值与预测值相对误差除个别突变点外,大部分在15%左右。

3 结论

1)建立了支持向量机时间序列预测大气模型并给出了SO2预测浓度与实际浓度的对比折线图。2)支持向量机的RBF核函数具有均方误差小、高度可分离性等优点,能很好的步骤大气污染物浓度之间的非线性关系,为大气的预测模型提高了精度。3)目前支持向量机时间序列对大气污染的预测尚处于探索阶段,本文也只作出了粗略的探讨,对于该方面的研究仍需进一步改进。

参考文献

[1]白鹏,张斌,等.支持向量机理论及工程应用实例[M].西安电子科技大出版社,2008.

[2]冯汉中,陈永义.支持向量机在天气预报中的应用[J].应用气象学报,2004(15).

[3]赵莹.支持向量机中高斯核函数的研究[J].华东师范大学,2007.

[4]胡基福.气象统计学原理与方法[M].青岛海洋大学出版社,1996.

作者简介

倪振威(1993-),男,江苏苏州人,本科,研究方向:水质修复处理技术。endprint

摘 要 支持向量机(SVM)的在大气污染预测中显示出良好的非线性回归预测性能,本文通过建立基于该算法的时间序列模型,通过选取最优超平面,利用RBF核函数来解决在大气预测中线性不可分的问题。并取得了很高的预测精度结果,为大气回归预测方面的问题研究提供了一种崭新的思路。

关键词 向量机;RBF核函数;预测

中图分类号:TP18 文献标识码:A 文章编号:1671-7597(2014)08-0050-02

SVM algorithm is applied to time series prediction of atmospheric pollution

Ni Zhen-wei1;Song Dao-zhu2;Zhu Cheng-long3;Wang Qiang1;Li Jie4

(1Xuzhou Institute of Environmental Engineering Jiangsu Xuzhou 221111;2 Xuzhou Institute of Mechanical and Electrical Engineering Jiangsu Xuzhou 221111;3 Xuzhou Institute of Information and Electrical Engineering College Jiangsu Xuzhou 221111;4 Xuzhou Institute of Humanities Jiangsu Xuzhou 221111)

Abstact: Support Vector Machines () in air pollution forecasting nonlinear regression showed good predictive performance, this paper established time series model based on the algorithm, by selecting optimal hyperplane, the use of nuclear functions to solve linear prediction in the atmosphere can not be separated problems. And achieved a high prediction accuracy results for the atmospheric research questions regression prediction provides a new way of thinking.

Key Words: Vector machines; kernel function; forecast

随着城市经济的快速增长,工业化的进程日益加快。近几十年来,大气污染问题愈演愈烈,提高空气质量,建立合理精确的预测模型是目前大气污染预测的基础。美国环保局(EPA)在进行大气质量预测与评估时,主要用到了扩散模型与箱式模型,此外神经网络统计模型能更为完善地模拟大气污染因素的非线性关系,在大气污染预测时取得了较好结过果。然而以上的模型或很难模拟复杂多变的大气系统,或具有推广能力差,过拟合等缺点。

支持向量机是由Vapnik实验小组于1995年提出的一种新一代的机器学习技术,使用的是数学方法和优化技术[1,2],它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预测样本的“转导推理”,大大简化了通常的分类和回归等问题。成功应用于分类、回归和时间序列预测等领域。本文主要讨论基于支持向量机(SVM)算法在时间序列预测大气污染中的问题研究。

1 基于支持向量机的时间序列预测模型

利用SVM进行回归与预测的基本思想是:通过非线性映射将数据映射到高维特征空间Ω中,并在该特征空间进行线性

回归[1]。

1.1 最优超平面

首先考虑两个类别的分类问题,数据点用x来表示,这是一个n维向量;类别用y来表示,则超平面方程表示为:

圆点和方点代表两类样本,H为分类线,H1,H2分别为过各类中离分类线最近的样本且平行于分类线的直线,它们之间的距离称为分类间隔,推广到高维空间,最优分类线就变为最优分类面。

1.2 拉格朗日函数和对偶变量

将问题转化为一个二次目标函数,约束条件为线性,即:

(表示w的二阶范数)

在一定的约束条件下,目标最优,损失最小。通过拉格朗日二元变换到对偶变量的函数,这样的优点在于:对偶问题往往更容易求解并且可以自然的引入核函数,进而推广到非线性问题。回归分析问题将最终转化为以下优化问题[3]:

1.3 核函数及参数的选择

由于大气污染的回归与预测是高度非线性的,于是在上述基础上,对于非线性的情况,选择一个核函数,通过核函数将数据映射到高维空间,来解决在原始空间中线性不可分的问题。另一方面,核函数反映了训练数据样本的特性,对于系统的泛化能力影响较大,选择哪种核函数进行预测很重要[4]。

在支持向量机中使用的核函数主要有四类:线性核函数、多项式核函数、RBF核函数、Sigmoid核函数。RBF核函数[3]的均方根误差最小,因此本文在大气污染预测时选取该核函数。下图1所示的例子便是把低维线性不可分的数据通过高斯核函数映射到了高维空间。

图1 多维图形

2 预测实验

根据04年4月全月武汉气象资料SO2浓度值的数据进行试验[4]。每组数据包括7个输入因子和一个浓度实际值,采用最小信息预报准则评价模型的预测误差,以当误差最小来确定m,我们将前月年15组数据作为训练数据,后15组作为测试数据,利用SVM回归预测算法,将RBF作为核函数,确定训练误差e=0.001,通过MATLAB编程作图分析,最后即得到污染平均浓度的时间序列数据,如图3所示。

图2 逐日SO2图形

分析图2可知,SO2误差的来源主要收到环境空气状况的影响,一般一旦有风雨天,其衰减幅度加大,误差加大。实测值与预测值相对误差除个别突变点外,大部分在15%左右。

3 结论

1)建立了支持向量机时间序列预测大气模型并给出了SO2预测浓度与实际浓度的对比折线图。2)支持向量机的RBF核函数具有均方误差小、高度可分离性等优点,能很好的步骤大气污染物浓度之间的非线性关系,为大气的预测模型提高了精度。3)目前支持向量机时间序列对大气污染的预测尚处于探索阶段,本文也只作出了粗略的探讨,对于该方面的研究仍需进一步改进。

参考文献

[1]白鹏,张斌,等.支持向量机理论及工程应用实例[M].西安电子科技大出版社,2008.

[2]冯汉中,陈永义.支持向量机在天气预报中的应用[J].应用气象学报,2004(15).

[3]赵莹.支持向量机中高斯核函数的研究[J].华东师范大学,2007.

[4]胡基福.气象统计学原理与方法[M].青岛海洋大学出版社,1996.

作者简介

倪振威(1993-),男,江苏苏州人,本科,研究方向:水质修复处理技术。endprint

摘 要 支持向量机(SVM)的在大气污染预测中显示出良好的非线性回归预测性能,本文通过建立基于该算法的时间序列模型,通过选取最优超平面,利用RBF核函数来解决在大气预测中线性不可分的问题。并取得了很高的预测精度结果,为大气回归预测方面的问题研究提供了一种崭新的思路。

关键词 向量机;RBF核函数;预测

中图分类号:TP18 文献标识码:A 文章编号:1671-7597(2014)08-0050-02

SVM algorithm is applied to time series prediction of atmospheric pollution

Ni Zhen-wei1;Song Dao-zhu2;Zhu Cheng-long3;Wang Qiang1;Li Jie4

(1Xuzhou Institute of Environmental Engineering Jiangsu Xuzhou 221111;2 Xuzhou Institute of Mechanical and Electrical Engineering Jiangsu Xuzhou 221111;3 Xuzhou Institute of Information and Electrical Engineering College Jiangsu Xuzhou 221111;4 Xuzhou Institute of Humanities Jiangsu Xuzhou 221111)

Abstact: Support Vector Machines () in air pollution forecasting nonlinear regression showed good predictive performance, this paper established time series model based on the algorithm, by selecting optimal hyperplane, the use of nuclear functions to solve linear prediction in the atmosphere can not be separated problems. And achieved a high prediction accuracy results for the atmospheric research questions regression prediction provides a new way of thinking.

Key Words: Vector machines; kernel function; forecast

随着城市经济的快速增长,工业化的进程日益加快。近几十年来,大气污染问题愈演愈烈,提高空气质量,建立合理精确的预测模型是目前大气污染预测的基础。美国环保局(EPA)在进行大气质量预测与评估时,主要用到了扩散模型与箱式模型,此外神经网络统计模型能更为完善地模拟大气污染因素的非线性关系,在大气污染预测时取得了较好结过果。然而以上的模型或很难模拟复杂多变的大气系统,或具有推广能力差,过拟合等缺点。

支持向量机是由Vapnik实验小组于1995年提出的一种新一代的机器学习技术,使用的是数学方法和优化技术[1,2],它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预测样本的“转导推理”,大大简化了通常的分类和回归等问题。成功应用于分类、回归和时间序列预测等领域。本文主要讨论基于支持向量机(SVM)算法在时间序列预测大气污染中的问题研究。

1 基于支持向量机的时间序列预测模型

利用SVM进行回归与预测的基本思想是:通过非线性映射将数据映射到高维特征空间Ω中,并在该特征空间进行线性

回归[1]。

1.1 最优超平面

首先考虑两个类别的分类问题,数据点用x来表示,这是一个n维向量;类别用y来表示,则超平面方程表示为:

圆点和方点代表两类样本,H为分类线,H1,H2分别为过各类中离分类线最近的样本且平行于分类线的直线,它们之间的距离称为分类间隔,推广到高维空间,最优分类线就变为最优分类面。

1.2 拉格朗日函数和对偶变量

将问题转化为一个二次目标函数,约束条件为线性,即:

(表示w的二阶范数)

在一定的约束条件下,目标最优,损失最小。通过拉格朗日二元变换到对偶变量的函数,这样的优点在于:对偶问题往往更容易求解并且可以自然的引入核函数,进而推广到非线性问题。回归分析问题将最终转化为以下优化问题[3]:

1.3 核函数及参数的选择

由于大气污染的回归与预测是高度非线性的,于是在上述基础上,对于非线性的情况,选择一个核函数,通过核函数将数据映射到高维空间,来解决在原始空间中线性不可分的问题。另一方面,核函数反映了训练数据样本的特性,对于系统的泛化能力影响较大,选择哪种核函数进行预测很重要[4]。

在支持向量机中使用的核函数主要有四类:线性核函数、多项式核函数、RBF核函数、Sigmoid核函数。RBF核函数[3]的均方根误差最小,因此本文在大气污染预测时选取该核函数。下图1所示的例子便是把低维线性不可分的数据通过高斯核函数映射到了高维空间。

图1 多维图形

2 预测实验

根据04年4月全月武汉气象资料SO2浓度值的数据进行试验[4]。每组数据包括7个输入因子和一个浓度实际值,采用最小信息预报准则评价模型的预测误差,以当误差最小来确定m,我们将前月年15组数据作为训练数据,后15组作为测试数据,利用SVM回归预测算法,将RBF作为核函数,确定训练误差e=0.001,通过MATLAB编程作图分析,最后即得到污染平均浓度的时间序列数据,如图3所示。

图2 逐日SO2图形

分析图2可知,SO2误差的来源主要收到环境空气状况的影响,一般一旦有风雨天,其衰减幅度加大,误差加大。实测值与预测值相对误差除个别突变点外,大部分在15%左右。

3 结论

1)建立了支持向量机时间序列预测大气模型并给出了SO2预测浓度与实际浓度的对比折线图。2)支持向量机的RBF核函数具有均方误差小、高度可分离性等优点,能很好的步骤大气污染物浓度之间的非线性关系,为大气的预测模型提高了精度。3)目前支持向量机时间序列对大气污染的预测尚处于探索阶段,本文也只作出了粗略的探讨,对于该方面的研究仍需进一步改进。

参考文献

[1]白鹏,张斌,等.支持向量机理论及工程应用实例[M].西安电子科技大出版社,2008.

[2]冯汉中,陈永义.支持向量机在天气预报中的应用[J].应用气象学报,2004(15).

[3]赵莹.支持向量机中高斯核函数的研究[J].华东师范大学,2007.

[4]胡基福.气象统计学原理与方法[M].青岛海洋大学出版社,1996.

作者简介

倪振威(1993-),男,江苏苏州人,本科,研究方向:水质修复处理技术。endprint

猜你喜欢

预测
选修2—2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
选修2—2期中考试预测卷(A卷)答案与提示
选修2—2期中考试预测卷(B卷)答案与提示
“预测”得准
2017年高考选修考点预测
2017年高考三角热点考向预测
电力系统短期负荷预测方法与预测精度
《福彩3D中奖公式》:提前一月预测号码的惊人技巧!
预测高考