APP下载

聚类再回归方法在机场噪声时间序列预测中的应用

2014-07-25王建东王丽娜

数据采集与处理 2014年1期
关键词:方根聚类向量

夏 利 王建东 张 霞 王丽娜

(南京航空航天大学计算机科学与技术学院,南京,210016)

引 言

机场噪声的问题随着我国民航事业的发展而日渐严重,目前对机场噪声预测的方法比较流行是采用国际民航组织推荐的指标——计权等效连续感觉噪声级绘制噪声等值线方式和以飞机的噪声距离曲线为核心,用一定的数学模型将其修正至与具体机场环境条件相关的噪声传播模型,存在预测成本高和误差较大等缺点。

文献[1]提出了一种基于SVM的先分类再回归计算方法,经验证,与直接回归相比,预测效果有很大改进。不过对于分类界限不明确的情况,采用先分类的方法明显有一定的局限性。针对这种情况,本文提出一种先聚类再回归的支持向量回归方法,利用聚类使结果簇内的相似度高,簇间的相似度低的优点,将测试样本限定在同一类的范围内,再对同类样本进行支持向量回归,使用机场已有的历史噪声监测数据进行机场噪声预测的计算方法。

1 基本理论

1.1 支持向量回归机

给定具有l个输入/输出的训练集T={(x1,y1),…,(xl,yl)},构造回归函数

式中:w为权重,b为偏置项。Vapnik引入了一个ε不敏感损失函数作为损失函数,将SVM推广到回归问题,提出支持向量回归,线性ε不敏感损失函数定义如下

式中|y-f(x)|ε=max{0,|y-f(x)|-ε},这里,ε是一个事先取定的一个正数。将式(2)限定在式(1)中估计回归函数,基于结构风险最小化原则,就得到了对回归问题的线性支持向量机算法,它要解决一个原始优化问题

根据 Wolfe对偶定义,并引入核函数K(x,x′)代替内积(xi,xj),式(3)转换为如下最优问题[2,3]

1.2 聚类分析

聚类是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程,由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。

大体上,主要的聚类方法可以分为几类:划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法。将它赋给最近的簇;然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。有代表性地,平方误差准则被采用,这个准则试图使生成的结果尽可能的紧凑和独立。

2 先聚类再回归算法

2.1 先聚类再回归算法建模步骤

步骤1 采用聚类分析中典型的划分方法:k均值算法,将训练集S聚类为k个簇。

步骤2 对于新输入预测样本,根据步骤1得到的聚类结果,确定样本所属类别。

(1)分别计算每一类的类中心Ci(i=1,2,…,k)。

(2)采用欧式距离计算样本到每一类的类中心Ci距离Disti(i=1,2,…,k),按到各类距离最小进行类别判定。

步骤3 根据步骤2的分类结果,对属于同一类别l的样本进行回归预测。

(1)归一化训练样本和预测样本,减小样本之间数量级的差异。

(2)对属于同一类别l的训练样本,选取Sl为训练集,利用ε-svr模型进行训练,得出训练模型。

(3)对预测样本集中属于类别l的样本(xi,yi),用上一步得到的支持向量回归模型,对yi值进行回归预测。

2.2 在常用数据集上的实验

为验证本方法的可行性和有效性,本文使用UCI数据库中的Housing数据集和The Santa Fe Time Series Competition Data中Laser generated data数据集进行实验。

由于Vapnik等人已经证明,不同核函数对SVM性能影响不大,核函数的参数和惩罚因子C是影响SVM性能对的关键因素,因此,以下ε-svr直接回归和聚类再回归所用核函数均为径向基函数(Radial basis function,RBF)。

关于SVM参数的优化选取,国际上并没有公认统一的最好的方法。目前常用的方法就是让c和g在一定的范围内取值,对于取定的c和g,把训练集作为原始数据集利用K-CV方法得到在此组c和g下训练集验证均均方根误差(Mean Square Error,MSE),最终取使得平均均方误差最小的那组c和g做为最佳的参数,但有一个问题就是可能会有多组的c和g对应于最小的平均均方根误差。

针对这一问题,本文采用的手段是选取能够达到最小的平均均方根误差中参数c最小的那组c和g做为最佳的参数,如果对应最小的c有多组g,就选取搜索到的第一组c和g做为最佳的参数。这样做的理由是:过高的c会导致过学习状态发生,即训练集平均均方根误差很小而测试集平均均方根误差较大(泛化能力降低),所以在能够达到最小的平均均方根误差中,所有的成对的c和g中认为较小的惩罚参数c是更佳的选择对象。

(1)Housing数据集

选取前490个样本为训练样本、10个为测试样本,由文献[4],按训练样本的决策属性分为5类(1~10为1类,10~15为2类,16~25为3类,26~50为4类)在聚类时采用k均值方法将样本划分为5簇,对直接回归和聚类再回归两种方法的结果进行比较,结果如表1所示。两种预测方法精度比较如表2所示。

表1 房屋价格Table 1 Housing price

表2 两种预测方法精度比较Table 2 Comparison of two methods′accuracy

本文中,RMSE为均方根误差,MAPE为平均百分误差。

(2)Laser generated data数据集

选取前507个数据,根据文献[5-6],单变量时间序列的建模方法,选择时间延时为1,嵌入维数7,对此时间序列做相空间重构Xn={xn,xn-1,…,xn-6},形成7维状态空间,以xn+1作为yn,则新的时间序列为(xi,yi)数据对(i=8,9,…,506,507),选取前490个数据对为训练集,以最后10个数据对为测试集,此处聚类数目定为2,对直接回归和聚类再回归两种方法的结果进行比较,结果如表3所示。两种预测方法精度比较如表4所示。

表3 激光数据Table 3 Laser data

表4 两种预测方法精度比较Tab.4 Comparison of two methods′accuracy

通过以上两个实验可以看出,通过先聚类再进行回归,可以利用聚类的优势,使测试样本的值通过具有较高相似的训练样本进行训练建的模型进行预测,从而使预测的精确度有明显提高。通过在一般的回归数据集Housing和时间序列数据集Laser generated data数据集上进行的对比试验,可以发现此方法对于回归问题相对于直接回归预测都具有优越性。

3 算法在机场噪声预测中的应用

3.1 数据选取

已有数据为北京某机场监测点2月至8月实测数据,数据为15个观测点每秒采集一次获得。面对大批量数据,选取2号和12号观测点,3月至6月共122天数据。由于机场噪声具有声级高、间断性等特点,所以对一段时间内的平均值进行分析计算。

本文中,取每天19:00~22:00数据,每10 min数据求平均值,组成18维输入向量X,以每天22:00~22:10分平均值作为输出值Y。对数据划分训练集和测试集如下:选择前115天数据作为训练集,以最后一个星期数据作为测试集。

3.2 建模预测

(1)用k均值算法对训练集进行聚类

由于对机场噪声一段时间内的平均值构成较大影响的主要因素包括航班数和天气等诸多因素,考虑样本数量,不推荐簇数量过大,本文采取方法为将聚类数量从2递增至5,选取使均方根误差最小的聚类数量。

(2)用ε-svr对各类分别进行回归预测

首先,对训练样本和测试样本的输入向量X进行归一化,然后,对训练集进行回归模型中惩罚因子C和核函数参数σ的寻优,再对训练集进行训练,得到支持向量回归模型,并用此模型对测试样本进行预测,求得聚类数量2~5情况下的RMSE如表5所示。

根据表5结果,最终选择聚类数量为5,计算结果如表6所示。

表5 2号观测点不同聚类数的均方误差Table 5 Prediction accuracy with different cluster number on No.2

表6 2号观测点实际噪声值和预测值 dBTable 6 True value and prediction result on No.2

ARMA模型是现代时间序列分析中最为常用的模型之一[7-8],在科学研究和工程系统中具有广泛的运用,所以本文对聚类再回归、直接支持向量回归和ARMA模型进行比较,各模型预测精度比较如表7所示。

表7 2号观测点,各模型预测精度比较Table 7 Prediction accuracy of different models on No.2

对12号观测点,不同聚类数量的RMSE如表8所示。

表8 12号观测点不同聚类数的均方误差Table 8 Prediction accuracy with different cluster number on No.12

根据表8结果,选取聚类数量为2,计算结果如表9,10所示。

表9 12号观测点实际噪声值和预测值 dBTable 9 True value and prediction result on No.12

表10 12号观测点,各模型精度比较Table 10 Prediction accuracy of different models on No.12

本文中所用公式如下

式中yi和i分别为实际值和预测值。

3.3 模型比较结果

(1)平均绝对百分误差比较。一般认为MAPE的值低于10,则预测精度较高,从表6和表8可以看出,先聚类再回归模型得到的MAPE值最小且小于10,说明模型的预测精度最高。

(2)希尔不等系数比较[9]。希尔不等系数一般介于0到1之间,数值越小表明拟合值与真实值的差异越小,即预测精度越高。从表6和表8看出,先聚类再回归模型的希尔不等系数值远远小于1,且最小,说明此模型的预测准确度最好。

(3)均方根误差比较。从表6和表8比较可以看出,先聚类再回归模型的均方根误差明显小于其他模型。

4 结束语

由于影响机场噪音的因素较多,如天气、节假日、飞机型号、飞行程序等,因此在机场噪声预测中引入聚类分析,先对样本进行聚类,再对同类别样本进行支持向量回归的算法,本文对先聚类再回归的算法进行了仿真实验,实验说明:将样本首先进行聚类分析,再利用相似样本进行回归分析,可以有效提高预测精度。再利用这一算法对北京某机场的实测数据进行预测,并通过绝对数值分析和相对数值分析,与直接支持向量回归模型以及现有预测方法进行比较,发现其常用的三种评价指标都符合标准,且小于其他模型,说明本文使用的基于SVM的先聚类再回归算法模型,预测精度最高。本文提出算法,适用场合为时间序列的单步预测,可以不断将最新样本数据加入训练模型并更新类中心点,建立动态预测模型,使模型能快速适应问题的变化,以获得更实时的预测数据。

[1]周宁.机场噪声预测与控制技术研究[D].杭州:浙江大学,2002.

Zhou Ning.Research on prediction and control tech-nology of airport noise[D].Hangzhou:Zhejiang U-niversity,2002.

[2]邓乃扬,田英杰.数据挖掘中的新方法:支持向量机[M].北京:科学出版社,2004.

Deng Naiyang,Tian Yingjie.New method in data mining:Support vector machine[M].Beijing:Science Press,2004.

[3]王海燕,卢山.非线性时间序列分析及其应用[M].北京:科学出版社,2006.

Wang Haiyan,Lu Shan.The analysis and application of nonlinear time series[M].Beijing:Science Press,2006.

[4]夏国恩,曾绍华,金炜东.支持向量回归机在铁路客运量时间序列预测中的应用[J].计算机应用研究,2006,10:180-182.

Xia Guoen,Zeng Shaohua,Jin Weidong.Application of support vector regression in prediction of railway passenger volume time serial[J].Application Research of Computers,2006,10:180-182.

[5]黄兵,郭继昌.基于Gabor小波与LBP直方图序列的人脸年龄估计[J].数据采集与处理,2012,5:340-345.

Huang Bing,Guo Jichang.Age estimation of facial images based on Gabor wavelet and histogram sequence of LBP[J].Journal of Data Acquisition and Processing,2012,5:340-345.

[6]董毅,程伟,张燕平,等.基于SVM的先分类再回归方法及其在产量预测中的应用[J].计算机应用,2010,39(9):2310-2313.

Dongyi,Chengwei,Zhang Yanping,et al.Regression method based on SVM classification and its application in production forecast[J].Journal of Computer Applications,2010,39(9):2310-2313.

[7]Chang C C,Lin C J.LIBSVM:a library for support vector machines[EB/OL].http://www.csie.ntu.edu.tw/~cjlin/libsvm,2001.

[8]Chen Bojuen,Chang Mingwei,Lin Chihjen.Load forecasting using support vector machines:a study on EUNITE competition[R].IEEE Transactions on Power Systems,2001,19(4):1821-1830.

[9]Klaus-Robert,Müller Alex,J Smola,et al.Predicting time series with support vector machines[C]//ICANN′97Proceedings of the 7th International Conference on Artificial Neural Networks.Berlin Heidelberg:Springer,1997:999-1004.

猜你喜欢

方根聚类向量
方根拓展探究
向量的分解
聚焦“向量与三角”创新题
基于K-means聚类的车-地无线通信场强研究
我们爱把马鲛鱼叫鰆鯃
均方根嵌入式容积粒子PHD 多目标跟踪方法
基于高斯混合聚类的阵列干涉SAR三维成像
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
一种层次初始的聚类个数自适应的聚类方法研究