APP下载

基于支持向量机的海南气温预测模型研究

2016-07-18朱晶晶赵小平吴胜安邢彩盈

关键词:支持向量机

朱晶晶,赵小平,吴胜安,吴 慧,邢彩盈

(1.海南省气候中心,海南 海口 570203;2.西昌卫星发射中心气象室,四川 西昌 615000)



基于支持向量机的海南气温预测模型研究

朱晶晶1,赵小平2,吴胜安1,吴慧1,邢彩盈1

(1.海南省气候中心,海南 海口 570203;2.西昌卫星发射中心气象室,四川 西昌 615000)

摘要:依据CMSVM2.0函数估计和交叉验证1等方法,利用1970~2014年海南省各市县月平均气温资料,建立气温的SVM回归方法预报模型,并进行了模拟实验.实验结果表明支持向量机算法在气温短期预测中具有良好的预报能力,其中交叉验证1的预测效果略高于业务预报,尤其在冬季、夏季和秋季均有较好的预报能力.此外,SVM对海南省北部、西部、南部市县的预报效果较好,而对中东部市县的预报效果相对较差.

关键词:支持向量机; 气温预测; 函数估计; 交叉验证1

短期气候预测是依据大气科学原理,运用气候统计学等方式,预测未来短期气候趋势.短期气候预测对国家经济发展至关重要,提高短期气候预测的准确率,对于防灾减灾、推动经济发展等具有重要意义.

二十世纪70年代,短期气候预测中引进了统计学理论方法.随着气象统计学理论的发展及其对一维时间序列气象观测资料的研究,气象学者们发现诸多气象要素观测资料中含有较多的预报信息[1],很多预报信息可以被用于短期气候预测中,神经网络技术随之应运而生.

在统计学理论范畴下,支持向量机算法是一种通用机器学习方法,其能够避免过高维数、过拟合等问题,而且求解速度快,预测精度高.支持向量机已被广泛应用于文本分类、人脸识别、时间序列预测等各个相关领域[2-4].陈永义[5]等首次将支持向量机应用于气象预报中.冯汉中[6-8]等对支持向量机方法在气象预报中的应用进行了相关实验,结果表明支持向量机方法能够用于气象预报业务中,其模型具有较好的气象预报能力.燕东渭[9]等利用支持向量机方法对西北暴雨的预测进行了应用试验,结果表明,该方法能较好的应用于强降水预报中.黄奕铭[10]将支持向量机防范用于雷雨天气预报业务中,预报效果良好.李智才[11]等根据气候因子和气候预报对象的非线性关系,将支持向量机方法应用于短期气候预测中,结果表明支持向量机方法提供了一种短期气候预测途径.本文利用1970~2014年海南省各市县月平均气温观测资料,采用支持向量机方法,对海南省气温进行短期预测.

1资料

所用气温数据来源于1970~2014 年海南省19个市县人工气象观测站各月平均气温观测资料,环流因子采用国家气候中心提供的126项环流因子.

2SVM温度模型的建立

2.1CMSVM2.0CMSVM2.0由中国气象局培训中心CMSVM开发组编制,是一个集训练、参数寻优和预报等功能的应用软件平台,可用于分类预报以及回归预报,适合于解决高度非线性的分类、回归等样本问题.CMSVM2.0 是CMSVM1.0 的升级版,在CMSVM1.0的基础上增加了贴近度分析、交叉验证 1、交叉验证 2和文件操作4项新的重要功能选项,并进一步弥补了支持向量机算法中核参数难于确定的不足.

支持向量机方法的基本思想:通过非线性映射方式,把样本空间映射到高维的Hilbert特征空间,使其能够解决样本高度非线性分类、回归等问题[11],简单地可以认为升维和线性化,通过在变换后的高维空间中计算线性化问题,解决了算法复杂化和非线性映射表示式难求2个难题.支持向量机正是基于此设计思想,完美地实现了数据样本的线性分类和回归.

2.2资料处理以1月为例,将1月海南省各市县月平均气温与前期(前一年的7~12月)126项环流因子求相关,选取显著性水平超过0.01的环流因子,并结合海南省地域特征略加筛选.选择前一年份7~8月的北半球极涡强度指数、9月的西半球暖池指数、10月的北半球副高面积指数、11月的印缅槽和12月的亚洲纬向环流指数等30个预报因子.为了避免各个因子之间的量级差异,使每一因子的数据均落入区间[0,1]内,对每个因子进行归一化处理: ( x-xmin) /( xmax-xmin).由于海南岛面积较小,各市县所受影响环流大体一致,因此统一应用以上预报因子.

与1月相似,其他月份也是采用前6个月的环流因子进行相关筛选,各月预报环流因子的选择是根据各月环流形势选择最优因子.

采用1月各市县的平均气温数据,将资料整理成以下形式:

-1.2 1∶0.105 2∶0.562 3∶0.625……29∶0.542 30∶0.601

-2.2 1∶0.581 2∶0.456 3∶0.454……29∶0.792 30∶0.719

其中,第一列是各市县的历年平均温度距平,后面为30个预报因子.

对处理的回归资料分别运用函数估计和交叉验证1进行预测.

函数估计选项,也称为回归分析选项,用于建模的训练样本子集(约占总样本的 75%)、用于优化模型参数的实验样本子集(约占总样本的20%)和用于检验模型推广能力的检验样本子集(约占总样本的5%).将1970~1999年的样本作为训练样本,2000~2007年的样本作为实验样本,2008~2009年的样本作为检验样本.

交叉验证1选项,即对小的数据集采用顺序抽1循环验证的方法对参数寻优建立理想模型,不需要将文件分成回归训练文件、回归实验文件和回归检验文件,只需要一个验证文件.将1970~2009年的样本作为验证样本.

预报应用要求的数据文件的格式与函数估计和交叉验证1类似,只是数据文件的第一列全为数值 0,以表示其值待确定,将2010~2014年的样本作为预报样本,以使得所得月预报分数更具有分析意义.

2.3模型调参CMSVM2.0中选择不同的核函数会激活相对应的不同参数窗口.在非线性问题处理上,支持向量机通常采用径向基函数和多项式核函数2种方式,以多项式函数作为核函数建立海南省各市县的SVM温度回归模型,回归择优标准用绝对差.在模型参数选择上,各月采用参数寻优的方法寻找最优参数组合,各月最优参数并不相同.表1以1月白沙县为例,介绍最优参数的寻优方法,其他月份利用相似的方法获得最优参数配置.

在CMSVM2.0中,函数估计选项中主要模型参数有C,w,d,通过选择不同参数的组合,获取SVM温度模型计算效果,模型计算效果主要通过计算结果绝对差、相关系数、支持向量数和检验成功率等体现.

表1 参数d对白沙县1月SVM温度模型的影响

从表1 中可以看出,在C,w固定的情况下,不同的d值对白沙1月SVM温度模型有很大的影响,当d=2或4时,支持向量数都不能达到30,即训练样本数据并未全部包含在内,将参数d=3.

表2 参数C对白沙县1月SVM温度模型的影响

从表2 中可以看出,在w,d固定的情况下,C值的变动对白沙1月SVM温度模型没有影响.选取C=10,以方便后面迭代.

表3 参数w对白沙县1月SVM温度模型的影响

从表3 中可以看出,在C=10,d=3时,参数w为1时,支持向量数仅为12,在支持向量数都为30的条件下,优先考虑绝对差略小的w=0.1.

结合表1~3,初步设定参数C=10、循环次数10、步长10,参数d=3、循环次数10、步长0,回归带宽参数w=0.1、循环参数10、步长0.01,在损失函数叠加上界2 000,回归迭代最大次数10 000的情况下,寻找最优参数进行训练的时间是4.04s,最优模型中的各参数为:C=40,w= 0.12,d=3,共迭代210次,支持向量数为29个.模型使用核函数计算的次数是13 756,利用最优模型对SVM检验文件进行回归计算:Δ=2.685 6,相关系数=-1,σ=3.741.

交叉验证1选项是在40个样本中每次抽取一个样本作为待验证的检验样本,用剩余的样本建模,顺序对所有样本循环此过程.同样设定参数C=10、循环次数10、步长10,参数d=3、循环次数10、步长0,回归带宽参数w=0.1、循环参数10、步长0.01,在损失函数叠加上界2 000,回归迭代最大次数10 000的情况下,寻找最优参数进行训练的时间是2 384.78s,交叉验证构造最优模型时的Δ=1.289 4,最优模型中的各参数为:C=10,w= 0.14,d=3.

3结果分析

3.1各月份预报准确率分析对于海南省各市县各月份的预报准确率分析,采用国家气候中心在业务规定上统一使用的Ps检验方法.Ps方法是针对气候趋势预测及异常级预测结果设不同权重来综合进行检验评分的方法,其能直观反映气候预测能力和水平.

Ps检验方法的计算公式

其中,M为没有预报二级异常而实况出现气温距平≥3℃或≤-3℃的站数(即漏报站数);N0为气候趋势预测正确的站数;N1为一级异常预测正确的站数;N2为二级异常预测正确的站数;a,b和c分别为气候趋势项、一级异常项和二级异常项的权重系数.根据海南省气候业务Ps检验标准,分别取a=2,b=2,c=4.

选取了2010~2014年的实际业务评分以与模型预报评分进行对比,使分析结果更为客观公正.在实际业务中,海南省的Ps评分仅14个市县参与,其中万宁市、三亚市、定安县、文昌市和三沙市不参与评分.

图1是利用函数估计和交叉验证1对气温的预测Ps评分.由于函数估计验证样本仅为2年且仅为1次顺序验证过程,而交叉验证1是在40个样本中每次抽取出1个样本作为待验证的检验样本,其验证次数是函数估计的40倍,使得交叉验证1的预测效果远高于函数估计.交叉验证1方法在10个月份中的Ps评分都能达到70分以上,其中最高为83.6分,而函数估计方法达到70分以上的月份仅为3个,其中最高为82.4分.就年平均而言,2种方法的平均Ps评分分别为75.5和56.5,而日常业务气温预报平均Ps评分为74.6.可见交叉验证1的预测效果略高于业务预报,而函数估计方法的预测效果明显低于业务预报.除了春季预测效果不如业务预报外,交叉验证1方法在冬季、夏季和秋季均有较好的预报分数,尤其针对较难预报的海南冬季气温,交叉验证1表现出明显的优势,高出业务预报15.6分,将业务预报评分提高了25.3%,可以为日常业务预报提供参考.

3.2各市县预报准确率分析为了清楚显示函数估计和交叉验证1方法对海南省不同区域的预报效果,分别分析了2个方法的预报准确率的区域分布,如图2所示.图2a为交叉验证1方法预报准确率分布图,可见交叉验证1对各市县的预报效果均较好.预报准确率较高的区域主要集中在海南省北部、西部和南部,达到60%以上,而中东部预报准确率相对较低.图2b为函数估计预报准确率分布图,预报准确率整体较交叉验证1有所降低,海南北部、西部、南部预报准确率略高于中东部.2种方法的预报准确率分布可以看出,北部、西部、南部的预报效果较好,中东部的预报效果相对较差.

4小结

利用CMSVM2.0中函数估计和交叉验证1对海南省气温进行了短期预测,研究结果表明:

1) 支持向量机方法在气温短期预测中具有良好的预报能力,其中交叉验证1的预测效果略高于业务预报,其在冬季、夏季和秋季均有较好的预报分数,尤其针对较难预报的海南省冬季气温,交叉验证1方法表现出明显的优势,能为日常业务预报提供参考.

2) 支持向量机对海南省北部、西部、南部市县的预报效果较高于中东部市县.

另外,在进行模型调参时,需要对模型参数C,d,w等进行调整,以达到最优的预报效果,不同的参数组合对支持向量机的预报结果影响较大.在实际业务应用中,应进行大量的调试实验,选取最佳的参数组合,使模型预测效果达到最佳.

参考文献:

[1] 金龙.神经网络气象预报建模理论方法与应用[M].北京:气象出版社,2004.

[2] 马勇,丁晓青.基于层次型支持向量机的人脸检测[J].清华大学学报(自然科学版),2003,43(1):35- 38.

[3] 张秋余,竭洋,李凯.基于模糊支持向量机与决策树的文本分类器[J].计算机应用,2008,28(12):3 227-3 230.

[4] 崔万照,朱长纯,保文星,等.混沌时间序列的支持向量机预测[J].物理学报,2004,53(10):3 303- 3 310.

[5] 陈永义,俞小鼎,高学浩,等.处理非线性分类和回归问题的一种新方法(1)—支持向量机方法简介[J].应用气象学报,2004,15(3):345-353.

[6] 冯汉中,陈永义,成永勤.双流机场低能见度天气预报方法研究应用气象学报[J].应用气象学报,2006,17(1):94-99.

[7] 冯汉中,陈永义.支持向量机回归方法在实时业务预报中的应[J].气象,2005,31(2):41-44.

[8] 冯汉中,陈永义.处理非线性分类和回归问题的一种新方法(2)—支持向量机方法在天气预报中的应用[J].应用气象学报,2004,15(3):345-353.

[9] 燕东渭,孙田文,杨艳支.持向量数据描述在西北暴雨预报中的应用试验[J].应用气象学报,2007,18(5):676-681.

[10] 黄奕铭.支持向量机在雷雨天气预报中的应用[J].广东气象,2006,28(1):22-24.

[11] 李智才,马文瑞,李素敏,等.支持向量机在短期气候预测中的应用[J].气象,2006,32(5):57-61.

Temperature Forecast Model Based on Support VectorMachineMethod

Zhu Jingjing1, Zhao Xiaoping2, Wu Sheng’an1, Wu Hui1, Xing Caiying1

(1.HainanClimateCenter,Haikou570203,China;2.MeteorologicalDepartmentofXichangSatelliteLaunchCenter,Xichang615000,China)

Abstravct:Basedonthe"FunctionEstimation"and"CrossValidation1"oftheCMSVM2.0,thetemperaturedataofHainanfrom1970to2014wereusedtoconstructtheforecastingmodelofregressionmethodofSVM,andthesimulationexperimentswereperformed.TheresultsindicatedthattheCMSVM2.0hasgoodforecastingabilityforshort-termtemperatureforecastofHainan,andthepredictioneffectsofthe"CrossValidation1"ishigherthanthatofthegeneralprediction,especially,inthewinter,summerandautumn.Additionally,thepredictioneffectsofSVMforthewest,northandsouthofHainanarebetterthanthatfortheeastandcentral.

Keywords:supportvectormachine;temperatureforecast;functionestimation;CrossValidation1

收稿日期:2015-12-02

基金项目:海南省气象局科技创新项目(HN2013MS14)

作者简介:朱晶晶(1986-),女,江苏南京人,硕士,工程师,研究方向:短期气候预测,E-mail:jingjingzjpq@163.com 通信作者: 赵小平(1984-),男,硕士,工程师,研究方向:航天气象保障,E-mail:xiaopingzjpq@163.com

文章编号:1004-1729(2016)01-0040-05

中图分类号:P45

文献标志码:ADOl:10.15886/j.cnki.hdxbzkb.2016.0007

猜你喜欢

支持向量机
基于支持向量回归机的电能质量评估
基于智能优化算法选择特征的网络入侵检测
数据挖掘技术在电厂经济性分析系统中的应用Q
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
管理类研究生支持向量机预测决策实验教学研究