APP下载

基于RVM 的小样本数据预测模型

2019-11-30石昀凯里学院大数据工程学院

数码世界 2019年9期
关键词:数值样本算法

石昀 凯里学院 大数据工程学院

1 引言

关于小样本数据预测模型,前人在此之前进行过大量的研究,如Delphi 法、TOPISIS 法、AHP 法、BP 法、DEA 法、GRA 等[1,2,3]。上述方法存在着如下不足:一是过于依赖定量数据[4],如DEA、AHP等;二是主观因素影响过大[4],如Delphi法、模糊评价法等[5][6]。三是容易出现收敛速度慢以及过拟合的情况,如BP 法、SVM 法[6]。

2 RVM 预测模型介绍

相关向量机(Relevance Vector Machine, RVM)是Tipping在SVM(支持向量机)的基础上提出的一种新的机器学习算法,它具有以下优点:

(1).通过引入超参数α以及计算超参数的权重后验分布迭代计算出最优权值,最终获得稀疏化模型[3];

(2).显著提升了核函数的运算效率,增强了解的稀疏性[8];

(3).整个训练无需调整过多的参数;

(4).核函数不需要满足正定条件。

算法执行过程可以概括为如下几步:

1)选择核函数,并设置相关参数,通过核函数创建核矩阵;

6)重复步骤4,5 直至所有训练样本均代入算法执行完毕。

3 实验分析

为对比RVM、SVM 以及BP 三种算法的性能,使用公开数据集网站UCI(http://archive.ics.uci.edu/ml/datasets.html)中汽车油耗量数据集进行性能对比实验。使用RVM、SVM、BP 三种算法来对汽车油耗量数据集进行模型训练,通过运行时间以及测试结果误差率来得出实验结论。汽车油耗量数据集如表3-1 所示。

其中,数据一共392 条,mpg 为油耗量,数值范围[9,46.4];cyl为气缸数,数值范[3,8];dis为行驶距离,数值范围[68,455];hor 为马力,数值范围[46,230];wei 为汽车自重,数值范围[1613,5140];acc 为加速度,数值范围[8,24.8];ye为制造厂年份,数值范围[70,82];or为产地,数值范围[1,3]。

首先,将表一数据通过min-max方法[9]进行归一化处理。第二,归一化处理完成后,将归一化后的392 条数据分为两个集合,前352条作为训练集,后40 条作为测试集。第三,使用训练集进行样本训练,使用数据集进行结果测试,计算出运行时间以及测试结果误差率。其中,误差率为平均相对误差[10],同时,平均相对误差不超过5%时为可接受误差[11]。上述实验结果如表2 所示。

实验结果表明RVM 模型预测出的结果明显优于BP,相比SVM 则大致相当。但是RVM 模型是用极少数相关向量即可得到最终评价结果,因此从效率上来说明显优于SVM 算法,更适用于小样本数据分析。

4 结论

本本文将RVM 算法成功应用于小样本数据预测分析中,实验结果表明,相比于BP 算法以及SVM 算法,RVM 在精确性上优于BP。在运行效率上优于SVM,精度与SVM 大致相当。同时实例分析表明,RVM 算法动态地对各因素间权重参数进行调整,使得无需过多关注评价模型内各指标相互间的关系,从而验证了该理论模型应用于小样本数据预测分析领域的可行性。

猜你喜欢

数值样本算法
体积占比不同的组合式石蜡相变传热数值模拟
哪种算法简便
数值大小比较“招招鲜”
舰船测风传感器安装位置数值仿真
铝合金加筋板焊接温度场和残余应力数值模拟
用样本估计总体复习点拨
Travellng thg World Full—time for Rree
进位加法的两种算法
根据问题 确定算法
规划·样本