探讨基于支持向量机的高频金融时间序列预测

2019-01-28叶建萍

中小企业管理与科技 2019年35期

叶建萍

（广西大学行健文理学院，南宁530000）

1 引言

因为现在是金融全球化的社会，国家的经济优势或多或少需要依靠金融行业的运转和质量，但影响其创新水平和发展程度的关键原因即金融的信息化技术。现在，高频金融时间序列预测手段是大热趋势，有不少学者开始研究该问题。通过预测高频金融时间序列，本文总结出以回归系数为基础的高频金融时间序列手段，对均值平稳的距离噪声不敏感[1]。但是，高频金融时间序列预测手段还是有缺陷，不能一次性针对处理太多数据，同时由于不同领域的高频金融时间序列特征不同，所以不同测试数据需要先分清特征。

2 提取高频金融时间序列数据的特征

现在部分高频金融时间序列预测手段有缺陷，不能准确指导现实中的研究。本文先是阐述了何谓高频金融时间序列，利用研究实际数据，总结出高频金融时间序列的两个关键特征，相似性与非平稳性。另外，因为这些特征，正交小波变换，可用分型维估计。通过实证分析国内金融市场的微观结构，得出指数序列的分型维。实验对证券指数进行高频金融时间序列预测，和神经网络预测相比较的话，提高了金融数据高频金融时间序列预测效率，减小了预测误差。

2.1 构造决策树

建立决策树其实是建立对象属性与对象值间的映射，通过输出决策树指导决策。重点在于一组没有规律可循的事例推理决策树对形式的分类，通过自上而下，于决策树的内部比较属性值，按照不同属性判断后得出决策树的叶节点结论。现实中经常用到决策树，其特征明显，首先结构与手段简单，很好明白；方法里准备数据不复杂；学习时，使用决策树可以不训练不属于数据的知识；模型效率高，很短时间里分析规模很大的数据源；比较精准。构建决策树其实就是选择与分割树的节点，能够知道，决策树构建算法本质在于分割[2]。按照分割手段不同，可分成两类：第一类是最小GINI的指标，第二类以信息论为基础。因为金融行业很重视信息，本文通过信息论，针对离散属性构建决策树，解答为何缺失数据以及属性值的范围连续等问题。

也就是说，ID3 算法通过属性计算有关的样本熵值，采用里面最小的熵值或最大信息增益的属性当成下一结点的属性，循环往复，形成最终的决策树。设训练数据集是D，里面有N个元素，按照不同取值，把D 分成k个子集，记D1，D2，…，Dk，不同子集都是n1，n2，…，nk个，同时k Σi=1 ni=N。那么定义数据集D 里面的信息熵是Entropy（D）=k Σs=1nsNlog（2nsN）。

①需要注意，信息熵是0 时，即D 中全部元素属于同一子集，训练集D 归类完毕。分类时经常k=2，训练集D 有正例与反例两类。但ID3 算法，习惯通过信息增益，评判一个已知属性有没有很好归类训练集。

②其中ETi 表示训练集{ω|ω∈D，ω∈Ti }的信息熵，di，s =card {ω| ω∈D，ω∈Ti }，A与D 相比较的话，信息增益Gain（D，A），Entropy（D）降低的数量是Gain（D，A）=Entropy（D）-new_Entropy（D，A）。

Step 1：确定不同属性的数值区间，分别设为集合S1，S2，S3，S4，S5，S6，S7，各自取值，按照不同定义，取值差异很小，定义（2000，2200）（2200，2400）（2400，2600）（2600，2800）（2800，3000）（3000，3200）为数值分类区间，记不同属性的区间为S11～S16，S21～S26，S31～S36，S41～S46，S71～S76。

Step 2：计算收盘价涨幅在区间S71，S72，S73，S74，S75中，交易天数为11，56，64，50，50，14，记d1，d2，d3，d4，d5，共为243天，总天数为N。按照公式有上证指数集S的信息熵[3]。

Step 3：计算不同属性的信息增益，统计每天开盘价在区间 S11，S12，S13，S14，S15，S16的交易天数分别是11，56，64，50，50，14，记为D1，D2，D3，D4，D5，D6，共245天；下一日收盘价属于区间S71，S72，S73，S74，S75，S76的天数分别是3，48，5，0，0，0，有上证指数集的信息熵。那么能够计算开盘价属于区间S12，S13，S14，S15，S16的信息熵：ES11=0.8454，ES13 =0.5992，ES14 =0.5661，ES15 =0.5579，ES16 =0.5917。

重复上面的三个步骤，得到的信息增益分别为1.7992、2.0572、1.8181、0.5882、0.6758。

2.2 基于决策树信息增益的特征抽取

实验表明了ID3 算法以信息增益为测试属性的规范，树节点的选择策略。ID3的根节点是信息增益最大的属性，和数据分类贡献呈正比关系，最有利于辅助决策，也最为关键。因为成交量、成交额的信息增益值最小，同时和其余的特征属性差距很大，去掉成交量与成交额。因为最高价的信息增益最大，可知对下一日收盘价影响最大的是前一天的最高价。

3 基于支持向量机的高频金融时间序列预测模型

3.1 支持向量机

支持向量机最早由20 世纪90年代提出，以统计学习理论为基础，是全新的机器学习方法。利用核函数非线性变换，将原始数据映射到高为特征空间，然后在里面通过结构风险最小化，构造线性决策函数，把低维问题变成简单的高维问题。支持向量机中最方便的模型为最大间隔分类器，用来解决特征空间里分类线性数据，提高支持向量机理论水平。本文通过支持向量回归机应用，逼近函数。给定训练数据集S={xi，yi}ni（xi 是输入向量，yi 是输出向量，n 为训练数据集样本总量），支持向量机通过公式逼近函数（fx）。

3.2 支持向量机估计与预测结果

本文采用上证指数共245个交易日数据为样本，在前面十分之九的交易天数中作为训练样本估计支持向量机的参数，后面的十分之一交易天数是测试样本，评价预测水平[4]。选择特征属性比较抽取与特征属性。分别采用多项式核K（x，y）=（x*y+1）d 和高斯RBF 核K（x，y）=exp（-γ||x-y||2）比较分析，取 ε=0.1，C=1，通过R 语言函数编程。取d=3，γ=1/nVal，其中nV 是变量个数。不管在抽取特征属性前还是在之后，高斯RBF 核函数可以顺利逼近原数据，而后者虽然也能无限逼近，但不够准确，实验结果体现就算提高多项式次数，也无法较好改善，所以对上证指数训练数据集而言，高斯RBF 核函数是最适宜的。

4 结语

为验证本文方法，采用共245个交易日的指数试验。抽取结果体现出，指数抽取的特征属性均是开盘价、收盘价、最高价、最低价。表明这些指数对我国股票市场的综合指向能力很相似，通过不同算法获得不同指数值，反映出股票市场的变化情况。实验表示，抽取特征向量后RBF 核支持向量机可以提高逼近能力与预测效果。肯定了本文提到的高频金融时间序列预测方法，通过决策树提取特征属性，以支持向量机的预测为基础，让预测数据更精确，便于更好地分析与挖掘现实数据。