APP下载

融合机器学习算法的期权定价

2022-08-02周仁才

系统管理学报 2022年3期
关键词:步长期权神经网络

周仁才

(东方证券股份有限公司,上海 200010)

以期权为代表的衍生品是整个资本市场的重要组成部分,期权交易具有价格发现、提升市场效率、完善风险对冲机制等多重功能,期权业务的核心在于定价。BS模型[1]奠定了金融市场期权价格的基石,然而,其依赖的假设条件与市场不完全吻合。因此,一些改进的定价模型被开发出来,这些模型可分为参数和非参数两种类型。在参数模型方面,主要是针对股票价格扩散过程进行改进,从而实现期权价格的优化。例如:假定波动率是股票价格的确定性函数[2],突破了BS模型中波动率为常数的限制;在几何布朗运动基础上增加跳跃成分[3],以求更好地刻画价格突变;假设波动率也满足一个随机扩散过程,构建随机波动率模型[4-5];将跳跃扩散过程扩展为更一般性的Levy过程,研究期权定价等[6]。

随着科学技术的进步,大数据、人工智能等金融科技手段对金融市场产生了深刻影响,非参数的机器学习算法近年来开始应用于资产定价领域。Kelly 等[7]利用降维算法考察因子定价模型。Freyberger等[8]利用机器学习模拟随机折现因子等。相对于在市场均衡状况下,实现风险中性定价机制的经典金融分析方法,机器学习方法以市场数据为基础,从数据中提取特征,通过训练模型实现所谓的监督或者半监督学习。在衍生品定价方面的研究有:Hutchinson等[9]最先将径向基网络和BP 神经网络模型应用于期权定价,得到了与传统参数模型一致的精确度;Qi等[10]利用人工神经网络对S&P500指数期权进行定价研究,其效果好于BS模型;Gencay等[11]采用贝叶斯正则化、提前结束和集成学习技术,利用神经网络对衍生品定价和风险对冲进行分析;Park等[12]分析了参数模型和非参数模型在韩国期权市场的表现,认为非参数模型的表现更好。

参数模型通常基于无套利定价原理,理论基础完备,结果比较稳定,样本外预测能力有保证。同时,参数模型普遍结构相对简单,拟合所需的数据量较小,计算资源消耗较少。但是金融市场是一个复杂系统,受市场交易因素、宏观经济因素、投资者情绪、政治因素等多类因素的综合影响。因此,简约化的参数模型可能忽略了影响市场价格的风险因子,从而影响模型定价能力。Bates[13]发现,随机波动率受多个风险因素的影响。Bollerslev等[14]认为单一扩散过程过于简单,不能解释高频收益率序列的复杂特征。周仁才[15]将波动率进行分解,发现多风险因子作用下期权定价模型具有更好的定价效率。虽然多风险因子模型具有一定优势,但如何确定风险因子的类别及数目,并对它们进行差异化建模,这在全局均衡及无套利框架下很难实现。另一方面,神经网络、决策树等机器学习模型,直接从数据中进行学习,通过模型层次与结点之间交互作用可以方便地提取影响价格的特征因子。但机器学习模型训练需要的数据量大,计算资源消耗多,容易受到样本数据分布的影响,且容易发生过拟合现象。

为了充分利用这两类模型的优点,一些学者采用混合模型进行研究。Lajbcygier等[16]利用神经网络对期权市场价格与BS模型价格之间的误差进行建模,以提高预测精度。Huang等[17]利用无迹卡尔曼滤波和支持向量机进行了类似研究。Liang等[18]利用神经网络和支持向量回归(SVR)模型降低二叉树、有限差分和蒙特卡罗模拟等传统期权定价方法的定价误差。张丽娟等[19]结合BP 神经网络和Heston模型对香港恒生指数期权和上证50ETF期权进行研究。张鸿彦等[20]利用小波网络和遗传算法研究了香港恒生指数期权定价。混合模型在构造过程中,通常针对市场价格与参数模型之间的误差进行再次学习,在预测过程中容易导致误差累积,容易存在样本内拟合效果好但预测能力不足的问题。同时,在模型训练过程中,两类模型之间缺乏联系,没有充分利用它们各自的优势。因此,有必要针对参数模型和非参数模型之间的组合机制,提供相应的理论基础,防止构造时的随意性。

本文利用贝叶斯学习机制,构建基于参数模型和非参数机器学习模型的融合模型。融合模型不是参数模型和非参数模型的静态堆叠,而是利用参数模型作为先验基准,然后再通过机器学习进行优化训练,从而为混合模型构造提供一种新方法。同时,融合模型利用参数模型和非参数模型之间的相互作用,在学习过程中完成分布的动态调整,从而实现更好的定价能力。

1 算法设计

设有n个样本组成的训练集D={(x1,y1),(x2,y2),…,(xn,yn)},xi为自变量,yi为对应的观察值。f(x)为训练函数,由模型结构及相应的模型参数w决定,w=(w1,w2,…,wN),N为非参数模型中参数的个数。对于神经网络,模型参数即权重和偏置。

在引入参数模型的基础上,训练过程分为以下3个阶段:

第1阶段。首先,利用参数模型对训练数据进行拟合,得到相应的参数模型的解;然后,利用解得的参数模型求得各个训练数据的参数模型值,组成新的样本集;再利用非参数模型进行训练得到模型参数wB。

第2阶段。在第1阶段基础上,利用训练集D中的样本数据对非参数模型进行优化。令样本xi对应的模型误差为。于是,

为了建立与参数模型之间的联系,并利用第1阶段的估计结果,假定最终模型参数wi的先验分布满足:令

根据贝叶斯法则,参数w的后验概率为

式中,P(D|w,β,wB)是似然函数。通过式(1)不难发现,该似然函数取最大值时,训练集误差平方和将取最小值,这就是训练过程中普遍采用的均方误差(MSE)指标。P(w|α,wB)为先验概率,P(D|α,β,wB)是归一化因子,取值与模型参数w无关。因此,

系数α反映模型参数相对于先验分布的变动情况,α越大,表示对于先验估计越有信心。系数β体现模型计算结果与样本真实值的差异,β越大,表明模型计算结果越接近于真实值。α和β的相对大小,将对模型的泛化能力产生直接影响,当α较小、β较大时,模型训练时将更加注重减少训练集中的样本误差,这会导致模型权重变动大,容易造成过拟合;当α较大、β较小时,模型训练时将更加注重权重的平滑性,对训练集样本误差容忍度高,这种模型可能出现拟合不足。因此,如何确定α和β的大小,对于模型效果十分重要。当数据集较大时,可以通过在验证集上针对不用的取值进行优选。金融市场的时变性,限制了单次训练数据集的范围。因此,借鉴文献[21],利用贝叶斯机制内生获取α和β的值。根据贝叶斯法则,在模型先验权重wB已知的情况下,α、β的后验概率可以表示为

式中:P(D|α,β,wB)是似然函数,即式(3)中的归一化因子;P(α,β|wB)为α和β的先验分布,假设其服从均匀分布。因此,求后验概率P(α,β|D,wB)的极大值等价于求似然函数P(D|α,β,wB)的极大值。令

设F(w)的极值点为w*,可以将该函数在极值点利用二次函数近似。根据Taylor公式,将F(w)在w*处展开得:

式中,H*为F(w)的Hessian矩阵H在w*处的取值,

结合联合正态分布函数的标准形式:

表示所有N个模型参数中有效参数的数量,γ可以通过每次训练迭代计算的α计算出来。

类似的方法,可以计算出:

在贝叶斯学习过程中,文献[22]中建议Hessian矩阵H的计算采用Gauss-Newton近似算法,即H≈2βJTJ+2αI。其中,J为训练集误差的Jacobin矩阵,

第3阶段,利用第2阶段得到的模型权重w,更新第1阶段模型参数wB的分布。参考贝叶斯正则化算法,设第1 阶段模型参数wB的先验分布为:,根据贝叶斯法则可得

式中,δ使用与α相同的算法。整个算法的计算流程为:

(1)首先根据训练集数据D利用参数模型完成拟合,然后根据得到的参数模型重新生成训练集D′。

(2)通过随机数初始化非参数模型参数w,同时初始化参数α=0,β=1,于是γ=N。

(3)利用非参数模型对新数据集D′完成一步训练,得到模型参数wB,实现对于参数模型的模拟。

(4)在数据集D上计算ED和EW,及相应的目标函数F(w)=βED +αEW。

(5)针对目标函数F(w)在数据集D上完成一步训练,得到相应的训练集误差向量ei=yi -f(xi),i=1,2,…,n,并计算出此时的ED和EW。

(6)利用得到的误差向量,求得Jacobin 矩阵J,然后求得Hessian矩阵H,从而计算出有效参数数量为:γ=N-2α·tr(H-1)。

(7)根据式(9)、(10)计算出新的正则化参数α和β,利用得到的模型参数w根据式(12)更新wB的分布,在此基础上重新训练wB。

(8)循环(3)~(7)直到结果收敛。

2 模型构建

鉴于BS模型[1]在金融领域的重要意义,本文选择该模型作为参数模型之一。在随机波动率模型中,最著名的是Heston模型[5],因为该模型对于欧式期权具有封闭解,同时成功地捕捉了波动率聚集及杠杆效应,所以本文也将其作为参数模型。

针对BS、Heston等参数模型的拟合,通常采用隐含参数估计法,即利用期权市场价格数据反推出模型参数,得到的结果直接是风险中性概率测度下的参数,而不需要估计风险的市场价格。在隐含参数估计过程中需要解决模型价格和市场价格的误差最小化问题,即

式中:Ω为待估计的参数向量,对于BS模型,Ω=σ,对于Heston模 型,Ω=(κ,θ,σ,ρ,υ);分别为执行价格为Ki、到期日为Ti的期权的模型价格和市场价格。

在机器学习算法中,神经网络得到了最深入的应用,其具有所谓的通用近似能力,可以精确地拟合复杂的连续函数[23],同时,对于网络结构没有特别限制,灵活度较高,故本文将其作为非参数模型进行研究。构造神经网络需要确定网络层次、各层之间神经元的个数及连接方式,目前还没有确定性理论作为指导,往往需要结合实际数据和经验进行选择。对于输入数据特征维度少、数据集较小的情况,简单的网络结构往往能得到更好的结果,这不仅有利于提高计算效率,而且降低了过拟合的风险。考虑到期权价格函数输入变量仅包含股票价格St、期权执行价格K、期权到期时间τ及无风险利率r4个维度,输出变量为一维期权价格,所以网络结构不宜太复杂。经过尝试不同的网络结构,本文最终选择包含8 个神经元的单隐含层网络进行分析,整体网络结构为4-8-1。即便是如此相对简单的网络结构,参数数量也达到了49个,远多于参数模型。

训练神经网络,首先要确定损失函数。考虑到期权定价最终将得到价格序列,采用均方误差指标及在此基础上的变换形式作为损失函数。考虑到期权数据样本有限,训练时需要快速收敛,本文采用LM 算法[24]实现神经网络的优化。作为二阶优化算法,LM 算法通过选择步长,构建信赖域搜索,使其兼顾了牛顿法的快速局部收敛性,又具有良好的整体收敛性。

神经网络结构的灵活性导致了复杂性的增加及可解释性的降低,不同模型在不同指标上往往呈现不一致的表现。为了全面地对模型进行评价,采用R2、均方误差(MSE)、标准均方根误差(NRMSE)和平均绝对误差(MAE)等多个指标进行评价。

3 实证分析

为了检验融合模型的效果,考虑到计算资源因素,本文选择2018-07~2018-12 上证50ETF 认购期权日收盘数据进行实证分析,剔除合约到期日价格存在异常的数据后,共计7 520 个样本。上证50ETF期权从2015年2月9日正式推出,到2018年下半年已经平稳运行3年多时间,价格具备相对的有效性。从Wind资讯中获取样本期内各合约的到期日、执行价格、合约收盘价以及标的50ETF 收盘价等信息,采用3 月期上海银行间拆借利率(SHIBOR)作为无风险利率。

首先,需要确定训练集时间区间长度及预测步长。Bakshi等[25]认为,由于市场环境的变化,拟合时间区间及预测步长不宜过长,对于参数模型,日级别的拟合和预测能够得到比较好的效果。考虑到数据集大小及预测精度之间的平衡,本文考察了训练集数据区间长度为30日和60日两种情况,每日平均认购期权合约数大致为60个,从而每次拟合数据量分别达到2 000和4 000左右。训练过程采用滑动窗口方法,即取前30日或60日的数据,对模型进行训练,然后用训练得到的模型,根据预测步长对相应日期权价格进行预测;取2~31日或61日的数据作为训练样本对模型进行重新训练,利用训练得到的模型根据预测步长对相应日期权价格进行预测;然后,继续取下一段训练数据重复该操作;最后,对比预测序列与实际市场收盘价格序列,综合得到整体评价指标。

为了进行对照分析,本文研究了BS模型(BS)、Heston模型(HS)、神经网络模型(NN)、采用LM算法的神经网络模型(LM)、采用贝叶斯正则化的神经网络模型(BR)、拟合BS模型的神经网络模型(BSY)、拟合Heston模型的神经网络模型(HSY)、以BS 模型为基础构造的融合模型(BS_BR)和以Heston模型为基础构造的融合模型(HS_BR)的相关情况。其中:LM 和BR 在NN 基础上,进行了二阶优化和正则化处理;BSY 和HSY 的训练数据及BS_BR 和HS_BR 的部分训练数据来自参数模型的输出结果,而不是市场实际交易数据。为了分析这种调整对于训练过程的影响,首先考察各模型样本内拟合状况。为了规避网络初始化过程中随机权重对结果产生影响,初始化时对不同模型赋予相同的初始化参数。

表1为训练过程中样本内平均拟合指标。由表1可见,当训练区间长度为30时,由于具备刻画时变波动率的能力,参数模型Heston比BS模型具有更强的拟合能力,各指标表现均有所提升。非参数模型中,NN 采用一阶优化,受样本数据量及特征影响,收敛效果一般,R2、MSE、NRMSE和MAE分别为0.969 774、0.000 371、0.174 803 和0.014 55。采用LM 算法后,拟合能力得到了明显改进,对应指标分别提升至0.998 821、1.48×10-5、0.033 49和0.002 811。采用BR 算法后,目标函数同时兼顾训练误差和网络权重的大小,相对于LM 模型,指标受到一定影响,但幅度较小。BSY 和HSY 分别利用贝叶斯正则化神经网络模拟BS和Heston模型,对照BS 及Heston 指标可以发现,拟合模型BSY 和HSY 达到了相似的精度。基于BS的融合模型BS_BR 中,R2、MSE、NRMSE和MAE分别为0.998 82、1.48×10-5、0.033 167和0.002 775,相对于BS和BR 模型而言表现更好。基于Heston模型的融合模型HS_BR 中,R2、MSE、NRMSE 和MAE分别为0.998 853、1.44×10-5、0.032 874和0.002 744,相对于HS和BR 模型而言进一步提高了拟合能力。同时,HS_BR 模型较好地保留了Heston模型的优势,指标相对于BS_BR 模型更优。当训练区间长度为60 时,各模型样本内的表现类似。由此可见,融合模型并没有因为对参数模型的拟合而影响整体拟合能力;相反,在拟合能力方面,相对于基础的参数模型和非参数模型,融合模型具备更好的表现。

为了考察训练过程中模型的收敛效果及参数变动情况,针对样本期内第1个30日数据的拟合进行展示。图1所示为前20轮训练过程中,各模型损失函数的变动情况。由图1可以发现,相对于NN 模型而言,其他模型由于采用二阶优化算法,损失函数下降更为显著,而融合模型BS_BR 和HS_BR 基于在参数模型基础上的进一步优化,实现了最好的收敛效果。

表2列举了采用二阶优化算法的模型在100轮训练过程中,模型参数极差和方差的平均值。由此可见,LM 模型由于没有对参数进行正则化处理,极差和方差指标较大,融合模型BS_BR 和HS_BR 利用贝叶斯学习机制,有效避免了训练过程中模型参数的过度波动。

表2 模型参数变动情况

为了评估模型的预测能力,分别考察了各模型在预测步长为1和2时的预测结果。相关情况如表3所示。根据表3,首先考察训练区间长度为30的情况。在参数模型中,当预测步长为1 时,Heston模型比BS模型表现出更强的样本外预测能力。在非参数模型中,NN 的表现最不理想,R2、MSE、NRMSE 和 MAE指标分别为0.957 757、0.000 445、0.206 887和0.015 974。LM 模型的对应指标提升至0.989 66、9.27×10-5、0.070 324和0.006 001。采用BR 算法后,对应指标达到0.993 102、7.46×10-5、0.068 543和0.006 149,反映出贝叶斯正则化对于模型泛化能力的提升。BSY 和HSY 在样本外的表现与相应的BS 和Heston模型相当。融合模型BS_BR,相对于模型BS和BR 而言,预测能力得到进一步提高,R2提高至0.994 138,MSE、NRMSE和MAE降幅非常明显,分别降低至6.56×10-5、0.063 276和0.005 57。HS_BR 模型的情况类似,相对于HS和BR 模型,相应指标分别提升至0.994 116、6.13×10-5、0.062 485和0.005 457。两个融合模型之间,除R2指标外,其余指标HS_BR 相对于BS_BR 均有所改进。随着预测步长增加为2,各模型的预测指标均有所降低。BS_BR 模型的R2、MSE、NRMSE 和MAE指标分别为0.988 138、0.000 125、0.087 088和0.007 665,仅略逊于BR 模型的指标,高于其他对应模型。HS_BR 的表现依然最好,指标分别达到0.989 441、0.000 11、0.083 402和0.007 37。当训练区间长度为60 时,得到的情况类似。步长为1时,融合模型都取得了最好的效果;步长为2 时,HS_BR 依然最优,BS_BR 也仅略逊于BR。

表3 样本外预测结果

综合表1、3不难看出,融合模型在样本内拟合能力及样本外预测能力方面均有更好的表现。可见,融合模型泛化能力的提升并不是在训练过程中通过正则项“惩罚”目标函数取得的,而是模型本身优化的结果。

为了更直观地呈现各模型预测效果的差异,表4 列出了相关模型对之间预测指标R2、MSE、NRMSE和MAE的比值。其中,行标“30,1”对应训练区间长度为30、预测步长为1的结果,以此类推;行标“平均”表示不同训练区间长度及预测步长的平均结果。

根据表4,由各预测指标比值可见,无论训练区间长度是30还是60,当预测步长为1时,融合模型BS_BR 和HS_BR 均优于其他模型;当预测步长为2时,除了BS_BR 相对于BR 模型之外,其他模型对之间BS_BR 和HS_BR 均占优。由指标比值的平均结果可以发现,所有参数和非参数模型相对于融合模型的R2指标比值的平均值都小于1,MSE、NRMSE及MAE 等指标比值的平均值均大于1。综合看来,融合模型相对参数和非参数模型具备更好的预测能力。比较两个融合模型之间的预测指标可以发现,除了在训练区间长度为60、预测步长为1时之外,HS_BR 相对BS_BR 在其他情况下都占优。由4个指标比值的平均来看,HS_BR 模型也相对更优。这说明,在预测方面,HS_BR 模型也较好地保留了Heston模型的优势。

表4 模型对预测指标比值

为了进一步分析模型表现,采用DM 检验法[26]及WS符号秩检验[27],对于各模型预测结果进行配对比较。检验结果如表5所示。

由表5 可以发现,不论是从DM 统计量还是WS统计量上看,融合模型相对于原来的参数及非参数模型而言,预测结果差异在统计上普遍存在显著性。当训练区间长度为30时,由DM 指标可见,在BS_BR 模型方面,除预测步长为1时BS_BR 和BR 模型之间在5%水平下显著外,其余模型对均在1%水平下显著;在HS_BR 模型方面,除预测步长为2时HS_BR 和BR 模型之间不显著外,其余均在1%水平下显著。由WS 指标可见,除步长为1 时HS_BR 和NN 之间在5%水平下显著外,其余均在1%水平下显著。当训练区间长度为60时,情况类似。总体而言,不显著的情况主要出现在融合模型相对于BR 和LM 模型之间,这与它们具有相似的模型结构和优化机制有关。但在这类情况下的所有32种配对检验结果中,仅有5种不显著,同时,在这5种不显著的情况中,均未出现两个指标同时不显著的情形。因此,融合模型相对于BR 和LM 模型预测结果的整体差异仍然具备较强的显著性。两个融合模型BS_BR 和HS_BR 之间,当训练区间长度为30、预测步长为1时的DM 指标及步长为2时的WS指标不显著,其余均在1%水平下显著。上述分析也反映出融合模型并不是参数模型和非参数机器学习模型的简单叠加,整体上呈现出不同的变化特征。

表5 模型对预测结果显著性检验

4 结语

本文设计了融合参数模型和非参数机器学习模型进行训练的算法,其贡献主要包括:

(1)在贝叶斯架构下对异类模型之间的融合进行研究,为融合模型的构造建立理论支撑,提供了一种构造混合模型的新方法。

(2)利用非参数模型模拟参数模型,作为先验基准,然后再通过机器学习进行优化训练。该方法在训练过程中有助于避免参数过度波动,提升模型泛化能力,为目前机器学习算法提供了新思路。

(3)参数模型来源于均衡条件下的理论推导,结果比较稳定,而非参数模型利用市场数据通过训练获得,善于捕捉市场特征因子,文中构建的融合模型,不是模型之间的静态堆叠,而是利用参数模型和非参数模型之间的相互作用,发挥各自优势。

(4)在实证研究中,比较了不同模型样本内拟合能力及样本外预测能力,并对不同模型对之间预测差异的显著性进行分析。综合发现,融合模型相对于参数和非参数模型具备更好的预测能力,并且这种泛化能力的提升并不以“惩罚”目标函数为代价。

(5)分析了不同融合模型之间的表现,发现融合模型能够有效保留基础模型的优点,HS_BR 模型整体表现优于BS_BR 模型,但这种差异由于非参数模型的优化而减少。

需要指出的是,融合算法也可以方便地应用于径向基网络、支持向量机等其他机器学习算法中,实现参数模型的模拟和优化,后续还可以进一步研究融合模型在期权对冲和风险管理方面的应用。

猜你喜欢

步长期权神经网络
中心差商公式变步长算法的计算终止条件
基于递归模糊神经网络的风电平滑控制策略
基于Armijo搜索步长的BFGS与DFP拟牛顿法的比较研究
基于随机森林回归的智能手机用步长估计模型
神经网络抑制无线通信干扰探究
因时制宜发展外汇期权
人民币外汇期权择善而从
基于神经网络的中小学生情感分析
基于动态步长的无人机三维实时航迹规划
基于支持向量机回归和RBF神经网络的PID整定