APP下载

基于状态空间HAR-RV-RS模型的中国股市波动率预测

2021-08-31吴鑫育王海运

关键词:上证综指成指方差

吴鑫育, 王海运

(安徽财经大学 金融学院,安徽 蚌埠 233030)

一、引 言

股票市场是金融市场中投资者与资金需求者紧密联系的重要纽带,它既能够满足新建企业融资、现有企业扩资需求,又能够给投资者带来不同风险偏好等级的报酬,是促进一个国家经济健康发展、满足企业扩大再生产、拓宽投资者投资渠道范围的不可或缺的组成部分。在股票市场中对于所有的市场参与者而言,把控资产的波动率是分析股票市场风险的基础,精准预测金融资产的波动率在期权定价、资产组合配置以及风险管理等方面有着不可忽视的意义。对学者而言,如何利用相关理论和方法,更好的度量和预测市场波动状态,减少甚至规避投资或者管理风险,一直以来也都是学术界研究的热门话题。

早期应用于预测波动率的模型以Bollerslev(1986)[1]和Engle(1982)[2]等提出的GARCH类模型最为常见。当然在金融资产波动率预测方面GARCH族模型不断发展并取得了显著成效,但在当时,受信息采集能力的约束,模型主要是应用日度或者周度数据,类似低频数据的使用势必会丢失大量的市场噪声信息,忽视当日更多的市场波动情绪因子,这种无法较完整地采集日内市场信息的缺陷给波动率预测造成了不小的误差,模型对当时的波动信息刻画效果并不好。随着科技水平地发展以及高频数据的广泛应用,研究者逐渐摒弃这种低频数据的计量方式,转而采用高频数据进行建模计量。Andersen和Bollerslev(1998)[3]为更加精确的刻画资产真实波动率而尝试引入高频数据,提出将日内收益率的平方和加总作为资产波动率的近似估计。用于估计真实方差所采用的已实现方差RV(Realized Variance)可近似看作取样间隔接近于0的连续值。随后不少学者在此基础上进行了扩展研究 (Barndorff-Nielsen和Shephard(2002)[4]、Zhang等(2005)[5]、Barndorff-Nielsen等(2008)[6])。

传统的计量方式一般是将已实现方差的测度作为真实波动率用来预测波动率,但纳入模型的RV表现出明显的持续性特征也必须要合理地考虑到模型内。Corsi(2009)[7]将已实现测度的长记忆性加入模型中,提出了异质自回归(HAR)模型,模型的基本思想是对不同时间间隔所计算的观测对象建立一个自回归模型。异质自回归已实现波动率(HAR-RV)模型将能反映投资者过往信息的已实现方差的滞后日度(1天)、周度(5天)、月度(20天)数据的信息集作为三个回归因子写入标准自回归模型中,作为RV测度方程中的解释变量。实证研究也进一步证明HAR-RV在预测具有长记忆性、厚尾分布或者右偏分布特征的金融波动方面具有一定优势。不少国内学者对模型进行了一定改进并取得了丰硕的研究成果,如:孙洁(2014)等[8]、吴恒煜等(2015)[9]、瞿惠等(2015)[10]、刘晓倩等(2017)[11]。但是在使用HAR-RV模型或者其衍生模型的时候,往往假定模型的系数不具时变性,这在一定程度上限制了模型的拟合精度。Bollerslev等(2016)[12]提出IQ(Integrated Quarticity)的概念,对原有HAR-RV模型中RV分解为完整方差和高斯过程之和,进行改进后提出HARQ模型。新模型改进了原有HAR-RV模型使用最小二乘法估计RV,因误差因子的存在而造成RV预测的时变偏差,并在实证结果中验证了新模型的优势。Bekierman和Manner(2018)[13]考虑到HARQ模型中RV完整方差测度的不确定性以及噪声估计的存在,将高斯分布替换原有的自回归参数进而建立新的状态空间HAR模型。

Mei等(2017)[14]将已实现的偏度RS、已实现的峰度RK和已实现的偏度峰度组合RSK分别加入HAR-RV模型中,通过实证研究论证了在中长期波动率预测中,加入RS后的模型样本外预测表现更好,而加入RK和RSK的模型预测能力并未见显著提升。基于现有学者利用高频数据进行波动率预测的实证基础,如苏理云等(2016)[15]基于状态空间SV-T-MN模型进行股指波动率预测。本文尝试在状态空间HAR-RV模型中加入一个新的元素RS,构造新的波动率预测模型——状态空间HAR-RV-RS模型并进行实证研究。这一方面弥补了国内应用状态空间模型进行工程运算的文献较多,但在金融领域,用于波动率估计与预测的文献相对较少的不足之处,另一方面,尝试论证加入RS后的模型在预测RV方面是否有改进,并为以后的拓展研究提供指导。

本文的主要任务就是将创新的状态空间HAR-RV-RS模型用于国内股票市场波动率的预测,通过对比HAR-RV和状态空间HAR-RV模型,分析预测效果。相关章节安排如下:第二节,模型理论与构建,介绍相关理论和状态空间HAR-RV-RS模型,以及基于金融数据特性的评价准则;第三节引入中国股市相关数据,进行数据的描述性统计,样本内参数估计和样本外预测评价检验,结合评价准则探讨模型拟合效果;第四节,是全文结论与政策启示。

二、模型构建

1.HAR-RV模型

假定在一个连续时间随机过程下,将观测到的某金融产品(比如单只股票)价格进行对数处理,记为 , 此价格中的信息包含两部分内容,一个是连续价格信息,另外一个是包含价格跳跃信息的集合,可以用如下等式进行等价表述:

(1)

其中,us是漂移函数,δs为右连续且存在左极限的严格为正的随机波动过程,Ws是标准布朗运动,Jt是对数价格跳跃的分布过程。那么,随机价格过程的二次项变差表达式可定义为:

(2)

Andersen和Bollerslev(1998)[3]引入了一个新的估计量用来描述二次项变差,并将其定义为样本内同一观测频率下收益率的平方之和,这就是我们常说的已实现的方差。假定在某一频率下采集了n+1个样本,得到了价格集合[p0,p1,p2,…pn], RV可按(3)式定义,可以证明,随着观测取样时间间隔的不断缩小,RV在n→∞时会逐渐收敛于二次项变差

(3)

其中,式中ri=pi-pi-1,价格都是经采集后进行对数处理后的值。

捕捉RV的长记忆性,常用的方法是采用由Corsi(2009)[7]提出的异质自回归(HAR)模型,将RV加入模型后得到HAR-RV形式:

RVt=β0+β1RVd+β2RVw+β3RVm+εt

(4)

上述模型可以理解为三因素随机波动率模型,其中εt是服从独立同分布且均值为0的残差项, RVd、RVw、RVm分别代表RV滞后单个日度(1天)、周度(5天)和月度(20天)的滞后项的均值,通过构造上述自回归方程,可大致描述的长期记忆性。

2.状态空间HAR-RV-RS模型

Brockwell等(1996)[16]提出了状态空间模型(State-Space model):

(5)

(6)

Barndorff-Nielsen和Shephard(2002)[4]指出RV可被分解为完整方差和服从于均值为0方差为2ΔIQt的噪声之和,其中IQ是可由已实现四次幂差(RQ)直接估计出的完整四次幂差。Bollerslev等(2016)[12]使用普通最小二乘法计算式(6)得到含有误差因子 的估计值具有时间序列下衰减的偏差噪声,此偏差也被带入回归方程中进行预测。因此提出引入时变相关系数来解释这一测度偏差,介于衰减偏差在周度和月度滞后项中影响不大,改进上述模型可以得到忽略弱影响偏差的已实现四次幂差异质自回归模型(HARQ):

(7)

Bekierman和Hans[13]等认为已实现四次幂差仍旧是完整四次幂差的一个含噪声估计量,无法精确测度,假定允许自回归参数由一个高斯过程代替,模型进一步写作

RVt=β0+(β1+λt)RVd+β2RVw+β3RVm+εt

(8)

(9)

已实现的偏度由Amaya等(2015)[17]提出,表达式如下

(10)

RSt为第t日的已实现偏度,n为第t日的日内采样次数,rj,t为日内采集到高频价格数据后处理得到的收益率。将RS加入模型后,得到状态空间HAR-RV-RS模型:

RVt=β0+(β1+λt)RVd+β2RVw+β3RVm+β4RSt-1+εt

(11)

(12)

通过卡尔曼滤波和极大似然估计得到上述模型的已实现方差估计量。

其中的每一列代表一天的观测数据,数据日期从左向右,依次递增。原(11)式写作:

RVt=RVdλt+AU+εt

(13)

(14)

其中,

et=RVt-(Gλt|t-1,+AUt)

(15)

(16)

(17)

3.评价准则

通常选用的损失函数指标有拟似然估计(QLIKE)、均方根误差(MSE)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE):

(18)

(19)

(20)

(21)

其中L为数据长度(个数),m为估计波动率所采用的模型,RV是通过样本数据观测到的方差,FV是通过模型估计的预测方差。

三、实证研究

1.数据选取与处理

在实际操作中,高频数据的产生不可避免地受到买卖报价时间以及交易程序频率的影响,不间断的连续性数据采集无法实现,同时,由于不同步交易、闭市效应等微观结构噪声的存在,也会对高频数据产生影响。对于数据采集频率,如果频率选择过高,会增大数据微观结构误差,若选择较低的频率,测量误差又会变得很显著。本文分别选取上海证券综合指数(上证综指,SEC)2005年1月4日到2019年1月11日3 410个交易日和深证成分股指数(深证成指,SZEC)2015年1月4日到2019年1月11日共3 410个交易日的五分钟高频数据。取样后对所有数据(价格)进行取对数处理,随后进行差分,得到收益率(RV),最后通过加总得到日内RV。

2.我国股票市场已实现波动率的统计性描述特征

表1给出了上证综指和深证成指已实现方差的描述性统计,单从数值来看,两者呈现出极大的相似之处。经对数化处理后得到的上证综指RV最大值为0.003 9,均值为0.000 2,标准差为0.000 3,经对数处理后,整体波动较小。偏度5.461 0 > 0,证明该序列分布右尾比左尾密集,整体呈现右偏,峰度远大于3,表明上证综指的RV呈现明显尖峰厚尾的特征。Jarque-Bera检验是对样本数据是否具有符合正态分布的偏度和峰度的拟合优度的检验。经检验,上证综指JB统计量显著,拒绝正态性分布假设。QQ分布图也表明数据分布不具有正态性。总之,已实现方差RV的偏度、峰度和JB统计量等都拒绝其正态性分布的假定。在深证成指分析上也可以得到同样的结论。深证成指偏度5.317 0>0,同样存在右偏的特性,峰度为48.203 2,表现为更加明显的尖峰厚尾的分布特征。JB统计量显著,也否定了正态性分布的假设。图1、图2、图3给出了上证综指和深证成指的RV时间序列分布图、QQ分布图。

表1 上证综指、深证成指已实现方差RV描述性统计

图1 上证综指已实现波动率时间序列图

图2 深证成指已实现波动率时间序列图

图3 上证综指、深证成指已实现波动率qq图

3.我国股市已实现方差的长记忆性检测

国外的一些学者通过实证研究,发现国外金融市场的RV自相关系数按照双曲线的速率缓慢下降,本小节分析我国股票市场的自相关性。图4、图5给出了上证综指和深证成指的滞后0-30阶自相关系数的图形。观察下列图形可以明显看到,上证综指和深证成指两数据在自相关性上仍然具有相似的特点。在滞后期选择30的情况下,RV还是表现出一定的相关性,这可能是由于股票市场前一日市场波动对后一日参与者情绪波动、市场行情等仍然具有一定影响力造成的,这种追涨杀跌的情绪在股票市场表现比较明显。因此前一日的市场元素中可能包含某些重要信息,因此在构造状态空间模型时候,合理考虑自身滞后信息项是非常必要的。

图4 上证综指已实现波动率自相关系数图形

图5 深证成指已实现方差自相关系数图形

4.参数估计

使用极大似然估计方法对HAR-RV模型、状态空间HAR-RV模型和状态空间HAR- RV-RS模型进行估计,可以得到各参数的估计结果及其标准误差和模型的对数似然值(Log-lik),如表2所示。通过对比发现,相比HAR模型,无论是状态空间HAR-RV模型还是状态空间HAR-RV-RS模型,对滞后一天的信息项回归系数都赋予了较高的权重,参数估计的结果在5%的置信度下显著,这说明市场中情绪因子具有一定的持续性,前一天的市场波动对次日的影响是不容忽视的。两状态空间模型月度(滞后期20天)滞后信息的参数又大于周度信息的参数值,说明包含更多信息的月度滞后项在构造自回归方程中是不可忽视的,参数估计结果在5%的置信度下同样是显著的。状态方程中的系数都是负的,且数值整体偏小,参数估计的结果在5%的置信度下显著。通过对比深证成指的相关数据,HAR-RV模型、状态空间HAR-RV模型和状态空间HAR-RV-RS模型在估计上证综指方面有着更大的极大似然估计值,说明三个模型在拟合上证综指方面有更好的表现。对比HAR-RV、状态空间HAR-RV模型和状态空间HAR-RV-RS三个不同模型对上证综合指数的极大似然估计值可以发现,三个模型的极大似然估计值逐步递增,说明模型改进效果显著。同样,对比三个模型对深证成指的极大似然估计,可以发现状态空间族模型在极大似然估计方面有着更显著的优势,加入RS后的模型表现最好。总之,在上证综指和深证成指样本内估计方面,状态空间HAR-RV-RS模型总体来说要比HAR模型、状态空间HAR-RV模型有一定改进。

表2 模型参数估计结果

续表

5.样本外预测

本文选取上证综指2015年1月5日到2019年1月11日983个交易日和深证成指2015年1月5日到2019年1月11日共983个交易日的五分钟高频数据,作为样本外数据组进行模型预测能力评价使用。使用滚动时间窗方法对模型进行预测。首次估计模型的样本内阶段为2005年1月4日到2014年12月31日,对应的第一个预测日期为2015年1月5日。当一个新的日期所对应的观测值加入样本后,删除本次采集样本集合中第一个日期所对应的观测值并重新估计模型。如此不断重复这个过程,一直到最终日期2019年1月10日纳入模型中进行预测时结束。从2015年1月5日到2019年1月10日共计983个样本外数据,得到982个样本预测值。上述样本外预测阶段能较好地检验所采用模型的预测能力。将预测得到的条件方差与观测到的RV进行相应比对,采用拟似然估计值(QLIKE)、均方根误差(MSE)绝对平均误差(MAE)、平均绝对百分比误差 (MAPE) 三个损失函数作为波动率模型预测精准能力的评价指标,表3给出了HAR-RV模型、状态空间HAR-RV和状态空间HAR-RV-RS模型波动率预测的评价效果。在预测上证综指方面,状态空间HAR-RV-RS模型的损失函数明显小于状态空间HAR-RV模型的各损失函数,加入RS后的模型较原始模型在波动率预测方面存在明显改进。就指标改进的绝对数量而言,HAR-RV与状态空间HAR-RV-RS模型平分秋色。在深证成指预测方面,从损失函数的结果来看改进后的状态空间HAR-RV-RS模型预测效果在三个模型中是最好的。两组实证数据说明加入RS后的状态空间模型的预测能力得到显著提升,也再次印证了之前学者的实证结论。最后,通过上证综指和深证成指之间的损失函数值对比,可以看到,三个函数在预测上证综指方面损失函数的值更小。

表3 不同模型损失函数比较

图6 上证综指RV与样本外预测方差序列图

图7 深证成指RV与样本外预测方差序列图

四、主要结论与政策启示

在期权定价、资产组合、风险管理等方面,准确预测资产波动性有着重要的意义。Coris提出的HAR-RV模型以及它的衍生形式在捕捉和预测已实现波动率等方面被广泛应用。国内的学者也越来越多地采用高频,甚至混频数据,加入模型中进行计量。在构造或者改进模型的时候,也能考虑到波动率的非对称性、长记忆性或者结构突变等特征,模型表现也更加精准。在本文中,我们引入一个新的HAR衍生模型,状态空间HAR-RV-RS模型,通过对比HAR-RV模型与状态空间HAR-RV模型在上证综指和深证成指的表现,可以明显地看到,状态空间HAR-RV-RS模型在样本内估计和样本外预测方面要好于另外两个模型。特别是通过样本外预测的三个损失函数的结果来看,都有着显著的改善。这可能是由于对于真实测度来说,已实现的四次幂差仅仅是一个噪声代表,在高波动期,它带来的误差可能变得更大。也有可能是状态空间模型较HAR族模型在解释测度误差方面可以捕捉到更多的时变因子。将参数时变化处理,加入更加有用的信息作为被解释变量,构造更加灵活的模型形式,为我们以后研究波动率模型提供了一个参考方向,这也是本文的研究出发点和创新点之一。

从宏观来看,我国股票市场仍是一个不成熟、不完善、不发达的市场,依然存在着诸多弊端,相应的法律法规不健全,相关部门对我国股票市场的调控能力有限。上市公司抵御风险的能力弱,投资者金融、投资等方面的专业知识有待提高,未形成正确的投资习惯,盲目、非理性的投资依然存在。基于上述结论,本文提出以下两方面的政策建议:

第一,对于后续研究的学者而言,首先,在对波动率进行建模时,需要考虑金融时间序列的尖峰厚尾以及长记忆等特征。其次,包含已实现测度的模型,往往拥有更好的实证效果,因此,在数据的选取时可以优先考虑高频数据。最后,可以在构建的模型中引入已实现偏度,有助于模型拥有更好的参数拟合以及样本外预测效果。此外,可以对模型进行扩展,引入已实现峰度,观察是否具有更好的实证效果。

第二,对于投资者来说,理性看待市场风险,加强自身专业投资方面的学习,增加对相关知识方面的积累,避免盲目跟风投资是非常必要的。同时,投资者投资金融产品时,应避免频繁交易,注重长期价值投资。此外,政府部门更是要加强对投资机构的监管力度,同时积极完善相应的法律法规,合理引导投资者,按照成熟的市场体系,结合中国特有的国情,培育并完善市场自身的调节能力,使我国股票市场逐步成为成熟、有效、稳定、多元、开放的金融体系。

猜你喜欢

上证综指成指方差
概率与统计(2)——离散型随机变量的期望与方差
华夏战略新兴成指ETF剑指“风口”布局未来
方差生活秀
全球主要指数走势点评
全球主要指数走势点评
全球主要指数走势点评
揭秘平均数和方差的变化规律
方差越小越好?
上证综指