基于前兆数据和经验模态分解的金融系统极值风险识别研究

2021-03-17郭建平赵立龙

统计与信息论坛 2021年3期

郭建平,赵立龙

(南京信息工程大学 a.管理工程学院;b.物理与光电工程学院,江苏南京 210044)

一、引言

金融系统中的极值风险通常指发生概率非常小而一旦发生造成损失极其严重的风险,超越市场预期的股价暴涨或暴跌、股价崩盘等均是极值风险的具体表现。极值风险的成因十分复杂,外来冲击的影响、宏观经济结构的调整、政府政策的转变甚至媒体新闻报道等各种因素均可能诱发极值风险。2020年初新冠肺炎疫情冲击导致的原油负价格、美股周内多次熔断以及中国股市的大幅波动等,均是极值风险的实际体现。

极值风险发生的概率虽然较小,但产生的后果极为严重,证券市场中广受重视的“黑天鹅”风险会引发严重的市场危机,保险市场中小概率发生的巨额赔付风险甚至会导致保险公司破产。由于极值风险会显著影响市场参与者的投资决策,严重威胁市场体系的安全与稳定,因而始终是市场各方关注的焦点。关注极值,准确识别极值,提高极值风险的预报精度,及时处置极值风险,对于维护金融系统稳定始终具有重要意义。

金融市场参与各方对防范极值风险损失的研究极为重视,学术界对极值风险的识别和预报问题也进行了广泛探索。然而,现有研究使用的样本对数据本身的重要性鲜有区分;研究方法以时域分析方法为主;研究结论侧重于论证“是什么”,鲜有回答“为什么”,提出的对策和建议缺乏现实操作性。与现有研究不同,就使用的数据而言,本研究选择的是极值风险将要发生之前的数据,在地震预报、岩土矿山以及工程地质等自然科学研究领域称之为前兆数据,从研究之初就对数据的不同重要程度进行了识别;就使用的方法而言,本研究选择的是频域分析方法,通过经验模态分解分析极值问题;就得到的结论和建议而言,本研究侧重于通过提取极值生成特征,分析极值识别问题,强调“防患于未然”。

二、文献综述

现有研究使用的数据多为中国金融系统数据,研究成果主要集中于选择适当的概率分布形式和适当的模型分析极值数据的变化规律,量化极值风险并推断金融市场的性质。

随机变量的概率分布是研究随机事件的主要工具,概率分布的尾部通常被用来描述小概率事件的发生概率,与极值风险的发生密切相关,使用已知分布准确拟合极值数据是研究极值风险发生概率的重要手段。正态分布是最为常用的分布之一,然而正态分布拟合尾部概率并不理想。对比普通样本数据,极值观测数据具有超高的变异性,单一概率分布尾部普遍存在低估或高估极值事件发生概率的问题,因此研究者选择了不同的方法对概率分布的尾部进行修正。

一种思想是将不同分布的尾部进行叠加或组合,构建复合分布提高极值风险的概率估计精度。早期研究者如Jacques等提出用两个或多个理论分布的加权来拟合医疗保险损失数据[1];王新军等提出使用叠加分布模型拟合保险损失的索赔数据[2];考虑到叠加模型需要确定不同分布的比例结构,郭建平等提出了基于信度理论确定叠加模型构成权重的方法[3]。基于该分析框架,研究者分析了不同领域的极值问题,如刘家福等使用泊松对数正态模型研究了洪水灾害的损失问题[4]。

拟合含有极值数据特征的样本时,选择适宜的概率分布并不容易,将不同分布叠加修正极值事件发生概率的想法不容易操作,并且叠加分布参数估计较为困难。因此,另外一种思想被提出,这种思想通过分割样本对分布的尾部进行适当修正以满足极值数据的变化特征,极值理论(EVT)就是其中的典型解决方案。

极值理论是处理观测值与概率分布的中心值背离极大情况的理论,常用来分析地震、洪水、瘟疫等小概率罕见问题,在风险管理和可靠性研究中常用,最早由给出Gumbel分布的Gumbel提出,该理论与正态分布、威布尔分布等常用分布密切相联。在极值理论分析思路下,通过阈值分割样本对极端数据序列进行建模,对序列样本中超过某个阈值的极值分布进行建模的超阈值峰值法(POT),取得了表现更优的拟合效果[5]。广义帕累托分布是较为常见的POT模型,阈值的选择也有不同的方法,Scarrott等的综述性文献对这些方法做了概括[6],基于这种分析框架,近年研究取得大量成果。

较早研究有,魏宇通过对比主流收益分布假设与极值理论风险测度效果,证明极值理论在测度金融尾部极端风险上具有较强的优越性[7];花拥军等研究了沪深股市在涨跌停板政策实施前后POT模型与正态假设下尾部极值的拟合效果[8];卓志等使用POT模型研究了巨灾风险分布问题[9];张蕊等基于极值理论、条件异方差、在险价值(EVT-GARCH-COVAR)模型,利用2008—2013年股票市场数据,对极端市场条件下银行业、证券业和保险业单个金融机构对中国金融体系系统性风险的贡献及其随时间变动的趋势进行了动态测算[10]。

近期研究有李锦成基于POT模型对中国影子银行与A股市场的极值进行实证研究,确定阈值后分别测算了MCMC(1)Metropolis等研究者在1953年最早提出通过生成马尔可夫链来实现从分布π(x)中采样的思想。随后,Hastings提出建立马尔可夫链,以π(x)为平稳分布,从马尔可夫链中采样。这类方法称为MCMC方法。估计和极大似然估计(MLE)下的在险价值(VAR)和期望损失(ES),发现上证成交量极值风险更大,影子银行极值风险相对较小[11]。杨坤等基于极值理论,构建五类R-vine copula模型,刻画了原油市场间的极值风险相依关系,认为结合极值理论的混合R-vine copula模型能够有效地描述原油市场间的尾部极值风险相依关系,风险测度效果较佳[12]。

在上述研究基础上,部分研究者对极值风险的统计性质进行了研究,如Mustafa等提出了分解合成法量化极值风险生成概率[13]。Siu等研究了极值风险的生成机制[14]。张昕怡等给出了极值事件阈值选择标准,但是阈值选取结果具有不确定性,不同的阈值意味着产生样本个数不同的极值风险数据集,影响分析结论[15]。

除此之外,蒙特卡洛模拟也是研究极值风险的有效方法,然而模拟生成小概率事件需要一定的假设条件,并且模拟极值风险数据需要产生大量样本,极值风险发生概率越小,所需要的样本数据越多,加大“操作风险”。基于案例研究法逐案分析每一个极值事件也是研究极值风险的常用方法,但是逐案研究割裂了极值风险之间的时域相依性,得到的结论难以进行实际预报操作。

与上述文献不同,考虑到时域框架下极值数据难以充分观测的特点,本文从频域视角研究极值风险的识别问题,创新之处可以归纳为如下三个主要方面:

使用数据不同:现有研究同等对待观测数据,从全部数据中研究极值风险的发生规律,而本研究认为极值风险发生时刻之前的数据隐含了极值事件将要发生的重要信息,分析这些数据的统计特征,有助于准确识别极值风险的发生时刻,因此本研究选择的数据是极值事件发生之前的那部分数据,即前兆数据。

使用方法不同:现有研究方法以时域分析方法为主,本研究主要使用频域分析方法。本研究认为,金融系统中以极小概率发生的极值风险隐含着在时间尺度上难以实时有效且充足观测的特点,在理论上致使在时域范围内研究极值风险的统计特征较为困难,在实践上使得建立在少数极值事件观测基础之上的市场策略效果不理想。因此,本研究把观测数据从时域转换为频域展开分析。

研究侧重点不同:现有研究着眼于分析极值风险发生的结果,忽略了极值风险发生的过程;侧重于解释极值风险的结果,忽略了极值风险的前端预报;重视极值风险的建模研究,忽略了极值生成机理。由于对极值生成机理的分析并无实质进展,市场操作者无法准确确定极值风险处置时机,导致风险管理举措或监管措施缺乏时效性,难以准确对冲极值风险。本研究根据前兆数据的变化规律,提取极值事件发生之前的信息,分析极值生成规律,确定处置时机,提高极值风险处置效果。

三、实验原理与方法

(一)前兆数据研究与F统计量构建

1.前兆数据与前兆分析

前兆指事件发生前的征兆,前兆研究在地震预报、岩土矿山以及工程地质等自然科学研究中广为使用[16-18]。本文借鉴前兆数据分析方法,抽取极值事件发生之前的数据作为前兆数据样本,研究该样本中隐含的极值生成演化信息。前兆数据样本应当恰到好处地包含了极值数据的重要生成信息,过多的样本数据可能引入不必要的冗余信息,增加误判的可能性;过少的样本数据可能丢失部分重要信息,降低识别的准确性,因此前兆数据样本的适当长度直接影响极值识别结果的准确性。

由于极值事件的小概率生成特性,从时间尺度上确定不同极值的生成间隔是困难的,这使得无法直观地选择前兆数据样本的长度,并且样本长度不同,其所含有的信息也不同。基于此,本文借鉴方差分析的基本思想,构建F统计量识别数据中隐含信息的差异,确定前兆数据样本长度。

假设全体时间序列数据样本长度为N,前兆数据样本的长度为n,首先对全部样本数据按照长度n进行分割,形成N/n个子样本。然后,选择相邻的子样本,通过构建F统计量判断两个样本中信息的差异,只要这种差异在统计上达到一定的程度,就可以判断这两个样本数据显著不同,即意味着样本中存在极值事件发生的“前兆”,选择的样本长度n是适宜的,据此确定前兆数据样本和极值的发生时刻。如果这种差异在统计上不显著,则说明这两个样本很相似,不存在隐含极值生成的重要信息,改变样本长度n,继续进行上述操作,直至发现显著的F统计量为止。

2.F统计量的构建

现有研究结果表明系统性因素和随机冲击性因素共同驱动序列波动,系统性因素贯穿于所有序列数据,极值生成的重要信息隐含在冲击性因素中[19],根据上文确定前兆数据样本长度的方法,本文构建F统计量完成对前兆数据样本的识别。

参考方差分析术语[20],本文使用平方和表达数据误差,即波动程度,反应两个相依样本全部波动程度大小的平方和称为总平方和,记为SST,总平方和中包含系统性因素和冲击性因素引起的波动;反映每个样本内部波动大小的平方和称为误差平方和,记为SSE,包含由于冲击因素引起的波动,隐含有极值数据发生的重要信息;反映两个样本间波动大小的平方和称为组间平方和,记为SSA,仅仅包含冲击性因素引起的波动。为了剔除观测值多少对误差平方和大小的影响,对误差平方和与组间平方和分别取均方,记为MSA和MSE,其中SSA的自由度为k-1,其中k为因素水平个数,本文中为2,SSE的自由度为n-k。

依据方差分析基本原理,若冲击因素对极值生成没有影响,那么组间误差中仅仅存在系统性因素驱动的波动,这时组间波动与组内波动经过平均后的均方值应该很接近,比值接近1。若冲击因素对极值生成有影响,那么组间波动中不仅存在系统性因素驱动的波动,还存在冲击因素驱动的波动,这时组间波动与组内波动经过平均后的均方值就会大于1。当此比值大到某种程度时,就可认为冲击因素导致了极值生成。

比值大到某种程度可以使用F统计量进行判断。将上述MSA和MSE进行对比可以得到需要的检验统计量F。当原假设(H0)冲击因素对极值生成没有影响为真时,二者比值服从分子自由度为k-1、分母自由度为n-k的F分布,即F=MSA/MSE～F(k-1,n-k)。将统计量值F与给定显著性水平a下的临界值进行比较,做出对H0的统计决策。

根据上述分析的基本思想,使用计算机编程,找到适宜的不同n所对应的F统计量的最大值,确定前兆数据,之后对此数据样本进行分析,识别极值生成规律。

(二)经验模态分解与极值风险识别

当前研究前兆数据样本性质主要使用频域分析方法,常用的频域分析方法主要有傅里叶变换、小波变换以及经验模态分解等[16-18]。傅里叶变换是信号处理的重要方法之一,经过傅里叶变换可得到信号序列中包含的各种频率成分,但是丢失了信号的时间信息,致使瞬变特性等重要性质的发生时机难以确认。小波变换将信号的频域信息和时域信息联系起来,克服了傅里叶变换的不足,但是小波变换受到测不准原理的制约,尽管提供了一个尺度可变的时间频域窗口,也不可能同时在时域和频域都拥有无限高的分辨率,并且选择不同的小波基底会显著影响分析结果,因此本文不使用傅里叶变换和小波变换研究前兆数据样本。经验模态分解作为一种复杂数据分析方法,由于其良好的自适应特性,近年来在各种类型的研究领域广为使用,是本研究使用的频域分析方法。

1.经验模态分解

经验模态分解(EMD)于1998年由Norden E.Huang等提出,该方法从本质上讲是对一个信号序列进行平稳化处理,其结果是将信号中存在的不同尺度下的波动或变化趋势逐级分解开来,产生一系列具有不同特征尺度的数据序列,每个序列称为一个特征模态函数(IMF)。对每个IMF进行希尔伯特变换(HT)得到相应的瞬时振幅和瞬时频率,能够反映信号的局部特征,因此在EMD分解基础上的HT变换被称为Hilbert-Huang变换(HHT)。EMD方法比小波变换以及现有其他所有信号处理方法有更强的局部特性,具有有效的局瞬特性表征能力,因此在处理极值、瞬变等强间歇性信号时,是最为理想的方法[21]。

EMD方法通过筛分实现对信号的分解,具体筛分过程如下[22]:

第一步,对任意给定信号X(t),首先确定出X(t)上的所有极值点,用三次样条曲线连接所有极大值点形成上包络线,同样的方法形成下包络线。数据X(t)与上下包络线的均值m1的差记为h1,即:

h1=X(t)-m1

(1)

将h1视作新的X(t),重复上述过程,直到hi满足IMF的两个条件,则其成为从原始信号筛选出的第一阶IMF,记为C1。通常第一阶IMF分量C1包含信号最高频率成分。

第二步,将C1从X(t)中分离出来,得到一个去掉高频分量的差值信号r1,有:

r1=X(t)-C1

(2)

把r1作为新信号,重复(1)的筛分过程,直到第n阶的残余信号成为单调函数,不能再筛分出IMF分量为止。

综上分析可以知道,EMD方法假设时序信号的复杂变化是由不同时间尺度的振荡模式构成的,施以分解的目的就是要把这些振荡模式以简单的、有规则的IMF分量形式表示出来,从而通过对简单IMF分量的分析来判断原始复杂信号的演变规律。

2.极值风险识别

实际数据往往隐含有突变特征,突变特征也是数据中的重要组成部分,极值事件正是具有这种突变特征的瞬态,而极值风险正是这种瞬态对系统影响的量化结果。依据实际推断原理,即小概率事件在一次实验中不会发生,极值风险在有限次实验中难以充分观测,难以从时序数据中完整提取极值风险的数字特征,因此根据对EMD方法基本原理的介绍,通过EMD分解,本研究将时域信号转换成容易研究的频率信号进行分析,提取信号变化的漂移量、突变起始时间位置等瞬态特征,提高极值风险的识别精度。

就金融市场而言,金融体系中积聚的各种系统性因素驱动着股价涨跌,不确定的冲击因素加剧了涨跌幅度,形成了各种各样的波动特征,极端市场条件下的波动形成了极值风险,其生成时刻具有随机性。

对金融数据的前兆数据样本施以EMD分解,可以对极值风险的生成进行有效识别,提高预报精度。假设前兆数据样本记为St,与其相邻的样本记为St-1,识别极值风险的流程主要分为两步:

第一步,信号分解。根据EMD理论,对组成原始信号的不同尺度分量不断地从高频到低频进行提取,分解得到的IMF按照频率由高到低进行排列,对St-1样本进行EMD分解,获得系列的IMF分量,同样,对St样本进行EMD分解,获得类似系列IMF分量。

第二步,比较IMF分量的频率。参考波形变化的周期性性质,提取周期性变化之外的波形变化特征,研究振幅持续扩大或降低的振荡模式以及波峰持续叠加或递减的变化规律,结合实际经济含义,识别极值生成的时刻。

四、实证分析

(一)数据来源与描述性统计分析

选择中国上海证券市场综合指数(以下称上证综指)作为研究样本,考虑到极值事件实际发生频率,日观测数据较为适宜,使用变量是上证综指以收盘价格计算的收益率。收益率计算主要有简单收益率(Rt=(Pt-Pt-1)/Pt-1)和对数收益率(Rt=lnPt-lnPt-1)两种方法,其中Pt表示指数在时刻t的收盘价格。样本期间为2005年1月4日至2015年12月31日共计2 671个价格数据。收益率数据以简单收益率计算,共计2 670个,计算软件为MATLAB(R2016a)。

根据上文实验设计,首先需要确定适当的前兆数据样本期间长度n。考虑到极值实际观测规律,在仅仅一个月的较短期间内观测到两次极值现象的记录并不多见,即使出现两次或以上的相对较高的波动峰值,普遍的观点是将其视作一次随机冲击的结果,因此最短的前兆数据样本期间可以大于30观测日,隐含着月内出现两次极值的现象不会发生,基本符合对极值的普遍认识,而最大的期间长度不应超过360日即日历年,符合以年为周期进行经济核算的习惯。综合考虑,这里先验地取半年即180作为前兆数据样本长度,最后尾组样本数据含有149个观测值,舍去该组数据,其余14组数据每组均含有180个观测值,即期间长度为180,全体数据可以分割为14个前后相依的子样本,分别记为Si,i=1,2,…,14。表1显示14个不同样本的描述性分析结果。

表1 相依样本的描述性统计分析

表1中数据表明,14个样本的均值、方差、偏度和峰度均存在差异,但这不能够提供充分的证据证明相邻的两个样本之间存在显著差异,不足以确定样本中是否隐含了相关极值生成的重要信息,因此需要使用F统计量判断样本之间是否存在显著区别,进而确定前兆数据样本。

(二)前兆数据样本选择与分析

根据上文论述,使用单因素方差分析方法,构造F统计量比较均值异同,结果见表2。

表2 相邻样本差异性比较结果

由表2可以发现,相邻样本S1-S2、S2-S3以及S11-S12计算的F统计量值分别为4.175、9.916和7.529,相应概率值分别为0.042、0.002和0.006,假定给定较高的显著性水平为0.01,可以选择S2-S3及S11-S12作为前兆数据样本。根据这两组样本计算的F统计量值最为显著,表明两组样本中隐含着最为强烈的极值数据生成信息。同时,根据上文对前兆数据含义的解释,极值数据最有可能在这两组信息差异显著的样本中生成,否则F统计量值不可能在局部达到极大状态。如果选择显著性水平为0.05,在样本S1-S2中也可以认为存在极值,下文分析也报告了这个极值。

根据F统计量,剔除样本Sj,j=4,5,6,7,8,9,10,13,14,仅仅保留S1、S2、S3、S11和S12进行分析。由于被剔除样本仅反映“正常”数据生成过程,不含极值生成的重要信息,所以剔除后不会影响极值分析的准确性,同时,剔除部分“冗余”样本大大减少了原有待研究的样本数据,提高了极值检测效率。

将样本与时间关联,S1对应时间段为2015-12-30至2015-4-10,S2为2015-4-9至2014-7-14,S3为2014-7-11至2013-10-21,S11为2008-8-4至2007-11-12,S12为2007-11-9至2007-2-12。根据上述样本的时间关联,可以确定极值数据的生成期间范围,为投资者对冲极值风险,监管部门选择预警时机初步提供风险处置切入窗口。下文进一步对这三对前兆数据样本进行分析,通过EMD信号分解进一步识别极值数据生成规律。

(三)经验模态分解

根据上文论述,经验模态分解方法把选定的数据样本分解为系列IMF分量和残差项,使用MATLAB软件EMD工具包生成分解结果,如图1、2和3所示。残差项表示的趋势项序列反映研究对象的长期发展趋势,提取的是研究对象内在运行规律,在非线性金融系统中,市场基本发展趋势(低频部分)与随机冲击(高频部分)之间的相互作用正是金融系统中极值数据生成的重要动力因素。经过多次实验和比较,本文呈现了IMF分解层次为3的结果。系统外部因素的微小变化可能导致系统的稳定常态演变成波动态,因此下文通过比较分解序列的差异,识别每一对数据样本的微小变化,提取生成极值数据的主要信息。

第一组中的S1-S2样本EMD分解结果如图1所示。

根据上文对“冲击”“振幅持续增加”和“波峰叠加”的定义,由图1对S1和S2分解的结果可以看出图1(a)中反映随机冲击效应的高频率段IMF1上,时间标尺80至140之间显现出三个较为显著的冲击峰值,为分析方便,图中标出了靠近时间刻度80位置处的其中一个峰值。在中低频段的IMF2和IMF3上虽然没有观测到上文定义的“振幅持续增加”和“波峰叠加”特征,但是在反映市场基本发展趋势的RES序列中观测到在时间刻度80处附近存在显著的“振幅持续增加”的特征,并且这一波动持续了较长的时间,直至观测周期内均没有回复到初始状态的倾向,因此系统在对应位置生成了一个极值,如图中SIGNAL序列中标示。

图2 S3的EMD分解结果

类似分析,在图1(b)中,时间标尺40至100之间,IMF1序列中存在两个显著冲击峰值,图中标出了靠前位置的一个,而IMF3频段上对应时刻观测到一个显著“振幅持续增大”,同时在RES序列中对应时刻还存在一个显著“波峰叠加”,如图中标注,最终SIGNAL序列对应位置生成了极值。

第二组中的S3样本EMD分解结果如图2所示。

由图2对S3分解的结果可以看出高频率段IMF1上,时间标尺80位置显现出一个显著的冲击峰值。在中低频段的IMF3对应位置处存在“振幅持续降低”的特征,与此同时,在RES序列的对应位置存在显著的“波峰叠加”特征,但是由于“振幅持续降低”和“波峰叠加”的作用效果相互抵消,在SIGNAL序列对应位置处没有生成极值。

第三组中的S11-S12样本EMD分解结果如图3所示。

图3 S11-S12的EMD分解结果

由图3(a)对S11的分解结果可以看出,在整个样本时间标尺内,高频段的IMF1序列呈现出多次的冲击峰值,在时间刻度80位置附近,冲击峰值相对集中,冲击效应均比较显著。但是,并非每一次类似强度的冲击都生成了极值。在IMF1序列的时间刻度30到40之间存在冲击峰值,IMF3对应位置处出现“振幅持续增大”特征并且保持较长时间没有衰减,在RES序列对应位置处存在“波峰叠加”特征,最终SIGNAL序列对应位置处生成极值。而在时间刻度80位置处的冲击,由于IMF3存在“振幅持续降低”且RES序列对应位置处没有出现“波峰叠加”特征,SIGNAL序列对应位置最终没有生成极值。

图3(b)中对S12的分解结果显示,在IMF2时间标尺尾部存在冲击峰值,IMF3和RES序列的对应位置处分别出现“振幅持续增大”和“波峰叠加”特征,结果SIGNAL序列对应位置生成极值。特别注意到,在时间标尺100至120之间,IMF1序列中也存在冲击峰值,IMF3和RES序列对应位置存在基本可以认为是“振幅持续增大”和“波峰叠加”的特征,所以SIGNAL序列在100至120之间也存在极值,图3(b)中未做标注。

根据图1、2和3可以看出,每个IMF分量的均值基本都为零,都呈现出不随时间变化的围绕零均值线、局部极大值和极小值基本对称的波动模式。

(四)实证结果分析

在每个图中,残差项RES序列表示的长期发展趋势基本呈现出周期性的变化特征。比较第一组S1-S2样本,图1(a)S1样本的RES序列存在振幅持续增大的特征,这意味着经济的长期发展趋势由稳定状态逐渐演化为不稳定状态,同时IMF1表示的高频序列呈现出一个较强的随机冲击;两者综合效应产生了一个极值观测9.279,具体位置详见图1(a)中的标注。虽然IMF1序列随后又产生了一个类似强度的随机冲击,但是RES序列呈现出稳定的状态,因此这次冲击并没有生成极值,具体表现可参见横坐标120刻度位置的波动特征。图1(b)S2样本的RES序列存在波峰叠加特征,即正常经济周期的繁荣扩张阶段之后没有出现经济调整阶段,而是在繁荣的基础上再次扩张,此时低频IMF3分量序列出现了振幅持续增大的特征,同时系统中存在着显著的随机冲击,综合作用产生了极值观测8.348,具体位置详见图1(b)中的标注。

比较第二组S2-S3,图2(b)S3样本的分解结果,尽管反映长期发展趋势的RES序列存在着波峰叠加的特征,但是由于反映市场基本发展趋势的低频IMF3序列存在振幅持续降低的特征,对冲了长期发展趋势的扩张,尽管存在随机冲击,也没有极值生成,因此原始信号中没有显著的极值点。从描述性分析部分可以知道,S3样本的最大值仅为2.944,远远小于S1、S2样本的最大值。第三组S11-S12的比较结果与上述规律完全相符,特征位置已在图中标出,此处不再赘述。

综上分析,本文认为极值生成的主要特征为反映长期发展趋势的RES序列存在的波峰叠加特征与反映基本发展趋势的低频IMF序列存在的振幅持续增大特征同时存在,据此条件可以确定极值生成时刻,如果波峰叠加特征与振幅持续降低特征同时存在,则不会生成极值。当时随机冲击的强度决定极值的大小,即序列漂移幅度。

极值生成的这种特征具有显著的经济含义,无论是宏观层面的以GDP核算的国民经济总量,还是中观层面的不同产业部门的产出以及微观层面的经济个体的经济行为,均存在着不同程度的周期性特征,在市场机制作用下各个部门的经济活动保持着动平衡状态,极值不容易生成。然而,由于经济系统中的不确定因素,这种周期性特征并非严格保持,无法预知的随机冲击随时会打断这种规律性的生产活动,犹如2020年初的新冠肺炎疫情一样,对原本有序的国民经济活动造成了极为严重的冲击,扰乱了经济系统原有的动平衡状态。当失去动平衡状态的经济系统出现与上文分析相匹配的振幅和波峰变化特征时,极值就可能产生。如果把极值现象比喻为经济系统的一种“病态”表现,这种情况类似于经济系统本身有问题,同时外部冲击造成不利影响,两者结合,极值容易生成。

另外,本文认为系统的随机冲击性因素并非极值生成的决定性条件,并不必然导致极值产生。有研究认为,极值数据的出现并非由市场的基本趋势变化导致,而是由随机冲击性因素造成的,尽管现实经济系统中确实呈现出这种规律性特征,但是这种看法并不全面。类似上文把极值现象视为系统“病态”表现的比喻,经济系统“生病”与否可能与环境的冲击有关,但是环境冲击并非必然能导致系统“生病”,即生成极值。本文的研究表明随机冲击性因素并不必然导致极值产生,由图2中S3样本的分解结果可以看出高频IMF1序列显示存在随机冲击性因素,但是由于系统本身的变化效果存在相互抵消的效应,极值并没有生成。并且,本文认为经济系统的基本发展趋势变化未必不能导致极值产生,没有随机冲击性因素,系统也可以生成极值。类似上文分析,如果系统本身出了问题,自然而然会表现出“病态”特征,即产生极值。如S12样本的分解结果所示,在IMF1表示的高频范围内并没有显著存在不同数量的冲击性激波,但是在系统长期发展趋势RES和基本发展趋势的共同作用下,仍然生成了极值。

综上两点,本文认为极值数据的生成并非主要由随机冲击性因素导致,基本趋势的变化也是导致极值生成的重要因素之一。

五、结论

应用经验模态分解方法,通过前兆数据样本分析,研究金融系统极值识别的工作,目前国内甚少。本文基于频域分析的视角,构建F统计量选择前兆数据样本,根据前兆数据样本的经验模态分解结果,分析极值生成的重要特征,研究极值的识别问题。研究表明不同频率的IMF序列存在的波峰叠加特征和振幅持续增大特征同时存在是极值生成的重要特征,如果波峰叠加特征与振幅持续降低特征同时存在,则生成极值的可能性大大降低,极值的大小由当时的随机冲击强度决定。并且,系统的随机冲击性因素并非极值生成的决定性条件,没有随机冲击性因素,系统也可以生成极值。

本研究有助于金融市场投资者根据极值事件隐含的风险信息设计有针对性的风险对冲策略,及时优化资产投资组合,确定恰当的交易时机;有助于金融监管者厘清风险发生的根源,通过对极值风险信号的分解分析,找到起决定作用的风险影响因素,制定相宜的监管政策。