APP下载

非寿险精算中的数据尾部拟合与保费厘定

2011-10-24刘曼莉李兴绪

统计与决策 2011年4期
关键词:帕累托寿险尾部

刘曼莉,李兴绪

(云南财经大学 统计与数学学院,昆明650221)

非寿险精算中的数据尾部拟合与保费厘定

刘曼莉,李兴绪

(云南财经大学 统计与数学学院,昆明650221)

文章讨论了极值分布对非寿险精算中损失数据尾部的拟合和保费厘定方法,并进行了实例计算。研究表明:必须对应用极值分布的条件进行检验;对门限值确定的三种方法中自适应选择算法是较好方法;广义帕累托分布参数MLE估计能得到比较精确的估计结果。文章还给出了非寿险损失的超赔再保险纯保费的计算方法。

广义帕累托分布;尾部拟合;保费厘定;非寿险

0 引言

非寿险是指除人身保险以外的保险业务,主要包括财产保险、责任保险、信用保险、保证保险等,在我国通常把非寿险称为财产保险,也就是采用了所谓的广义的财产保险的概念。非寿险产品的设计以非寿险精算为基础。非寿险精算主要是以非寿险中的不确定性为研究对象,通过建立随机模型对险种损失进行刻画,研究未来的理赔规律,在此基础上建立费率厘定和准备金提取等方面的理论基础;通过对险种的赔付数据进行收集和分析,确定未来的费率结构,根据历史数据利用合理方法确定准备金提取的额度及安排合理的再保险方式等。精算在险种的开发设计、费率厘定到准备金的提取以及再保险等方面都起到了核心作用。

非寿险精算工作的基础是损失数据分布拟合,在对非寿险损失数据分布拟合中,经常会遇到一些损失数额巨大的观测值,一般的方法只能对数据分布的中心部分得到一个精确的数据生成过程,而不能很好拟合数据的尾部,即那些损失数额巨大的观测并没有得到精确的数据生成过程。面对这样的问题,将那些损失数额巨大的观测值视为异常点而不予考虑,固然可以得到一个相对漂亮的模型,但对非寿险企业的全面、客观的风险控制和精算过程来说却是极为不科学的。王新军[1](2001)对非寿险中的损失分布拟合方法进行了讨论,但没有考虑数据尾部的拟合方法;Alexander J.McNeil[2](1997)利用极值理论讨论了非寿险数据的尾部拟合问题,但没有对极值理论的应用条件进行检验;Alexander J.McNeil[3](1998)还进一步研究了利用极值理论和超越门限值的方法(Peak Over Threshold,简称POT)对非寿险数据尾部拟合的有效性。已有的研究成果,强调利用极值理论来拟合非寿险数据尾部,而忽视了对其应用条件的检验和最优门限值的选取研究。本文拟结合实际数据,重点讨论非寿险数据尾部拟合中极值理论应用条件检验和最优门限值的选取问题,给出险位超赔再保险的纯保费计算方法,以期能对非寿险损失的精算问题有所借鉴。

1 研究方法及过程

在非寿险损失分布的拟合过程,首先要做的工作是判断损失数据是否存在一个厚尾,如果损失数据不具有厚尾,一般的正态分布或者对数正态分布就能够对损失数据的尾部进行精确的描述;其次,一旦确定损失数据的尾部的确存在厚尾,方法之一是应用极值理论中的广义帕累托分布来拟合损失数据;但并不是所有存在厚尾的数据都可以应用广义帕累托分布来拟合,必须进行应用条件的最大吸引域条件检验;再次,在确定可以使用广义帕累托分布来拟合存在厚尾的数据之后,一个重要的问题就是对损失数据进行分割,即找到一个科学的、适当的门限值。只有找到了一个恰当的门限值,对广义帕累托分布的参数估计才能得到一个合理的结果。

1.1 厚尾的检测

对损失数据是否存在厚尾的检测方法主要有:指数QQ图和平均超出函数。

(1)指数QQ图。对损失数据与标准的指数分布作QQ图是判断损失数据是否存在厚尾的重要方法之一,它可以直观的检验损失数据是否来自于指数分布的原假设。QQ图可以写为下面的形式:

其中,Xk,n表示顺序统计量,G0,1-1表示指数分布 (或者广义帕累托分布)。

如果损失数据来自于一个指数分布,那么QQ图将近似于一条直线。一般地,一个凹面的偏离直线的QQ图被认为是损失数据存在厚尾的分布特性;一个凸面的偏离直线的QQ图被认为是损失数据存在短尾的分布特性。

(2)平均超出函数。平均超出函数是对损失数据厚尾进行检测的方法之一。定义为:

其中,Fu(x)=F[u](x+u)=,x≥0

当平均超出函数表现为一条直线时,认为损失数据存在厚尾。但平均超出函数总体上是未知的,在实际应用中用样本平均超出函数来近似。样本平均超出函数为:

{(u,en(u)),Xn,n

其中,en(u)=,Xn,n为顺序统计量。

1.2 最大吸引域检验

在对样本极值进行研究中被证明十分重要的分布是极值分布族。这个极值分布族可以表示为:

其中 γ,-∞<μ<∞,∞>0,这个模型有三个参数:位置参数μ,刻度参数σ,形状参数γ。形状参数γ称为广义极值分布(GEV)的极值指数,也称为尾指数;作为广义极值分布的三个特例,当 γ>0时为 Fréchet分布;当 γ<0时为 Weibull分布;当γ=0时为Gumbel分布。在广义极值分布中,我们的任务就变为通过数据推断极值指数,而不需要预先确定极值分布的形式。

Fisher-Tippett定理 假设有来自分布F的相互独立的随机观测X1,X2…Xn…,将前n个观测值的最大值表示为Mn=max(X1…Xn),那么如果存在适当的常数列an>0和bn,使得正态化的极大值序列(Mn-bn)/an,收敛到下面的非退化分布G(x),即有成立。如果这个条件成立,则称分布F属于极值分布G(x)的最大吸引域,表示为F∈MDA(G)。Fisher-Tippett[6](1928)年证明:

F∈MDA(G)圯G对于某个形状参数γ成立

使得条件(1)成立的分布F有很多,但是并不是所有的分布都能满足条件(1),例如poisson分布和几何分布就不属于极值分布的最大吸引域。

在上面的定义下,极值最大吸引域检验的原假设可以表述为:

H0:F∈D(Gγ)for somereal γ

Dietrich et al[7](2002)年提出了一个检验统计量,记为En,这个统计量定义为:

对于某个η>0,统计量En收敛到下面的分布

其中 γ+=max(γ,0),γ-=min(γ,0),W 是一个布朗运动,随机变量 P 和 P 是与布朗运动有关的积分。和分别是对 γ+和γ-的估计量,在这里估计方法被指定为矩估计。因此,随机变量Eγ只与γ和η的取值有关。为了完成检验,首先必须选择一个适当的η值,这个问题Dietrich et al(2002)只讨论了η=2 的情况,Jürg Hüsler和 Deyuan Li[8](2006)对最优 η 的选择问题进行了详细讨论。在确定了η的值之后,必须利用矩估计计算和,然后计算(2)中的检验统计量。接下来要计算分布 E赞对应的分位数 Q赞,如果赞<0,必须利用 线 性插值来 计

γ1-α,γ算分位数 Q1-α,γ赞。

其中,γ赞=γ赞++γ赞-。 最后,将检验统计量的值与临界值比较,α 为置信水平,如果En>Q1-α,γ赞,那么在犯第一类错误为 α 的水平下,拒绝原假设。

1.3 门限值的选取

门限值的选取在广义帕累托模型建立中具有十分重要的地位,如果门限值选取的过大,那么模型将建立在极少的观测点上,结果通常是偏差比较小,却存在这很大的方差;如果门限值选取的过小,那么模型将建立在比较多的观测点之上,随之而来的一个问题是虽然估计有比较小的方差,但偏差却可能很大。因此,对门限值的选取一直是一个难点和热点。

常用的门限值选取方法就是样本平均超出函数。当样本平均函数尾部在超过某一个点后呈现为一个正斜率的直线时,通常认为损失数据存在尾部,并且将这个拐点作为门限值。

对门限值选取的另一种方法就是观测Hill指数图。Hill指数图就是不同的门限值与相对应的Hill估计绘制的图形,通过观测Hill指数图中门限值从大到小时,所对应的Hill估计的第一个平稳区域来选择门限值。Bruce.M.Hill[9](1975)年在γ>0的条件下构造的形状参数的非参数化估计方法,Hill估计的形式为:

Hill估计γ赞nH既可以基于最大似然估计得到(Hill(1975)),也可以通过平均超出函数得到(P.Embrechts[10]等人(1997))。本文应用超越门限值数据个数的自适应选择算法来选择门限值。令γk,n表示基于k个超越门限值的数据个数的形状参数估计值,用med(γ1,n,…γk,n)表示这组形状参数估计的中位数,通过最小化下式就可以选择出一个k*:

1.4 广义帕累托分布的参数估计

在极值理论中对超越一定门限值的数据进行描述的一个分布是广义帕累托分布,它可以表示为下式:

广义帕累托分布也可以表示为三个子分布:在γ=0时为指数(Exponential)分布,当 γ>0 时为帕累托(Pareto)分布,当γ<0 时为贝塔(Beta)分布。

Balkema-de Haan-Pickands定理 定义分布F的右端点为ω(F):=sup(x:F(x)<1),那么超越一个门限值之后的截断超越门限值u分布函数可以定义为:

对于0≤x<ω(F)-u成立。Balkema和de Haan[11](1974),Pickands[12](1975)证明了在满足极值理论最大吸引域条件下,当门限值趋于分布的右端点时,广义帕累托分布是这些超越门限值数据的极限分布。即有:

|Fu(x)-Wγ,u,σu(x)|→0,u→ω(F)当且仅当F∈MDA(G)时成立。

在X1…Xn独立且服从广义帕累托分布的条件下,广义帕累托分布的极大似然估计方法必须在一个迭代算法下才能得到结果,有关帕累托分布的极大似然估计方法请参考Prescott,P.and Walden,A.T[13](1980)。 此外,Smith[14](1985)详细研究了这个问题并得到了如下结论:

当γ>-0.5时,最大似然估计是正则的,在这个意义下具有通常的渐近性质。在广义帕累托分布中,(γ,σ)的极大似然估计具有渐近正态性,其具有方差协方差矩阵为∑/k。其中:

如果 γ>1/2,γ赞k的渐近方差为(1+γ)2/k。 当-1<γ<-0.5 时,最大似然估计一般可以得到,但不具有标准的渐近性质;当γ<-1时,最大似然估计一般不可能得到;幸运的是,在实际建模中,γ<-0.5很难碰到,特别是在保险中,均有γ>0。所以最大似然估计在理论上的局限性并不妨碍其在保险精算实务中的应用。

1.5 尾部拟合

如果可以用一个广义帕累托分布来拟合超越门限值u之后的截断超越门限值的条件分布函数,Resis和Thomas[15](1996)证明也可以用广义帕累托分布来描述损失数据分布的尾部,即有:

F(x)=P(X≤x)=(1-P{X≤u})Fu(x-u)+P{X≤u}(x≥u)

在门限值趋于右端点的条件下,可以用一个广义帕累托分布Wγ,u,σu(x)来估计Fu(x-u)。此外可以用经验分布函数来估计P{X≤u}。那么在x≥u条件下,就可以得到损失数据分布函数的尾部估计为:

很显然,F(x)也是一个广义帕累托分布,并且与超越门限值之后的截断超越门限值分布函数有相同的形状参数,只不过位置参数和刻度参数进行了适当的调整。

表1 描述统计表

1.6 保费厘定

假设所研究的保单是同质的,并且其理赔次数分布服从泊松分布,而理赔额分布在超越门限值后服从广义帕累托分布。那么,可以计算险位超赔再保险(Excess of loss)的纯保费。所谓险位超赔再保险就是如果发生的保险赔款在保险公司的自负金额之内,则由保险公司自己负责赔偿;若发生的保险赔款超过了保险公司的自负额,则由再保险公司赔付。

令F=Wγ,u,σ是一个广义帕累托分布,E(X)是广义帕累托分布的均值。那么复合泊松分布的均值,即纯保费就是:

从式(5)就可以看出,要计算纯保费,我们必须得到参数λ,γ,σ的估计值。注意到索赔次数的均值λ=E(N),可以由下面公式估计:

如果用γN(T)和σN(T)表示广义帕累托分布的形状参数和刻度参数,那么广义帕累托分布WγN(T),u,σN(T)的均值可以表示为:

注意到此时的广义帕累托分布就是理赔额分布,那么表达式(7)实际上给出了相应的再保险公司平均理赔额。因此,在复合泊松假设下,再保险公司的纯保费可以由下面公式给出:

2 实例计算

2.1 数据来源及描述

数据来源于云南省职工医疗互助中心2006年共9193个损失数据(不包括损失少于1000元的数据),首先对数据的基本统计特征进行分析。

平均来说,损失额的均值为9.85千元 。通过对1/4分位数、1/2分位数和3/4分位数的比较不难看出,1/2分位数与3/4分位数之间的变动比1/4分位数与1/2分位数之间的变动要大;数据最大值为781.70千元,显然这是十分巨大的损失数据,是平均损失的数十倍;此外,从偏度系数和峰度系数可以看出,数据是右偏且尖峰的。所有的这些特征说明,数据是一个尖峰的、右偏的、具有典型的非寿险损失分布形状的分布。

2.2 对数据厚尾的检测

对损失数据作指数QQ图(见图1)。可以看出,损失数据与指数分布之间存在这一个凹面的偏离,这说明数据存在这厚尾特征。

下面给出平均超出函数图与损失数据的样本平均超出函数图(见图2)。

从平均超出函数图与样本平均超出函数图可以看出尾部损失数据应该可以用一个广义帕累托分布来拟合。

通过上面的指数QQ图和样本平均超出函数图可以初步判断,损失分布具有一个厚尾特征并可以用广义帕累托分布来拟合。

2.3 最大吸引域检验

利用Dietrich et al(2002)年提出了一个检验统计量,记为En,来检验是否满足极值分布的最大吸引域问题。在计算检验统计量的时,令k为升序顺序统计后部观测的个数。在这里令最小的k=20,因为如果值很小,将得到方差很大的形状参数估计值,最大的k=1000,它大约占总观测个数的10.88%。因为如果过大,将不能满足极值定理成立的条件。并让以等差为5的序列递增,并计算相应的检验统计量。

从图3可以看出,当k的取值比较小的时候,没有充分的理由拒绝分布属于极值分布的最大吸引域的原假设,即认为 F∈MDA(Gγ)成立,为了能够准确的确定使 F∈MDA(Gγ)成立的K值,可参见图4对应的数据表,其中给出了升序顺序统计量后部数据的个数k,正态化参数,an,bn检验统计量等值。从表中可以看出满足极值分布最大吸引域的k值为345。因此,En统计量也为选取符合极值分布最大吸引域条件的最大k值选取提供了重要信息。

由上面的检验结果可以看出,选择的k值小于等于345的时候,可以认为损失分布的潜在分布属于极值分布的最大吸引域,即 F∈MDA(Gγ)成立。

图1 指数QQ图

图2 平均超出函数图(左)与样本平均超出函数图(右)

图 3 En检验统计量图

2.4 门限值的确定

一个常用的直观的门限值选择方法就是样本平均超出函数,图2已经给出了全部损失数据的样本平均超出函数图。下面对样本升序顺序统计量的后1000个数据作平均超出函数图(见图4),以期能对数据尾部有一个更加准确的把握,之所以选择K=1000,是因为它约占总样本的10.88%。一般认为,K选取应该满足使它占总样本的比例在10%左右。

从图5可以看出,总的来说损失数据的尾部平均超出函数图比较复杂,从右向左看,从最右端点到图形中“▽”所表示的点的位置之间似乎有一个相同的斜率;而从“▽”到“◇”之间的点似乎有一个更大的斜率;通过计算找出对应的门限值依次为41.6和38.6;相应的升序顺序统计后部数据点个数依次为158和186,并不能确定到底选取哪个门限值比较合适。

图4 k=1000时的样本平均超出函数图

图5 Hill指数图

对门限值选取的另一中方法就是通过观测Hill图。对=1000时的数据作Hill图,(见图5)所示,从图中可以看出,“□”内所标识的部分是Hill估计的第一个比较平稳的部分,此外图中还给出了Hill估计的95%的置信区间,我们选择估计值比较平稳而且标准差比较小的点作为门限值。通过Hill估计表可以得到这个稳定区域对应的门限值为(37.01,40.28),相应的 k 值为(206,165)。 此外,值得注意的是,在这个门限值区间内对应的尾指数α的估计值取值在(2.42,2.37)之间。

综合样本平均超出函数图和尾指数的Hill估计图,可以对门限值的选取有一个初步的判断,可以初步判定门限值应该位于(37.01,41.58)之间。本文利用自适应选择算法,且形状参数估计γk,n使用最大似然估计,对门限值的选取结果为41.12(k=162),在样本平均超出函数图和尾指数的Hill估计图判定的门限值区间内。

2.5尾部拟合——广义帕累托模型的估计

通过前文研究,可以认为职工医疗互助损失数据具有厚尾特征,通过最大吸引域检验认为可以用极值理论的分布来拟合尾部数据,利用样本平均超出函数图、尾指数的Hill估计图和自适应选择算法确定了数据尾部的门限值。下面利用极大似然估计法来估计数据尾部的广义帕累托模型参数(见表 2)。

表2 广义帕累托模型的极大似然估计结果

可以通过截断分布拟合、尾分布拟合、残差分布以及残差拟合等来进行进一步的检验模型拟合情况。

其他估计方法的估计效果比较见图7。极大似然估计(MLE)最接近样本平均超出函数,Dress-Pickands估计和Moment估计分别位于样本平均超出函数的上部和下部,Hill估计显然低估了尾部的厚尾程度。总的来说,用极大似然估计得到了比较精确的估计结果。此外,从图7可以看出样本平均超出函数虽然有一些波动,但是总的趋势是向上的,这保证了广义帕累托分布拟合的有效性。

图 6 截断分布拟合图(1)、尾部分布拟合图(2)、残差分布图(3)、残差拟合检验图(4)

图7 不同估计方法下的广义帕累托分布所对应的平均超出函数

2.6 纯保费的计算

在职工医疗互助损失数据尾部广义帕累托分布拟合的基础上,计算尾部损失数据的纯保费,首先给出平均理赔次数的估计(0.0678),然后利用公式(7)和(8)估计纯保费,估计结果为:再保险公司的平均理赔额为74.59千元,再保险纯保费为5.06千元。

3 结论

论文对非寿险精算中损失数据尾部的拟合方法和保费厘定进行了研究,贡献在于:第一,系统地介绍了非寿险精算中损失数据尾部的拟合和保费厘定方法,并给出了实例计算;第二,认为在用极值理论的分布族中的分布来拟合尾部数据时,必须对应用极值理论的条件进行检验,论文系统介绍了最大吸引域的条件检验方法;第三,对门限值得三种方法 (样本平均超出函数图、Hill指数图和自适应选择算法)进行了比较,认为自适应选择算法选取方法是最优的选取方法,利用这一方法给出的最优门限值将能充分保证广义帕累托分布中形状参数估计的稳定性;第四,结合实例对数据尾部的广义帕累托分布参数估计方法(Dress-Pickands估计、Moment估计、Hill估计和MLE估计)进行了比较,认为MLE估计得到了比较精确的估计结果;第五,充分利用广义帕累托分布的性质和优点给出了非寿险巨额损失的超赔再保险的纯保费计算方法。本文的研究对于实际工作者来说具有一定的参考价值,但论文没有对非寿险损失分布的厚尾在不能利用极值分布时的拟合问题开展讨论,这是一个有待进一步研究的问题,也是笔者将进一步研究的方向。

[1]王新军.财产保险中损失分布建模的方法研究[J].统计研究,2002,(11).

[2]Alexander J.Mcneil.Estimating the Tails of Loss Severity Distribution Using Extreme Value Theory[J].ASTIN Bulleitin,1997,27.

[3]Alexander J.McNeil,Thomas Saladin.Developing Scenarios for Future Extreme Losses Using the POT Model[J].Extremes and Integrated Rist Managemeat,1998.

[4]Fisher,R.A,Tippet,L.H.C.Limiting Forms of the Frequency Distribution of the Largest of Smallest Member of a Sample[J].Proc.Camb.Phil.Soc,1928,24.

[5]Dietrich,D.,de Haan,L.,Hǜsler,J.Testing Extreme Value Conditons[J].Extremes,2002,5.

[6]Jürg Hüsler.,Deyuan Li.On Testing Extreme Value Conditions[J].Extremes,2006,(9).

[7]Hill,B.M.A Simple General Approach to Inference about the Tail of a Distribution[J].Ann.Statist,1975,(3).

[8]Embrechts,P.,Kluppelberg,C.,Mikosch,T.Modelling Extremal Events for Insurace and Finance[M].New York:Springer,1997.

[9]Balkema,A.A.,de Haan,L.Residual Life Time at Great Age[J].Ann.Probab,1974,(2).

[10]J.Pickands.Statistical Inference Using Extreme Value Order Statistic[J].Ann.Statist,1975,3.

[11]Prescott,P.,Walden,A.T.Maximum Likelihood Estimation of the Parameters of the Generalized Extreme-Value Distribution[J].Biometrika,1980,67.

[12]Smith,R.L.Maximum Likelihood Estimation in a Class of Nonregular Cases[J].Biometrika,1985,72.

[13]R.D.Reiss,M.Thomas,Statistical Analysis of Extreme Values with Applications to Insurance,Finance,Hydrology and other Fields[M].Switzerland:Springer Science,2007.

(责任编辑/亦 民)

O21

A

1002-6487(2011)04-0014-05

猜你喜欢

帕累托寿险尾部
船舶尾部响应特性试验与计算
Lévy模型下的最优寿险、消费和投资
成都经济区极端降水广义帕累托分布模型研究
设立合资人寿险企的实务分析
海洋大探险
审判工作量何以最优:民事审判单元的“帕累托效率”——以C市基层法院为例
定期寿险和终身寿险哪个好
万峰痛批寿险乱象
帕累托最优
弯式尾部接头注塑模具设计