APP下载

随机右截尾保险寿命数据的非参数回归估计

2012-09-26张天永

统计与决策 2012年11期
关键词:线性寿命函数

孙 荣,张天永

0 引言

作为寿险精算基础的寿命表是最早应用处理寿命数据的一种统计分析工具,它的使用可追溯到300多年前。由于人口统计学的发展,特别是人寿保险数学的发展,寿命数据的分析逐渐采用现代统计理论和方法,包括参数统计与非参数统计的方法。一般的寿命数据与统计中通常使用的随机样本有很大区别。寿命数据往往是不完全数据,即并不是每一个观测到的值都是确切的寿命值,某些数据可能只表示相应个体的寿命不小于该数值,而并不知道其确切寿命的数值,这样的数据称为截尾数据。在保险实务中,截尾数据的出现不可避免,比如:寿险模型中投保人提前退保就会导致被保险人的实际寿命出现截尾。截尾数据可分为三种类型,前两种分别是定时截尾和定数截尾,这两种截尾决定截尾发生的参数是确定的,而第三种截尾称为随机截尾,即截尾时间本身是一个随机变量[5][6]。对随机截尾数据回归函数m(X)=E[Y|X]的估计方法主要有三种:线性回归模型、非参数回归模型、半参数部分线性回归模型。在文献[5]中阐述了局部线性回归、加权局部线性回归等非参数方法。

Fan and Gijbels(1994,1995,1996),胡舒合(1995),王启华(1996),杨善朝(1999),Jangjiang ch eng、Chengbo and Wuxizhi(2002),Ghou ch Anouar EL and Keillegom,Ingrid Van(2008),Zohra Guessoum and Elias Ould Said(2010)等对随机截尾数据回归函数的核估计进行了讨论。廖靖宇、薛留根(2007)对随机截尾下回归函数最近邻估计的强收敛速度进行了分析,Zhou yong、Zhulixing(1998)提出了一种近邻估计,并对这种估计的强收敛性进行了分析,由此可见,对于随机截尾非参数回归估计,运用核估计方法分析的多,运用最近邻估计分析的相对较少,对于核估计而言,需要考虑核函数的确定,窗宽的选择等问题,而最近邻估计不涉及这样的问题,更加适用,故本文对保险模型中的寿命数据在随机右截尾假定下,运用bagged最近邻估计与kn-最近邻估计方法进行随机设计的非参数回归估计,并对估计通过随机模拟方法进行精度检验。

1 模型设定

假定(Xn(1),…Xn(kn))代表x的第kn个最近邻(本文‖·‖取 Euclid模,‖v‖s=(∑vsni)1s),其中 Xn(1)代表最接近x。YRi代表 Xn(i)对应的Y,kn-最近邻估计为:

bagged最近邻估计是将Breinman 1996年提出的bagging(boots tr ap aggregating)原则与1-最近邻估计相结合而产生的一种估计方法[1][2]。Friedman and Hall(2000)[1],Bühlmann and Yu(2002)[9],Hall

and Samwor th(2005),Buja and Stuetzle(2006),Biau and Deveroye(2008)[2]对 bagging(boots tr ap aggregating)在估计与分类等方面的理论与相关方法进行了论述。

k表示每次再抽样的样本容量,是n的函数。令:

在不重复抽样条件下,vni=P(x的第i个最近邻在一次随机抽样中成为x的第一个最近邻),则bagged最近邻估计应为:

本文设Y1,Y2,…Yn表示非负独立同分布的保险模型中个体寿命随机变量。其分布为F,C1,C2,…Cn表示非负独立表示截尾的随机变量,具有分布为G。,类似可定义TG,约定c为与n无关的常数,且每次出现可能表示不同的常数。假定Ci与Yi相互独立,在随机右截尾模型中,Y1,Y2,…Yn不能够被完全观测,而仅能够观测到:

当G已知时:令

则由[5]可知:E(Ŷi|Xi)=E(Yi|Xi)=m(Xi)

故认为:Ŷi=m(Xi)+εi

其中:Xi是 p维协变量随机向量,εi是相互独立随机误差序列满足E[εi|Xi]=0,

故:随机右截尾的m(x)的bagged最近邻估计为:

随机右截尾的m(x)的kn-最近邻估计为:

当G未知时:令

令:Y͂i=δiZi/1-Gn(Zi)

随机右截尾的m(x)的bagged最近邻估计为:

随机右截尾的m(x)的kn-最近邻估计为:

式(5)(6)(7)(8)中ŶRi与Y͂Ri代表与 X(i)n排序相对应。

2 主要结论

文献[1][2]中分别对完全数据的bagged最近邻估计的2阶收敛速度进行了分析,本文主要运用[3]中ε相对[4]宽松的矩条件得到了随机右截尾的bagged最近邻估计与kn-最近邻估计的逐点收敛速度。

假定:(1)X、m有界,m满足Lip sch itz条件,即∀x∈U(x';δ) |m(x)-m(x')|≤M | x-x'|

(4)E‖ε‖r<∞ 当Borel-Cantelli

引理1[4].设F、G连续,TF<TG≤∞,则:

若Y 有界,且TF<TG≤∞ ,T≥a a.s.(a为某实数)则对:∀n≥1

若Y 有界,则对:∀n≥1

3 随机模拟

基于模拟数据的考虑,在假设为一元模型条件下对随机右截尾的bagged最近邻估计与kn-最近邻估计的拟和精度进行分析。

假设某随机右截尾的保险模型个体寿命Yi=30+60X2i(1-Xi)+εi

其中:Xi~U[0,1] εi~N[0,1],Ci~U[30,50]

运用MatlabR2009a进行随机模拟,步骤:

(1)生成样本为 n=100,((2.1)kn=21,(2.2)k=80)满足如下分布条件的三个随机序列:

Xi~U[0,1]εi~N[0,1],Ci~U[30,50]

(2)分别计算与每个Xi最近的21个Xj(j≠i)

(3)生 成 kn( n-k+1)个 Xj(j≠i)序 列=30+60(1-Xj)+εj

(4)根据(2.3)生成 Zj=min(Yj,Cj)

(5)根据(2.4)计算Ŷj=δjZj/1-G(Zj)

(6)分别根据(2.5)(2.6)计算每个Xi的m(xi)的两种最近邻估计

(7)分别重复上述过程100、200次,计算两种估计的相对误差 Δ1i= | Yi-m̂1(xi)|/| Yi| 、Δ2i= | Yi-m̂2(xi)|/| Yi| )、平均相对误差与总平均相对误差

表1 重复100、200次的估计相对误差表

图1 bagged最近邻估计拟合图:n=100 c=10,k=80 Δˉ=6.984×10-4

[1]G.Biau,F.C'erou,A.Guyader.On the Rate of Convergence of the Bagged Nearest Neighbor Estimate[R].French,INRIA,2009.

[2]Biau,G.,Devroye,L.On the Layered Nearest Neighbour Estimate,the Bagged Nearest Neighbour Estimate and the Random Forest Method in Regression and Classification[R].French,Universit'e Pierre et Ma⁃rie Curie,2008.

[3]Heng Lian.Convergence of Functional K-nearest Neighbor Regres⁃sion Estimate with Functional Responses[J].Electronic Journal of Sta⁃tistics,2011,(5).

[4]Luc Deveroye.On the Almost Everywhere Convergenceof Nonparamet⁃ric Regression Function Estimates[J].The Annals of Statistics,1981,(9).

[5]王启华.生存数据统计分析[M].北京:科学出版社,2006.

[6]刘力平.生存数据分析的统计方法[M].北京:中国统计出版社,1998.

[7]谢志刚,韩天雄.风险理论与非寿险精算[M].天津:南开大学出版社,2000,(9)

[8]Sanjeev R.Kulkarni,Steven E.Posner.Rates of Convergence of Nearest Neighbor Estimation under Arbitrary Sampling[J].IEEE Tranaction on Information Theory,1995,(41).

[9]B¨uhlmann,P.,Yu,B.Analyzing Bagging[J].The Annals of Statistics,2002,(30).

[10]胡舒合.截尾数据的非参数回归函数的核估计[J].数学物理学报,1995,(15).

[11]J.Fan,I.Gijbels.Local Polynomial Modeling and its Application[M].London:St Edmundsbury Press,1996.

猜你喜欢

线性寿命函数
渐近线性Klein-Gordon-Maxwell系统正解的存在性
人类寿命极限应在120~150岁之间
二次函数
第3讲 “函数”复习精讲
线性回归方程的求解与应用
二次函数
函数备考精讲
仓鼠的寿命知多少
马烈光养生之悟 自静其心延寿命
二阶线性微分方程的解法