相依随机事件的度量指标
2010-05-22严忠权
严忠权
(黔南民族师范学院,贵州 都匀 558000)
0 引言
对随机变量相依性度量的研究和文献很多,常见的有度量变量线性相依的Pearson相关系数[1],基于Copula的非线性相依变量的度量指标 kendall’s tau,Spearman’s rhos、Gini’s系数等[2],且这些相依性度量指标在金融、保险、可靠性理论、统计推断与决策等方面得到了广泛应用[3]。纵观所有文献,对随机事件的相依性度量仅有张尧庭的《定性资料的的统计分析》[4]联中将随机事件变量化用列联表,通过卡方检验讨论二事件间的相依与独立。何蕴理[5]对相依事件的度量作了一个简单讨论,在概率与统计的其它文献中仅在讨论独立随机事件时提及“当两个事件不独立时称之为相依”这一概念,没有给出二相依随机事件的度量指标,而相依随机事件却大量存在,建立怎样的指标来度量两个随机事件的相依性及相依程度,这显然是一个很有实际意义和理论意义的问题,本文给出了度量两个相依随机事件的三个相依度量指标:关联系数、相依系数和相关系数,论述了这三个指标的性质,从三个指标所具有的性质可见三个指标定义的合理性和科学性。
1 相依随机事件的关联系数
定义1 设A,B是同一样本空间下的两个随机事件,若P(A∩B)=P(A)P(B),则称随机事件 A,B 相互独立。 若 P(A∩B)≠P(A)P(B),则称随机事件 A,B 是相依的。
定义2 设A,B是同一样本空间下的两个随机事件,称数量 δ(A,B)=P(A∩B)-P(A)P(B)为随机事件 A 与随机事件B的关联系数。若δ(A,B)>0,则称随机事件A与随机事件B是正相依的,若δ(A,B)<0,则称随机事件A与随机事件B是负相依的。
由关联系数的定义可得如下基本性质:
定理1 设A,B是同一样本空间下的两个随机事件,则A与B的关联系数具有性质:
(1)δ(A,B)=0当且仅当随机事件A与随机事件B相互独立;
(2)δ(A,B)=δ(B,A);
(4)δ(ΣAj,B)=Σδ(Aj,B)(ΣAj表示有限或可数个两两相互排斥的事件);
(5)δ(A∪C,B)=δ(A,B)+δ(C,B)-δ(A∩C,B)。
证明:(1)、(2)由 δ(A,B)的定义显然成立。
(4):对于有限或可数个两两相互排斥的事件Aj,j=1,2,…,有
(5):δ(A∪C,B)=P(A∪C)∩B)-P(A∪C)P(B)=P((A∩C)∪(C-B))-P[P(A)+P(C)-P(A∪C)]P(B)=δ(A,B)+δ(C,B)-δ(A∩C,B)
证毕。
由关联系数的定义和定理1有:对任意两个随机事件通过关联系可知它们是独立、正相依、负相依。且两个随机事件独立当且仅当它们的关联系数等于零,关联系具有对称性和类似概率可加性。除此之外,关联系数还有如下系列性质。
由关联系数定义可得如下性质。
系 1:若 A⊂B,A≠φ,则 δ(A,B)=P(A)=P(A)>0,即若 A⊂B,A≠φ,则随机事件A与随机事件B是正相依的;若A与B是互斥事件且均不是不可能事件,则δ(A,B)<0,即互斥事件是负相依的。后面将会看到,其逆不真。
系3:由乘法公式和关联系数的定义有:P(A|B)=P(A)+,从这一表达式可知,当A与B是正相依时,在其中一事件发生的情况下会使另一个事件发生概率增大,而当A与B是负相依时,其中一个事件发生的情况下会使另一个事件发生的概率减小。
定理2 同一样本空间下的任意两个两个随机事件A与B的关联系数满足不等式max{-P(A)P(B),-[1-P(A)][1-P(B)]}≤δ (A,B)≤min{P(A)[1-P(B)],[1-P(A)]P(B)}称 之 为Freshe-Hoefding不等式。 由此得δ(A,B。
由定理1(3),可得如下性质:
系 2:δ(A,A)=-δ(A,A) =P(A)[1-P(A)],即任一事件与它自身是正相依的,而与它的对立事件是负相依的;δ(A,B)=δ(A,B),即任一事件组与它的对立事件组有相同的相依性。
证明:因为 P(A∩B)≤min{P(A),P(B)},所以有
δ(A,B)=P(A∩B)-P(A),P(B)≤P(A)-P(A)P(B)=P(A)[1-P(B)]同时又有:δ(A,B)≤P(B)[1-P(A)]
所以有 δ(A,B)≤min{P(A)[1-P(B)],[1-P(A)]P(B)}
另一方面:由 P(A∩B)≥0、P(A∪B)≤0 有:
δ(A,B)=P(A∩B)-P(A)P(B)≥-P(A)P(B)和
因此有 δ(A,B)≥max{-P(A)P(B),-[1-P(A)][1-P(B)]
如果我们对任一事件A发生与不发生用一个示性指标变量表示:当事件A发生时令IA=1,当事件A不发生令IA=0,则有 E(IA)=P(A),且
Cov(IA,IB)=E(IA,IB)-E(IA)E(IB)=E(IA∩B)-P(A)P(B)=δ(A,B)
因此,两个随时机事件的关联系数是它们的示性指标变量的协方差。
关联系数描述了两个事件的相依关系:独立、正相依、负相依,不能描述两个随机事件的相依程度,因为两个随机事件最强相依应是在A=B的情况,此时,它们的关联系数为
δ(A,B)=P(A)-P2(A)
假如有 A=B 且 P(A)=0.05,则 δ(A,B)=0.0475,又假如 P(A)=0.3,P(B)=0.4,P(A|B)=0.6 则 δ(A,B)=(0.6-0.3)(0.4)=0.12。显然,后者没有前者的相依性强,而后者的关联系数却比比前者的要大。为此,我们定义一个相依度系数用来度量相个随机事件的相依程度。
2 二随机事件的相依系数
由条件概率P(A|B)的定义,当P(B)=0时,条件概率P(A|B)没有定义,为了定义相依度系数,我们规定,当P(B)=0时,P(A|B)=P(A)。
定义3 对同一样本空间下的任意两个两个随机事件A与B,定义rB(A)=P(A|B)-P(A|B)为事件A关于事件B的相依度系数(简称相依系数)。
由相依系数的定义可得计算公式:
由相依系数的定义我们有
定理3 设A、B是同一样本空间下的两个随机事件,则它们的相依系数具有如下性质:
(1)rB(A)=rA(B)=0成立当且仅当与相互独立;
(2)rA(A)=1,rA(A)=-1;
(3)rS(A)=rφ(A)=0;
(4)rB(ΣAj)=ΣrB(Aj);
(5)对任意的 A≠B 有 rB¯(A)=-rB(A),rB)=-rB(A);
(6)对任间两个随机事件 A、B 有-1≤rB(A)≤1;-1≤rA(B)≤1。
由相依系数的定义和定理3可得如下的系。
系4:
(1)当 rB(A)=1 时,由 rB¯(A)=P(A|B)-P(A)的定义,当且仅当 P(A|B)=1,P(A)=0,由此得到 A=B,此时也有 rA(B)=1。因此当rB(A)=rA(B)=1时,A与B最强正相依(当A=B时称A与B最强正相依)。
(2)同理,当 rB(A)=-1 时有 B=,当 rA(B)=-1 有 A=,此时表明A与B是最强负相依。
(4)等式rB(A)=rA(B)成立的充分必要条件是P(A)[1-P(A)]=P(B)[1-P(B)]。
(5)由 rB(A当A与B是正相依时有rB(A)>0、rA(B)>0,而 A当 B与负相依时有 rB(A)<0、rA(B)<0。
(6)当 A⊂B 时,δ(A,B)=P(A)[1-P(B)]=P(A)P(B)>0,则 A与B正相依,且由rB(A)=P(A)/P(B),则有A关于B的相依系数随事件A发生的概率增大而增大且有rB(A)→1(表示向着1方向变化)。 与此同时,,rA(B)=P()。 从而 B 关于 A的相依系数是随事件B的概率的增大而减小。
(7)当 A∩B=φ 时,δ(A,B)=-P(A)P(B),即 A 与 B 互斥时,A与B负相依,且由rB(A)=-P(A)/P),则有A关于B的相依系数的绝对值随事件A的概率的增大而增大且有rB(A)→-1。同样的rA(B)=-P(B)/P(A),此B关于A的相依系数的绝对值也是随事件B的概率的增大而增大且有rA(B)→-1。
(8)当A∩B≠φ时,A与B可以是正相依也可以是负相依。例如:若P(A)=P(B)=0.5,P(A∩B)=0.3,此时A与B是正相依的;但若P(A)=P(B)=0.5,此时A与B是负相依的。
由由定理3和系3可知,相依系数是相依性度量的一个有效指标,正负相依和相依系数的绝对值的变化是与A⊂B,A⊂B,A∩B≠φ以及两个事件独立的程度变化是一致的。
按照相依系数与零的距离,可将随机事件的相依性分为五个等级:当|rB(A)|≤0.05时,A与B几乎独立;当0.05<|rB(A)|≤0.2时,A 与 B为弱相依;当 0.2<|rB(A)|≤0.45时,A 与 B为适度相依;当0.45<|rB(A)|≤0.8时,A与B为一般相依的;而当0.8<|rB(A)|时为强相依的。有了这五个级后,我们在作统计推断决策时就可采用相应的策略。
定理4 相依系数具有下列不等式:
该不等式称之为相依系数的Freshe-Hoefding不等式。
3 二随机事件的相关系数
定义4 设A是B两个随机事件,称
为随机事件A与B随机事件的相关系数,其符号与正负相依的符号相同。
对于相关系数有如下计算公式
定理4 设A、B是同一样本空间下的两个随机事件,则它们的相关系数具有如下性质:
(1)RA,B=0当且仅当随机事件A与随机事件B相互独立。
(2)-1≤RA,B≤1,且 RA,B=1当且仅当 A=B,即 A 与 B 最强正相依,RA,B=-1当且仅当A=,即A与B最强负相依。
(3)RA,B=RA,B=-RA,B;RA,B=RA,B。
由相关系数的定义和定理可得
系5
(1)两个随机事件的相关系数RA,B等于随机事件A与随机事件B的示性指标变量IA与IB的相关系数ρIA,IB。
(2)RAA=1,RAA=-1,RA,S=RA,θ。
(3)相关系数 RA,B可用于计算后验概率 P(B|A)
4 相依指标的估计
两个随机事件相依关系的度量指标:关联系数、相依系数、相关系数分别都是由的概率表示,因此我们可在重复试验下得到它们的估计值。
设在N次独立试验或观测中,事件A发生了kA次,事件B发生了kB次,事件A∩B发生了kA∩B次。则各相依指标的估计分别为:
可以证明上述估计是有效的,无偏的和一致的。
5 相依指标的应用
通过上面对随机事件三个相依指标的讨论,对于同一样本空间下的任意两对随机事件(A,B)和(A,C),我们可用相依系数的绝对值的大小来比较两对事件的相依程度,若
|rB(A)|≤|rC(A)|
则有随机事件A对C的相依程度大于随机事件A对B的相依程度。通过相依程度的比较和上面对相依程度的分级,我们建立相依事件的度量指标可用于公共社会学管理,决策科学、医学统计推断、刑事犯罪侦探学等学科领域的应用。
[1]周概容.概率论与数理统计[M].北京:高等教育出版社,1985.
[2]Roger B.Nelsen Antroduction to Copulas[M].New York:Springer,2006.
[3]张尧庭.连接函数(copula)技术与金融风险分析[J].统计研究,2002,(4).
[4]张尧庭.定性资料的的统计分析[M].南宁:广西大学出版社,1991.
[5]何蕴理.随机事件的相依性[J].西安统计学院学报,1994,(2).