APP下载

对剔除离群数据准则的探讨

2015-07-07赵成钢

科技与创新 2015年10期

赵成钢

摘 要:在精密测量中,处理测试数据时,需要采用科学的方法剔除可疑离群数据,以保证测量结果的可靠性。简要论述了常用判断准则——莱特(3δ判据)、肖维勒、格拉布斯和t检验4个准则的相关内容,从准则的定义出发,比较了各准则之间的区别和联系,并保留了数据域的宽窄,提高对其的理论认识,以便在日后的数据处理工作中更好地使用这些准则。

关键词:精密测量;离群数据;判断准则;数据域

中图分类号:TB114 文献标识码:A DOI:10.15913/j.cnki.kjycx.2015.10.003

1 判断准则的数学形式

重复测量某物理量的精度n次,得测得值X1,X2……Xn;某测得值的残余误差的绝对值大于标准偏差δs与判别系数T之积,即:

.

由此可知,该误差为粗大误差,测得值Xd为离群数据,应剔除。

式(1)中:

采取t检验准则时,剔除可疑离群数据Xd后,计算算术平均值和标准偏差为:

4个判断准则都有与式(1)相同的判别式,只是其中的判别系数T不同而已。

2 判别系数T的确定

2.1 莱特准则

在莱特准则下,规定T=3显然有其合理性。

对于服从正太分布的随机误差,任意区间(-Δ,Δ)的差落在该区间的概率为:

拉普拉斯函数为:

当Δ=3δ时,2φ(3δ/δ)=0.997 3. 这说明,其残余误差落在区间(-3δ,3δ)以外的概率仅为0.27%,即经过370次测量才会出现一次,对于有限次测量来说,可以认为这是不可能发生的。由于3δ判据实质上是建立在n→∞基础上的,所以,当n有限时,特别是当n比较小时,这一判据并不是十分可靠的。同时,又因为δ是δ的估计值,δ的精密度与测量次数n有关,所以,在使用过程中,处理n比较大的数据群为好。

从另一个角度也可以说明,n取比较大的值为好。在等精度的n次重复测量中,如果只有一个测得值的残余误差|Xd-X|

超出某一界限±Tδ,而相应的概率Pa=1-2φ(T)=1/n,则按正态分布规律可知,此值的残余误差为正常超出,因为n个等精度测得值中出现一个的概率恰好是1/n.这说明,此值中含有随机误差,但是,不含疏忽误差。如果按以上条件算出的概率Pa值小于1/n很多,则上述正常超出的可能性便会减小,而含有疏忽误差的非正常超出的可能性便会增大。

对于莱特准则,可估算,取Pa=1-2φ(3)=1/n,则有n=1/(1-0.997 3)=370.

这说明,莱特准则可用于n比较大的测量数据群。经验表明,一般n≥50,即可选用莱特准则判别。

2.2 肖维勒准则

Pa为残余误差落在(-Tδ,Tδ)以外的概率,则:Pa=1-2φ(T).

规定当Pa=1/2n时,则判别该测得值的残余误差为含有疏忽误差的非正常超出,所以,应将该值剔除。

由此可得:Pa=1-2φ(T)=1/2n.

其中,φ(T)=(2n-1)/4n.

由n和拉普斯函数可得肖维勒准则的T值。

由此可知,肖维勒准则是莱特准则的改进,T判别系数从定值修正为一个与n有关的参数,n增加,T相应增大,n越小,保留数据域就越小。

对于肖维勒准则,可估算,取2φ(T)=(2n-1)/2n=0.975,则有n=20;取2φ(T)=(2n-1)/2n=0.997 3,则有n=185.

由此可知,肖维勒准则可用于测量次数比较少的数据群离群数据判别。经验表明,一般n=20-100,即可用肖维勒准则判别。

2.3 格拉布斯准则

由正太分布原理可知,选定一个危险率α.一般选5.0%,2.5%,1.0%,从而建立起T=λ(α,n)的函数关系。

在该函数关系中,λ(α,n)为测量次数;n为危险率是α时的统计临界值,可查λ(α,n)表而得。经过分析后可知,λ(α,n)值随α增大而减小,随n增大而增大。

考虑到危险率α和测量次数n双因子,给出了比较严格的结果[λ(α,n)来源推导复杂约],所以,该准则可用于测量次数n比较少的数据群可疑离群数据的判别中。

一般经验表明,该准则用于n≤25的测试数据群的可疑数据判别中。

2.4 t检验准则

t检验准则是应用分布原理合理检验测量数据的又一种方法。该准则与格拉布斯准则一样,考虑到危险率α和测量次数n,建立起T=k(α,n)的函数关系。

在该函数关系中,k(α,n)为测量次数;n为危险率是α时的统计临界值,可查k(α,n)表而得。经过分析可知,k(α,n)值随α增大而减小,随n增大而减小。

考虑到危险率α和测量次数n双因子,给出了比较严格的结果[k(α,n)来源推导约],所以,该准则可用于测量次数比较少的数据群可疑离群数据的判别。

一般经验表明,该准则可用于n≤20的测试数据判别中。

那么,格拉布斯准则与t检验准则有什么关系呢?可以从计算标准偏差严格的较差公式出发进行推证:

令:

由λ(α,n)和k(α,n)数表可知,λ(α,n)随n的增加单调增加,k(α,n)随n的增加单调减少。当n增大到一定数字时,λ(α,n)>k(α,n).由式(15)可得,B>A,A>λ(α,n),则B>k(α,n).

由式(20)可知,在k(α,n)>λ(α,n)的情况下,计算并对照λ(α,n)表和k(α,n)表得,当A>λ(α,n)时,则B>k(α,n).

由此可知,t检验准则的保留数据域比格拉布斯准则窄,即如果可疑数据被格拉布斯准则剔除,那么,它也一定会被t检验准则剔除。

3 体会

以上各准则都是人为主观拟定,但是,又都是以数据按正态分布为前提的。当偏离正太分布时,判断的可行性将会受到影响,特别是测量次数减少时更不可靠。因此,对于可疑离群数据,除了从测量结果中及时发现和利用剔除准则鉴别外,更重要的是提高工作人员的技术水平和工作质量,保证不出现有较大误差的离群数据。

另外,可依据测量准则度的要求和测量次数选择判别准则。从上述准则间的联系、数据域的宽窄和实践操作经验来看,推荐当测量次数n≤50或n≥10作粗略判别时,可采用莱特(3δ判别)准则,在其他情况下,采用格拉布斯准则判别为好。

在有限的测量列中,当出现2个异常数据时,通常可认为整个测量结果是在不正常条件下得到。鉴于此,应不断改进和完善测量方法,重新进行有效测量。

〔编辑:白洁〕