APP下载

一个估计问题的探讨

2018-07-13刘文慧张淑梅张唯一

数学通报 2018年1期
关键词:估计量估计值平均数

刘文慧 张淑梅 张唯一

(1.北京师范大学数学科学学院 100875; 2.北京师范大学统计学院 100875; 3.人民教育出版社 100081)

在第二次世界大战期间,由于许多战略上的理由,盟军想知道二战期间德军总共制造了多少辆坦克[1].盟军请来了统计学家参与情报的收集和分析工作,从战后发现的德国记录来看,运用统计方法估计的结果与德国实际生产的坦克数量非常接近.原来,德国人在制造坦克时是墨守成规的,他们把坦克从1开始进行了连续编号.在战争进行过程中,盟军缴获了一些德军坦克,并记录了它们的生产编号[1].统计学家将缴获的德军坦克编号作为样本观测数据,用样本估计总体的方法推断总的坦克数量.生活中还有类似的问题:

问题1某大学美术系平面设计专业的报考人数连创新高,今年报名刚结束,某考生想知道报考人数.考生的考号按0001,0002,…的顺序从小到大依次排列.这位考生随机地了解了50个考生的考号.请给出一种方法,根据这50个随机抽取的考号,帮助这位考生估计考生总数.[1]

问题2某个袋子里有N个小球,标号按1,2,3,…的顺序从小到大排列.将袋内的小球充分搅拌后,随机不放回地抽取了10个小球,记下编号.请给出一种方法,根据这10个编号,估计袋子内小球的总数.

这是一个比较好的统计案例,可以启发学生思考,同时可以帮助学生理解统计解决实际问题时,更加关注统计方法优劣,而不是对错.

这类问题的特征为假设事先个体已经按自然数编号,通过不放回抽样得到的样本估计总体总数的问题,即:在1,2,3,…,N个自然数中不放回地随机抽取n个数,将抽取的样本从小到大排序后记为x(1),x(2),...,x(n),且满足n≤x(n)≤N.在实际问题中,我们不知道N是多少,要估计N的值.

1 几种估计方法

在教学中可以启发学生思考解决这个问题的方法,讨论每种方法的合理性,对不同方法进行比较.下面给出几种估计方法,每种方法都有其合理性,不能说哪种方法是错误的,但可以用统计理论从某个角度,或者在某个准则下对它们进行比较.

方法一:用样本的最大值估计总体的最大值的思想

方法二:用样本中位数估计总体中位数的思想

方法三:用样本平均数估计总体平均数的思想

我们知道,中位数对样本数据的信息利用率较低,仅用到中间的一个数据或两个数据,有的学生会考虑用样本的平均数估计总体平均数的思想,来估计N.即

方法四:分析区间长度的方法

样本将这N个数据分为几段,端点选取不同,可以得到不同的估计值.

区间长度法1:

区间长度法2:

区间长度法3:

由区间长度法的思想得到的三个估计值相差不超过1,这样的差距在实际问题中是可以忽略的.比如在估计考生人数的问题中,估计的总数相差1并不会影响决策,这也体现了统计与数学的区别.这三个估计方法都是可以应用的,尽管它们得到的估计值不尽相同,但不能说明哪个结果是错误.

2 理论评价

根据不同的估计思想,我们得到了六个估计量,这些估计量哪个更好?评价估计量的好坏常用的标准有无偏性和均方误差.估计量是一个统计量,也是一个随机变量,随着样本的改变而改变.如果一个估计量的均值等于要估计参数的真值,就称该估计量具有无偏性,其含义是如果多次抽样,并且每次样本量相同,那么得到的多个估计值在参数真值左右,其平均值与参数真值接近.接下来,我们从理论的角度推导x(n)的均值,从而讨论上面的哪个估计量是无偏估计.

从1到N中不放回随机抽取n个数,其中最大的数记为x(n),则x(n)的分布列为:

x(n)nn+1n+2…N-1NP1CnNCn-1nCnNCn-1n+1CnN…Cn-1N-2CnNCn-1N-1CnN

由此,可以计算第1个估计量和后三个估计量的均值,结果如下:

另外两个估计量的均值计算很难,后面仅给出模拟的结果.

注意:(1)我们不能用一次抽样的样本得到的估计值评价估计量的好坏.(2)估计量是随机变量,而估计值是估计量的一次观测值,是一个具体数据.

3 模拟结果比较

在模拟试验中,取N=100,n=10,m=1000,即从1,2,…,100中不放回随机抽取10个数,这样的模拟试验重复1000次.

计算机模拟步骤如下:

①在1, 2,…,N这N个自然数中不放回抽取n个数据,组成一个样本;

②将样本中的n个数据从小到大进行排列,记为x(1),x(2),…,x(n);

③分别计算六个估计量的值;

④多次重复步骤①—③.

在下图中,前六个图形为散点图,横坐标为观测序号,纵坐标分别为六个估计量在1000次独立重复试验中的观测值.

六个估计量的散点图和频率分布直方图

六个估计量的平均偏差和均方误差如下表:

六个估计量的平均偏差和均方误差

4 总结

通过对高中教师进行问卷调查,了解到高中教师对统计知识储备不足[3].本文希望借助经典的德国坦克估计问题的背景,介绍一个实际的估计问题,通过在探索多种估计方法的过程中让读者感受统计解决实际问题的魅力,理解统计解决实际问题时,更加关注哪种统计方法好,而不是对错,体会统计与数学的区别,并了解可以从理论和模拟两个角度比较估计方法的好坏.

猜你喜欢

估计量估计值平均数
最小二乘估计量优于工具变量估计量的一个充分条件
一道样本的数字特征与频率分布直方图的交汇问题
2018年4月世界粗钢产量表(续)万吨
不一样的平均数
浅谈估计量的优良性标准
关注加权平均数中的“权”
平均数应用举隅
说说加权平均数
基于配网先验信息的谐波状态估计量测点最优配置
2014年2月世界粗钢产量表