基于大样本的总体比例区间估计问题浅析

2020-10-09马一江韩利娜

科技与创新 2020年19期

马一江，韩利娜

（西安文理学院数学系，陕西西安710065）

在实际工作当中，通常需要去估计具有某种特征的单位数占总体全部单位的比例，加以对总体比例进行判断。例如，在灯泡合格率的抽样当中，要通过样本的不合格率来估计整批灯泡的不合格率，并作出整批灯泡是否合格的判断。有时还需要从两个对立总体中抽取两个独立样本，估计两个总体的比例之差。具体来讲就是根据一定的概率即置信水平要求，估计总体比例或比例之差的范围，从而形成此类问题的区间估计。

下文分别讨论一个总体比例和两个总体比例差的置信区间的求法。

1 一个总体比例的区间估计

1.1 大样本np＞5，n（1－p）＞5 的情形

如果随机变量X代表在n次二项实验中具有某种特征的单位数，则X服从二项分布，其期望和方差分别为E（X）=nπ，D（X）=nπ（1－π），设随机变量p=X/n，有E（p）=π，D（p）=π（1－π）/n，可知样本比例p是总体比例π的无偏估计。根据中心极限定理，在大样本条件np＞5，n（1－p）＞5 的情形下，可以把二项分布问题转化为正态分布问题近似的去求解，所以有将p再经过标准化，得到服从N（0，1），在π未知的情况下，可以用p来代替π计算上式中z的分母，即：

若置信水平为1－α，则总体比例π的置信区间估计的概率表达式为即P｛p-

因此，总体比例π的置信水平为1－α的双侧置信区间为：

例1：某公司要估计一批总数为5000个插座的不合格率，于是随机选取400个插座来进行监测，发现有32个插座不合格，试求该批插座的不合格率的90%的置信区间。

解：记合格插座为“X=0”，不合格插座记为“X=1”，整批产品的不合格率为π。已知n=400，N=5000，样品不合格率p=32/400=0.08，np=32＞5，n（1－p）=32＞5。

大样本条件满足，置信水平1－α=90%，α=10%，查“标准正态分布表”，得到zα/2=z0.05=1.645。因此这批插座的不合格率π的90%的置信区间为：

因此，有90%的把握认为这批产品的不合格率的置信区间为5.77%～10.23%。

1.2 样本容量n 较小或样本比例p 在0 或1 附近

当样本比例p在0 或1 附近或者样本容量n较小时，二项分布呈偏态，不能用上面的正态分布来近似，去估计总体比例π的置信上下限，此时需要采用查表法，以例说明。

例2：向55 人调查关于推荐张某某市人大代表的意见，其中表示赞成的有21 人，试估计赞成张某成为市人大代表总体比例的95%置信区间。

解：已知n=55，X=21，查百分率的可信限表[1]。

首先查出与n=55，X=21 相对应的95%置信限为28、57，以及与n=60，X=21 相对应的95%置信限为23、49。

设所要求的95%置信下限为p1，上限为p2，则：

于是总体比例的95%置信下限为25.5%，置信上限为54% ，说明赞成张某成为市人大代表95%的可能在25.5%～54%范围内。

2 两个总体比例差的区间估计

在实际问题的研究中，一般需要对两个总体比例之差作一个了解，比如对两个大型公司、两个大企业的某个板块比例进行比较，还有就是对某两个行业比例作一个比较等，这就涉及到两个总体比例差的区间估计问题。

分别从两个总体中各自随机抽取容量为n1和n2两个随机样本，设两个总体比例分别是π1和π2，要估计π1－π2，先计算出两个样本比例p1和p2。可以证明出当n1和n2两者都很大（都是大样本）且总体比例不太接近0 或者1 时，p1－p2的抽样分布近似服从正态分布。

其中，E（p1-p2）=π1-π2，D（p1-p2）=

由于π1和π2均未知，上述公式中分母的总体比例π1和π2需要用样本比例p1和p2来代替，即这时统计量z近似服从N（0，1）。

如果置信水平为1－α，则两个总体比例差π1－π2的置信区间估计的概率表达式为：

此时，总体比例之差π1－π2的置信度为1－α的近似置信区间为：

例3：某公司有两个生产车间，分别用M 和N 表示。为了降低不合格率，该公司相关负责人对N 车间的工人进行相关培训。5个月后，该公司负责人对两个生产车间的产品质量进行了监测。从M 车间抽取了200 件产品，从N 车间抽取了220 件产品，查到不合格品率M 车间为pM=15%，N车间为pN=3%。试在95%的可靠度下，构造两个车间不合格品率之差的置信区间。

解：已知pM=15%，pN=3%，nM=200，nN=220，当置信度为95%时，zα/2=1.96。

因此，（πM－πN）置信区间估计为[0.0658，0.1742]。根据这一结果，有95%的可靠程度车间M 的不合格品率比车间N 高6.58%～17.42%，估计的误差为5.42%。

3 结束语

本文主要讨论了两个问题：①一个总体大样本情况下，可以将原本的二项分布近似为正态分布，从而得到总体比例的置信区间。如果样本容量较小，或者样本比例p在0 或1附近，此时二项分布呈偏态，则不能用正态近似法来估计总体比例的置信限，这时可以借助统计专用表百分率的可信限来求。②两个总体比例差的区间估计，从两个二项总体中抽出两个独立大样本，沿用正态近似的结论，建立了两个总体比例差的区间估计结构。

对于总体比例差的区间估计效果如何，可以进一步做显著性检验，这部分内容在后期将进一步研究探讨。