APP下载

频率分布直方图错误解析

2015-10-24叶莉

高中生学习·高二版 2015年10期
关键词:样本容量纵坐标频数

叶莉

频率分布直方图是用来刻画样本数据分布的重要工具之一,也是用样本估计总体的常用方法.整个制图过程,操作性强,分布直观,图形简洁美观,也适用于计算机绘图,所以在各行业的数据处理中应用广泛.

高中课程标准对频率分布直方图的具体要求是:1.通过实例体会分布的意义和作用,会列频率分布表、画频率分布直方图表示样本数据,并体会其特点;2.会用样本的频率分布直方图估计总体分布,会用样本的频率分布直方图估计总体的基本数字特征.简单地说,就是能“制图”,会“用图”,而我们在应用中产生的错误也主要发生在这两个过程中.

一、频数的统计错误

例1 从2015年9月1日起,学校不再代收学平险保险费,在校学生意外保险由家长自行办理. 武汉市某区在开学之初,以班级为单位,对学生自行购买保险的情况进行了抽样统计,得到了如下20个班级购买保险人数情况(如下表),试作出该样本的一个频率分布直方图.

错解 计算这组数据的极差为30-5=25,将组距定为5,组数定为5,则将20个数据分为[5,10],[10,15],[15,20],[20,25],[25,30]这5组,得到每组的频数分别为5,8,5,2,2,…….

正解 在上述解答中,各小组频数之和为22,大于样本容量,显然是错误的. 原因是分组区间全是双闭区间,则数据“10”在第一组和第二组均被计入频数,数据“15”也是如此. 在分组时,应将20个数据分为[5,10),[10,15),[15,20),[20,25),[25,30]这5组,得到每组的频数分别为4,7,5,2,2,…

点拨 分组时,每组所在区间一般是选择“左闭右开”,而不是“双闭”或“双开”,防止某些数据漏选或某些数据被多次计入不同小组,从而导致频数统计失误.规避这种失误,可以检查各组频数之和是否等于样本容量.

二、将频率分布直方图的纵坐标“[频率组距]”误认为是“频率”

例2 在上例中,若另一个区也做了此项抽样统计,样本容量为100,得到的样本频率分布图如下,其中第3小组频率为0.34,第1,2,4,5小组频率形成了公差为0.03的等差数列,求m值及第2小组的频数.

[m][5][10][15][20][25][30][班级购买保险人数]

错解 由于各小组的频率之和为1,且第3小组频率为0.34,则第1,2,4,5小组频率之和为0.66.这四个小组的频率形成了公差为0.03的等差数列,设首项为[x],则由等差数列前四项之和为0.66,可得[x]=0.12,则第二组的频率为0.15,故[m]=0.15,….

正解 第2组频率的计算过程完全正确,第2组的频率等于0.15,但并不意味着[m]=0.15. 因为第2组的矩形的面积才是第2组的频率,故矩形的高=[0.155]=0.03,即[m]=0.03.

点拨 无论是初中学习的频数分布直方图,还是高中学习的频率分布直方图,都是用每个小矩形的面积而不是小矩形的高度表示该组的频数和频率.

虽然在等距分组时,[该组频率该组小矩形的高度]=组距(定值),此时纵坐标是[频率组距],所作出的频率分布直方图中,小组频率越大,小矩形的面积越大,小矩形的高度越高,但在实际生活中,也有很多是不等距分组,此时纵坐标表示“[频率组距]”,所作出的频率分布直方图中,小组的频率越大,小矩形的面积越大,但小矩形的高度不一定越高,所以务必明确频率分布直方图的纵坐标不是频率.

当然以“数据”为横坐标,“频率”为纵坐标,建立平面直角坐标系,也能绘出每组的频率分布,而且直观明了,但这种图不方便直观呈现“累积频率”,“高度与高度的累积”就远不如“面积与面积的累积”直观,所以为了能更好地估计总体的密度曲线,频率分布直方图的纵坐标规定为“[频率组距]”.

三、绘图过程中丢失必要元素

例3 有一个容量为100的样本,其频率分布直方图如图所示,求从左往右第2,3组的频数之和.

错解 该频率分布直方图中,第2,3组的小矩形的纵坐标都没有标记出来,缺失条件,得不到该组的频率,无法计算该组的频数.

正解 虽然第2,3组的小矩形的纵坐标都没有标记出来,但其它组的小矩形的纵坐标均有标记,即其它组的小矩形的面积均可以计算,而所有面积之和为1,则第2,3组面积和为1-(0.02+0.09+0.19)×2=0.4,即第2,3组的频率之和为0.4,且样本容量为100,则第2,3组频数和为0.4×100=40.

点拨 明确频率分布直方图中包含的一些等量关系如:[频数样本容量]=频率;各组频数之和等于样本容量;各小组频率之和等于1;各个小矩形面积之和等于1;各小组的频数之比等于各小组的频率之比等于各小组的面积之比等.

总之,频率分布直方图是一种分析数据的有效工具,他能够把大量数据的分布情况直观的表现出来,但在图中,我们已经读不出原始的数据信息,如果同学们能结合其他的统计工具分析数据,应该能更准确地估计总体。

[练习]

1. 测速仪在某段时间内检测过往200辆车的车速,作出汽车时速的频率分布直方图如图所示,问该时间段内时速不低于60km·h-1的汽车数量为多少?

2. 某市急救中心在过去上半年中,随机抽样80天,统计了每天的急救电话的个数,并将它们制成频率分布直方图如下,从左往右四个小矩形的高度比分别为1[∶]3[∶]4[∶]2. (1)求第4个小矩形的面积;(2)估计该市每天急救电话的平均个数是多少?

[0] [48][74][100][126][152][每天急救电话个数]

3. 为了解高中生的身体素质状况,某学校随机抽取部分学生进行一分钟跳绳次数测试,将所有的数据整理后,绘制出如下频率分布直方图,第2,3小组的频数和为20,(1)求样本容量和第4组的频数;(2)试估计该校学生一分钟跳绳个数的中位数和平均值.

[0] [一分钟跳绳个数][0.032][0.008][0.004][a][90][100][110][120][130][140][150]

4.某校高二年级共有学生1000名,其中走读生750名,住宿生250名,现从该年级采用分层抽样的方法从该年级抽取n名学生进行问卷调查.根据问卷取得了这n名同学每天晚上有效学习时间(单位:分钟)的数据,按照以下区间分为八组:[0,30),[30,60),[60,90),[90,120),[120,150),[150,180),[180,210),[210,240],得到频率分布直方图如下图.已知抽取的学生中每天晚上有效学习时间少于60分钟的人数为5人.

(1)求n的值并求有效学习时间在[90,120)内的频率;

(2)如果把“学生晚上有效时间达到两小时”作为是否充分利用时间的标准,对抽取的n名学生,有下列2×2列联表。问:是否有97.5%的把握认为学生利用时间是否充分与走读、住宿有关?

(3)若在第①组、第②组、第⑦组、第⑧组中共抽出3人调查影响有效利用时间的原因,记抽到“有效学习时间少于60分钟”的学生人数为x,求x的分布列.

参考公式:[K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)]

1.[C]

2.(1)第4小组的面积为0.2.

(2)估计该市每天急救电话的平均个数是105.2.

3.(1)样本容量为100,第4组的频数32.

(2)该校学生一分钟跳绳个数的平均数估计为126.6.

4.(1)根据题意设第n组的频率为Pn(n=1,2,…,8),由题意每天晚上有效学习时间少于60分钟的分别为第一组和第二组,由频率分布直方图知:

猜你喜欢

样本容量纵坐标频数
更正
勘 误
采用无核密度仪检测压实度的样本容量确定方法
学习制作频数分布直方图三部曲
第五届播睿智杯“奇思妙想”有奖数学知识竞赛
盗汗病治疗药物性味归经频数分析
广义高斯分布参数估值与样本容量关系
多种检测目标下样本容量设计的比较
两类错误条件下方差检验中样本容量的确定