APP下载

箱线图的识与思:何其形?何由来?何以识?何所教?*

2023-08-15

中学数学月刊 2023年8期
关键词:数据分布线图位数

李 健 于 涵

(人民教育出版社课程教材研究所 100081)(北京景山学校远洋分校 100040)

随着大数据时代的来临,数据素养成为人们应对工作、生活的重要能力之一,也就自然成为数学课程联系现实应用的重要落脚点.在《义务教育数学课程标准(2022年版)》(下称《标准2022》)中,发展学生的数据意识与数据观念,成为落实义务教育阶段数学课程“三会”核心素养的重要举措[1].

“统计与概率”是义务教育阶段数学课程内容的四个学习领域之一,与《义务教育数学课程标准(2011年版)》相比,《标准2022》在“统计与概率”领域中的变化不小.对于初中阶段而言,增加了“中位数、众数的意义”“数据分类的原则”“四分位数、百分位数”“箱线图”“分布式计算”等内容[2],它们都可归为探索数据特征的有力工具或重要方法.其中,箱线图作为呈现数据分布特征的可视化技术,为初中生开展数据分析活动提供了一种简单而直观的工具.由于箱线图是《标准2022》中新增的内容,所以绝大多数一线教师对其并不熟悉.为此,本文将依循箱线图有何形式、从何而来、如何认识、如何教学的逻辑线索展开分析:首先介绍箱线图的呈现形式;再对箱线图的起源与发展进行说明;然后从“数”“形”两个角度讨论箱线图,加深认识;最后提出关于箱线图的教学思考.

1 何其形:箱线图的呈现形式

《标准2022》中出现的箱线图,也可称为盒须图,缘于对英文术语box-and-whisker plot的直译.又因常以英文术语box plot作为box-and-whisker plot的简称,故而也常将其译作箱形图或箱式图.

统计分析一组定量数据时,最基本的操作包括了解这组数据的分布形式.对于一维数据而言,统计学中常常使用一种称为“五数概括(5-number summary)”的数据描述方式.所谓“五数概括”,是指将一组数据按由小到大排序,使用最小值、第一四分位数(第25百分位数/下四分位数)、中位数(第50百分位数)、第三四分位数(第75百分位数/上四分位数)、最大值对这组数据的分布形态进行综合描述.

图1 箱线图的典型构造

箱线图是一种可以直观地呈现“五数概括”的数据可视化技术,箱线图的典型构造见图l.箱线图将整个数据集划分为容量大小相等的四个子集:“箱子”的下端和上端分别表示第一四分位数和第三四分位数,整个“箱子”的长度(第三四分位数减第一四分位数的差)称为四分位距,能够呈现出中间50%的数据分布区域;在“箱子”内部绘制一个横条与“箱子”相交,该横条上下各有一半的数据,这个横条表示整个数据集的中位数;“箱子”两端的两条线被延展到整个数据集的最小值和最大值;有时为了避免一些极端值影响我们对数据分布的认识,也将线的长度设置为四分位距的倍数(如1.5或3),例如当个别数据不在区间[第一四分位数-1.5倍四分位距,第三四分数+1.5倍四分位距]内时,就将该数据独立标出,这个数据就称为异常值.

需要说明的是,“箱子”的宽度和填充、线的呈现形式、异常值的表示等都没有绝对的标准,绘图者可以自行选择.

2 何由来:箱线图的起源与发展

箱线图的起源可以追溯到范围条形图(range-bar chart),如图2(1).Haemer认为,范围条形图不仅可用于数据全距的比较,还可以通过在图中注释,以此表示集中趋势,如中位数、平均值、众数、标准差等[3].利用这种在范围条形图中做标注的改良思想,通过在范围条形图中标注“五数概括”,将条形图缩短到只包含中间50%的数据,使用细线表示整个范围,用垂线表示中位数,如图2(2),这就是我们今天普遍见到的箱线图[4].20世纪70年代,美国统计学家John Tukey正式发明了箱线图,并指出:描述一组数据时,当存在某些远离绝大多数数据的极端值时,需要设置合适的“栅栏(fence)”对其进行区分,并提出将箱线图两端的线的长度设置为四分位距的1.5倍,并使用独立标记来表示异常值;去掉了范围条形图中的填充;清楚地标记范围线的末端[5]41-44.

图2 箱线图的演变

在此之后,一些改良版的箱线图应运而生,如图2(3)中的四分位数图(quartile plot)、图2(4)中的缩略箱线图(abbreviated box plot)等.这些图的一个共性特点是都尽可能地使用较少的“笔墨”绘制箱线图,这既是出于减小绘制难度的考虑,又兼顾到了绘制、印刷过程中的颜料成本控制[4].近年来,随着计算机及数据可视化软件的发展,箱线图已经逐步被一些更能够精细地体现数据分布特征的统计图所取代[6],例如图3中的小提琴图(violin plot)、散点图(dot plot)就可以传递出某些数据集分布的多峰特征,但对应的箱线图仅能呈现中位数这一集中趋势.

图3 同一数据集对应的箱线图(左)、小提琴图(中)与散点图(右)

自箱线图被发明以来,很快便得到广泛应用,究其原因:一方面在于箱线图能够提供关于数据分布的丰富信息;另一方面在于箱线图易于绘制,毕竟在上世纪中后期,数据可视化主要是通过手工绘制实现的.尽管箱线图对信息传递的精确度不如之后发明的小提琴图、散点图等优越,但无论如何,箱线图都已凭借其简单易得、直观形象的特点,奠定了其在数据可视化技术中的地位,成为了描述数据分布特征的经典工具.时至今日,我们能够在许多数据分析报告中看见箱线图的身影.

3 何以识:箱线图的“数”“形”理解

作为统计图的箱线图,具有数形结合的特征.接下来,将分别从“数”“形”两个视角入手分析箱线图,确保能够更加深入地认识箱线图.

3.1 两种数量表征:“五数概括”与“三个中位数”

从“数”的角度来看,理解箱线图的前提条件是能够准确认识“五数概括”.在“五数概括”中,最小值与最大值很容易理解,只要确定了这两个值,也就轻松地确定了整个数据的分布范围.紧接着,我们应该查看中位数.中位数是衡量一组数据分布中心的参数,它将整个数据集按数值大小“一分为二”,一半的数比它大、一半的数比它小,这样就形成了两个容量为原数据集容量一半的新数据集.然后,再对两个新的数据集分别取中位数,这两个中位数就是原数据集的第一四分位数和第三四分位数了.

通过上述分析,不难发现“五数概括”与三个中位数之间的紧密关联:以两个极值为基础,通过三次按数值大小“一分为二”,得到三个中位数,也就是“五数概括”中的三个四分位数.因此,如果将“五数概括”称为箱线图的一种静态形成方式,那么“三个中位数”就为我们提供了一种箱线图的动态形成方式.

3.2 几何特征分析:长度对应数据密度而非频数

比较是认识事物特征的有效方式,将箱线图与其他一些经典统计图相比较,有助于我们更好地认识箱线图的特殊性.在条形图(bar chart)中,不同类别对应的矩形高/面积,与该类别所占数据频数成正比,如图4中类别B对应的矩形是类别A对应矩形的高/面积的2倍,那么类别B对应的数据频数就是类型A对应数据频数的2倍.相似的情形在扇形图(pie chart)、直方图(histogram)、雷达图(radar chart)中同样存在:在这些统计图中,几何对象的度量值与其所占数据频数成正比.

图4 条形图的高/面积与其频数成正比 图5 箱线图各部分长度与其数据密度成反比

通过上述分析可知:不同于多数统计图,箱线图中各“部分”的长度(度量值),仅与其所占数据的密度有关,谨防将其与各“部分”所占数据频数相关联.

4 何所教:箱线图的教学思考

基于上述对箱线图的分析,以及大数据时代背景下统计教学的需求导向,对箱线图的教学提出几点思考.

4.1 以数据分布为载体,为学生提供“三会”素养的学习机会

《标准2022》将“三会”(会用数学的眼光观察现实世界、会用数学的思维思考现实世界、会用数学的语言表达现实世界)作为数学学科核心素养,是学生数学学习的关键.箱线图的本质是对数据分布的可视化呈现,能帮助学生掌握与探索一组事物数据信息的分布概貌.利用箱线图直观刻画现实世界中的数据分布,能够为学生提供发展“三会”核心素养的有效学习机会.首先是体现“数学的眼光”,教学时要注意体现学习数据分布的意义所在,例如呈现希望了解不同天气情况的单日冷饮售卖情况、不同睡眠时间学生的身高差异等问题情境,使学生基于不同情境感受到研究数据分布是一种行之有效的解决问题的手段.其次是体现“数学的思维”,由于箱线图的最佳用途在于同时比较多个数据的分布[7],所以应让学生结合箱线图中的“五数概括”与图形特征,对不同类别数据的分布进行比较.最后是体现“数学的语言”,箱线图是基于数据建立的一种能够反映其分布特点的模型,这种模型就是一种数学的语言,故而要借助箱线图培养学生解读数据分布的能力.对于部分学有余力的学生,甚至可建议其通过自行绘制箱线图,进行数据分布的分析.

4.2 加强数学内部关联,注重箱线图与相关统计知识的整合

箱线图本身不是孤立存在的,在其对应的统计知识体系中占据着一席之地,将其与相关统计知识整合在一起,将有助学生形成良好的数学知识脉络、更好地理解与掌握箱线图.首先,箱线图是“五数概括”的可视化形式,也就直接关联到四分位数、百分位数等统计概念,这些概念都与一组数据中元素的顺序相关,是典型的基于“数值顺序”刻画数据分布形式的参数,教学时应注重结合箱线图,使学生会计算四分位数,能感悟百分位数的意义.其次,要注意将箱线图与条形图、直方图等统计图进行比较教学,通过异同点分析,将有助学生更好地理解箱线图的特征,诸如箱线图中不同部分的长度仅能反映对应的数据密度等.最后,还要注意箱线图与“均值+标准差”的比较.它们的相同点在于均能够刻画数据的分布特征,不同点也同样明显:箱线图上、下两端点刻画数据集的整体范围,“箱子”的上、下边刻画中间50%数据的范围;相较于箱线图按“数值顺序”刻画数据分布,“均值+标准差”是按“数值大小”对整个数据集最中间的那一部分数据的刻画,均值刻画数据的集中趋势,标准差刻画数据的离散程度.两种刻画方式的内涵有差异,操作难易程度也不相同,希望通过比较两种刻画数据分布的方式,使学生面对具体问题时能够选择合适的数据分析手段.

4.3 落实数学文化育人,借箱线图发展拓宽学生的统计学视野

数学文化是数学课程的组成要素之一,挖掘箱线图发展过程中所蕴含的数学文化,合理地将其融入教学之中,有助于拓宽学生的统计学视野,使学生更好地认识统计学的发展.箱线图作为上世纪70年代发明出的一种探究数据特征的技术,是伴随着探索性数据分析的兴起而发展起来的.1977年,箱线图之父Tukey的著作《探索性数据分析》(ExploratoryDataAnalysis)出版,该书前言中记载着如下一段文字:“曾几何时,统计学家只会探索.后来,他们学会了准确地验证……任何没有明确附加验证过程的东西都被谴责为‘仅仅是描述性统计’……今天,探索和验证可以——也应该——并肩而行.”[5]Ⅶ这段话为我们大致描述了统计学的变革:从早期的描述性统计时期,到基于小样本数据的推断性统计发展期,再到重视数据探索.而Tukey所吹响的探索性数据分析的变革号角,可称之为大数据时代来临的前哨.箱线图正是这一时期Tukey为实现数据探索而发明的有力工具,不仅有助于探索数据的分布形式,还能较好地实现数据可视化.以向学生讲授箱线图发展为契机,趁机融入统计学的发展变革及数据探索、可视化等内容,能够使学生感受到统计的科学价值与应用价值、领悟统计之美,有助于落实数学的文化育人功能.

猜你喜欢

数据分布线图位数
五次完全幂的少位数三进制展开
预测瘢痕子宫阴道试产失败的风险列线图模型建立
改进的云存储系统数据分布策略
基于箱线图的出厂水和管网水水质分析
东山头遗址采集石器线图
一种基于给定标准对数据进行正态修正的算法
试论大数据之“大”
对数据分布特征测度的分析
遥感卫星CCD相机量化位数的选择
“判断整数的位数”的算法分析