APP下载

中学统计方法背后的数学原理

2021-02-25北京大学附属中学100086单治超

中学数学研究(广东) 2021年23期
关键词:概率分布平均数方差

北京大学附属中学(100086)单治超

1 引言

统计学是对数据进行收集、整理、展示、分析和解释,以帮助人们更有效地进行决策的科学.随着现代科学技术特别是计算机科学、人工智能的迅猛发展,人们获取数据和处理数据的能力都得到很大的提升.统计学在近几十年里得到突飞猛进的发展,越来越多成熟的统计方法和技术应运而生.

中学数学课程和大学数学课程当中都有统计部分的内容,但风格却不尽相同.中学的统计侧重于讲授方法,背后的原理提得不多,方法的合理性常通过直观加以把握.而大学的统计则侧重于概念和证明,严谨性更高,但对于方法的直观性介绍得相对较少.事实上,要想学好统计学,直观性和严谨性都非常重要,二者不可偏废.

本文介绍中学统计方法背后的数学原理,希望实现中学统计和大学统计的衔接,对一线教师的教学起到一定帮助.

2 总体与样本

总体与样本无疑是统计学中最基本的概念.

中学教材中写道:“所考察问题涉及的对象全体是总体,总体中每个对象都是个体,抽取的部分对象组成总体的一个样本”.“简单随机抽样就是从总体中不加任何分组、划类、排队等,完全随机地抽取个体”.

大学教材[1]中写道:“总体就是一个概率分布”.“按照总体的分布独立地选取若干个体得到的样本称为简单随机样本”.

中学教材里的总体是一个有限集(允许重复元素存在),大学教材里的总体是一个概率分布.二者表面上不同.但是有限集可以看成是有限个元素上的概率分布,每个元素的概率就是该元素所占的比例.

当然,大学教材里总体的概念更富一般性,概率分布未必是有限个元素上的概率分布,更多的情形下概率分布是某连续型随机变量的概率分布.但是对于中学教材里的总体概念,当总体中个体很多时,相应的有限个元素上的概率分布可以与连续型随机变量的分布非常接近.此时我们可以近似认为总体服从该连续型随机变量的概率分布.

此外还有一点需要注意:中学教材里的简单随机抽样多指无放回抽样,此时先后抽取样本,彼此是不独立的.但是当总体中个体很多时,我们可以认为先后抽取的样本是近似独立的.于是中学教材里的简单随机抽样与大学教材里的简单随机抽样含义也大致相同.

我们再从大学统计的角度理解分层抽样的概念.所谓“总体可以分成有明显差别的、互不重叠的几部分”可以这样理解(不妨以分两层为例):两层分别服从概率分布F1和F2,两层所占的比例分别是p和1−p,那么总体的分布F就满足F(x)=pF1(x)+(1−p)F2(x).按照分层抽样抽取n个样本,就相当于按照概率分布F1独立抽取np(不妨设为整数)个样本,再按照概率分布F2独立抽取n(1−p)个样本.

中学教材里提出分层抽样比简单随机抽样更合理,但是并没有提出支撑性的理论依据.本文后续会在某一方面给出分层抽样合理性的理论依据.

3 处理数据时去掉一个最大值和最小值

教材提到:很多时候处理数据时会去掉一个最小值和一个最大值,其合理性从直观上予以把握.事实上,从理论角度我们有如下的结论:

性质1一组数据(不少于3 个)去掉一个最小值和一个最大值之后,方差一定变小或不变.

证明不妨设x1≤x2≤...≤xn且平均数是0,不妨设|x1|≥xn,这组数据的方差是

去掉一个最小值和一个最大值之后,方差一定小于等于

于是只需证明

当n是偶数时,

当n是奇数时,

从证明过程中不难发现,当且仅当n是偶数,且一半数据相等,另一半数据也相等时,去掉一个最小值和一个最大值之后方差不变.

4 用样本的数字特征估计总体的数字特征

先看总体平均数的估计.

中学教材里说:“大数定律可以保证,当样本的容量越来越大时,估计的误差很小的可能性将越来越大”.

这句话是不准确的,让我来举一个反例:

例如总体中只有四个数据−2,−1,1,2,其平均数是0.从中随机抽取两个样本,平均数的绝对值小于的概率是;但从中随机抽取三个样本,平均数的绝对值小于的概率是0.教材中所说的单调性并不成立.

准确的表述应为大学里所学的大数定律:如果总体服从期望µ有限的概率分布,那么对于任意ε >0,.

中学范围内要求总体个数有限,样本容量并不能任意大,仅仅知道极限行为是不够的,我们还需要定量的估计.这时需要用到中心极限定理:设总体的方差σ2<∞,那么近似服从正态分布N(0,σ2),其中的“近似”是有明确的定量估计的.

下面从理论上证明分层抽样的优势:

“总体可以分成有明显差别的、互不重叠的几部分”可以这样理解(不妨以分两层为例):两层分别服从概率分布F1和F2,两层所占的比例分别是p和1−p,那么总体的分布F就满足F(x)=pF1(x)+(1−p)F2(x).

设F1的期望和方差是µ1和的期望和方差是µ2和那么F的期望是µ=pµ1+(1−p)µ2,方差是如果按照简单随机抽样抽取n个样本,那么近似服从正态分布N(0,σ2).

可是如果我们采取分层抽样:按照概率分布F1独立抽取np(不妨设为整数)个样本,再按照概率分布F2独立抽取n(1−p)个样本.此时设样本平均数为,那么同样根据中心极限定理,近似服从N(0,σ′2),其中只要µ1̸=µ2,就有σ′2<σ2,所以比收敛到µ的速度更快,因此在样本容量相同的条件下,分层抽样得到的样本用来估计总体的平均数就更为准确.

但是值得注意的是:采取分层抽样必须按照各层的比例来抽样,如果比例出错,那么相当于上面的p变成了p′,此时Y近似于µ′=p′µ1+(1−p′)µ2而不是µ.

教材上举了一个例子:1936年美国总统选举前,一家很有名的杂志社通过电话簿和各种俱乐部信息等抽取了约240万人,调查他们的选举意向.根据调查数据,罗斯福的预测得票率只有43%,可是最终罗斯福的实际得票率是62%.

事实上,在1936年的美国,一般只有富人才拥有电话、能参加俱乐部,因此这家杂志社通过电话簿和各种俱乐部信息所做的采样,相当于是一种比例不正确的分层抽样.因此得到错误的结论就在所难免.

文献[2]中举了一个类似的例子:专栏作者安·兰德斯问她的读者,如果可以重新来过,是否还会生孩子?回答的人中有70%坚定地说“不要”.事实上她邀请读者回答这个问题时,回应最热烈的恰恰是那些后悔生孩子的父母.

值得一提的是,虽然用样本的数字特征可以估计总体的数字特征,但是对估计值不可滥用,否则可能会起到误导的作用.

文献[2]中举了这样的例子:

一项从2003年7 月到2004年2 月进行的盖洛普民意调查提出问题:“你支持还是反对宪法修正案规定只有男女才能结婚,而不允许男同性恋和女同性恋者建立婚姻关系?”该项调查随机抽取了2527 个样本,发现“支持该宪法修正案的人的比例为51%”.我们是否由此可以推断:多数人支持该宪法修正案?

事实上,设总体中支持该修正案的人的比例为p,那么抽取的样本中支持该修正案的人的比例近似服从正态分布,根据样本中支持该修正案的人的比例为51%,可以有95%的把握认为p在49%和53%之间,而“p >50%”的把握其实并非很高.大学数理统计里讲区间估计,讲置信度,正是因为点估计可能造成这样的误导作用.

5 用样本的分布估计总体的分布

用样本的分布可以估计总体的分布,其理论依据在于:

设总体服从概率分布F,设它是一个连续型随机变量,且密度函数仅在有限个点不连续,那么抽取n个简单随机样本绘出频率分布直方图,当组距(是n的函数)随着n趋于无穷大而趋于0 时,其上边界会趋近于概率密度曲线.

事实上,设a是概率密度函数的一个连续点,设取n个简单随机样本时,a所处的区间是In,那么相应的频率分布直方图中a对应的点的高度等于它近似等于当n趋于无穷大时,它趋于概率密度p(a).

学生在学习频率分布直方图时,常常提问频率为什么要除以组距.在固定分组的情况下把频率除以组距相当于做了个伸缩变换,确实看不出其意义.但是按照上文的解释,样本容量充分大,组距充分小时,频率分布直方图与概率密度曲线充分接近,那么除以组距就非常有必要.

6 一元线性回归模型的使用

教材指出:一元线性回归模型是否合理要看样本相关系数的大小.以r表示样本相关系数,则有

|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值.

教材上只是给出了这条结论,没有给出解释.学生在学习过程中经常忘记:|r|大时,线性相关性到底强还是弱?

由柯西不等式:

当且仅当存在b,对任意时取等号,这又等价于存在a,b,对任意i,yi=a+bxi.

因此|r|=1,当且仅当y就是x的线性函数.

值得注意的是:样本相关系数仅仅是检验一元线性回归模型是否合理的标准之一.使用一元线性回归模型首先要考虑实际意义.

考虑导弹高度随时间变化的轨迹.根据物理学关于斜上抛运动的知识,导弹的运行轨迹应该近似是一条抛物线.可是由于导弹的初速很大,所以最开始导弹的运行轨迹会非常接近直线,用线性回归的拟合效果会非常好.但是如果我们相信回归直线能够拟合导弹运行的完整轨迹,那么我们将会得到结论:导弹永远不会落地!

7 独立性检验与显著性水平

显著性水平是统计学中非常重要的概念.中学教材在讲授独立性检验时引入了这个概念.我们把中学教材上的表述摘录如下:

任意给定一个α(称为显著性水平,通常取为0.05,0.01等),可以找到满足条件P(χ2≥k)=α的数k(称为显著性水平α对应的分位数).如果根据样本数据算出χ2的值后,发现χ2≥k成立,就称在犯错误的概率不超过α的前提下,可以认为A与B不独立(也称为A与B有关),或者说,有1−α的把握认为A与B有关.若χ2

值得注意的,我们的结论是“在犯错误的概率不超过α的前提下,可以认为A与B不独立”,而不是说“A与B不独立”.事实上,如果我们反复做独立性检验很多次,即使每个接受检验的对象中A与B都是独立的,仍然以相当大的概率存在若干个接受检验的对象χ2≥k.然后我们认为这几个接受检验的对象中A与B不独立,就会得到很荒谬的结论.

文献[3]中举了一个具体的例子:10 万种基因中,大约有10 种真的会对精神分裂症产生影响.但其余的99990 种基因,也会有或者说大约5000 种基因会通过显著性检验.当人们欢呼“天啊,我发现了精神分裂症基因”时,虚假结果是真实结果的500 倍.

这种做独立性检验的方法可以形象地被比喻为“对数据进行严刑拷打,直到它们招供才罢手”.在上面的例子中,99990 个无辜的基因中就有大约5000 种被“屈打成招”.

8 小结

综上所述,中学阶段介绍的很多统计方法,在直观上容易被人接受,但是如果经过仔细推敲,背后的数学原理并不简单.在统计学的学习过程中,应该把每个方法在直观上的合理性和数学原理上的合理性都想清楚,才能真正理解这种统计方法,进而在实际场合有效地加以运用,避免得到荒谬的结论.

猜你喜欢

概率分布平均数方差
概率与统计(2)——离散型随机变量的期望与方差
一类摸球问题及其解法
弹性水击情况下随机非线性水轮机的概率分布控制
不一样的平均数
方差生活秀
关于概率分布函数定义的辨析
风速概率分布对风电齿轮
关注加权平均数中的“权”
平均数应用举隅
揭秘平均数和方差的变化规律