APP下载

统计思维

2018-06-09西内启李晨/译

公务员文萃 2018年4期
关键词:显著性乌鸦概率

[日]西内启 李晨/译

在统计学上,把不是因数据分散而偶然产生的差异,叫作统计学上的显著性差异,或直接称为显著性差异。统计功效则是指“在存在差异的假设成立的情况下,认为显著性差异存在的概率”。

“冒失鬼”的错误与“糊涂虫”的错误

并不是说一味地提高统计功效就是好的。有简单的方法可以将统计功效最大化,也就是“当差异存在的假设成立时,百分之百能发现显著性差异”。但这种做法是无益的,甚至很多时候是有害的。

这种做法其實是“不依赖任何数据,不负责任地主张自己想到的东西”。如果假设成立,你百分之百可以发现有意义的差异。自己的想法毫无根据却坚持认为其正确的人有很多,我们可以说这种人是最大化统计功效的生物。马克·吐温有句名言说“坏掉的时钟每天也至少有两次指向正确的时刻”。经常预测“经济马上就要衰退了”的经济评论家,在经济衰退的前一年,也一定说过这句话。

这种做法之所以有害,是因为它虽然不会“拒绝正确的假设”,但并未考虑“认为错误的假设正确”(明明不存在任何差异,却主张差异存在)的风险。在统计学上,把这种“明明不存在差异却认为差异存在”的错误称为α错误,把“明明存在差异却没有发现”的错误称为β错误。在很多教科书上,对应首字母,将α错误称为“冒失鬼的错误”、β错误称为“糊涂虫的错误”(日语中二者发音分别与α和β的第一个音相同。——译者注)。基于这种说法,坚持毫无根据假设的人,是为了将糊涂的风险降为零,而表现得太过冒失了。

另一方面,社会上也有很多完全相反的、为了将“冒失鬼的错误”降为零而运用着简单方法的人。这种人的做法是,不论是谁、基于什么证据主张什么,他们都只会说“因为我们未能做周密的了解,接下来让我们谨慎地讨论吧”。

简单来说,这种人完全不主张任何假设,更不用说相信假设并采取行动了。这样做虽然能将冒失地主张错误假设的风险降低为零,但无论何种真相摆在他们面前,他们都会糊涂地避开。

为什么说“统计学是最强的学问”

统计学最出色之处,在于它系统化了在“冒失鬼”和“糊涂虫”之间做出正确判断的方法。

统计学在两种错误之间权衡取舍。面对不是每次都会发生同样情况、存在变动的事物,不可能同时将两种错误降为零,因此统计学上首先会决定在何种范围内允许“冒失鬼的错误”发生。惯例是假设发生的概率为5%,也就是所主张的假设在20次中有1次真的错了。不过,在追求更严密的决策时,有时候会考虑选取1%或者0.1%这种更低的水平。相反,有时也会允许“冒失鬼的错误”风险在10%。像5%或1%这样对错误的允许程度,叫作显著性水平。

确定了显著性水平之后,在给定的显著性水平范围之内,就要想办法将“糊涂虫的错误”最小化,或者将统计功效最大化。虽然单纯地增加分析所用的数据也能增大统计功效,但即使数据有限,也有方法不错过真相,即根据数据的分布方式以及想要检验的假设,来选择不同的方法。这种用来判断是否可以认为假设成立的方法,在统计学上一般称为检验(或者叫作统计性假设检验)。

在给定的显著性水平之下统计功效最高的检验方法,在统计学上称为最强检验或者最大功效检验。

说起来,在统计学家J.内曼和E.皮尔森将检验系统化以前,大多数人不是凭借自己的直觉或暧昧不明的根据来提出假设的冒失鬼,就是单纯呼吁慎重讨论的糊涂虫。

能在冒失鬼和糊涂虫之间、在理论的正确性和现实问题之间,考虑最优的判断应该是什么的学问,只有统计学。正因如此,统计学才被用来实证各种学术领域的理论,支撑各种不允许失败的现实决策。

统计性假设检验的思维方式

哲学是深刻思考万事万物的学问,但因为哲学对任何假设都故意质疑,所以许多一般人难以想象的例子会在哲学中出现。其中一个就是“亨普尔的乌鸦”。

这是德国的卡尔·亨普尔在20世纪40年代提出的例子。考虑“亨普尔的乌鸦”问题,我们会发现自己连“所有的乌鸦都是黑色的”这种理所当然的假设是真是假都无法证明。

“乌鸦是黑色的”是无法用“看见了一只黑色的乌鸦”来证明的。即使某只乌鸦是黑色的,但只要其他的乌鸦是红色的,或者有乌鸦是蓝色的,“乌鸦就不一定是黑色的”。

“乌鸦是黑色的”主张的是“所有的乌鸦都是黑色的”。这种“所有的……都是……”的表达方式,因为是“对所有东西而言”,所以具有全称性。对具有全称性的假设进行反证是简单的,只要能找出一只不是黑色的乌鸦,就能证明“并不是所有乌鸦都是黑色的”。然而,想要证明“所有乌鸦都是黑色的”,却要费很大力气。不管你找到了多少乌鸦,糊涂虫们都可以说“这并不能说是全部乌鸦”“不能证明没有其他不是黑色的乌鸦”……反对的理由不计其数。

这样严密地思考下来,我们根本无法主张乌鸦到底是黑色的还是白色的。《心经》教给了我们“色即是空”的道理,看来我们只能认为乌鸦的颜色是没有实体的空虚之物,微睁着眼睛糊涂下去了。不过,前提是我们并不知道何为统计性假设检验。

虽然统计性假设检验也无法证明“全称性”,但通过引入概率,我们可以不考虑“所有”,而考虑“大部分”。面对糊涂地搞不清乌鸦是黑色还是白色的B,学会了统计性假设检验方法的S可以与其进行这样的对话:

B:严格来说,我们无法主张乌鸦是黑色的还是白色的……

S:我们确实不知道是不是全部乌鸦都是黑色的,但可以证明“认为我们见过的乌鸦大多是黑色的是合理的”。

B:真的吗?这也能证明?

S:没错。最近你见过的乌鸦是什么颜色的?

B:黑色的。

S:迄今为止你见到多少黑色的乌鸦?

B:至少应该有100只吧……

S:不是黑色的呢?

B:虽然我没见过,但也不能证明就没有啊。

S:你说得没错,但我们假设乌鸦中黑色的和白色的各占一半,你认为偶然连续看到100只黑色乌鸦的概率是多少?这其实就是掷100枚硬币全部出现正面的概率。

B:这个……

S:计算0.5的100次方,会得到比一万亿分之一的一万亿分之一更小的数字。顺便告诉你,即使乌鸦中有9成是黑色的,0.9的100次方也只有0.0027%。这种奇迹怎么可能出现呢?

B:即使概率再低,也不是零,所以没办法完全否定“确实出现了这种奇迹”。

S:这样,我们以后在一起的时候就一直打赌吧:如果看到的乌鸦不是黑色的,我就请你喝你喜欢的饮料;如果是黑色的,你就请我喝罐装咖啡吧。

B:哎呀,这个……

S:你看,你已经在想“认为乌鸦大多是黑色的是合理的”了吧。

总结一下S的思考方法就是:

为了能实际取得数据,首先要确定“讨论的范围”。并不是考虑全世界如何、全人类如何,而是将焦点集中在“当前能收集到的数据范围”中假设是否妥当。不这么做,糊涂虫们就会反对说“你的数据中没有包括某些东西,所以……”。

接下来,既不考虑100或者0这种全称性命题,也不考虑自己想要主张的“大多数乌鸦是黑色的”這一假设,而是考察完全颠覆自己主张的“黑色和非黑色乌鸦各占一半”的假设。根据实际数据,如果能证明这个“完全颠覆自己主张的假设”只能在非常不可能的概率下成立,就能证明自己的主张很难被完全颠覆了。

再进一步,并不仅仅考虑完全颠覆自己主张的“黑色和非黑色乌鸦各占一半”的假设,对“如果9成乌鸦是黑色的”这一和自己的主张相近的假设也进行考察。如果这个“9成乌鸦是黑色的”主张也只是在非常不可能的概率下才成立,考虑9成以上的乌鸦是黑色的就是很自然的了。

最后,问题会归结到得失上。将统计性假设检验的思考方法用在不会给任何人带来得失的、对永恒真理的探索上,意义并不是很大。而得失在医学上就是人命,在教育学上就是学生的学习能力,在商业上就是金钱。若是不会产生任何得失,就算糊涂下去,不去断定乌鸦是黑色的还是白色的,也没问题。但如果见到了黑色的乌鸦就要请人喝一罐咖啡,也就是说要赌上得失,糊涂虫也不得不将自己的决策转向在概率上讲更合理的一方了。

理解p值和置信区间的本质

如果想要主张“乌鸦大多数是黑色的”,就要故意检验完全颠覆自己主张的假设,即“黑色和非黑色的乌鸦各占一半”,这个假设被称为原假设(也被称为零假设),意味着将所主张的假设“归零”。

在假定原假设成立的情况下,出现该数据或更极端数据的概率称为p值。p来自于“概率”(probability)。也就是说,我们得到的(假设乌鸦中黑色的和白色的各占一半)“连续看到100只黑色乌鸦”这一观察结果所对应的比一万亿分之一的一万亿分之一更小的概率,就是这次的例子中的p值。p值足够小,认为“原假设不可能发生”就是合理的。

要得到多小的p值才能认为“不可能”呢?虽然在不同领域p值并不相同,但标准大约是5%以下。也就是说,在原假设基础上,该情况20次中只能发生1次,习惯上就会认为“不可能”。

至于为什么将5%作为界线,其实并没有数学上的根据,似乎只是因为伟大的统计学家费希尔曾经写道“用5%来判断p值很方便”。

无论是何种类型的原假设,我们都可以说明该假设在哪种范围以外是可以推翻的,在哪种范围之内是无法否定的。这就是置信区间的真正含义。J.内曼等人定义的置信区间,表示“不可能的原假设”与“无法否定的原假设”到底处于何种范围。

实际计算一下,在“97.0%的乌鸦是黑色的”这一假设下偶然遇到100只黑色乌鸦的概率是4.8%,而在“97.1%的乌鸦是黑色的”这一假设下,该概率变为5.3%。也就是说,如果用p值是否小于5%来判断假设,从“97.1%的乌鸦是黑色的”到“100%的乌鸦是黑色的”的假设都是无法否定的。这就是置信区间的思维方式。

像这样通过统计性假设检验的思考方法,利用p值和置信区间,我们得到了似乎可以认为“在如今的数据范围之内97.1%~100%的乌鸦是黑色的”的结论。在东南亚有灰色的乌鸦,也存在因为突然变异而有着纯白羽毛的白乌鸦,因此不能说“全部乌鸦都是黑色的”。但我们至少证明了,作为现实的决策,“认为我们接下来遇到的乌鸦是黑色的可能更合理”。

(摘自《统计思维》)

猜你喜欢

显著性乌鸦概率
概率与统计(1)
概率与统计(2)
欧盟法院判决明确欧盟商标通过使用获得显著性的地域认定标准
小乌鸦
浅谈商标的显著性对于商标应用的影响
商标显著性的司法判断(一)
乌鸦喝水后传
概率与统计解答题集锦
基于视觉显著性的红外与可见光图像融合
乌鸦搬家