APP下载

误差理论简史

2014-11-14尹霖张金凤赵云飞范海英

科技资讯 2014年5期
关键词:正态分布概率论

尹霖+张金凤+赵云飞+范海英

摘 要:误差理论是测量不确定评定和一切实验研究的基础,其重要性毋庸置疑,而其本身的发展又与概率理论的发展密不可分、相互影响。

关键词:误差理论 概率论 正态分布 中心极限定理

中图分类号:P2 文献标识码:A 文章编号:1672-3791(2014)02(b)-0000-00

从古人夜观天象开始,人们在长期的观测中很早就意识到测量不可避免会产生误差;而由于真值=测量值-误差,“得到”误差就可以得到真值,这样的认识自然使得人们开始研究误差。而纵观误差理论的发展史,人们会发现误差理论的发展其实是与概率理论的发展密不可分、相互影响的。

较早期在著作中探讨误差各种性质的人是近代科学及实验科学的奠基人伽利略(Galileo Galilei,1564-1642)。他在《关于托勒密和哥白尼:两大世界体系的对话》(1632)中谈到第谷(Tycho Brahe,1546 -1601)于1572年发现的一颗新星(Nova)的位置时,讨论了这个问题: “萨:……首先我问你,天文学家们用他们的仪器观测并测算诸如新星在地平线上的仰角时,是否会测算得过头一点,或测算得不够一点;这就是说,有时候把角度推算得比正确的角度高些,有时候低些?还是推算的错误总是朝一边倒,以致只要发生误差,总是过头了一点;或者总是不够,而永远不会过头?辛:毫无疑问,过与不及的两种倾向都同样地存在。”“萨:……从这种地方你可以看出,所谓仪器测算上的误差决不能从计算结果上来决定其误差的大小,而必须根据仪器实际测量出的度和分的数目来定……”虽然伽利略当时并没有明确提出“随机”和“分布”这样的概念,但可以看出他所描述的误差的种种性质,实际上正是我们现在所理解的随机误差的分布性质——即所有观测值都可以有误差,其来源可归因于观测者、仪器工具以及观测条件;观测误差对称地分布在0的两侧;小误差出现得比大误差更频繁。此外他的表述中还涉及了误差传递的思想。

对早期误差理论的发展做出了重大贡献的另一个人是英国数学家辛普森(Thomas Simpson,1710-1761),他的工作在他1755年写的一封信《在应用天文学中取若干个观测值的平均的好处》中提出。在信里,他构造了一个离散的误差分布:假定在一次测量中,误差只能取0、±1、±2、±3、±4、±5这11个值,取这些值的概率在0处最大,然后在两边按比例下降,直到±6处为0:即 。 根据所给的分布,可算得单次测量的误差(绝对值)不超过1(0、±1)的概率为16/36=0.444,不超过2(0、±1、±2)的概率是24/36=0.667;为比较起见,他又计算出6次测量的平均值的误差(即6个误差的平均)不超过1的概率是0.725,不超过2的是0.967——易见平均值的估计优于单个值。由此出发,辛普森就首次从数学上“证明”了算数平均值的优良性,而由于出发点是误差取值的概率,辛普森也被视为是第一个将误差理论与概率理论联系起来的人——后面可以看到这一点的意义十分重大,因为整个误差理论就是建立在概率论基础上的。

误差理论发展的下一个阶段就是随机误差的分布的确定,这众所周知的是由大数学家高斯(Carl Friedrich Gauss,1777-1855)所完成的。1809年高斯发表了他的《绕日天体运动的理论》一书,在此书末尾他写了一节有关“数据结合”的问题(data combination),即:当对同一目标的若干次观测结果不同时,如何处理这些数据?或如何利用观测数据对观测目标的真值进行估计?(虽然人们一直采取算术平均值的方法来处理这一问题,但并无理论根据——辛普森对此进行了尝试,但他所构造的误差分布是错误的)最终,高斯在书中介绍了他用来预测行星轨道的方法——最小二乘法(一维情况下即算数平均值),同时以出人意料的方法找到了随机误差的分布——正态分布。

设随机误差的概率密度函数为 , 个独立测量值为 ,真值为 ,则对应的 个随机误差为 。由于观测是相互独立的,因而这些误差同时出现的概率为 ,对真值 的最佳估计应使L极大(极大似然估计——由高斯首先提出,1912年被英国数学家费歇尔所推广)。这里高斯由最小二乘法出发认为算数平均值 就是最佳估计——即 极大。

有 ,

首先令 ,并记 ,有

由于 ,因此 ;

然后令 ,其中 ,有

于是有 ;

由 的任意性(如可令 ),可推出 , 为常数。

由此可得 ,考虑到 是概率密度函数,归一化后可得正态分布表达式。

虽然正态分布的表达式最早由法国数学家棣莫弗得到,但是由于是高斯首先找到了它作为随机误差分布的这一重要作用,而经过后来凯特勒(Lambert Adolphe Jacques Quetelet,1796~1874)、高尔顿(Francis Galton,1822-1911)等人的努力,使得这一认识和正态分布的应用广泛渗透到了社会、经济和遗传学等多个领域,故我们在讨论对与正态分布的贡献时更多的将其归因于高斯,并称正态分布为高斯分布,有人认为整个19世纪的统计学就是正态分布应用的扩展。

误差理论发展的第四个阶段是著名的中心极限定理的提出和证明,它是随机误差正态分布的理论基础。最早提出中心极限定理思想的人是发现了正态分布表达式的法国数学家棣莫弗(Abraham De Moivre,1667-1754),他于1733年在研究二项分布的极限情况时首先发现了正态分布的表达式,并由此得到了中心极限定理的最早特例,后来另外一位法国数学家拉普拉斯(Pierre-Simon de Laplace,1749-1827)于1812年完成了更一般的证明,即棣莫弗-拉普拉斯中心极限定理。而真正能够成为误差分布理论基础的中心极限定理则是由俄国数学家李雅普诺夫(Aleksandr Mikhailovich Lyapunov,1857-1918)于1901年证明,即李雅普诺夫中心极限定理。

设随机变量 相互独立,且数学期望 ,方差 ,记 ,如果 满足林德伯格条件:存在正数 ,使得当 时,有 ,则 。

中心极限定理的含义是:如果某随机变量是由大量独立的随机变量综合影响(相加)形成的,而其中每一个随机因素对总和的影响是微小的(林德伯格条件),那么可以保证这些大量的、独立的随机因素的总和所形成的随机变量总是服从正态分布。而这就很好的解释了随机误差的正态分布性质:我们知道所谓(随机)误差实际上是测量各要素的不完美所引起的各(随机)误差因素的总和,如温度涨落引起的随机误差( )、气压涨落引起的随机误差( )、视角、光线明暗、读数时的判断等等很多因素引起的各个随机误差( )……那么根据中心极限定理,总的随机误差( )满足正态分布!中心极限定理被称为概率论与数理统计的“首席定理”,在误差理论中它同样具有非常重要的作用:因为它既从正面解释和证明了为什么随机误差满足正态分布,同时也指出很多情况下误差合成后仍近似满足正态分布,为误差的合成及置信概率的确定提供了有可行性的重要指导。

误差理论发展的最后一个阶段是建立在现代概率理论建立的基础上的,这是以1936年苏联数学家柯尔莫哥洛夫(Andrey Nikolaevich Kolmogorov,1903-1987)发表《概率论基本概念》为标志的。因为现代概率理论不仅研究了随机误差所满足的正态分布,也系统研究了系统误差所满足的其他各种分布如均匀分布、三角分布、反正弦分布等等。而误差理论的基础正是概率理论,核心思想就是将误差看作随机变量——通过研究随机变量的各种性质(期望、方差、方差的合成等)来研究误差的各种性质。

参考文献

[1] 《关于托勒密和哥白尼:两大世界体系的对话》【意】伽利略著.上海人民出版社.1974

[2] 《数理统计学小史》陈希儒.数理统计与管理.1999.1

[3] 《高斯与观测误差分布的发现》于忠义.统计与信息论坛.2006.11endprint

摘 要:误差理论是测量不确定评定和一切实验研究的基础,其重要性毋庸置疑,而其本身的发展又与概率理论的发展密不可分、相互影响。

关键词:误差理论 概率论 正态分布 中心极限定理

中图分类号:P2 文献标识码:A 文章编号:1672-3791(2014)02(b)-0000-00

从古人夜观天象开始,人们在长期的观测中很早就意识到测量不可避免会产生误差;而由于真值=测量值-误差,“得到”误差就可以得到真值,这样的认识自然使得人们开始研究误差。而纵观误差理论的发展史,人们会发现误差理论的发展其实是与概率理论的发展密不可分、相互影响的。

较早期在著作中探讨误差各种性质的人是近代科学及实验科学的奠基人伽利略(Galileo Galilei,1564-1642)。他在《关于托勒密和哥白尼:两大世界体系的对话》(1632)中谈到第谷(Tycho Brahe,1546 -1601)于1572年发现的一颗新星(Nova)的位置时,讨论了这个问题: “萨:……首先我问你,天文学家们用他们的仪器观测并测算诸如新星在地平线上的仰角时,是否会测算得过头一点,或测算得不够一点;这就是说,有时候把角度推算得比正确的角度高些,有时候低些?还是推算的错误总是朝一边倒,以致只要发生误差,总是过头了一点;或者总是不够,而永远不会过头?辛:毫无疑问,过与不及的两种倾向都同样地存在。”“萨:……从这种地方你可以看出,所谓仪器测算上的误差决不能从计算结果上来决定其误差的大小,而必须根据仪器实际测量出的度和分的数目来定……”虽然伽利略当时并没有明确提出“随机”和“分布”这样的概念,但可以看出他所描述的误差的种种性质,实际上正是我们现在所理解的随机误差的分布性质——即所有观测值都可以有误差,其来源可归因于观测者、仪器工具以及观测条件;观测误差对称地分布在0的两侧;小误差出现得比大误差更频繁。此外他的表述中还涉及了误差传递的思想。

对早期误差理论的发展做出了重大贡献的另一个人是英国数学家辛普森(Thomas Simpson,1710-1761),他的工作在他1755年写的一封信《在应用天文学中取若干个观测值的平均的好处》中提出。在信里,他构造了一个离散的误差分布:假定在一次测量中,误差只能取0、±1、±2、±3、±4、±5这11个值,取这些值的概率在0处最大,然后在两边按比例下降,直到±6处为0:即 。 根据所给的分布,可算得单次测量的误差(绝对值)不超过1(0、±1)的概率为16/36=0.444,不超过2(0、±1、±2)的概率是24/36=0.667;为比较起见,他又计算出6次测量的平均值的误差(即6个误差的平均)不超过1的概率是0.725,不超过2的是0.967——易见平均值的估计优于单个值。由此出发,辛普森就首次从数学上“证明”了算数平均值的优良性,而由于出发点是误差取值的概率,辛普森也被视为是第一个将误差理论与概率理论联系起来的人——后面可以看到这一点的意义十分重大,因为整个误差理论就是建立在概率论基础上的。

误差理论发展的下一个阶段就是随机误差的分布的确定,这众所周知的是由大数学家高斯(Carl Friedrich Gauss,1777-1855)所完成的。1809年高斯发表了他的《绕日天体运动的理论》一书,在此书末尾他写了一节有关“数据结合”的问题(data combination),即:当对同一目标的若干次观测结果不同时,如何处理这些数据?或如何利用观测数据对观测目标的真值进行估计?(虽然人们一直采取算术平均值的方法来处理这一问题,但并无理论根据——辛普森对此进行了尝试,但他所构造的误差分布是错误的)最终,高斯在书中介绍了他用来预测行星轨道的方法——最小二乘法(一维情况下即算数平均值),同时以出人意料的方法找到了随机误差的分布——正态分布。

设随机误差的概率密度函数为 , 个独立测量值为 ,真值为 ,则对应的 个随机误差为 。由于观测是相互独立的,因而这些误差同时出现的概率为 ,对真值 的最佳估计应使L极大(极大似然估计——由高斯首先提出,1912年被英国数学家费歇尔所推广)。这里高斯由最小二乘法出发认为算数平均值 就是最佳估计——即 极大。

有 ,

首先令 ,并记 ,有

由于 ,因此 ;

然后令 ,其中 ,有

于是有 ;

由 的任意性(如可令 ),可推出 , 为常数。

由此可得 ,考虑到 是概率密度函数,归一化后可得正态分布表达式。

虽然正态分布的表达式最早由法国数学家棣莫弗得到,但是由于是高斯首先找到了它作为随机误差分布的这一重要作用,而经过后来凯特勒(Lambert Adolphe Jacques Quetelet,1796~1874)、高尔顿(Francis Galton,1822-1911)等人的努力,使得这一认识和正态分布的应用广泛渗透到了社会、经济和遗传学等多个领域,故我们在讨论对与正态分布的贡献时更多的将其归因于高斯,并称正态分布为高斯分布,有人认为整个19世纪的统计学就是正态分布应用的扩展。

误差理论发展的第四个阶段是著名的中心极限定理的提出和证明,它是随机误差正态分布的理论基础。最早提出中心极限定理思想的人是发现了正态分布表达式的法国数学家棣莫弗(Abraham De Moivre,1667-1754),他于1733年在研究二项分布的极限情况时首先发现了正态分布的表达式,并由此得到了中心极限定理的最早特例,后来另外一位法国数学家拉普拉斯(Pierre-Simon de Laplace,1749-1827)于1812年完成了更一般的证明,即棣莫弗-拉普拉斯中心极限定理。而真正能够成为误差分布理论基础的中心极限定理则是由俄国数学家李雅普诺夫(Aleksandr Mikhailovich Lyapunov,1857-1918)于1901年证明,即李雅普诺夫中心极限定理。

设随机变量 相互独立,且数学期望 ,方差 ,记 ,如果 满足林德伯格条件:存在正数 ,使得当 时,有 ,则 。

中心极限定理的含义是:如果某随机变量是由大量独立的随机变量综合影响(相加)形成的,而其中每一个随机因素对总和的影响是微小的(林德伯格条件),那么可以保证这些大量的、独立的随机因素的总和所形成的随机变量总是服从正态分布。而这就很好的解释了随机误差的正态分布性质:我们知道所谓(随机)误差实际上是测量各要素的不完美所引起的各(随机)误差因素的总和,如温度涨落引起的随机误差( )、气压涨落引起的随机误差( )、视角、光线明暗、读数时的判断等等很多因素引起的各个随机误差( )……那么根据中心极限定理,总的随机误差( )满足正态分布!中心极限定理被称为概率论与数理统计的“首席定理”,在误差理论中它同样具有非常重要的作用:因为它既从正面解释和证明了为什么随机误差满足正态分布,同时也指出很多情况下误差合成后仍近似满足正态分布,为误差的合成及置信概率的确定提供了有可行性的重要指导。

误差理论发展的最后一个阶段是建立在现代概率理论建立的基础上的,这是以1936年苏联数学家柯尔莫哥洛夫(Andrey Nikolaevich Kolmogorov,1903-1987)发表《概率论基本概念》为标志的。因为现代概率理论不仅研究了随机误差所满足的正态分布,也系统研究了系统误差所满足的其他各种分布如均匀分布、三角分布、反正弦分布等等。而误差理论的基础正是概率理论,核心思想就是将误差看作随机变量——通过研究随机变量的各种性质(期望、方差、方差的合成等)来研究误差的各种性质。

参考文献

[1] 《关于托勒密和哥白尼:两大世界体系的对话》【意】伽利略著.上海人民出版社.1974

[2] 《数理统计学小史》陈希儒.数理统计与管理.1999.1

[3] 《高斯与观测误差分布的发现》于忠义.统计与信息论坛.2006.11endprint

摘 要:误差理论是测量不确定评定和一切实验研究的基础,其重要性毋庸置疑,而其本身的发展又与概率理论的发展密不可分、相互影响。

关键词:误差理论 概率论 正态分布 中心极限定理

中图分类号:P2 文献标识码:A 文章编号:1672-3791(2014)02(b)-0000-00

从古人夜观天象开始,人们在长期的观测中很早就意识到测量不可避免会产生误差;而由于真值=测量值-误差,“得到”误差就可以得到真值,这样的认识自然使得人们开始研究误差。而纵观误差理论的发展史,人们会发现误差理论的发展其实是与概率理论的发展密不可分、相互影响的。

较早期在著作中探讨误差各种性质的人是近代科学及实验科学的奠基人伽利略(Galileo Galilei,1564-1642)。他在《关于托勒密和哥白尼:两大世界体系的对话》(1632)中谈到第谷(Tycho Brahe,1546 -1601)于1572年发现的一颗新星(Nova)的位置时,讨论了这个问题: “萨:……首先我问你,天文学家们用他们的仪器观测并测算诸如新星在地平线上的仰角时,是否会测算得过头一点,或测算得不够一点;这就是说,有时候把角度推算得比正确的角度高些,有时候低些?还是推算的错误总是朝一边倒,以致只要发生误差,总是过头了一点;或者总是不够,而永远不会过头?辛:毫无疑问,过与不及的两种倾向都同样地存在。”“萨:……从这种地方你可以看出,所谓仪器测算上的误差决不能从计算结果上来决定其误差的大小,而必须根据仪器实际测量出的度和分的数目来定……”虽然伽利略当时并没有明确提出“随机”和“分布”这样的概念,但可以看出他所描述的误差的种种性质,实际上正是我们现在所理解的随机误差的分布性质——即所有观测值都可以有误差,其来源可归因于观测者、仪器工具以及观测条件;观测误差对称地分布在0的两侧;小误差出现得比大误差更频繁。此外他的表述中还涉及了误差传递的思想。

对早期误差理论的发展做出了重大贡献的另一个人是英国数学家辛普森(Thomas Simpson,1710-1761),他的工作在他1755年写的一封信《在应用天文学中取若干个观测值的平均的好处》中提出。在信里,他构造了一个离散的误差分布:假定在一次测量中,误差只能取0、±1、±2、±3、±4、±5这11个值,取这些值的概率在0处最大,然后在两边按比例下降,直到±6处为0:即 。 根据所给的分布,可算得单次测量的误差(绝对值)不超过1(0、±1)的概率为16/36=0.444,不超过2(0、±1、±2)的概率是24/36=0.667;为比较起见,他又计算出6次测量的平均值的误差(即6个误差的平均)不超过1的概率是0.725,不超过2的是0.967——易见平均值的估计优于单个值。由此出发,辛普森就首次从数学上“证明”了算数平均值的优良性,而由于出发点是误差取值的概率,辛普森也被视为是第一个将误差理论与概率理论联系起来的人——后面可以看到这一点的意义十分重大,因为整个误差理论就是建立在概率论基础上的。

误差理论发展的下一个阶段就是随机误差的分布的确定,这众所周知的是由大数学家高斯(Carl Friedrich Gauss,1777-1855)所完成的。1809年高斯发表了他的《绕日天体运动的理论》一书,在此书末尾他写了一节有关“数据结合”的问题(data combination),即:当对同一目标的若干次观测结果不同时,如何处理这些数据?或如何利用观测数据对观测目标的真值进行估计?(虽然人们一直采取算术平均值的方法来处理这一问题,但并无理论根据——辛普森对此进行了尝试,但他所构造的误差分布是错误的)最终,高斯在书中介绍了他用来预测行星轨道的方法——最小二乘法(一维情况下即算数平均值),同时以出人意料的方法找到了随机误差的分布——正态分布。

设随机误差的概率密度函数为 , 个独立测量值为 ,真值为 ,则对应的 个随机误差为 。由于观测是相互独立的,因而这些误差同时出现的概率为 ,对真值 的最佳估计应使L极大(极大似然估计——由高斯首先提出,1912年被英国数学家费歇尔所推广)。这里高斯由最小二乘法出发认为算数平均值 就是最佳估计——即 极大。

有 ,

首先令 ,并记 ,有

由于 ,因此 ;

然后令 ,其中 ,有

于是有 ;

由 的任意性(如可令 ),可推出 , 为常数。

由此可得 ,考虑到 是概率密度函数,归一化后可得正态分布表达式。

虽然正态分布的表达式最早由法国数学家棣莫弗得到,但是由于是高斯首先找到了它作为随机误差分布的这一重要作用,而经过后来凯特勒(Lambert Adolphe Jacques Quetelet,1796~1874)、高尔顿(Francis Galton,1822-1911)等人的努力,使得这一认识和正态分布的应用广泛渗透到了社会、经济和遗传学等多个领域,故我们在讨论对与正态分布的贡献时更多的将其归因于高斯,并称正态分布为高斯分布,有人认为整个19世纪的统计学就是正态分布应用的扩展。

误差理论发展的第四个阶段是著名的中心极限定理的提出和证明,它是随机误差正态分布的理论基础。最早提出中心极限定理思想的人是发现了正态分布表达式的法国数学家棣莫弗(Abraham De Moivre,1667-1754),他于1733年在研究二项分布的极限情况时首先发现了正态分布的表达式,并由此得到了中心极限定理的最早特例,后来另外一位法国数学家拉普拉斯(Pierre-Simon de Laplace,1749-1827)于1812年完成了更一般的证明,即棣莫弗-拉普拉斯中心极限定理。而真正能够成为误差分布理论基础的中心极限定理则是由俄国数学家李雅普诺夫(Aleksandr Mikhailovich Lyapunov,1857-1918)于1901年证明,即李雅普诺夫中心极限定理。

设随机变量 相互独立,且数学期望 ,方差 ,记 ,如果 满足林德伯格条件:存在正数 ,使得当 时,有 ,则 。

中心极限定理的含义是:如果某随机变量是由大量独立的随机变量综合影响(相加)形成的,而其中每一个随机因素对总和的影响是微小的(林德伯格条件),那么可以保证这些大量的、独立的随机因素的总和所形成的随机变量总是服从正态分布。而这就很好的解释了随机误差的正态分布性质:我们知道所谓(随机)误差实际上是测量各要素的不完美所引起的各(随机)误差因素的总和,如温度涨落引起的随机误差( )、气压涨落引起的随机误差( )、视角、光线明暗、读数时的判断等等很多因素引起的各个随机误差( )……那么根据中心极限定理,总的随机误差( )满足正态分布!中心极限定理被称为概率论与数理统计的“首席定理”,在误差理论中它同样具有非常重要的作用:因为它既从正面解释和证明了为什么随机误差满足正态分布,同时也指出很多情况下误差合成后仍近似满足正态分布,为误差的合成及置信概率的确定提供了有可行性的重要指导。

误差理论发展的最后一个阶段是建立在现代概率理论建立的基础上的,这是以1936年苏联数学家柯尔莫哥洛夫(Andrey Nikolaevich Kolmogorov,1903-1987)发表《概率论基本概念》为标志的。因为现代概率理论不仅研究了随机误差所满足的正态分布,也系统研究了系统误差所满足的其他各种分布如均匀分布、三角分布、反正弦分布等等。而误差理论的基础正是概率理论,核心思想就是将误差看作随机变量——通过研究随机变量的各种性质(期望、方差、方差的合成等)来研究误差的各种性质。

参考文献

[1] 《关于托勒密和哥白尼:两大世界体系的对话》【意】伽利略著.上海人民出版社.1974

[2] 《数理统计学小史》陈希儒.数理统计与管理.1999.1

[3] 《高斯与观测误差分布的发现》于忠义.统计与信息论坛.2006.11endprint

猜你喜欢

正态分布概率论
凸函数性质及其应用
线上线下混合教学模式在概率论与数理统计课程中的应用
生活常态模式
浅谈高斯分布的原理和应用
对一道教材习题的思考
概率论方法在高等数学解题中的应用
常利率下索赔相依风险模型的破产赤字
概率论与数理统计课程教学中的一些思考
二项分布及其应用、正态分布
高考正态分布问题例析