从随机变量的观点看线性回归模型

2023-04-11徐章韬

教育研究与评论（中学教育教学） 2023年2期

摘要：从随机变量的观点看，线性回归方程的推导实际上是根据两个随机变量的两组对应数据建立数学模型，估计它们的相关关系。这就和根据一个随机变量的一组数据建立模型，估计它的大小一样，都是用实际的频率估计理论的概率这样的概率与统计“一体两面”思想的体现。由此，可以推动概率与统计思想的教学，并打通有关知识的内在联系。相应的教学启示有：区分不同情境下的数学建模；树立由问题选择方法的意识；强调技术进步的重要性。

关键词：高中数学；随机变量；线性回归模型；统计建模；概率与统计

本文系教育部人文社会科学研究2022年度规划基金课题“‘双减’政策落地的教师教学知识研究”（编号：22YJA88068）的阶段性研究成果。

随着大数据时代的来临，统计的作用愈发明显。顺应这种时代潮流，在高中数学课程中增加概率与统计主题的内容是恰当的。特别是统计内容，不应被当作一种应试的知识来学习，而应被当作一种认识世界的方法来学习。按照这种观点来认识高中数学教材中的线性回归模型（方程）内容，其处理方式，或者说其中应该渗透的一些思想观念，是可以进一步考虑的。

各版高中数学教材在推导线性回归方程（确定其中的参数）时，主要从统计数据出发，采用高斯、勒让德等数学家提出的最小二乘法。最小二乘法在解构模型时，主要从误差最小的角度考虑，这符合中学生的认识水平和经验。但是，这种处理方法没有渗透随机变量的思想，可能导致学生学习了线性回归方程后，仍然不知道如何用概率与统计的观点看待复杂的社会、经济问题中的随机现象。

从随机变量的观点看，线性回归方程的推导实际上是根据两个随机变量的两组对应数据建立数学模型，估计它们的相关关系。这就和根据一个随机变量的一组数据建立模型，估计它的大小一样，都是用实际的频率估计理论的概率这样的概率与统计“一体两面”思想［1］的体现，都有着最大可能性的意义［2］。

下面，用随机变量的观点重新认识与线性回归模型有关的统计建模，以推动概率与统计思想的教学，并打通知识的内在联系。

一、从随机变量的观点看单一数据的模型

科学研究始于测量，测量不可避免地存在误差，误差从根本上说是由随机性导致的，因为世界是随机的［3］。于是，人们通常会通过多次测量，得到被测物体被测属性的一组数据，然后取其平均值，当作真实值（理论值）。为什么会建立平均值这个模型来估计？

如果把不准确的、带有随机误差的一组测量数据［设为xi（i=1，2，…，n）］看作被测物体被测属性这个随机变量（记为X）的多个取值，人们往往期望从中选取一个代表。这个代表要具有误差最小的特点。于是，考虑总的测量误差，它既可以表示为S=∑ni=1（X-xi）2（偏差平方和），也可以表示为S=∑ni=1|X-xi|（偏差绝对值和）。因为绝对值不太好处理，所以选择平方和的形式。由柯西不等式不难推得：当X=1n∑ni=1xi时，S=∑ni=1（X-xi）2取最小值。同时，如果有两组测量数据，要判断哪一组数据更合理，则显然应该在两个总测量误差的基础上消除数据个数的影响。顺着这个思路，样本的平均值x和随机变量的期望E（X）自然被引入，样本方差的定义s2=1n∑ni=1（xi-x）2和随机变量方差的定义D（X）=E［X-E（X）］2的合理性也自然得到了解释。同时，这里不难推出：s2=1n∑ni=1x2i-x2，D（X）=E（X2）-E2（X）。

總之，在随机变量的观点下，平均值（期望）是一组测量数据的最佳代表，方差则是衡量一组测量数据好坏的标准。而由单个随机变量（单一数据）经概率（统计）思想建立的期望（平均值）与方差模型，则是建立两个随机变量（成对数据）之间关系的模型的基础。

二、从随机变量的观点看成对数据的模型

（一）判断两个随机变量是否相关

事物之间存在着普遍的联系。科学研究不只关心单个变量，更关心多个变量之间的关系。两个变量相关主要表现为一个变量变化，另一个变量也随之变化。如果变化趋势一致，即同增或同减，则两个变量正相关；如果变化趋势相反，即一个增另一个减，则两个变量负相关。随机变量的理论值是其期望，随机变量的变化可以看成围绕期望产生的波动——从统计的角度看，就是实际值对理论值的误差。因此，判断两个随机变量是否相关，需要综合考虑两个随机变量围绕各自期望产生的波动（误差）。

回头来看教材给出的决定系数R2，代入b∧的估计公式，可以发现它就是相关系数的平方r2。从理论的角度看，即R2=r2=b2D（X）D（Y）。也就是说，决定系数（相关系数的平方）是（确定性视角下）因变量变化与自变量变化的比的平方（反映的是平方意义下的变化率）和（随机性视角下）自变量方差与因变量方差的比（反映的也是平方意义下的变化率）的积。

由此，可以认识到R2（r2）表示自（原因、解释）变量对因（结果、预计）变量变化的贡献率。比如，R2（r2）=0.64，表示因变量的变化（偏差）有64%是由自变量的变化（偏差）引起的。显然，R2（r2）越接近1，越能说明自变量变化是引起因变量变化的重要原因。对此，反过来思考，更容易明白：如果无论自变量如何变化，因变量都“岿然不动”，那么，这两种因素之间就不存在相关（因果）关系了。

三、教学启示

“线性回归模型”这种说法强调的是“模型”，而不是“方程”（“函数”），也就强调了数学建模，即具体的实践研究，而不是抽象的理论研究。从数学建模的角度看，通过对“线性回归模型”有关内容的分析、挖掘、串联，可以获得以下几点教学启示。

（一）区分不同情境下的数学建模

数学建模是高中数学六大核心素养之一，搭建了数学与外部世界的桥梁，是数学语言作用的体现。数学建模还是一个对数学模型赋予意义的过程，各种变量、参数都有实际意义。这完全不同于纯粹的数学研究，也是数学建模难以开展的原因之一。在教学中，应区分不同情境下的数学建模。传统意义下的数学建模更多地指建立确定性的数学模型，比如利用方程、函数等从实际情境中发现问题、提出问题、分析问题、建立模型，最终解决问题。这种方法在物理等学科中有成功的应用。与传统意义下的数学建模不同，统计视角下的数学建模（统计建模）更多的是从问题、数据出发，建立的是非确定性的数学模型。因此，统计建模常常被称为数据分析。传统意义下的数学建模强调先有研究设计，再通过数据验证研究设计的合理性；而统计建模更强调数据驱动的分析，即先有数据，再有模型，而不是相反。比如，确定线性回归模型时，先通过画散点图，看到点大致分布在一条直线附近，才提出用直线来拟合，而不先提出一个线性回归模型，让所有的点都适应这个模型。

（二）树立由问题选择方法的意识

数据分析的基础是数据，所以，需要深刻把握数据的特点，根据问题、数据选择模型。比如，回归分析处理的是定距变量之间的回归关系，独立性检验处理的是分类变量之间是否相关。这样，就可以让学生看到是问题、数据的类型决定模型的选取，因而，把问题中涉及的概念转化为操作性变量（视作随机变量），再针对变量收集数据、整理数据、分析数据特点、建立数学模型，这种程序非常重要。而要获得好的数据，就要把研究问题细化为研究内容，针对研究对象进行精巧的设计，特别是，处理有关心理、教育、管理等人文社科领域的问题时，首先要把复杂的概念转换成可测量的变量，获得没有污染的数据（视为随机变量的取值），才能进行数据分析。按照这样的要求，高中数学教学中常见的统计案例其实离真实的基于数据而展开的研究工作还有相当的距离，离“适应数字化学习的需要，增强基于数据表达现实问题的意识，形成通过数据认识事物的思维品质；积累依托数据探索事物本质、关联和规律的活动经验”［6］的要求也有相当的距离。因此，强调“问题驱动—数据收集—方法选择”具有重要意义。

（三）强调技术进步的重要性

“数据分析是研究随机现象的重要数学技术，是大数据时代数学应用的主要方法，也是‘互联网+’相关领域的主要數学方法，数据分析已经深入到科学、技术、工程和现代社会生活的各个方面。”［7］计算机技术的发展大大改变了统计学的面貌，统计学在机器学习、人工智能等方面得到了广泛的应用。教授中小学生算法、编程、计算思维和软件操作是整个基础教育课程应通盘考虑的事情。

总之，把基础教育做好，支持学生的长远发展，并不是一句空话，关键在于深入挖掘具体知识背后的“本质”、蕴含的“思想”等，并且通过这些具有一致性的大概念充分串联有关的知识，形成良好的结构，以真正实现育人价值，提升迁移能力。

参考文献：

［1］［2］［3］张劲松.认识随机，把握生活——《醉汉的脚步》阅读感悟与教学启示［J］.教育研究与评论，2022（8）：115，116，110.

［4］徐章韬.从比例系数到相似比、三角函数——教育数学研究之八［J］.教育研究与评论（中学教育教学），2019（3）：59.

［5］郑毓信.数学教育及教育数学的几点散思——“数学教育杂谈”之七［J］.教育研究与评论，2022（9）：23.

［6］［7］中华人民共和国教育部.普通高中数学课程标准（2017年版2020年修订）［S］.北京：人民教育出版社，2020：7，7.