APP下载

基于SPSS加权回归的回归分析条件适用性研究

2019-03-14曹玉茹

统计与决策 2019年4期
关键词:回归方程方差残差

曹玉茹

(上海对外经贸大学 统计与信息学院,上海 201620)

0 引言

在统计学中,线性回归是利用最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。

线性回归模型经常用最小二乘逼近来拟合,但线性回归的前提条件无法满足时,也可能用别的方法来拟合。线性回归虽然有广泛的使用,但其适用条件也非常严格,很多时候大家在使用线性回归时并未过多考虑其条件是否满足,因此估计量不具备最佳线性无偏特性,从而可能造成预测准确度不够,甚至于出现错误的预测,尤其在多元回归中,随着自变量的数量增加,拟合优度调整的R2也会增大[1],但很有可能是由于自变量的自相关性造成的伪回归导致的结果,而并非就说明模型拟合程度好。且如果残差为异方差序列,则在不同的X取值处,Y的实际分散程度不同,则回归线的预测在不同的X点准确度不同,回归预测效果不稳定,或者说此时在不同的X水平,其与Y的关系是有很大差别的,无法用单一的回归方程去预测Y。此时的回归分析可能失效,从而无法进行准确的预测问题。如何得到相对准确的、稳定的预测模型是学者们一直致力研究的问题。然而最基本的问题当然是必须要满足以下的回归分析的基本条件:(1)自变量与因变量间存在线性关系。(2)残差序列独立。(3)残差分布是均值为0的正态分布。(4)残差序列是方差齐性的。本文通过具体的示例主要围绕着回归分析条件检验方法及其相关的处理方法展开研究,着重研究异方差的检验方法及其应对措施。

1 异方差检验

由文献[2]可知,无论自变量x取怎样的值,对应残差的方差都应该相等,他不应随解释变量或被解释变量的取值的变化而变化,否则就出现了异方差现象。当存在异方差时,参数的最小二乘估计不再是最小方差的无偏估计,不再是有效性估计;容易导致回归系数显著性检验的t值偏高,从而容易拒绝原假设,使那些不该保留的变量保留下来了,使得最终模型的预测偏差较大。下面通过具体的示例来说明异方差的检验方法。

本文利用SPSS自带的数据polishing.sav为例分析说明产品半径能否预测产品抛光时间问题。首先用线性回归做散点图及简单线性回归,并对残差做进一步检验得到结果见图1、图2所示。

图1 加拟合线的散点图

图2 残差的自相关、偏自相关函数图

表1 模型汇总表b

表2 方差分析表b

表3 系数a(回归统计表)

线性回归,结果见表1至表3所示,结果表明:产品半径确实对抛光时间产生影响显著影响,虽然拟合优度不高,但回归方程及回归系数的显著性都通过检验;而且通过散点图可知单个产品对象的拟合效果很不错,甚至R2达到0.876,因此有理由进一步具体分析变量半径和抛光时间之间存在的关系。由简单线性回归得到产品半径与抛光时间的回归方程为:

从前面的分类散点图可以看出,这个方程预测准确度可能有问题,而且总体的拟合优度0.49也不是很高。因此本文考虑做进一步的分析。

鉴于前面提到的回归模型的适用条件要求残差具备正态性、独立性和方差齐性的特点。考虑到可能是回归的适用性条件不满足造成的回归方程有问题。一方面通过SPSS回归分析自带的DW参数(本例中为1.858)初步判断残差独立,进一步利用时间序列分析工具[3]得到残差的自相关函数图(见图2)基本可以认为残差是独立的;再通过非参数检验单样本K-S检验,K-S统计量对应的伴随概率明显大于0.05基本断定残差是正态分布的,结果如表4所示。

表4 单样本K-S检验

至此,回归分析的前三个条件是得到满足了,但为什么回归分析的结果不满意呢,很可能第四个条件出问题了。根据预测值的残差分布图发现残差可能存在异方差现象,进一步根据残差和预测变量的等级相关检验结果[4]说明确实存在异方差现象,等级相关检验的具体方法是先求出残差和预测变量,将残差求绝对值后和预测变量一起转成秩变量,再利用SPSS相关分析求出Speaman等级相关系数。

结果表明:由伴随概率值sig=.001<0.05得出,残差的秩和预测值的秩之间存在显著的相关性,也即进一步证明残差确实存在显著异方差现象,检验见图3所示。

图3 残差的异方差检验

其中图3表示回归的标准化预测值与标准化残差的散点图,表5为等级相关分析的分析结果。

表5 等级相关分析结果

至此得到上面的回归模型违背了基本的适用条件,原来的回归方程(公式1)可能无法准确的预测结果,需要重新构建回归模型。

2 加权线性回归分析

上面的回归模型的失效原因是异方差造成的,进一步如何去除回归中的异方差现象呢?利用SPSS软件中的加权最小二乘法估计法得到回归加权变量,再利用加权变量完成回归分析的方法,可以大大缓解残差的异方差现象,从而得到较为精确的回归模型。根据文献[5],可以先对解释变量实施方差稳定变换后再进行回归参数的估计,本文尝试利用Spss中的加权回归得到加权变量,再利用加权变量作为回归分析中的加权最小二乘变量得到新的加权回归模型(公式2)及其对应的检验结果如下:

Time=0.691+3.208*diam (2)

经过加权回归分析,结果见表6至表8所示。结果表明:虽然拟合优度有些许降低,但估计的标准误差降低非常明显;且回归方程及回归系数的显著性均通过检验;残差的自相关函数图(见图4)基本可以认为残差是独立的;通过非参数检验单样本K-S检验,K-S统计量对应的伴随概率明显大于0.05基本断定残差是正态分布的,结果如表9所示。

表6 模型汇总表

表7 方差分析表

表8 回归统计表

利用加权变量得到新的残差和新的预测变量,将残差求绝对值后和预测变量一起转成秩变量,再利用相关分析求出Speaman等级相关系数,由伴随概率值sig>0.05得出,相关性不显著,即残差的异方差现象确实消除,检验见图5、表10所示。

图4 新模型残差的自相关、偏自相关函数图

表9 单样本Kolmogorov-Smirnov检验

图5 异方差检验

表10 异方差检验(等级相关分析)表

表示加权后的标准化预测值和标准化残差。

鉴于以上分析,新的模型通过了回归分析的异方差条件检验,且估计误差大大缩小,新的模型可能相比原先的模型更适合进行预测分析使用。

又通过SPSS的探索性分析得到time变量的样本数据分布非正态,见表11所示。

表11 正态性检验结果

因此可以先进行正态化处理[6]后再进行回归分析,结果见下页表12、表13所示。

其他过程如上面的加权处理过程,此处省略,结果发现:模型估计误差进一步缩小,拟合优度也有所改善,效果可以更好。

表12 正态化之后的回归结果(模型汇总b,c)

表13 三种模型估计指标汇总对比

虽然估计误差得到改善,而且回归条件也都通过检验,但是拟合优度还是不尽如人意,究其原因,可以发现在本文开头的散点图中可能不同类别的产品抛光时间的变化是不相同的,因此,本文考虑分别讨论不同种类对象的回归情况。SPSS中可以通过拆分文件再分析的方法得到分析结果,结果如表14。

表14 模型摘要表

显然,不同类别的对象其回归结果差异很大,对于产品Casserole和Plate非常不适合使用半径来预测其抛光时间,而Tray却效果非常好,相应的检验也都能通过,此处不再赘述。

3 结论

回归分析广泛应用于计量经济和金融数据分析领域,主要用来对各种经济现象和金融现象进行预测,虽然对于回归模型的检验有很多指标和方法,但回归模型的前提条件是否满足可能会直接导致模型的准确性,因此为了得到更加优化、合理的回归模型进行预测,本文从回归模型的适用性条件是否满足入手,借助于各种常规检验方法并结合时间序列中的自相关和偏自相关函数图示对实际案例中的回归适用性条件给出了新的检验方法,并利用SPSS软件中的加权最小二乘工具得到回归中的权重变量,消除了回归模型中的异方差,进一步修正了原来的回归模型,并结合SPSS中的分类散点图技术为原来的分析寻求到一个更加合适的回归模型。

猜你喜欢

回归方程方差残差
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
概率与统计(2)——离散型随机变量的期望与方差
采用直线回归方程预测桑瘿蚊防治适期
线性回归方程的求解与应用
线性回归方程要点导学
基于残差学习的自适应无人机目标跟踪算法
基于深度卷积的残差三生网络研究与应用
方差越小越好?
计算方差用哪个公式