基于SPSS的数据模型分析

2020-09-10佘雅婷

看世界·学术上半月 2020年5期

关键词：建模

佘雅婷

摘要：进行数据分析工作的基础是掌握数据分析方法。回归分析、聚类分析、因子分析是三种在实际工作中经常使用的多元统计方法，不过通常在实际使用过程中容易使用错误或不易区分。本文基于数据分析理论基础运用SPSS软件求解数据分析模型并对三种方法进行对比。

关键词：数据分析模型;SPSS;建模

数据分析即把具有价值的信息从数据中提取出来，在该过程中离不开对数据各种形式的分类以及处理，数据分析员必须准确掌握高效的数据分类方法以及数据处理模式，才可以发挥事半功倍的效果。

SPSS是英文Statistical Package for the Social Science（社会科学统计软件包）的缩写.SPSS名为社会科学统计软件包，常适用于工学、农学、医学、教育学、管理学、社会学、经济学、体育学、商学等多种领域。SPSS数据分析工具的基础功能是数据输入输出全生命周期管理、数据统计分析、图表可视化分析等。SPSS同时提供专业的制图系统，可以根据数据绘制各种图形。

一、回归分析

回归分析方法是以相关原则为基础的能够定量预测的方法。依据具有变量的数量，细化成两类，一元回归分析以及多元回归分析;依据自变量以及因变量两者间关系结构，细化成线性回归分析以及非线性回归分析;依据哑变量的书序位置，细化为含哑变量回归分析、线性概率模型和Logistic即逻辑回归分析。在此重点介绍多元线性回归分析。

多元线性回归模型的定义是当回归具有一个因变量y和大于等于两个自变量x，描绘因变量随着若干个自变量以及误差项而变动的数学方程。具有k个自变量x1，x2，…，xk的多元线性回归模型能够显示如下

y=β0+β1 x1+β2 x2+…+βk xk+ε

式中：β0，β1，β2，…，βk是方程的偏回归系数;ε是被称为误差项的随机变量;y是x1，x2，…，xk的线性函数加上误差项。

多元线性回归分析方法能够归纳为五个基本流程：第一，确定变量，对照课题的目标以及内容确定自变量以及因变量;第二，建立模型，依据上文提到的回归模型理论基础建立;第三步，参数估计;第四步，检验以及更改模型，不过回归模型的质量仍必须去校验模型自己和各个参数项，常见的检验方法包括统计检验（像拟合优度检验、回归模型线性F检验、参数t检验等等）和残差图检验;第五步，模型的运用。

選取逐步回归法，利用SPSS工具运行后得到如下数据：回归系数b=（β0，β1，β2）=（ -0.443， 0.05， -0.032），包含三个检验统计量：相关系数的平方R2，假设验证统计量F，与验证统计量F一一对照的概率p这三个变量如下所示：0.739;35.037;0.000，得到初步的回归模型为y=-0.443+0.05x1-0.032x2，模型中x1表示各项贷款余额，x2表示本年固定资产投资额。参照检验统计量R，验证统计量F，概率p的大小得出本数学模型能否使用的结论。

（一）相关系数R的评价。这个条件下判定系数是0.739，得出结论该模型线性相关性较强。

（二）F检验法（线性关系检验）。F=35.037>F1-0.05 （2，22）=3.1

（三）p值检验。P=0.000，符合约束条件 p<α=0.05，使用三种不同的统计校验方法得到的结论相同，得出结论因变y和自变量x二者间存在显著的线性相关关系，假设建立的线性回归模型成立可以用于数学分析。

二、聚类分析

聚类分析方法是把研究中的对象进行分类，分类依据是相同类元素间的相似性远强于不属于该类元素的相似性。本数学分析方法的意义是实现相同类元素同质性最大化以及不同类间元素异质性最大化。聚类分析常用的分析方法有系统聚类法，K均值聚类法等等。

系统聚类也称层次聚类（Hierarchical Cluster），不需要事先确定要分多少类，其聚类过程是一层层进行，先把每一个对象作为一类，然后一层层进行分类，会得出所有可能的类别结果，而研究者由实际情况确定需要的类别。K均值聚类又可以叫做快速聚类（quick cluster），这种分析方法在进行分析前要明确所需分类的数量。

K均值聚类步骤：第一步，确定要分的类别数目K;第二步，确定K个类别的原始聚类中心位置，可以采用人工选定K个样本点的方式确定聚类中心，还可以令系统随机选定K个样本点的方式确定聚类中心;第三步，计算仍未包含在类之中的剩下的样本点距离聚类中心数值的大小，把其划分到距离其最近的类;第四步，将重新分好的类的均值更新为新的聚类中心，更新所有样本点距离新聚类中心的数值;第五步，循环进行第4步操作，直至实现紧挨的两次聚类结果不发生特别大的变化停止。

使用系统聚类法：绘图选项中点击绘制树状图，聚类方法选用Ward法，标准化选用z分数。聚类结果，粗黑线从左到右依次代表将饮料分为五类、四类、三类、两类。

使用K均值聚类法：把原始变量进行标准化处理，把标准化处理之后的变量当成聚类变量的初始值，聚类数预定是4。分析报告中“聚类”给出每个饮料的列别数，给出了每个饮料距离其所在类中心点的距离。参照给定的方差分析表能够得到按照分析方法分出的类别可否使用的结论。从表中可以看出，分类后热量和价格在不同类别之间是显著的（p<0.05），咖啡因和纳不显著（p>0.05）。

通过这个例题我们可以得出结论，两种方法给有优缺点。K均值聚类法必须分析前确定类别个数，比之系统聚类法计算量会小的多，效率较高。系统聚类法不需要分析前确定类别分数，本方法能够绘制得到树状聚类图，更加方便直观。

三、因子分析

因子分析方法是实现数据简化的方法，该法对若干变量间的相互关系进行探究，研究参考数据的基本数据结构，同时假设少量的有限个假想变量代表它的基本数据结构，假定的有限个假想变量就可以代表最初若干变量的大量信息。参考变量为能够进行观测的显性变量，另外假想变量为不能够进行观测的隐性变量，我们把它称之是因子。

假设原有变量有p个，分别用x1，x2，x3…xp表示xi（i=1，2， …p）为均值为零、标准差为壹的标准化变量，F1，F2，F3…Fm分别表示m个因子变量，m应小于p0于是有：

x1=a11 F1-a12 F2+…+a1m Fm+a1 ε1

x2=a21 F1-a22 F2+…+a2m Fm+a2 ε2

…

xp=ap1 F1-ap2 F2+…+apm Fm+ap εp

也可以矩阵的形式表示为：X=AF+aε

上文讲述了回归分析、聚类分析、因子分析三种分析模型的理论知识，并使用SPSS辅助工具进行了实例操作。可以看到，针对不同的数据选用不同的模型。因子分析和回归分析是两种不同的分析方法，因子分析提到的因子为相对抽象的理论，此外回归因子却是具有特别确定的实际意义和价值。聚类分析常用于简化数据。

参考文献：

[1]陈永胜，宋立新.多元线性回归建模以及SPSS软件求解【J】.通化师范学院学报，2007，28（12）.