APP下载

简述数据分析中数理统计的应用

2019-10-16姜文哲中国人民大学统计学院100025

新生代 2019年17期
关键词:置信区间数理统计效度

姜文哲 中国人民大学统计学院 100025

前言:数理统计是一种以概率论为依据,以极大数量随机现象为目标,进行规律性推论整理统计的一种方式。在数据分析过程中,数理统计可以特定问题为核心,进行整理、分组、推论,为预测、决策、实施奠定基础。因此,对数据分析中数理统计定义内涵、数理统计在数据分析中的实际应用、数理统计的应用实例及正确应用方式等方面进行适当探究具有重要意义。

一、数据分析中数理统计概述

在数据分析中数理统计是数学的一个分支学科,包括描述统计、推断统计两个模块。描述统计主要是通过文体资料收集,对相关资料进行整理、组别划分及次数分配表编制,可以获得次数分配曲线及不同类型特征指标,确定资料中相关数据分布离散趋势、偏斜度、集中趋势 而推断统计主要是描述统计的前提下,依据样本资料,对资料变化规律性进行推论。随后依据得出的总体特征,进行推断、预测【1】。

二、数据分析中数理统计的应用背景

数据分析中数理统计主要起源于公元前2250年,最初用于人口统计、社会调查等描述性统计活动。如西周人口分地中土地与户口统计、东汉军事调查中兵车数据统计等。在现代时期,由于计算机技术的广泛应用,数理统计在数据理论分析中不断向纵深发展,产生了最优设计、非参数统计推断等新的边缘学科。同时数理统计应用范围逐渐拓展,逐步渗透至股票分析、企业管理、环境保护等多个领域,成为科学研究必备的工具之一。

三、数据分析中数理统计的主要应用

1、区间估计

区间估计又可称之为置信区间估计,其主要是以数轴上任意一段距离、数据区间为依据。结合原有条件,对可能区间进行的推理论断。在置信区间估计过程中,需要结合原有数据分析情况,尽可能选择范围较小的区间。利用不等式变形的方式,依据相应标准,对某一点进行估计。随后逐步延伸,进行置信空间的科学计算。如在投资风险分析过程中,投资人可以期望值作为置信区间,将红利、市盈率作为依据,进行数据剖析。并进行股票市场平均数对比,为后续投资操作提供有效指导。

2、时间序列及多元分析

一方面,时间序列法主要应用于多段数据处理,注重多段数据不同数据出现顺序调控。其在实际应用中,首先需要构建相应模型,确定所研究对象整体运行状态。随后以系统控制预测的方式,进行数据质量修正、数据计算统计。如在人文发展指数分析阶段,可以出生预期寿命、成人识字率、实际人均GDP为指标,进行统计分析。并利用宏观调控的方式,将上述三项指标进行适当处理,以保证时间序列处理效果。

另一方面,多元统计主要针对某一时点组成数据群处理。其在实际应用中可以帮助管理者从多个方面出发,研究不同决策对企业经营发展的影响,降低决策错误率。如在企业管理决策过程中,管理者可以根据某项决策,以特定应用问题概率信息内容为凭证,构建概率分布模型。在概率分布模型中,从不同视角出发,对不同决策与企业经营发展间关系进行适当分析,最终确定最佳决策方案【2】。

3、假设检验

假设检验主要是在置信区间估计的基础上,从原假设、备选假设两个方面,将某一数据集合看做一个置信区间。随后以该数据作为置信系数,利用回归分析的方式,对整体区间假设进行检验论证。如在投资风险置信区间假设检验过程中,投资人可以利用数理统计回归分析方式,对某一股数据进行检验论证,以保证股票价格走势预判准确度。

四、数据分析中数理统计的正确应用案例

1、数据分析主题分析

日益严峻的环境问题对人类社会发展造成了严重的影响,引发了多数学者对以往资源浪费、消耗的生活生产方式的反思。在这一背景下,本文以本科院校学生绿色消费行为研究对象,从绿色消费行为影响因素入手,对某市在校大学生绿色消费行为影响因素进行了适当分析。在确定研究主题之后,本文评论整理了知网、万方等知名学术网站关于绿色消费行为及其影响因素的相关文献。随后利用实证分析的方式,对该地本科院校学生绿色消费行为及特征进行了分析。结合计划行为理论,构建了该地本科院校学生绿色消费行为影响因素模型。如图1所示:

图1 某地本科院校学生绿色消费行为影响因素模型

如图1所示,该地本科院校学生绿色消费行为共涉及了人口统计特征、环境知识、绿色消费态度、绿色感知效力、参照群体等五个变量。其中人口统计特征包括政治面貌、专业类别、家庭背景、月均消费水平、性别、年龄等方面因素。

2、统计软件的正确选择

现阶段,国际层面已经出现了多种类型用于统计分析的商业软件,如Statistical Package for Social Sciences(SPSS)、Statistical Analysis System(SAS)、STATISTICA、BMDP。其中SPSS、SAS软件主要服务于社会科学研究领域及自然科学领域 BMDP、STATISTICA软件主要用于生物学、医学领域。一般SPSS、SAS软件专业水平较高,应用较广泛。本次研究主要采用SPSS3.0数据分析软件【3】。

3、置信区间估计

依据前期文献分析结果,结合构建的该地本科院校学生绿色消费行为模型,可对置信区间进行合理估计。首先,多数研究人员得出人口统计变量与绿色行为具有紧密的联系。即本科院校学生受教育程度越高、家庭收入越高,绿色消费倾向越高。且相较于男性而言,女性绿色消费态度较良好。因此,可作出假设:人口统计特征对该地本科院校在校学生绿色消费行为存在一定影响。

其次,仇立通过对天津市居民绿色食品消费行为影响因素进行分析得出,在消费者面临重要选择消费决策时秉承绿色消费态度的消费者对商品本身使用价值关注程度较高,且对相关商品绿色属性关注陈程度较低【6】。因此,可作出假设:绿色消费态度对该地本科院校在校学生绿色消费行为具有显著影响。

再次,相关研究得出:环境知识掌握程度对消费者亲环境行为也具有较大的影响。即环境知识丰富程度较高者绿色消费倾向较高。因此,可假设:环境知识对该市在校学生绿色消费行为具有突出影响。

从次,依据价值观——态度——行为关系理论,得出消费者感知效力对消费者行为具有一定影响。绿色消费感知效力越高的顾客,越容易形成绿色购买动机。因此,可假定绿色感知效力对该市本科院校在校学生绿色消费行为具有突出的影响。

最后,基于个体的参照与比较机制,可得出我国代际消费具有较为突出的密切特征,长辈消费观念对子辈具有较大的影响。因此,可假设参照群体对该市本科院校在校大学生绿色消费行为具有较大的影响。

在上述假设设置的基础上,为获得充足的文本资料,可以借鉴我国内部及外国相关学科研究经验。结合本文研究课题,开发统计量表。并通过语义对比的方式,反复测量、修正量表,以促使其与研究对象文化环境相一致。同时走访当地本科院校,调查本科院校学生对现有测量语句的认识,进一步完善量表信息。在确定量表信息之后,本次主要采用以李克特五级量表为基础的七级量表。1表示“非常不赞同” 2表示“不赞同” 3表示“比较不赞同” 4表示“不确定” 5表示“比较赞同” 6表示“赞同” 7表示“非常赞同”【4】。具体量表如表1:

表1 某地本科院校在校学生绿色消费行为统计量表(局部)

在上述统计量表开发的基础上,构建了涵盖引言、总体、后缀的完善的调查问卷。该调查问卷主要包括被调查者人口统计特征收集、被调查者对环境知识认识水平分析、被调查者实际绿色消费行为、被调查者家属及同伴对其绿色消费行为影响程度、被调查者自身消费行为对他人影响程度等多个模块。在调查问卷设计完毕之后,利用问卷发放的方式,在该地多所本科院校现场发放调查问卷【5】。并历时15天,共发放800份,回收800份,问卷回收率为100%。随后对回收问卷进行检查分析,剔除错填、一致性存在错误问题的问卷60份,实际有效问卷740份,有效率为92.50%。从年龄、政治面貌、专业类别、月均消费水平、性别等方面,得出本次调查人口统计特征如下表:

表2 调查人口统计特征(局部)

4、统计方法的合理应用

本次数理统计主要采用信度与效度分析、相关分析及回归分析等数理统计分析方法。

首先,在信度分析过程中,主要利用克朗巴哈α系数作为信度评判标准,α与1越接近,表明信度越高 而在效度分析时,主要利用因子分析法,探究量表效度。即KMO检验判断数据与1越接近,表明全部变量间相关性越强。以绿色消费行为信度及效度检验为例,绿色消费行为内部一致性α系数值为0.770,信度指标较好。绿色消费行为整体统计量各维度项α系数>0.7,且小于项目整体α系数0.770,表明其内部一致性较为良好 而在效度检验时,主要采用主成份分析法,对绿色消费行为量进行探索。得出其KMO值为0.751,方差解释为52.336%>50.0%,且因子负荷均>0.5,表明量表效度良好。同理,对绿色感知效力、环境知识、绿色消费态度、参照群体信度、效度进行分析,得出其量表效度、信度较为良好。

其次,相关分析主要是针对某两个变量,对其线性关系强度进行分析。本次研究主要利用Pearson相关系数(线性相关系数)。结合表2数据,对人口统计特征与绿色消费行为相关性进行论述。依据线性相关系数定义,得出:其趋近于-1时,两变量呈负相关,反之则呈现正相关【7】。而在线性相关系数趋近于0时,两变量不存在相关关系。在SPSS23.0软件中,得出人口统计特征与绿色消费行为相关性为:绿色消费行为与性别相关系数为0.200<0.20,显著性水平为0.002<0.01,存在较弱的正相关关系,同理可得出绿色消费行为与月均消费水平存在较弱的负相关关系 绿色消费行为与年龄相关系数为-0.052<0.20,显著性水平为0.338>0.05,表明两者不存在相关关系。同理,可得出专业类别、家庭背景、政治面貌与绿色消费行为不存在相关关系。

最后,回归分析。回归分析主要是以变量间数量关系为分析对象,利用数学表达式的方式,对各变量间数量关系进行描述。以环境知识与绿色消费行为回归分析为例,依据前期假设内容,以环境知识为自变量,绿色消费行为因变量,可得出修正后R2值为0.331,可构建回归方程。环境知识非标准化系数及标准化系数分别为0.559、0.558,显著性水平P为0.000<0.001,表明假设成立。同理,可对上述假设进行逐一验证分析。

总结:

综上所述,在数据分析过程中,能否正确使用不同类型数理统计方法直接影响了最终数据统计分析结果的可信性、客观性。因此,在数据分析过程中,相关人员应在样本数据收集的基础上,选择适当的数据分析软件,合理利用信度与效度分析、相关性分析、回归分析等数理统计方式,研究统计特征及权重。并对前期研究假设进行重新验证,保证最终决策的正确客观性。

猜你喜欢

置信区间数理统计效度
线上线下混合教学模式在概率论与数理统计课程中的应用
基于预警自适应技术的监控系统设计
效应量置信区间的原理及其实现
Beep test评估11~15岁少年游泳运动员有氧能力的效度研究
谈高效课堂下效度的提升策略
巧用模型法提高科学课堂教学的效度
关于概率论与数理统计课程改革的思考
概率统计教学中培养学生创新思维和实践能力的探索与实践
计算机辅助英语测试研究