APP下载

体育科学定量研究中测验的信度与效度分析

2010-12-29刘照宇

体育教育学刊 2010年6期
关键词:效度信度测验

刘照宇

(南京师范大学 体育科学学院,南京 210046)

体育科学定量研究中测验的信度与效度分析

刘照宇

(南京师范大学 体育科学学院,南京 210046)

在体育科学定量研究中,常需要借助一些测验工具来搜集数据,而一份优良的测验工具必须具备高信度和高效度两个特征。分析了信度和效度的内涵、特性,重点讨论了测量信度和效度常用的方法,及其如何借助SPSS软件对信度和效度分析。特别指出增进信度的方法:清楚地概念化所有的构想;增加测量层次;使用多重指标来测量一个变量。最后,分析了信度和效度的关系。

体育科学;定量研究;问卷;量表;信度;效度

AbstractSports Science Dept.,Nanjing Normal Univ.,Nanjing 210046,China

在体育科学定量研究中,研究者常需要借助一些测验作为搜集数据的工具。而一份优良的测验工具必须具备高信度和高效度两个特征。如此借由一份具有信度和效度的工具所测量搜集得来的数据,再利用适当的统计方法进行分析工作,所得到的结论,才能为人们所接受。然而许多研究论文在信度和效度的描述中存在概念混乱问题,使用的问卷中含有许多不适宜做重测信度检验的问题,及效度的评价过于简单,不知道还有校标效度、结构效度等需要做定量化的考察。

信度

1.1 信度的含义及特性

信度即可靠性,它指的是采用同样的方法对同一对象重复进行测量时,其所得结果相一致的程度。换句话说,信度是指测量结果的一致性或稳定性,即测量工具能否稳定地测量所测的事物或变量。信度是一个相对概念,并非绝对的有或无,而是一个程度上或多或少的问题。没有一测验是绝对可靠的,信度只是告诉我们测验结果的可信程度。

信度具有以下特性:(1)信度是指测验所得结果的一致性,而非测量本身。(2)信度值是指在某一特定类型下的一致性,非泛指一般的一致性。信度系数可能因不同时间、不同试题或不同评分者而出现不同的结果,如复本高,折半未必高。(3)信度是效度的必要条件,非充分条件。信度低效度一定低,但是高信度未必表示具有高效度。(4)信度检验完全依据统计分析方法,不管是采用“信度系数”还是“测量标准误”作为测验信度的指标,它们完全是一种统计量。

由于信度检验完全依据统计分析方法,因此它必须在测量实施后,根据所搜集到的数据,采用适当的方法检验测量结果的信度。当然,决定信度最理想的方法是在完全相同的情境下对一组样本施测两次,在比较其分数的差异情形,但是事实上这完全不可能,所以只有找替代的方案。

1.2 信度分析的基本方法

检测信度的方法有很多种,主要的方法有重测信度法、折半信度法和 Cronbach’sα系数法,其中最常用的是第三种Cronbach’sα系数法,下面简述各种不同方法的基本含义。

1.2.1 重测信度法

重测信度是以同一测验在不同的时间对同一样本施测两次,计算两次测试结果的相关系数。由于它是在检验样本经过一段时间后,测验结果的差异情形,所以它是一个稳定性系数,即跨时间的一致性。由于重测信度需要对同一样本测试两次,而被测容易受到各种事件、活动的影响,所以时间间隔需要适当。较常用者为间隔两星期或一个月。

重测信度法适用于事实性问卷,也可以用于不容易受环境影响的态度、意见式问卷。

1.2.2 折半信度法

折半信度法是指将测量项目按奇偶项分成两半分别计分,测试出两半分数之间的相关系数,再据此确定整个测量的信度系数。折半信度属于内在一致性系数,测量的事两半项目间的一致性。由于分半信度只是半分测验的信度系数,且在一般情形下,题数愈多则信度便愈高,因此分半信度通常必须进行校正的工作。常用的分半信度校正方法是斯皮尔曼-布朗(Spearman-Brown)校正公式。

折半信度在使用上确实比重测信度简便,但是它不具有稳定的性质,且如何分半目前仍是一大争议。其次,若测验只是测量同一行为层面较无问题,但是如果同时测量多个层面,则随机分半将是一件很危险的事。

这种方法不适合测量事实性问卷,常用于态度、意见式问卷的信度分析。

1.2.3 Cronbach’sα系数法

克朗巴哈α信度系数是目前最常用的信度系数。克朗巴哈α信度系数是量表中项目得分间的一致性,属于内在一致性系数。它避免了折半信度的缺点,它对量表或问卷的内部一致性作了更为慎重的估计,因为它相当于以所有的组合拆分量表所得到分半信度的平均值。不同研究者对信度系数的界限值有不同的看法,一般认为,0.60~0.65认为不可信;0. 65~0.70认为是最小可接受的值;0.70~0.80认为相当好; 0.80~0.90就是非常好。Streiner和Norman认为克朗巴哈α信度系数不宜高于0.9,以避免人为地通过增加问卷或量表中条目数量的方法达到提高α信度系数的目的,因为这种条目数量的增加仅仅是靠同一问题以差异甚微的不同方式多次出现在量表或问卷中而实现的。因此,一份信度系数好的量表或问卷最好在0.80以上。若分量表的内部一致性系数在0.60以下或者总量表的信度系数在0.80以下,应该考虑重新修订量表或增删题目。

表1 用SPSS软件进行信度测量的调用与分析

这种方法适用于态度、意见式问卷(量表)的信度分析。

1.3 用SPSS软件实现信度的测量

在SPSS for Window 17.0(Statistical Package for Social Science)统计分析软件中Analyze分析菜单下的Scale下有专门的Reliability Analysis信度分析模块,通过对该模块的部分选项的选择可以实现大部分的问卷信度分析。详见表1。

1.4 增进信度的方法

任何能导致测量过程中产生误差的因素都会影响信度。如导致产生不一致的事件方面(被测者的实际特征发生了变化、被测者的配合调查程度、外界环境的变化等);量表或问卷的设计方面(条目的级数、条目的数量、条目的代表性等)。

因此,完美的信度是罕见的。但是要想增进测量工具的信度,可以参考下面4条原则:(1)清楚地概念化所有的构想; (2)增加测量层次;(3)使用多重指标来测量一个变量;(4)使用前测、测试研究和复制。

1.4.1 清楚地概念化所有的构想

如果是对单独的一个构想或构想的某个次维度进行测量,那会提高信度。这意味着研究者应当努力发展没有任何模糊不清之处的理论定义。构想应该要有清楚明确的定义,以消除来自其他构想的“杂音”(例如,令人分心或干扰思考的信息)。每个测量工具都应该预测一个,而且是唯一的一个概念,否则就无法决定被预测出来的究竟是哪一个概念。

1.4.2 增加测量层次

测量层次比较高或比较精确的指标,可能会比测量层次不那么精确的指标,具有较高的信度,这是因为后者所获得信息不如前者详尽。如果要测量的是比较特定的信息,那么就不大可能会测到那个构想以外的其他事物。一般的原则是:尽可能以最精确的等级来测量构想。

1.4.3 使用多重指标来测量一个变量

增进信度的另一个方式是使用多重指标,因为对同一个构想,使用两个或多个指标,会比只用一个好。多重指标允许研究者对一个概念定义的内容进行广泛的测量。可以对构想的不同层面进行测量,每个层面都有自己的指标。而且,一个指标(例如,问卷或量表上的一个题目)可能不够完美,但是数个测量工具就不可能犯同样的错误。多重指标测量工具会比单独一个项目的测量工具更为稳定。

1.4.4 使用前测、测试研究和复制

增进信度的第四个原则是先行使用前测或测试版的测量工具。在正式使用最终版本进行假设检验之前,先就某个测量工具发展出一个或多个草案或测试版。这比较消耗时间和精力,但是能够产生具有信度的测量工具。

使用测试的这个原则尚包括复制其他研究者使用过的测量工具。例如,通过查阅文献、寻找过去研究曾经用来测量的工具。如果先前的测量工具是个好工具,我们可以以该测量工具为基础并且使用它,当然要注明这个量具的来源。

效度

2.1 效度的含义及特性

测量的效度,也称做测量的有效度或准确度。它是指测量工具或测量手段能够准确测出所要测量的变量的程度,或者说能够准确、真实地度量事物属性的程度。就其核心,测量效度是构想与其指标间的吻合程度,触及的是概念与操作性定义两者间契合程度的问题。契合程度越高,测量效度就越大。获得效度要比获得信度更加困难。研究者无法得到绝对效度,这是因为构想都是抽象的概念,而指标则是具体的观察。效度是动态过程的一部分,会随着证据的积累与时俱增。如果没有了效度,所有的测量都会变得毫无意义。

效度具有4个性质(Gronlund&Linn,1990):(1)效度是指“测验结果”的正确性或可靠性,而并非工具本身;(2)效度并非全有或全无,只是程度上的差别;(3)效度是针对某一特殊功能或用途而言,不可以普遍性角度衡量;(4)效度无法实际测量,只能从现有数据中去推论。

2.2 常用的效度

常用的效度具有三种的类型,即内容效度、校标效度和结构效度。它们分别从不同的方面反映测量的准确程度。同时人们在评估各种测量的效度时,也往往采用这三种类型作为标准。

2.2.1 内容效度

内容效度指的是测量内容或测量指标与测量目标之间的适合性和逻辑相符性。也可以说是指测量所选择的项目是否“看起来”符合测量目的和要求。内容效度涉及3个步骤。首先,明确指出某个构想定义的内容;其次,从该定义涵盖的所有区域内抽取样本;最后,发展一个涵盖该定义下所有不同部分的指标。

评价一种测量是否具有内容效度,首先必须知道所测量的概念是如何定义的,其次需要知道这种测量所收集的信息是否和该概念密切相关,然后评价者才能尽其判断能力之所及,作出这一测量是否具有内容效度的结论。内容效度的重要缺点是缺乏理想的数量指标,因而妨碍了信息交流和各测验间的相互比较。

内容测验对于能力倾向测验和人格测验一般是不适用的。因为能力测验倾向和人格不像成就测验那样容易限定范围。而且,通过检查测验的内容来准确确定所有要测量的心理特性,实际上是不可能的。

2.2.2 校标效度

如果测验的目的是在于预测样本未来的表现或是估计目前在其他测验上的表现,可采用校标效度来检验测验的效度。它是利用实证的方法,检验测验与一些外在校标间的相关,当测验与外在校标间的相关愈强时,我们说该测验工具有很高的校标效度。最常用的校标效度的检验方法是相关系数。校标效度是一种属于事后统计分析的效度检验方法。

2.2.3 结构效度

结构效度针对的是多重指标的测量工具。它通过利用现有的理论或命题来考察当前测量工具或手段的效度。它论及的问题是:如果这个测量工具有效度,不同指标会产生一致的结果吗?结构效度检验的步骤包括:(1)建立假设性理论建构(包括建构本身及相关的理论假设);(2)根据步骤一编制一份检验,并对学生进行施测;(3)以逻辑或实证的方法检验该测验是否能有效解释所欲建构。

常用来检验结构效度的方法是因素分析。因素分析是一种利用相关系数找出一份测验潜在共同建构(因素)的复杂统计方法。因素分析的基本原理是借助共同因素的发现,以验证理论性心理特质建构的正确性。

2.3 用SPSS软件实现效度的测量

在SPSS统计分析软件中Analyze分析菜单下的Correlate下有专门的Bivariate分析模块和Analyze分析菜单下的Dimension→Factor模块,分别通过对某个模块的部分选项的选择可以实现大部分的问卷或量表效度分析。具体如表2所示。

表2 用SPSS软件进行效度测量的调用与分析

信度与效度之间的关系

测量的效度和信度都是一种相对量,而不是一种绝对量,即他们都是一种“程度事物”。信度和效度都并非绝对的有或无,而是一个程度上或多或少的问题。

测量的信度和效度之间存在着某种既相互联系,又相互制约的关系。一方面,信度是效度的必要非充分条件:信度低,效度未必低;信度高,未必效度高。另一方面,效度是信度的充分非必要条件:效度高,信度未必高;效度低,未必信度低。可见,信度高不一定效度也高,但一个测验要想效度高,其信度必须也高。

信度与效度经常是互补的概念,但是某些特殊情况下它们也会相互抵消。有些时候当信度增加时,效度会变得比较难以掌握;反之,有些时候当效度增加时,会比较难以确保信度。这是发生在当某个构想过于抽象、缺乏容易观察的定义之时。

[1]风笑天.社会学研究方法[M].北京:中国人民大学出版社,2005:110-112.

[2]王宝进.英文视窗版SPSS与行为科学研究[M].北京:北京大学出版社,2007:481.

[3]张力为.信度的正用与误用[J].北京体育大学学报,2002, 25(3):348.

[4]安胜利,陈平雁.量表的信度及其影响因素[J].中国临床心理学杂志,2001,9(4):315-318.

[5]张力为.效度的正用与误用[J].北京体育大学学报,2002, 25(4):494.

Reliability and validity analysis of test in quantitative research of sports science

LIU Zhao-yu

The paper analyses the connotations and features of reliability and validity and ways to measure the reliability and validity.The paper also analyses the SPSS which can be used to measure the reliability and validity.The paper also proposes ways to increase the reliability and analyses the relationship between the reliability and validity.

quantitative research;questionaire;measurement;reliability;validity

G80-32

A

1672-268X(2010)06-0035-03

(2010-09-28 收稿)

猜你喜欢

效度信度测验
平衡损失函数下具有两水平共同效应的信度模型
净保费在平衡损失函数下的回归信度估计∗
问卷是否可信
——基于体育核心期刊论文(2010—2018年)的系统分析
Beep test评估11~15岁少年游泳运动员有氧能力的效度研究
谈高效课堂下效度的提升策略
巧用模型法提高科学课堂教学的效度
两个处理t测验与F测验的数学关系
数字测验
你知道吗?
语言测试效度研究的另一视角:考试的因子结构研究