APP下载

多维IRT与单维IRT在多维量表中应用的差异

2011-02-03中山大学公共卫生学院医学统计与流行病学系510080林岳卿方积乾

中国卫生统计 2011年3期
关键词:信度特质条目

中山大学公共卫生学院医学统计与流行病学系(510080) 林岳卿 方积乾

多维IRT与单维IRT在多维量表中应用的差异

中山大学公共卫生学院医学统计与流行病学系(510080) 林岳卿 方积乾△

目的探讨单维条目反应理论与多维条目反应理论在多维量表分析中的差异,并从中找出较优的分析方法。方法 用单维分部评分模型(PCM)和多维分部评分模型分别对世界卫生组织生存质量研究小组提供的来自世界20个研究中心的WHOQOL-OLD量表数据进行条目和量表结构的分析。结果 “感觉能力”领域中的条目OLD_10“您的感觉功能的问题影响您和他人交往的能力吗?”同时不拟合两种模型,单维IRT得到Infit和Outfit均方拟合指数、6个维度的信度系数及潜在特质间的相关系数均低于多维IRT。结论 多维IRT更适合于条目数较少的多维量表的分析和评价。

多维量表 条目反应理论 多维条目反应理论模型 生存质量

△通讯作者:方积乾

条目反应理论(item response theory,IRT)又译为项目反应理论。IRT的出现克服了经典测量理论(classical test theory,CTT)的种种缺陷,同时建立了调查对象对条目的反应与其潜在特质之间的非线性关系,这种关系可用不同的概率函数模型表示,并通过这些模型估计出调查对象的特质参数(能力参数)和条目参数〔1,2〕。然而,IRT的单维性假设与许多心理测验或者一般的生存质量量表在理论上是不相符的,因为人的心理特质是多个维度的,病人生存质量的高低是由多个侧面共同决定的,很少有研究只测量单一的潜在特质。对于这样的多维量表,有些研究者分维度进行IRT分析,在维度内维持单维性;也有些研究者认为轻微违背单维性是可以接受的,特别是维度相关性较高的情况,于是将整个量表看作一维量表进行分析,这样的处理方法是否恰当?多维的条目反应理论是否会更优呢?为解决这一问题,本研究分别用单维IRT和多维IRT方法对同一组数据进行分析,比较这两种方法的差异。

资料与方法

1.资料来源

本研究的资料由世界卫生组织生存质量研究小组提供,由世界20个不同的研究中心于2000~2004年用世界卫生组织生存质量老年人量表(WHOQOLOLD)调查60岁及以上老年人收集得到的,共调查了5 566人。WHOQOL-OLD量表是在WHOQOL-100和WHOQOL-BREF的基础上发展起来的一个多维量表,Power等〔3〕的研究表明此量表包括6个维度,每个维度有4个5级有序记分条目,从1到5表示健康状态由差到好。这些维度分别为:感觉能力、自主、死亡、过去/现在和将来的活动、社会参与、亲密。

2.方法

(1)单维条目反应理论(UIRT)〔2〕

单维IRT分析的基本步骤:

①检验IRT的应用假设:单维性和局部独立性,只有两个假设都满足才能更好地体现IRT模型的优越性。这两个假设可用探索性(EFA)和验证性因子分析(CFA)进行检验,若EFA显示第一特征值与第二特征值的比值大于3,则可认为数据满足单维性〔4〕。若CFA显示条目的残差相关系数小于0.2,则可以认为量表的条目是满足局部独立性的〔5〕。

②用边缘极大似然估计法和EM算法估计PCM模型中的特质参数和阈值参数。

③用项目功能差异(DIF)分析和条目拟合统计分析检验条目与理论模型的拟合情况。DIF分析用于判断条目在性别、年龄组(<80与>80)、国家(欧洲国家与非欧洲国家)、健康情况(健康与非健康)等方面内容和结构的等价性。当同一条目在两个亚组中的条目阈值差异大于0.5,则可认为该条目存在DIF〔6〕。Infit均方(MNSQ)和Outfit均方是条目拟合分析中常用的两个拟合指标〔7〕。假设N是观察例数,X是观察值,E是PCM模型的参数估计理论值,σ2是模型的理论方差,则Infit=∑(X-E)2/∑(σ2),表示条目对接近调查对象能力的非理论反应模式的敏感度,而Outfit=∑((X-E)2/σ2)/N,表示条目对远离受试者能力的非理论反应模式的敏感度。这两拟合指标的理论值均为1,多数研究者认为这两个值介于0.7~1.3之间,则可认为条目是拟合模型的。

④上述分析是分维度进行的,每个维度都可以估计自己的特质参数值和测量信度。计算6个维度潜在特质参数估计值的相关系数,分析它们之间的相关性。

(2)多维条目反应理论(MIRT)

3.统计方法 分析在ConQuest 2.0软件中进行,单维分析中潜在特质间的相关性用SPSS 17.0分析,探索性和验证性因子分析用Mplus 5.21分析,检验水准为0.05(双侧)。

结果与分析

1.单维IRT分析结果

探索性因子分析显示,6个领域的第一特征值与第二特征值的比均大于3,且最大的残差相关系数为0.144,说明6个领域的数据都满足单维性和局部独立性。所有24个条目在性别、年龄组、国家、健康情况等4个方面均没有显示具有统计学意义的项目功能差异。“感觉能力”领域中的条目OLD_10“您的感觉功能的问题影响您和他人交往的能力吗?”显示轻度地不拟合单维的分部评分模型(Outfit Mnsq=1.32)。其他条目的拟合指数都显示好的拟合。6个领域的信度系数和潜在特质之间的相关系数分别介于0.73~0.84之间和0.05~0.67之间,详见表1和表2。

2.多维IRT分析结果

表1 多维和单维条目反应理论分析的信度系数及单维信度提高到多维的信度水平需要增加的条目比例(N=5 566)

表2 多维和单维IRT分析的相关系数矩阵(N=5 566)

讨 论

随着生存质量研究的不断发展,早期用于教育和心理测量学领域的条目反应理论受到越来越多医学研究者的关注。它不仅可用于指导量表编制和条目筛选,而且可以用于量表信效度的考核,由于其理论较成熟,模型相对简单,且有很多的参数估计软件支持而得到广泛的应用。然而,根据上述分析结果,单维IRT在多维量表的分析中仍存在一些技术问题。很多研究表明生存质量是一个多维的概念,包括身体功能、心理功能、社会功能等侧面,而条目反应理论中的单维性假设对于这样一个多维的生存质量研究显然是不恰当的。同时,当维度间的相关性较低时,单维IRT方法对被试人群的特质估计、条目的参数估计、条目选择等方面也存在偏倚。对一个维度间具有高相关的量表,如果用单维IRT分析,研究者会错误地认为维度间只有低的或者中等程度的相关。从表2可知,单维IRT由于在分析的过程中没有考虑测量误差的影响而导致潜在特质间的相关性偏低。同时,表1也显示单维IRT由于没有考虑维度间的相关性,从而导致测量信度偏低,不利于个体的诊断。从拟合指标上来看,有很多研究者也认为Infit和Outfit Mnsq指数在0.6~1.4这个范围内也是可以接受的。对于条目OLD_10,单维IRT分析的拟合指数大于1.3,但小于1.4,若按上面的标准,则尚可认为这个条目是拟合模型的;然而多维IRT显示的两个拟合指数都大于1.4,表明此条目不拟合模型。从这个例子可以看出,多维IRT更容易发现条目的优劣。

与单维IRT相比,多维IRT由于能同时考虑测量误差和维度间相关的影响,不仅能提高参数估计的准确性,而且能改善测量的精度(信度)。在量表的发展过程中,研究者经常面临这样一个问题:既想获得被试者更多的信息,又想得到更准确的信息,即“宽度-准确问题”(bandwidth-fidelity dilemma)。然而,这两者经常是矛盾的,条目信息涉及的范围越广,准确性越低。多维IRT的发展成功地解决了这个问题。对于条目数较少的多维量表,尤其是每个维度条目数均很少的情况,多维IRT的使用能更好突显它的优越性〔9〕。目前也有很多计算机软件支持MIRT的分析,如Con-Quest、TESTFACT、NOHARM、SAS 中的 NLM IXED、STATA中的GLLAMM等。因此,对于多维量表的分析,无论是从理论上还是技术上,都需要把单维的IRT拓展为多维的IRT,多维IRT更适合多维量表的分析和评价。

(致谢:衷心感谢世界卫生组织生存质量研究小组为本次研究提供数据。)

1.韩耀风,郝元涛,方积乾.项目反应理论及其在生存质量研究中的应用.中国卫生统计,2006,23(6):562-565.

2.Embretson SE,Reise SP.Item response theory for psychologists.Mahwah,NJ:Law rence Erlbaum Associates,2000,3-12.

3.Power M,Quinn K,Schmidt S,WHOQOL-OLD Group.Development of the WHOQOL-Old module.Qual Life Res,2005,14(10):2197-2214.

4.Slocum SL.Assessing unidimensionality of psychological scales:using individual and integrative criteria from factor analysis.2005.

5.Reeves BB,Hays RD,Bjorner JB,et al.Psychometric evaluation and calibration of health-related Quality of Life item banks:Plans for the Patient-Reported Outcomes Measurement Information systems(PROM IS).Med Care,2007,45(Supp l 1):22-31.

6.Lai JS,Cella D,Chang CH,et al.Item banking to improve,shorten and computerize self-reported fatigue:an illustration of steps to create a core item bank from the FACIT-Fatigue Scale.Qual Life Res,2003,12(5):485-501.

7.Prieto L,Alonso J,Lamarca R.Classical test theory versus rasch analysis for quality of life questionnaire reduction.Health Qual Life Outcomes,2003,1(27):1-13.

8.康春花,辛涛.测验理论的新发展:多维项目反应理论.心理科学进展,2010,18(3):530-536.

9.Wang WC,Yao G,Tsai YJ,et al.validating,improving reliability,and estimating correlation of the four subscales in the WHOQOL-BREF using multidimensional Rasch analysis.Qual Life Res,2006,15(4):607-620.

10.Cheng YY,Wang WC,Ho YH.Multidimensional rasch analysis of a psychological test with multiple subtests:a statistical solution for the bandwidth_fidelity dilemma.Educ Psychol Meas,2009,69(3):369-388.

11.Adams RJ,Wilson M,Wang WC.The multidimensional random coefficients multinomial logit model.J Appl Meas,1997,21(1):1-23.

The Difference between Unidimensional IRT and Multidimensional IRT in the Application of Multidimensional Scale

LinYueqing,FangJiqian.DepartmentofMedicalStatisticsandEpidemiology,SchoolofPublicHealth,SunYat-SenUniversity(510080),Guangzhou

ObjectiveTo explore the difference between unidimensional IRT and multidimensional IRT in the application of scale which includes several subscales and find out the better method.MethodsThe data of WHOQOL-OLD came from the field study of 20 national study centers of WHOQOL Group which was conducted.The Unidimensional Partial Credit Model and Multidimensional Partial Credit Model were used to analyze the property of items and construct of scale.ResultsI-tem OLD_10(Problems with sensory functioning affect ability to interact)in the“Sensory Abilities”domain showed poorer fit to two models.And the In fit and Outfit Mnsq,reliability coefficients and correlation coefficients of latent ability of six domains from unidimensional IRT analysis all were lower than that of multidimensional IRT analysis.ConclusionMultidimensional IRT is more appropriate than unidimensional IRT for the analysis and evaluation of multidimensional and short scale.

Multidimensional scale;Item response theory;Multidimensional item response theory model;Quality of life

猜你喜欢

信度特质条目
《广东地区儿童中医体质辨识量表》的信度和效度研究
文人的心理探索之“痴颠狂怪”特质
《词诠》互见条目述略
论儒家思想的宗教特质
平衡损失函数下具有时间效应和通胀因子的信度估计
Can we treat neurodegenerative diseases by preventing an age-related decline in microRNA expression?
耳鸣残疾问卷中文版的信度和效度检验及其临床应用
中文版脑性瘫痪儿童生活质量问卷的信度
抓住特质,教出说明文的个性
对县级二轮修志采用结构体式的思考