CTT、IRT、FT:体育科学量表编制中的应用<br/>——以《特质流畅量表》为研究例证

CTT、IRT、FT:体育科学量表编制中的应用
——以《特质流畅量表》为研究例证

2015-02-14董德朋孙世超

体育科学 2015年9期

董德朋，刘巍，孙世超

CTT、IRT、FT:体育科学量表编制中的应用
——以《特质流畅量表》为研究例证

董德朋，刘巍，孙世超

以《特质流畅量表》为案例工具，对763名不同项目和级别的运动员进行了问卷调查，通过3个应用研究探索CTT(经典测量理论)、IRT(项目反应理论)以及FT(层面理论)在量表编制中的使用及优化组合，验证了研究中提出的假设。研究认为，1)FT的映射语句对题项建立之初的内容效度方面具有自身的优越性；2)CTT和IRT应用于项目分析阶段，样本量达400时是一个稳定阈值，且CTT对量表题项的删减并不能代替IRT分析，但并不建议在此阶段使用FT的SSA技术；3)CTT和IRT结合应用于量表信度分析时能够从宏观与微观给出量表和题项的信度情况，CTT中的结构方程模型与FT中的SSA技术相结合能避免量表结构效度过于强调定量分析，而忽视内容理论框架的缺陷。

经典测量理论；项目反应理论；层面理论；量表

1 引言

如何实现研究方法的组合优化是体育科学在研究方法上不断进取的方向，也正如我国学者张力为所言，“体育科学研究者很可能在科学标准这个最高层面和具体方法这个基础层面达成共识”[21]，这也正体现出体育科学研究方法的“历时态”演变轨迹[2]。体育科学量表的编制是体育科学研究的一个重要领域。然而， 20世纪初期，以真分数作为核心假设和由随机化为理论基础的经典测量理论(Classical Test Theory,简称CTT，下同)在体育科学量表编制的应用中占有着绝对的统治地位，且在许多领域中发挥了重要价值，尤其是在社会科学[5,10,25]、教育学[13,17,34]、心理学[12,27]领域。时至今日，它仍将在这些领域中的测验开发、分析、应用等方面继续发挥着巨大作用。但是，由于CTT在理论体系上的先天不足，致使在指导实践过程中也逐渐暴露出了许多局限，例如：参数过分依赖于被试样本，项目特性与被试特性之间没有建立内在联系，测量误差估计具有不精确性、笼统性[8]等等，从而限制了它的深入发展与应用，也致使体育科学量表的编制研究存在一定的先天不足，至少在方法上还需不断尝试和努力。

代表现代测量理论，以潜在特质和数学统计模型为基础的项目反应理论(Item Response Theory,简称IRT，下同)为这些局限的解决提供了一些很好的方法，具有自身的一些优势，例如：1)具有参数不变的特性，克服了CTT依赖于被试样本这一缺陷；2)被试能力参数与项目参数建立了相同的参照尺度。通常，被试在项目上作答的结果受两个主要因素影响，其一是被试本身，其二是项目的计量学属性，而IRT将这两种主要因素的联合作用对被试作答结果的影响用概率函数来表示(项目特征曲线，Item Characteristic Curve,简称ICC,下同)，从而在同一基准下估算出被试能力水平与项目参数，建立了内部关联；3)测验及项目的测量误差得到精确估计。由于信度是评价随机误差造成测验结果一致性问题的重要指标，而CTT只提供了一个笼统的信度指标，从而产生了高信度题项掩盖低信度题项的现象，IRT却对测验及每个项目均为不同被试特质水平提供了独立的信度指标，从而更有利于指导测验的编制。因此，它不仅为社会科学[15]、教育测量[33]以及心理测量[3]的相关研究提供了强有力的理论依据，更可为体育科学量表的编制提供技术支持。层面理论(Facet Theory,简称FT,下同)是随着科学技术发展而出现的又一测量理论，它的基础是以物理空间呈现概念空间，且能够将范式化分析(理论构建：映射语句)与内部数据分析(实证研究：Smallest Space Analysis ，简称SSA，下同)相结合，从而避免过分强调复杂的定量分析，而忽视研究概念理论框架的缺陷[22,26,32]。

传统上CTT理论作为经典测量理论在体育科学量表编制领域被广泛应用，而如何结合IRT、FT两种理论开展组合优化研究似乎应成为一种基础方法上的突进方向，尤其是如何促使我国体育科研人员更有效的将各种方法的组合优化应用于体育学科领域。为此，根据量表的编制过程与各测量理论的本身优势，研究提出如下假设：1)FT中的映射语句可能在体育科学量表编制中，对题项建立之初的内容效度构建存在一定的优势。2) CTT和IRT结合应用于量表的项目分析阶段时，可能更有利于题项的删减，但两者的结合对题项的筛选存在样本量的极大依赖性，且应该存在样本量的稳定性阈值。3)CTT、IRT、FT三者的结合应用于信效度分析时，CTT可从宏观方面给出量表或分量表的整体信度，而IRT则可以从微观方面给出量表各个项目的信度情况，若两者结合应用于信度分析可能更全面的展现量表的外、内信度水平；CTT中的结构方程模型与FT中的SSA技术能够避免量表结构效度过分强调定量分析，而忽视研究内容概念理论框架的缺陷。

基于这样的认识或假设，笔者以运动员《特质流畅量表》作为实证案例工具展开例证。之所以选择这一测评工具，主要是考虑到：1)该测评工具发展已相对成熟，且关于运动员的流畅状态研究在国内、外体育科学领域已有多人研究与应用[6,11,18,23,24,29-31,35,36,38]；2)正值课题组为部分国家队运动员进行心理测评服务，可以更为便利地获取相关数据。在这里想再次引用我国学者张力为的一句话：“兼具自然科学和社会科学特征的体育科学，其研究领域的包容性如此之大，使概括它的方法学特征和进展也非常之难。但我们仍可采取以点带面、自下而上的方式，……，来探讨体育科学研究方法的问题与对策”[20]。也正是基于这样的考虑，本研究希望能够发挥以点带面的作用，验证以上3种假设，认识和理解CTT、IRT、FT 3种理论在体育科学量表编制中的组合优化应用。

2 研究对象与方法

2.1 研究对象

本研究选取了部分国家队、省队、体育院校以及普通高等学校体育学院的专业队队员为调查对象，发放运动员中文简化版《特质流畅量表》800份，回收有效问卷763份，回收率为95.38%，其中，国家队85人(11.14%)，省队109人(14.29%)，体育院校238人(31.19%)，以及高等学校体育学院331人(43.38%)，男、女运动员分别为354人(46.40%)，409人(53.60%)，年龄15～27岁，平均年龄为：19.53±3.78(男)、18.91±2.87(女)，训练年限为：6.33±3.43(男)、5.90±3.31(女)，运动等级分为健将(48人，占6.29%)、一级(174人，占22.80%)、二级(352人，占46.13%)以及无运动等级(189人，占24.77%)。项目涵盖了篮球、排球、足球、乒乓球、网球、羽毛球、摔跤、跆拳道、空手道、击剑、拳击、撑杆跳、跳高、体操等。

2.2 研究方法

2.2.1 问卷调查法

本研究采用中文简化版《特质流畅量表》(Jackson等人编制，刘维娜跨文化检验与简化，本研究采用中文简化版本[6,7])作为测量工具进行施测。相关研究显示，该工具各维度均具有较好的信效度水平(表1)。该量表包括流畅状态的9个维度，即挑战-技能平衡、清晰的目标、行动-意识融入、全神贯注于当前任务、时间的变化、自我意识的丧失、控制感、明确的反馈以及享受的体验。采用李克特式5点记分法，包括从未(“1”)、很少(“2”)、有时(“3”)、经常(“4”)、总是(“5”)，且题序沿用了中文版《特质流畅量表》的题项序号，即V1～V33。由于在多个地点施测，本研究统一制定了一致的测评原则，首先，由带队教练员或教师统一组织足够长的时间统一施测，保证运动员作答时间；其次，教练员或教师说明认真填写的现实意义，例如：可能根据各自的薄弱环节提出针对性建议等等，同时确保作答结果将完全保密；最后，要保证运动员在作答过程中并无商讨。

2.2.2 数理统计法

本研究主要通过对CTT、IRT以及FT中的一些方法运用，例如：CTT中的临界比率法、积差相关法、因子分析法等等(SPSS 16.0软件实现)，IRT中的区分度分析、难度分析、最大信息量分析(IRTPRO软件实现)，以及FI中的映射语句分析、SSA等(Hudap软件实现)，来对研究提出的假设做以验证。

表1 本研究《特质流畅量表》的基本情况一览表

Table 1 A List of Dispositional Flow Scale

维度情况题项信度情况效度情况挑战-技能平衡V1、V8、V17、V250.720χ2=1274.71、df=459、CFI=0.902、NNFI=0.887、SRMR=0.05、RMSEA=0.051行动-意识融合V9、V18、V260.672清晰的目标V2、V10、V270.763明确的反馈V3、V11、V19、V280.784全神贯注于当前任务V4、V12、V20、V290.776控制感V13、V21、V300.713时间的变化V6、V15、V23、V320.774自我意识的丧失V5、V14、V22、V310.722享受的体验V7、V16、V24、V330.779

3 应用1：FT应用于量表的题项建立

量表中题项的建立是量表编制过程中的重要步骤，目前，我国体育科学量表题项的建立主要采用访谈法、问卷调查法、相关量表引用法、理论分析法等，当然，这些方法均有各自的优点，通过这些方法，也已编制出了信效度很好的体育科学测评量表。但是，它们的缺点也是显而易见的，比如：访谈法中调查对象的隐蔽性及主、被试之间的交互影响、理论分析法的主观色彩以及科学研究范式的欠缺等。就拿题项初始建立而言，目前，大多数体育科学测评量表对效度的控制主要放在了题项建立之后，包括专家对量表内容效度的评价以及之后的信效度检验等。事实上，在题项的建立之初，就应该具有较好的内容效度，才能进一步保证后续分析的科学性。因为，题项的质量从一开始就牵制着后期的种种努力行为[4]。

从具体测评量表的题项中也不时会发现一些问题，不少题项存在让受试者产生模棱两可的感觉，因为这样的题项同时包括了有交集的多个概念词语。究其原因，这与题项建立阶段缺乏规范化有一定的关联，尤其是方法运用的规范性。另外，在许多体育科学测评量表的编制之初，提到了在开放式访谈法中遵循问题的提纲来展开，从而把握面谈的方向与节奏[14]，尽管这有利于对后续结构的构建，但是，并未明确指出是如何构建这一提纲，这一提纲的科学范式如何也没有明确指出。基于这些现象，笔者认为，这类研究的重点放在后续的量表检验与验证上是欠妥的，而应该在题项建立之初就应该使之具有较好的内容效度。由此看来，体育科学研究中量表题项的编制从方法上得以突破是一个重要的现实趋势，格特曼提出的映射语句具有范式化分析的特点，强调了理论构建与概念结构的合理性，在帮助科研人员穷尽和区分相关概念、变量的基础上，深入挖掘更有含义的语句，从而使量表在建立之初就具有较好的内容效度。

本研究依据运动员《特质流畅量表》为蓝本(9个维度)，遵循FT理论将该量表各维度进行归属分类，设计映射语句(图1)。一个事件的完成，必然包括任务层面、时间层面以及行为层面，而流畅状态的9个维度，均可以很好的通过这些层面来对其进行分类。通过对层面理论的映射语句进行范式化分析，可以发现理论构建和概念结构的合理性。通过分析，本研究进一步发现如下两类问题：

1.理论构建因素涵盖不全，例如，行为层面中，仅享受的体验维度属于情绪行为，而这一维度的题项或是主要集中在一些社会化情绪，例如：荣誉感、自豪感等，或者主要集中在基本情绪，例如：快乐等。然而，却缺乏对复合情绪的涉及，例如：焦虑、羞愧等。但是，在高水平运动员的比赛中，这种对复合情绪的控制感似乎是一个非常关键的因素，而在运动员特质流畅状态维度的理论构建时，却缺少对这一内容的设计，这从问卷题项上可以得到证实。当然，流畅状态的任务层面与时间层面中因素的涉及还是较为合理的。

同时，在这里需要指明的是，内容涵盖面仅是量表编制的一个方面，题项的重复交叉是不可回避的又一问题。由于心理学家在编制量表时常常处于两难境地，即如果希望提高信度，最简单的办法之一就是车轱辘话来回问。如果希望提高内容的全面性(覆盖面)，最简单的方法之一就是问相互关联但有所不同的问题，这常常导致内部一致性的下降。而这里谈到的层面理论中的映射语句，虽然也能够实现交叉重复性题项的编制，但更侧重于提高量表内容的全面性(覆盖面)，这就可能导致内部一致性的下降。因此，研究提示，采用映射语句方法应该结合其他方法(有助于信度提高的方法)一同来弥补这一两难境地。当然，研究中还得根据研究者的需要而定。

2.缺乏对更深层次题项的挖掘，从该量表的题项可知，应该设计一些能够深入挖掘运动员流畅状态的高层次含义的题项，例如：我的既定任务失败后，通过客观分析原因出色完成了任务，从而享受这一过程(映射语句组合：a1b3c9)，这似乎是高水平运动员的一种更高境界。当然，设计深层次含义的题项，并不代表在项目分析中必然被保留，只是一份科学量表的项目设计初期，包括这类的项目而已。

综上分析，FT理论中的映射语句应用于体育科学测评量表题项的编制初期存在一定的优势，尤其是对内容效度的构建，包括，有助于题项覆盖内容的全面性，从而提高内容效度以及对深层次题项的挖掘等。

图1 本研究运动员特质流畅状态映射语句图

Figure 1. Mapping Sentence of Athletes Dispositional Flow State

4 应用2： CTT、IRT应用于量表的项目分析

运动员《特质流畅量表》的项目删减主要依据CTT中的因子载荷、修正指数等相关指标。尽管后来研究中也进行了进一步的删减，依据也仅是选择每个维度中最大的因子载荷来设定，如果载荷相似，则根据题项的表面效度来决定[近期，Jackson(2008)仅采用每个维度中因子载荷最大的题项来反映各维度[30]]。而采用CTT对量表的项目进行删减时还存在很多方法，在我国大部分体育科学量表编制的研究中也一直有所沿用。有研究指出[1]，在对量表进行题项删减时，临界比率法、积差相关法、标准差法以及因素分析法是必不可少的。为此，本研究运用CTT与IRT的相关方法对收集的数据进行了项目分析：1)验证CTT与IRT的结合，能否对量表做进一步删减(检验1)；2)验证两种理论的结合应用于运动员这一群体在比赛这一特定情境中，样本量多少较为合适(检验2)。

4.1 检验1

首先，采用CTT中的鉴别指数法、标准差法、相关分析法以及因素分析法分别对运动员《特质流畅量表》进行了项目分析(样本量：763人)。1)鉴别指数法：计算量表总分，并分别对其进行降序、升序排列，找出得分前27%和得分后27%的分数值，将其分为高分组和低分组，并对高、低分组的所有题目进行独立样本t检验。结果发现，所有题目均存在显著性差异(P<0.01)，因此，根据此方法并未对项目进行删减。2)标准差法：通过对量表题项进行描述性统计，找出那些标准差小于1的题项，由于标准差过小，说明被试回答较为集中，缺乏鉴别力，应予以删除，通过分析，发现V11(SD=0.852)、V14(SD=0.884)、V15(SD=0.896)、V33(SD=0.812)4个题项的标准差小于1，因此将其删除。3)积差相关法：通过对量表题项得分与总得分进行相关分析，删除那些r<0.3的题项，因为这些题项与量表的整体构念关系不大。而本研究在实际分析中，各个题项均与量表总分存在显著性相关(P<0.01)，因此，该步骤中并无题项删减。4)因素分析法：项目分析阶段共进行了两次因素分析，每次分析均对数据做以KMO和Bartlett的球形检定(第1次：0.894，P<0.001；第2次：0.895，P<0.001)，采用抽取因素的方法为主成分分析法，并勾选相关矩阵、陡坡图，特征值设定为1，选择最大变异法进行正交转轴。第1次分析由于V6、V23仅2个题项在一个因素层面内，涵盖内容较少，将其删除，而第2次因素分析则每个因素层面均大于3个题项。基于以上分析，采用CTT的这4种方法最终删减6项题目。

表2 本研究CTT相关方法对《特质流畅量表》的删减一览表

Table 2 The Statistic of Dispositional Flow Scale Deleted by CTT

方法删题标准删除题项第1步临界比率法高(前27%)、低(后27%)组独立样本t检验,若P>0.05,删除题项。无第2步标准差法若SD<1,则删除题项V11(SD=0.852);V14(SD=0.884);V15(SD=0.896);V33(SD=0.812)第3步积差相关法若r<0.30,则删除题项无第4步因素分析法若萃取的因子中仅包括2个及以下题项,则删除该因子所包括的题项。第1次删除:V6;V23第2次删除:0

其次，采用IRT中(双参数Logistic模型)的区分度指标(a)、难度指标(b)以及信息量指标(Imax)对剩余题项做进一步删减①筛选的标准：有的研究提出a≤0.2，或者a≥3；b≤-3或b≥4则需要将其删除；有的提出a≤0.3，或者a≥4；b≤-2.59或b≥2.59；c≥0.4。本研究中设定为a≤0.2或a≥3，b≤-3或b≥4。另外，信息量可以用于评价一个量表的信度，即用信息量来代表信度的概念，并把信息量定义到了每个题项及其被试上，可以为检验结果是否可信提供更优的信度，一般情况下，Imax≤0.2时认为该题项提供的信息量较少，应予以删除。，运用IRTPRO软件对数据进行分析，IRT最重要的检验为单维性检验，通常，采用探索性因素分析结果的第1因素特征根大于第2因素特征根3倍及其以上这一标准来进行检验[37]。本研究通过对剩余题项进行探索性因素分析，发现第1因素特征根为7.556，第2因素特征根为2.051，第1因素特征根是第2因素特征根的3.684倍，因此符合标准。且从陡坡图来看，第1因素到第2因素直线下降，拐点明显，符合单维性检验。基于以上检验，此量表剩余题项适宜进行IRT分析。通过IRT分析发现，依据区分度指标并未对任何题项进行删减(标准：a≤0.2或a≥3[39])，而难度指标则对V1(b=-3.55)、V3(b=-4.71)、V5(b=-6.27)、V9(b=-4.86)、V10(b=-3.40)、V20(b=-4.36)以及V32(b=-4.86)可进行删除(标准：b≤-3或b≥4[39])，最大信息量指标则应该将V5(Imax=0.04)、V18(Imax=0.19)、V22(Imax=0.09)、V31(Imax=0.12)以及V32(Imax=0.15)予以删除(标准：Imax≤0.2[39])。因此，通过IRT的区分度、难度以及最大信息量指标可删除10道题项，具体情况见表3。

综上分析，不仅CTT中的方法能够对题项进一步筛选，而且，在采用CTT中的方法进行删减之后，IRT分析仍能够对题项进行更深层次的精简，从而说明仅通过CTT对量表的项目分析并不能代替IRT分析。因此，两者的结合，有利于体育科学量表题项的进一步删减和精确。

表3 本研究IRT对《特质流畅量表》的删减一览表

Table 3 The Statistic of Dispositional Flow Scale Deleted by IRT

题项as.e.bs.e.ImaxV11.410.14-3.550.360.36V31.060.12-4.710.580.27V50.430.09-6.271.300.10V90.980.12-4.860.630.23V101.300.14-3.400.340.31V180.810.12-2.410.170.19V201.170.14-4.360.540.29V220.470.10-1.970.140.09V310.640.11-2.160.210.12V320.100.03-4.860.590.15

4.2 检验2

一个值得思考的问题，两种理论的结合是应该按照哪种理论所必须的样本数量来进行调查，无可否认的是，样本数量越大，既可为量表的编制提高精确度，也有助于提高结果的稳定性。但是，在条件有限的情况下，设计合适的调查样本，既可以避免耗时耗力的弊端，也可以得出较为科学的测评量表。而就CTT和IRT两种理论应用于体育科学量表编制时所需要的样本量问题，目前似乎并无一致结论，大多数研究也只能根据实际情况而定。对于CTT的研究而言，描述性研究的样本数最好占母群体的10%，相关研究、因果比较研究最好受试者在30人以上等等。而对于IRT，使用双参数模型最好被试在600人以上。但是，在体育科学研究领域，许多研究的样本量会受到限制，两种理论整合应用于体育科学量表编制中项目分析时样本量多少合适还有待于进一步探索。基于此，本研究通过CTT中前面所述的4种方法(鉴别指数法、标准差法、相关分析法以及因素分析法)以及IRT(区分度指标a、难度指标b以及最大信息量指标Imax)对100名、200名、300名、400名、500名、600名以及700名的样本量依次进行了项目分析(顺序依然按照先CTT后IRT，图2)。通常，对于新量表的编制而言，CTT的删题数量会多于IRT分析，但是，由于该研究所采用的量表是以往学者基于CTT方法分析所得，因此，在图2中所表现为CTT删题曲线在IRT之下。同时，图2展示了样本量的一个关键问题，即CTT在样本达到300名左右时，删题数量达到稳定，而IRT在样本量达到400名左右时，删题数量才逐渐稳定，若样本量少于这一界限，会存在部分题项误删的可能性。基于此，研究认为，两种理论的结合应用于体育科学量表编制时，样本量应该不少于400名受试者。

图2 本研究CTT、IRT对不同样本量删题数目统计示意图

5 应用3： CTT、IRT、FT应用于量表的信、效度分析

测验的信度是指测验的可靠程度，它表现为测验结果的一贯性、一致性、再现性以及稳定性，而效度是指一个测验在测量某项指标时所具有的准确程度或有效程度[19]。对量表的信、效度分析是体育科学量表编制的必备过程。我国学者对体育科学测评量表信度的分析通常采用的是克隆巴赫α系数，而对效度的分析也主要集中于结构效度。在信度方面，一个量表或分量表仅给出一个克隆巴赫α系数可能会有不妥之处，即存在高信度题项掩盖低信度题项的可能性，这也许是体育科学量表的症结所在。基于这一认识，本节主要检验运用IRT中的信息量来代表信度的概念，并将信息量定义到每个题项上，从而检验与CTT中体现宏观特性的方法进行优化组合的可行性(检验1)。事实上，对结构效度的重视有一定的必然性，无论是效标效度还是内容效度，在与结构效度相比时均不会完全处于同一地位，结构效度作为一个广泛的概念在一定程度上包括了其他效度[9]。当然，在有充足条件的情况下，对其他效度均应加以检验。为了避免对量表结构效度的检验时过分强调定量分析，而忽视研究内容的概念理论框架，本节采用结构方程模型与SSA的组合来对《特质流畅量表》剩余题项组成的量表进行了结构效度分析，检验两者的结合是否能使理论与统计相权衡(检验2)。检验步骤：1)运用结构方程模型检验结构效度，统计拟合指数；2)运用验证性SSA进行验证，并结合理论探讨题项是否应该重新界定，若题项有改变，则再次进行结构方程模型分析，对比前后拟合指数，从而确定最佳选择。

5.1 检验1

该部分主要检验CTT给量表一个统一信度指标的同时，IRT是否能够相应的补全每个测验项目的信度情况，对CTT理论的缺陷加以弥补，从而为后续研究将两者结合更好的应用于体育科学量表编制中提供借鉴。研究采用克隆巴赫α系数对整体量表信度进行了检验，检验结果为克隆巴赫α系数=0.881(剩余17个题项)，从整体量表来看，信度较高。而从每个维度来看(表4)，由于删除题项后，自我意识的丧失维度与时间的变换维度的题项均未被保留，仅剩下7个维度，而这7个维度中，又有部分维度仅存在一个题项(行动-意识融合)或两个题项(清晰的目标、明确的反馈以及享受的体验)，致使克隆巴赫α系数值不高(<0.60)，仅挑战-技能的平衡、关注于当前任务以及控制感维度具有较好的信度，克隆巴赫α系数均大于0.65。导致这一原因主要有两点：1)由于量表是依据定性方法所得，在设置维度的题项时，所设计内容不全面，换句话说，量表的初始内容效度欠佳，这一点也可以从前面所述的映射语句对量表维度分析时得以证实；2)尽管有关研究表明[16]，在一个潜变量含义很清晰的情况下，该变量可用2个甚至1个可测变量来反映，但是，不可否认的是，该研究部分维度的克隆巴赫α系数值较低，而总量表信度较高，说明量表维度设置过多又是另一因素，可能需要进一步更改维度的设置。

表4 本研究量表的信度检验(克隆巴赫α系数)一览表

Table 4 Reliability Test of the Scale(Cloning Bach Alpha)

总量表平衡目标反馈集中控制享受融合时间意识0.8820.6710.5520.5790.6810.6600.554仅1题无题无题

从各个题项来看，通过IRT分析(IRTPRO软件实现)，剩余17个题项均具有很好的信度(Imax≥0.3)，由此，本研究给出了题项V2的项目特征曲线和信息量混合曲线图，也给出了在项目分析中根据信息量指标所删除的题项V5的项目特征曲线和信息量混合曲线图(图3)。首先，从项目特征曲线来分析，在理想状态下第0条曲线(对应本研究量表题项选择中的1分值)应该是一个单调递减曲线，即随着受试者能力水平的提高，得1分的几率逐渐降低。第4条曲线(5分值)应该是一个单调递增曲线，即随着受试者能力水平的提高，得5分的几率逐渐提升。而项目第1～3条曲线(2～4分值)应该符合正态分布。但是，在实际中，很多时候并不能完全符合这种理想状态。本研究的题项V2较为符合这种状态，说明该题项能够很好的对不同水平的受试者进行区分。当然，所剩余的其他题项也基本满足项目特征曲线这一特点，这里不做一一列举，而通过项目分析中所删除的V5，却无法体现这种项目特征曲线的特征，区分能力较差。其次，就信息量来看，V2的最大信息量在0.8以上，说明信息量较大，该题项的信度较高，而V5的信息量仅在0.1的水平(删除标准为Imax≤0.2)，说明该题项的信度欠佳。

由此看来，CTT从宏观分析给出量表的整体信度之后，通过IRT可以从微观进一步得到各个题项的信度情况(验证假设3)。这种结合，不仅提高了体育科学测评量表编制的科学性和准确性，也有助于后续研究进一步探讨某个特定能力的特质水平点。

图3 本研究题项V2、V5的项目特征曲线与信息量混合示意图

5.2 检验2

采用结构方程模型与SSA的组合来对量表的结构效度进行检验，主要针对于维度的设定来自探索性因素分析。因为，该结合的主要目的是为了避免量表将统计置于理论之上的缺陷，即通过探索性因素分析后，根据因素内主要题项代表的理论概念来命名维度。但是，通常情况下各维度中又存在与大多数题项代表概念不一的题项，又不能想当然的将该题进行重新归类，需要有统计上的支持。由于《特质流畅量表》在编制之初的9个维度是依据定性方法所得，同时，考虑前面分析该量表维度过多可能是导致分量表信度较低的一个原因。因此，本研究仅对探索性因素分析所得维度结构进行检验，并通过这一检验过程来验证这一方法优化的可行性。

首先，本研究对量表剩余题项(17项)进行探索性因素分析。当然，在量表编制中这一步骤应该放于项目分析阶段来进行，但是，本研究并非是编制量表，而只是对两者的优化构想做以实证。因此，在通过探索性因素分析之后，紧接着对量表结构效度进行检验，做以明确对比，以更好的凸显本研究的实际研究目的。探索性因素分析的KMO值为0.910，球形检验的卡方值为1 900.847，自由度为136，且在0.001水平上达到显著，因此，适宜进行因素分析(表5)。从累计解释方差百分比来看，仅为49.468%，数值偏低，主要原因在于量表内容效度不高，这也正呼应了本研究在第1部分中的研究结论。从萃取的因素来看(设定特征值大于1)，共得到3个因素，第1个因素中的题项主要涉及到原量表的挑战-技能平衡、行动-意识融合以及控制感3个维度，因此，将其命名为挑战-行为控制的融合，即比赛情境的高要求与运动员行为控制能力的平衡；第2因素中的题项主要涉及到原量表中明确反馈与享受体验2个维度。因此，将其命名为反馈-享受的体验，即运动员对比赛的表现做出反馈，并享受认知结果的体验过程；第3因素则主要涉及清晰的目标与全神贯注于当前任务2个维度，因此，命名为目标-集中，只有集中于目前任务，设定目标才能进一步施展行为。当然，本研究对其有何种命名并不是重点，重点在于通过探索性因素分析所设定维度的量表，如何在信效度检验中避免将统计置于理论之上的缺陷(验证假设3)。

表5 本研究运动员特质流畅状态探索性因素分析及其因子命名一览表

Table 5 The List for Exploratory Factor Analysis and Factor Named of Athletes Dispositional Flow State

主成分特征值(旋转-未旋转)累计解释方差百分比题项主成分命名因子载荷13.210-5.90518.883V17挑战-行为控制融合0.677V130.660V210.610V80.584V250.575V300.564V260.538V240.46522.678-1.38634.634V7反馈-享受的体验0.670V190.599V160.570V280.555V290.53732.522-1.11849.468V4目标-集中0.722V20.613V120.570V270.516

随后，通过结构方程模型结合SSA技术对量表结构效度进行了分析。第1步，运用Amos 17.0软件实现了对量表结构效度的初步验证工作，在分析中勾选了最大似然估计、模型拟合等指标，并对输出报告的模型拟合指标进行了初步统计，做好记录。第2步，采用FT的SSA技术进行分析，在分析时，仅设定了一个层面，但该层面分为3个元素，对应于量表的3个维度(挑战-行为控制融合、反馈-享受的体验、目标-集中)，分析过程中，对各个元素中的题项进行了对应的属性设定。图4展示了SSA分析的两种结构的整合(分析时单个进行分析)，即极化结构与模块结构，同时也对应的给出了异化系数①异化系数：是SSA技术的重要评价指标为异化系数与区域化系数，其中，异化系数表示与完美拟合之间的差异，其值不超过0.20是可以接受的[24]。和区域化系数②区域化系数：是指维度对空间图进行的完美分区程度，取值范围在0～1之间，数值越大，区分度越好，在0.90以上可以认为结构较为合理[34]。拟合指标情况。从图4左图来看，两种结构的异化系数为0.15654，在合理范围之内，区域化系数为1，说明该量表的维度能够对空间图进行完美的区分。就图4右图而言，异化系数与左图一样，而极化结构的区域化系数为0.933，模块结构的区域化系数为0.917。尽管这一结果说明量表维度不能够对空间图进行完美区分，但是依然在0.90以上，因此，具有合理的结构。进一步观察右图出现偏差的原因，主要在于题项V24划分到了反馈-享受的体验维度，而题项V29划分到了目标-集中维度。就题项内容来看，似乎V24(这种体验让我感到欣喜若狂)更加符合反馈-享受的体验维度，V29(我全神贯注于当前的任务)也更符合目标-集中维度。尽管左图展示了V24在挑战-行为控制融合维度，V29在反馈-享受的体验所得出的区域化系数更高，但是结合理论来分析，右图的划分更加符合实际。由此推测，对于通过探索性因素分析这种单纯依据统计所得维度的量表，可能会造成在理论上的不足，同时，也不能想当然的依据题项含义对题项进行重新界定，而通过SSA技术，便能够给以题项进行重新界定的理由，理论方面也可能更为符合实际。同时，部分研究在编制量表时[15]，通过SSA技术来进行题项删减，但通过本研究来看，将跨区域题项删除似乎存在一定的缺陷，这将导致应该归属于另一区域的题项误删的可能。因此，本研究不建议将FT中的SSA技术应用于量表的项目分析阶段。

当然，在对题项进行重新界定之后，第3步便是需要再次对量表进行结构方程模型分析，来验证结构效度是否符合标准，验证过程同第1步，并对拟合指标进行统计，与第1步统计结果做以比较，本研究对2次结构方程模型的拟合指标统计见表6。从中得知，题项变更前后，结构方程模型的各拟合指标并未出现较大变动，尽管存在部分拟合指标降低现象，例如，RMSEA从0.059降到0.058，但是大多数指标拟合更优，仅相对拟合指标的NFI不太令人满意，这可能与量表所建构的题项内容全面性有关。当然，该指标通常也被认为是易被低估的指标。但无论如何，该指标与0.90的标准[28]相差并不大，综合来看，该量表结构的拟合效度良好，具有较好的结构效度。

图4 本研究运动员特质流畅状态层面图(基于三维结构的SSA)

注：左图：异化系数=0.156 54，区域化系数=1(极化结构，模块结构)；右图：异化系数=0.156 54(极化结构，模块结构)，区域化系数=0.933(极化结构)，0.917(模块结构)。

表6 本研究结构效度拟合指标一览表

Table 6 The List for Fitting Index of Structure Validity

χ2/dfGFIRMSEANFICFI第1次2.3230.9220.0590.8610.915第2次2.2550.9250.0580.8650.919

6 讨论

本研究通过3个应用探讨了CTT、IRT、FT 3种理论的使用特点和优化组合。应用1表明(验证假设1)，通过映射语句的范式化分析，有助于对量表各维度的概念以及内涵充分的理解和把握，从而进一步设计题项或发现量表存在的问题。例如，在本研究映射语句的情绪行为方面仅存在享受的体验维度，但该维度并未涉及复合情绪的有关题项，而高水平运动员在比赛情境下对复合情绪的控制感似乎也是具有重要意义的，它是不得不涉及的一项重要内容。这一方面的欠缺，在一定程度上降低了量表的内容效度，通过FT中映射语句的范式化分析，能够凸显这一问题，同时，映射语句还有助于对更深层次题项的挖掘。例如，通过设计映射语句组合：a1b3c9，运用采样题目编制出“我的既定任务失败后，通过客观分析原因，出色完成了任务，从而享受这一过程”。尽管不能保证在后续地项目分析中一定被保留，但是，这似乎更加符合运动员的流畅体验。由此推测，将FT的映射语句应用于题项建立之初，对内容效度的提高存在一定的优越性。但是，在这里需要指出的是，侧重于提高量表内容的全面性(覆盖面)，可能导致内部一致性的下降。研究认为，采用这一方法与其他方法(有助于信度提高的方法)的有机结合可能更有利于提高量表题项建立之初的科学性。

应用2表明(验证假设2)，CTT和IRT两个理论在结合使用时，样本量是不可回避的问题之一，通过检验发现，CTT在样本量达到300名左右时，删题数量达到稳定，而IRT在样本量达到400名左右时，删题数量才逐渐稳定。因此，两者的结合应用于体育科学量表编制时，不少于400名受试者作为样本量是较为合理的,至少目前这一结论从运动员这一群体在比赛这一特定情境下来看，是一个较为稳定的阈值，而进一步扩大范围的研究将是今后的一个研究方向。在采用已编制成型的体育科学量表应用于各项目运动员某方面特征研究时，对样本量的要求可能没有如此苛刻。而这一结论也与一些教育测评的研究存在一定的差异(IRT双参数模型样本量最好在600人以上)，导致这一结果的原因可能与运动员群体和比赛情境存在一定关联。同时，通过CTT与IRT项目分析发现，CTT对题项的删减并不能代替IRT对题项的删减，两者的结合将更有利于量表题项的进一步剔除。

应用3表明(验证假设3)，CTT中体现宏观特性的克隆巴赫α系数与IRT中体现微观特性的项目信息量结合有助于优化量表的信度这一构想，即两者的结合能够给出最终整体量表以及每个题项的信度情况，避免以往体育科学测评量表仅给出一个笼统信度指标的缺陷。同时，也验证了将CTT中的结构方程模型结合FT中的SSA技术对量表结构效度进行检验的构想。当然，依据某些题项所在的模块化区域进行选择或调整时，可能存在更为复杂的理论问题和主观判断问题，但无论如何，SSA在所得层面图拟合指标尚可的情况下，能够对部分题项所属维度进行重新界定，避免了量表的结构效度过分强调定量分析，而忽视了研究内容理论框架的缺陷。通过SSA分析发现，不建议将该技术应用于量表的项目分析阶段，因为，这易导致应该归属于另一区域的题项误删的可能。但是,这里需要说明的是，量表编制过程所涉及的信、效度问题相当复杂，仅信度就包括重测信度、复本信度、分半信度、同质性信度以及评分者信度，而效度又涵盖了结构效度、内容效度以及校标效度。同时，针对同一类信、效度的评价又存在多种不同的方法，例如，结构效度的评价方法，即因素分析法、与标准化测验的相关法、聚合效度检验和区分效度检验等[19]。而本研究仅从方法结合的角度来提高体育科学量表编制的信、效度问题，验证了克隆巴赫α系数与项目信息量结合、结构方程模型与SSA技术结合的构想，希望能够进一步提高量表编制的信、效度科学化水平。

7 结语

在体育科学测评量表研制中，传统上CTT理论作为经典测量理论被广泛应用，而结合IRT、FT两种理论开展的应用性研究还相对欠缺，虽然也有学者逐步提出了将三者结合的优化构想，如戴俭慧(2014)发表的“体育科学量表编制中几个主要问题探究—— 一种方法优化的思考”一文[1]，就提供了诸多的思考空间，但这些研究还主要是停留在一种提法和观念的层面，缺乏实证性案例的探究。本研究认为，FT中的映射语句在提高量表题项建立之初的内容效度方面具有自身的优越性；CTT与IRT的结合使用中，样本量在400时是一个稳定性阈值，CTT对量表题项的删减并不能代替IRT分析；CTT与IRT能够从宏观与微观分别给出量表及题项的信度情况，有助于发现研究样本某个特定能力的特质水平点。同时，结构方程模型与SSA技术结合能够在一定程度上避免量表结构效度过分强调定量分析，忽视研究内容理论框架的缺陷。当然，对于本研究确立的这些应用结论还有待于实践的不断检验，案例也需不断扩大，但藉此希望能够发挥“以点带面”的作用，逐步提升CTT、IRT、FT三种理论在体育科学量表编制研究中的规范化应用。

[1]戴俭慧,金亚虹.体育科学量表编制中几个主要问题探究——一种方法优化的思考[J].体育科学,2014,34(3):88-封三.

[2]董德龙,刘文明，SEAMUS KELLY.归属、规模、规制：对中国体育学科发展的认识[J].体育科学，2015,35(3)：83-89.

[3]董德朋,岳晓燕,刘巍，等.我国专业运动员赛时自我调控测量工具的研制与检验[J].体育科学,2013,33(12):49-58.

[4]金瑜.心理测量[M].上海:华东师范大学出版社,2001.

[5]李华,俞卫.政府卫生支出对中国农村居民健康的影响[J].中国社会科学,2013,(10):41-60,205.

[6]刘微娜.体育运动中流畅状态的心理特征及其认知干预[D].上海:华东师范大学,2009.

[7]刘微娜.《简化状态流畅量表》和《简化特质流畅量表》中文版修订[J].体育科学，2010,30(12)：64-71.

[8]罗照盛.项目反应理论基础[M].北京:北京师范大学出版社,2012.

[9]漆书青.现代教育与心理测量学原理[M].北京:高等教育出版社,2002.

[10]王存同.中国人工流产的社会学实证研究:1979-2012[J].中国社会科学,2014,(10):63-78,206.

[11]王洪,符明秋.高水平运动员流畅状态特征研究[J].西安体育学院学报，2005,22(4):127-130.

[12]谢宝国,龙立荣.职业生涯高原对员工工作满意度、组织承诺、离职意愿的影响[J].心理学报,2008,40(8):927-938.

[13]杨宝琰,万明刚.城乡高中教育机会分配的影响因素及作用模式:结构决定抑或行动选择[J].教育研究,2014,(10):26-34.

[14]杨剑,祝捷.体育专业大学生心理和谐问卷的编制[J].沈阳体育学院学报,2011,30(5):25-28.

[15]杨建原,臧运洪,赵守盈.应用项目反应理论对友谊质量量表修订——以结构方程、层面理论多种技术支持修订量表的质量[J].心理学进展,2011,(1):97-105.

[16]易丹辉.结构方程模型方法与应用[M].北京:中国人民大学出版社,2008.

[17]岳昌君,张恺.高校毕业生求职结果及起薪的影响因素研究——基于2013年全国高校抽样调查数据的实证分析[J].教育研究,2014,(11):72-83.

[18]张剑杰,徐囡囡,斯力格，等.心理干预对国家自由式滑雪空中技巧女运动员操作表现的影响[J].天津体育学院学报,2014,29(2):128-131.

[19]张力为.体育科学研究方法[M].北京:高等教育出版社,2002.

[20]张力为.研究方法总是使我们处于科学研究的十字路口[J].体育科学,2004,24(6):1-6.

[21]张力为.研究方法在制约我们的追求吗？ [J].体育科学,2005,25(4):74-80.

[22]赵守盈.层面理论原理、方法与应用[M].北京:北京师范大学出版社,2010.

[23]CHRISTIAN S,DAVID P,LEE C,etal.Exploring the interactions underlying flow states:A connecting analysis of flow occurrence in European tour golfers[J].Psychol Sport Exe,2015,16(3):60-69.

[24]CSIKSZENTMIHALYI M.Flow:The Psychology of Optimal Experience[M].New York:Harper Row,1990.

[25]DEROSE K P,GRESENZ C R,RINGEL J S.Understanding disparities in health care access and reducing them through a focus on public health[J].Health Affairs,2011,30(10):1844-1851.

[26]DONALD I,COOPER R.A facet approach to extending the normative component of the theory of reasoned action[J].Brit J Soc Psychol,2001,40(4):599-621.

[27]FOSCO G M,GRYCH J H.Emotional,cognitive,and family systems mediators of children’s adjustment to interparental conflict[J].J Family Psychol,2008,22(6):843-854.

[28]GUTTMAN R,GREENBAUM C W.Facet theory:Its development and current status[J].Eur Psychol,1998,3(1):13-36.

[29]JACKSON S A,EKLUND R C.Assessing flow in physical activity:The flow state sacle-2 and dispositional flow state scale-2[J].J Sport Exe Psychol,2002,(24):133-150.

[30]JACKSON S A,MARTIN A J.EKLUND R C.Long and short measures of flow:The construct validity of the FSS-2,DFS-2,and new brief counterparts[J].J Sport Exe Psychol,2008,(30):561-587.

[31]JACKSON S A,ROBERTS G C.Positive performance states of athletes:Toward a conceptual understanding of peak performance[J].Sport Psychol,1992,6(2):156-171.

[32]JACOB H.The facet design approach to the construction of multivariate marketing models[J].Eur J Market,2001,8(2):146-157.

[33]MASLOVATY N.The placement of moral contents:Priorities and structure of the belief system of teachers and high school students[J].Edu Res Evaluation,2003,9(1):109-134.

[34]NAM Y,HUANG J.Equal opportunity for all? Parental economic resources and children’s educational attainment[J].Chil Youth Ser Rev,2009,31(6):625-634.

[35]RAVIZZA K.Peak experience in sport[J].J Humanistic Psychol,1977,17(4):35-40.

[36]REBHUN U.Jewish identity in America:Structural analysis of attitudes and behaviors[J].Rev Religious Res,2004,46(1):43-63.

[37]SHAPIRO D H.Manual for the Shapiro Control Inventory[M].Cupertino,CA:Behavior-data,Inc,1994.

[38]STAVROU N A,JACKSON S A,ZERVAS Y,etal.Flow experience and athletes’ performance with reference to the orthogonal model of flow[J].Sport Psychol,2007,21(4):438-457.

[39]SUSSMAN J,BEAUJEAN A A,WORRELL F C,etal.An analysis of cross racial identity scale using classical test theory and rasch item response models[J].Measure Evaluat Counsel Dev,2012,46(2):136-153.

CTT,IRT,FT：The Application of Scale in Sport Science——Taking “the Dispositional Flow Scale” as an Example

DONG De-peng,LIU Wei,SUN Shi-chao

Based on the short dispositional flow scale,763 athletes were investigated from different items and levels,and using three application research,this paper explores the using and optimum combination of CTT,IRT,FT in development of scale.The result shows that 1) Mapping sentence of FT has its advantages in content validity of items establishment;2)Sample size that is greater than 400 is a stability threshold when CTT and IRT is applied in item analysis,and CTT can’t replace IRT analysis in deletion of terms,meanwhile,SSA of FT will be not recommend in this stage;3)The combination of CTT and IRT can give the reliability of scale and item form macroscopic and microscopic,the combination of structural equation model of CTT and SSA of FT can avoid too much emphasis on the quantitative analysis,and ignore the defect of concept theory framework.

classicaltesttheory;itemresponsetheory;facettheory;scale

2015-05-28；

2015-08-14

吉林省社会科学基金资助项目(2015B8)；吉林大学研究生创新基金资助项目(2015067)。

董德朋(1988-)，男，山东潍坊人，在读硕士研究生，主要研究方向为专项竞技运动理论与方法，E-mail：depeng_d@126.com；刘巍(1973-),男，吉林长春人，副教授，博士，主要研究方向为体育教学与训练，E-mail:JLUWEI_L@126.com；孙世超(1991-)男，河南平顶山人，在读硕士研究生，主要研究方向为专项竞技运动理论与方法，E-mail：sunshichao2013@sina.com。

吉林大学体育学院，吉林长春 130012 Jilin University，Changchun 130012，China.

1000-677X(2015)09-0075-09

10.16469/j.css.201508000

G804.8