基于Rasch模型的普通话学前儿童词语命名测试词表的编制△

2022-09-20武慧多刘巧云张艳丽张玉红

听力学及言语疾病杂志 2022年5期

武慧多刘巧云张艳丽张玉红

1 浙江师范大学杭州幼儿师范学院(杭州 311231)； 2 华东师范大学附属妇幼保健院； 3 宁波特殊教育中心学校； 4 新疆师范大学教育科学学院

表达性词汇是衡量儿童语言发展水平、识别语言障碍的重要依据[1]，词语命名是指让儿童对事物或反映事物的图片进行命名，是评估学前儿童表达性口语词汇最常用的方法之一[2]。除特定性语言障碍之外，听力障碍、脑瘫、自闭症、智力障碍等感知觉障碍、脑损伤或神经发育障碍的特殊儿童也是共病表达性语言障碍的主要群体[3-5]。现有适用于3～6岁学前汉语儿童的表达性词汇测试词表，多以听障和特定性语言障碍两种类型儿童为目标群体进行编制[6，7]，缺少对其他类型共病语言障碍特殊儿童的适用性报告；或者以港台儿童为样本编制而成，因存在文化差异，无法直接应用于大陆儿童[8，9]。

Rasch模型(Rasch model)是基于项目反应理论发展出的心理测量模型，能够同时估计项目难度和受试者的能力，因模型参数稳定且精度高而在心理测量中被广泛应用[10，11]。本研究拟采用Rasch二值模型编制适用于语言年龄在3岁～5岁11个月的学前儿童，包括多种类型共病语言障碍的特殊儿童在内的词语命名测试词表，并检验其心理测量学属性，以期为学前儿童语言障碍的鉴别和干预提供依据。

1 资料与方法

1.1测试对象测试对象为379例年龄3岁～5岁11个月的儿童，包括298例正常发展儿童(正常组)和81例诊断为共病语言障碍儿童(语言障碍组)，其中，听障儿童35例，自闭症儿童15例，脑瘫儿童31例。正常发展儿童分别从上海市7所普通幼儿园按照年龄、性别及幼儿园级别分层抽取；语言障碍儿童则遵循方便取样的原则，从上海市的一所康复中心、融合幼儿园、特殊教育学校抽取，以及由华东师范大学言语听觉康复科学实验室招募。所有测试对象家庭第一语言均为汉语普通话。35例听障儿童的较好耳500、1 000、2 000和4 000 Hz四个频率的平均助听听阈为25.00～53.75 dB HL，27例为感音神经性听力损失，8例为传导性听力损失；30例在所在机构参加语言康复训练，训练时长为1～32个月，平均时长15.4个月。自闭症儿童中11例为轻-中度自闭症，2例为重度，另2例程度不明。自闭症和脑瘫儿童均具有一定口语能力，且测试前未接受过专门的语言康复训练。不同年龄段正常发展及语言障碍儿童例数分布见表1。

表1 不同年龄段正常发展儿童和语言障碍儿童不同性别例数分布(例)

1.2测试材料

1.2.1材料编制原则测试项目主要源于以下词表：孙喜斌等[7]编制的适用于1岁6个月～4岁6个月儿童的《听觉语言能力评估》词表。为了增强量表对特殊儿童的适用性，同时还选取了谭霞灵等[12]修订的适用于30个月以下幼儿的汉语沟通发展量表(Chinese communicative development inventory, CCDI )中的少量词汇，形成1 600个词的词表。根据这些词在原有词表中的大致适测年龄或难易程度按一岁一个年龄组进行分级，再按照词性和功能进行分类，共分为名词(包括人物称呼、身体部位、食物、动植物、日常用品、家俱电器、交通工具、环境场所、自然现象、方位名词)、动词、形容词、代词、副词、数词、量词、连词共17类。对于正常发展儿童而言，在6岁前上述词性都会出现在其表达性语言中[13]，但仍以名词、动词、形容词的增长为主。考虑到副词通常用于修饰动词和形容词，极少单独使用，且与句法发展密切相关，未将其纳入词汇测试词表中；代词虽然在儿童词汇中出现较早，但因代词的运用会随语境的变化而变化，与语用的发展密切相关，故也未纳入测试词表。数词较少单独使用，因此跟量词相结合，重点考查量词。按照难度层级和词性进行分层，抽取词表中10%的词汇，即160个与学前儿童生活密切相关的词语组成词汇难度评价表，其中名词80个(50.00%)、动词41个(25.63%)、形容词33个(20.62%)、量词6个(3.75%)。

1.2.2编制过程分别邀请8名普通幼儿园教师、2名特殊学校教师和一名特殊儿童康复领域的专家对选出的160个词语按照其所对应的年龄层作出难、中、易的难度评价挑选出评价一致性在70%以上(即7名以上教师评价一致)的词，再按照同一年龄层内难、中、易词各占约25%、50%、25%的比例，同时考虑易于通过图片反映词义的因素，共选择出70个词语；并根据词义拍摄、选择相应的图片。在挑选图片时，尽可能凸显目标事物，弱化可能会干扰儿童对目标事物表达的无关线索。用70个项目组成的测试词对籍贯为不同地区的10例3岁～5岁11个月儿童进行试测，观察儿童的答题过程，考察图片是否能够较好地反映目标词，是否仍存在目标词以外的干扰线索影响儿童作答，并根据儿童不同的家庭语言习惯，扩充命名词表的备选正确答案，以提高评分的操作性和一致性。对不能很好地反映目标事物或仍存在干扰线索的图片进行修改或更换，修改或更换图片后仍无法准确反映目标词的项目作剔除处理，最终保留65个项目形成初始测试词表，其中名词33个，动词 16个，形容词15个，量词1个，每个词配有相应的图片。测试经由数字化处理，根据相应的词汇图片，由一名普通话达到一级甲等的女性录制指导语；名词、动词和形容词的测试指导语举例见图1。

图1 词语命名测试词表项目举例 a.名词命名,指导语为“这是什么?”; b.动词命名,指导语为“她在做什么?”; c.形容词命名,指导语为“这个苹果是小的(测试者指着右侧的苹果),那另外一个呢?”

1.3测试方法测验在安静、明亮的室内完成。测验形式为一对一测试，所有测试者由经过统一培训并通过测试操作考核的言语听觉康复科学专业研究生和本科生担任。正式测试开始前，先给受试者出示3个练习项目，使其熟悉测试形式，在确认受试者理解并掌握了反应方式后，再开始正式施测。如果第一次播放指导语后10秒内儿童未做出反应，可再播放一次指导语。如果儿童在相同时间内仍未做出反应，则视为无反应。正常儿童完成整个测试需时约15分钟。回答正确计1分，错误计0分，

1.3.1初始词表的项目分析使用SPSS 23.0软件对初始词表的项目做主成分分析，检验测试词表的单维性。采用Winsteps 4.3.2软件，通过怀特图(Wright map)分析被试能力与项目难度的适切度，采用Rasch模型对数据进行拟合，剔除拟合不良的测试项目，对剩余项目进行项目功能差异(differential item functioning，DIF)分析，剔除存在DIF的题项，最终形成正式词表[14]。

1.3.2正式词表的心理测量学分析分析词语命名正式测试词表的信、效度及诊断准确性等心理测量学属性：①用Winsteps 4.3.2软件分析正式词表的被试及项目的信度和分离度；②间隔一个月后，从298例正常发展儿童中随机抽取41例进行重测，计算两次测试的组内相关系数(intra-class correlation coefficients, ICC)，考察重测信度；③对测试词表得分分别进行不同年龄组之间、正常组与语言障碍组之间的单因素方差分析，检验词表的预测效度；④在379例儿童中随机抽取246例儿童(正常发展儿童206例，语言障碍儿童40例)，同时施测皮博迪图片词汇测验-修订版(Peabody picture vocabulary test-revised, PPVT-R)[15]作为效标测验，考察词语命名测试词表与接受性词汇测验——PPVT-R原始分之间的Pearson相关系数，检验词表的同时效度；⑤以共病语言障碍的特殊儿童为语言障碍组，以正常发展儿童为非语言障碍组，根据词语命名总分的接受者操作特征(receiver operating characteristic, ROC)曲线，分析筛检阳性被试的切截值，并评价词表的诊断效用。

2 结果

2.1项目分析测试词表单维性检验结果显示，第一特征值为23.21，第二特征值为3.60，第一特征值与第二特征值之比为6.44，一般二者之比大于3时，表示测试材料具有单维性，说明该测试词表满足单维性要求。

怀特图能够直观地反映项目难度与受试者能力的分布，以及项目难度与受试者能力之间的适切度。初始测验的怀特图(图2)显示，测试项目与受试者能力总体上均接近正态分布，除少数能力极低的受试者外，测试项目难度涵盖了大多数受试者的能力水平。

图2 词语命名初始词表怀特图分析注:纵轴左侧为受试者分布,每个“#”代表2例受试者,每个“.”代表1例受试者;右侧为项目分布,每一个“X”代表一个题项

通过infit和outfit拟合统计对项目拟合度进行检验。剔除加权残差均方(infit MNSQ)和残差均方(outfit MNSQ)大于1.3或小于0.5的项目，最终保留了52个题项，所有题项的infit MNSQ介于0.76～1.29之间，outfit MNSQ介于0.54～1.27之间，其中，项目3为0.54，项目11为0.60。

对52个项目进行不同性别受试者间的Mantel-Haenszel DIF分析，以总的项目难度作为潜变量的绝对量度定位项目的性别差异[14]，发现除项目35“堵车”的命名性别差异显著外(P<0.05)，即该题项对男生的难度明显高于女生，其余项目难度不存在性别间的显著差异，即具有跨性别群体的不变性。为减少测验项目的性别偏见，剔除该项目后，最终保留51个题项组成词语命名正式测试词表。平均infit MNSQ和outfit MNSQ分别为1.01(SD=0.12)和0.95(SD=.19)，均接近1，表明数据与模型拟合良好。

2.2心理测量学检验正式测验Rasch分析结果显示，项目信度和分离度分别为0.99和11.27；受试者的信度和分离度分别为0.94和3.89；间隔一个月后的重测信度ICC为0.91(95% CI：0.84～0.95,P<0.01)，通常项目信度大于0.8、分离度大于3，表明测试词表整体结构效度良好，ICC大于0.8表明测试词表具有较高的重测信度。

正常组与语言障碍组两组儿童中不同年龄组间以及同年龄组中，两类儿童间词语命名测试词表原始分比较结果见表2，正常组和语言障碍组儿童的得分均随年龄增长而有所提高，正常儿童的各年龄组之间，以及同年龄组正常儿童与语言障碍儿童间词语命名得分差异均十分显著，说明测试词表内容难度梯度合理，能够有效反映不同年龄组正常儿童、同年龄组正常与语言障碍儿童词汇表达能力的差异，具有良好的预测效度。

表2 不同年龄组正常组与语言障碍组儿童测试评分比较(分，

词语命名测试词表与PPVT-R测试原始分相关性极其显著(r=0.82，P<0.01)，表明该测试词表与PPVT-R之间具有较高的同时效度。

以正常组儿童为参照，将所有儿童词语命名的的粗分转换成标准分，语言障碍组儿童诊断的ROC曲线分析结果如图3所示。曲线下面积(area under the ROC curve)AUC=0.93 (95% CI：0.90～0.97)，非常接近1，表明测试词表具有较高的诊断准确性[16]。

按照国际上常用的3种语言障碍诊断切截标准：-1、-1.25和-1.5个标准差[6]，分别计算词语命名测试词表对语言障碍儿童的诊断准确性见表3。

表3 不同切截标准下测试词表的诊断准确性指数

根据测试词表的敏感度、特异度、似然比、Youden指数、Kappa值及诊断效力等指标综合考虑，认为当切截值为所在年龄组-1.5个标准差时，测试词表的敏感度和特异度达到最好的平衡，且诊断效力最高。根据该切截标准，分别再对听障、自闭症和脑瘫三类儿童表达性词汇障碍的诊断准确性作进一步分析，结果显示，听障儿童：敏感度0.83,特异度0.93; 自闭症儿童：敏感度0.93,特异度0.93; 脑瘫儿童：敏感度0.81,特异度0.93,表明该词表对这三类儿童的表达性词汇障碍具有较高的诊断准确性。

图3 词语命各测试词表切截值ROC曲线分析

3 讨论

3.1学前儿童词语命名词表测试的信效度评价词语命名测试词表的项目编制，经过词汇筛选、专家评价、试测等流程以确保所测项目内容适合年龄范围在3岁～5岁11个月的学前儿童，通过对图片筛选和施测人员的培训，使无关因素对词表测试结果的影响最小化，以确保测试词表的内容效度。文中单维性检验结果表明该词表主要测量了儿童表达性词汇能力；怀特图显示测试项目难度分布均匀，中等难度的项目居多，而难度较高和较低的项目相对较少，涵盖了绝大多数受试者的能力水平，说明测试词表具有较高的精度，能够较好地反映受试者的能力。

Infit MNSQ和outfit MNSQ是Rasch模型中最主要的拟合指数，其中infit MNSQ对于项目难度与受试者能力相当的数据敏感，而outfit MNSQ对极端值更敏感。通常认为这两个指数介于0.5～1.5之间时为有效测量，介于0.7～1.3之间时，数据-模型拟合值较理想，正式词表中项目3(0.54)和项目11(0.60)的outfit MNSQ值大于0.5但略低于0.7，按照较严格的标准略呈过度拟合；过度拟合的题项能够提供的受试者相关能力的信息相对较少，即测试效率较低，但对量表的效度影响甚微[14]。此外，怀特图显示与低能力水平相适切的低难度项目数较少，而第3项和第11项均属于难度较低的项目，考虑到本词表应用于特殊儿童的语言能力诊断及干预效果的评估，因此在不影响平均infit MNSQ和outfit MNSQ拟合度的前提下予以保留。

3.2词语命名测试词表切截值及诊断效用评价现有汉语表达性词汇能力标准化测验大多根据经验或国外常用的标准来设定儿童语言障碍鉴别的切截值，例如，将特定的标准分数或百分等级作为诊断语言障碍的切截值，却少有研究对所设定的切截值的诊断准确性进行验证。本研究根据国际上常用的几种语言障碍检出标准，即低于平均值1、1.25和1.5个标准差[6]，以共病语言障碍的特殊儿童为语言障碍受试者，通过ROC曲线对测验切截值的诊断效用加以检验，使切截值的设置更加科学化。

在确定诊断切截值时应综合考量敏感度、特异度等关键指标。既要使语言障碍儿童得到及时的发现和干预(对高敏感度的要求)，又应尽可能减少因误诊给儿童及其家庭带来的精神和经济压力(对高特异度的要求)，因此，需要筛查或诊断工具的敏感度和特异度尽可能达到最好的平衡。Youden指数(敏感度+特异度-1)和诊断效力((真阳性人数+真阴性人数)/(有障碍人数+无障碍人数))都是反映这两者平衡关系的指标，这两个指数越大表示敏感度和特异度指标的综合效用越高。本研究中，当切截值为-1.5个标准差时，Youden指数和诊断效力最大；同时，Kappa值也最大，表明在该点词表分类与效标分类的相关性最高。此外，相比-1和-1.25个标准差，切截值为-1.5个标准差时，阳性似然比(LR+)最高，表明当儿童被诊断为阳性时，其实际为阳性的可能性较高。分别对三类共病语言障碍特殊儿童的诊断准确性的检验也表明，取-1.5个标准差作为诊断切截值时，词表的诊断效用较为理想，能够有效地鉴别该年龄段听障、自闭症和脑瘫儿童的表达性语言障碍。

3.3词语命名测试词表在语言障碍儿童中的应用本研究还发现共病语言障碍的特殊儿童词语命名能力远落后于正常发展儿童，5岁～5岁11个月语言障碍组儿童的测试平均分尚不及3岁～3岁11个月正常儿童组的平均得分，且表现出较大的个体差异(标准差较大)，这可能与其原发疾病造成的认知功能损伤的严重程度不同有关。但语言障碍组儿童总体上仍表现出与正常儿童同样的发展趋势，即随着年龄的增长，词语命名能力有所提高。因此，对于一些语言年龄介于3岁～5岁11个月，但生理年龄超出该范围的语言障碍儿童可以参考测试词表的年龄当量，即某一年龄组正常儿童的平均成绩来估计出该儿童大致的词汇表达能力所处的年龄水平。

本研究结果虽然显示学前儿童词语命名测试词表具有良好的信度和效度，但一种成熟的语言能力测试词表，其信效度参数需要在应用和研究中不断加以验证和完善。本研究中的语言障碍组儿童仅包括听障、自闭症和脑瘫儿童，因此，目前该测试词表对语言障碍的诊断准确性仅适用于上述类型的儿童，而对于其他类型语言障碍儿童，如：特定性语言障碍儿童、智力障碍儿童的诊断有效性尚有待进一步验证。此外，本研究中的受试者仅限华东地区，可以作为该地区语言年龄在3岁～5岁11个月儿童表达性词汇能力的评估工具，而对于在其他地区儿童中应用的有效性仍需做进一步验证。