APP下载

项目功能差异检验及其对学前教育质量评价的价值

2023-10-12王欣怡陈德枝

幼儿教育·教育科学版 2023年9期
关键词:公平性

王欣怡 陈德枝

【摘要】学前教育质量评价工具的公平性是保证评价科学化的前提,项目功能差异检验是验证工具公平性的重要方法,但其在学前教育质量评价领域的应用存在诸多问题有待探究。本文梳理了项目功能差异检验的基本概念、应用和方法,阐明其是学前教育质量评价公平性和误差分析的主要表征和内容,同时从检验方法、检验变量和成因分析等方面,对学前教育质量评价的项目功能差异研究提出展望。

【关键词】学前教育质量评价;项目功能差异;公平性

【中图分类号】G610 【文献标识码】A   【文章编号】1004-4604(2023)09-0024-06

学前教育质量评价是指在系统、科学和全面地收集、整理、研究分析学前教育信息的基礎上,对学前教育价值做出判断的过程。中共中央 国务院出台《深化新时代教育评价改革总体方案》后,教育评价研究进入了新时期。学前教育质量评价通常需要质量评价工具为其提供支持,公平的评价工具是保障评价结果科学性的前提。我国目前缺少关于学前教育质量评价公平性的相关研究,但其重要性不容忽视。当前,项目功能差异(Differential Item Functioning,DIF)检验作为一种验证测量公平性的重要统计方法,可以避免因评价项目本身存在的偏差影响评价的公平性。因此,本文从项目功能差异检验的基本内涵、应用和方法来探讨其对学前教育质量评价的价值,为保障学前教育质量评价的公平性提供测量学方法,推动学前教育高质量发展。

一、项目功能差异检验的基本内涵与应用

(一)项目功能差异检验简介

项目功能差异是指在控制群体水平后,同一个项目在不同群体中显示的不同统计特性。〔1〕具体而言,项目功能差异检验首先依据评价对象特征(如性别、地域、种族等)将评价群体分成目标组和参照组。一般把可能受到不公平对待的群体叫作目标组(Focus Group),而与之相对的群体叫作参照组(Reference Group)。然后,判断目标组和参照组中被评价对象的水平是否相同。评价对象的水平(匹配变量)可以是观察分数,即评价总得分或总等级,也可以是项目反应理论的潜在水平值θ(由项目反应模型所得)。最后,在控制评价群体水平的情况下,采用合适的项目功能差异检验方法检验不同被评价群体在同一项目上的评价分数或等级是否存在差异。若存在,则说明该项目在不同群体中显示不同统计特性,即存在项目功能差异。

项目功能差异的种类主要有一致性项目功能差异(Uniform DIF)和非一致性项目功能差异(Nonuniform DIF)。一致性项目功能差异指评价对象的水平和组别没有交互作用。例如不管在任何班级质量得分水平上,城市幼儿园在项目A上的评价等级永远高于农村幼儿园,则代表存在一致性项目功能差异。非一致性项目功能差异是指二者存在交互作用,如在班级质量得分较高水平上,城市幼儿园在项目B上的评价等级高于农村幼儿园,在班级质量得分较低水平上,农村幼儿园在项目B上的评价等级却高于城市幼儿园,这说明项目B存在非一致性项目功能差异。

(二)项目功能差异检验的应用

项目功能差异检验在国内被应用于医学、心理学、教育学等领域,主要是对这些领域的自陈式测验或量表的题目或项目进行公平性检验。如在医学和心理学领域,检验量表项目在性别、受教育程度、跨文化上是否存在项目功能差异。〔2-4〕在教育学领域,相关研究多集中在数学和英语学科中,如检验高考数学、高考英语题目在性别、城乡上的项目功能差异。〔5,6〕除了以上常见的检验变量外,一些研究者还从试卷语言角度对测验公平性进行研究,结果发现语言也会导致项目功能差异。〔7,8〕综合来看,相较于二级计分的项目,目前国内多级计分项目的研究数量较少。但是,主观性评价的项目通常是多级计分。这类项目容易受到文化、环境等因素影响,更容易出现项目功能差异。〔9〕

在国外,项目功能差异检验被广泛用于大型的国际化教育评估,如国际学生评估项目(PISA)和课程评估等。〔10-12〕在学前教育领域,项目功能差异检验常用于儿童发展评估,如对儿童数学和语言等认知发展量表进行检验。〔13,14〕此外,还有研究探究在主观性评价中如何选择匹配变量的问题,如韦尔奇(Welch)等人的研究结果建议在主观性评价中使用内部匹配变量(当前测评分数),〔15〕但也有研究建议在主观性评价中使用外部匹配变量(其他相关测试上的分数)。〔16〕

综上,相较于自陈式量表,主观性评价中有关项目功能差异的研究数量仍显单薄,尤其是在学前教育质量评价领域。目前还存在许多有待探讨的问题,如匹配变量的选择等。

二、项目功能差异检验方法

(一)项目功能差异检验方法概述

项目功能差异检验依据不同的分类角度,常用的方法如表1所示。〔17〕其中,多级计分方法大多是在二级计分方法的基础上衍生出来的。需要特别注意的是,以观察分数为匹配变量的方法既有参数形式,也有非参数形式,以潜在水平值θ为匹配变量的方法亦然。

(二)项目功能差异检验方法的应用步骤

目前,项目功能差异检验在学前教育领域的应用多集中在儿童发展评估,尤其是儿童发展量表的项目功能差异分析,已有研究在性别〔18〕、母亲受教育水平、跨文化、语言〔19〕、残疾和非残疾〔20〕等方面对儿童发展量表的公平性进行检验。通常检验总过程如图1所示。其中最典型的应用是雷斯特雷波(Restrepo)等人的研究。该研究的目的是检验皮博迪图片词汇测试第三版(PPVTⅢ)是否存在跨文化项目功能差异。〔21〕第一步,研究确定以不同文化背景为分组变量;第二步,以非裔美国儿童为目标组,欧裔美国儿童为参照组;第三步,将基于项目反应理论模型估计的项目难度值作为匹配变量;第四步,通过t检验比较项目难度值,检验项目功能差异;第五步,当检验结果小于显著性水平0.05时,代表存在显著的项目功能差异。结果显示,共有10个项目存在项目功能差异,其中有3个项目偏向欧裔美国儿童,7个项目偏向非裔美国儿童。通过这种科学、有效的方法,可以检验出评估量表中每一个可能对不同群体的儿童存在不公平的项目,尽可能确保所有项目都是公平的。

三、项目功能差异检验对学前教育质量评价的价值和展望

(一) 对学前教育质量评价的价值

1.项目功能差异是学前教育质量评价公平性的主要表征

学前教育质量评价工具的公平性是学前教育质量评价领域中受到广泛关注的重要问题之一,直接关乎评价的公平与科学。如果评价项目存在公平性问题,那么评价结果的解释、使用及其应用都将是不合理的,从而限制研究结论的科学性和可推广性。《教育和心理测试标准》中提到,最重要、最基本的问题就是要求评价对所有被试应是公平的,尽可能地让被试不受阻碍地有机会展示其在所评价内容上的实际水平。〔22〕然而,在评价工具编制和评价实施的过程中,难免会遇到一些与被评价目的无关的因素,这些因素可能会使某些群体处于不适当的优势或劣势。如有研究发现,公办园和民办园所能获得同等资源的机会是不一样的。这两类幼儿园在每个评价指标上是否有同等机会表现出自身真实的教育质量水平是一个值得关注的问题,可以对学前教育质量评价项目或指标进行项目功能差异检验,从评价工具的测量公平性属性方面来表征其公平性。

2.项目功能差异是学前教育质量评价误差分析的重要内容

减少或控制偏差是保证评价效度的必要条件,在评价工具开发和使用的各个阶段都需注意这一问题。有时我们并不清楚组间差异是否存在及其存在的原因,如不同幼儿园群体的评价结果存在显著差异,到底是幼儿园群体间教育质量水平的真实差异,还是某些偏倚来源(如与评价目的无关的偏见或评价内容代表性不足)造成的。在大多数情况下,通常可能是真实差异和偏见的组合。另外,学前教育质量评价是一种主观性评价行为,在实践中容易受评价者因素影响,对评价者的专业能力以及时间投入等方面都提出了较高的要求。有时评价者与评价对象的互动可能会造成与评价目的无关的评价误差。例如,幼儿园或班级的特点和评价者的评分宽严度间的交互作用可能会影响评价结果。项目功能差异检验可以对存在偏差的评价项目、指标等进行筛选,为后续修订提供佐证,尽可能减少评价的系统误差。

总的来说,项目功能差异检验可以为学前教育质量评价工具的开发和修订提供一种新视角和新方法,同时为学前教育质量评价的可信性、有效性和权威性等提供现代测量学依据,是提高学前教育质量评价科学性的重要手段。

(二)展望

1.展望一:学前教育质量评价项目功能差异概念的拓展

从概念上来看,目前传统自陈式量表中的项目功能差异概念研究趋于成熟,但是在学前教育质量评价领域尚未形成具体明确的项目功能差异概念,因而导致项目功能差异检验在学前教育质量评价中未产生实际广泛的应用。在学前教育质量评价中,项目功能差异可以指两组质量水平相同的幼儿园或班级,在某一评价项目上的评价等级或得分存在显著差异。需要注意的是,学前教育质量评价是一种较典型的主观性评价,由评价者进入评价现场,依据被评价对象的现场表现或现场状态进行评价。在主观性评价中,传统意义上的项目功能差异还扩展到评价者功能差异(Differential Rater Functioning)。评价者功能差异是指在控制了潜在变量上的被试和评价者位置后,评价者在与评价目的无关的被试群组之间表现出系统性严重差异的倾向。〔23〕目前,主观性評价中的项目功能差异、评价者功能差异概念的相关研究远不及传统的项目功能差异概念研究。未来研究可结合学前教育质量评价的特点,进一步厘清学前教育质量评价中的项目功能差异、评价者功能差异的概念,为后续检验奠定基础。

2.展望二:学前教育质量评价项目功能差异检验方法的拓展

在学前教育质量评价这种主观性评价中,选择一个可靠的内部匹配变量是项目功能差异检验的一个关键问题。传统自陈式量表的项目功能差异检验通常直接采用测验原始总分或是基于项目反应理论模型的潜在水平值θ作为匹配变量。而学前教育质量评价结果还包含评价者误差,直接采用以上方法显然是不合适的。其次,学前教育质量评价工具通常采用多级评分,如《走向优质——中国幼儿园教育质量评价标准》中的子项目采用七级计分。但目前能同时解决内部可靠的匹配变量和应对多级连续性数据的项目功能差异方法少之又少。未来研究可结合学前教育质量评价工具的评分特点,探究适宜学前教育质量评价的项目功能差异检验方法。针对评价者功能差异,目前最常用的就是基于评价者宽严度和被试群组之间交互检验的方法,如多面拉希(Rasch)建模方法;〔24,25〕或者通过双样本假设检验,如莱特(Wright)和斯通(Stone)t检验。〔26〕在最新研究中,温德(Wind)等人提出用子组间拟合指数的方法来检测评价者功能差异。〔27〕未来研究可基于真实的学前教育质量评价数据或模拟数据,对已有的评价者功能差异方法研究结论进行验证。

3.展望三:学前教育质量评价项目功能差异检验变量的拓展

我国幅员辽阔,学前教育质量在地域上发展不均衡。〔28〕即使在同一地域,学前教育质量在城乡、办园体制上也存在显著差异。〔29,30〕如果实行统一的评价,很可能存在一些因素影响评价的公平性和有效性。例如,农村幼儿园的教育质量评价等级总体上是略低于城市的,那么除了教育质量存在的真实差异之外,还需考虑是否有些评价项目利于城市幼儿园而不利于农村幼儿园,即在统计学意义上是否存在城乡项目功能差异。因此,未来研究可考虑从影响学前教育质量的变量(如地域、城乡、园所性质、师幼比、教师学历、教师教龄等)上检验是否存在项目功能差异。另外,学前教育质量评价中评价者的性别、个性特征、专业态度、专业背景等因素可能导致评价者功能差异。从这些变量入手检验项目功能差异和评价者功能差异,对提高学前教育的公平性和促进学前教育高质量发展都有重要意义。

4.展望四:学前教育质量评价项目功能差异成因分析的拓展

当学前教育质量评价工具中存在含有项目功能差异的项目或指标时,有必要展开项目功能差异成因分析,为质量评价工具的编制和修订提供有用的建议。导致项目功能差异的因素较多,如可能与样本、被试以及项目描述等有关。项目功能差异成因的复杂性为其分析带来不小的挑战,目前有仅凭对项目的主观理解或个体的测试结果得出项目功能差异成因;〔31,32〕也有基于统计分析结果,再组织专家进一步分析测评内容,探讨项目功能差异成因。〔33〕未来要更科学、严谨地探索学前教育质量评价的项目功能差异成因,可尝试从以下方面努力。一方面,多角度、全方位地分析可能造成评价项目存在项目功能差异的原因,对不同类型的幼儿园或班级在各方面的状况和特点有更详细的认识。另一方面,结合专家讨论提出最重要、最有可能的项目功能差异原因假设进行检验,并加以逻辑论证,发现质量评价存在的问题,这是未来讨论学前教育质量评价项目功能差异成因分析的主要方向。

参考文献:

〔1〕曾秀芹,孟庆茂.项目功能差异及其检测方法 〔J〕.心理科学进展,1999(2):41-47.

〔2〕黄洁铭,刘步平,邝洁宜,等.维克森林医师信任量表中文版项目功能差异分析〔J〕.现代医院,2022(2):193-195.

〔3〕陈维,杨涛,高荣芬,等.Connor-Davidson心理韧性量表简版在大学生中的信效度检验和跨性别等值性 〔J〕.西南师范大学学报(自然科学版),2021,46(11):38-45.

〔4〕刘文,边玉芳,陈玲丽,等.马洛-克罗恩社会赞许性量表在跨文化研究中的项目功能差异检验 〔J〕.心理科学,2010,33(6):1473-1476.

〔5〕李付鹏,宋吉祥,杜海燕,等.基于Rasch模型的高考数学性别DIF检验 〔J〕.中国考试,2019(3):43-47.

〔6〕关丹丹,乔辉,陈康,等.全国高考英语试题的城乡项目功能差异分析 〔J〕.心理学探新,2019,39(1):64-69.

〔7〕任玉丹.双语教育背景下的少数民族学生数学学业测验公平性分析 〔J〕.数学教育学报,2019,28(5):92-97.

〔8〕刘舒畅,黄晓婷.PISA2015合作问题解决能力测试的跨语言公平性分析 〔J〕.中国考试,2019(2):41-47.

〔9〕张龙,涂冬波.多级计分题项目功能差异常用检测方法及比较 〔J〕.江西师范大学学报(自然科学版),2015,39(5):441-448.

〔10〕CHEEMA J R.Cross-country gender DIF in PISA science literacy items 〔J〕.European Journal of Developmental Psychology,2019,16(2):152-166.

〔11〕ARIKAN S,VIJVER F,YAGMUR K.Propensity score matching helps to understand sources of DIF and mathematics performance differences of Indonesian,Turkish,Australian,and Dutch students in PISA〔J〕.International Journal of Research in Education and Science,2018(4):69-81.

〔12〕GERSHON K,RUIPEREZ-VALIENTE J A,ALEXANDRON G.Defining and measuring completion and assessment biases with respect to English language and development status:Not all MOOCs are equal 〔J〕.International Journal of Educational Technology in Higher Education,2021,

18(1):1-21.

〔13〕〔18〕MALASPINA M,ARIAS B.Calibrating the measurement of informal mathematics in Peruvian preschool children〔C〕//LLINARS F S,GUTI?魪RREZ A,PLANAS N.Proceedings of the 45th Conference of the International Group for the Psychology of Mathematics Education.Alicante:PME,2022:257

〔14〕〔21〕RESTREPO M A,SCHWANENFLUGEL P J,BLAKE J,et al.Performance on the PPVT-III and the EVT:Applicability of the measures with African American and European American preschool children 〔J〕.The Quarterly language,Speech,and Hearing Services in Schools,2006,37(1):17-27.

〔15〕WELCH C J,MILLER T R.Assessing differential item functioning in direct writing assessments:Problems and an example 〔J〕.Journal of Educational Measurement,1995,32(2):163-178.

〔16〕CHEN M Y, LAM W, ZUMBO B D.Testing for differential item functioning with no internal matching variable and continuous item ratings〔C〕// International Language Testing Association.Langueage,constructs,contexts,and context in classroom and large-scale assessments.Palermo:Cambridge University Press,2016:127-128.

〔17〕朱乙藝,韦小满.我国成就测验的项目功能差异研究述评 〔J〕.教育与考试,2012(1):78-81.

〔19〕GOODRICH J M,LONIGAN C J,ALFONSO S V.Measurement of early literacy skills among monolingual English-speaking and Spanish-speaking language-minority children:A differential item functioning analysis 〔J〕.Early Childhood Research Quarterly,2019(47):99-110.

〔20〕CHIEN C W,BROWN T,MCDONALD R.Rasch analysis of the assessment of children’s hand skills in children with and without disabilities 〔J〕.Research in Developmental Disabilities,2011,32(1):253-261.

〔22〕ASSOCIATION A E R.Standards for educational and psychological testing〔M〕.Santiago:American Educational Research Association,2014:49-51.

〔23〕ENGELHARD G.Differential rater functioning 〔J〕.Rasch Measurement Transactions,2008(3):1124.

〔24〕ECKES T.Introduction to many-facet Rasch measurement 〔M〕.Frankfurt am Main:Peter Lang,2011:1-4.

〔25〕WINKE P,GASS S,MYFORD C.Raters’ L2 background as a potential source of bias in rating oral performance 〔J〕.Language Testing,2013(2):231-252.

〔26〕WRIGHT B D,STONE M H.Best test design〔M〕.Chicago,IL:MESA Press,1979:28-205.

〔27〕WIND S A,SEBOK-SYER S S.Examining differential rater functioning using a between-subgroup outfit approach〔J〕.Journal of Educational Measurement,2019,56(2):217-250.

〔28〕崔方方,洪秀敏.我国学前教育发展区域不均衡:现状、原因与建议〔J〕.教育发展研究,2010,30(24):20-24.

〔29〕刘占兰,高丙成.中国学前教育综合发展水平研究 〔J〕.教育研究,2013,34(4):30-37.

〔30〕罗妹,李克建.基于全国428个班级样本的学前教育质量城乡差距透视〔J〕.学前教育研究,2017(6):13-20.

〔31〕黄春霞.第二语言学习者专业背景对HSK阅读成绩影响的项目功能差异检验〔J〕.考试研究,2011,7(5):59-66.

〔32〕曹亦薇,张厚粲.汉语词汇测验中的项目功能差异初探〔J〕.心理学报,1999(4):460-467.

〔33〕张颖,赵世明.医师资格考试中的项目功能差异研究〔J〕.中国考试,2004(10):23-26.

Differential Item Functioning

and Its Value in Evaluating the Quality of Preschool Education

Wang Xinyi, Chen Dezhi

(College of Child Development and Education, Zhejiang Normal University, Hangzhou, Zhejiang, 311231)

【Abstract】The fairness of evaluation tools for preschool education quality is essential for conducting scientific evaluation, and differential item functioning is an important method for verifying tool fairness. However, there are many issues to be addressed in the application of preschool education quality evaluation. This article summarizes the fundamental concepts, applications, and methods of differential item functioning, and emphasizes that it is the primary representation and content of fairness and error analysis in preschool education quality evaluation. Additionally, this article proposes prospects for the study of differential item functioning in the evaluation of preschool education quality from the perspectives of testing methods, testing variables, and factor analysis.

【Keywords】preschool education quality evaluation; differential item functioning; fairness

*本文為浙江省哲学社会科学规划重点课题“基于认知诊断的幼儿教师隐性知识的情景判断性测验研究”的研究成果之一,课题编号:20NDJC07Z。

**通信作者:陈德枝,浙江师范大学儿童发展与教育学院副教授,电子邮箱:cdezhi@zjun.cn

猜你喜欢

公平性
高管薪酬外部公平性、机构投资者与并购溢价
核心素养视阈下中小学课堂评价的公平性研究
一种提高TCP与UDP数据流公平性的拥塞控制机制
云环境下能耗感知的公平性提升资源调度策略
城市公园社会服务空间公平性的定量分析——以上海市中心城区为例
公平性问题例谈
关于公平性的思考
Resource allocation based on fairness and QoS provisioning for OFDMA-WLAN system
基于普查数据的我国18个少数民族受教育程度及公平性统计分析
面向多路径并行传输的拥塞控制及公平性