APP下载

深度解读学前教育质量评价的信度、效度和公平性

2024-02-19陈德枝

幼儿教育·教育科学版 2024年2期
关键词:公平性效度信度

【摘要】信度、效度和公平性是学前教育质量评价的三个基本测量学属性。本文基于《教育与心理测量标准》中信度、效度和公平性的基本内涵,结合学前教育质量评价的基本特点,阐述学前教育质量评价的信度、效度和公平性以及三者间的相互关系,并针对当前学前教育质量评价测量学属性研究进展,进一步指出未来信度、效度和公平性探索的主要方向和方法。

【关键词】学前教育质量评价;信度;效度;公平性

【中图分类号】G610 【文献标识码】A   【文章编号】1004-4604(2024)1/2-0063-06

学前教育质量评价是学前教育事业改革和发展的重要议题。 信度(Reliability)、效度(Valiability)和公平性(Fairness)作为学前教育质量评价的基本测量学属性,是评价科学性和权威性的重要基础和基本保障。本文基于2014年美国教育研究学会、美国心理学会和美国国家教育测量委员会颁布的《教育与心理测量标准》中对信度、效度和公平性的界定,探索学前教育质量评价的基本测量学属性,旨在为幼儿园保育教育质量细则的构建、学前教育质量评价方法和过程的规范以及幼儿园保育教育质量的提升提供方向指引。

一、学前教育质量评价的信度及研究进展

1.学前教育质量评价的信度

信度指重复测试结果的一致性。〔1〕学前教育质量评价的信度指评价者采用相同的标准对幼儿园进行重复评价,以使结果趋于一致或稳定。基于学前教育质量评价目前采用的评价方法,信度的影响因素主要来自评价内容和评价者。学前教育质量评价通常围绕评价量表或标准展开,因此评价量表或标准的可信性也是质量评价信度的影响因素之一。另外,学前教育质量评价多采用评价者现场测评的方式。虽然对评价者进行了统一、严格的测评培训,但由评价者主观评价引起的误差依然是影响测评结果准确性的重要因素。〔2-5〕

2.学前教育质量评价信度的研究进展

短时间内有规模地组织评价者对幼儿园进行重复测评具有一定难度。当前有关保教质量评价的信度估计主要采用经典测量理论信度系数估计的常见方法,如内部一致性α系数、概化系数、评分者一致性百分比等。几种常见的国内外保教质量评价工具,如中国托幼机构教育质量评价量表(C⁃ECERS)、〔6〕中国幼儿园教育质量评价量表、〔7〕幼儿园教育质量评价手册、〔8〕走向优质——中国幼儿园教育质量评价标准、〔9〕幼儿学习环境评量表(Early Childhood Environmental Rating Scale)系列、〔10,11〕课堂评估评分系统(CLassroom Assessment Scoring System)、〔12,13〕照料者参与性评量表(Caregiver Involvement Scale)、〔14〕幼儿园教育质量评估(Presc⁃

hool Program Quality Assessment)〔15〕以及持续共享思维和情绪情感健康评量表(Sustained Shared Thinking and Emotional Wellbeing scale)〔16〕等均采用α系数表征量表評价内容的一致性。中国托幼机构教育质量评价量表还采用概化系数分析量表内容的信度。〔17〕评分者一致性百分比或评分者相关系数是学前教育质量评价报告中评价者一致性的常用统计量,如中国托幼机构教育质量评价量表、幼儿学习环境评量表系列和课堂评估评分系统等均采用该方法估计评分者一致性等。〔18-21〕另外,近年来项目反应理论(IRT)也逐步被用于质量评价信度分析,如多侧面拉希模型(MFRM)方法多被用于中国托幼机构教育质量评价量表的评价者信度等。〔22〕

二、学前教育质量评价的效度及研究进展

1.学前教育质量评价的效度

效度指测评结果被实证和理论支持所解释的程度。〔23〕学前教育质量评价的效度是指评价结果被来自幼儿园保教质量的实证和理论支持所解释的程度。具体而言,学前教育质量评价的效度通常围绕学前教育质量评价内容及内在结构、评价过程、评价结果与其他变量的关系、评价结果的解释和应用五个方面展开。而在实践中则围绕内容效度、反应过程效度、结构效度和校标关联效度四个方面展开。

内容效度以评价项目或指标的表述、呈现形式、管理和评分规则等为取证来源,并以专家判断为依据。反应过程效度的取证主要来自评价者的评分过程与测评结果预期解释的一致性程度。结构效度指评价内容的内在结构与预先假设的结构是否一致,通常采用实证研究来探索和验证结构效度。校标关联效度常把儿童发展水平作为与其他变量的关系取证。已有研究一般采用儿童语言、数学和情感社会性发展水平为其他变量,探讨质量与这些发展变量的关系来佐证质量评价的有效性。〔24-29〕

2.学前教育质量评价效度的研究进展

一直以来作为学前教育质量评价效度研究的关注点,结构效度通常采用探索性因素(EFA)和验证性因素(CFA)分析学前教育质量评价工具的潜在内部结构。如探索性因素和验证性因素的分析结果表明,幼儿学习环境评量表主要评价两个潜在因子:结构性质量和过程性质量。〔30〕由于评价量表和样本量的不同以及探索性因素方法本身的限制,研究所得结论可能有所不同。有研究结果显示幼儿园保教质量由儿童课程和活动的结构与支持、教职人员与幼儿间的互动及对教师专业成长和家长需求的支持三个潜在结构组成。〔31〕

来自与其他变量关系的效度取证研究也是学前教育质量评价效度研究的热点。受儿童情感社会性测量等所限,当前效度取证的其他变量更多采用的是儿童语言和数学认知发展,并通过求取这些变量与质量评价结果的关系来探讨效度。采用的分析方法由简单的二元相关到复杂的回归分析,如多水平回归模型等。〔32,33〕近年来,幼儿园保教质量的纵向追踪和增值评价已成为学前教育质量评价效度研究的一大趋势。〔34-36〕

内容效度主要用于统计和分析专家评判结果的一致性。另外,已有文献中仅有少量研究对过程效度进行了初步探讨。这些研究主要采用项目反应理论的等级反应模型(Grade Response Model)、一般分步评分模型(Generalized Partial Rating Model)等多级计分方法探讨照料者参与性评量表和幼儿学习环境评量表的过程效度。〔37-39〕过程效度之所以被忽略,一方面可能是因为过程效度的分析方法还不够简便和大众化;另一方面则是因为过程效度概念本身还未引起足够的重视。

在评价结果解释和应用的有效性方面,美国的质量评价和提升系统(Quality Rating and Imp⁃

roving System)不仅涉及不同的评价工具,同时还对来自不同地区和不同文化背景的幼儿园进行评价和比较,为学前教育政策制定和质量提升提供参考。〔40〕国内也有对来自全国各地区各类不同样态的幼儿园进行学前教育质量和幼儿园课程质量的比较工作。〔41-43〕以上都是对测评结果解释和应用的宏观关注,具体针对某所幼儿园或某个班级质量评价结果的诊断性解释以及用于改进和提升保育教育质量的应用,还有待实践的深入探索。

三、学前教育质量评价的公平性及研究进展

1.学前教育质量评价的公平性

公平性指测试对所有预测个体具有相同的结构和意义。〔44〕学前教育质量评价的公平性是指评价的结构和意义不会随着参评幼儿园的类型或所在地等的不同而发生变化。即无论是具有不同的类型特征还是来自不同的群组,最终都有相同的质量评价结构和意义。基于测量标准对公平性的界定,学前教育质量评价的公平性主要包含以下四个方面:评价过程的公平性;没有评价偏差;评价结构的公平性;评价结果解释的有效性。

具体而言,评价过程的公平性指在评价内容的设计、开发和管理,乃至评价流程和赋分规则等方面,都要最大限度地减少对测评结果解释有效性的影响。因此,在学前教育质量评价标准的开发和应用中,要明确说明评价结果的有效性解释,并界定参评幼儿园的个体和群体特征,如幼儿园规模、幼儿园办园性质和幼儿园所在地(城镇和乡村)等,以减少这些特征和群組变量对评价公平性的影响。公平性意味着没有测评偏差,是学前教育质量评价结果有效性解释的基本保障。然而,实践中无法完全消除测评偏差,通常是将偏差大小界定在可接受的范围内。学前教育质量评价测评内容的潜在结构主要包含结构性和过程性质量。〔45〕评价结构的公平性指确保该结构对所有参评幼儿园是相同的。公平性还包含测评结果解释的有效性。为保障学前教育质量评价的公平性,评价开发人员和研究者还需收集和提供支持评价公平性的相关依据,并根据评价本身的局限性明确表达评价结果的预期解释和用途。由于评价项目或指标编制的有限性以及评价方法和流程本身的局限性等,评价的公平性会因此受到影响。如学前教育质量评价通常采用观察法,评价结果中往往都存在评价者的主观性,因而对评价结果的解释和应用都需综合且慎重考虑这些因素。可见,测评结果解释的有效性主要强调对测评工具、人员和过程等进行基本的公平性支持,以保障效度探讨中提及的测评结果解释和应用的有效性。

2.学前教育质量评价公平性的研究进展

学前教育质量评价的公平性目前还未引起广泛关注,相应的研究探索也未真正起步。尽管如此,研究者在编制和开发评价内容时,对测评内容的界定和应用范畴的考量以及说明均关注了评价过程的公平性。如各量表手册的操作说明等都附有详细的指标解读或赋分说明,有些还标注了不适用的指标或项目等。〔46,47〕另外,在有关测评结构的公平性方面,有研究针对不同类型幼儿园(如城市和乡村幼儿园)的测评潜在结构进行了讨论。与已有研究结果一致,不同类型的学前教育质量评价具有相同的潜在结构。〔48〕在测评结果解释的有效性方面,如美国的质量评价和提升系统在两个不同的州展开质量测评,在测评标准和流程、参与者和政策决策者等方面提出测评建议,即提供测评公平性的信息依据和支持,以最终保障测评结果解释的有效性。〔49〕而在有关测评偏差的公平性上,已有文献还鲜有报告。这不仅表明学前教育质量评价的公平性还有大量空白有待探索,也从另一角度说明学前教育质量评价的科学性还需公平性方面的补充和巩固。

四、学前教育质量评价三个测量学属性间的相互关系

信度、效度和公平性三个测量学属性间存在相互制约、相辅相成的关系。首先,良好的信度是评价有效性的前提。学前教育质量评价的信度包含评价内容的可信性和评价过程的可信性。评价过程的可信性主要指由评价者的主观评价造成的评价误差。因而,减少评价误差和提高评价者信度是提高学前教育质量评价信度和效度的重要举措。反过来,学前教育质量评价的效度也会影响其信度,评价效度高意味着评价结果信度越高。

其次,学前教育质量评价的效度是公平性的重要前提,同时公平性又是评价效度的重要体现。学前教育质量评价的效度不仅指评价内容、评价过程和其他变量关系的有效性,还包含评价结构和评价结果解释的有效性等。而测评同结构性和评价结果解释的有效性也是评价公平性的重要内涵。因此,学前教育质量评价的效度与公平性相辅相成,相互影响。

最后,信度和公平性之间也会互相影响。一方面,学前教育质量评价的信度是测评同结构性和评价结果解释有效性的重要前提。评价的信度低将直接影响评价结构和评价结果解释的有效性。与此同时,信度也是减少测评偏差的重要基础。随着评价内容和评价者信度的提高或评价误差的减少,质量评价的公平性会有所增强。另一方面,学前教育质量评价的公平性也会影响其信度。公平性高意味着评价内容、评价过程和评价技术等的可信性和有效性高,测评偏差比较小,间接表明测评信度高(见图1)。

只有同时提高信度、效度和公平性才能真正保障保教质量评价的科学性和权威性,才能为学前教育质量提升提供坚实的测量学依据。

五、学前教育质量评价测量学属性的研究展望

1.学前教育质量评价信度的研究展望

信度的估计通常采用内部一致性系数或概化系数,由于这两种分析和估计信度的方法都基于经典测量理论(CTT),所以存在着信度估计值随着样本量而发生变化的问题。而这会给评价工具或标准的使用带来不小的挑战。首先,每次使用都要估计信度大小,尤其是当样本量不够大或针对单所幼儿园评价时,基于经典测量理论的方法就显得十分有限。其次,内部一致性系数或概化系数都基于总量表或其中的子量表,无法估计某个具体的评价项目或指标的可信性,难以为评价项目或标准的修订和规范提供详细的信度信息。学前教育质量评价中评价者信度受到越来越多的关注,如评价者一致性百分比或评价结果的相关系数常常用于报告评价者间的一致性。严格来说,这些方法都无法准确评估评价者信度,只能统计评价者间的一致性,而评价者间的一致性和评价者信度是两个完全不同的概念。

近年来,项目反应理论在学前教育质量评价属性分析中的应用逐渐增多。这不仅为某个具体项目或指标的信度估计提供了可实现的方法和技术,也为估计评价者信度提供了相应的方法和技术。但是,已有研究主要是用参数方法进行分析,并且都需要建立在很强的数学假设前提下。不同于参数方法需要建立于强假设,非参数方法假设弱,且适合于小样本等情况,用于分析学前教育质量评价的信度或是将来更合适的选择。

2.学前教育质量评价效度的研究展望

内容效度、结构效度和实证效度以及与其他变量的关系等是目前学前教育质量评价效度研究的主要内容。未来可以考虑不同领域或方向的研究者对内容效度的理解与思考,为内容效度的取证提供更充实的测量学依据。

在讨论学前教育质量评价的内在结构效度时,已有研究常常采用探索性因素法(EFA)和验证性因素法(CFA)。与信度估计方法相同,这些方法都是基于经典测量理论。因而,同样存在着依赖随机抽样和无法适应样本量小的实际应用情景问题。另外,探索性因素法方法在公因子抽取个数和命名中存在一定的主观色彩,也是学前教育质量评价的内在结构目前还存在其他观点的主要原因。未来在探索内在结构方面可以尝试其他方法,如探索性因素法和项目反应理论相结合的全息项目因素分析(FIFA)。更重要的是未来需结合中国文化背景和中国幼儿园保育教育特点,构建具有中国文化特色的学前教育质量内在结构。

与其他变量的关系是学前教育质量评价效度研究的重点。如前文所述,已有的大量讨论均集中在保育教育质量与儿童发展,如语言、数学和情感社会性等方面的关系。依据儿童发展的生态观,未来在讨论时可适当兼顾其他变量,如家庭结构、家庭经济收入以及社区环境等对儿童发展的影响。与此同时,还需关注到学前教育质量对儿童发展的长期影响和效应,即追踪探索。另外,在方法上基于项目反应理论展开学前教育质量和儿童发展的长期追踪与监测或是未来的一大趋势。

学前教育质量评价的效度研究虽然有大量的实证支持,但这些取证主要来自内容效度和结构效度,而在评价过程和结果解释的有效性上仍存在大量空白。未来,评价过程的有效性,尤其是评价者的有效性或许是学前教育质量评价测量学属性研究的重点之一。这将为学前教育质量评价评委库的建立和培训等提供测量学属性参考。对评价结果的有效解释和应用通常是学前教育质量评价容易被忽略的环节。因此,如何通过解释评价结果促进学前教育质量不断改进和提升,是效度研究即将面临的一大挑战。

3.学前教育质量评价公平性的研究展望

纵观已有文献,学前教育质量评价的公平性探索刚刚起步。未来一段时间内,基于测量学视角探讨公平性将是学前教育质量评价测量学属性研究的重要内容。这些研究将会聚焦于以下几个方面。首先是基于测量学的学前教育质量评价公平性的界定,包括对评价内容、评价方法、评价过程和结果等的公平性界定。其次是衡量公平性大小的分析方法。目前,已有分析方法主要围绕评价项目或指标、评价量表和评价者三个不同方面对测评偏差进行分析。例如,项目功能差异(Different Item Function)检验方法针对测评项目的功能性差异进行检验,而测验功能性差异(Different Testing Function)和评价者功能性差异(Different Rater Function)则针对量表和评价者的公平性进行检验。未来,这些不同角度的分析方法将是探讨学前教育質量评价公平性的基本思路和技术。再次,测评内在结构对所有测评对象的同一性不仅是学前教育质量评价效度研究的主要内容,也是公平性的主要表征。消除测评对象如幼儿园的特征变量和组群变量的影响,提高测评的公平性也是未来公平性属性研究的主要方向。最后,相同评价结果解释的有效性是公平性的重要保障,如何有效、公平地解释和应用评价结果将是学前教育质量评价未来不可或缺的内容。

参考文献:

〔1〕〔23〕〔44〕ASSOCIATION,A. E.Standards for educational and psychological testing〔M〕.Washing,DC:American Educational Research Association,2018:11-50.

〔2〕〔17〕CHEN D,HU B Y,FAN X,et al.Measurement quality of the Chinese Early Childhood Program Rating Scale:An investigation using multivariate generalizability theory〔J〕.Journal of Psychoeducational Assessment,2014,32(3):236-248.

〔3〕〔22〕陈德枝,秦金亮,李克建.托幼机构教育质量评价中评委偏差的多侧面 Rasch 分析 〔J〕.心理科学,2016,39(3):628-636.

〔4〕ENGELHARD JR G,WIND S A.Introduction to the special issue on rater⁃mediated assessments〔J〕. Journal of Educational Measurement,2019,56(3):475-477.

〔5〕WIND S A.Examining the impacts of rater effects in performance assessments 〔J〕.Applied Psychological Measurement,2019,43(2):159-171.

〔6〕〔18〕〔24〕〔33〕LI K,ZHANG P,HU B Y,et al.Testing the ‘thresholds’ of preschool education quality on child outcomes in China〔J〕.Early Childhood Research Quarterly,2019(47):445-456.

〔7〕刘焱,潘月娟.《幼儿园教育环境质量评价量表》的特点、结构和信效度检验 〔J〕.学前教育研究,2008(6):60-64.

〔8〕中央教育科学研究所学前教育研究室.幼儿园教育质量评价手册 〔M〕.北京:教育科学出版社,2009.

〔9〕〔19〕陈德枝,李克建,周兢.《走向优质——中国幼儿园教育质量评价标准》的测量学属性分析:基于我国100所幼儿园与1670名儿童的测评数据 〔J〕.学前教育研究,2021(1):3-16.

〔10〕〔20〕SAKAI L M,WHITEBOOK M,WISHARD A,et al.Evaluating the Early Childhood Environment Rating Scale (ECERS):Assessing differences between the first and revised edition〔J〕.Early Childhood Research Quarterly,2003,18(4):427-445.

〔11〕〔21〕〔31〕PERLMAN M,ZELLMAN G L,LE V⁃N.Examining the psychometric properties of the early childhood environment rating scale⁃revised (ECERS⁃R)〔J〕.Early Childhood Research Quarterly,2004,19(3):398-412.

〔12〕PIANTA R C P K,HAMRE B K.Classroom assessment scoring system:Manual K⁃3〔M〕.Baltimore:Paul H Brookes Publishing,2008.

〔13〕〔34〕〔37〕VERNON⁃FEAGANS L,MOKROVA I L,CARR R C,et al.Cumulative years of classroom quality from kindergarten to third grade:Prediction to children’s third grade literacy skills〔J〕.Early Childhood Research Quarterly,2019(47):531-540.

〔14〕〔25〕COLWELL N,GORDON R A,FUJIMOTO K,et al.New evidence on the validity of the Arnett Caregiver Interaction Scale:Results from the early childhood longitudinal study⁃birth cohort 〔J〕.Early Childhood Research Quarterly,2013,28(2):218-233.

〔15〕〔26〕FORM A.Infant⁃toddler program quality assessment〔M〕.Michigan:HighScope Press,2011.

〔16〕〔27〕HOWARD S J,SIRAJ I,MELHUISH E C,et al.Measuring interactional quality in pre?school settings:Introduction and validation of the Sustained Shared Thinking and Emotional Wellbeing (SSTEW) scale〔J〕.Early Child Development and Care,2020,190(7):1017-1030.

〔28〕〔38〕GORDON R A,HOFER K G,FUJIMOTO K A,et al.Identifying high⁃quality preschool programs:New evidence on the validity of the Early Childhood Environment Rating Scale⁃Revised (ECERS⁃R) in relation to school readiness goals〔J〕.Early Education and Development,2015,26(8):1086-1110.

〔29〕〔32〕HUANG R,SIRAJ I.Profiles of Chinese pres⁃

choolers’ academic and social⁃emotional development in relation to classroom quality:A multilevel latent profile approach 〔J〕.Child Development,2023,94(4):1002-1016.

〔30〕〔45〕CASSIDY D J,HESTENES L L,HANSEN J K,et al.Revisiting the two faces of child care quality:Structure and process〔J〕.Early Education and Development,2005,16(4):505-520.

〔35〕李琳,范潔琼,任丽欣.幼儿园班级质量追踪评估与改进探索:以上海市12所幼儿园20个班级3年追踪评估为例 〔J〕.幼儿教育(教育科学),2022,915/916(7/8):20-26.

〔36〕李琳,李孜佳,范洁琼,等.幼儿园教育质量对儿童发展增值的影响 〔J〕.学前教育研究,2021(4):31-47.

〔39〕KIRBY G,CARONONGAN P,MALONE L M,et al.What do quality rating levels mean:Examining the implementation of QRIS ratings to inform validation〔J〕.Early Childhood Research Quarterly,2015(30):291-305.

〔40〕CONNORS M C,MORRIS P A.Comparing state policy approaches to early care and education quality:A multidimensional assessment of quality rating and improvement systems and child care licensing regulations〔J〕.Early Childhood Research Quarterly,2015(30):266-279.

〔41〕刘颖,虞永平.我国幼儿园管理质量的现状,类别及其影响因素:基于潜在剖面分析的结果〔J〕.学前教育研究,2021(1):12.

〔42〕原晋霞.我国幼儿园课程质量现状探索与提升建议 〔J〕.学前教育研究,2021(1):43-56.

〔43〕吴琼.我国幼儿园师资保障质量评估与提升策略 〔J〕.学前教育研究,2021(1):57-66.

〔46〕SYLVA K,TAGGART B.ECERS⁃E:The four curricular subscales extension to the early childhood environment rating scale (ECERS⁃R)〔M〕.New York:Teachers College Press,2010.

〔47〕LI K,HU B Y,PAN Y,et al.Chinese Early Childhood Environment Rating Scale (trial) (CECERS):A validity study〔J〕.Early Childhood Research Quarterly,2014,29(3):268-282.

〔48〕WOLF S,RAZA M,KIM S,et al.Measuring and predicting process quality in Ghanaian pre-primary classrooms using the Teacher Instructional Practices and Processes System (TIPPS) 〔J〕.Early Childhood Research Quarterly,2018(45):18-30.

〔49〕LAHTI M,ELICKER J,ZELLMAN G,et al.Approaches to validating child care quality rating and improvement systems(QRIS):Results from two states with similar QRIS type designs 〔J〕.Early Childhood Research Quarterly,2015(30):280-290.

Deeply Interpreting the Reliability, Validity, and Fairness of Preschool Education Quality Assessment: Based on the Education and Psychological Measurement Standards

Chen Dezhi

(College of Children Development and Education, Zhejiang Normal University, Hangzhou, Zhejiang, 311231)

【Abstract】Reliability, validity, and fairness are the three fundamental attributes of quality assessment in preschool education. This article explores the basic connotations of these attributes, as outlined in the Education and Psychological Measurement Standards, and combines them with the unique characteristics of preschool education quality assessment. We provide an in⁃depth discussion of the reliability, validity, and fairness of preschool education quality assessment, as well as the interrelationships among them. Additionally, we highlight the main directions and methods for exploring reliability, validity, and fairness in future research, based on the current progress in the measurement attributes of preschool education quality assessment.

【Keywords】preschool education quality assessment; reliability; validity; fairness

*本文为浙江省教育考试院“十四五”规划课题“基于评分者介导式评价IRT模型的学前教育质量评价的测量学研究”(课题编号:ZJEEA14529)和浙江省哲学社会科学规划重点课题“基于认知诊断的幼儿教师隐性知识的情景判断性测验研究”(课题编号:20NDJC07Z)的研究成果之一。

**通信作者:陈德枝,浙江师范大学儿童发展与教育学院副教授,电子邮箱:cdezhi@zjnu.cn

猜你喜欢

公平性效度信度
《广东地区儿童中医体质辨识量表》的信度和效度研究
慈善募捐规制中的国家与社会:兼论《慈善法》的效度和限度
一种提高TCP与UDP数据流公平性的拥塞控制机制
公平性问题例谈
科技成果评价的信度分析及模型优化
耳鸣残疾问卷中文版的信度和效度检验及其临床应用
被看重感指数在中国大学生中的构念效度
关于公平性的思考
外语形成性评估的效度验证框架
中文版脑性瘫痪儿童生活质量问卷的信度