教育政策评估研究国际前沿进展及方法借鉴<br/>——严文蕃教授专访

教育政策评估研究国际前沿进展及方法借鉴
——严文蕃教授专访

2020-12-09严文蕃韩玉梅

苏州大学学报(教育科学版) 2020年3期

严文蕃韩玉梅

(1.美国马萨诸塞大学波士顿分校，美国波士顿 02125-3393;2.教育部人文社科重点研究基地西南大学西南民族教育与心理研究中心，重庆 400715)

2020年是我国全面建成小康社会、全面打赢脱贫攻坚战和“十三五”规划的收官之年，也是《国家教育事业发展“十三五”规划》《国家中长期教育改革和发展规划纲要(2010—2020年)》等重大教育战略规划的收官之年。全国社会经济与国民教育等事业发展处在全面而深刻的战略转型时期。系列重大政策的成效如何？在多大程度上实现了政策目标？新时代背景下如何顺利衔接“十四五”时期的教育战略规划和改革？当前形势下，对系列重大政策效果进行全盘、系统、动态的考核验收和终结性评估是科学制定战略转型决策、进一步促进教育事业发展的现实着力点，也是国家推动教育治理体系现代化、促进教育治理能力提升的必然要求和重要抓手。基于此，受《苏州大学学报(教育科学版)》委托，韩玉梅老师(以下简称“韩”)以“教育政策评估研究的国际前沿进展及方法借鉴”为主题对严文蕃教授(以下简称“严”)做了专访。

一、教育政策评估的概念体系和逻辑体系

韩：政策评估作为政策分析框架的重要组成部分，一直以来都是国内外学者普遍关注的热点议题。2019年，党的十九届四中全会提出以“国家治理体系现代化”为核心战略，2020年，多项国家战略和教育战略面临收官、转型，在这样的形势下重新审视教育政策评估的基本理论和现实功用有着重要意义。您自20世纪90年代起便开始从事教育政策和战略改革的国际比较研究以及中美两国相关决策咨询工作，可否请您结合自身研究经验和咨询实践经验，为我们谈一谈国际视野下的教育政策评估概念体系？

严：对教育政策评估的探讨要放在整个政策科学的宏观视域下来谈。19世纪40年代，美国的政治学家哈罗德·D.拉斯韦尔(Harold D.Lasswell)最早提出政策科学的概念，主张政策科学是以特定政策规划和可供选择的政策方案为核心，运用新的方法论对未来发展趋势进行分析的学术研究领域。经过近70年，政策科学已经发展成为一门较为成熟的学科，广泛应用于各个领域。政策评估研究隶属于政策科学。要理解政策评估，就要清楚政策、政策效能、政策影响、政策评估等相关概念之间的逻辑关系。

政策是政府部门基于公共利益制定的用于调节社会关系、经济关系、人与自然关系等，用于指导公共部门行为的准则，包括政策目标、路径、规划、规制、利益机制等构成要件。政策目标指向政策的制定目的和预期效果，回答为什么要制定特定政策和政策行为的航向问题。政策路径指向政策目标的实现方式和策略，回答采取什么方式、怎么样才能达到政策目标的问题。政策规划和规制则指向政策执行和实施的具体行动计划、约束条件和保障机制等。政策不是一个静态概念，而是一个包含多个环节的动态过程，包括政策问题识别、政策分析、政策制定、政策启动、政策实施、政策评估。政策评估是政策过程的组成部分，贯穿于整个政策过程中，可以涵盖政策内容评估(policy content evaluation)、政策执行评估(policy implementation evaluation)、政策效果评估(policy effectiveness evaluation)和政策影响评估(policy impact evaluation，policy influence evaluation)等。在这个过程中，不能忽略的一个核心就是政策利益相关者，包括政策制定者、合作者、实施者、政策对象以及广大公众。在整个政策过程中要注重识别关键利害相关者，研判他们的特征和诉求，制定有效的沟通和联合机制来传达相关政策资讯和指令，并持续向他们征询需求信息和反馈意见。开展政策评估必须搞清楚特定评估的目的和预期功能是什么，评估结果的使用者是谁。

具体来看，政策评估是评估主体依据特定的评估原则、评估标准和评估工具来研判特定政策内容、实施效果及其影响的活动过程，其目的是理解政策的绩效、价值和功能。政策内容评估侧重评判政策文本内容是否清晰阐明了政策目标，以及政策执行和预期目标背后的逻辑关系和路径合理性，这种评估有助于对政策决策的背景、内容和实施举措形成更深的理解。政策执行评估主要研判政策实施过程是否始终朝向政策目标，诊断政策执行偏误，这种评估有助于及时发现政策实施过程中的障碍与问题、理解政策效果的形成根源。政策效果评估侧重依照政策目标研判政策实施后实现目标的程度和绩效，政策影响评估则较为广泛地包含对政策产生的预期目标之内和预期之外产生的短期、中期和长期影响评估。政策效果评估和政策影响评估有诸多交叉重叠，比较容易混淆。从时间维度来看，政策内容评估往往发生在政策实施之前，也可以视为事前评估；政策执行评估往往发生在政策实施进程中，可视为事中评估或阶段性评估、形成性评估；而政策效果评估和政策影响评估则往往发生在政策实施一定阶段或实施之后，因此可能是长期政策的事中评估，也可能是事后评估、终结性评估。你在问题中提到当前各大教育战略即将收官，这种形势下非常适宜着手开展事后评估、终结性评估，重点开展政策效果评估和影响评估。在不同时间阶段或不同情境下，政策评估的需求、目的、预期功能、评估结果的使用对象、主体和客体不同，决定了不同类别政策评估的价值取向、标准、方法技术都有所不同。但不论哪一种政策评估，一定要注重关键利害相关者的诉求和反馈。

政策评估的意义毋庸置疑，政府部门投入了大量经费开展特定政策。在政策实施后，首先，必须通过实践来检验这个政策是不是科学合理的；其次，需要衡量政策是不是奏效的，是否达到目标、实现程度如何、多大程度上改进了实践或解决了问题；再次，必须判断所实现的效果和投入的经费相比是否值得，也就是投入—产出效益如何。政策评估可以满足政府的这些需求，可以为科学制定后续政策、有效配置资源、合理划拨经费等提供关键依据。通常人们认为，政策研究的旨归就是要生成和提供应用型的知识、证据和启示，来服务于政策的科学制定，而政策制定则旨归于推动改革和改进实践。从政策研究到政策制定再到实践的转换过程像是一个黑箱，而政策评估就像能打开这个黑箱的一把钥匙。教育政策评估是政策评估在教育领域的具体体现。由于教育自身是一个非常错综复杂的系统，且与经济、社会、政治、文化等领域紧密联系，因此教育政策评估更是一个复杂的系统工程。

韩：严教授，简而言之，教育政策评估就是评估主体围绕特定教育问题，依据特定评估机制和程序，对特定教育政策的内容、执行及其效果影响进行研判的活动，它贯穿于教育政策全过程，与各级教育行政部门、各级各类学校管理者和师生家长等教育利益相关者的诉求紧密相关，对吗？那么，在中美教育体制差异下，教育政策评估主体、评估机制、评估程序和规范等是否也有较大的差别？

严：在不同政治体制下，政策效果评估的本质是一致的，都是评估主体依据特定标准和程序，采用科学技术和方法，对政策举措满足预期目标的程度和效果进行事实判断和价值判断的过程。不同体制下，评估主体、评估标准、评估程序、方法范式、价值判断的取向等会有所差异。中国教育体制下，中共中央国务院领导和管理教育工作，县级以上地方各级人民政府依法管理本行政区域内的教育事业，在政策实施中负有主体责任。在教育评估方面实行教育督导评估制度，各级教育行政部门或经认可的社会组织，依法依规对学校及其他教育机构进行考核和评定；教育政策评估往往具有自上而下的行政主导特征，和政府职能部门的工作绩效密切挂钩。引入社会组织参与的第三方评估是近年来中国教育政策评估发展的重要趋势，“新型教育智库建设”被提到了国家战略高度，为传统的内部行政性评价提供了重要的外部制衡，反映出中国教育政策评估研究发展的巨大潜力和利好形势。但第三方评估机制还不够健全，有待进一步发展完善。

在美国，联邦政府并不具有对教育的直接管辖权，州政府对教育事业负有主体责任，州政府的教育责权来自州宪法，州教育委员会是州教育决策机关，和联邦教育部没有直接的隶属关系。联邦教育部往往通过项目化管理的形式激励和钳制州政府教育事业发展。早在20世纪60年代以来，美国推行了“项目计划预算”(Planning-Programming-Budgeting System,PPBS)的改革，实质上是政府投入专项项目经费对教育等公共事业进行预算管控，申请经费的州政府最终以项目评估报告作为预算经费使用效益的证据。项目评估，尤其是基于投入—产出的评估方法满足了政府公共管理的现实需求，发挥了重要的功能，普遍被西方国家接受和效仿。虽然PPBS机制历经变革，但项目化管理的传统在公共政策评估领域沿袭下来。因此，在美国政策分析话语体系中，常常会看到项目(program,initiative)、干预(intervention)这类词语，项目评估(program evaluation)的很多理论和方法与政策评估的理论方法具有很大的融通性。受体制的影响，在美国较少有自上而下的全国性的标准化的政策评估，而更多是自下而上的内部评估和大量权威组织机构开展的项目化外部评估。国家教育协会(National Education Association,NEA)、美国研究中心(American Institute for Research)、教育研究协会(American Educational Research Association,AERA)等一批教育领域权威组织机构和大量教育智库机构[如兰德公司(Rand Corporation)等]会开展政策效果测评、政策影响研究、干预追踪研究、关键因素对政策效果的影响机制研究等。教育政策效果评估的终端往往指向教育质量的提升，而结果取向的教育质量观常以学生学业成就作为可测量的因变量，因此，在美国乃至全球范围开展的学生学业成就测评如NAPE、PISA、TIMMS等教育评估监测体系为政策效果评估的结果变量持续提供着证据，积累着庞大的开放性数据。总之，不同教育体制下的教育政策评估各有特色和优势。不论在什么样的体制下，更为关键的是，教育政策评估受到不同哲学框架或者说范式的指导，有不同的利益驱动，评估结果的受众主体不同，采用的评估方法也就会不同，各个不同的要素间要进行模式匹配，匹配度越高，那么政策评估越能实现它预期的目标和效能。

韩：也就是说，受体制、范式、价值取向、受众等因素的影响，教育政策评估方法多样化，当政策评估指向的问题、所处的情境、价值立场、哲学理念、评估结果的受众和采用的评估方法实现最优匹配时，才能实现评估效能的最大化，对吗？您在前面提及，政策的目的是改进，政策评估的终端指向是政策的优化和实践的改进，政策评估像钥匙一样可以打开政策研究到政策制定再到实践之间的通道。您是否可以更加详细地解释政策评估在政策研究、政策制定、实践改进的逻辑线路中发挥作用的机理？

严：这个问题涉及一个关键点，也就是“证据”。我们常说“基于证据的科学研究”，那么什么是科学的证据？证据在政策效果评估中扮演着什么样的角色？简而言之，证据是在调查评估过程中采集的能够反映政策效果的数据、文本、信息等经分析研判后得出的事实性论据。证据是实证主义取向研究赖以生存的事实标准，是进行事实判断和价值判断的主体依据。可以说，证据也是将政策研究、政策制定、政策评估及实践串联起来的逻辑红线。[1]

政策的目的是改进实践、解决实践问题。评估的目的在于科学把握政策实施的进度、成效和问题，没有评估，就无法知晓所采取的政策行动和付出的投入与努力是否、在多大程度上产生了改进实践的效能，也不可能精准地诊断政策执行问题，了解从哪些方面着手去优化政策、改进实践。如何通过评估来研判政策效能呢？关键在于评估过程中在政策实施的实践一线采集到那些确凿的、客观的、有说服力的证据。换言之，从评估到实践改进的这个过程中，评估工作的中介机制即在实践中采集证据。评估从一定意义上是为了获取证据，政策的优化和实践的改进则是依赖评估中获得的那些证据来推进的；因此，评估质量和证据质量从很大程度上影响着政策的效能和实践改进的程度。

不过，政策评估发现的实证性证据和分析结论能否切实影响决策科学化、切实改进实践，这一直以来都是学者们争论的焦点。有学者甚至说，寻找证据本身就是一个陷阱，因为政策和实践之间、自然和社会之间、基础研究和应用研究之间、研究者和政策制定者及实践者之间的鸿沟是无法逾越的，因此几乎不可能有绝对科学的证据来实现绝对有效的改进效果。但这种立场太过悲观和极端。实际上，当评估能够切实反映政策实施一线层面的情境复杂性和条件变化时，这种评估中收集的证据就有可能会架起政策研究、政策制定与实践一线之间的桥梁。在这里，对情境复杂性的关注和证据本身的质量就是至关重要的条件。如果说高质量的证据是事实判断的依据，那么对情境复杂性的研判就是价值判断的依据。前面我们说到，政策评估要注重利益相关者的声音，实际上，从不同相关者的多元立场，尤其弱势群体的立场采集信息和证据，往往会非常有助于评估主体更好地理解情境的复杂性，提升证据质量，让价值判断更加站得住脚。

教育政策研究、制定和实践领域的鸿沟可能更大，因为教育是以人的发展为中心的事业，教育政策关涉太多利益相关者的差异化立场、教育要素之间的作用机制纷繁复杂、教育变量之间的因果关系难以截然划清。教育具有很高的“复杂性”特征，而复杂程度越高，关涉的影响因素越多，政策干预获取实效的难度就越大，各地取得成效的一致性程度也会越低，对政策效果评估的要求也越高，研制高质量的政策评估工具、获取高质量的科学证据、有效推动教育实践的改进也就难上加难。不过有越来越多的新兴学科致力于突破桎梏，从事这种由理论到实践的跨越性研究，比如转化型研究、行动研究、改进科学等。行动研究我们并不陌生了，转化型研究和改进科学(Improvement Science)都是源于医学领域，其中改进科学目前已经被越来越多的学者引入教育领域。

改进科学是一个新兴的、基于实践的研究领域，主要目标是通过一套扎实可靠的理论原则和科学有效的方法技术，使基于科学研究的理论知识和实证证据转化为解决实际问题的有效策略，用以实现组织质量的持续提升、政策的持续优化和实践的持续改进。[2]改进科学聚焦“改进”“变革”，围绕希望得到什么改进(改进目标)、如何知道一个变革能否引起改进(创建测评改进的标准)、哪些变革可以引起改进(设计变革)等基本问题展开，继而进入“计划变革—实施变革—测评变革—检验变革有没有引发实践的改进—推广变革”的循环迭代中。在这个框架中，测评是改进科学的核心环节，它一方面通过特定测量方法收集变革的数据和信息，另一方面持续测度改进的实现效果。从执行过程层面的证据收集到效果层面的证据收集，从基于研究的证据收集到基于实践的证据收集，评估为将证据一步步转化为实践改进提供了可行路径；同样地，改进科学也为评估机制的功能发挥提供了更清晰的框架，在评估与实践改进之间建立了更加清晰的逻辑连接。

没有任何一项政策或干预项目会绝对成功或绝对失败。摆正评估的目的，不是为了证明，不是为了简单获取证据，而是为了探索证据到底能不能奏效、什么在奏效、如何奏效。政策制定者、研究者、实践者之间的差异性场域和话语体系确实为政策评估的执行造成了一定障碍，对评估的应用价值发起了质疑，但是这也反过来印证了破解三者之间隔阂的紧迫性，以及三者之间相互尊重与协同合作的重要意义。

二、教育政策评估的理论基础和分析框架

韩：您的论述让我们非常清楚地厘清了教育政策评估的基本概念体系和逻辑体系。那么，有哪些主流的教育政策评估理论来指导我们开展教育政策评估，以便我们实现更有效的评估模式匹配，获得更高质量的证据，做出更合理的研判，实现更高的评估效能呢？

严：教育政策评估是评估的具体分支，遵循评估理论的发展演变。总体而言，在美国，评估理论大体经历了四代发展历程，第一代是1910年至第二次世界大战前，以Taylor为代表的目标和效率导向的实验室评估；第二代是“二战”后至1963年间，走向现实生活场域、重视参与人态度与感受、以参与观察和深度访谈为主要方法的田野实验评估；第三代是1963年至1974年间，以破解社会不平等问题为导向，以实验和准实验设计为主要方法的实证主义社会实验评估；第四代是1974年以来，以E.G.Guba和Y.S.Lincoln为代表提出的价值多元的、以政策受益主体关切和感受为中心的、建构主义的回应性评估。受第三代实证主义的社会实验评估理论影响，美国自20世纪60年代起越来越多的机构和学者采用随机试验、准实验研究法等开展大规模的长期追踪的政策评估研究，基于大规模数据来量化分析微观变量对政策干预效果的影响，得出的结论为政府问责和政策改进提供科学依据。比如学前教育阶段的“开端计划”(Head Start)、“早期干预”(Early Intervention)等，义务教育阶段的“一个都不能少”(No One Left Behind)、“力争上游(Race to the Top)”等联邦政府发起的教育政策干预项目，都可以找到大量的基于大规模量化数据分析的政策评估研究文献。再比如，兰德公司2019年开展了对华乐斯基金会(Wallace Foundation)自2011年在六个学区发起的一项校长培训实验(Principal Pipeline Initiative)项目的评估研究，基于一套长期的校长追踪数据库采集的大规模数据分析得出证据，发现该项目是一项可行的、成本合理的、有效的政策项目。[3]这样的研究文献和评估报告可以找到很多很多，可以为我们开展教育政策评估研究提供重要的参照和借鉴。当前，正如质化研究和量化研究的范式之争，主体价值为中心的第四代评估与实证主义导向的第三代评估处在对峙共存的张力中，国际研究者们在不断探寻价值中立的混合型的弥合范式，以求更加全面综合地评估政策成效。

韩：政策评估有重要的现实意义，因此评估本身的质量和效用是至关重要的根本问题。如您所提到的，教育政策评估是一项系统工程，涉及的要素错综复杂，关涉的利益主体多元，评估中很难面面俱到。那么，在开展量化的或质性的评估研究时，我们如何更有效地找到切入点和抓手？如何更准确地瞄准政策评估的关键变量呢？您长期以来从事基于大型数据分析的教育改革和政策成效评估研究，您认为应主要从哪些方面来架构教育政策评估的分析框架，来确保评估的科学性和全面性？

严：我们前面说到了，教育政策评估的方法选择受到多种因素的影响，而一旦依据评估目的、受众主体等确定了教育政策评估的方法后，便可以更好地指导我们进一步将评估的对象进行操作化界定，继而选取核心变量作为抓手去开展评估研究，这要针对具体政策具体分析。不过也有一些通用的分析要素供大家参考。政策效果与目标的一致性、经济性、效率性、有效性、平等性、可持续性等是比较常见的分析要素。其中政策效果与目标的一致性检验是最为直接和经典的，有学者把它称为政策目标获取模型，主要是以政策目标为评判依据，将政策文本中具体的举措项目进行指标维度划分、转换成可测的观测点，继而采集数据，判断政策实施后的结果达到预期发展目标的程度。经济性和效率性主要体现为投入—产出效益分析，旨在将政策投入的经费和资源与产出的量化或质性效果进行对比分析，评估政策投入产生的数量化指标达成度和经济性效益水平。有效性着重评判政策在多大程度上实现了预期效果，在开展效能评估时，应跳出教育学科的单一视野，不仅评估政策对教育事业发展的效能，也要评估教育对社会经济发展的贡献度和影响力。平等性着重考量政策的社会正义目标实现度，从多元利益相关主体的立场，尤其弱势群体的立场，通过采集其对政策效果的主观态度和感受，评判政策结果对其利益诉求的实现程度，从而对公共服务均等、机会均等、资源配置均等程度等进行研判。可持续性维度主要考察政策干预效果的延续性和持续潜能，适宜应用于对长期实施的政策效果与影响进行评估。

三、教育政策评估研究的范式与方法

韩：科学的教育政策评估分析必须依赖科学的范式作指导，必须遵循专业化的步骤和有效方法。当前国际上从事教育政策评估研究的主流范式有哪些？这些范式理念下的教育政策评估会有怎样的差异性特征？

严：西方社会科学研究历史中旷日持久的量化研究和质性研究之争影响深远。政策评估的范式同样受到影响。西方政策评估研究的范式演变也经历了实证主义到诠释主义，再到批判主义取向的历程。实证主义主张基于经验的认知获取路径，倾向于通过观察、实验等方法采集经验性数据和材料，基于提出假设—量化分析—验证假设的演绎性逻辑来发现可复制的普遍性规律，强调价值中立，反对人的主观意识和价值判断对结论的影响。实证主义取向的政策评估与分析从一定程度上比较符合政策评估最初所赋予的价值中立的技术理性功能属性和基于证据进行科学验证的诉求，因此被视为科学的评判依据服务于决策科学化和实践改进与经验推广。如我们前面所说的，客观的实验性证据、事实性证据、经验性证据的获取是实证主义取向的政策评估的核心要素，因此在西方常常听到“基于证据的科学研究”这个表述，这是许多西方国家采用的比较具有主导地位的政策评估范式。实证主义取向的政策干预评估研究一方面用以科学精准的定量测度政策效率、效能和影响，另一方面重在验证政策干预中特定变量对政策效果变量的因果关系和作用机理。

不过伴随着定量和定性之争，20世纪70年代以来，政策评估领域也同样经历着激烈的范式取向争鸣，焦点在于实证主义作为政策评估的价值导向和主流范式方法是否合适。一些学者认为实证主义范式的政策评估过于倚重可测的表面的效率效益等数据化成效，简化了不具有可测性的政策效能，忽略了政策实施过程中和政策环境中复杂的利益相关者主体的主观能动性和利益机制，忽略了过程和环境的复杂性和不确定性，对政策干预条件之外的不可控的变量难以把握，所得出的评估结论片面取决于所搜集的量化证据，囿于干预假设的条件和框架，有偏倚事实真相的风险。世界各国的教育体制、教育事业发展水平、经济社会和文化背景有诸多差异，难以制定出放之四海而皆准的定量标准和刻度，并在不同形势和现实情境下采集数据得出普适性的、可推广的结论。实证主义取向的政策评估有其局限性，因此在采用这一范式开展政策评估时必须严谨报告研究假设的条件和适用范围。

与之相对的，解释主义则强调人的主体意识、价值观、信念、人际互动等在真相认知过程中所发挥的作用，认为现实是相对的、高度依赖情境的，是由人的主观意志建构和诠释出来的，与建构主义、现象学、符号互动论等的立场具有一致性。因此他们不追求普适化的规律，而更倾向于采用文本分析、个案分析、深描等方法，纵深挖掘现象或符号背后隐藏的意义。政策制定和实施具有多重主体、多个层级、多样形式、多重目标、多样环境的特征，因此政策评估必须充分考虑制定政策的多元主体、政策面向的多元受益方、政策包含的多样化工具、执行政策的各层级地区不同环境和经济社会文化条件，以及影响政策效果形成的复杂多样的因素。评估政策很难采用统一的整齐划一的适用于全国各地的刻度，得出一刀切的价值判断和事实判断，需要允许地区依据自身实际调整目标和举措，允许合理范围内实施进度的差异性和目标实现效能的差异性。解释主义取向的政策评估研究充分尊重政策动态过程中的复杂性和情境性，反对量化的技术标准，更多使用文本分析、互动交流等，重视利害相关主体，尤其是弱势群体对政策的主观认识、态度和感受，来协商和建构政策效果的价值判断。但以上特征使得解释主义取向的政策评估在很大程度上依赖具体情境下所收集的多元利益相关者的主观经验材料、评估主体和客体之间的互动交流，以及评估主体、研究者的主体经验和主观建构，而这也正是实证主义者抨击解释主义客观性和科学性的要害所在。

当前，处在实证主义和解释主义中间立场的批判现实主义被越来越多学者采纳。批判现实主义融合了批判自然主义和先验实在论，处在自然学科和社会学科的中间界面，更加辩证地探寻世界的真相。批判现实主义既关注现象的可观测的外部特征，也重视深层因果关系的剖析，既着重收集客体的感知性经验材料，也注重主客体之间的互动交流，在宏观掌握可测证据的基础上，阐释个体经验之下的深层因果机制和要件架构。批判现实主义取向的政策评估综合了前两种范式的优势，可以更加多元、立体、系统地理解错综复杂的教育政策系统中层层嵌入的元素，可以更加灵活地应对不同地域层级、不同情境下的差异性问题和现象，可以更深度地挖掘本土特征和差异化价值体系。我们常说，教育政策评估是个系统工程，涉及政治、经济、文化环境和教育理念等宏观系统要素，关涉教育系统架构、教育治理体系、教育信息管理体系等中观要素，关涉政府、学校、社区、家庭、个体之间的关系要素，还关涉学习环境、教学实践等微观要素，以及学生个体的个性、生理、智力、学习机能等要素。面对这项庞杂的系统工程，很难说有一项万能的评估框架和工具能实现对所有层级要素的评估。但批判现实主义给了我们一个方向和启示，可以更好地引导我们走向事实判断和价值判断的融合。[3]

韩：可以看出，教育政策评估范式的发展历程也经由了量化主导、质性对抗、协商融合的转变，评估主体和政策受众主体的声音与感受越来越受到重视，政策效能的价值判断越来越走向多元，各种范式兼容并蓄，各有优劣。这与整个社会科学研究的范式演进路径是一致的。那么，在多元范式指导下，在教育政策评估的操作执行层面，目前国际上主流的评估方法有哪些？

严：前面讲到的政策评估范式不分伯仲，没有一项完美无瑕，采用什么范式来指导操作层面的教育政策评估完全取决于具体的政策评估需求和目的。因此，教育政策评估的具体方法也没有主流与非主流之分，没有优劣之分，适宜的就是最好的。采用不同范式指导下的方法，政策评估的设计、工具编制、取样、数据采集与分析及结果呈现方式都会有所不同。因此，判断一个方法适宜与否，就需要在政策评估设计和操作之前，首先想清楚为什么要开展政策评估、评估要达到什么目的、解决什么问题、需要采集什么数据、测评结果如何解释和应用、测评结果的受众是谁、结果用来做什么。前面我们提到了研究问题、哲学范式、受众等要素要与方法进行模式匹配，其实选择什么样的适宜的评估方法就是在进行模式匹配工作，能够与各项要素匹配的就是适合的方法。不论是一次性测评还是长期追踪性评估，抑或是反复进行的调查评估，测评所得到的就是影响评判结论的全部依据，因此必须缜密地选择匹配的方法，严谨地设计每一个评估环节和要件。

政策制定者为了宏观把握政策投入—产出效益，往往更倾向于基于实验法等传统的实证主义取向方法和大规模硬数据分析得出的“科学证据”，以便用来佐证其决策的科学性或政策绩效。社会科学研究最核心的问题是对因果关系的分析，而实证主义取向的随机干预实验研究方法被认为是客观性最高的、科学等级最高的分析因果关系的社会科学研究方法，因此被称为黄金准则(golden standards)。随机干预实验研究为了发现变量之间的因果关系而操纵某个或某些变量、控制另外部分变量数值恒定，具有自然科学中常用的实验室实验特征。在教育学领域，一些学者开展随机干预实验法来对特定变量(如营养等)与学生学业成就的因果关系进行研究，但实际上，教育系统中情境复杂多变，充满不确定性，存在无穷尽的错综复杂的难以控制的变量，且教育是以人为中心的事业，干预实验可能涉及不可逆的伦理道德问题，因此这种方法执行起来非常困难。在教育政策评估领域更为常用的、更具有可行性的是准实验法。相对于随机干预实验，准实验研究更加强调利用自然情境而不是人工控制的情境，利用现成数据的灵活处理和匹配，来对变量进行一定的操控，灵活控制实验对象。虽然相对随机试验，准实验研究形成的因果结论效度降低，但其对变量控制所要求的条件更加灵活，更加符合无法控制所有可能影响实验结果的无关变量的现实情境，具有更广泛的应用性。前面我们列举的兰德公司2019年开展的校长培训政策干预效果评估研究中采用的便是准实验法，采用州政府/学区/学校层面的面上统计数据、校长领导力追踪数据库、校长培训调查数据等多类已有数据，依据不同的研究问题对变量和数据进行配对处理，建立数统模型，测算政策干预效果。[4]但这种方法对研究者的高阶统计分析技能要求非常高，且前提是可以获取大量多元化的、全面的、长期追踪的大规模数据。2019年三位诺贝尔经济学奖获得者因“为减轻全球贫困所采取的实验性方法”而获此殊荣，他们将实验法应用于减贫政策的关键影响因素评估和因果关系推断，极大地影响了实验法在社会学科、政策干预评估领域的应用与发展。相信在这样的影响和带动下，实验法将为教育政策评估研究与实践带来新的契机，引领新的突破。

对于政策的广大受众群体，尤其是弱势群体而言，全国大规模数据得出的数字性结论未必是他们需要或能够理解的，他们更关心的是他们的声音和利益诉求有没有受到关注，有没有被听到。这种情况下，上述的量化研究方法就不能满足或者适宜于这样的研究需求，而一些行动研究、参与式观察、案例研究等阐释主义和批判现实主义取向的质性方法更能达到目的。案例研究作为社会科学研究的重要形式，于19世纪70年代在法学领域诞生。20世纪末，案例研究的具体程序、方案、活动、场所等作为评价研究的一部分，成为公共政策、经济学、公共管理和教育学领域的常用研究方法。案例研究是探索难于从所处情境中分离出来的现象时采用的一种研究方法，它遵循一套预先设定的程序和步骤，在不脱离现实生活环境的情况下研究当前正在进行或已经完成的现象，且待研究现象与其所处环境背景之间的界限并不十分明显，比较适宜应用于错综复杂的教育政策评估与分析中。案例研究的主要功能在于基于个案或多案例获得的经验生成概念/理论，加深对政策实施效果的理解，探索/描述/解释政策实施过程中各种因素之间假定存在的联系，解释某一政策方案的实施过程与方案实施效果之间的联系和作用机制。混合方法研究与案例研究不同程度、不同形式的结合可以有助于处理比案例研究更广泛、更复杂的研究问题，因此有越来越多的政策研究者采用混合案例评估与分析模型。在第四代评估理论的价值取向下，教育政策效果评估方法更加追求多元化，尤其注重具体的复杂的情境下关照多元利益相关主体对政策的态度和感受，深度挖掘量化证据背后的价值依据。案例研究法可以很好地弥补实验法等实证主义取向的政策评估方法的种种弊端。

不论采用哪种方法，评估工具的信效度是确保数据质量的根本要求，评估过程中涉及的敏感问题如数据的归属、保密性、合法使用、目标一致性等都嵌入在政治协商中，并影响着政策效能产出的结果和评估结论。政府的数据系统是监控追踪政策条件和进度以及生成改进效能的重要机制和平台，因此建立数据库至关重要。然而，一旦评估的目的是高利害的、关涉政府职能部门绩效问责的，评估工具和评估结果往往有可能会被滥用或误读，尤其在大规模评估的情形下，采集的数据如果存在质量问题，必然会具有误导性甚至危害性。评估是政策制定者和实践者之间的调节中介，必然会影响到使用这些评估数据的人，包括决策者和实践者。因此，以什么目的和如何使用评估数据与结论是非常重要的影响政策制定者和实践者之间互动张力的关键问题。

四、教育政策评估研究的科学化路径

韩：近年来，我国越来越重视教育决策科学化，大力提升教育治理能力现代化，注重发挥专业智库机构在科学制定、实施和评估政策过程中的角色，因此许多高校也在大力推动应用型、咨政类成果的产出，加强各类服务决策的新型教育智库建设，重视教育政策研究相关学科领域的发展和人才培养工作。您自1991年开始在美国高校担任博士生导师，一直从事教育政策、教育评估、研究方法等课程教学和人才培养工作，也曾作为美国教育研究会国家数据库研究小组的主席、美国国家数据统计中心培训专家，为全美多领域教师和博士生提供基于高级统计技术和大型数据分析的教育政策评估技术培训。请您基于自身经验，为我国教育政策研究领域的研究生培养和相关学科建设提供一些宝贵建议。

严：中国大力推动教育治理能力现代化的战略为教育政策评估的发展带来了非常友好的契机和外在驱动力，同时也对教育政策领域学科建设和人才培养提出了更高的更紧迫的要求。结合自身教学经验和科研经验，我认为需要注意以下四个方面的问题。

一是拓宽跨学科研究视野。政策科学其实是跨学科属性非常强的一个学科，因此从事教育政策研究的学生和学者们要注重不断拓宽研究视野，在高度持续关注国家教育政策导向的同时，广泛积累教育学和政策科学及以外的包括政治、经济、社会学等多学科学识素养，培养跨学科研究的意识和利用跨学科研究范式方法分析评估教育政策的能力。我本人在本科阶段学的是化学，博士学的心理学，工作后一直在从事教育政策研究。我深刻感受到跨学科带给我的好处。

二是注重团队合作。政策评估研究是一个系统性很强、复杂程度很高的领域，加之跨学科属性特征，因此团队合作非常重要。教育政策研究学科建设关键在于组建一支由不同学科背景、不同研究专长、擅长不同分析策略和技巧，甚至跨部门的成员构成的教育政策分析专业化、复合型人才团队。团队成员之间的相辅相成、协商合作将有助于打破单一学科或单一立场带来的认知局限，有助于政策评估项目的全面、立体推进，有助于更高效地生成建基于综合视角、综合方法、综合数据类型的评估结论。

三是严格量化和质性研究方法训练。尽管政策评估的范式取向越来越多元化，但不可否认它具有较强的技术理性特征，因此从事教育政策评估研究，必须夯实评估技术与方法，严格遵守评估规范。国内外教育政策评估领域研究生的量化研究水平都相对比较薄弱，因此致力于从事教育政策研究的研究生或青年学者要大力加强对实证取向政策评估范式和方法的学习与训练，尤其注重长期追踪性评估研究的系统训练，突破研究者自身硬件带来的局限。同时，也要重视解释主义取向的和批判现实主义取向的政策评估范式与方法学习，对实践问题和弱势群体有深切关注，以更加多元的方法素养拓宽政策评估路径的可能选项，以更具融合性与创新性的视野推动教育政策评估范式与方法的本土化建构，以更加开放多元的话语来讲述中国故事，向世界传播中国政策经验。

四是着力建设长期追踪数据库，加强大数据应用。教育政策是一个系统过程，政策效果具有长期性和滞后性特征，最好通过长期追踪数据来检验教育政策效果。评估质量的关键取决于数据质量，长期的、大规模的、高质量的数据相较一次性的、截面的数据更能够有质量地评估政策效果和影响，给深层次挖掘影响政策效果形成的成因与机制带来便利和可能性。因此，在教育政策学的学科建设中，要注重在政策制定之初便将政策评估框架纳入顶层设计中，将评估时间前置，持续地在政策实施前、实施进程中、实施后开展长期的、追踪性研究与评估，建设可共享的开放性的政策专项追踪数据库。这将避免基于单次任务导向的、静态的短期调查评估得出误导性的评判结论，在时空层面延展更加纵深的维度，采集更加长期的、动态的、多元的、深层次的证据来形成评估结论，提升政策研判的丰富性、有效性和科学性。此外，人工智能时代发展迅速，关于学生学习模式等教育大数据的挖掘与应用具备了更加成熟的条件和便利性，为教育政策评估研究带来了技术性变革的契机。但与此同时，只用大数据衡量教育效果，则罔顾了教育的复杂性和周期性，且给学生信息隐私带来一定的威胁。因此，从事教育政策研究的青年学者应敏感地紧跟时代变革，加强大数据分析与挖掘技能培养，并在采集和处理大数据过程中注意教育情境的复杂性，注重学生等政策受众群体的隐私保护，在科技进步和隐私保护之间建立平衡。[5]