APP下载

对我国新高考方案高中学业水平考试的思考与政策建议——浙江、上海2014年高考改革学业水平考试方案商榷

2015-07-06陶百强

中国考试 2015年8期
关键词:测验学业科目

陶百强

1 引言

2014年9 月,国务院以国发[2014]35号文件颁布《关于深化考试招生制度改革的实施意见》,最新一轮高考改革启动,浙江省和上海市2014年启动高考综合改革试点,两地相继出台高考综合改革试点方案。

既然是试点,就应广开言路,允许争论,博采众谋。《国家中长期教育改革和发展规划纲要(2010—2020年)》在研制过程中也曾深入调研、广纳民意。提出商榷的目的绝非反对改革,而是让改革更趋理性。中共中央总书记、国家主席、中央军委主席、中央全面深化改革领导小组组长习近平2014年1月22日下午主持召开中央全面深化改革领导小组第一次会议并发表重要讲话时指示“对改革进程中已经出现和可能出现的问题……既敢于出招又善于应招,做到‘蹄疾而步稳’”。[1]虽高考改革是高度复杂的改革项目,难以兼顾每个方面而必然是折中产物,但因高考改革对整个国民教育系统(含基础教育和高等教育)影响周期长、影响面广,高考改革是我国教育改革中至关重要的改革项目,故高考改革更应“蹄疾而步稳”,因“高考关系到千百万青年学子的前途和千家万户的切身利益,关系到高等教育的质量和基础教育的改革,承载着广大学生、家长和教师的期望,承载着维护社会公平和社会稳定的重任,承载着太多的社会舆论压力”。[2]

教育部部长袁贵仁2015年3月7日参加全国政协教育界联组讨论会时表示“对于(考试招生制度)改革不可能一蹴而就,出现不同意见有助于方案改进,全社会共同关注会推进改革落实”。[3]

本文主要针对浙江、上海高考试点方案中的学业水平考试(下文可简称学考)制度进行探讨。

2 探讨的意义

尽管任何改革方案都不可能尽善尽美,但尽量减少改革负面效应,在改革方案实施过程中,仍有必要从理论和实践出发进行不断修正完善,使改革收益最大化。教育领域的改革如高考改革,具有改革周期长,对整个国民教育具有反拨作用,以及背负树人兴国之重任,教育改革的负面影响不可逆转,这些特殊性导致高考改革方案尽量完善,从前瞻性和系统思维角度出发以尽量避免可能出现的问题。

2.1 扭转传统学考的弊端

《教育部关于普通高中学业水平考试的实施意见》对学考进行强调,且被纳入高校招生原则两依据之一。[4]由于制度设计的原因,原来的学考普遍不受重视,甚至舞弊丛生,重要性和口碑远低于高考统一考试,新一轮改革方案应竭力避免重蹈传统学考名存实亡的命运。

2.2 引导示范作用

试点省市高考改革方案严谨科学对后续改革省份具有示范作用,《国务院关于深化考试招生制度改革的实施意见》要求“2014年上海市、浙江省分别出台高考综合改革试点方案,从2014年秋季新入学的高中一年级学生开始实施。试点要为其他省(区、市)高考改革提供依据。”[5]试点省份的方案会被后续跟进高考综合改革的省市区借鉴,甚至被直接移植以减少决策风险。

教育部官网公布了2015年40项工作要点:教育部还表示将深入推进考试招生制度改革。指导督促各省(区、市)和有关高校研究制订考试招生制度改革实施方案,指导上海、浙江做好高考综合改革试点。[6]教育部部长袁贵仁在2015年全国教育工作会议上要求“各地都要制订改革方案,按照国务院和教育部等有关要求,明确改革的内容、目标、措施和时间表,经省委省政府同意后于2015年6月30日前报教育部备案”,[7]故试点省份的改革方案和经验将为后续改革省份提供宝贵参考。

综合来看,上海的学考方案某些方面似更妥,虽也有一些值得商榷之处,如除了英语国家方案明确要求给予考生两次考试机会外,其他科目暂未给予多次考试机会,“一年提供两次机会,每个学生可参加两次考试,有利于弱化一次考试偶然性因素的影响,同时有利于分散缓解考生的考试压力”[8]此外,等级考中理想化的原始成绩分布预期是对命题工作的挑战。

3 对学考方案的思考

3.1 学考的定义与分数解释

3.1.1 学考的定义

中文的学业水平测试来源于英文中的achievement test,也被译为学业成绩测验,指测量学生学习效果的测验,可为评价学生的学习效果提供反馈,为诊断学习困难提供帮助,对于教师调整教学目标与改进教学均有重要作用,一般分为标准化测验与教师自编测验;[9:286]或被译为成就测验,旨在测量个人在接受教育后的学业成就,含学科成就测验,测量受教育者在某一科目上的学习成就;以及综合成就测验,测量受教育者在各学科上的综合学业成就。[10:12]此外,还被译为学业测验、学绩测验等。

国外学界对学考多从测试命题范围或目的进行定义,如学考用来测量预定内容范围的学习程度,[11:6]旨在测量取得的成绩或测量某个学习阶段后的学得程度(the degree of learning),可在国家、地区或本学区进行标准化操作,或不进行标准化处理,[12]学考必然基于课程标准评估课标学习目标是否达到(Bailey,1998;Brown,2004;Brown&Hudson,2002;Cheng,Watanabe&Curtis,2004;Hughes,2003;Weir,1990)。[13]学考测量的对象包括经过学习或培训后是否掌握特定的知识、技能等。[14]学考命题者依据学科专家或政府制定的内容标准(content standards)命题。[15]学考毫无疑问是必要的,用以评定学业等级或决定学生是否通过某门课程。[16:107]

3.1.2 学考的分数解释

从分数解释角度,测验多被分为常模参照测验和标准参照测验。随着教育改革和人本主义思潮的发展,传统的常模参照测验无法提供基于学习者学习内容的测验,无法为教学反馈和教学决策提供信息,基于教学标准的标准参照测验应时而生……Cronbach(1970)认为,“测试界过分重视建立在考生之间进行比较的成绩解释(关注个体差异),而过分轻视标准参照测验”。[17]标准参照测验这一术语由Glaser&Klaus引入(Glaser&Klaus,1962),该理念广受教育界欢迎,因其特别有益于形成性评估(Hambleton,Swaminathan,Algina&Coulson,1978),有时也被称为目标参照测验(objective-referenced),课标导向测验(curriculum-oriented measurement)(Linn,1994)。[18]

对于分数解释,国内外学界传统或习惯上采取二元分数解释,如标准参照和常模参照测验基于明显不同的目的而进行测验设计(Gronlund,1985)[19]“……测试设计为常模参照或标准参照测试”[12:235]。但是早在20世纪70年代就有学者认为标准化水平测试成绩可同时使用常模参照或标准参照解释。[20]有学者持连续体观点,如图1所示:

图1

持连续体观点者认为,标准参照评估和常模参照评估最好被视为一个连续体的两极,而非泾渭分明的二分法(clear-cut dichotomy)。如图1所示,标准参照测验强调成绩描述,常模参照测验强调区分考生;为了充分利用两种评估的长处,测试开发方给常模参照测验增加描述性元素以融合常模参照和标准参照解释;同理,将常模参照解释元素增加到基于标准参照解释的测验中,双重解释观似呈上升趋势,将许多测验引向上述连续体的中心,尽管此举导致命题中的一些妥协以及成绩解释应谨慎有加,但是测验的多用途有助于测验使用更加高效。[21:41]

美国伊利诺伊大学教育心理学教授、世界著名语言测试专家Fred Davidson认为,从历史角度,标准参照测量路子从未达到其“早期承诺”,标准参照测验思想的主要贡献是大大加强了分数报告的详细程度,常模参照测验思想仍然主导着大规模测试。[22]与常模参照思想相比,美国著名应用语言学家Antony Kunnan个人更倾向于标准参照测验思想。[23]

国内也有研究者建议告别“标准参照测验”和“常模参照测验”二元划分法,认为常模参照测验和标准参照测验非两种对立测验,二元划分导致很多误解,如测验开发者可能会为了不同目的开发不同测验,建立不同题库,花费更多人力、财力和时间。[24]

美国中小学广泛推行的标准化学考旨在测试学生在不同内容和技能领域的学业水平,一般基于某州或地区制定的内容标准命题,通常为常模参照测验,将学生与参照组(如在同年级全国范围取样)的成绩进行比较。[21:387]虽然常模参照测验和标准参照测验有区别,但测试开发方常在同一测验中混合二者的某些元素,很多新开发的标准化水平测验提供常模参照和标准参照解释,某些州定制的测验不仅报告预定的学业标准,而且同时提供成绩的常模参照解释。[21:398]

在我国考试实践中,也有大规模测试采用双重分数解释模式,如大学英语考试(CET)是一项大规模标准化考试,在设计上必须满足教育测量理论对大规模标准化考试的质量要求,是“标准关联的常模参照测验”。[25]

综上所述,笔者建议将我国的学业水平考试定义为基于双重分数解释的标准化学业水平考试,因教育部将学考分为两类即不计入高考招录的合格考科目学考以及计入高考招录的选考科目学考,[4]故笔者建议宜将前者定位为基于双重分数解释的常模相关—标准参照测验,将后者定位为基于双重分数解释的标准相关—常模参照测验。需要特别注意的是,“当考试结果被使用到不同用途或进行多种解释时,每一种预期解释都必须进行效度验证”,[26:9]效度指基于考试结果的解释的合理性,并非指考试本身,效度验证与考试结果的解释或用途相关。

附:浙江学考制度简述:“浙江实行高中学考和高考选考科目一考两用、学生可以参加2次考试的结合方式。高中学考和高考选考科目一考两用,同一科目设计2种试卷,同时在不同试场安排考试,一种为总分70分,只有必考题,用于评定学生的学考等级,另一种为总分100分(70+30),其中70分的试题与前一种试卷完全相同,30分为加试题,根据学生在70分试题上的得分评定其学考等级(A、B、C、D、E5级),根据其在100分(70+30)试题上的得分评定其高考选考科目等级(21级),并赋分,每科计入高考总分的满分值为100分,各科目每年安排2次考试,每个学生每个科目都有2次考试机会,其中30分的加试题只能参加3个科目的考试”。[8]浙江省教育厅以浙教考[2014]129号文件序号发布的文件包含了两个具体实施办法,即《浙江省普通高中学业水平考试实施办法》和《浙江省普通高校招生选考科目考试实施办法》,从两个文件的并列关系来推断,浙江省不认为学考和选考是性质相同的考试;而上海市2015年2月15日发布的《上海市普通高中学业水平考试实施办法》(征求意见稿)明确说明“高中学业水平考试包括合格性考试和等级性考试两类”,此处理方式和国家学考指导文件相同。

附:上海学考方案(征求意见稿):“上海实行高中学考合格性考试和等级性考试分两次考试、学生各参加1次考试的办法。把学考分为合格性考试和等级性考试,前者以“合格、不合格”呈现,后者设A、B、C、D、E五等11级,每科计入高考总分的满分值为70分,学生须参加全部科目的合格性考试各1次,然后选择参加3科等级性考试各1次”。[8]

3.2 钱学森之问——学考制度设计应为拔尖创新人才培养奠基

钱学森之问“现在中国没有完全发展起来,一个重要原因是没有一所大学能够按照培养科学技术发明创造人才的模式去办学”,大学教育起核心作用,而基础教育起奠基作用,但若高考改革后举国师生仍基于涨分而非个人兴趣而学,谈何兴趣驱动的创新人才涌现?

人具有先天个体差异,伪木桶理论不宜体现到涉及人才培养大计的高考改革中,不能诱导或迫使学生不顾个体差异和兴趣平均发展,制度制定与执行应鼓励学生兴趣、特长科目发展。招考改革应尊重个性,让考生发挥比较优势,而非盲目全面发展。美国著名教育工作者George Reavis在1940年写了一则在世界广为流传经久不衰的教育寓言故事《寓言学校》(The Animal School),[27]该寓言传递了一条公认的重要信息:学生是独特的个体和独特的学习者,忽视这点的教育改革毋庸置疑将置学生于失败结局。

本文作者在《国家中长期教育改革和发展规划纲要的10条建议》(获教育部办公厅和中国教育报举办“谋划教育事业科学发展——我为纲要献计献策”征文二等奖)一文建议高考模式应为“达标+特长”(或“共同基础+个性发展”)模式,达标促使学生达到课标基本要求,如文理分科取消问题可此框架解决,以有效避免严重偏科,达标的保证机制是实施高中学业水平测试,其中的共同基础采用标准参照性质的学业水平处理,个性发展采用大学不同专业对科目不同要求,体现考生选择权和学科兴趣,以打破目前“模式化人才”的培养思路”。[28]

本轮高考改革的国家指导文件《国务院关于深化考试招生制度改革的实施意见》[5]和《教育部关于普通高中学业水平考试的实施意见》[4]都明确提到“实施学业水平考试……避免严重偏科”,而非措辞“避免偏科”,其中的“严重”二字至关重要,对具体学考方案制定意义重大。

《国家中长期教育改革和发展规划纲要(2010—2020年)》总体战略提出,要“培养造就数以亿计的高素质劳动者、数以千万计的专门人才和一大批拔尖创新人才”。[29]美国在高中阶段开设AP课程鼓励学生先修大学专业课程,鼓励学生根据个性发展优势学科,然而我国传统高考各科“齐步走”弊端较多,不利于中学阶段拔尖人才培养,清华大学附中校长王殿军对我国忽视中学阶段拔尖人才培养也深感忧虑。[30]本轮高考改革国家改革方案设计最大的亮点之一就是体现以人为本,体现对公民个体选择权的尊重,并为此提供招录制度保障。若地方具体政策制定或执行时出现偏差,可能有损国家意志之初衷,特别有损我国拔尖人才培养大计。

对不计入高考招录的非选考学考科目实行等第成绩报告,必迫使考生紧盯每门学科以获取更多更高等级,以在录取中获取优势。学考等级在高校录取中的“门槛要求”导致许多高考高分学生被剥夺了上理想大学的机会,江苏自2008年开始将学业水平测试成绩与高校录取“硬挂钩”,不同类别高校在录取时对学考等级设报考门槛,如曾被媒体广泛报道的2008年南京高考文科状元曾因学业水平测试两门选修科目非双A而失去报考北京大学的资格,最终只能被南京大学以破格形式录取。[31]若考试方案提供了等级成绩报告体系,高校招录新生时可能要求考生获取一定的合格性学考科目等级,若完全不参考,则教育考试部门的等级成绩报告也失去了任何意义。

定位不当剥夺了学生自由选择权利,广大学生被迫在每门学科进行恶性竞争性考试,增加课业负担和考试焦虑,且考试焦虑感渗透时间更长,高压力感持续时间可能超原高考方案。若此显然有违国家高考改革总体设计指导思想,有违以人为本的教育改革思想。

科学合理的方案应引导学生在不严重偏科的前提下,给学生偏科的自由,否则何以体现学生的自由选择权?何以鼓励学生发展自己的兴趣和优势学科以打破我国长期以来基础教育阶段学生模具化培养之窠臼?

3.3 学业水平考试的定位与功能

《国务院关于深化考试招生制度改革的实施意见》规定“完善高中学业水平考试。学业水平考试主要检验学生学习程度,是学生毕业和升学的重要依据”。[5]与“毕业”和“升学”相呼应,国家学考指导文件将学考分为两类即不计入高考招录的合格考科目学考以及计入高考招录的选考科目学考,[4]故严格说来,国家学考方案实质上囊括了两类性质不同的测试即上海高考试点方案细化出来的合格性考试和等级性考试,故国家学考方案称呼的“学业水平考试”乃泛化概念,计入高校招生录取总成绩的学业水平考试3个科目成绩以等级呈现,其他科目一般以“合格、不合格”呈现,其中的“一般”二字为浙江版高考试点的学考方案定位埋下了伏笔。国家学考方案中的“等级”计分的等级依据,严格地说,应指课标约定的学业等级,而非取决于考生群体赋级,但浙江和上海学考方案都将考生的等级成绩与考生群体挂钩,故同一考生在相同科目不同考次获得的相同等级缺乏可比性,这导致一科多考存在成绩解释疑义,严格来说,所谓的等级考试并非实质上的等级考试,诚如浙江省教育考试院分管高中学业水平考试工作的刘宝剑副院长坦言,“普通高中学业水平考试(以下有时简称高中学业考试)应当是一种基于普通高中学业标准的水平性考试,学生通过考试证明达到了哪一级标准,就可以给予相应的水平认定!这就完全不同于选拔性考试:高中学业考试一是更加注重考试标准的科学性、客观性;二是更加注重考试工具(主要是试题)的效度,能够准确、清晰地检测出考生的学业水平;三是因为不是为了选拔,所以虽然也要判定考生的水平等级,但不强调区分度,不强化考试的甄别功能!但是,水平性考试是一种标准参照考试,需要有严谨清晰的学业标准考试标准和与此相配套的大容量题库,这在较短时间内是无法做到的,因此,目前的高中学业考试只能是“具有一定标准的常模参照考试”。[32]既然如此,上海方案合格考举措更妥,针对各科必修部分命题,既然目前等级标准缺失,可仅分为mastery/non-mastery或pass/fail报告成绩,以达到高考改革总体方案避免学生严重偏科的倾向。

纵观各省市区出台的传统学考方案(注:国家2014高考改革方案颁布前),传统学考存在定位模糊或百花齐放的局面,[33]虽学考定位为标准参照测验,但分数解释并非标准参照解释。部分省份学考失控,导致各种学考乱象,如舞弊丛生,成绩报告体系失范。

任何测评的定位问题都是首要问题,这对后续的考试大纲研制、命题以及成绩报告与分析等影响深远,且定位也影响教学,故定位不妥对测试实践和测试结果的使用都将带来不良后果。例如,定位影响命题,即使存在分数混合解释,不同定位(倾向于常模参照或标准参照解释)仍影响试题命题,[21:42]又如,标准参照测验不考虑分散学生成绩,而常模参照测验会考虑尽可能分散考生成绩。[34:370]

从浙江学考方案的成绩报告方法推断,定位倾向于常模参照考试,因报告的成绩不是与某个标准进行参照,而是参照其他考生的测试表现,浙江学考对应于上海方案的合格考,两地对非选考科目学考进行了明显不同的定位。

我国学考制度的功能或目的需要合适定位,合格考的目的是避免学生严重偏科,选考的目的是鼓励学生自由选择兴趣科目,系选拔性测试,故合格考宜定位倾向于标准参照测验,而选考应倾向于常模参照测验。

其实,部分学者认为传统学考定位应不同于选拔性考试,如高考改革政策研究专家刘海峰认为高考是典型的高竞争、高利害、高风险的大规模选拔性考试,高中学业水平考试是检测高中生学业成绩的水平性考试,两者性质不同;[2]许多学者倾向于将学考定位为标准参照测验。[33][35][36][37][38][39][40]

综上所述,我国学考适宜分为两类即不计入高考招录的合格考科目学考以及计入高考招录的选考科目学考,前者定位为基于双重分数解释的常模相关—标准参照测验,将后者定位为基于双重分数解释的标准相关—常模参照测验,命题分别倾向于标准参照解释和常模参照解释。

3.4 学业水平考试与减负精神

鉴于我国教育内外环境以及部分用人单位畸形重视学历文凭等不当用人机制等复杂原因,我国基础教育阶段学生普遍负担沉重,各级政府和教育主管部门对减负一直重视,《国家中长期教育改革和发展规划纲要(2010—2020年)》四提“减负”,纲要提出了指导我国高考的新三原则——“有利于科学选拔人才、促进学生健康发展、维护社会公平的原则”,[29]而招考制度的减负元素是促进学生健康发展的重要维度。高考改革方案制定时也明确提到减负,如2014年9月4日,国务院新闻办公室召开的新闻发布会上,教育部副部长刘利民强调,“这次改革我们是努力减轻学生过重的课业负担”。

2014年出台的浙沪版高考试点方案已竭力体现减负精神,如浙江方案合并了沪版方案中的合格性考试和等级性考试(各科在学考“必考题”基础上增加“加试题”,选考与高中学考同期进行),浙江方案此举意图通过减少考试次数来减负并降低考务成本;上海方案中,学生同一科目参加两次不同用途(合格性考试和等级性考试)的考试,上海方案规定各科目合格性和等级性考试,高中生只能参加一次,此举缓解了上海方案同一科分合格考和等级考后考次增加问题,但减少了考生选择自由,似延续了传统高考一考定终身之弊。因高考改革的高度复杂性,不宜苛求试点方案解决一切问题。

然而,浙江学考方案(非选考科)的高中学考成绩采用等级制,设A、B、C、D、E 5等,E 为不合格,以卷面得分为依据,A、B、C等按15%、30%、30%最接近的累计比例划定,E等比例不超过5%。此举与国家学考指导政策不符,“计入高校招生录取总成绩的学业水平考试3个科目成绩以等级呈现,其他科目一般以“合格、不合格”呈现。[4]教育部对非选考的计分建议是妥当的,上海方案贯彻了这点。教育部的解读中,“除了进入高校招生录取总成绩的科目以外,其他学科达到了国家规定的基本教学要求,考试合格即可”,这构成了负担减轻的第一条理由。[41]可见,国家高考改革顶层设计方案已考虑减负问题,各省份在细化操作中是否确保具体高考改革方案吻合国家高考顶层设计,需要具体分析具体方案才可得出结论,甚至需要通过至少一轮试点才可得出结论。

对于浙江学考制度,“对合格考科目进一步细化等级是否会加重负担,对这个问题的看法仍存在分歧,据记者了解,从目前全国的普遍情况看,(传统)学业水平考试多数都采取多等级划分,[41]由此可知,将合格性考试性质的学考细分等第报告成绩是传统的学考实践,若我们延续传统的学考制度的等第成绩报告制度,则减负无法体现。等级制报告分数势必刺激加重负担的全面平均发展的传统倾向,如刘海峰教授担忧“全面实行高中学业水平考试,可以解决学生偏科的问题,但又可能会出现学生负担加重的问题”。[2]

此外,浙版方案合格考科目的等第成绩将被高校如何使用?是否会被高校录取作为依据或仅作参考,目前尚无高校方面的官方观点,更无操作实践。高考改革历史上,出现过类似举措的教训,“本来只是达标性的水平考试,就因为与高考有了或硬或软的挂钩,考生的学习压力就此被无限放大。学生除了应对高考,还要应对学业水平考。抱着宁缺毋滥的心理,学校加班加点补课,学生拼命备考,力争每科考A”。[42]

合格考科目定位不当导致师生提高备考强度,迫使命题绝对难度上升,形成恶性循环,不断强化的备考力度导致测验成绩的污染(test-score pollution/score inflation),表面上考生成绩虽提高了,但其知识和技能等却未必提高,即分数的增长只是一种幻觉(Black,2001)。[43]

测验分数的常模参照解释鼓励竞争,可能带来副作用,[44]故将学考中的非选考科目定位为标准参照考试,有利于降低考试焦虑感,[11:7]若名义上倾向为标准参照测验,却实质上实行常模参照测验的考纲设计、命题、计分等操作模式,毫无疑问,必加剧考试竞争,让高强度应试之风愈演愈烈,更坏的结果是,学业负担下移到义务教育阶段含初中、小学甚至幼儿园阶段。

测试定位欠妥导致学业负担加重,这与国家教育改革指导方针和国家招考改革的减负精神不符。

3.5 学业水平考试试点方案对命题与计分的挑战

《国家中长期教育改革和发展规划纲要(2010—2020年)》在“完善高等学校考试招生制度”中提出“完善国家考试科目题库,保证国家考试的科学性、导向性和规范性”。[29]高考试题研发、评卷、计分等应尽力体现科学性、导向性和规范性。在高考改革方面,浙江省于2013年在自主命题省份中首创面向全社会征题的制度,有利于克服入闱命题的某些先天性缺陷。

“高考选考科目均采用按较细的等级赋分的方式,将卷面分按事先公布的比例确定等级(浙江设21级、上海设11级),再转换为百分制分数计入总分,相邻等级的分差均为3分”。浙江3门选考科目成绩计分细分为21级(见表1):[8]

这种赋分方案要求被试群体很大,且原始分数服从正态或近似正态分布,测试的原始分数分布是否会完全符合试题开发方预期?特别是在分数区间(score intervals)多达21档的情况下。关于等第计分制,9级计分制(stanines)是国外常见的等级计分方式之一,桑代克认为九级计分制的目的是减少解释小分数差异的倾向,[45:131]更多的还有10级计分制(Sten scores),然而,对选拔性目的的选考采取削减分数差异的等第计分制似欠妥。调取以前高考原始成绩按本计分方案进行多次模拟计算,以确保命题的原始分数分布能够满足这样的赋分体系且技术处理措施不至于影响测试公平。

针对测评成绩报告和解释的研究相对较少,较全面的一篇综述论文是Goodman&Hambleton(2004)发表于Applied Measurement in Education的Student test score reports and interpretive guides:Review of current practices and suggestions for future research,建议成绩报告体系制定时参考测验的试测流程,也面向成绩报告的预期接收人进行模拟报告。[46:689]

命制出考试统计结果与预期一样的试题是一件非凡的任务。[21:384]根据表1所示,命题专家应确保考生总数的1%获得原始分满分或某最高分数区间(如94~98分),比例不能大,也不能小。万一试题难度不在最理想化的状态,如试卷偏离理想难度而偏易,若原始分满分人数就超过考生总人数的1%,此时如何赋分?同样,若试卷难度偏离理想难度而偏难,文件规定的“第21等级比例不超过1%”如何控制?

浙江方案中选考科目赋分极差为60分(起点赋分为40分,最高100分),从考试时间偏短推断,试卷长度或试卷题量较小,依靠有限的题量拉开分值差距似有不小难度。

此外,测验的计分方式应服务于测验目的和功能,不宜为了反“分分计较”来迂回计分方式,浙江版和上海版定位为(选拔性)常模参照测验的选考科目考试的计分均采取了以下方式:分数(原始分)→百分比区间→等级→导出分数(校准分),此分数导出模式的理据或意义存疑,导出分数区分作用降低反而与选拔性测验要求分数差异大以区分受试的客观需求矛盾。因常模参照测验主要用于入学等目的,命题应使考试分数差异性最大化;[17]既然选拔性考试的目的是区分受试,测验成绩的差异性非常重要(Shavelson,Baxter&Gao,1993;Yen,2003)。[18]

命题被视为一门创造性艺术(Ebel 1951,Wesman 1971,Haladyna,Downing&Rodriguez 2002)。[47]学考方案对命题与计分是很大挑战,加之国情所限导致测验欠专业化或标准化,使情况复杂化。国家教育考试改革指导委员会专家组成员杨慧中教授认为“我国的考试项目特别是高利害考试采用的试题几乎都未经试测……大规模高利害考试的设计、开发与实施是一项浩大的工程,必须达到一定的质量标准…”[48]国外对高利害测评的重视和投入力度多比我国大,尽管我国考生数量庞大,如美国在大幅改革托福考试(TOEFL iBT)前进行大量投入,试题从规划设计到创题、试测以及最后组卷历时5年之久。[49]5年周期是指前期托福新题型改革之初研发耗时很长,之后的正常命题周期Kunnan认为不会这么长。[23]

表1 浙江选考科目的成绩等级、计入总分的分值和人数比例

我国应尽早引入科学专业的考试流程以及制定指导与约束教育测评实践的国家标准,大规模高利害测验命题含基本的测验规划、命题、试测、试测数据分析、试题修改五大基本程序,[12:234]以提高命题质量,让高利害考试满足各利益攸关方需求,如教育质量监控和人才选拔等。

4 政策建议或进一步讨论

尽管测评改革的本意是为利益攸关方带来有益后效,但可能出现事与愿违的情况,导致“测评改革可能不会带来预期的后效,甚至给利益攸关方带来有害后效”(Bachmann and Palmer 2010)。[50]若建立在科学民主决策思想上的国家重大教育改革决策从前瞻性以及建立在对境外相关理论与实践深入研究基础上,一些本需试点后才能显现的瑕疵可能尽早凸显,得到及时纠偏,有助于改革顺利推进。下文提供的政策建议仅供读者或有关决策方参考或讨论。

4.1 建议科学定位学考

对非选考性质的合格考学考定位为倾向于常模相关—标准参照测验,按标准参照测验的学术规范进行考试大纲研发、考试命题以及成绩报告和解释等。提供的成绩常模解释可同时为国家教育质量监控体系服务,为国家教育改革提供决策参考。不宜让本应倾向于标准参照测验的学考承担高考选拔功能。建议将非选考性学考科目成绩作为大学录取的前提条件,此举仍符合国家顶层高考制度设计提到的“两依据一参考”的高校招录原则。选考则定位为常模参照测验,以利科学选拔人才。

4.2 建议学考方案分别设计合格性考试和选考性质的等级性考试

在上述指导思想下,区分合格考和等级考即推广上海方案关于学考的举措。前者不再细分等第,即仅分为合格/不合格,若合格区间细分等第,则涉及国家高中各科课程标准大幅度修订时增加不同等级的内容标准以指导教学与命题,而不宜按考生群体的百分位比例简单细分等级,且试点方案中近乎理想化的学考等第分布要求对命题是巨大挑战,特别是在我国各地高考命题专业化程度和命题水平参差不齐以及我国大规模高厉害测试基本未开展试测采集试题参数的国情下。从可行性和可操作性出发,将合格性考试定位为高中毕业标准考试,而让高考核心科目(语文、数学、外语)和3门选考科目考试承担高招选拔主要功能。

4.3 建议加强对对学考命题专业化提升与资源整合

非选考科目的学考命题基于各科课标核心和最基础内容,且难度保持年度间相对恒定,以免分数通胀(score inflation),除非国家课标修订后提高或降低对学生的要求。选考科目进行等级赋分的学考科目试卷单独命题,不宜附加到合格性学考试题后作为加试部分处理,否则有限的考试时间和题量难以区分大量考生。

为维护高利害国家考试的公平性和权威性,各科全部试题原创是命题的最基本要求,不宜简单选用或改编陈题。目前一年一度的高考命题要求命题人员与外界隔离40天(左右),如果一年两次,势必影响其正常工作,缺乏可持续机制。[51]为了克服我国传统入闱命题的问题和某些先天性弊端以确保命题质量,研究借鉴国外命题机制。浙江省实施的面向社会各界征集高考试题具有重大意义,值得各地高考考务机构研究借鉴。

整合命题资源,创新命题机制,结合国情借鉴境外措施,确保命题质量。对原来毫无高考自主命题经验的省份,更需要资源整合以操作升级后的学考,尽早考虑全国划片区成立片区命题中心,整合命题资源,节省命题成本。[52]

教育测评尽早与国际接轨,出台测评伦理和技术规范,出台命题纠偏机制科学处理测评失误,如《教育领域公平测试行为准则》(The Code of Fair Testing Practices in Education(Code))第二部分第6条:“纠正影响成绩解释的错误,并且及时沟通纠正后的成绩”。[53]

4.4 建议对选考科目提升分值并对多考进行等值处理

对选考的成绩报告教育部学考指导文件规定“以等级呈现成绩的一般分为五个等级,位次由高到低为A、B、C、D、E”,[4]该文件无再次将等级转换为数字分值的内容,浙江和上海试点方案都将选考等级转换为对应分值,且各选考科分值都远低于核心科目语数外的分值,如浙江方案选考科目每科满分100分,最低分40分;上海等级考每科满分70分,最低分40分,三科合计仅90分的有效区分分数,从技术上导致考分差异度(test score variance)不高,且极大削弱了选考科目在高考招生录取中的学科权重,不利于部分学科在基础教育阶段的发展。笔者认为学考中计入高考录取总成绩的选考科目的各科转换后的满分分值宜比照核心科目分值大幅度提高或与核心科目同分值,一是确保大规模考试测试成绩的合适差异度以利大学选拔人才,二是不至于大幅弱化考生兴趣或优势学科的贡献度,否则势必导致大量考生功利性地在占比最大的核心科目进行白热化的竞争,不利于引导学生充分发展优势科目,不利于引导学生在基础教育阶段为大学继续深造成为拔尖人才而打下牢实的基础和积累一定的学科素养。

根据浙江学考方案,学考等级的划分方法决定了考生等级成绩与考生群体和试题难度密切相关,考生有两次学考机会,从测试公平和科学性考虑,基于原始分和考生群体的成绩报告机制值得商榷,按理论要求与国际惯例,两次学考应进行等值处理,否则两次考试成绩无可比性,有损测试效度和公平,后果是诱导考生盲目参加某学考科目的两次考试机会以使利益最大化,必增考试焦虑感,有违高考改革的减负精神。等值处理方法影响考试公平,等值是测验公平性的保证。[54][55]世界等值研究权威专家Kolen&Brennan认为,为了避免不同考次之间难度不同缺乏分数可比性,大多数大学入学测验应用等值处理。[56:2-3]我国大学英语四六级考试在等值方面研究较多,可资借鉴,如《大学英语四、六级考试分数的机助百分位等值研究》。[57]

4.5 建议国家研究预案避免考生投机性选考

对计分进行科学化和专业化处理,如校验选考科目的分数等,[58]否则考生和其他利益攸关方必然进行投机性选考,那些相对更易获取高分的选考科目会受到追捧。美国的SAT subjects报考科目也有类似投机现象。同时,改革主管部门最好组织各高校或科研院所的不同专业方向的学科专家协同研讨,不同专业对高中生哪些科目进行选考要求,从人才培养的角度考虑,似不应赋予考生过大的科目选择自主权,或某专业限定考生必考某2门和高校专业密切相关的高中学科,而留下一门学科由考生自选。给考生的选择权主要体现到考生选择不同的专业方向,不同专业方向对应不同的科目组合。

4.6 建议国家制定学考命题依据的国家统一内容标准

非选考性学考(如上海方案中的合格考)命题若基于修订后的各科高中课程标准,而因各科课标是全国统一的,课标对学生毕业最低要求相同,基于同一个等级(若出台科学的可指导标准参照测试命题的课标)的学考命题绝对难度和考试命题的内容依据理应相同。若学考不是基于既定标准的测验(criterion-based assessment),受试成绩与受试群体相关,因全国各省份教育发展水平很不均衡,若各省学考命题绝对难度各异,可能催生投机性的学考移民现象。

此外,高利害测验性质的合格考的合格标准的制定非常重要,不应随意制定,而应基于实证研究,并经得起检验。

4.7 建议国家加强对学考的具体指导、评估和监督

各省份学考的命题、施测、评卷和成绩报告等各个环节应专业化和科学化。我国各地命题水平不一,建议教育部组建全国高中学业水平考试专家委员会,加强指导,维护学考的权威性和公平性,同时负责处理考后答案异议的处理机制如对瑕疵试题进行评卷技术操作,避免因命题或考务失误危及考生权益和测试公平。[59]

4.8 明确学考为国家级考试,强化考务管理,避免学考“形式化”

为了避免最新一轮高考方案中的学考沦落为不受重视的传统学考,教育部学考指导文件已明确学考按国家级教育考试严格对待,[4]教育部督促各地认真执行国家教育意志,对学考加强考务管理。为彻底扭转传统学考的一些负面印象,建议教育部强化对各地学考考场的严格监控,并要求考场监控视音频3年存档期限。只有从考务上确保各地考场各地考生完全无法作弊,抵消非选考性学考成绩不与高考录取硬挂钩的弊端,督促各地认真对待非选考的学考科目的日常教学和学习,才能有效抑制严重偏科现象。

致谢:江西师范大学丁树良教授、北京语言大学教育测量研究所谢小庆教授、美国伊利诺伊大学语言学、教育心理学等Fred Davidson教授,以及美国应用语言学家Antony John Kunnan教授对本文亦有贡献,特此致谢。(仅本文作者对文中疏漏负责。)

[1] 新华社.习近平:改革要做到“蹄疾而步稳”[EB/OL].[2014-01-22].http://news.xinhuanet.com/2014-01/22/c_119087717.htm.

[2] 刘海峰.高考与高中学业水平考试如何挂钩[EB/OL].中国教育报2013年12月9日第7版.[2015-03-23].http://paper.jyb.cn/zgjyb/html/2013-12/09/content_335505.htm?div=-1.

[3] 袁贵仁.高考改革要能接受不同意见[EB/OL].[2015-03-23]http://lianghui.people.com.cn/2015cppcc/n/2015/0308/c393682-26656207.html.

[4] 教育部.教育部关于普通高中学业水平考试的实施意见(教基二[2014]10号)[Z].2014.

[5] 国务院.国务院关于深化考试招生制度改革的实施意见(国发[2014]35号)[Z].2014.

[6] 教育部.教育部2015年工作要点[EB/OL].[2015-03-10].http://www.moe.gov.cn/publicfiles/business/htmlfiles/moe/moe_164/201502/183971.html.

[7] 袁贵仁.全面深化综合改革 全面加强依法治教加快推进教育现代化——袁贵仁部长在2015年全国教育工作会议上的讲话[EB/OL].[2015-03-10].http://www.moe.edu.cn/publicfiles/business/htmlfiles/moe/moe_176/201502/183984.html.

[8] 边新灿.新一轮高考改革浙江、上海方案深度比较研究[J].中国考试,2015(2):3-7.

[9] 杨学为.中国考试大辞典[M].上海:上海辞书出版社,2006.

[10] 戴海琦,张峰,陈雪枫.心理与教育测量(修订本)[M].广州:暨南大学出版社,2007.

[11] Henning,G.A Guide to Language testing:Development,Evaluation and Research[M].Foreign Language Teaching&Research Press,Heinle&Heinle/Thomson Learning Asia.1987.

[12] Cohen,R.J.,&Swerdlik,M.E.Psychological testing and assessment:An introduction to tests and measurements(7th ed.)[M].Boston,MA:McGraw-Hill,2010.

[13] Paker,T.The Backwash Effect of the Test Items in the Achievement Exams in Preparatory Classes[J].Procedia-Social and Behavioral Sciences,2013 Vol.70,1463-1471.

[14] Achievement tests.[EB/OL].[2015-03-09].http://psychology.ucdavis.edu/faculty_sites/sommerb/sommerdemo/stantests/mental.htm.

[15] Achievement test.[EB/OL].[2015-03-20].http://en.wikipedia.org/wiki/Achievement_test.

[16] Brown,J.D.Second language studies:Curriculum development.In K.Brown(Ed.in Chief),Encyclopedia of Language and Linguistics(2nd ed.)[M].2006,Volume 11(pp.102-110).Oxford:Elsevier.

[17] Hambleton,R.K.,&Gorth,W.P.Criterion-referenced testing:Issues and applications[M].Paper presented at the annual meeting of the Northeastern Educational Research Association,Liberty,New York,1970.

[18] Wikstro¨m,C.Criterion-Referenced Measurement for Educational Evaluation and Selection[M].Dissertation No 1.Umea°:Umea°University,Department of Educational Measurement,2005.

[19] Oescher,J.,Kirby,P.C.,&Paradise,L.V.Validating state-mandat-ed criterion-referenced achievement tests with norm-referenced test results for elementary and secondary students[J].Journal of Experimental Education,1992,60(2),141-150.

[20] Mehrens,W.A.&Ebel,R.L.Some Comments on Criterion-Referenced and Norm-Referenced Achievement Tests[J].NCME Measurement in Education,1979,10(1).

[21] Miller,M.D.,Linn,R.L.,&Gronlund,N.E..Measurement and assessment in Teaching,10th.Edition[M].Upper Saddle River,NJ:Pearson Education,Inc.2009.

[22] Davidson,F.Personal communication(私人交流).March 17,2015.

[23] Kunnan,A.Personal communication(私人交流).March 17,2015.

[24] 罗莲.告别“标准参照测验”和“常模参照测验”的二元划分[J].中国考试(研究版),2007(6):18-22.

[25] 全国大学英语四、六级考试委员会.大学英语考试的性质[EB/OL].[2015-03-21].http://www.cet.edu.cn/cet_concept1.htm.

[26] American Educational Research Association(AERA),American Psychological Association(APA),&National Council on Measurement in Education(NCME).Standards for educational and psychological testing[M].Washington,DC:American Educational Research Association,1999.

[27] Reavis,G.The Animal School[M].Crystal Springs Books,1999.

[28] 陶百强.关于《国家中长期教育改革和发展规划纲要》的10条建议.[2015-3-15]http://blog.sina.com.cn/s/blog_4c6b35860100kvra.html.

[29] 国家中长期教育改革和发展规划纲要(2010—2020年)[M].北京:人民出版社,2010.

[30] 王殿军.努力培养拔尖创新人才[J].人民教育,2011(Z1):4-7.

[31] 刘决生.我国普通高中学业水平考试存在的问题对策[J].上海教育科研,2010(3):39-42.

[32] 刘宝剑.普通高中学业水平考试制度设计的十个关键[J].上海教育科研,2014(1):20-23.

[33] 李欣.中美高中学业水平考试多维比较研究[D].上海:华东师范大学,2011.

[34] Fulcher,G.&Davidson,F.Language Testing and Assessment:An Advanced Resource Book[M].London and New York:Routledge,2007.

[35] 雷新勇.我国学业水平考试的基本问题及反思[J].教育测量与评价(理论版),2010(1):4-14.

[36] 王焕霞.高中物理内容标准和学业水平考试的一致性研究[D].重庆:西南大学,2012.

[37] 王焕霞,廖伯琴.我国高中学业水平考试的实践困境与制度审思[J].教育学报,2011(6):77-83.

[38] 杨向东,课程标准的开发与基于标准的学业水平考试的设计:美国的经验与启示[J].考试研究,2010(1):109-125.

[39] 崔允漷,夏雪梅.试论基于课程标准的学生学业成就评价[J].课程·教材·教法,2007,(27)1:13-18.

[40] 杨向东,崔允漷.关于高中学业水平考试的比较研究[J].全球教育展望,2010(4):7-14.

[41] 施久铭.高中学业水平考试:面向高利害的挑战[R].人民教育,2014(19):15-18.

[42] 李欣.教育公平视域下的高中学业水平考试:聚焦与透视[J].中国考试,2012(8):58-64.

[43] 吴丽君.苏格兰与英格兰小学阶段之国家考试的比较研究[J].国立台北师学院学报,2001(14):35-56.

[44] 郑日昌.标准参照测验的统计方法[J].中国考试,1991(3).

[45] Thorndike,R.L.Applied Psychometrics[M].Boston,MA:Houghton Mifflin,1982.

[46] Downing,S.M.,&Haladyna,T.M.(Eds.).The handbook of test development[M].Mahwah,NJ:Erlbaum.2006.

[47] Green A.&Hawkey R.An empirical investigation of the process of writing Academic Reading test items for the International English language[M].IELTS Research Reports 2007,Volume 11.

[48] 杨惠中.关于我国外语能力测评体系建设的几点思考[J].中国考试,2015(1):12-15.

[49] Kunnan,A.J.Large scale language assessments.In E.Shohamy&N.Hornberger(Eds.),Encyclopedia of language and education(2nd ed.)[M].Vol.7,Language testing and assessment,pp.135-155.New York:Springer,2008.

[50] East,M.Coming to terms with innovative high-stakes assessment practice:Teachers'viewpoints on assessment reform[J].Language Testing,2015,32(1):101-120.

[51] 王守仁.高考改革要从中国国情出发[J].外国语,2014(6):15-17.

[52] 陶百强.加强高考命题科学性提高高考命题的质量——以2006年分省自主命题失误为例[J].中小学英语教学与研究,2007(3):45-51.

[53] Code of Fair Testing Practices in Education,Washington,DC:Joint Committee on Testing Practices,2004.

[54] 谢小庆.考试分数等值的新框架[J].考试研究,2008(2):4-16.

[55] 谢小庆.对15种测验等值方法的比较研究[J].心理学报,2000,32(2):217-223.

[56] Kolen,M.J.&Brennan,R.L.Test equating,scaling,and linking.Methods and practices(Third Edition)[M].New York,NY.Springer.2014.

[57] 朱正才,杨惠中.大学英语四、六级考试分数的机助百分位等值研究[J].现代外语,2004(1):70-76.

[58] 温忠麟,罗冠中.高考分数的转换、校准和合成[J].中国考试,2010(11):9-16.

[59] 陶百强,李明楷,李建平.对我国高考英语命题中建构性题型答案可控性的探讨[J].中国考试,2014(10):22-34.

猜你喜欢

测验学业科目
艰苦的学业
多科目训练见招拆招练硬功
基于数据挖掘的学业预警模型构建
高校开设专业的首选科目和再选科目要求浅析—以法学(类)专业为例
音乐提升学生学业表现
《新年大测验》大揭榜
高考“新科目”
两个处理t测验与F测验的数学关系
你知道吗?
35