APP下载

关于我国外语能力测评体系建设的几点思考

2015-01-30杨惠中

中国考试 2015年1期
关键词:外语标准化分数

杨惠中

我国教育考试规模大、社会权重大,往往成为社会关注的热点,“分数面前人人平等”是社会普遍接受的原则,对保证教育公平与社会稳定起了重要作用。但是考试作为评价学生知识和能力水平的唯一手段,尚存在一些目前无法解决的难题。社会期待考试改革,国务院在2014年9月3日发布的《关于深化考试招生制度改革的实施意见》(以下简称《实施意见》)中明确提出改革考试形式和内容,其中加强外语能力测评体系建设首次在国家层面提出。因此,适时启动外语能力测评体系项目是深化考试改革、提升考试质量和功能的重要举措,有利于考试更好地为教学服务。在这一项目确定的五项主要任务中,制定国家外语能力量表和制定适合我国国情的外语考试质量标准是我国教育考试改革中的基础工程,这两项基础工程的完成将为建立科学的教育考试制度提供强大的技术支持,对我国语言测试、语言教学产生深远影响。以下从教育考试学术性的角度对建设我国外语能力测评体系谈几点看法。

1 建设外语能力测评体系需要顶层设计

我国外语能力测评体系的建设涉及国家、行业、专业等方方面面,需要从全局角度,运用系统论的方法,对项目进行统筹规划,以集中有效资源,高效快捷地实现既定目标,因此做好顶层设计是这一项目成败的关键。

在进行顶层设计时,必须正确处理考试、教学与考试结果的使用三者的关系。考试、教学和考试结果的使用,三者构成一个系统,要发挥系统的作用,三者必须相互协调,各司其职、各尽其责,做到有效测试、有效教学、有效使用,才能取得整个系统的最佳效果。

一谈到教学改革,谈到考试改革,人们往往大谈考试的反拨作用和后效,有一种泛化的趋势,仿佛教育中的一切问题都是考试造成的。事实上考试的作用是有限的,考试有好坏之分,教学也有好坏之分,考试结果的使用还有正确与否、恰当与否的区别,不能一概而论。这里有学术问题,也有社会问题;有测试问题,也有教学问题;有测试的内容问题,也有测试的形式问题。这些问题纠结在一起,需要擘肌分理,一一澄清,否则无法得出正确的结论。

“考试内部诸因素的关系,如命题、管理、评分等,是考试的认识论方面的问题;而考试与其外部诸因素的关系,主要是与政治、经济、教育的关系,是考试社会学方面的问题。历史的经验反复证明,认识论方面的问题,会决定考试的质量,而社会学方面的问题,则决定考试的存亡。”[1]因此,外语能力测评体系的设计既要考虑测评体系本身的科学性问题,同时还要兼顾考试的社会学问题。

2 建设外语能力测评体系要立足于我国语言教育和测试的实际

我国的语言教学环境和教育体制与其他国家和地区存在或大或小的差异,这些差异决定我们不宜直接采用或照搬其他国家和地区现成的语言能力等级量表,而是应该立足于我国语言教学与测试的实际,同时参照现代先进的语言教学、学习和测试理论,从我国国情出发,注重标准的科学性、可操作性和前瞻性。[2]

3 关于有效测试的标准

3.1 有效测试就是保证考试的科学性和公平性

考试的最大政治要求就是公平,这是整个社会的期待。我国有1 300多年科举考试的历史,考试在我国享有很高的威信,公众普遍接受考试是相对公平公正的选拔、评价和录用人才的方法,是维护社会公平、公正的道德底线,“分数面前人人平等”,考试公平合理,从不质疑考试本身的质量。但是,如果考试的分数不能准确反映学生的能力水平,或者测量的误差很大,那么公平就成了问题。“分数面前人人平等”体现的仅仅是程序公平,测量公平不能保证,考试的有效性就无从谈起。

保证测量公平,就是要保证考试的科学性,也就是要做到有效测试,这里涉及考试的效度、信度、分数可解释性、分数等值处理等一系列技术和学术问题。一项考试的规模越大,考试的社会影响越大,保证考试的科学性就越重要。

但是在我国诸多的考试项目中,能达到上述考试技术要求的可谓凤毛麟角。效度是考试的核心问题,开展效度研究并公布效度研究结果的考试项目极少。关于考试的信度,我国的考试项目特别是高利害考试采用的试题几乎都未经试测,试题难度的稳定性在考试前无法保证,这就好比用一把没有校正的尺子,直接用来对几十万、几百万考生进行测量,风险不可谓不大;此外,主观题评分误差不能得到有效控制也是影响考试信度的主要因素。关于分数的可解释性和可比性,目前国内考试项目大多数只提供给考生一个原始分数,至于与分数对应的考生的能力和水平无从知晓,再者因为分数没有经过等值处理,多次考试的结果无法比较,考生无法知晓自己的进步程度,教学机构也无法针对考生的情况进行有针对性的教学。

因此,国家外语能力测评体系在建设中一定要保证测量的有效性,整体考虑试测、等值、主观题评分、效度等影响测量科学性和公平性的因素。

3.2 有效测试应达到学界公认的教育与心理测量标准

大规模高利害考试的设计、开发与实施是一项浩大的工程,必须达到一定的质量标准。这里所说的标准,是指考试机构的行为准则、考试机构应该遵循的专业质量标准。国家外语能力测评体系的建设,要考虑到考试各个环节并制定相应的专业标准,以规范教育考试行为,同时,标准也将为评价一项考试及其实施的后果提供依据。

我国有各种国家工业标准,考试却缺乏相应的国标。美国1954年就有了《教育与心理测量标准》,到目前已经修订到第6版。我国亟需这样的国家层面的测量标准,以保证测试的有效性。

教育考试是国家的一项基本教育制度,我国必须建立有中国特色的、科学的、符合国际教育测量专业标准的、能够与国际接轨的教育考试测评体系。

4 要努力澄清有关标准化考试的许多误解,继续推进考试的标准化工作

标准化考试始于20世纪40年代的美国,我国从1985年开始探索在高考中实行标准化考试的经验,取得了很大成绩。时任教育部考试中心主任的杨学为说:“所谓标准化考试,我理解,就是各年之间、各科之间的考试,信度、效度、区分度等各项指标都比较稳定地符合最佳标准。这样,虽然各年考题不同,但分值都是相等的;每年可以举行几次考试,其分数都等值;这样,从各年之间考生得分的多少,就可以判断教育水平的提高或降低,这样,就不可能出现试题水平忽高忽低,或这一科容易、那一科难等问题,减少了高考对中学教学的消极影响。”这是对标准化考试的正解,但是还有很多对标准化考试的误解,最常见的就是把标准化考试与选择题等同起来。其结果,一是以为只要是多项选择题就等于是标准化考试,甚至还有人为了节省阅卷成本,主观题统统不要,搞所谓的“全标准化考试”,也就是全部采用多项选择题的考试。显而易见,只有对教育与心理测量毫无了解的人才会有这样的提法,这种做法背离了科学的考试;二是以为多项选择题完全可以考出学生的实际能力。实际上多项选择题的弊端还是很明显的,比如无法考查学生的思维过程,无法考查学生的表达能力。美国早已认识到以选择题为主的标准化考试的弊端,已逐步在考试中增加主观题的考查。实际上要命制好选择题,不但专业要求高,而且需要很高的命题技巧。一个科学有效的试题往往需要经过初审、试测、项目分析、终审这样一个周期,达到试题难度、区分度的要求才能在正式考试中使用。

我国外语能力测评体系的建设要兼顾学生听说读写译各方面技能全面协同发展,正确理解考试的标准化,同时要坚持考试的标准化。

5 测量工具的权威性和统一性

《实施意见》明确指出,2015年起高考增加使用全国统一命题试卷的省份。这一改革方向是正确的,最后应过渡到全国使用同一份试卷。招生考试涉及两个方面,招生是政策性问题,考试是学术性问题,两者应该分离。考试是测量工具,应该保证它的权威性和统一性,对于高考这样的高利害考试,全国应该用同一把尺子去度量考生,以保证它的专业标准,保证社会的公平公正。同时,“全国统考,可以集中全国最优秀的专家,吸取外国的优秀成果,研究考试中的疑难问题,以全国最优秀的成果指导考试工作,集中全国最优秀的教师参加命题,保证试卷质量。考试作为一种服务性产业,其集约化程度越高,专业化越强,其服务质量就可能越高,成本越低。这正是市场的原则——质量与效益。”[3]

由于考试的社会权重极大,必须关注考试的质量问题,教育考试是一项学术性工作,需要尽快制定测量工具的标准,同时考虑到考试的高风险性和社会性,必须对考试有质量监控机制,有审查机制,以判断考试是否达到国家标准,并应把质量监控结果向公众公布。

建立中国英语能力等级量表和建立适合我国国情的外语考试质量标准这两项工作,是我国教育考试改革中的基础工程,将起到“车同轨、量同衡”的作用。前者有望能大幅提高中国人学习英语的效率,做到英语学习不重复、不断线、一条龙;做到分级教学、及时反馈;做到因材施教、循序渐进。后者将保证教育考试的专业质量,有利于人才的选拔,保证教育公平和社会正义。

此外,希望尽快制定我国教育考试法,以保护考生权益、保护语言测试工作者正常工作的权利、保护考试知识产权,把满天飞的模拟试题集之类教育垃圾清理出去,廓清教育市场,或许才有可能解决全社会深恶痛绝的应试教育问题,让教育回归本质,还课堂教学以本来面貌,做到每堂课教有实效、学有实效,让青年学生健康成长,让考试科学地选拔人才,这是广大教师和语言测试工作者朴素的中国梦。

[1][3] 杨学为.中国考试改革研究[M].北京:北京大学出版社,2001:1,351.

[2] 方绪军,杨惠中,朱正才.制定全国统一的语言能力等级量表的原则与方法[J].现代外语,2008(11):380-387.

猜你喜欢

外语标准化分数
标准化简述
分数的脚步
分数的由来
无限循环小数化为分数的反思
可怕的分数
外语教育:“高大上”+“接地气”
标准化是综合交通运输的保障——解读《交通运输标准化体系》
大山教你学外语
大山教你学外语
以标准化引领科技创新