口语测试及分级研究的源流与展望

2020-02-23王跃龙

云南师范大学学报（对外汉语教学与研究版） 2020年3期

王跃龙

(华侨大学文学院，福建泉州 362021)

一、引言

与口语交际能力研究紧密相关的就是口语测试，口语测试是语言测试的重要内容之一。语言测试作为一种测量活动，是随着语言教学发展而来的，其主要目的是评价学习者的语言水平，同时能对教学起到反拨作用。有时候语言测试也被用作工具使用来达到其他不同的目的，如用于鉴别身份，用于控制移民，用于资格授予等。

大体来说，语言测试界占支配地位的研究范式为实证主义。实证主义的研究是实验性和控制性的，强调通过大量样本，严格地量化观察，谨慎地控制变量并用统计方法分析得到结论。要全面测量语言能力，还必须测量它的社会维度，这对语言测试是一个巨大的挑战(1)McNamara，T & Carsten Roever.Language Testing:The Social Dimension[M].Malden，MA:Blackwell.2006.。

口语能力测试是语言测试重要的方面，按测试对象来分，可以分为两类：一类是针对外语学习者的，一类是针对母语学习者的。从次序上来说，最早开始的是针对第二语言学习者的口语测试。测试的结果即是对口语能力的分级。

总体上来看，在语言测试界，大规模的口语测试并不占优势。并非是人们不知道口语测试的重要性，而是因为口语测试是语言测试当中主观性最强的部分。相对于其他测试，口语测试可能是更难以测定和把握的成分。具体来说，就是口语测试评分标准的主观性较强，在操作上的难度较大。

二、针对外语的口语测试及分级的发展

语言测试的总体趋势是由重视语言知识转向重视语言技能，再转向重视语言能力的实际运用(2)韩宝成.语言测试：理论、实践与发展[J].外语教学与研究，2000，(1).。张凯指出，语言测试相当于测量人体的表面温度，因为我们现在还不能深入人脑的内部，不清楚人在进行语言活动时大脑处于什么样的状态(3)张凯.语言测试概论[M].北京：商务印书馆，2013.。这实际上是在告诉我们，尽管有的测试以能力测试命名，但实际上现有的测试都是对现象的测试，通过现象来猜测能力。

(一)测试形式的演变

口语测试的形式经历过几次变革。最初的口语测试是受结构主义测试学的影响。结构主义语言学认为，语言是由语音、词汇和语法等不同层次的成分构成的系统，因此测试是可以分项进行的。这种测试体系以测试口语当中“说”的技能以及与“说”相关的分项技能为宗旨，强调口语形式的准确性和口语技能的熟练性。测试题型包括朗读、复述、补全对话、看图说话、口头报告、问答等。分项测试的做法对学界影响较大，一度成为范式。但是，结构主义的测试主要检测的是知识掌握的情况，很难对学生语言运用和交际能力做出判断。

20世纪80年代开始，受交际教学法的影响，以测试语言运用能力为目标的交际语言测试开始流行，美国OPI(Oral Proficiency Interview)作为当时最有效的口语能力测试工具被广泛推广。OPI是一种综合性的测试程序，并不衡量受试者对语言的各个孤立方面的运用或对这种语言知识的掌握程度。其核心是测试员灵活运用会话技巧刺激被试者完成不同难度的语言输出任务，从而确定其口语能力。

Clark把口试分为直接口试和间接口试两类(4)Clark，J.L.D.Theoretical and technical considerations in oral proficiency testing [A].Randall L J.Spolsky B.Testing language proficiency[C].Bern:Verlag Peter D.Lang,1981.，其中面试型口试即是直接口试的代表。其目的是尽可能多地重现语言实际运用的场景及应用过程。直接口语汇总考官要参与到与考生的互动交谈中，这样一方面可以观察非语言行为，另一方面可以控制整个考试过程，分配考试时间，灵活处理突发情况(5)徐海铭，谢忠明.我国英语专业口语测试现状的理论分析[J].南京师大学报(社会科学版)，2006,(2).。90年代以后，这种测试方式在真实性、参与者、测试形式等方面都遇到了不同程度的质疑。Shohamy et al 指出，直接口语测试虽然有较高的表面效度，但评分的信度比较低。原因之一是评分人员的专业素质参差不齐，其二是评分时间较短，很难做到公正和客观，其三是直接口试的标准化问题(6)Schohamy E.et al.Introducing a new comprehensive test of oral proficiency [J].ELT Journal，1986,40(3).。

90年代，受基于任务的外语教学的影响，基于任务的语言测试方式开始占据主流地位。任务教学法是交际教学法的扩展和延伸，特别强调学习的社会性。基于任务的语言教学吸收了二语习得研究的成果，也继承了部分交际教学法的思想。这种教学方式能更快更有效地提高学生综合运用语言的能力，在教学中得到广泛的应用。这种测试不考核应试者对语言知识的掌握程度，也不对其语言水平评定等级，而是考虑他们是否使用语言完成目标任务，代表了语言测试新的发展方向(7)韩宝成.语言测试的新进展：基于任务的语言测试[J].外语教学与研究，2003,(5).。其中影响最大的是《欧洲语言共同参考框架》。《欧洲语言共同参考框架》是欧洲理事会制定的关于语言教学、学习及评估的整体指导方针与行动纲领。

传统的语言测试多以检测知识掌握情况为主要目的，《欧洲语言共同参考框架》明确指出以评定交际能力作为主要目的和形式，是语言评估历史上的重大变革(8)白乐桑，张丽.《欧洲语言共同参考框架》新理念对汉语教学的启示与推动——处于抉择关头的汉语教学[J].世界汉语教学，2008,(3).。《框架》以行动为导向，在综合前人测试研究的基础上增加了任务复杂度的分级，设置了口语互动的分级标准，把口语互动分为三大类六个小类的等级(分A、B、C三大类，又细分为A1基础级、A2初级、B1中级、B2中高级、C1高级、C2精通级六个小类)。《框架》提出的交际语言能力包括语言能力、社会语言能力和语用能力三部分。每个部分又由知识、技能和应变构成。

韩宝成指出，基于任务的语言测试必须解决两个问题。第一是如何精确地确定、选择和描绘现实中的任务；第二是如何解释测试中使用的任务和现实中的任务之间的相关关系。这两个问题影响到测试的准确性和根据测试所做推论的有效性。我们认为，还有第三个问题必须解决，即是对任务复杂程度的区分。任务复杂度的概念基于这样一个假设，即复杂的概念要求使用复杂的句法结构。因此任务复杂度可以反映概念的复杂度。但实际上“复杂”是个相对概念，针对不同的个体可能是不同的复杂度。罗少茜也指出，学生由于家庭社区和社会文化背景的不同，对同一个任务会有不同的解释。任务难度产生的原因并不局限于语言知识和认知水平，还有社会文化的差异(9)罗少茜.影响任务型语言教学中任务难度的社会文化因素[J].中国外语教育(季刊)，2010,(2).。

怎样确定任务的复杂度则是个难题，如《框架》中A1水平的任务为日常生活和个人细节的表达，C1水平为能够在社交、学术及专业领域自我表达，也就是说默认C1的任务在复杂度上强过A1的复杂度。但实际上，这样的假定并没有明确的判断标准，是存疑的。现实中，我们经常看到某些人能对感兴趣的学术领域进行表达，但对日常生活的互动却不甚成功的现象。这说明很可能主要是语言知识影响了交际的成功，因此任务复杂度并不是适当的评价交际能力的标准。

剑桥商务英语考试(Business English Certificate 简称BEC)口试也具有一定的代表性。BEC口试大体分两个阶段，第一阶段为真实场景下面试官就日常问题询问考生，与考生互动。第二阶段让考试就某一议题展开讨论。这种形式交际目的明确，交互性强，是典型的交际活动。BEC口试评分围绕语法与词汇、语音语调、话语运用和互动交际四个要素进行，前两个是对语言能力的评价，后两个是对语言的交际特点和技巧的评价(10)李传芳.从话语运用和交际策略谈口语交际能力——BEC交际口语测试浅析[J].外语教学，2003,(1).。

国内的外语口语测试起步较晚，是随着经济的发展和对外交流的增多才被提到议事日程上来的(11)徐海铭谢忠明.我国英语专业口语测试现状的理论分析[J].南京师大学报(社会科学版)，2006，(2).。目前针对英语的口语测试影响最大的有大学四、六级口试(12)文秋芳.英语口语测试与教学[M].上海：上海外语教育出版社，1999.。四六级考试要求考生参与不同形式的口头交际，考官参与到口语交际之中，其语言能力将根据其在考试中的表现予以测量。四六级口试采用四个等级(A、B、C、D)的划分形式，A级最高，D级最低。等级描述上也采用任务复杂度进行区分。在评分上看重的指标包括准确性、语言范围、话语长度、连贯性、灵活性和适切性，可以看出，重点还是偏重语言知识。

目前已经进行大学英语大规模录音口语测试的实验和计算机口语测试的实验。也就是说，形式上除了传统的人际对话，还出现了机助测试的新形式。但是，也有学者对这种新形式提出质疑，如录音口试很难让被试表现其口语能力，难以产生口语交际性和互动性的感觉(13)文渤燕.大学英语口语测试探讨[J].外语界，2003，(3).。而且，新形式的发展并没有改变传统的问题。

与四六级考试不同，大学英语专业四、八级考试采用常模评分法，等级或者分数表示的是考生在随机组里的排名，而不是实际的交际能力水平的反映，因此违背了测试的目的(14)徐海铭，谢忠明.我国英语专业口语测试现状的理论分析[J].南京师大学报(社会科学版)，2006,(2).。另外，外语的测试有托福和雅思等。

总体来看，基于任务的测试多为整体测试，也有学者尝试从分项的角度来评定口语水平。如刘颂浩等探讨了从交际策略评定口语水平的可行性(15)刘颂浩，钱旭菁，汪燕.交际策略与口语测试[J].世界汉语教学，2002,(2).。交际策略的特点是针对某一问题的，是有意识的。交际策略分为两种，一种是减缩策略，一种是成就策略。一般来说，语言水平有限的学习者会优先使用减缩策略或者以母语为基础的策略，而高水平的学习者则倾向于使用以目的语为基础的策略(16)Ellis，R.Communicative strategies and the evaluation of communicative performance[J].ELT Journal，1984,38(1):39～44.。采用图片描述任务来比较信息点上的表现差异，这是一个不错的尝试角度，但是图片描述属于单向的输出，与互动的关系不大。分项指标对于单项能力的分级是有意义的，但是能否代表整体口语能力的情况是存疑的，因为个体之间在不同的能力方面可能会存在较大差异，由单一指标断定整体口语能力分级的做法可能存在差错。

总体来看，目前的口语测试主要还是侧重语言知识方面，要全方位考察学习者的口语能力，必须开发包含非言语交际行为维度的评分量表。值得关注的是，潘鸣威开始探讨如何在口语测试中对非言语交际行为进行评价，开发相关的评分量表并进行效度验证(17)潘鸣威.多模态视角下的口语交际能力：重构与探究[D].上海外国语大学博士学位论文，2011.，具有一定的开创意义。将目光交流、手势、头部动作作为主要考察对象，探究非言语交际行为和策略能力之间的关系，把非言语交际嵌入到口语测试体系当中。

(二)评分方式的演变

评分方法对于口语测试这种主观性考试十分重要。如果评分方法不能做到科学、客观和具有可操作性，就很难保证考试的信度和效度。

口语测试的评分通常有三种方式，一种是分析法，也叫作分解评分，一种是综合法，也叫作整体评分。第三种是任务分项评分。

分析法是指把口语分解为语法、词汇、内容、语音语调、流利程度、准确度等若干要素，评分人员根据一定标准对各要素分别评分，各要素得分的总和即为总分。分析法注重各个组成要素，相对客观，信度较高。

综合法是评分人员凭总体印象给考生打分。一般认为，综合法从整体上把握考生的口语表现，效度比较高。虽然在操作上简单易行，不过对评分员的要求较高。也有学者如Oller认为综合评分在等级划分上主观随意性较大，评分信度难以保证(18)Oller，J.W.Language tests at school [M].London:Longman，1979.。

早期结构主义的口语测试多为分析法，后期多为综合法。这是伴随着对口语评价的认识改变而产生的变化，口语评价不完全是看语音、语法等语言知识，而是要看交际效果和交际效率。一些大规模口语测试后来都采用分析法和综合法相结合的方法来评分，既可以保持总体评分的效度，也可以兼顾分项评分的信度。如剑桥大学考试委员会的口语测试有两位评分人员独立评分，一名负责总体印象分，另一名负责用分析法评分，考官之间不相互商议，这样可以增加评分的客观性。

第三种评分方法为任务分项评分，就是考生对每项口试任务的完成情况分别评分，然后根据每个任务得分的情况算出口试总分。

吕长、宋冰等人对三种评分标准进行对比研究发现，三种评分标准在结果上没有实质性区别。分解评分标准是经过严格训练的授权考官使用效度和信度最高的标准，整体评分是经过初步培训的非授权考官使用效度和信度最佳的标准。三种评分方式共同存在的问题在于标准的主观性。分数的把握主要靠考官的个人判断，缺乏客观的量化标准(19)吕长，宋冰，王焰，等.口语测试评分标准比较研究[J].外语教学与研究，2008,(6).。例如英语四级考试的标准描述中关于语言准确性的描述，4分为“语法和词汇有一些错误，但未严重影响交际”，3分为“语法和词汇有错误，且有时会影响交际”。在具体评分时，怎样把握何为“有一些错误”，何为“有错误”，何为“未严重影响交际”，何为“有时会影响交际”，这都要靠评分者自己判断，带有极大的主观性。

针对这种情况，张文忠、郭晶晶提出了“模糊评分”的概念，将模糊数学的原理应用于口语测试的评分实践(20)张文忠，郭晶晶.模糊评分：外语口语测试评分新思路[J].现代外语，2002,(1).，有一定的科学性和可行性。这是一个有趣的尝试，有助于评分方式的改进。

值得指出的是，传统的语言评估以“找错”为主要形式，以检测知识掌握情况为主要目的，《框架》对语言能力的描述使用了积极正面的描述词汇，如“能够……可以……”等，是对学习者语言能力的正面肯定，是对传统纠错评估的彻底变革(21)白乐桑，张丽.《欧洲语言共同参考框架》新理念对汉语教学的启示与推动——处于抉择关头的汉语教学[J].世界汉语教学，2008,(3).。另外提出培养学生自我评估意识的重要。

三、针对汉语的口语测试及分级

针对汉语的口语测试主要有两种，一种是针对母语者的口语测试，一种是针对汉语学习者的口语测试。

(一)针对母语者的口语测试

针对母语者的口语测试主要代表是普通话水平测试和汉语能力测试。普通话水平测试(Putonghua Shuiping Ceshi，简称PSC)是由国家语言文字工作委员会、国家教育委员会和广播电影电视部三部委于1994年10月发布的一项语言考试制度。其目的是测查应试人的普通话规范程度和熟练程度，以认定其普通话水平等级，属于标准参照性考试。

普通话水平测试的设计有几个前提：第一，应试人的母语(第一语言)是汉语；第二，应试人一般通晓汉语书面语；第三，应试人不仅能听、会说普通话，而且他们所从事的职业要求他们必须能说标准的或比较标准的普通话。母语者由于已经通晓了汉语书面语，跟第二语言学习者在各个方面都不同。因此，普通话水平测试与学习、掌握第二语言的测试有所不同(22)刘照雄.推广普通话的重要举措——普通话水平测试简论[J].语言文字应用，1994,(4).。

普通话水平测试的内容包括语音、词汇和语法，测试对词语的听辨、理解和语言的组织能力。在等级划分上，普通话水平分为三个级别，每个级别内又划分为两个等次。(23)国家语言文字工作委员会普通话培训测试中心编制.普通话水平测试实施纲要[M].北京：商务印书馆，2004.可以看出，受结构主义测试学的影响，普通话水平的测试主要是语言知识，特别注重语音方面，基本没有考虑非语言层面的使用情况，与口语互动有关的指标几乎都没有涉及。但是，普通话水平测试针对母语者的一些测试思路可以提供借鉴，如在语言运用中对语言能力进行考查。

与母语者口语有关的另一个测试是新兴的，由教育部、国家语言文字工作委员会推出，教育部考试中心实施的汉语能力测试(HANYU NENGLI CESHI，简称HNC)，这是中国首个以汉语综合应用能力测试冠名的项目。这项考试主要针对国民，该测试强调鉴定参测者的汉语综合应用能力，以达到帮助应试者了解并提高自己的汉语应用能力，为相关用人机构了解员工的汉语水平提供参照，为各级各类教育机构开展汉语教育和培训提供参考的作用。

汉语能力测试是第一个全面考查听、说、读、写能力的汉语母语语言评价系统。测试可以分为口语理解、书面语理解、书面语表达和口语表达四个项目，分别从听、说、读、写四个方面考查参测者的汉语应用能力。测试将成绩从低到高设为六个等级，分别为入门级、基础级、普及级、通用级、提高级、专业级。但是，这种测试也存在明显的不足，如依旧采用分项的测试，在口语的测试上采用的是独白形式，缺乏人际互动的形式等，因此总体上还是重在语言知识方面。该测试的亮点在对能力要求的描述上，使用的是基于任务的综合标准，与《框架》的描述形式接近。汉语能力测试尽管有很强的模仿痕迹，但其主张的综合能力测试代表着最新的测试方向。

(二)针对汉语学习者的口语测试

针对汉语学习者的测试，其代表性测试是中国汉语水平考试(简称HSK)。HSK是为测试母语非汉语者(包括外国人、华侨和中国少数民族考生)的汉语水平而设立的一项国际汉语能力准化考试，2009年推出了新HSK。新HSK分为笔试和口试两部分。笔试分为六级，包括HSK(一级)、HSK(二级)、HSK(三级)、HSK(四级)、HSK(五级)和HSK(六级)，与《欧洲语言共同参考框架》的分级形成对应关系。口试包括HSK(初级)、HSK(中级)和HSK(高级)三个级别，口试采用录音形式。在题型设计上避免考查语言知识、应试能力，目的是以考试成绩反映考生实际汉语交际能力(24)罗民，张晋军，谢欧航，等.新汉语水平考试(HSK)海外实施报告[J].中国考试，2011,(4).。近年来，有学者提出把海外华人华侨从新HSK的目标群体中独立出来的建议(25)王汉卫.华文水平测试的设计与初步验证[J].世界汉语教学，2018,(4).。

但实际上，这些测试对汉语交际能力的考察是有限的，并且具有很大的主观性。例如，HSK对口语的考试内容是听力部分。评分标准虽有一些规定，但评分标准多是非客观的，大多是主观性的论述。如HSK口试5级的标准“内容充实，能用语音语调较纯正的普通话得体流利地表达思想。词汇丰富，使用恰当，能比较形象生动地描述事物，语气自然……”其中“充实、较纯正、得体流利、丰富、恰当、形象生动、自然”等修饰语的判断都缺乏可操作性。因此，基本上仍是以总体印象评价为主，带有极大的主观性，而且对非语言特征基本没有涉及。

另一个具有代表性的测试是汉语口语水平测试(HANYU KOUYU SHUIPING CESHI，缩写为HKC)，这是由中华人民共和国教育部、国家语言文字委员会组织实施的一项语言类标准化水平测试。测试对象为母语非汉语人群及华人华裔。测试方式为计算机辅助人工测试。测试内容以考查应试人汉语口语交际的语音水平、理解水平、表达水平为主，涉及汉语口语语音、词汇、语法等。此测试把汉语口语水平分为三等九级(初、中、高三等，每等分为三级：初等一、二、三级，中等四、五、六级，高等七、八、九级)。分级标准上也是以任务复杂程度作为分级的基本依据，同时增加了对语音、词汇和语法使用情况的描述。

总之，与英语的口语测试存在的问题相似，汉语的口语测试同样存在侧重语言知识，对非言语行为缺少关注的问题。因此，很难达到对交际能力的测试目标。

四、小结及展望

任务复杂程度的预测是任务型语言测试的重要研究课题，也是难点问题。任务的难度判断大多是经验性的，如何评估还处于探索阶段(26)杨莉芳.近二十年口语测试研究中存在的主要问题[J].外语教学，2006,(1).。我们知道，直觉是不尽可靠的，对任务难度的认知因任务不同和考生特点而异，这些特点之间的交互关系尚不清楚，且有很大的主观性。因此，基于任务复杂度的测试不能反映学生真实的能力水平，基于测试结果所做的选择会影响到教育和学习的公平性。目前来看，对基于任务复杂度的分级有两个可能的改进角度：

第一，会话分析指标的角度

王跃龙指出，任务复杂程度属于语言外部的观察，而且缺乏明确的评判标准。既然是口语互动的分级，必须从口语互动本身出发。如果仅靠任务复杂程度而缺乏语言内部结构的分析，并非一个完善的标准。因此，需要引入会话分析的内部指标来分析互动。外部与内部标准相结合，才是合理的口语互动分级原则(27)Wang Yuelong.The Construction Scheme of a Graded Spoken Interaction Corpus for Mandarin Chinese [C].LNAI10085，Springer，2016.。会话分析是用来分析会话内部结构的一套方法，用有序结构(sequences)、话轮交接(turn-taking)、相邻对(adjacency pair)和纠正(repair)等术语描写会话的结构，发现会话中的互动特点。既包括语言特征，也包括非语言特征，能从较细的颗粒度上描写互动的过程。

第二，完成任务量的角度

鉴于任务复杂度的主观性，另一个可以考虑的分级角度则是完成任务的数量。如果一个人能够完成更多类型的任务，就可以说他的口语互动能力较高。如果把任务复杂度看成是对任务在质方面的分类，那么完成任务的数量则是量方面的分类。

另外，口语交际能力的培养不只是第二语言学习者关注的内容，也是母语者需要关注的。目前汉语口语互动能力的培养在中小学中已经引起重视，并且有一些相关教材的出版和研究文章的发表。如李明洁区分了日常口语与进入教学的口语交际之间的区别，认为进入教学的口语交际内容具有全面性、反思性和思辨性的特点(28)李明洁.进入教学的口语交际及其特点[J].语文建设，2005，(8).。但总体上来看，发表论文的刊物级别普遍不高，说明研究不够深入，关注程度不够。对基本问题如关于口语交际能力教学包括哪些方面尚无定论。相应地，口语互动能力的测试标准也缺失，针对母语者的口语互动能力测试缺乏科学性和系统性，教学上处于教师自发地、分散地随意组织的状态，因此，测试的效度和信度都不理想。这是当前亟待解决的问题。

随着母语教学中对口语的重视，明确口语互动不同阶段的区别，具有重要的意义。这样的研究可以反映口语互动的发展过程，对于提高母语教学的针对性，提高学生口语互动能力，具有重要意义。