中考英语听说“人机对话”考试的现实审视与优化路径

2021-01-02俞显

考试研究 2021年4期

俞显

随着云计算、大数据、自然语义分析技术的快速迭代发展，智能语音识别与分析技术在医疗、交通、通信、会务等领域有了广泛的应用，由此带来一场新的社会变革。语言教学历来关注学生语言综合应用能力的评价，但受限于测评手段不足，往往只能通过纸笔测试来监测学生的学习状况，一定程度上导致了“哑巴英语”“聋子英语”等语言教学异化现象。随着智能语音测评技术的发展，利用该项技术开展教学和考试受到广泛关注，全面评价学生的语用能力有了技术支撑。近年来，智能语音测评技术在教学应用上不断深入，产生了一批有意义的研究和实践成果，有力地助推了两者的融合。相比之下，智能语音测评技术在大规模高利害考试中应用的研究却较为鲜见，不利于学术和实践的交流。为此，本文分析智能语音测评技术在中考英语听说能力考试（以下称“人机对话”）应用过程中存在的问题，并提出相应的解决策略，以期为相关研究和实践提供参考。

一、智能语音测评技术在英语教学应用上的发展演变

智能语音测评技术在英语教学中应用的研究随着自然语音处理、机器深度学习和大数据技术的发展而不断深入。最早的研究可追溯到1952 年贝尔研究所研发出第一个语音识别系统。之后，随着自然语义处理技术的发展，利用技术手段辅助英语听力口语训练逐渐受到青睐，单机训练和语音纠正是这一时期的技术特点。第二个阶段是20 世纪80 年代至21世纪前10年，随着计算机存储和处理技术以及自然语音识别技术的快速发展，对自然语义的编码和解码成为这个时段的主流应用，主要表现为不同语言互译、语音识别等，但由于机器学习算法没有大规模突破，智能语音测评技术的应用场景规模比较有限。第三个阶段是2010 年至今，随着大数据、云计算技术的发展，机器深度学习无论是训练的数据量还是运算速度都有了空前的发展，从而极大地提高了智能语音测评技术应用于测量的信度和效度，这一时期智能语音测评技术的研究呈爆发态势。研究主要聚焦在三个方面：一是智能语音测评技术优化。通过机器学习算法优化和计算机运算能力的提升，大幅度提高语义分析和评判的精确度[1]。二是智能语音测评技术在教学中的应用研究，关注如何利用技术手段支持教与学活动的组织与实施，并通过数据反馈来改进教学策略[2]。三是智能语音测评技术的应用效果研究。通过实验组和对照组的准实验数据分析后认为，利用智能语音测评技术的实验组其听说能力的提高大于对照组，提升了教学效率，激发了学生的学习积极性等[3]。

可以发现，当前的研究主要关注智能语音技术在教学中的应用研究。而有关智能语音测评技术在大规模高利害考试中应用的研究却并不多见，本文尝试以此为切入口，结合实践和观察开展相应分析，以期为相关研究和实践提供参考。

二、研究的对象和方法

（一）研究对象

调查研究采用分层随机抽样法在S 市内选取15所初中学校和10 所高中学校作为样本来源，初中学校的调查对象涉及教学副校长、英语学科教师；高中学校的调查对象为高一新生（参加过人机对话考试）。作为港口城市的S 市位于东部沿海，经济社会发展程度较高，城乡发展较为均衡，信息化和数字经济发展区位优势明显。S 市于2009 年启动英语听力口语人机对话考试的试点工作，并于2011 年全面推开。该市中考英语人机对话考试采用智能语音技术支持，考务管理、试卷制作均采用计算机辅助完成。考试过程采用人机交互形式，即听力部分收听电脑播放语音并选择正确答案，口语部分按要求用口语作答试题。阅卷环节采用“人工抽样定标，智能测评系统深度学习并自动评分”的模式。考试组织方面，综合考虑考试机位和考试安全保障等因素，测试实行按时段分批次进行，并规定不同时段采用不同试卷。试卷分听说两部分，其中听力15 分，分为听对话回答问题（5 题，5 分）、听对话和短文答题（10 题，10 分）；口语10 分，分朗读短文（3 分）、情景问答（2分）、话题简述（5 分）。听说合计25 分（英语学科满分120分），考试时长为30分钟左右。

（二）研究方法

本次研究运用调查研究法和资料分析法。调查研究方面，采用调查问卷和半结构化访谈的形式：面向初中学校，发放教师问卷56份，有效问卷54份，有效率96.4%。教师区域分布为：农村27人（50.00%），乡镇12 人（22.20%），中心城区15 人（27.8%）。面向高中学校，通过网络问卷的形式，共发放学生问卷2165份，有效问卷2150份，有效率99.31%。其中，男生1057 人（49.16%），女生1093 人（50.84%）；区域分布为：农村101 人（4.70%），乡镇882 人（41.02%），中心城区1167 人（54.28%）。调查问卷涉及对人机对话的满意度、试题考查内容和题型的适切度、试题难度和区分度的合理性、自动化评分的认可度、教学压力情况、学生练习方式等方面，并运用SPSS21.0软件对相关数据进行统计分析。访谈采用集体座谈和个别访谈的形式，访谈对象是英语学科教师和教学副校长，共56 人参与访谈，其中教学副校长10 人。访谈聚焦学生学习投入的变化、教学压力的来源及其原因、教师对人机对话优势与不足的看法等维度。资料分析方面的数据类型主要有两种，一类是量化数据，包括问卷调查数据、智能语音评分系统参数、考试成绩数据、试题质量参数等；另一类是质性数据，包括文件材料、访谈对话、观察记录、工作总结和反思等。分析时，对质性数据进行剖析并建立相关联系，且以量化数据为辅助用以确证。

三、对中考英语“人机对话”的审视

（一）测验工具：试题参数异化可能引起的考试信任危机

中考具有学业水平鉴定和毕业升学选拔的双重属性，既强调标准参照测验下划定考核层次，又重视常模参照测验下人才选拔的区分度。而在人机对话实践中，目前来看，两种测验模型往往难以调和。调研发现，为降低由于考试形式变化带来的“不稳定”风险，人机对话试题的难度一般较笔试部分低，表现为高分组与低分组平均值差异小、区分度底。低区分度带来的弊端已初露端倪，值得重视。一是考生学业负担不降反增。访谈发现，对英语高水平考生来说，低难度的试题降低了该类考生的学科竞争力。为达到“止损”的目标，这部分考生一方面继续加强听说能力的训练，确保人机对话不丢分；另一方面在笔试部分投入更多的时间和精力以扩大优势。对中等水平考生而言，人机对话难度降低后为其创造了与高水平学生缩小差距的机会，为此投入更多的时间成本已成必然。必须承认，以上种种异象是优质教育资源匮乏背景下以升学率作为核心考核指标的结果表现。二是广义公平下对个体利益的忽视。广义上看，低难度的试题有利于激发基础薄弱学校和学生教与学的积极性，有助于其听说能力的整体提升，符合罗尔斯有关弱势群体社会保护的公共利益观[4]。但就个体而言，高水平考生其固有的学科优势被压缩，但难以获得相应的补偿机会，广义上的群体公平存在忽视个体利益的嫌疑。由此可见，人机对话的低区分度并不能完全满足“两考合一”的目标要求。但同时也应该看到，作为一项促进学生英语学科能力发展为旨趣的教学评价活动，其整体“投入—产出”的社会效益值得肯定。

难度等值方面，人机对话受考试机位数量的限制，实行按时段分批次组织考试的方式，出于保密的考虑，不同时段采用不同试卷，由此带来不同试卷难度等值的问题。鉴于中考的高利害性，一般要求同一学科复本试卷应刻画在同一测量尺度下，以实现分数横向比较的目的。但由于保密要求等因素的限制，目前人机对话不同时段试卷难以运用业已成熟的难度等值技术，如设置“锚题”，其难度把控一般依靠命题教师的业务能力和命题经验，难度的稳定性具有一定的不确定性，这一问题需要从根本上予以解决。

（二）参与主体：考试形式变化引发的教与学失序

区域、校际教育资源配置失衡引发的问题在人机对话教学中表现得尤为突出。调研发现，新增人机对话考试特别是口语模块后，有近80%的英语教师表示压力明显增加，其中乡镇教师占比高达90%左右，而起点差异和过程差异是教学压力的主要来源。起点差异上，乡镇教师自身的口语教学能力不足和乡镇学生口语基础薄弱是目前人机对话教学中普遍存在的情况，导致乡镇师生在面对人机对话教学时输在了“起跑线”上；过程差异上，城市教师的整体听说教学能力要高于乡镇教师，城市学生可以也获得更为优质的学习资源（可以理解为家庭文化资本在教育中的集中体现）。可以说，在追求考试成绩的目标函数上，变量的起点和过程取值作用叠加，扩大的不仅仅是城乡考生的分数差异，更有乡镇教师的心理压力。在此背景下，集中有限教育资源，提高学生的学业成绩，成为教育领域中最为常见的价值追求[5]。为取得更高的分数，教师在人机对话日常教学中只针对考试的题型和内容来设计教学活动，重视学生的应试技巧，“一切以学生为重”的表象下隐藏着“一切以分数为重”的实质。教师将学生语言综合运用能力的培养窄化为语言应试能力的培养，忽视了学生的个性、特长和兴趣，映射出英语教师固化的应试教育思维。对考生而言，人机对话日常练习只限于考试的题型和内容，抑制了语言对话交流的丰富性，导致学生主动参与度不高，出现考试分数和学习兴趣的二元冲突。

此外，人机对话作为信息技术在教学和考试融合方面的积极尝试，其参与主体，即学生和教师显然尚未做好准备。调查发现，教师们普遍缺乏将信息技术融合教学以实现教学目标的能力，如有教师将网络教学资源简单地视为学生自主学习资源，注重人机对话测试软件对考试场景的模拟而忽视对反馈结果的深入解读以支持教学策略的改进等。另一方面，调查数据显示，有近85%的学生使用手机作为课外口语练习的学习工具。在“完成人机对话练习后，你会使用手机玩游戏、看新闻等娱乐活动吗？”的调查上，结果显示，学生使用手机娱乐的行为频次与使用手机开展人机对话练习的行为频次呈正相关。由此而言，学生日常手机管理问题和听说练习多样化的支持方式同样值得重视。

（三）测评系统：功能缺失规制下的考试效率与公平的关系失衡

传统口语面试由于组织难度大、耗时长、评分信度不稳定等原因而无法在大规模高利害考试中得以广泛应用。智能语音测评技术在语言测评中的有效应用，极大地提高了口语测评的效率，改变了传统口语面试的局限，可以说是一次“评价技术”决定“评价关系”的经典例证。但由于智能语音测评技术仍处于发展中，功能缺失导致的测评活动异化现象需要警惕。一是口语试题多样化设计有待进一步完善。笔者调研发现，为保证测评结果的可信有效，在实践中口语试题内容和题型一般选用测评技术支持的话题和对话形式。从狭义上讲，选用与成熟测评技术相匹配的试题可以保证测评结果信度和效度，遵循的是考试公平、公正的价值尺度。但从广义上看，有限的试题内容和题型并不能全面地测量出考生的口语能力，这就要求在试题命制的过程中掌握信息技术环境下英语听说核心能力的有效观测点，这对命题教师来说是一个巨大的挑战。二是评分模型尚处于升级发展过程。从实践上，当前应用到大规模高利害考试的口语评分系统均通过了省级以上权威鉴定报告，可以满足考试要求，但也处在不断发展完善过程当中。评分系统的基本原理是对数据集的挖掘和分析，是机器深度学习的过程，而机器深度学习除了需要高效的算法外，更需要大量的非同质、关系复杂的数据集用作训练，但目前口语评分现状是机器深度学习所需的数据的积累量需要进一步扩大，数据之间关系的同质性也比较高，高效的机器深度学习尚缺乏理想的现实条件。但可以肯定的是，随着人机对话口语语音数据的不断积累和算法的不断完善，评分模型的精度会越来越高。

进一步看，在口语测评的效率和公平对话中，隐含着教育实践对工具理性和价值理性的认识与选择。如何在口语能力测评的合教育价值目标与最大程度发挥测评技术效用的合工具性之间取得平衡，是人机对话进一步发展不可回避的现实问题。

（四）实施效果：教师对人机对话的客观性承认与现实性抵制

面对人机对话，师生表现的态度基本一致，但是行为表现却并不完全一致。英语教师呈现出的是“承认”与“抵制”的双重矛盾心理；而学生的反应是“顺从”的心理状态。调查发现，英语教师对人机对话的“承认”体现在三个方面。一方面是课程标准的教学认识。绝大部分英语教师对开展人机对话考试的意义有明确的认识，认为开展该项考试，有助于学生语言综合运用能力的发展，有利于培养学生的英语核心素养。第二方面是契合学生发展的教学自觉。置身全球化发展的场域，具备良好的英语交流与应用能力是学生在未来社会发展的核心竞争力，而初中英语学习是重要的基础。在此背景下，夯实学生初中英语基础成为初中英语教师的职业使命感，触发其教学自觉性。有教师表示，“英语交流对话中，听说占据重要的比重，而传统的英语教学只注重纸笔测试而造成‘聋子、哑巴’英语，是典型的教学异化现象，作为学科教师难辞其咎”。第三方面是教育政策要求下的强制承认。在行政文件上规定人机对话作为考试项目，至少在教育领域内具有普遍的合法性。对身处领域内的英语教师来说，执行教育行政主管部门的政策便具有天然的合理性。以上三点勾勒出教师对人机对话客观性承认的基本轮廓，但在实践中，受人机对话主客观条件的限制，在“承认”的背后又隐藏着现实性“抵制”。一方面是教师“精力缺乏”。调查发现，新增口语模块牵制了英语教师额外的时间，并需要付出更多的精力，但又没有相应的补偿措施；另一方面是教师的“本领恐慌”。英语教师普遍表示，将口语列入中考后，考查要求增加，但由于自身口语教学能力不足和学生口语基础不一导致教学压力倍增，表现的是内心的“抵制”。可以看到，在“承认”与“抵制”的矛盾对峙中，在没有补偿性和容错机制的保障下，英语教师出于“自我保护”的本能反应，势必会将人机对话推向功利性教育——应试教育。

对考生的调查发现，考生对人机对话的支持度均值为3.56，呈中等水平，得分标准差为较小，仅为0.28，说明考生对人机对话并没有表现出鲜明的态度。有考生表示，“升读普高、重高是我的愿望，也是我家人的期望，我的精力主要集中在提高分数上，包括人机对话”。另一方面，笔者分析发现，新增口语模块后考生的笔试卷面均值高于新增前且呈显著性差异，而新增口语后，笔试试卷的考前预估难度要略高于新增前。这是否说明新增口语模块后，考生英语学科的整体水平有所提高需要进一步分析。

四、中考英语听说“人机对话”的优化路径

（一）测试活动的功能再定位和测评模型的优化

测验活动的有效性在很大程度上取决于测验工具的科学性[6]。人机对话试题的低难度导致的低区分度、试题不等值、能力测评不全面等问题违背高利害考试的公平性原则。目前来看，需要从测量理念和测量技术两个方面寻求解决办法。在测量理念上，依据标准参照测量理论和能力测定标注法划定人机对话的合格线，对合格考生做相应的基于测量等值技术的赋值。测量技术上，测量等值常用的方法是共同题组设计，即锚题设计，但中考属于高利害考试，实践中采用共同题组具有不可控的风险。尝试采用“无锚人”“无锚题”的项目反应模型已有一定的成果，有学者认为解释性题目反应模型（explanatory item response model，EIRM）中的线性logistic 测验模型是实现测验等值“无锚人”“无锚题”的重要方法[7]。另一方面，要关注项目功能差异分析。由于考生性别、生活习惯、信息素养层次等非测试因素方面的情况不一，因此在设计试题的过程中要充分考虑非测试因素对考生作答反应的影响。当然，构建本地化的人机对话评分模型是提高评分系统信度的关键。要大量采集考生日常练习的语音数据和行为数据，一方面供评分系统开展深度学习，另一方面通过行为数据分析考生的学习特征并以此提供学习策略指导，从而形成基于考生特征的评分模型，提高评分的信度和效度。

（二）基于师生能力起点和过程资源差异的精准教学支持

教育政策的本质是教育资源的重新分配，而政策的公平性直接决定着政策的可持续性。维护公平的过程是要确保起点公平、过程公平从而实现结果公平。由于区域经济发展程度不一、校际教育资源分配失衡、家庭文化和教育投入存在差异等原因，实施人机对话后，师生群体的英语听说能力水平和获得的教育资源并不一致。因此，人机对话的公平诉求便集中在过程公平上。目前来看，一方面应提供教与学活动所需的有效支持。针对英语教师，要加大教师听说教学能力的专业培训力度，培训内容除了学科知识、教学法外，要增加英语听说教学案例的分享（含案例分析、公开课观摩），同时要重视信息技术支持下的基于英语学科的教学能力构建，实施城乡教师定期交流和帮扶。针对考生，分析考生学习需求和学习特征，提供学习资源、学习工具等多样化的学习支持，提供学习反馈信息和学习策略指导。另一方面，要特别关注由于考试形式变化而造成的师生心理情绪的变化，通过分析师生的压力来源，为教与学提供有力保障。

（三）实现人机对话的教学、考试和功能完善的互动与同构

在以分数作为考核指标的影响下，人机对话的“育人”价值被弱化，教学行为受到考试行为影响，以分数为目的的教学行为成为教师普遍的教学追求，而在技术层面又无法全面支持听说能力测试要求。为此，一要引导英语教师树立正确的教学观。英语教师应当按照《课程标准》规定的课时完成指定的教学任务。要实施教学督查，重点关注教学内容的全面性和语言交际情景创设的真实性[8]。二是鼓励有条件的高中学校设置英语听说特色招生，为英语交际能力有特长的考生提供更多的升学途径。三是依据考试需要，完善人机对话考试功能，尽可能实现模拟真实交际情境下的人机对话考试。未来人机对话应该像调研过程中一位英语教师所描述的那样：“一个开放的或者半结构的话题，组织4-6 名学生一起讨论，计算机在这一过程中记录学生的语言表达、情绪表达、逻辑表达、肢体语言等，计算机可以深度参与到这个讨论中，然后对所有学生做出基于考查标准的过程性、表现性、综合性的听说能力评价。”只有教学目标、考试要求和技术功能互相配合和补充，在全面发展学生语言综合应用能力的框架下，检视技术对教学和考试的支持作用，才能实现人机对话考试工具理性和价值理性的平衡。