高职院校商务英语技能型人才认知诊断评价模型构建与应用研究

2023-06-13郭辰玥

宁波职业技术学院学报 2023年3期

郭辰玥

摘要：通过实证分析验证了采用认知诊断评价方法对专门用途英语职业技能等级测试结果进行深度解读的可行性，刻画了高职院校商务英语学习者阅读理解加工技能的掌握情况，总体上学生对细节提取等局部信息加工技能掌握较好，推测与判断技能次之，归纳与比较技能掌握较弱，此外为每位学生提供了多维度、精细化的个性化反馈报告。研究结果显示，与传统的技能鉴定标准唯“合格”论相对，诊断评价能准确反映学生在知识技能结构上潜在的个体差异，为高职院校商务英语人才能力发展研究与新时代职业能力评价改革实践提供新思路。

关键词：认知诊断；高职院校；专门用途英语；个性化学习

中图分类号： G710 文献标志码：Ａ文章编号：１６７１－２１５３（２０23）０3-0058-08

测试效度理论指出，科学的知识和能力评价方式应能根据学习者在测试项目上的作答表现，准确诊断他们当前的知识状态和技能结构，并提供全面、细粒度的反馈信息，以便利益相关者及时进行干预和教育决策，真正形成以评促学、以评促教的良性循环[1]。在专门用途英语（ESP）教育领域，学生英语职业技能水平认定的一个重要途径是参加各行业和组织举办的职业技能等级考试，获取相应的技能等级鉴定证书。但鉴定结果大都停留在“合格”与否的终结性评价，无法有效揭示学生的个体差异，不能反映发展潜力，阻碍个性化干预与学习。鉴于此，本研究聚焦商务英语技能型人才的语言能力模型构建，以实用英语交际职业技能等级测试为素材，探究了构建认知诊断评价模型生成个性化反馈报告和学习建议的可行性，以期为职业教育智慧化教学改革和人才能力评价方式优化提供参考。

一、认知诊断评价简介及发展现状

（一）认知诊断评价的内涵及优势

认知诊断评价是当下心理测量领域的研究热点之一，属于交叉学科的范畴。其实施以现代教育测量理论为基础，依靠各类认知诊断模型（又名“诊断分类模型”）等统计工具的辅助分析和技术验证，已在国内外许多学科和专业得到广泛应用。在二语测试领域，一些大型标准化语言测试如托福考试、托业考试、我国的英语能力等级考试（NETS）、西语专业四级考试等，已实现了运用诊断模型了解考生二语认知加工过程和技能掌握情况的成功探索[2-4]。

利用大数据分析助力精准教学和自主学习是诊断评价的主要优势之一。认知诊断评价通过为学习者测试时的知识状态建模，来预测学生技能的强弱项，归纳认知规律，刻画不同学生之间的具体能力差别[5]。该评价方式有助于教师因材施教，按需设计课堂教学活动，给予真实有效的反馈；也有利于学生依据个性化反馈自我调整，准确定位和扫除学习障碍[6]；用人单位和学校则可根据评价结果选拔人才、研制培养计划，提升技能人才的竞争力。

（二）认知诊断评价的发展现状

认知诊断评价方法可通过模型构建，从被试已知的作答表现推知个人及群体层面潜在的知识状态及认知属性掌握情况，为利益相关者提供细粒度的诊断性反馈。认知属性，一般简称属性或微技能，是认知诊断评价方法的一个重要概念，泛指完成测试任务所需的任何知识、技巧、能力等[7]。属性定义是诊断评价的第一步，巴赫曼和帕默（Bachman & Palmer）等学者建议结合具体测试的场景和用途来定义适用的微技能[1]。诊断评价的第二步是构建Q矩阵，以标明属性和题目之间的对应关系[8]，一道试题可测量多个属性，模拟真实作答过程中多个微技能的交互作用，Q矩阵通常需要经量化和质性方法反复检验。第三步为选择合适的认知诊断模型并进行模型—数据拟合检验。在拟合良好的前提下，最终提取模型诊断信息，反馈学习成效并进行个性化干预。认知诊断评价方法的常见流程如图1所示。

认知诊断评价技术目前在教育界已逐渐推广，但梳理现有成果发现，在二语测试领域其实际应用尚存在以下问题：一是诊断评价应用研究的多样性不足[10]。主要表现在研究对象和测试内容及用途的同质性较高[11]。研究对象多为普通教育阶段的二语学习者，对其他群体代表如职业院校学生的外语学习效果了解相对有限；测试内容一般以英语为主要语种且多为学术用途，而较少关注职场英语如商务英语等；大多围绕高利害语言测验，服务于人才选拔，而很少采用本地化测验，服务于课堂学习成效的评价。

二是对诊断评价结果的准确性以及个性化反馈的有效性探讨还不够充分。部分实证研究的重心仍集中在前期的数据分析阶段，而丰富的量化诊断信息无法直接提供给考生和其他利益相关者，需要通过加工处理进一步转化为准确、清晰、全面的个性化反馈报告。闵尚超、何莲珍等学者指出可以结合认知诊断和标准设定方法验证诊断分类结果的准确性，并成功生成了基于中国英语能力等级量表的标准参照个性化反馈，有效增强了诊断反馈的可读性和对教学的指导作用[11-12]。但除此以外，其他关于诊断报告设计及反馈质量评估的研究相对缺乏，对如何优化诊断评价结果和个性化反馈之间的转化路径尚不明确。

三是关于诊断反馈和补救性干预对二语教学反拨效应的长期研究较少[13]。因为认知诊断是一种横向研究，应用诊断分类模型对数据进行横向分析，因此时效性较强。而纵向的认知诊断评价研究由于时间跨度较长，可追踪研究对象在接受诊断反馈及教学干预后的一段时期内的语言学习效果，因此在评估反馈结果的有效性和促进自主学习方面更具价值。然而，目前纵向认知诊断研究大都停留在模型开发阶段，实证研究缺乏。同时，收集长期数据难度大、保障测试工具及衡量标准的一致性、开发何种学习资源或语言支持活动等问题仍待解决。

综上所述可得：（1）在二语测试领域的应用主要集中于学术英语考试，对学习者在职场英语水平测试中所运用的信息加工技能尚不明确；（2）总体呈现重前期诊断，轻后期反馈的趋势，对促进个性化学习发挥的作用较为有限；（3）纵向研究较少，关于诊断报告反拨效应的追踪研究不足。基于研究范圍的限制，本文主要针对前两个问题，运用认知诊断评价方法分析高职院校学生的特殊用途英语技能掌握情况，探讨进一步优化职业技能等级测试分数报告的有效手段，实现诊断反馈与职业情境下的语言能力标准对接，科学评价高职院校商务英语技能型人才的能力水平。拟解决的问题有：（1）高职院校商务英语学习者的阅读理解加工技能如何划分？（2）高职院校商务英语学习者的阅读理解加工技能掌握情况如何？（3）商务英语测试的诊断结果如何转化为个性化的反馈报告？

二、认知诊断模型在商务英语技能型人才评价中的实施应用

（一）数据来源和研究工具

本研究的数据来自某高职院校260名应用英语专业学生在商务英语课堂阅读测试中的作答反应，在2022年9月到10月完成测试，共收回有效答卷252份。其中，男生32人，女生220人，比例约为1∶6.9，年龄跨度在20—25岁之间，样本主体为大一大二学生，生源包含普高生和三校生。测试的形式为机考，素材来自参与“1+X”证书制度试点的实用英语交际职业技能等级证书（VETS）中级和高级考试题库中的阅读试题，包含4篇文章，20道二元计分的单选题，语言能力要求对应中国英语能力等级量表（CSE）四级和五级水平。VETS考试大纲显示，目前的成绩报告方式为百分制，满分100分，60分及以上为合格。英语阅读文本选自商务工作领域的真实场景，内容涉及外贸函电、市场调研报告、合同纠纷普法宣传等，模拟职场情境下交易磋商、业务推广、交易善后等典型工作任务，考查高职英语专业学生的跨文化交际能力和分析解决实际问题的综合能力，相比于标准化语言测试更能反映用人单位对不同岗位英语交际职业技能的实际需求。

在研究中借助R语言编程运行CDM和GDINA程序包对阅读测试数据进行认知诊断分析，包括Q矩阵验证，题目层面的模型选择，模型与数据的拟合优度评估，项目参数估计，学生个体和整体的属性掌握模式估计等。

（二）技能属性划分和定义

文献梳理发现，目前学界和标准化语言考试大纲对阅读理解能力的进一步细分主要有以下五种：（1）识别词义；（2）理解细节信息；（3）分析推断；（4）理解句法结构；（5）整合衔接[14-15]。本研究邀请3位有丰富商务英语一线教学经验的教师结合VETS技能等级标准对阅读能力的要求，对本次课堂阅读理解测试的4个语篇进行了初步的任务分析，确定所考查的三种微技能、适用职业场景及能力描述，见表1。

（三）Q矩阵构建和验证

为确保认知诊断结果的信度和效度，基于Q矩阵的诊断模型经过了反复优化。首先，构建初始Q矩阵：由专家们根据属性界定标准，独立标定每个阅读项目所考查的关键微技能，在Q矩阵上对应编码为1，不需要则为0。接着比较标定结果，对分歧之处组织进一步讨论，当超过半数专家达成一致，则对该项目与属性的关系进行相应修改。此外，为反映学生真实的信息加工方式，经学生同意随机抽取8人，通过有声思维法报告实际作答过程并录音，用于为专家标定结果提供参照。学生的英语水平是影响Q矩阵构建的重要因素之一。以试题17为例：

...... Party A is sure that Party B has breached an essential term of the contract and wants to end their cooperation. What should party A do next？

本题考查学生联系上下文理解段落含义的能力，划线部分对应文中不同位置的信息，需通过比较确定关键信息“end their cooperation”和选项中“terminate the contract”的同义替换关系。而有3名考生在口头报告中提到不认识“terminate”一词，使用了推测词义的答题技巧，因此，专家讨论后认为应将“推测与判断”补充定义为本题考查的微技能（项目17：A1 0，A2 1，A3 1）。

其次，进行认知诊断前导试验（pilot study）：应用GDINA模型对所得初始Q矩阵和测试数据进行诊断分析。鲁普（Rupp）等研究者指出，试题区分度、题目水平上的模型数据拟合优度等参数可作为判定题目质量及Q矩阵适切性的量化依据[16-17]。结果显示，除项目4外，试题整体的区分度良好（DItest=0.337，DI4=0.005）；题目水平上的拟合度较高（S-χ2test，p>0.05），證明Q矩阵能较好地代表试题和属性之间的关系，仅有4题（项目6、8、9、16）与模型的拟合欠佳。经专家评估后认为以上5题或因语言难度、句长、题型等不具典型性，影响了诊断效果，同意加以移除。对题目重新编号后确定的Q矩阵见表2。每个技能属性对应的试题数量分别为7、4、10题，每题平均考查1.4个（21/15）微技能。

最后，为完善初始Q矩阵，进一步通过量化手段对其进行检验。纳胡拉（Nájera）等比较了不同的Q矩阵验证算法，推荐Hull算法和在属性、样本量或项目数较少的情况下使用Wald检验[18]。通过R程序包cdmTools和GDINA对该Q矩阵进行实证检验。考虑到样本量较小，在编程时设置单调约束条件，即学生掌握的属性数量和答对题目的概率正相关，并分别通过Wald检验和Hull算法验证，修改建议见表3。

观察左右两个Q矩阵可发现，除个别项目外，两种算法对初始Q矩阵提出了不同的修改意见。对于纯量化分析得出的结论，通常建议由专家根据试题具体情况再次把关[14]。因此，在重新逐题审视后，专家小组探讨确定了用于进一步分析的最终Q矩阵，部分采纳了量化分析建议。以项目15为例（图2）：左图显示，原属性组合[101]（A1+A3）可释方差得分（PVAF<0.95）优于算法建议的[001]（A3）；右图也证明该题掌握两个技能的考生正确率显著提高，因此未采纳该建议。

接着进行模型选择，陈慧麟等学者建议，阅读理解加工技能之间交互的可能性较高，宜选择饱和的诊断分类模型[19]，如G-DINA模型，允许题目对应不同的补偿性关系（即答题时掌握一种或几种技能可补偿其他未掌握的技能），并匹配适用的诊断模型[20]。GDINA模型通常要求大样本量（N>1000），但马文超等研究者提出设置先验分布和单调约束（指技能属性掌握数量和答对概率正相关）等模型参数条件可有效提升小样本（N≤200）的分类准确率[21]。

项目水平上的模型选择结果表明，不同测试题目可匹配不同的诊断模型，如补偿性的DINO模型、非补偿性的DINA模型，说明属性间潜在的不同交互关系。修改后的最终Q矩阵见表4，用于生成后续的诊断反馈信息。

三、数据分析与解释

（一）模型数据拟合评价

模型与数据的拟合检验是判断测试及其所产生的诊断反馈信息是否有效的前提条件。拟合度可以从两方面进行评估：（1）模型与数据的绝对拟合优度检验；（2）不同模型与数据的相对拟合优度比较。后者用于选择恰当的认知诊断模型。

表5结果显示，饱和的GDINA模型和补偿性的ACDM模型的均方根残差（SRMSR）均低于0.08，表明后两个模型与数据的绝对拟合较为准确；而比较不同模型的相对拟合优度可发现，GDINA模型依然是最佳的，具有最小的-2似然比（-2 log-likelihood）和AIC（赤池信息量），其次是ACDM，DINA和DINO模型。但DINA模型具有最小的BIC（贝叶斯信息量），陈劲松等学者指出，这可能是因为BIC更偏好简化模型[22]。此外，模型间的似然比检验显示，饱和的GDINA模型和各嵌套模型的拟合度存在显著差异（p<0.01），GDINA模型的拟合优度显著高于其他模型。

（二）具体技能掌握情况及信度分析

表6呈现了252名考生对于3个商务英语阅读测试微技能的掌握情况及属性水平上的分类信度（classification accuracy）。整体技能掌握的概率在0.47—0.75之间，具体而言，约有47%的学生掌握了“归纳与比较”阅读技能，说明该技能的难度要求是三者中最高的；其次，掌握了“推测与判断”能力的学生约占64%；最容易的是“提取细节信息”，超过七成的学生已具备该技能。三种微技能的分类准确率都较高，超过0.8，表明当前模型能准确地评估考生技能层面的掌握和未掌握情况。

（三）技能认知模式分布情况及信度分析

考生群体的技能认知模式分布情况也可通过模型分析获得，这充分体现了认知诊断评价反馈内容多维度的优势，可从宏观和微观等不同层面进行报告，对学生学业整体情况的分析报告也可为课堂教学改革提供借鉴和参考。

本次商务英语阅读测试共有8种潜在的技能认知模式（23），按认知模式普遍程度由高到低排列，学生分布最广泛的技能掌握类型是[110]，约占27.1%，表明近三成的学生已掌握细节信息提取和推理判断能力，但尚不能熟练运用整合归纳能力完成商务情境下的阅读任务，对该技能的训练有待于进一步强化。这一方面与技能难度有一定关联，归纳与整合能力通常被认为是高阶阅读技能，学生熟练程度因而相对较低；另一方面，提取细节信息和推理判断能力常组合出现，说明这两个技能之间的联系可能较为密切，在今后的教学中可以适当融合加以培训，以提升课堂教学的效率。教师还可以据此认知规律，结合课程内容规划教学路径，由浅入深地强化对学生商务英语阅读技能的培养。从分类信度而言，群体层面的认知模式分类准确率较高，除人数较少的[010]和[001]类型外，其余均在0.54—0.92不等，而测试整体的分类准确率达0.77，即随机抽取一名考生，有77%的概率正确诊断出他实际的阅读技能掌握情况。

（四）商务英语阅读测试个性化学习诊断报告及反馈

在学生个体层面，诊断报告的主要关注点集中在技能掌握模式的精细化反馈和建议上。表8列举了樣本前5位学生在3个阅读分项技能上的掌握概率。鲁普等学者建议以概率大于等于0.5作为判定一项技能已掌握的标准[16]，由此可确定每位学生的认知模式分类结果，例如，考生1的诊断结果为：A1掌握；A2掌握；A3未掌握。在呈现报告时，李令青等学者认为汇报掌握概率更能体现认知诊断评价的价值，借助概率可进一步比较不同属性掌握程度的高低[23]。仍以考生1为例，A1识别细节信息掌握得最好，A2推理与判断次之，A3整合与归纳掌握较差。为使这一细化的分类结果更为直观，以雷达图的形式（见图3）呈现该考生的技能掌握概率，同时融入常模参照的反馈形式，将单个考生的属性掌握概率与受试群体的平均水平进行对照，更有利于为各利益相关者的教育决策提供参考。

为使诊断结果更为清晰易读，报告中还补充了文字阐述，以完成特定职场情境下典型工作任务的方式，对学生的语言应用能力进行刻画，以下举例加以说明，属于[110]技能认知模式的考生将得到如下反馈信息：

在本次课堂英语阅读测试中，你能读懂语言难度适中、话题丰富的商务材料，如调研报告、信函等。

· 在完成“市场调研”任务时，你能较为准确地理解报告内容和图表数据，读取关键信息。

· 在完成“交易磋商”任务时，你能根据交易方的条件，较好地评判和推测交易双方的观点和态度。

为进一步提升你的商务英语阅读技能：

· 你需要多加练习“交易善后”任务，训练归纳整合文本内容，提升妥善处理违约问题的能力。相关习题等学习资源可在课程线上平台获取。

四、总结与展望

本项目作为高职商务英语课堂教学评价改革的初步成果，旨在探索运用心理测量领域的认知诊断模型解读职场英语水平测试数据的可行性，了解高职院校英语专业学生阅读理解加工技能掌握的特性，并评估借助诊断性反馈开展个性化学习实践的有效性。通过对学习者个体阅读能力强项和弱项的诊断，以及考生整体能力掌握情况的分析，本项目为课程学习者提供了职场情境下使用英语完成商务交际活动熟练程度的反馈报告，以及个性化的学习资源和建议。诊断结果将实用商务英语阅读技能划分为定位识别、推测判断、整合归纳三个层次，对应市场调研、交易磋商、交易善后三个工作任务，采用文字描述和雷达图等不同形式立体化呈现诊断信息。该个性化技能成长档案的构建，有助于学习者根据自身情况精确设定学习目标，也为教师、企业、学校等不同育人主体动态调整和规划人才培养方案提供参考和借鉴。

未來，依托大数据分析的诊断性评价手段将进一步深化“互联网+职业教育”的混合式教学模式，打造个性化的智慧外语学习环境，优化教学水平，培养学生的自主学习能力，提升复合型商务英语专业人才培养的质量，为其赢得更广阔的发展前景。

参考文献：

[1] BACHMAN L，PALMER A. Language Assessment in Practice [M]. Oxford：Oxford University Press，2010.

[2] LEE Y-W， SAWAKI Y. Application of three cognitive diagnosis models to ESL reading and listening assessments[J]. Language Assessment Quarterly，2009（3）：239-263.

[3] MIN S， HE L. Developing individualized feedback for listening assessment：Combing standard setting and cognitive diagnostic assessment approaches[J]. Language Testing，2022（1）：90-116.

[4] 王萌萌. 信息技术支持下的外语能力精准诊断与教学[J]. 中国远程教育，2021（9）：69-75.

[5] 段惠琼，黄洪燕. 基于认知诊断的英语阅读研究述评[J]. 外语教学理论与实践，2022（1）：63-70.

[6] 何莲珍，熊笠地. 二语听力理解认知加工模式发展新探：结合认知诊断与标准设定的方法[J]. 外语界，2021（4）：35-43.

[7] BUCK G， TATSUOKA K. Application of the rule-space procedure to language testing：Examining attributes of a free response listening test[J]. Language Testing，1998（2）：119-157.

[8] TATSUOKA K. A probabilistic model for diagnosing misconceptions by the pattern classification approach [J]. Journal of Educational and Behavioral Statistics，1985（1）：55-73.

[9] SHI Q， MA W， ROBITZSCH A， et al. Cognitively Diagnostic Analysis Using the G-DINA Model in R [J]. Psych，2021（3）：812-835.

[10] BRUNFAUT T. Future challenges and opportunities in language testing and assessment：Basic questions and principles at the forefront[J]. Language Testing，2023（1）：15-23.

[11] HE L， XIONG L， MIN S. Diagnosing listening and reading skills in the Chinese EFL context：Performance stability and variability across modalities and performance levels[J]. System，2022（106）：102787.

[12] MIN S， ZHANG J， LI Y， et al. Bridging local needs and national standards：Use of standards-based individualized feedback of an in-house EFL listening test in China[J]. Language Testing，2022（3）：425-452.

[13] ZHAN P. Longitudinal learning diagnosis：Minireview and future research directions[J]. Frontiers in Psychology，2020（11）：1185.

[14] JAVIDANMEHR Z， SARAB M. Retrofitting non-diagnostic reading comprehension assessment：Application of the G-DINA model to a high stakes reading comprehension test[J]. Language Assessment Quarterly，2019（3）：294-311.

[15] RAVAND H. Application of a cognitive diagnostic model to a high-stakes reading comprehension test[J]. Journal of Psychoeducational Assessment，2016（8）：782-799.

[16] RUPP A， TEMPLIN J， HENSON R. Diagnostic assessment：Theory，methods，and applications[M]. New York，NY：Guilford.

[17] SAWAKI Y， KIM H-J， GENTILE C. Q-matrix construction：Defining the link between constructs and test items in large-scale reading and listening comprehension assessments[J]. Language Assessment Quarterly，2010（3）：190-209.

[18] N？魣JERA P， SORREL M， DE LA TORRE J， et al. Balancing fit and parsimony to improve Q-matrix validation[J]. British Journal of Mathematical and Statistical Psychology，2021（74）：110-130.

[19] 陈慧麟. 英语专业大学生阅读技能的认知诊断及其教学启示[J]. 教学研究，2022（2）：73-79.

[20] DE LA TORRE J. The generalized DINA model framework[J]. Psychometrika，2011（2）：179-199.

[21] MA W， JIANG Z. Estimating cognitive diagnosis models in small samples：Bayes model estimation and monotonic constraints[J]. Applied Psychological Measurement，2021（2）：95-111.

[22] CHEN J， DE LA TORRE J， ZHANG Z. Relative and absolute fit Evaluation in cognitive diagnostic modeling[J]. Journal of Educational Measurement，2013（2）：123-140.

[23] 李令青，韩笑，辛涛，等. 认知诊断评价在个性化学习中的功能与价值[J]. 中国考试，2019（1）：40-44.

Research on Construction and Application of Cognitive Diagnostic Evaluation Model for Business English Skilled Talents in Higher Vocational Colleges

GUO Chenyue

（Zhejiang Institute of Economics and Trade， Hangzhou 310018， China）

Ａｂｓｔｒａｃｔ： This empirical study analyzes the feasibility of employing cognitive diagnostic methods to interpret students performance results of an ESP career qualification test， creating profiles for Business English learners from a higher vocational college based on their mastery levels of reading cognitive processing skills. In general， students have a better grasp of partial information processing skills such as detail extraction， followed by speculation and judgment， and weaker mastery of induction and comparison. In addition， each student is provided with a multi-dimensional， refined and personalized feedback report. Results indicate that contrary to traditional career qualification criteria which focus solely on a “pass” standard， cognitive diagnosis can accurately reflect potential individual differences in students knowledge and skill structure， thus offering insights into research on how to improve skill cultivation of Business English talents from higher vocational colleges and how to reform evaluation system of vocational skills in the new era.

Ｋｅｙｗｏｒｄｓ： cognitive diagnosis； higher vocational college； ESP； individualized learning

（責任编辑：程勇）