英语测试中的认知诊断研究*

2021-07-19中央民族大学北京师范大学武尊民

外语教学理论与实践 2021年2期

中央民族大学胥云北京师范大学武尊民

提要：认知诊断测试可以反映受试的知识结构和分项技能掌握情况，为受试提供详细的反馈信息。本文简要介绍了认知诊断的原理和步骤，总结了国内外英语测试领域的认知诊断研究已取得的进展，并指出目前该领域尚存的问题远大于已取得的成就，在未来的研究中需要设计严格意义上的认知诊断测试，探索检验Q矩阵效度的多种方法并开展诊断结果促学的实证研究。

一、引言

近年来，英语测试领域的关注重点从测试的选拔功能转向测试对教学的指导作用，学习者和教育机构对测试结果反馈的需求与日俱增(Lee, 2015)。美国的“不让一个孩子掉队”(No Child Left Behind Act)法案已明确规定，大规模考试必须提供针对学生个人的反馈报告(Roberts & Gierl, 2010)，测试结果的反馈越来越受到重视。

传统测试一般只能汇报受试的总分，这种反馈仅能反映受试的总体水平及其在一个群体中所处的位置(Alderson, 2005)。而认知诊断测试(Cognitive Diagnostic Assessment，CDA)是认知心理学和心理测量学的结合(Sawaki, Kim & Gentile, 2009; Von Davier, 2005)，可以将受试的语言能力细化，反映受试对某个特定知识点或分项技能的掌握情况，详细地描绘出受试相对于其他学习者特有的知识结构和技能掌握模式。

由于相比传统测试形式，认知诊断测试具有准确诊断、详细反馈的优势，近二十年来，国内外陆续有研究者尝试将认知诊断技术引入英语测试领域，旨在发现学生的优势和缺点，探查需要进一步教学干预的领域，并提供详细的反馈。目前，国内英语测试领域的认知诊断研究刚刚起步，了解国内外现有研究的共性和局限可以使未来研究有效借鉴前人研究成果，扬长避短，研制出适合英语学科的认知诊断测试，改善考试结果的汇报机制，从而最大程度上发挥诊断测试的促学作用。因此，本文将对英语测试领域的认知诊断研究进行梳理，分析其共同点和现存问题，为英语认知诊断测试进一步深入发展提供启示。

二、认知诊断关键概念及步骤

语言测试中的认知诊断研究基本都经历三大步骤：确定属性(attribute)、建立Q矩阵(Q-matrix)、判别受试属性掌握模式(attribute mastery pattern)(Lee & Sawaki, 2009b)。

(1)确定属性

认知诊断中的属性是指成功完成任务必须掌握的知识、技能以及经历的认知过程(Birenbaum, Kelly & Tatsuoka, 1993)。也有学者认为除知识、技能外，属性还包括所有影响测试的因素，例如任务特点等(Buck & Tatsuoka, 1998)。以阅读测试为例，各个认知属性相当于阅读能力下属的分项技能，或者阅读测试构念的细化。例如，某阅读测试旨在考查4项阅读分项能力，分别是“能读懂文章大意”、“能理解细节和事实性信息”、“能理解作者意图、观点和态度”以及“能根据事实性信息简单推断信息的意义”，这4项分项能力即是该阅读测试的4个属性。

(2)建立Q矩阵

Q矩阵表现的是每个测试题目考查的认知属性，建立Q矩阵实际上是在定义测试题目和认知属性之间的关系(Sawaki et al., 2009)，即题目与构念的关系。在Q矩阵中，0代表完成一道题目不需要某一属性所涉及的知识和技能，1则相反，如果受试答对题目，则说明已掌握该属性(Gierl, Leighton & Hunka, 2000)。

表1.Q矩阵举例

目前确定属性和建立Q矩阵主要有4种方法，分别是文献法、专家判断、做题过程研究和因子分析法(Lee & Sawaki, 2009b;涂冬波等，2012)。文献法指综合分析考试说明、双向细目表以及本领域已有研究，确定属性以及题目和属性间的关系；专家判断法主要依靠学科专家的知识和经验进行判断；做题过程研究通过对受试进行有声思维实验，观察其在做题过程中动用了哪些能力，从而判断完成特定题目需要的知识和技能；此外，还可以基于测试结果进行因子分析，据此建立或者验证Q矩阵的合理性。

(3)判别属性掌握模式

认知诊断的最后一步是判别属性掌握模式。以上文的阅读测试为例，4个属性会产生16种属性掌握模式，分别是0000,0100,0010,0001……1111模式。其中0000模式表示4种属性全未掌握，0100模式表示受试在属性2上已经达到要求，但其他3种属性尚未掌握，而1111模式则代表4种属性全部掌握。

本文以规则空间模型(rule space model)为例，简要介绍属性掌握模式判别的原理。每种属性掌握模式有其对应的受试的理想反应模式(ideal response pattern)。根据每种理想反应模式可以计算出该模式对应的一组序偶(θ，ζ)，这里θ代表受试的潜在能力(latent ability)，而ζ表示能力为θ的受试其实际反应模式偏离其能力水平对应的项目反应模式的程度(涂冬波等，2008)。根据每种理想反应模式对应的(θ，ζ)可以将其映射到一个二维空间(即规则空间)中，共得到16种理想反应模式所对应的16个纯规则点。然后根据每个受试的实际反应模式(real response pattern)，即受试在所有题目上的实际作答，计算出其对应的序偶(θ’，ζ’)，将所有受试映射到规则空间中，通过计算每个受试对应的点与16种理想反应模式对应的纯规则点之间的距离，将受试判定到与之距离最小的属性掌握模式中(涂冬波等，2012)。

三、现有研究取得的进展和存在问题

到目前为止，成功应用于英语测试领域的认知诊断模型已有十余种。从表2中可以看出，最早得以应用的是规则空间模型。1997年Buck和规则空间模型的创始人Tatsuoka(1983)首次合作，使用规则空间模型诊断托福阅读和听力能力(Buck, Tatsuoka & Kostin, 1997; Buck & Tatsuoka, 1998)，开创英语测试领域应用认知诊断模型之先河。但是，规则空间模型存在一个弱点，即并非每次都能判别全部受试的属性掌握模式。例如，Scott(1998)和Buck & Tatsuoka(1998)的研究中，分别有84%和96%的受试被判别属性掌握模式，但仍有少部分受试无法判别。此外，规则空间模型对属性之间的层级关系要求较严格，更适用于数学领域的认知诊断，而语言理解是一个复杂的过程，研究者对其中涉及到的认知能力以及各个能力之间的关系还缺乏完全准确的理解(Yi，2017)。

与规则空间模型相比，融合模型尤其适合属性数量不多、各个属性间高度相关的测试(涂冬波等，2008)，这一特点与英语学科高度契合。尤其是融合模型的配套软件Arpeggio(DiBello & Stout, 2010)的开发应用使外语研究者也能进行复杂的认知诊断数据分析，而在同一时期，其它模型多数需要研究者自编相应程序进行运算，或者已开发相应软件，但还未对广大外语研究者开放。因此，融合模型在一个时期内成为英语测试领域认知诊断的首选模型。使用融合模型的一系列研究中，Jang(2009)的影响力较大，与此前的研究相比，Jang更加重视认知诊断结果的信、效度检验和反馈报告的呈现形式，从而进一步推进了英语测试中认知诊断的发展。

早期认知诊断研究多数缺乏信、效度检验，仅仅侧重认知诊断模型是否能对受试的知识结构成功判别，而Jang(2009)则尝试从多个角度进行效度检验，检验的方式主要有两种，一种是通过软件自动生成大量的虚拟受试并对其进行判别，考查多次判别的结果是否一致(A.-Y.Kim, 2015)。另一种是通过问卷、访谈等请受试进行自我评估，然后与认知诊断结果进行比对(Jang, 2009; Jang et al., 2015; Y.-H.Kim, 2011)。例如，Jang(2009)采用问卷调查的方式检验诊断准确性，结果显示，40%的学生认为诊断结果符合自己的实际状况，学生的自我评估与诊断结果呈显著正相关，为认知诊断的效度提供了证据。借鉴Jang(2009)的经验和方法，此后的研究越来越重视使用多种手段验证诊断结果的准确性和稳定性。

Jang(2009)的另一大特色是注重反馈报告的设计，不同于此前仅报告受试属性掌握模式的方式，Jang(2009)在名为“DiagnOsis”的反馈报告中，报告了受试在9种阅读属性/分项技能上的掌握概率(见图1)，而Jang et al.(2015)在反馈中不仅报告了受试掌握一项技能的可能性，同时也具体描述出受试如掌握这一技能可以完成哪些任务(见图2)，这些反馈报告的形式多次被之后的研究所借鉴。

图1.阅读分项技能掌握概率(Jang,2009：72)

图2.阅读能力诊断报告(Jang et al., 2015：380)

在规则空间模型和融合模型成功应用之后，越来越多的模型被运用于英语测试领域，其中包括G-DINA(Chen & Chen, 2016; Li, Hunter & Lei, 2016; 陈慧麟、陈劲松,2013;马晓梅等,2012; 孟亚茹,2013)、属性层级模型(Wang, 2007; Wang & Gierl, 2011;蔡艳等,2011)、GDM(Lee & Sawaki, 2009a; Von Davier, 2005)、树回归(Sheehan, 1997; 杜文博、马晓梅, 2018)、线性Logistic模型(陈慧麟、赵冠芳, 2013)、ACDM、RRUM、DINA和DINO(Li et al., 2016; Yi, 2017;闵尚超、熊笠地,2019)。而该领域的研究重点也从对单一、既定模型的尝试使用方面转向对多个不同模型拟合度的对比上。

英语测试领域最早对不同模型进行比较的是Lee & Sawaki(2009a)的研究。在对托福阅读和听力进行认知诊断时，该研究同时使用融合模型、GDM和Latent Class Model三种模型，但研究的侧重点并不是对比各模型的拟合度，而是检验诊断结果的一致性。结果显示，三种模型对受试的判别结果较一致，但也存在细微差别。近期研究越来越注重认知诊断模型的选择，最新几项研究将重点放在补偿模型和非补偿模型的拟合效果对比上。

补偿模型假设属性间存在补偿机制，即受试“在一个或几个属性上的高水平掌握可以弥补其对另一个或几个属性的掌握缺失”，而非补偿模型假设属性间不能相互补偿，受试必须掌握某属性才能正确作答(涂冬波等，2012：44)。英语测试领域认知诊断研究早期使用较多的规则空间模型、融合模型和属性层级模型都属于非补偿模型。近期几项最新研究尝试对比几种补偿和非补偿模型，例如Li et al.(2016)在对托福阅读能力进行认知诊断时对比了5种模型(饱和模型G-DINA，补偿模型DINO和ACDM、非补偿模型DINA和RRUM)，结果显示，几种模型的拟合效果排序如下：ACDM>G-DINA>RRUM>DINA>DINO。其中，补偿模型ACDM仅仅略优于非补偿模型RRUM，模型拟合上的差距很小，但RRUM却明显优于DINA和同为补偿模型的DINO，所以不能得出补偿模型明显优于非补偿模型的结论。Yi(2017)和闵尚超、熊笠地(2019)的研究也得出相似的结论，即阅读和听力理解过程中是存在补偿机制的，掌握一个属性可以弥补其他属性的缺失，但研究结果还不足以证明非补偿模型不适合于阅读或听力能力的诊断。产生这一现象的原因可能是对语言的理解过程既包含补偿关系，也包含非补偿关系(Jang, 2009; Li, 2011；闵尚超、熊笠地, 2019)。此外，除了补偿/非补偿，模型的其他属性也在同时发挥巨大作用，影响模型拟合(Yi，2017)。因此，研究者们指出，在认知诊断模型的选择上不能仅仅参考模型拟合数据的好坏，还要考虑属性数量多少、属性之间的关系、模型和测试构念的契合程度、模型复杂程度、所需样本量大小等多种因素(Li et al., 2016;涂冬波等，2012；Von Davier, 2014)。

从诊断目标看，目前英语测试中认知诊断模型主要用于接受性技能，即阅读和听力能力的诊断。现有研究绝大多数都是在已有的、非认知诊断测试基础上提取诊断信息，这种做法被称为“改编(retrofit)”认知诊断测试(Lee & Sawaki, 2009b)。依托的测试主要是大型综合性考试，如托福(Buck et al., 1997; Kasai, 1997; Kim, 2010, 2011; Lee & Sawaki, 2009; Scott, 1998; Von Davier, 2005; Yi, 2017)、SAT(Sheehan, 1997; Wang, 2007; Wang & Gierl, 2011)、TOEIC(Buck et al., 1997)、PISA(Chen & Chen, 2016;陈慧麟、陈劲松,2013;陈慧麟、赵冠芳,2013)和高考(蔡艳等,2011)等。

在众多研究中，为数不多的、严格意义上的认知诊断测试是马晓梅课题组(杜文博、马晓梅,2018;马晓梅等,2012;孟亚茹,2013)开发的“个性化英语学习诊断与指导系统”。该系统设计过程中遵循了认知诊断测试的开发流程，首先确定8种阅读测试属性，然后通过改编和自编相结合的方式专门命题，考查已确定的这些属性，而反馈报告可以分别从个体水平和群体水平层面上提供8种阅读属性的掌握概率(见图3和4)。该系统的开发过程可以为设计严格意义上的英语认知诊断测试提供启示。

图3.群体水平属性掌握概率(杜文博、马晓梅,2018：85)

目前，英语测试领域已有研究充分证明了认知诊断模型用于英语测试的可行性，但由于技术的复杂性，认知诊断技术在英语测试中的应用还只是小规模、实验性质的，已有研究在取得进展的同时还存在以下问题：

(1)“改编”的英语认知诊断测试存在局限

如上文所述，英语测试领域的认知诊断研究绝大多数依托托福、高考等大型综合性考试，从非认知诊断测试中提取诊断信息，而这种“改编”的认知诊断测试存在不可避免的局限。首先，严格意义上的认知诊断测试中，干扰项并非随意设置，而是专门针对某种错误类型设计的，受试选择特定干扰项则体现出其对某个概念的理解或者规则的使用存在问题(Wen, 2003)。而改编的认知诊断测试达不到这一要求(Lee & Sawaki, 2009b)，因为题目并非为了认知诊断而设计，模型拟合结果也很难达到最佳状态(Leighton & Gierl, 2007)。其次，一些学者对于基于托福这样的综合能力考试汲取诊断信息提出质疑。诊断测试多使用分离式题目(discrete item)，为的是明确错误原因，而托福等测试使用的多是综合性题型，涉及到多项技能的综合运用。用综合性试题做诊断测试并不合适，因为即使受试无法完成测试任务也无从判断出现问题的分项技能，诊断结果也就无法解读(Alderson, 2010)。

(2)Q矩阵检验环节的缺失

Q矩阵是认知诊断的核心环节，矩阵的质量直接决定了诊断结果。同一批数据，使用相同的认知诊断模型，只要Q矩阵不同，诊断结果就会大相径庭。但依据不同方法，如专家判断、做题过程研究和数据的因子分析建立的Q矩阵常常不一致，需要研究者自行做出判断，不可避免地掺杂一定主观因素。这种情况下对Q矩阵的检验就显得尤为重要，但是，目前英语测试领域的认知诊断研究多数缺失Q矩阵检验这一步骤，只侧重报告建立Q矩阵的结果(Sawaki, Kim & Gentile, 2010)。

近期几项最新研究都非常注重这一环节，详细报告了对Q矩阵的验证或改良过程(Chen & Chen, 2016;杜文博、马晓梅,2018;闵尚超、熊笠地,2019)。例如，杜文博、马晓梅(2018)在Q矩阵建立时采用了专家判断法，每道题目标记属性时，7位专家中超过4位(57%以上)意见达成一致时才可确定，并通过Fleiss Kappa 系数检验专家判断的内部一致性。之后，该研究采集学生做题过程的有声思维口述报告加以分析，将分析结果与专家判断确定的Q矩阵进行比对验证，最后通过题目难度对试题属性的树回归分析，考查试题属性对题目难度的解释力，以检验属性的有效性。闵尚超、熊笠地(2019)则是将3种Q矩阵带入4种认知诊断模型中逐一对比模型拟合效果，从而选择最佳Q矩阵方案。

(3)掌握/未掌握切分点的划定

采用不同模型的研究对属性掌握/未掌握切分点的划定存在一定差异。使用融合模型的研究多将切分点划分为[0.4，0.6]，低于0.4的则被判定为未掌握，高于0.6则已经掌握了该属性，而概率落在0.4到0.6之间则不能明确判定是否已经掌握(Jang, 2009; Kim, 2011)。使用规则空间模型的研究则将切分点设定为0.67(Buck et al., 1997; Buck & Tatsuoka, 1998;胥云,2015)，高于这个切分点的概率判定为掌握，而使用其它模型的研究有时也将切分点设为0.5。切分点划分直接影响受试是否掌握某属性，但对于切分点如何划定，各个模型之间并不统一。此外，考查的多个属性难度各不相同，但目前研究中，多个不同属性都采用同样的切分点，这种做法会造成属性难度很大程度上决定属性是否被掌握。但如果为不同难度的属性分别设定切分点，在如何划定这个问题上还没有统一的看法(李峰，2009)。

(4)全未掌握/全掌握模式比例过高

多数英语测试中的认知诊断结果出现了全未掌握模式(0000)和全掌握模式(1111)比例过高的情况。例如，Lee & Sawaki(2009a)发现，尽管使用3种不同模型，对阅读能力的诊断结果中两种模式合计比例高达59%—76%，而在对听力的诊断中，也出现了类似的结果，47%—75%的诊断结果属于全未掌握或全掌握模式。从表3中可以看出，Li et al.(2016)对5种模型的对比研究中也出现了这一现象，两种模式合计高达54.5%—73.2%，这一比例远远高于数学和逻辑等领域的诊断结果。而全未掌握/全掌握模式与传统测试模式下的0分和满分无异，等同于只报告一项总分，诊断结果反映不出受试的内在差异，严重限制了诊断和反馈的价值(Lee & Sawaki, 2009b)。

表3.不同模型判别的全未掌握/全掌握模式比例(Li et al., 2016)

产生这种现象的原因尚不明确。笔者推测，依据英语学科传统划分的两种甚至两种以上的能力，有可能在认知、心理层面存在同质性，甚至同属一种能力，这也就导致了如果属性1已掌握，属性2和3也会显示已掌握。想要改善这一问题，需要在划分属性并确定属性之间的关系时，采集认知、心理学层面的证据。

(5)重诊断、轻促学

不同于水平测试，诊断测试包含三大要素——诊断、反馈和后续教学。这三要素同等重要，缺一不可(Lee, 2015)。诊断结果能否有效、及时地反馈给涉考者，反馈后是否对后续教学起到积极有效的指导和促进作用，其意义甚至超过了诊断测试本身。后续补救教学研究对于诊断测试有两方面的意义，一方面可以从旁佐证诊断准确与否，如对受试的薄弱领域进行有针对性的补救教学后，受试在该领域上的得分显著提高，则从一定程度上证明了诊断的准确性。此外，诊断的最终目的是“干预”，发现薄弱环节而不进行补救性教学，或进行教学后却效果甚微，则诊断的意义也会大打折扣。

但是，目前英语测试领域的认知诊断研究存在重诊断、轻促学的问题，现有研究重点仍集中在模型使用和对知识结构的判别方面，对于诊断结果如何反馈于学习者，并对学习者学习改进是否有实际促进作用鲜有实证研究(戴海琦等，2013)。

四、未来研究方向

由于认知诊断技术的复杂性，语言能力的认知诊断也还处于摸索阶段(Wen, 2003; 涂冬波等，2008)，在这一领域还存在很大的探索空间，而英语测试主要应在以下几方面进一步开展认知诊断研究。

(1)设计严格意义上的英语认知诊断测试

如上文所述，英语测试领域多基于综合性考试提取诊断信息，这种改编的认知诊断测试存在很大局限。虽然在认知诊断研究的摸索阶段采用这种做法是无奈之举，在条件成熟后还是应该设计严格意义上的英语认知诊断测试。

图5.认知诊断测试设计基本步骤(改编自涂冬波等，2012：12)

严格意义上的认知诊断测试在试题命制前要事先确定要考查的认知属性及其层级关系，这些属性应该体现受试的认知过程(涂冬波等，2012)。之后命题人员应针对属性，即已经细化了的知识和分项技能设计专门的试题予以考查。试题命制完成后，通过小规模试测验证模型中所涉及的属性以及属性间层级关系是否合理，使用的方法主要包括做题过程的有声思维口述报告和眼动研究(Leighton，et al., 2004; Leighton & Gierl, 2007;蔡艳等，2010)。若不合理则再次重复之前的过程直到合理，之后进行大规模正测、诊断、反馈结果等一系列步骤(见图5)。设计严格意义上的认知诊断测试有望改善本领域现存的一些问题，如改编的认知诊断测试存在的缺陷以及全未掌握/全掌握模式比例过高的问题。

(2)尝试应用多级评分或混合评分模型

英语认知诊断测试使用的题型普遍是二级评分(0—1评分)的选择题，极少数研究涉及到多级评分题型时则先将其转化成二级评分，再加以诊断。这是因为多数现有研究使用的模型仅能处理0—1评分数据，一些能够考查更高层次认知能力但需要使用多级评分的题型则无法使用，导致诊断结果无法最大程度上反映受试的知识和技能掌握情况。实际上，在心理学领域，规则空间模型、融合模型、GDM模型和属性层级模型等均已发展出可以处理多级评分的模型，有些模型甚至可以处理0—1评分和多级评分的混合评分方式(田伟、辛涛，2012)，但在英语测试领域还鲜有应用这些新模型的研究。因此，在未来的研究中，还需要不同领域的学者紧密合作，在英语测试中尝试应用多级评分或混合评分模型，最大程度上发挥认知诊断技术的优势。

(3)探索检验Q矩阵的多种方法

如上文所述，如果Q矩阵的效度受到质疑，则之后建立在Q矩阵上的诊断结果的可靠性和稳定性都无法保证。但对于Q矩阵的验证目前没有统一的方法，有些认知诊断软件中有特定的参数来检验Q矩阵，例如融合模型软件Arpeggio中的参数“Cj”可以检验Q矩阵界定的属性是否足够完整，当“Cj”值过高或者过低时则表示题目不仅包含了Q矩阵所界定的属性，很可能还涉及到其它未被界定的属性。研究者可以依据题目难度值，区分度值和“Cj”值反复调整Q矩阵，直至其处于合理区间。但并非所有软件都有这样的参数，使用其它模型的研究者还需要另辟蹊径对Q矩阵进行检验。有些研究者提出，可以在题目难度和Q矩阵之间建立回归方程，如发现Q矩阵可以解释绝大多数项目难度的变异则证明Q矩阵较理想(Birenbaum et al., 1993；李峰，2009)。在未来研究中还需进一步探讨验证和改良Q矩阵的多种方法。

(4)开展诊断后教学补救效果研究

目前，认知诊断结果应用于教学还存在以下问题。首先，对未掌握的分项技能单独补救是否确实有效？认知诊断的优势在于可以清楚地指导教师锁定学生弱项，准确地、有针对性地进行教学补救。但是，哪项技能未掌握就单独补救哪项技能是否真的有效？换言之，如果学生阅读中推测文中隐含意义这一分项技能没有掌握，是否不断地练习这一技能即可提高？有学者质疑把某一项阅读技能分离出来单独进行教学的效果。受试在阅读总体水平提高后，各分项技能是否都会相应地提高？这个问题还需要实证研究的验证，如果无法按照诊断结果对特定分项技能进行补救并取得教学效果，那么认知诊断的作用将大大受限。

其次，认知诊断如何与课堂教学、课本相配合？认知诊断结果详细、具体，可对细化了的分项能力进行诊断，但当前很多课堂采用的教学方法却是综合性、任务型的教学，如何使诊断和教学大纲、各种教学方法相配合(Harding, Alderson & Brunfaut, 2015)？此外，认知诊断对知识和技能的分类与传统教学模式下以话题和功能分类的方式有很大不同，即使受试意识到自己在某项分项技能上存在不足，但是如何去改进？目前，还没有与认知诊断分类方式相对应的教学和练习材料，教师即使拿到认知诊断结果，又如何基于认知诊断的分类方式进行教学，并重点加强薄弱分项技能的培养(Davidson, 2010)？此外，认知诊断涉及的统计技术极其复杂，如何有效解释诊断结果，不造成教师和学生的理解困难？这一系列问题都有待未来研究加以解决。

五、结语

综上所述，虽然已有多种认知诊断模型成功运用于英语测试领域，但现存问题和面临的困难远大于已取得的成就。认知诊断测试的信、效度检验即使在认知和心理学领域也是极具挑战性的研究课题，目前还没有统一的方法；探索Q矩阵的检验方式、多级评分或混合评分模型在英语认知诊断测试中的应用需要跨领域学者的合作；诊断结果的促学作用有待证实，和英语教学需要进一步实现对接，与测试相配套的教学和练习材料尚且欠缺。在认知诊断技术真正应用于英语测试之前还有很多问题尚未解决，而在这个过程中需要不同领域研究者的通力合作。但是应该认识到，在不久的将来，随着计算机语言学和自然语言处理技术的发展，计算机辅助诊断并即时给出针对受试个人的个性化反馈报告是英语测试发展的必然方向，而认知诊断技术将在实现这一目标过程中发挥至关重要的作用。因此，解决现阶段面临问题是在一步步扫清障碍，使认知诊断测试不再止步于小规模实验性质的尝试，尽早在英语测试实践中发挥其应有的作用。