TEM8人文知识测试构念效度研究

2014-07-19郑静静

赤峰学院学报·自然科学版 2014年14期

关键词：构念八级效度

郑静静

（郑州成功财经学院，河南巩义 451200）

TEM8人文知识测试构念效度研究

郑静静

（郑州成功财经学院，河南巩义 451200）

本文在测试使用论证理论的指导下，在新的统一效度的框架下，对英语专业八级新增人文知识题目从难度、区分度、信度、公正性和考点分布等方面进行构念效度分析.

人文知识；构念效度；AUA框架

1 引言

从2005年起的英语专业八级考试（简称TEM8）在测试内容方面新增加了人文知识项目. TEM8作为以全面检查已完成英语专业高年级阶段课程的学生的语言能力、语言知识和专业知识为目标的大规模高风险型考试,其改革必将对学生、学校和社会都要产生很大影响.因此,对其考试效度的检验显得至关重要.

测试使用论证理论框架（简称AUA）（Bachman,2005）是从哲学方法论的角度入手，对测试有用性模型（Bachman,1996）的发展和补充.该框架既涵盖了原框架的主要内容(信度、构念效度、真实性、互动性、影响和可行性)，也使这些要素在新框架内形成相互关联的有机整体.它对提升语言测试的设、开发和使用都具有非常重要的指导意义.本文正是在测试使用论证理论的指导下，对英语专业八级人文知识测试部分的构念效度进行研究分析.

2 构念效度

效度检验是确保对考试分数的合理使用和基于考试分数的推断有意义的重要手段.根据Bachman(1996),考试效度验证主要集中在构念效度、信度、互动性、真实性、影响和可行性方面.在这种传统的效度概念中，效度被分为相互独立的部分，而构念效度只是其中之一.这种分类存在一定欠缺，缺乏对分数使用的社会后效以及分数的社会决策意义的考察(Messick,1995).本研究采用的是新的统一的构念效度，它是一种综合效度概念，弥补了传统的效度概念的不足，扩充了其内涵和外延，既对分数的意义进行解释,也研究测试使用的社会价值.

公正是效度的重要方面.因此，测试开发者有责任对考试分数偏差进行分析.本研究采用项目差异功能(简称DIF)来测量考试分数偏差.TEM8是全国性考试,考生来自于不同背景，而这些背景可能会影响其分数.因此,对新增加试题的项目差异功能的分析对于保证考试公平性具有重要意义.

3 研究方法

3.1 研究目的

本研究探索所研究TEM8人文知识试题的构念维度并探究其分数的意义;评估TEM8人文知识部分数据的构念是否在不同的考生群体中保持一致；检查人文知识部分试题对于不同类别的考生的公正性；分析2011至2013年的人文知识试题的考点，检验其内容效度.

3.2 研究样本

本次研究以参加2013年3月举行的英语专业八级考试的河南省内部分高校的部分考生为样本，这些考生分别来自于不同类型的高校，分为综合性、理工类、师范类、外语类和其他.

3.3 研究数据

本研究的数据包括两个方面，一是2011至2013年的英语专业八级人文知识测试真题；二是由考试中心提供的2013年考生专八成绩的原始数据.对前者进行内容考点分布即内容效度的研究.对后者采用数据分析方法，提供效度依据.

3.4 分析过程

本研究中,构念一致是指测验的分数在所有考生群体中具有相同的意义.数据分析分为以下步骤:（1）探索该分测验试题的难度系数及其相关系数;（2）对该分测试的分数的一致性及信度进行比较分析；（3）对不同考生在此测试题上的的项目功能差异进行分析，探究考试的公正性；（4）对2011-2013年的人文知识题目的测试内容进行考点分析.

4 结果与讨论

4.1 难度系数及不同学校类型考生间难度相关系数

本研究用分测试10个题目在不同类型学校的项目难度系数来代表的是来自某类院校的考生答正确某试题的比例，与试题的难易程度成反比.根据数据统计结果,该分测试的10个题目之间难度系数存在一定差异,在所有参照考生中,难度系数在0.429到0.901之间,平均难度为0.654,难度的标准差为0.110.这说明,试题整体上不难,试题间难易程度相差较大.

由不同院校类型间的难度系数的相关系数数据分析得知，其值都在0.9以上,说明试题难度在不同类型院校间相关度较高，即同一道试题对于不同学校的考生的难易程度相同.

4.2 信度比较

题目的信度在测量学意义上是指分数的一致性.本研究的信度指的是人文知识不同题目间的内部一致性系数，表示的是题目同质性的程度，用α系数表示.

表1 难度系数的相关

表2 人文知识题目内部一致性系数

从上表可以看出,整体考生的α系数仅0.5125,偏低，说明人文知识测试不同题目间的的内部一致性偏低，α系数的范围介于0.5432和0.4675之间,说明不同院校类型间此方面差异不大,从而说明证明该分测量的在不同类型院校较稳定. 4.3项目差异功能分析

为了确保考试的公正性，本研究对不同背景不同专业类型的考生进行项目功能差异分析.STD P-DIF取值范围为{-1,1}，其中在{-0.05，+0.05}范围内的值被看做有细微差异，取值范围在{-0.10，-0.05}和{0.05，0.1}两个范围内就要引起注意，而如果所得值在{-0.1,+0.1}以上，被视为异常,该项目功能就需要仔细审查.其中而负值表示题目对目标组不利，正值表示题目对参照组不利.

分析结果如下：

按照专业类型,有四道试题的STD p-dif统计量为负数,表明这些题目对目标组（外语院校考生)不利,而其他试题的STD p-dif统计量为正数，对参照组(非外语院校考生)不利,但没有在(-0.1,+0. 1)以上的值，不利程度不大.按照专业类型分析，从上表可以看出,大部分题目的DIF值为正数,说明大部分题目对目标组（外语专业本科）有利,也没有在(-0.1,+0.1)以上的值，说明这种有利性不显著.这说明不同学校类型、不同专业类型的考生在该分测试上也没有明显的项目功能差异存在，该分项测试具有对于不同背景的考生是公正的.

表3 人文知识分测量STD p-dif统计量

4.4 考点分布

本研究分析了近三年英语专业八级的考点分布，其结果如下表：

以2011、2012、2013年TEM8真题为例，2011年10道选择题中人文地理知识共占3道，文学知识占4道，语言学知识占3道；2012年10道选择题中人文地理知识占4道，文学知识占2道，语言学知识占4道；2013年10道选择题中人文地理知识占4道，文学知识占3道，语言学知识占3道.通过此部分近三年的TEM真题可以看出，人文知识、文学知识以及语言学知识这三部分的分值比重并不固定，在内容方面，人文地理主要考查美国、英国、澳大利亚、加拿大、新西兰等国家概况，文学方面主要考查小说和诗歌，尤其偏重英美作家作品，语言学方面题目近三年涉及较多的是社会语言学和词汇学，也考察了语音学、形态学，甚至近些年比较热门的认知语言学也在考察范围之内.这些考题的设计，内容广泛，层次多样，满足了《考纲》对此部分考查目的的要求.通过这一部分的测试，能够有效检测出考生的人文知识掌握能力.

表4 2011年至2013年八级考试人文知识试题题目的考点分布

5 结论

研究发现，TEM8人文知识测试的大部分题目难度不高，题目区分度不显著，内部一致性偏低；对不同群体测试的构念一致；在项目功能差异方面该测试对不同院校不同专业的考生差异表现不明显，说明考试具有较高的公平、公正性；在构念维度方面，人文知识考试包括三个维度，即英语国家概况、语言学和英美文学，这与《考试大纲》要求相符；内容方面，英语国家概况比较偏重地理的考察，文学方面对于英美作家作品的考察较多，语言学方面偏重对于社会语言学和语音学方面的考察.

本研究是在Bachman测试使用论证的指导下对英语专业八级人文知识试题的构念效度进行分析，研究结果对于考试的设计和改革具有一定的参考价值，对于语言测试的效度验证也有一些参考意义.但由于受客观条件的限制，本研究在操作方面存在一些局限，比如抽样只局限在河南省的部分高校，试题范围只是近三年的专八试题，研究结果具有一定的实际意义但代表性不够等，需要更多研究者加以完善.

〔1〕Bachman,L.F.,&Palmer,A.(1996).Language testing in practice.Oxford:Oxford U-niversity Press.

〔2〕Bachman,L.F.(2005).Building and supporting a case for test use.Language Assessment Quarterly,2(1),1-34.

〔3〕Messick,S.(1996).Validity and Washback in Language Testing.Princeton:ETS.

〔4〕高等英语专业八级考试大纲修订小组.高等英语专业八级考试大纲（2004年新版）[Z].上海：上海外语教育出版社，2004.

〔5〕邹申.TEM考试效度研究[M].上海：上海外语教育出版社，1997.

H319

1673-260X（2014）07-0256-03

河南省社科联、河南省经团联2013年度调研课题（SKL-2013-1525）