APP下载

专家评教:一分之差的涵义分析

2017-08-08盛艳燕喻秋山

文山学院学报 2017年3期
关键词:评教估计值差距

盛艳燕,喻秋山

(1.长江大学 管理学院,湖北 荆州 434023;2.长江大学 物理科学与光电学院,湖北 荆州 434023)

专家评教:一分之差的涵义分析

盛艳燕1,喻秋山2

(1.长江大学 管理学院,湖北 荆州 434023;2.长江大学 物理科学与光电学院,湖北 荆州 434023)

评教专家对不同教师给出的分数通常只有一分之差,甚至更少,却包含了能力评价和情绪表达两种涵义。多面Rasch模型分析发现:一分之差代表了不同的能力差距,在高分段,一分之差代表了更大的能力差距。访谈和编码分析后发现,教师的能力水平、评委情绪和情绪表达规则是这种现象产生的原因。因此,教学能力评价应采用能力估计值划分等级的方法、中等能力水平分数应再次划分等级、建立评教专家的选拔、培训制度。

专家评教;一分之差;多面Rasch模型

专家评教是目前大学教师课堂教学能力评价的重要组织形式。在大学教师课堂教学能力评价中,一种普遍的现象是,评教专家很少给出很低的分数,也很少给出很高的分数,大多数分数集中在一个特定的分数段,专家对不同教师给出的分数差距往往只有一分,甚至更少。这是否说明大学教师课堂教学能力得分差距为一分的教师,其能力差距是相同的呢?专家给出的一分之差究竟意味着什么?对于这些问题的回答,能够帮助我们认识评教专家履行职责的特殊方式,揭示分数背后的心理属性[1],提高评价结果的应用价值。

有关大学教师教学能力评价的研究主要集中在评价指标的内容和权重[2-3]、评价主体的选择、评价结果反馈和评价数据的处理[4-5],少数研究者利用多面Rasch模型研究评教主体的评分行为差异[6],认为评分差异产生的原因来自评教主体、量表和外界因素的相互作用[7],提出了矫正评教主体影响评分结果的方法[8],但没有从评分差异角度探讨评教主体的心理行为,因而没有揭示分数所包含的心理属性,由此不能回答“一分之差究竟意味着什么?”

借鉴已有的研究成果,本文利用多面Rasch模型将评教分数差距转化为能力差距,用来分析评教分数差距所代表的能力差距,并结合访谈法分析评教专家的心理行为,从而揭示分数包含的能力属性和情绪属性,说明专家用一种特殊的方式履行评教职责,一分之差其实包含了能力评价和情绪表达两种涵义。

1 理论基础与研究假设

测量理论认为个人能力是一种潜在特质,正确做答的概率是个人潜在特质水平的函数[9],也会受到评委和测量题目因素的影响。[10]多面Rasch模型是目前发展最为成熟的潜在特质理论模型,它用线性方程将做答概率、评委、考生能力和题目难度在同一尺度上,从而更加准确地测量个人的潜在特质,也为评委评分差异分析提供了思路和方法。多面Rasch模型的表达式为:

Log(Pni,jk/Pni,j(k-1))=Bn-Di-Cj-Fk。其中,Pni,jk是考生n在项目i上被评委j评定为k等级的概率;Pni,j(k-1)是考生n在项目i上被评委j评定为k-1等级的概率;Bn是考生n的能力参数(n=1, 2……N);Di是任务i的难度参数(i=1,2……);Cj是评委j的宽严程度(j=1, 2……);Fk是被试得分从等级k-1到k的等级难度。现行的大学教师课堂教学能力评价往往采用评委独立评分的方式,但评委评分的宽严程度存在显著差异[6],对评分标准的理解和使用往往不一致。[7]如果要准确评价大学教师的课堂教学能力,分离出评委因素对评价结果的影响是有必要的。所以,我们假设多面Rasch模型适用于评教专家的评分行为差异分析。

心理学认为情绪影响人的行为,情绪评估理论将其过程表示为“感知—评价(归因)—产生情绪—情绪表达—行为”。[11]特定情景事件可以诱发多种情绪[12],个体遵从社会或他人所接受、认可的标准来调节和控制自己的情绪,并用符合社会规则的方式来表达情绪,产生与社会规则相符的行为。[13]在大学教师课堂教学能力评价中,评委将教师的课堂表现收集、分析、解释和归纳到相应的评分标准中,教师的课堂表现诱发评教专家产生一系列认知评价,形成情绪。但是,评教专家并没有直接将情绪表达出来,而是对不同的对象使用了不同的情绪表达规则。[14]对于不同教学能力的教师,评教专家在内心给定某个教师一个课堂教学能力评价分数之后,再遵从一定的情绪表达规则对分数进行调整,直到给出最终分数。因此,教师课堂教学能力、评教专家的情绪及其表达规则影响教师课堂教学能力分数,我们假设分数具有能力属性和情绪属性。

2 分数—能力差距的多面Rasch分析

2.1 样本与数据来源

本次研究从某高校的一个学院收集了2014年11月至12月的107份课堂教学评价表。评委共有6位,被评价的教师共有23位。根据多面Rasch模型的要求,我们剔除了部分评分表:2位评委分别只对两位不同的教师进行了评分,这2位评委填写的评分表被剔除;一位教师只被一位评委评价一次,该教师的评分表也被剔除。

按照教师编号对数据分类整理。评委的编号为A、B、C、D,教师的编号为S1、S2、S3…S22。18位教师分别被4位相同的评委评分,其他4位教师被若干不同的评委评分,每个教师的最后得分用评委评分的均值表示。例如,评委A对S1教师评价两次,评委A给S1教师的分数按照两次评价的均值计算,评委B对S1教师评分一次,S1教师的最后得分按照评委A和评委B评分的均值计算。经过分类整理,本次研究的样本由 4位评委、22位教师的评分数据共77个构成。

2.2 分数—能力差距的关系分析

测量学原理认为,分数代表能力,分数越高代表能力越强,相同的分数差距代表相同的能力差距。Facets软件将原始分数分解为能力估计值、题目难度和等级难度,用以检验能力是否随分数增加而提高,并用等级间距表示能力差距,因而原始分数和能力估计值可以反映分数差距和能力差距之间的关系。

原始分数的多面Rasch分析结果见表1。先计算每个教师的能力估计值,再按能力估计值从低到高排序,再用相临两个能力估计值的较大数减去较小数,得到每个教师能力估计值差距,最后计算相临两个教师的原始分数之差得到原始分数差距。从原始分数差距来看,例如,教师S9的能力估计值为-0.51Logits、原始分数为83.36,教师S12的能力估计值-0.34 Logits、原始分数为84.36,说明增加原始分数增加1分,能力估计值增加0.17 Logits。教师S3和S15的原始分数相差为1分,而能力估计值相差为0.08 Logits,但是教师S2和S7、教师S14和S11的原始分数相差均为0.12,而能力估计值相差分别为0.03 Logits和0 Logits。教师S10和S2、教师S4和S15的原始分数相差均为0.64,而能力估计值相差分别为0.13 Logits和0.21 Logits。从能力估计值差距来看,教师S2和S7、教师S17和S16的能力估计值相差均为0.03 Logits,而原始分数相差分别为0.12分和-0.12分。教师S6和S13、教师S1和S4、教师S16和S1的能力估计值相差均为0.06 Logits,而原始分数相差分别为0.36分、0.24分和0.48分。因此,原始分数差距相同,但教师的能力差距不同,而能力估计值差距相同,原始分数差距却不同,所以一分之差代表了不同的能力差距。

为了考察分数—能力差距的变化,本文按照表1的顺序将所有教师的原始分数和能力估计值分为高、中、低3组,每组6人,结果见表2。先检验分组的统计适合程度,利用SPSS20.0软件的方差分析得到Levene=1.074(P=0.366),说明每个组别的方差是齐性的,满足方差分析的条件,F=35.055(P=0.00),说明组间差异显著,本文的分组结果符合统计要求。为了原始分数差距能够相互比较,我们分别从高分组、中等组和低分组中等距取整数,86分对应的能力估计值为-0.16 Logits至-0.03 Logits之间,88分对应的能力估计值为0.24 Logits,90分对应的能力估计值为0.74 Logits。那么,每组之间的原始分数差距都为2。分数从低分组增加到中等组,能力需要增加0.27 Logits到0.4 Logits之间,而从中等组增加到高分组,能力需要增加0.5 Logits。因此,在不同的分数段,一分之差代表了不同的能力差距,而在高分段,一分之差代表了更大的能力差距。

表1 原始分数的多面Rasch分析结果

表2 分组取值分析结果

3 情绪影响分数—能力差距的实证分析

多面Rasch模型能分析分数—能力差距的关系,但不能分析这种关系产生的原因,本文采用访谈编码的方法分析其原因。

3.1 访谈设计

访谈设计的依据是情绪影响决策的文献。检索文献后发现,教学能力评价中暂未有人研究评委情绪影响评教结果的发生机制,所以本文将文献范围扩展到面试评分研究。Baron将评委情绪分为正面情绪和负面情绪[15],方差分析后发现被评价者的资格调节情绪和评委决策之间的关系。[16]结合情绪诱发理论和教师的情绪表达规则,我们分析教师教学能力对情绪的影响、情绪表达规则对情绪和评分的调节作用。

访谈的对象是6位多次担任教师教学能力评价的高级职称教师,包括本次4位评教专家中的2位。由于条件限制,本文采用多位专家进行类比的方法。如果能对4位评教专家进行访谈,分析结果更为可靠。

访谈提纲由开放式问题组成。主要包括:请您讲讲您打分最高的教师,您给了多少分?听了他的课,你有何感想?您还会少给分或多给分吗?请您讲讲您打分最低的教师,您给了多少分?听了他的课,您有何感想?您还会少给分或多给分吗?您对讲课一般的老师课堂细节有印象吗,这些老师带给您的课堂感受是什么,您给他们评分的时候有什么想法呢?

3.2 访谈内容整理与编码汇总

为了方便区分正面情绪和负面情绪,我们采用了邱林修订后的中文版PANAS。[17-18]该量表被证明适用于中国人群的情绪测量[19],我们按照该量表的9个积极情感和9个消极情感体验描述词将评委的情绪按性质归类。

访谈结束后,我们按照扎根编码的分析方法将访谈内容进行编码和汇总。部分访谈内容和编码摘录如下:我给过的最高分是95分,我觉得这个老师的教学能力水平非常高,准备充分,是下了工夫的(a14)。他的课让我也受到了鼓励(a11),我觉得他是值得尊敬和赞赏的(a12、a13)。其实还可以多给几分,但别的人可能不会给太高,所以95分也差不多了(c1),只要能将他和别人区别开来就行(b1)。 我给的最低分是80分,其实我觉得还应该低很多(c3),但我觉得太低了可能打击一个人的自信心(a33),毕竟上好课不容易(a32),课程难度也有影响(a34),如果认真准备,可能也不会太差,当然也有人是没有责任心的(a31)。但分数不会太低(c3),也是给点提示(b3)。大多数老师的能力属于中等水平,整体上非常不错(a21),都是认真负责的,可惜没有特色(a22),产生这种现象的原因是多方面的(a14,a34)。他们之间的能力水平很难区分,外界影响比较大(b2),分数不确定性比较大(c2)。

将所有的编码汇总,结果见表3。

表3 编码汇总结果

3.3 情绪影响分数—能力差距的编码分析

3.1 不同能力水平引发评委的不同情绪

特定情绪由多种情绪评估认知构成,不同特征的个体引发不同情绪。编码汇总后发现,高能力水平的教师引发评委多种正面的、积极的情绪,例如备受鼓励(a11)、尊敬(a12)、赞赏(a13)和内部归因(a14),我们将这些情绪命名为“钦佩”。[20]低能力水平的教师引发了评委多种负面情绪,但情绪效价不够明显,主要表现为批评(a31)、同情(a32)、目标导向与接纳(a33)和外部归因(a34),我们将这些情绪命名为“平静”。中等水平的教师引发评委正面的、积极的情绪倾向,包括赞赏(a13)和肯定(a21),并同时采用了内部归因(a14)和外部归因(a34),但存在轻微的负面情绪,例如遗憾(a22),我们将这些情绪命名为“认可”。[21]

3.2 情绪表达规则调节情绪与分数的关系

评委对不同对象采用了不同的情绪表达规则。对于“钦佩”情绪,评委采用了“抑制正面情绪”(b1)的情绪表达方式,在实际能力评价的基础上设置了“评分上限”,分数可能低于实际能力(c1)。对于“平静”情绪,评委采用了“抑制负面情绪”的情绪表达方式(b3),在实际能力评价的基础上设置了“评分下线”,分数可能高于实际能力(c3)。对于“认可情绪”,评委采用了“不确定”(b2)的情绪表达方式,分数能否体现实际能力具有不确定性(c2)。

3.3 教师能力差距、评委情绪以及情绪表达规则影响分数差距

不同能力水平的教师引发评委的不同情绪,情绪表达规则调节情绪和分数之间的关系,我们将其归纳为“能力差距—情绪—情绪表达规则—分数差距”。在原始分数的高分段,由于“抑制正面情绪”(b1)的情绪表达方式,提高分数难度更大,该分数段的一分之差包含更大的实际能力差距。在原始分数的低分段,由于“抑制负面情绪”的情绪表达方式(b3),提高分数比较容易,该分数段的一分之差包含更小的实际能力差距。而在中等分数段,由于“不确定”(b2)的情绪表达方式,该分数的一分之差具有更大的能力不确定性。因此,原始分数的高、中、低三个等级体现了个体之间的实际能力差距,但个人具体的分数受到情绪和情绪表达规则的影响。

4 研究结论与管理建议

利用2014年11月至12月的评教分数进行多面Rasch分析分数—能力差距的关系,在利用访谈资料编码分析情绪对分数—能力差距的影响,得到如下结论。

4.1 研究结论

1)在不同分数段,一分之差意味着不同的能力差距。原始分数与能力估计值的关系表明,一分之差代表的能力差距并不相等。在原始分数的高分段,相比低分段,一分之差代表了更大实际能力差距。这就表明低分段增长一分,个人所需实际能力比较低,而在高分段增加一分,个人所需实际能力比较高。同时,个人从低分组跨越到中等组比较容易,而要从中等组跨越到高分组是比较困难的。因此,一分之差意味着不同的能力差距,专家以一分之差来委婉表达对个体能力水平的评价。

2)分数具有能力评价和情绪表达两种涵义。本文的研究表明,原始分数越高,整体上能力估计值越大。分组后的方差分析显示,高、中、低三组的原始分数和能力估计值有显著差异,说明原始分数等级越高、实际能力越强,分数能够体现实际能力差异。同时,评委在评分过程中产生对不同能力等级的教师产生了“钦佩”“认可”和“平静”三种不同的情绪,每种情绪包括4种情绪评估认知。评委的情绪基本上是正面的,正面和负面的情绪强度都有所抑制,表现为评委在内心设置了评分的上限和下限,所以高分和低分比较少,大多数分数都集中在特定的分数段,分数差距非常小。因此,原始分数具有能力属性和情绪属性,是评委对教师能力的评价和个人情绪的表达。

3)教师实际能力、评委情绪是“分数—能力差距不相等”产生的原因。已有研究表明,分数是被评价者能力和评委特点的函数[10],情绪是影响评委评分的重要因素。本文的研究表明,不同能力水平引发评委的不同情绪,情绪表达规则调节情绪与分数的关系,所以情绪发生作用的机制为“能力差距—情绪—情绪表达规则—分数差距”,原始分数不仅仅是被评价者能力的体现,还包含了评委的情绪和情绪表达规则,评委对不同能力水平的教师使用了不同的情绪表达规则,使不同分数等级内相同的分数差距代表了不同的能力差距。

4.2 管理建议

1)教学能力评价应采用能力估计值划分等级的方法。本文采用的能力估计值划分等级的方法能够区别个体的不同能力等级,不同等级之间具有统计上的显著差异。目前,能力等级划分方法都是依据原始分数划分为的“优”“良”“中”和“差”,而原始分数没有剔除评委对分数的影响,也不能体现能力的相对强弱。本文的研究表明,评委情绪对评分是有影响的,而能力估计值能剔除评委情绪的影响,结合排序法或其他分组方法就能实现能力等级划分。

2)中等能力水平分数应再次划分等级。本文的研究表明,评委对中等能力组的评价具有不确定性,这可能来源于被评价个体差异小或评委对评分标准的理解和把握程度。[22]在评价过程中,评委往往能比较准确地区分高能力组和低能力组,而中等能力组的评价不确定性比较大。当处于中等组的人数比较多时,中等组的能力差距大于低分组,分组能将中等组的个体能力差异区别开来。高分组和低分组可以考虑分别使用一个等级,而中等组则可以考虑多分几个等级。

3)建立评教专家的选拔、培训制度。评教专家是评教活动开展的重要主体。情绪产生于认知,其情绪和情绪表达规则影响评教分数。因此,建立评价专家的选拔和培训制度是有必要的,主要措施有:对现有的评教专家进行评分技能培训,帮助他们克服情绪表达规则中的不确定性因素干扰;选拔认知能力强的评价专家,建立可视化的模拟培训库,加强对专家的培训和反馈。[22]

[1]王文中.Rasch测量理论与其在教育和心理之应用[J].教育与心理研究,2004(4):637-694.

[2]李长青.构建平衡计分卡理论的高校教学质量评价指标体系[J].高教探索,2014(6):137-141.

[3]丁家玲,叶金华.层次分析法和模糊综合评判在教师课堂教学质量评价中的应用[J].武汉大学学报(社会科学版),2003(3):241-245.

[4]纪红.课堂教学质量评价的误区与对策[J].中州大学学报,2004(7):87-89.

[5]张克非.课堂教学质量评价数据客观性处理及反馈机制探究[J].教学与管理,2014(3):44-47.

[6]Wang WC, Cheng Y Y. Measurement issues in screening outstanding teachers [J]. Journal of Applied Measurement, 2001(2): 171-186.

[7]盛艳燕,喻秋山.基于多面Rasch模型的大学教师课堂教学能力评价量表优化研究[J].高教探索,2015(9):83-89.

[8]盛艳燕,赵映川.基于多面Rasch模型的大学教师课堂教学能力评价方法研究[J]. 高教探索,2015(2):70-74.

[9]L·赫林,F·德雷斯哥,K·帕森斯著.东北师范大学教育咨询中心译.项目反应理论在心理测量中的应用[M].武汉:湖北教育出版社,1990:15.

[10]Cason G J, Cason C L. A deterministic theory of clinical performance rating[J]. Evaluation and the Health Professions, 1984(7): 221-247.

[11]丁如一,周晖,林玛.感激情绪的认知评估体系[J].心理学报,2014(10):1463-1475.

[12]郑璞,刘聪慧,俞国良.情绪诱发方法述评[J].心理科学进展,2012(1):45-55.

[13]Ekman P, Friesen W V. The Repertoire of Nonverbal Behavior: Categories, Origins, Usage, and Coding [J]. Semiotica, 1969(1): 49-98.

[14]徐长江,费纯,丁聪聪,刘迎春.教师情绪表达规则的质性研究[J].教师教育研究,2013(7):68-73.

[15]Baron Robert A. Interviewers’ Moods and Evaluations of Job Applicants: The Role of Applicant Qualifications [J]. Journal of Applied Social Psychology, 1993(4): 253-271.

[16]Chen Chien-Cheng, Chen Hsien-Wen, Lin Ying-Yin. The Boundaries of Effects on the Relationship between Interviewer Moods and Hiring Recommendation [J]. Applied Psychology, 2013(4): 678-700.

[17]邱林,郑雪,王雁飞.积极情感消极情感量表(PANAS)的修订[J].应用心理学,2008(3):249-254. [18]Watson D C, LA T A. Development and validation of brief measures of positive and negative affect: The PANAS scales [J]. Journal of Personality and Social Psychology, 1988(6): 1063-1070.

[19]黄丽,杨廷忠,季忠民.正性负性情绪量表的中国人群适用性研究[J].中国心理卫生杂志,2003(1):54-56.

[20]陈世民.钦佩感:一种见贤思齐的积极情绪[J].心理科学进展,2011(11):1667-1674.

[21]左衍涛,王登峰.汉语情绪词自评维度[J].心理学动态,1996(5):55-59.

[22]Posthuma R A, Morgeson F P,Campion Michael A. Beyond employment interview validity: A comprehensive narrative review of recent research and trends over time [J]. Personnel Psychology, 2002(1):1-82.

(责任编辑 查明华)

An Analysis on the Meaning of One Piont Gap Given by Evaluation Experts

SHENG Yanyan1; YU Qiushan2
(1. Management School, Yangtze University, Jingzhou Hubei 434023, China; 2. School of Physics and Photo Electricity, Yangtze University, Jingzhou Hubei 434023, China )

Evaluation experts often give different teachers only one point gap, but it means capacity evaluation and emotional expression. By many-facets Rasch model analysis, we f i nd that a different point represents different capacity gaps and in the higher segment, one point gap represents a greater capacity gaps. Interview and coding analysis f i nd that the ability of teachers, judgers’ mood and emotion display rules are the cause of this phenomenon. Therefore, the ability estimation numbers should be ranked to identify teachers’ capacity grades, score in medium levels should be rated more grades, experts system of selection and training should be established.

experts′evaluation on teaching; one point gap; many-facets Rasch model

G526.3

A

1674 - 9200(2017)03 - 0090 - 6

2016 - 11 - 22

长江大学教学研究项目“过程导向的大学生创新创业训练计划评价体系研究”(JY2014026)的阶段成果。

盛艳燕,女,湖北潜江人,长江大学管理学院讲师,博士,主要从事人力资源管理研究;喻秋山,男,湖南宁乡人,长江大学物理科学与光电学院讲师,博士生,主要从事数据模拟与计算研究。

猜你喜欢

评教估计值差距
地方高校教学评价指标制订与评教数据分析
高校学生评教存在的问题及对策
——以川北医学院为例
一道样本的数字特征与频率分布直方图的交汇问题
2018年4月世界粗钢产量表(续)万吨
难分高下,差距越来越小 2017年电影总票房排行及2018年3月预告榜
学生评教的标准化处理
缩小急救城乡差距应入“法”
评教,别忘记站在教师的立场上
2014年2月世界粗钢产量表
幻想和现实差距太大了