APP下载

传染病预防健康素养题库的试题难度测定方法研究

2017-11-01夏明康潘新锋陈润洁范晓宇顾沈兵

健康教育与健康促进 2017年4期
关键词:多选题判断题区分度

夏明康,潘新锋,陈润洁,范晓宇,刘 丽,丁 园,顾沈兵



传染病预防健康素养题库的试题难度测定方法研究

夏明康,潘新锋,陈润洁,范晓宇,刘 丽,丁 园,顾沈兵

上海市健康促进中心,上海,200040。

以传染病预防健康素养题库为基础,比较和评价不同试题难度的测定方法。采用出题者原始评价、医学生主观评价、问卷调研的实际答对情况这3种不同指标所测出的难度值进行比较,评价不同难度计算方法的科学性和合理性。对3套难度指标的易、中、难3个区间进行频数统计,其卡方检验的结果有显著差异的(<0.01)。实测单选题难度分布居中且较为均匀,偏态相对不明显,而判断题、多选题的难度则分别呈现了较为明显的正偏和负偏分布。原始评价和学生评价体系对于判断题的难度预估相对于实测难度普遍偏高,而多选题的难度预估则普遍偏低。关于总论、呼吸道、儿童常见呼吸和接触性传染病的题目实测难度较低,而关于虫媒性、动物源性传染病的题目实测难度较高。题目难度会随着考察点、题目类型的设置而不同,基于个人知识背景的主观判断可能会出现误差。题库难度分布的控制和优化需结合对应试者水平的了解,故应以实测数据为基准。

传染病预防;健康素养题库;试题难度

近年来,随着健康教育研究的深入,以题库为基础的评估体系日趋成熟。相对于传统面对面问卷调查形式,题库不仅能大大提高考查题目的广度,还能借助一定的组卷原则,利用计算机生成一套契合度高的问卷,能够同时在不同的信息化平台上契合不同的主题,实现有针对性的快速评估,它具有传统问卷组卷方法所不具有的灵活性。根据上海市公共卫生体系建设《传染病防治健康素养评价的标准化研究》的实施要求,需建立一套标准化、规范化,符合本市需求和特点的,科学有效的传染病预防健康素养标准测评题库。因此,本研究以传染病预防健康素养评价标准化题库项目为基础,以试题的难度作为切入点,试用不同的评价方法对题库的难度分布进行多方面的考察和讨论,以为今后传染病预防相关知识题库乃至整个健康教育题库评估体系的建立和完善提供参考。

1 对象与方法

1.1 对象

1.1.1 调查对象

问卷调查的对象分为两部分,高年级医学专业大学生和上海市社区居民。

1.1.2 样本量计算

根据前期健康素养的大样本问卷调查的结果,大学生平均60分以上的人约占90%,社区居民及格率(60分以上)75%。本次调查容许误差不超过0.1,=0.05(双侧)。根据样本量计算近似公式:=400(1-)/,得出需要调查的医学生为45人,社区居民为133人。考虑到性别、年龄组别的对等性,实际学生人数男女各23人;社区居民调查对象人数如表1所示,调查总人数为182人。4组问卷的样本量为728份。见表1。

表1 社区居民样本量分配表(人)

1.2 研究方法

1.2.1 研究内容

在全国健康素养评价的指标框架体系[1]的指导下,根据《健康66条》和国家法定传染病进行专家论证。邀请上海市公共卫生专业人员分工整理题库核心信息,对每条(种)整理出不少于50条核心知识信息,并在核心信息的基础上出题或梳理既往题目,一共3,881题。对这3,881题审核、完善后,进行难易度赋值评价,并将所有题目按照考察内容,综合各类传染病的临床、传播、防治属性,划分为八大类,包括总论、呼吸道疾病、感染性腹泻病、性病/直接接触传播性疾病、虫媒性传染病、动物源性传染病、儿童常见呼吸/接触性传染病、其他非法定传染病。

1.2.2 研究方式

1.2.2.1 组卷依据与方法

以题库3,881道题为基础,采用随机数字表法抽选并组成《传染病防治健康素养评价问卷》A、B、C、D共4套卷,每套卷有40道判断题,50道单选题,30道多选题,并以此为基础对题库实测难度的问卷调研。

1.2.2.2 难度测定方法

①原始评定难度:题库汇编阶段时,上述公共卫生专业人员根据自身专业知识和相关经验对每一道题进行赋值,每题根据各人的初步判断,从易到难赋值0~10分作为原始评价难度值。

②学生评定难度:将此题库随机分成4个部分,交给非医学专业大学生对每一道题目的难度做出主观判断,并从易到难赋值0~10分。由复旦大学、上海交通大学、同济大学和河北联合大学的学生各5人完成,将5人评分的平均数作为学生评价难度值。

③实际测定难度:通过问卷调查的方式对题目难度进行实际测定,选取高年级医学类大学生(上海交大医学院学生)和社区居民,同一人做上述由3套不同问卷组成的一组卷子,分4组次进行,每组时间间隔1d以上。难度计算的计算方法为:1-答对试题的人数/答卷总人数,该方法目前难度值的划分区间尚未统一[2-4]。本研究将题目难度在0.30~0.70区间内的为中等题,难度<0.30的为易题,>0.70的为难题。

1.2.3 抽样方法

原始评定难度时所选取的公共卫生专业人员,学生评定难度时所选取的大学和非医学专业大学生,实际测定难度时选取的医学类大学生和社区居民,均采用方便抽样的方法进行抽样。

1.3 质量控制

调查由经过统一培训的大学研究生和社区卫生服务中心社区医生进行。调查员主要负责调查现场的指导和质量控制。原则上由调查对象独立、互不干扰地自填问卷,如文化程度低或其他原因可由调查员代填。每份调查表应及时由督导员进行核查有无明显的填写错误或逻辑错误,并请调查对象及时补充更正。最后课题组抽取5%的调查表进行电话质控。

1.4 统计学分析

本研究采用Excel 2010 软件进行数据录入、数据清洗、初步处理和难度计算。经正态分布检验,实际测定难度、原始评定难度、学生评定难度均不符合正态分布(<0.01),故使用SPSS 21.0软件,采用卡方检验和独立样本秩和检验的方法进行统计学分析。考虑到实际测定难度和主观评分之间的可比性,本研究将实际测定难度计算的结果统一乘以10,即难度区间为0~10。

2 结果

2.1 实测不同人群的题目难度分布

将实测难度分为学生实测难度和居民实测难度,再将两者的难度分布趋势与总体进行比较。结果显示,三者难度分布大致相同,呈现出两边低、中间高,略正偏的难度分布,三者的中位数分别为4.94、5.11和4.93。见表2。

表2 实测据不同人群的题目难度分布(人)

2.2 实测不同题型的题目难度分布

实测不同题型难度分布如表3所示,三种题型分布最为集中的区间各不相同,单选题的难度分布居中且分布较为均匀,偏态相对不明显,而判断题和多选题的难度则分别呈现了较为明显的正偏和负偏分布,即简单的判断题比例明显过低,简单的多选题比例明显过高。三种题型实测难度的中位数分别为3.33、5.15和6.90。

表3 实测不同题型的题目难度分布(人)

2.3 三种难度指标的比较

实际测定难度、原始评价难度、学生评价难度的统计量汇总如表4所示。非参数检验结果显示三者之间均无显著性差异(χ=6.34,=0.16),但若是将三套难度指标进行易、中、难三个区间进行频数统计,其卡方检验的结果有显著性差异(χ=60.48,<0.01)。

表4 不同难度指标的相关统计量

2.3.1 三种难度指标的题目难度分布比较

将实际测定难度、原始评价难度、学生评价难度的难度分布进行综合比较。结果显示:对于实际测定难度而言,其难度在各个区间内分布均匀,然而相对于其他评价体系,难度过高或者过低的分布比例较高,尤其是简单题目比例远高于原始和学生的评价难度;对于原始评价难度而言,难度简单的比例较低,而难度过高的比例则偏高,而难度居中的比例比实际测定难度高;而学生对题目难度评价的结果,过高或者过低的比例较少,处于中间难度部分的题目较为集中,难度居中的比例较高,但是总体而言学生评价的难度分布相对于实测难度的分布略高。见表5。

2.3.2 三种难度指标关于不同题型的比较

将所有题目的难度按照不同题型进行比较,结果显示实测难度测定的结果和原始评价的结果基本一致。难度均是以判断题、单选题、多选题的顺序由小到大递增,而学生难度评价体系中三种题型难度则相对一致。单选题在三种评价体系中的差异并不明显,三者中位数无显著性差异(χ=2.74,=0.25),判断题实测难度的中位数区显著小于后两种评价体系(χ=25.65,<0.01);多选题实测难度的中位数区则显著小于后两种评价体系(χ=19.34,<0.01)。见表6。

表5 三种难度指标的题目难度分布(人)

表6 不同题目类型的难度指标相关统计量

2.4 不同考察内容的难度分布比较

将所有题目按照其考察内容,综合各类传染病的临床、传播、防治属性,划分为8大类,各大类的题目难度统计量见表7。

表7 不同考察内容的难度指标相关统计量

三种评价体系的各大类的分布特征略有差异:实际测定难度的结果显示感染性腹泻病、呼吸道传播疾病、动物源性传染病、总论部分相对较低,而虫媒性传染病、儿童常见呼吸/接触性传染病、其他非法定传染病难度较高;在原始评定的体系中,总论和儿童常见呼吸/接触性传染病难度较低,其他非法定传染病难度最高;在学生评定的体系中,总论、呼吸道传播疾病、性病/直接接触传播性疾病难度较低,而感染性腹泻病、虫媒性传染病、儿童常见呼吸/接触性传染病、其他非法定传染病难度较高。

3 讨论

难度是一个相对的指标,是针对一定群体而言的,实际调查对象包括学生和居民两类人群,然而两者难度结果大致相同,表明目前所设计的题库难度,对于缺乏专业背景、具有较高教育水平、具有一定医学背景的人群,其测量结果都是具有相对稳定且一致的,这为进一步讨论题库难度的讨论与完善提供了基础。

题目的难度会随着考察点的设置而不同。结果显示总论和儿童常见呼吸/接触性传染病,呼吸道传染病的难度较低,而虫媒性传染病和动物源性传染病的难度较高。这种差异可能与卫生部门的宣传侧重点的不同,以及人口较集中的大城市呼吸道传染病的发病更多见,其居民对于虫媒性、动物源性传染病的接触更少[6]有关。

三种难度指标对题库的难度评价是各不相同的。虽然实际测定难度、原始评价难度、学生评价难度三者之间的中位数并未检测出显著的统计学差异,但是结合卡方检验和难度分布图表的结果,能看到无论是原始评价难度,还是学生评价难度,两者所评价出的难度<0.3的易题题数都显著低于实际难度测定的结果。通过出题人原始评价而得出的难度数据大多数处于中等位置,而学生所评价出的难度数据大多数处于中等偏高的位置。很明显,两者均存在低估易题数量的倾向。相对的,实际测定出来的难度值在2.0~8.0的位置之间分布比较平均。结合表3可见,实际难度值与主观的预估值出现了偏差,原始评价和学生评价体系对于判断题的难度预估相对于实测情况普遍偏高,而多选题的难度预估则普遍偏低。之所以出现这样的差异,很可能是原始评价和学生评价体系的主观性造成的。

对于事物主观判断具有居中趋势[7],会避免极端的评价,而倾向于中间的评价,因此主观判断更适合于用作研究初期的参考。只有通过调查才能真实准确地提供难度值的实际情况。然而,题目难度实际所测定出来的结果并不是传染病题库的理想分布,判断题和多选题容易呈现出过易或过难的偏态分布。三种题型难度差距越明显,对于题库后期组卷工作的限制就越大。因此,对于出题者而言,考虑如何缩短三种题型难度差距,即提高判断题难度,降低多选题的难度,既是题库设计的重点,也是难点。

出题者的思路往往多限于书本上的知识架构,而忽略了从答题者的角度思考问题。举个典型的例子:题库中有道判断题“这种说法您是否赞成:凡在马尔堡出血热病人传染期内可能密切接触的所有人员都应进行隔离观察”。这道题实测难度比出题者原始评价难度低了6.9之多,出题者的思路可能更倾向于:因为马尔堡出血热是极为罕见的疾病,所以这道题会很难。其实从答题者的角度来说,即使不认识这个传染病,但是得了传染病应进行隔离观察是常识,所以绝大多数人都会选择“正确”项。因此,判断题的出题思路不能太过直白,不然容易出现答题者即使不知晓也能押对题的情况。有研究发现,正确描述类判断题的知晓率较高,而错误描述类判断题的知晓率较低[9],建议在编写题库判断题时,应提高错误描述类判断题的比例[8],或者将部分判断题改成选择题。

出题者在编写多选题时也要照顾到答题者自身的知识架构,防止题目出得过难。有道多选题“登革热的主要传染源是:a.登革热病人;b.隐性感染者;c.带病原体的蚊子;d.与病人密切接触者;e.不知道”(答案:a、b),此题实测难度比出题者原始评价难度高了5.3之多。其实非医学背景的人对“传染源”这个概念往往缺乏正确的理解,导致很多人会错误地选择c项,或者漏选b项。建议此题重新调整选项,或题干添加传染源的解释。

作为命题者,对试题的难度控制是提供一份优质题库的关键,这依赖于命题者对卫生政策的理解程度、对医学知识的熟悉程度、对应试者水平的了解程度[2]。但一个完善、科学的题库,不仅难度设置要合理,还要使试题或试卷具有对被试者实际水平的区分程度或鉴别能力,即拥有更多医学知识的被试者对某道题的正答率更高,这样的指标被称为区分度[3],而题目区分度的提高主要通过控制试题难度来实现。

通常采用难度、区分度、信度和效度这几个参数来反映一张试卷或量表的质量。合理的难度分布是良好区分度的基础,良好的区分度则是良好的信度和效度的基础[3]。题库的题量很大,一般难以直接测量题库的信度和效度[10-11]。因此难度和区分度评价作为客观的、基础性的研究,其正确定位应该是将大而不精的题库赋予一个标准化体系,成为一种具有良好信效度、具有均衡可比性,与成熟稳定的试卷或量表之间的对接。一般来说,当难度系数为0.5时,试题具有良好的区分度[12]。初期建立的题库显然是不可能做到所有题目的难度都趋近于0.5的,这需要对难度和区分度不理想的题目进行优化,使得难题和易题要少一些,中等难度的试题多一些[13],然后重新评估新修改的题目。从而在“评估—调整—评估”的循环中使题库具有更好的难度、区分度分布,为建立标准化的、具有科学性和实践性双重价值的市民传染病评估体系奠定基础。

[1] 王萍, 毛群安, 陶茂萱,等. 2008年中国居民健康素养现状调查[J]. 中国健康教育, 2010, 26(4):243-246.

[2] 赵立新, 陈文艺, 郭子君. 试卷质量的定量评价[J]. 华南农业大学学报(社会科学版), 2004, 3(4):136-141.

[3] 田聪, 彭斌. 试卷质量定量分析系统中的几个参数及其应用[J]. 中华医学教育探索杂志, 2004, 3(4):52- 54.

[4] 李金平.考试质量分析[J]. 江南大学学报(自然科学版), 2004, 3(4):430-434.

[5] 程爱萍. 儿童传染病临床流行病学特征分析研究[J]. 中国儿童保健杂志, 2012, 20(12):1130-1132.

[6] 张胜年. 上海市主要传染病流行趋势和防治对策[J]. 世界感染杂志, 2005, 5(1):1-5.

[7] Birkenbach X C. Halo, Central Tendency, and Leniency in performance appraisel: a comparison be- tween a graphic rating scale and a behaviourally based measure[J]. South Afric J Industr Psychol, 1984.

[8] 鲜敏, 张新东, 吴礼康. 健康教育效果评价问卷的研究进展[J]. 中国健康教育, 2013, 19(8):732-734.

[9] 蔡忠元, 陈婷, 袁江杰, 等. 健康素养题库不同题型对评价结果的影响[J]. 健康教育与健康促进, 2010, 6(1):1-4.

[10] 傅德印. 因子分析统计检验体系的探讨[J]. 统计研究, 2007, 24(6):86-90.

[11] 关守义. 克龙巴赫α系数研究述评[J]. 心理科学, 2009, 32(3):685-687.

[12] Sim S M, Rasiah R I. Relationship between item difficulty and discrimination indices in true/false-type multiple choice questions of a para-clinical multi- disciplinary paper[J]. Ann Acad Med Singapore, 2006, 35(2):67-71.

[13] 张云松. 综合评价试卷质量分析方法[J]. 数理统计与管理, 2009, 28(2):232-236.

Methodology Study of the Difficulty Assessment on Test Bank of Health Literacy on Infectious Diseases

To compare and evaluate the different methods of measuring the difficulty of questions based on test bank of health literacy on infectious diseases.By analyzing and comparing the difficulty values of the three different indexes including the original assessment of question designers, the subjective assessment of the students, and the actual measuring by questionnaire survey, to evaluate the scientificity and rationality of different difficulty assessing methods.Comparing the three sets of difficulty indexes which divided into three intervals: easy, middle, and difficult, the chi-square test showed significant difference (<0.01). Difficulty distribution of the single-selection questions by actual measuring was relatively mediate and even, but the distribution of true-false questions and multiple-selection questions were appear to be positive and negative skewed distribution. Comparing with actual measurement, both the designer assessment and the student assessment methods generally overestimate the difficulty of the true-false questions, while those methods generally underestimate the difficulty of multiple-selection questions. The difficulty on the general part, respiratory infectious disease, children’s common respiratory infectious/contagious disease were measured lower. The difficulty on insect-borne and animal borne infectious diseases were measured easier.The difficulty of questions varies with the setting of the point of knowledge and the type of questions, but person’s subjective judgments based on individual knowledge may be lead to errors. In order to control and optimize the difficulty distribution of the test bank, it is necessary to combine the understanding of the corresponding level of the respondent. consequently, the actual measured data should be taken as the benchmark.

Infectious disease prevention; Test bank of health literacy; Item difficulty

10.16117/j.cnki.31-1974/r.201704010

上海市卫生和计划生育委员会科研课题基金(20134150);

夏明康(1991—),男,江苏盐城人,本科,医师,主要从事健康教育和健康促进工作,xiamkxy@163.com。

潘新锋,panxinfeng@gmail.com。

2017-05-27。

猜你喜欢

多选题判断题区分度
数学能力月月赛(2)
推理判断题
推理判断题
多选题解题策略
浅谈试卷分析常用的几个参数及其应用
2019年《现代临床护理》继续教育总答题卡
图形推理测量指标相关性考察*
阿伏加德罗常数判断题的常见应对方法
浅观一道题的“区分度”
单维参数型与非参数型项目反应理论项目参数的比较研究*