APP下载

基于系统聚类的电子作业不诚信行为识别研究

2022-05-30余婉风许梦吴明涛

电脑知识与技术 2022年21期
关键词:R语言

余婉风 许梦 吴明涛

摘要:针对《应用统计学与R语言建模》实验教学的实际情况,总结实验环节中遇到的问题,提出了应用统计分析实验应与教学和实际生活相结合、增加趣味性、降低理解难度的观点。基于课程改革的要求,重新设计和优化实验,以系统聚类为例,取得了较好的实验效果。

关键词:博思平台;电子作业;系统聚类;R语言

中图分类号:TP311        文献标识码:A

文章编号:1009-3044(2022)21-0023-03

开放科学(资源服务)标识码(OSID):

1 引言

《应用统计学与R语言建模》课程采用线上+线下结合的方式,在博思平台发布作业,学生提交Word文档形式的电子作业。由于部分学生数理知识薄弱,对应用统计学方法理解困难,不能灵活运用,且大二学生几乎都缺乏数据分析经验,所以博思平台收集的电子作业经常出现集中抄袭等不诚信行为,参考博思平台排查不诚信行为的功能和排查结果,本着让实验案例尽量贴近实际学习生活、增加趣味性的原则,将应用统计学方法应用到识别电子作业不诚信行为中,重新设计实验。

2 实验设计

2.1 实验课题

实验课题为“聚类分析在博思平台电子作业不诚信行为识别中的应用”,以培养学生提高应用统计学应用水平和编程实践能力为实验目的,贴近学生的学习生活,锻炼学生数据分析能力。

2.2 实验工具

目前常用的统计分析软件有Excel、SPSS、MATLAB、Python和R等,本课程实践课以R/Rstudio软件为实验工具,在实验过程中利用R语言免费、开源包含众多统计分析方法内置函数和强大的绘图功能等特点,将抽象的统计方法可视化,促进学生对统计方法的理解,提高学生学习效率[1]。

2.3 数据来源

从博思平臺教学班级中导出前面某一次全班电子作业压缩包,在教师机利用红蜘蛛传输给每一台学生机。基于学生缺乏数据分析基础,实验开始之前引导学生从Word版本的电子作业中提取有用信息。首先,分析常见的作业不诚信行为形式,有些同学直接将其他同学的文档拿过来改成自己的文件名提交,另外一些同学是在其他同学的文档上做极小面积改动、提交,基于常见的两种集中作弊形式,建议学生提取“文件内存大小”指标。接下来,由学生自己思考,提取更多有效指标,如“字符数”“段落数”“图片数量”和“图片大小”等,构成识别电子作业不诚信行为的评价体系,制成Excel表格。

针对课程教学过程中的教学和实验案例,授课老师往往会提炼好数据发给学生,导致学生忽略掉收集数据的重要性。让学生自己学会从电子作业Word文档提取数据形成有效评价指标是这个实验的特色和难点。90分钟的实验时间内要求学生在前45分钟从全班57份电子作业中提取数据,这对于缺乏数据采集经验的学生来说,是一个较大的工作量,所以本次实验采取分组完成的形式,分成28组,表1是其中某一组学生收集的数据。

2.4 聚类方法之系统聚类

《应用统计学与R语言建模》课程学习两种聚类方法:快速聚类(Kmeans聚类)和系统聚类,根据聚类对象又分成Q型聚类和R型聚类[2],R软件及其相关软件包提供了相应的聚类函数[3]。快速聚类不需要计算类别之间的距离,相对计算量较小,比系统聚类更适合大样本数据。这里只有57个样本,对样本进行分类,这里采用Q型系统聚类,画出谱系图。

(1)将数据读取成数据框,绑定数据即定义各变量,为了消除各变量数量级和量纲上的不同进行标准化处理,R语言函数scale();

(2)针对标准化之后的数据框,计算样本两两之间的距离,R语言函数dist(数据框,method=“...”, ...),常用距离计算公式有欧式距离、Manhattan距离和Maximun距离等,分别用“euclidean”“maximum”“manhattan”表示;

(3)每个样本当作一个类,即构造n个类,每个类只包含一个样本;

(4)合并距离最近的两个类为一个新类;

(5)计算新类与当前各类两两之间的距离,类间距常用计算方法有最短距离法、最长距离法和重心法等[4-5]。将间距最小的两个类合并,重复(4)(5)操作,直到类个数为1;

最短距离法:两个簇最近样本之间的距离。如图1所示,两个簇内有多个样本,利用样本间距计算公式如欧式距离计算不同簇内样本两两之间的距离,选择最短距离作为簇间距。

最长距离法:两个簇最远样本之间的距离。利用欧式距离计算不同簇内样本两两之间的距离,选择最长距离作为簇间距。

重心法:两个簇中点之间的距离。如图2所示计算两个簇的重心(即该簇样本的均值),利用样本计算公式如欧式距离计算重心之间的距离作为簇间距。

R语言系统聚类函数hclust(dist(A),method="...", ...),其中A是标准化之后的数据框,method是系统聚类簇间距计算方法,最短距离法、最长距离法和重心法分别表示为single、complete和centroid。

(6)画出聚类谱系图。

(7)决定类的个数,确定每个类别中的样本[6]。

2.5实验结果

系统聚类谱系图如图3所示,评价体系包含六个指标,谱系图可以将多维空间表达在二维空间中,非常直观地表达出分类系统。左边的“Height”权值即距离,距离越小,相似度越大,通过对比权值,定量分析样本相似度大小,如学生方*雨和洪*成的权值很小即这两个样本距离很近,说明相似度很高,可以判定这两位学生本次作业中存在不诚信行为。从谱系图中明显能够看出大部分学生的电子作业互相之间的相似度很高,该次电子作业存在明显的抄袭情况。

画出谱系图以后,参考博思平台“团伙作案”判定结果,分11个类别,如图4和表2所示。

根据分类结果,如果类里面只有一个样本则该同学可以排除参与集中作弊的嫌疑,如毛*雨和黄*凡。最后,学生撰写数据分析文档作为本次实验报告,利用红蜘蛛提交,教师机收集到28份实验报告。实验过程中,学生注意力集中,所有学生都能参与进去,实验完成以后,各小组之间分享实验结果,气氛欢快。

3 教学效果

从教务系统导出《应用统计学与R语言建模》实践课程“平均成绩”和“教学满意度”两个教学质量维度来评价过去四届学生对本课程的满意程度,如表3所示。

随着课程改革实施过程中教学材料不断积累、教学实验不断优化,教学满意程度明显上升,证实了课程改革的必要性。总结本次实践课教学经验,实验报告应要求学生撰写完整的数据分析报告;实验案例尽量贴近学生的学习生活,增加趣味性;提高学生利用R语言实现应用统计方法的同时要强调原始数据的重要性,让学生自主获取数据,培养学生数据采集的能力。

4 结束语

通过上述系统聚类的具体实验案例,充分将R语言引入到应用统计学的实践教学中。设计贴合生活的案例,有助于学生对应用统计学理论知识的理解,激发学习兴趣,教会学生如何使用应用统计分析方法,达到学以致用的教学效果。

参考文献:

[1] 黎中彦,陈建超.R语言在《应用多元统计分析》教学中的应用[J].大众科技,2020,22(9):120-123.

[2] 吴海建.多元统计的聚类分析方法及应用[J].河南省情与统计,2003(3):34-35.

[3] 贾俊平.统计学基于R应用[M].北京:机械工业出版社,2014.

[4] 王怀亮.R软件在系统聚类分析中的应用[J].合作经济与科技,2011(14):126-127.

[5] 安尼卡尔·艾斯卡尔,祖来克孜·米吉提.系统聚类法及其应用研究[J].价值工程,2019,38(17):254-258.

[6] 王斌会.多元统计分析及R语言建模[M].4版.广州:暨南大学出版社,2016.

【通联编辑:闻翔军】

猜你喜欢

R语言
基于R语言的学生成绩分析
基于GPS轨迹数据进行分析改善城市交通拥挤
基于R语言的Moodle平台数据挖掘技术的研究
注重统计思维培养与应用为主导的生物统计学课程建设