APP下载

基于数据挖掘的课程教学成效分析与教学改进研究

2024-02-20汪伟潘梦琪廖达海吴南星

高教学刊 2024年5期
关键词:多元线性回归相关性分析主成分分析

汪伟 潘梦琪 廖达海 吴南星

摘  要:随着现代信息技术的发展,教学数据采集已经覆盖线上线下教学的全流程,对教学数据能否进行深入挖掘分析将决定能否有效建立基于数据驱动的现代教学决策方式。该文从机械工程基础课程线上线下教与学的采集数据出发,运用相关系数分析、主成分分析及多元线性回归等多重数据处理和分析方法,对测试成绩的合理性、影响测试成绩的主成分要素的相关性及权重、学业成绩预测方程等进行深入研究,将信息化教学与大数据分析技术进行融合。该文初步建立基于教学数据挖掘的学习成效分析和学业诊断方法,为教学持续改进提供依据和思路,也为进一步建立数据驱动的教学反馈机制和形成个性化教学模式奠定基础。

关键词:相关性分析;主成分分析;多元线性回归;信息化教学;大数据

中图分类号:G640        文献标志码:A          文章编号:2096-000X(2024)05-0102-05

Abstract: With the development of modern information technology, teaching data collection has covered the whole process of online and offline education. The establishment of modern teaching decision-making mode depends on whether the teaching data can be effectively mined and analyzed. The data in the paper iscollected from the online and offline teaching and learning of the course of Fundamental of Mechanical Engineering. Several data analysis methods, such as correlation coefficient analysis, principal component analysis and multiple linear regression methods are adopted to analyze the data. Through the analysis and research, the rationality of the test scores, the correlation and weight of the principal components that affect the test scores, and the prediction equation of academic performance are all obtained. Through the presented analysis methods, the information-based teaching and data analysis technique get effective integration. The study effectiveness analysis and diagnosis methods are preliminary established based on data mining in the paper. It provides basis and thinking for teaching improving and lays the foundation for setting up the data-driven teaching feedback mechanism and personalized teaching model.

Keywords: correlation analysis; principal component analysis; multiple linear regression; information-basedteaching; bigdata

隨着互联网、云计算及大数据等现代信息技术的发展,人们的思维、生产、生活及学习方式得到深刻的改变。转变传统教学模式,打造适应新教改要求及新信息时代下的高效课堂教学模式势在必行。翻转课堂[1]和MOOC[2]这样新的教学方式有效地打破了传统的教学模式,使得教学过程变成以教师为主导和以学生为主体相结合,但是MOOC教学缺乏师生的协作探究、互动交流、讨论答疑,而翻转课堂则缺少教学数据的生成和分析,无法根据学生的反馈重新认识课堂,找出问题,有针对性地开展教学。

依据高校人才培养目标,需要构建基于教学大数据分析的个性化教学模式,将整个教学活动数据化,通过数据分析调整教学计划,真正实现以学生为中心,以学定教,提高课堂教学效率和教学质量。超星泛雅平台、蓝墨云班课、雨课堂[3-5]等提供了学生和教师之间的互动及教学数据的收集平台,如可以进行课堂上的实时答题、弹幕互动,提供学生的课外自学时间、课堂答题成绩等数据,但是这些教学平台本身缺乏对于教学数据的分析和挖掘,而无法完成对于教学成效的分析和学生学业的诊断。如何将大数据分析技术和信息化教学深度融合,以技术促进教学方法创新,明确教学行为和教学成效的关系成为发挥这些教育数据采集平台最佳功能的关键。

刘大莲等[6]收集了学生概率论与数理统计、微积分两门课程的多组数据,采用可拓距的k-means聚类算法分析学生对知识点的掌握程度,针对学生给出其及格与否的某几个具体知识点,以便学生以后进行有所侧重的学习。倪雪华[7]采集了学生课余学习时间、听课认真程度、作业完成情况的数据,利用ID3算法建立决策树,计算信息增益,最终得到了这几组数据之间的权重关系。张贵元[8]抽取学生的各科成绩,将数据预处理后用Microsoft聚类分析算法对数据进行分组分析,为学生英语测试的报考提供了合理的建议。现有的教学数据研究集中于分析学生平时行为数据与成绩的相关性,计算其对学生成绩的影响程度,以此来优化学生的学习方法。

本文以机械工程基础课程的线上自习、提问、线下作业和测试等教学数据为基础,通过数据挖掘评估学生针对该课程知识和能力的变化,运用多种数据分析和处理方法,如主成分分析法、多元线性回归分析,建立学生学习成效分析和学业诊断数学模型,計算出学生学习的各个主要影响因素的权重及学业成绩预测方程,初步建立基于教学大数据的教学成效分析方法,为进一步建立基于教学大数据的教学反馈机制和形成个性化教学模式奠定基础。

一  教学数据采集

以机械工程基础课程为例,进行学习数据的采集和分析。该课程的教学以线下教学为主,线上教学为辅,其中线上教学依托自主开发的智慧教育平台,该平台主要针对大学课堂的授课、学生课前自学、课堂测试、课后作业互评、答辩互评和主题讨论等场景,对教师授课的数据(学生签到、测验答题、课下自学、课上跟随及作业互评情况等)进行收集和可视化处理,最终以图片、表格等形式进行展示。

如图1所示,在该课程的授课前,教师通过智慧教育平台创建课程,制作插入问题的授课PPT并导入平台;提前发布预习资料,提醒学生及时预习。在授课的过程中,在关键知识点处发布课堂测验,及时了解学生对知识点的掌握程度;教师在平台发布当天的课后作业,对教学内容的一些重难点还可以发布主题讨论,激发学生的思考,同时还可以开启以小组为单位的答辩和互评,促进学生对于课程重难点内容的相互交流。

通过完整一学期的授课,对学生的学习情况通过智慧平台进行数据采集,所有数据分为线上的过程性数据和线下的阶段性数据两部分。过程性数据包括学生的课堂表现数据及课后的自学、讨论和作业数据;阶段性数据为所有学生共同参与的两次集体测试——期中测试和期末测试成绩。最终采集的教学数据包括:自学参与率、自学总时长、自学完成率、自学提问次数、课堂答题得分、课堂答题时长、课堂跟随率、课后作业成绩及两次测试的成绩,部分数据截图如图2所示。

二  教学数据分析

(一)  分析思路

为了探究学生在机械工程基础课程中的表现与成绩、教学模式之间的关系,从多个角度采集和分析数据。首先,分析数据前需要确定其合理性,因此对学生的两次测试数据进行了正态性检验;其次,学生的日常行为数据与成绩有着一定的关联,所以分别用线上自学数据、课后作业数据与学生测试成绩进行相关性分析;为进一步确定学生平时行为数据对成绩的影响程度,采用主成分分析法计算各个影响因素的权重;最后,利用多元线性回归分析得到学生期末测试成绩的回归预测方程,从而可以提前进行学业预警和针对性指导,本文的整体数据分析流程图如图3所示。

(二)  测试成绩合理性分析

为了确认两次集体测试成绩的合理性,对测试成绩进行基本量分析,得到平均值、标准差、方差等数据,见表1。两次测试成绩的满分均为100分,最大值均为92分,最小值分别为30分和29分,平均值分别为60.97分和63.06分,所有成绩中未出现个位数和满分情况。

根据经验法则(3σ法则),对于服从正态分布或近似正态分布的数据集,68.3%的值在+/-1个标准差范围内,95.4%的值在+/-2个标准差范围内,99.7%的值在+/-3个标准差范围内。图4给出了两次测试的不同分数段的频数直方图,以及在均值的1到3个标准差内的分布概率,从图4中可以看出,两次测试的成绩都符合近似正态分布的经验法则。同时采用夏皮洛-威尔克正态性检验方法(S-W检验)进行正态检验[9],通过计算得到两次测试成绩的显著性检验P值见表1,两组数据的P值均大于临界值0.05,表明两次测试成绩通过了正态性检验。

(三)  测试成绩的相关性分析

随着信息化的发展,课堂教学+线上自学的线上线下结合的教学方式越来越成为主流,为了探究学生线上自学情况与成绩的相关性,以自学参与率、自学总时长、自学完成率及自学提问次数作为自变量,分别与两次测试做双变量相关性分析。考虑到这些自变量的数值不太符合正态分布规律,本文采用斯皮尔曼(Spearman)相关系数来描述变量之间的相关性,通过SPSS软件分析得到线上自学情况与两次测试的相关系数见表2。

一般情况下,在显著性水平值为0.05时,斯皮尔曼相关系数值大于等于0.335,即表明变量之间具有较强的相关性[10]。表2中的相关系数值均大于等于0.34,表明线上自学情况与最终的测试成绩具有较强的相关性,其中自学参与率和自学总时长与测试成绩的相关性相对更强(相关系数值相对更大),说明投入更多精力和时间在线上自学的学生会取得更好的学习成效。对自学情况与两次测试成绩的相关系数进行对比分析,自学参与率和自学完成率的相关系数值增加,而自学总时长和自学提问次数的相关系数值则有所下降。再对学生的线上自学具体数据进行挖掘,发现学生的自学时间更多投入在该门课程的前一半章节;而对于每一章节的学习资料来说,也是前一半内容得到更多的关注,这说明在自学的过程中,学生们很难保持学习的连续性和一致性,使得自学的效果降低,而那些在对知识点逐步学习和理解掌握过程中,能够坚持完成自学任务的学生会有更好的学习成效。

接下来探究课后作业完成状况与期末测试成绩的相关性,该门课程课下共布置了五次作业,首先通过皮尔逊(Pearson)相关系数[11]分析五次作业成绩与期末测试成绩的相关性,得到系数分别为:0.217、0.505、0.277、0.111和-0.118。从数值来看,作业成绩与期末测试成绩的线性相关性不强,尤其是第五次作业更是出现了负相关。一方面是相比于期末考试,课后作业的完成时间更宽裕,而且可以查阅相关资料进行参考;另一方面在于难以对课后作业的独立完成度进行把控。由于直接对成绩进行相关性分析的结果不太理想,本文将期末测试成绩转换为类别变量,即将学生的期末测试成绩定义为不及格、及格、良好和优秀四个等级,其中低于60分为不及格,60~74分为及格,75~84分为良好,85~100分为优秀,然后通过Eta相关系数[12]对期末测试成绩(类别变量)和平时作业成绩(连续变量)的关联强度进行分析。利用SPSS软件计算得到五次作业与期末测试的Eta相关系数,见表3。

从表3中可以看出,不同等级学生的五次作业均值存在着相应的差异,优秀的学生作业平均分稳定在90分以上,而不及格的学生作业平均分则在70~95分之间波动。当Eta相关系数处于0.25~0.40之间时,变量之间存在中等程度相关,而当Eta相关系数大于0.4时变量之间存在较强相关性,这表明作业一和作业三与期末测试呈中等程度相关,而其他三次作业与期末测试呈较强相关性,这为教师对作业的合理和有效性分析提供了参考。该门课程的作业一题目的内容为力学基础部分的物体受力分析,从内容覆盖度及难易程度上都和期末考试的试题接近,但是题目均可以直接检索得到,影响到了作业的训练效果;作业三题目的内容为机械原理部分的连杆机构和凸轮机构,相当于把两章节的作业内容合到一起,但是在题量上没有增加,导致作业对知识点的覆盖度不够。本节的分析结果为后续的教学持续改进提供了依据,一方面,要鼓励和引导学生完成线上的自学任务;另一方面,在作业的设置上要把握好质和量的关系,要能激发学生对知识点的独立思考。

(四)  测试成绩的主成分分析

对于本门课程在授课过程中课堂表现环节及课后自学环节,可通过主成分分析法分析不同变量对于学生最终测试成绩的影响程度,并计算出各个变量的权重。通过SPSS软件计算得到课后作业平均分、自学完成率、自学参与率、自学总时长、课堂跟随率均值、答题时长、答题次数和答题总分八个自变量的特征值、累计贡献率及指标权重见表4。特征值大于1是判断主成分的通用标准[13],由表4中的数据可知,课后作业平均分、自学完成率、自学参与率这三个变量因素的特征值均大于1,而且自学参与率累计贡献率为80.04%,对期末测试成绩起着主要的作用和影响。

从表4中八个变量因素的指标权重来看,学生的课后表现——课后作业平均分、自学完成率、自学参与率和自学总时长有着更高的权重系数,而课堂上的表现——课堂跟随率均值、答题时长、答题次数和答题总分的指标权重相对更低,说明在课后的预习、复习、作业练习上投入足够的精力能够起到较好的学习成效,教师们也可以在这些环节上通过教学改革加强学生的投入度和完成度。

(五)  测试成绩的多元线性回归性预测分析

随着工程教育认证OBE理念的普及,以学生为中心要求加强对学生学业的过程性监控并及时进行学业帮扶,有必要根据学生的平时考核数据建立最终测试成绩的预测模型,从而提前对学生进行学业预警。多元线性回归模型通常用来研究一个因变量与多个自变量之间的关系,在满足模型决定系数、相关性检验等条件的基础上,可对因变量进行预测。以期末测试的成绩为因变量Y,期中测试成绩和课后作业成绩为自变量,分别为X1和X2,建立多元线性回归预测方程:Y=aX1+bX2+c,其中a和b为对应变量X1和X2的回归系数,c为预测方程的常数项。

通过SPSS软件的回归模块分析得到回归预测方程中的多元线性回归系数及常数项分别为:a=0.79,b=1.03,c=-78.90,即具体的线性回归预测方程为:Y=0.79X1+1.03X2-78.90。

对于该回归模型,求得拟合优度检验值——修正R2值为0.73,该值较接近于1,表明了线性回归拟合程度较好。最后通过t检验对变量系数的显著性进行检验,计算得到期中测试成绩和课后作业成绩的变量系数显著性检验值分别为0.00和0.01,两个值均小于0.05,表明了两个自变量对因变量具有很强的解释性。

三  结论

为了明确教学行为和教学成效的关系,本文以机械工程基础课程的线上线下教与学的过程中采集的数据为基础,运用多种数据分析和处理方法进行学生学习成效分析和学业诊断。

首先,通过S-W检验验证了学生测试成绩符合正态分布特征,具有合理性。其次,对线上自学过程中的相关变量与测试成绩进行了斯皮尔曼相关性分析,以及对学生的作业成绩与测试成绩进行了Eta相关系数分析,基于分析结果数据对学生的线上自学投入情况,以及作业情况对学习成效的影响进行了深入剖析,为教学改进提供了依据。然后,对教学行为数据进行了主成分分析,发现学生的课后学习投入对学习成效有着较高的权重占比。最后,通过建立多元线性回归模型确定期末测试成绩预测方程,以此进行针对性学业指导。

本文的研究为大数据分析技术和信息化教学的深度融合提供了方法,同时本文的研究成果为教学改进提供了依据和思路,对提高教学质量具有一定的指导意义。

参考文献:

[1] 汤赫男,王世杰,赵铁军.基于慕课与翻转课堂的机械设计实验教学[J].机械设计,2018,35(S2):406-408.

[2] 郭安福,包春江,王敏.基于MOOC的机械设计教学实例[J].机械设计,2020,37(S2):249-253.

[3] 王莉,徐亮.基于超星泛雅平台的混合式教学模式探索与实践——以高职“计算机应用基础”课程为例[J].机械职业教育,2020(3):47-51.

[4] 张黎,谌俊,姚彦欣.混合式教学模式背景下基于不同在线教学平台的应用比较研究——以“超星泛雅”“雨课堂”为例[J].教育现代化,2020,7(43):26-30.

[5] 徐丽莎,钱晓山.基于蓝墨云班课的“高频电子线路”课程教学改革[J].无线互联科技,2021,18(23):148-149.

[6] 刘大莲,田英杰.可拓数据挖掘在学生成绩分析中的应用研究[J].智能系统学报,2022,17(4):707-713.

[7] 倪雪华.用数据挖掘方法分析学生成绩的影响因素[J].电脑编程技巧与维护,2014(19):60-62.

[8] 张贵元.基于数据挖掘聚类算法的學生成绩分析[J].电脑知识与技术,2019,15(9):1-2.

[9] 张纪泉.总体分布的正态性检验——介绍夏皮罗-威尔克的W检验法[J].中国纤检,1982(5):34-40.

[10] 吴喜之.统计学[M].北京:高等教育出版社,2008.

[11] 王小霞,李智红.大学生学习风格与英语能力的相关性研究[J].淮南师范学院学报,2014(2):134-138.

[12] 邱皓政.量化研究与统计分析[M].重庆:重庆大学出版社,2009.

[13] 张懿彬,张良云,张璐.基于SPSS主成分分析的数学分析成绩影响因素研究[J].高师理科学刊,2017,37(4):57-60.

猜你喜欢

多元线性回归相关性分析主成分分析
基于组合模型的卷烟市场需求预测研究
基于多元线性回归分析的冬季鸟类生境选择研究
上市公司财务指标与股票价格的相关性实证分析
我国上市商业银行信贷资产证券化效应实证研究
淘宝星店成长中的粉丝力量
中国城市化与经济发展水平关系研究
云学习平台大学生学业成绩预测与干预研究
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用