APP下载

基于机器学习的学生综合实训成绩分析与模式识别

2024-03-20庄海燕

无线互联科技 2024年2期
关键词:决策树实训算法

庄海燕

(郑州警察学院,河南 郑州 450053)

0 引言

专业综合实训是指学生在完成专业基础课和专业主干课的基础上,依照专业人才培养目标,结合专业特点进行的综合性、实践性教学活动,该项教学活动对于新工科专业建设和发展具有重要意义。首先,专业综合实训可以提供真实或模拟的业务环境,让学生运用所学的理论知识和技能,参与项目的设计、实施、评估和优化,锻炼学生分析问题、解决问题、创新思维和团队协作的能力,满足新工科专业要求学生“具备解决复杂工程问题的能力”。[1]其次,专业综合实训可以提供多元化、开放性的实践内容,让学生接触不同的交叉专业领域,拓展知识视野,掌握新技术和新方法,提升专业技能和综合素质,促进形成新工科专业要求学生具备的跨学科、跨领域的知识结构和技能水平[2]。第三,专业综合实训可以提供与社会需求和工程实际相结合的实践场景,让学生了解工程的社会影响和价值,培养学生的工程伦理意识和社会责任感,有助于培养新工科专业要求学生具备的“以造福人类和可持续发展为理念的现代工程师的精神”[3]。

一直以来,高等院校与各级教育机构都在不断研究如何提高学生绩效管理和教学质量,以确保提供高质量的教育教学。而专业综合实训成绩是评估学生绩效的关键指标之一,有效地分析和理解这些成绩为教育教学提供决策支持是现代高等教育专业教学的一个极大挑战。传统的专业综合实训评估方法受限于数据量大、复杂性高和多变性,难以有效评估其效果。应用机器学习算法,通过分析大量学生专业综合实训相关数据,深入挖掘实训成绩背后的潜在模式和规律,揭示不同学科之间的关联和学生群体的共同特征,可以为个性化学习提供科学依据,进而优化教学过程、提高学生学习效果,同时模式识别结果可以帮助授课教师做出更精准的决策,实现数据驱动的教学管理。

1 机器学习算法选择

机器学习算法被广泛用于分类和模式识别。其中,任务决策树是一种基于树结构的分类器,随机森林是一种集成式学习方法,支持向量机通过结构风险最小化来解决学习问题,是一种用于分类和回归的强大算法,主要用于学习数据中的模式和规律发现[4]。本文通过对各种算法的功能和适用性分析,测试各种算法在数据集上训练的优缺点,比较多种机器学习算法在同一数据集上的性能。综合考虑,选择决策树、随机森林和支持向量机3种机器学习算法来分析综合实训成绩,根据运行结果提供全面的数据分析和性能评估。

2 数据收集及预处理

2.1 数据收集与基本描述

本文收集了网络安全与执法专业近3年的专业综合实训成绩,包括舆情分析、现场勘查、电子数据分析、网安检查和过程性成绩等数据。数据采集通过专业综合实训过程和教学信息管理系统进行,数据中除了各模块的成绩,还包含学生学号等信息。

经过对专业综合实训成绩数据预处理和初步统计分析,得到如图1所示的专业综合实训成绩数据的基本情况。数据的描述性统计分析及结构可视化显示了每列成绩的中心趋势、离散度和分布的基本情况,以及各列之间的关系。图1显示了每门课程的成绩平均水平、波动程度以及分数分布情况,各列缺失值数量为0,所有学生所有模块均有成绩,无缺失;各模块成绩的标准差数值分别为2.86、3.99、3.26、5.40、8.14,说明各模块成绩相对稳定,没有较大波动;图1(c)显示两两特征之间相关性,可以看出现场勘查成绩、网络检查成绩和过程性成绩之间可能具有一定线性相关性,后面需借助主成分分析法降维处理后进一步分析。

图1 专业综合实训成绩数据基本情况

2.2 数据预处理

2.2.1 数据清洗

数据清洗包括检查数据集中是否有缺失值或异常值。在数据收集过程中,缺失值通常是由数据输入错误或系统问题引起的,异常值则可能是由测量误差或数据录入错误引起的。缺失值处理可以删除、插补或者不处理;使用统计方法[5]来检测异常值,并采取适当的处理措施,包括截断、替代和删除,以确保异常值不会对模型性能产生负面影响。本文对数据进行了基本的缺失值处理、异常值处理和规约处理。经过对数据集的分析,缺失值和异常值都是反映实际情况的正确数据,不做处理,之后将各模块成绩规约到[0,100]。

2.2.2 数据划分

预处理的目标是确保数据的质量和一致性,为后续的分析和建模进行数据准备。本文通过数据清洗、处理缺失值和异常值,以及正确的数据划分和特征选择,为机器学习模型提供高质量的数据,以更好地理解和分析专业综合实训成绩。本文在训练和评估机器学习模型时将数据集划分为训练集和测试集,初始比例为80%的数据用于训练,20%的数据用于测试。研究过程中对这些参数进行了调整以提高模型的泛化性能,避免过拟合。

2.2.3 特征选择

本文中,由于学号等作为标识符和附属信息并不对模型的性能产生影响,故选择舆情分析成绩、现场勘查成绩、电子数据分析成绩、网安检查成绩作为模型的特征。

3 数据分析

3.1 聚类分析

聚类分析是一种无监督学习方法,可将数据中的对象分成不同的组或簇,这些组内的对象在某种方面相似,而不同组之间的对象有明显的差异。本文对学生的专业综合实训成绩数据进行聚类分析,将学生分为不同的簇,可揭示学生潜在的模式或关系。

本文采用k均值聚类法,使用“肘部法则”选择聚类簇数,研究结果如图2所示。在图2右上部,“肘部”处的簇数为3,聚为3类,三维散点图中每个点代表一个学生,不同形状表示其所属簇,每个簇的特征如图3所示。图3表明,簇0平均综合成绩(过程性成绩)相对较高,约为54.89,表示这个簇的学生在综合成绩上相对较好;簇1平均综合成绩(过程性成绩)较低,约为36.73,表示这个簇的学生在综合成绩上相对较差,尤其在舆情分析和电子数据分析方面;簇2平均综合成绩(过程性成绩)较高,约为43.65,表示这个簇的学生在综合成绩上相对较好,尤其在现场勘查、电子数据分析和网安检查方面。3个簇各自包含学生数目分别为了61、50和30名,簇0的学生数量最多,共61名,表示在该簇中有较多的学生表现较好(可能是高成绩学生),或者这个簇的学生相对较多;簇1包含了50名学生,学生数量略少于簇0,可能代表中等成绩的学生群体,这些学生的成绩在各个模块上可能相对平均;簇2包含了30名学生,这是最小的簇,这些学生在某些模块上表现很好,尤其是现场勘查和电子数据分析。

图2 专业综合实训成绩聚类分析

图3 算法在测试集运行结果

图2专业综合实训成绩聚类分析通过分簇,对每个簇的规模、成绩情况分析,将这些分析结果作为依据,制定更灵活的教育策略和教学方法,例如根据每个簇的特点提供特定的资源、培训或教育干预,从而满足不同学生群体的需求。

3.2 模式识别

3.2.1 模型训练与性能评估

本文训练了决策树、随机森林和支持向量机3种机器学习模型,并在测试集上进行了性能评估。为评估模型的性能,评估过程中采用了准确度(Accuracy)、精确度(Precision)、召回率(Recall)和F1分数(F1-Score)等指标。这些指标用于衡量模型的分类准确度、识别出的正类别样本与真实正类别样本的比例、所有真实正类别样本中成功识别出的比例以及精确度与召回率的调和平均值。通过这些指标,可以全面评估模型的性能。

3.2.2 结果分析与讨论

本文对上述3种算法的识别结果(见图3)进行讨论和分析,得出以下结论。

(1)决策树算法。

决策树算法在模式识别任务中表现良好,但仍存在一定的分类误差。准确度、精确度、召回率和F1分数均为0.75,表明该模型在对数据进行分类时具有一定准确性。决策树算法在模式识别任务中获得了不错的性能,但仍然有改进空间,因为F1分数没有达到1.0,表明可能存在一些分类误差。

(2)随机森林算法。

随机森林算法的性能与决策树相似,准确度、精确度、召回率和F1分数均为0.75。这意味着随机森林能够对数据进行分类,但也存在一些分类误差。

(3)支持向量机算法。

支持向量机算法在这个模式识别任务中表现出色,准确度、精确度、召回率和F1分数均为1.00,这意味着该模型能够完美地对数据进行分类,没有分类误差。支持向量机通常适用于复杂的决策边界和高维数据集,这一结果显示出其强大的分类性能。

实验结果表明,支持向量机在这个模式识别任务中表现最为出色。决策树和随机森林也表现良好,但存在一些分类误差。通过模型训练和评估结果,认为支持向量机算法更适合本任务需求,进一步研究可以尝试继续调优模型以提高性能。

4 结语

本文基于机器学习的方法对学生综合实训成绩进行了分析和模式识别探讨。通过收集大量学生的实训成绩数据,利用机器学习算法进行深入挖掘和分析,揭示了学生在实训环境中的表现模式;采用决策树、支持向量机和神经网络在内的多种机器学习模型识别和预测影响学生综合实训表现的关键因素,本文通过对模型的训练和验证,成功地识别了影响学生成绩的关键特征,为教育者提供了有针对性的干预措施。研究结果表明,机器学习方法在学生综合实训成绩分析中具有显著的预测能力,利用模型的解释性深入挖掘学生在实训过程中的学习轨迹,能够为个性化教育和辅导提供理论支持。

本文研究为学生综合实训成绩的有效评估提供了新方法,也为教育决策和干预提供了实证支持。未来可进一步探讨模型的迁移性和可扩展性,以适应不同学科和教育背景的需求。

猜你喜欢

决策树实训算法
基于CDIO理念的数控实训教学改革与实践
基于MapReduce的改进Eclat算法
一种针对不均衡数据集的SVM决策树算法
Travellng thg World Full—time for Rree
进位加法的两种算法
决策树和随机森林方法在管理决策中的应用
电工电子实训教学改革与创新
基于决策树的出租车乘客出行目的识别
一种改进的整周模糊度去相关算法
微课在数控实训课中的应用探析