APP下载

基于数据挖掘聚类算法的网络学习平台学生成绩分析

2020-08-19肖自乾陈经优

电脑知识与技术 2020年19期
关键词:均值可视化聚类

肖自乾 陈经优

摘要:目前越来越多的教师选择“互联网+”线上线下相结合的模式开展教学活动,如何利用信息化技术进一步优化学情分析以提高教学质量是我们需要面对的问题。文章以智慧树在线教学平台学生平时各方面表现数据为研究基础,通过大数据聚类分析对学生进行分类,直观呈现不同学生群体特点,便于教师有针对性地提出相应教学策略。

关键词:智慧树;聚类;K-均值;可视化;离散点

中图分类号:TP301 文献标识码:A

文章编号:1009-3044(2020)19-0028-02

开放科学(资源服务)标识码(OSID):

1 引言

随着信息技术的发展,教学模式的不断改革创新,越来越多的教师选择“互联网+”线上线下相结合的教学模式。目前市场上涌现出众多网络课程互动平台,相关企业机构也在积极探索不断优化线上线下的教学设计。本文以智慧树在线教学平台学生平时各方面表现数据为研究基础,通过大数据聚类分析对学生进行分类,呈现不同学生群体特点,便于教师有针对性地提出相应教学策略,从而优化教学方式方法,提升教学效果。

2 聚类分析算法

聚类是统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的簇或者更多的子集,同一个簇或子集中的所有对象都有相似的特点或属性[1]。

2.1 K-均值算法

K-均值算法是在信号处理中常使用的一种向量量化方法,目前在数据挖掘等领域应用较为广泛,如游客客户分类等应用场景。它是一种基于相似性的无监督学习算法,在判定两个样本相似性时通常需要定义一个距离函数。K-均值算法的目标是将把n个点划分到k个簇中,使得每个点都属于离他最近的均值(此即簇的质心)对应的簇,每个簇的中心是通过计算簇中所含值的均值得到的,并以之作为聚类的标准[2]。

2.2 本课题数据分析流程

本课题研究中,首先我们应用肘部法则对数据进行分析,得到不同k值时的平均畸变程度,一般我们会选择平均畸变程度最大的k值进行聚类分析;然后是根据得到的k值进行聚类分析,在这里我们使用的是MachineLearning开源库中的KMeans算法,算法流程在这里就不再详细阐述;紧接着我们将聚类得到的数据进行降维处理,并可视化呈现,同时我们还对离群点进行统计,以便于我们对数据做更全面的分析;最后是根据得到的各簇质心绘制雷达图.呈现不同学生类别的表现情况。

3 网络学习平台学生数据

智慧树平台中导出的平时成绩由视频资源学习、非视频资源学习、签到、测试、讨论答疑、头脑风暴、投票问卷、作业/小组任务、课堂表现、被老师点赞加分等构成,加权比例可根据实际情况进行调整。现将成绩项分为四部分,即:自学、守纪、实践以及互动,本文的数据分析将围绕这四个维度进行[3]。为避免每个指标数据取值范围差异过大的问题,需要进行数据标准化处理,得到成绩表如下:

4 数据分析及结论

4.1 确定k值

根据肘部法则对学生成绩数据进行分析,计算不同k值时的平均畸变程度,如图1所示。

从图1可以看出,随着k值的变化平均畸变程度也在不断变化,在当前的样本数据分析中当k值为3时,平均畸变程度最大,因此我们用k值为3进行聚类分析。

4.2 聚类结果可视化

选取k值为3时聚类结果可视化如图2所示,聚类分析数据结果见表2聚类分析后数据。

4.3 雷达图展示

雷达图是以从同一点开始的轴上表示的三个或更多个定量变量的二维图表的形式显示多变量数据的图形方法。雷达图主要应用于企业经营状况——收益性、生产性、流动性、安全性和成长性的评价[4]。各类学生雷达图呈现如图3所示。

4.4 离群点分析

本课题研究采用基于距离的离群点检测,这些离群点往往代表学生可能具有比较特殊的特点,因此我们需要对这些情况进行详细分析[5]。离群点分析如图4所示。

4.5 结果分析

首先从聚类结果来看,“0”类学生在雷达图中显示最为全面,各方面表现均较为良好;“1”类学生在实践和互动两方面表现差强人意;“2”类学生则各方面表现均较差,特别是在自学方面。其次从离群点分析来看,3个离群点均属“1”类学生,通过对比发现,其中一个学生在自学、实践以及互动方面均较差,但在守纪方面做得较好,其他2位学生在四个方面的表现非常不均衡,但同时也存在很大的提高潜力,教师在教学过程中多加关注、指导将会有很大进步。

5 结语

本课题通过对学生平时表现数据进行聚类分析,将具备相似特点的学生聚成一类,教师则可以通过特点分析找出适合的教育教学方法,逐步促进学生各方面的改进和提高,同时对于一些具备特定特点的学生则可以更加明确的掌握,以便帮助其逐步改进。

参考文献:

[1]王川,张珍文,安帅,聚类支持下决策树模型在动车组空调故障检测中的应用[J].中国新技术新产品,2018(13):15-16.

[2]张兴强.基于快速局部均值估计的噪声水平估计算法及其应用研究[D].南昌大学,2017.

[3]杨洪琴,杨辉.大数据视域下大学生移动学习探究——基于智慧树平台的公选课应用分析[J].四川职业技术学院学报,2019,29(03):115-122.

[4]刘香荣.基于HMM的管道安全监测DAS信号时序信息挖掘与识别方法[D].电子科技大学,2019.

[5]邓玉洁,基于聚类的离群点分析方法研究[D].重庆大学,2012.

【通聯编辑:王力】

基金项目:海南省教育厅科学研究项目:K-means聚类算法在旅游业游客细分中的应用研究(Hnky2016-66);海南自然科学基金项目:基于MapReduce的改进朴素贝叶斯算法在社交网络数据挖掘中的研究及应用(618MS078)

作者简介:肖自乾(1982-),男,四川省自贡市人,硕士,海南软件职业技术学院副教授,主要研究方向为算法设计、大数据技术;陈经优(1983-),女,海南省东方市人,硕士,海南软件职业技术学院副教授,主要研究方向为算法设计、软件设计。

猜你喜欢

均值可视化聚类
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
均值不等式失效时的解决方法
均值与方差在生活中的应用
关于均值有界变差函数的重要不等式
一种层次初始的聚类个数自适应的聚类方法研究