APP下载

基于DBSCAN算法的大学生课程兴趣度分析

2018-02-25顾宝程王明艳

电子技术与软件工程 2018年7期
关键词:数据挖掘

顾宝程 王明艳

摘要 针对校园无线网对大学生学习行为的影响,通过采集的校园无线网行为数据,挖掘分析评估学生课程兴趣度,更好地辅助教学管理。本文基于DBSCAN聚类算法评估了学生群体课程学习兴趣度。并通过实验验证了DBSCAN聚类算法在大学生课程兴趣度分析的有效性,实验分析结果可为学校学生管理提供了有效决策依据,研究方法也可为其他高校解决类似问题提供了参考。

【关键词】数据挖掘 DBSCAN算法 聚类算法兴趣度分析

随着高等教育信息化的发展,越来越多的高校应用无线网络进行信息化教学管理,校园无线网里面蕴藏着大量的用户上网数据。对高校大量的学生上网数据加以挖掘分析,发现学生上网行为特征,对校园无线网的调整和学生上网行为有着积极的引导作用。目前,基于校园无线网络的数据利用比较多,主要是进行考勤分析的,入侵检测,流量监控,后勤管理等方面的研究分析。文献[2]通过对基于无线网对学生的出勤率来分析学生的学习兴趣,文献[3]通过最小关联挖掘的技术,从学生选课数据库中来分析学生的学习行为。通过挖掘学生上课时的上网流量总和对学生课程兴趣度分析研究较少。本文主要针对校园网无线网对大学生学习行为影响,采用DBSCAN(Density-BasedSpatial Clustering of Applications with Noise)算法来进行聚类分析,对学生上网数据进行挖掘分析,分析学生上课用网的时长和流量总和来分析体现学生对课程的喜爱程度,从而辅助高校教育教学管理。

1 算法原理

DBSCAN是一种典型的基于密度的聚类算法,将足够高密度的区域划分为簇,在带有“噪声”的空间数据库中发现任意形状的聚类,由Erman等人[5]第一次将其运用到流量分类中,并证明了DBSCAN算法对未知流量的识别准确率优于同是聚类算法的K- means算法。在DBSCAN算法中,有两个基本的邻域参数,分别是ε领域和MinPts。其中£领域表示的是在数据集D中与样本点xi的距离不大于£的样本即:Nε(xi)={xj∈D|dist(xi,xj)≤ε},如图1。

在DBSCAN算法中将数据点分为核心点(Core Points)、边界点(Border Points)、噪音点(Noise)。核心点、边界点和噪音点如图2,直接密度可达、密度可达如图3。

2 实验及结果分析

数据来自校园无线网的计费数据库,学生或者老师每天使用的日志都被记录下来。其数据库的存储形式如表1。

实验的环境采用Python机器学习科学计算库Scikit leam,简称skleam。通过获取学院软件工程专业4个班级127名学生在10-11两个月学生上专业课程的上网信息。分别对《计算机组成原理》、 《计算机网络原理》、《程序语言与设计》3门专业课学生上课时上网行为数据进行分析。为了客观公正根据实际上课的考勤情况去除缺课学生的数据,通过DBSCAN的算法进行分析。数据统计结果如图4、5、6所示(图中横坐标表示时间,纵坐标表示这段时间累计的流量的总和)。

首先对不同课程所有班级进行分析,如图4-6,学生学习《计算机组成原理》大部分学生使用手机的时长和流量总和远高于其他两门课程,可以发现学生对<计算机组成原理》的兴趣不是很大。因此任课老师可适当的改进课堂教学方式,增加学生互动环节,提高课堂趣味性来增加學生的对课堂的粘合度,让更多的学生参与到课堂中去,提高学生的积极主动性。通过图6和图4、5比较可以发现学生听课认真程度远高于其他两门课程,可以发现手机使用情况两极分化比较严重, 《程序语言与设计》是一门逻辑性比较强的课程,有些学生没有能够掌握好正确学习这门课的方法,开始选择放弃。因此任课的老师可以适当的去关注这学生,给与学生一些帮助。图5反映的是《计算机网络原理》的上课时学生的状态, 《计算机网络原理》是偏向理论比较抽象的课程,因此任课老师在讲课时可以适当增加学生讨论互动环节,让学生更好地融入课堂。

接着运用DBSCAN聚类算法对同一门课程不同的班级的上课状态进行分析。以《计算机网络原理》课程为例,为客观公正根据实际上课的考勤情况去除缺课人的数据,四个班的《计算机网络原理>为同一个任课老师时学生上网流量情况统计如图7-10所示。

图7-10可以发现软件4班的学习氛围最好,而软件1班的学习状态不是特别好,大部分人的上课对课堂的粘合度比较低,整体班级的学习氛围以及学习方法需要进行适当的调整。教师及辅导员在生活和课堂中多花精力来进行引导管理,让学生及时发现自身的问题所在并及时解决。图8、10的结果相对比较接近,可以发现这两个班级的学习氛围相对比较稳定少部分的学习态度有问题,需要积极进行引导。

3 结论

通过采集的校园无线网行为数据,将DBSCAN聚类算法应用在学生行为分析中,以计算机学院软件专业学生为例,挖掘分析了学生课堂上手机上网流量情况,评估分析学生对课程的兴趣度,从而对学生管理提出相应的教学管理对策,该方法可为高效解决类似问题提供一种新的解决问题的办法,从而辅助高校

参考文献

[1]王法玉,闰小芹,王劲松,大数据时代下的教育管理信息化建设实践与探索[J].中国教育信息化,2016.

[2]王法玉,姜妍,基于自组织神经网络和模糊聚类的校园无线网户学习兴趣度行为分析[J/OL].计算机应用研究,2018,35 (01).

[3]姜永超,基于数据挖掘的学生选课及学习行为分析算法研究[J].现代电子技术,2016, 39 (13):145-148.

[4]安计勇,韩海英,侯效礼.一种改进的DBSCAN聚类算法[J].微电子学与计算机,2015,7 (07).

[5] Eerman J,Mahanti A,Arlitt M.Internettraffic identification using machinelearning [C]. Global TelecommunicationsConference, GLOBECOM, SanFrancisco, 2006: 1-6.

[6]杨忆,李建国,葛方振,基于Scikit-Learn的垃圾短信过滤方法实证研究[J].淮北师范大学学报(自然科学版), 2016, 37 (04): 39-41.

猜你喜欢

数据挖掘
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议