APP下载

网络教学资源使用效能的可视化分析平台设计

2021-03-15顾娅军贾小林

电脑知识与技术 2021年3期
关键词:网络爬虫数据挖掘可视化

顾娅军 贾小林

摘要:现在基于互联网的“教”和“学”发展得非常迅速,同时网络爬虫、数据挖掘等技术也逐渐变得成熟,但是目前国内外业界还缺少利用这些技术捕捉多种学习资源,并进行综合分析和可视反馈的系统。平台充分地利用了selenium框架、采用cookie的登录方式,构建了用于数据挖掘的自动化爬虫,完成了关于学习成绩、教学视频时长等数据的爬取工作;接着使用Dash框架和Python语言以及相关的工具包搭建了可视化平台,完成了关于学习成绩、教学视频时长等数据的分析及可视化展示,并以此为资源的使用者提供合适的学习及教学设计建议。

关键词:教学资源;数据挖掘;网络爬虫;数据预处理;可视化

中图分类号:G642        文献标识码:A

文章编号:1009-3044(2021)03-0008-03

Abstract: Now the "teaching" and "learning" based on the Internet has been growin grapidly, at the same time web crawler、data mining technology is also become mature gradually, At present, the domestic and foreign industry still lacks the system that uses these technologies to capture the use information of various learning resources and carry out comprehensive analysis and visual feedback. This platform makes use of selenium framework and cookie login method to build automatic crawler for data mining, and completes the crawling work of data such as learning scores and teaching video duration.Then, the Dash framework, Python language and relevant toolkits were used to build a visualization platform, complete the analysis and visual display of data such as academic performance, instructional video duration, etc., and provide appropriate learning and instructional design advice to resource users.

Key words:teaching resources; data mining;web crawler;data preprocessing; visualization

1引言

隨着互联网的发展,基于网络的“教”和“学”发展得非常迅速,特别是受2020年新冠疫情的影响,网络教学呈现百花齐放的态势,传统的教师授课被打破;同时网络爬虫、数据挖掘等技术也逐渐变得成熟,在多个领域均有不错的表现。2016 年,我国教育部印发《教育信息化“十三五”规划》明确提出“积极利用大数据等新技术,采集和分析学生的日常学习情况,优化教学模式,大幅提升信息化服务教育教学与管理的能力。”但是目前国内外业界对网络教学资源的使用数据进行捕捉并对其使用效能进行综合化分析的研究还较少。

本平台以网络课程《单片机原理与应用》课程为例,用数据挖掘的自动化爬虫技术获得其网络教学资源使用数据,利用selenium获得的视频数据、成绩数据并进行预处理,对成绩和视频数据进行分析反馈,以直观、可视化的方式为教师提供合适的教学设计建议,为学生推荐其弱势科目。希望通过本文的抛砖引玉,为我国的网络资源使用分析发展研究提供参考。

2网络资源使用数据的爬取与预处理

网络教学资源的利用,可以从很多数据上进行反馈,比如学生观看视频的时间、作业成绩、每道题的得分、论坛留言等。本平台采用的爬虫框架是selenium;它本身可以加载浏览器驱动,模拟用户操作,然后把需求的静态页面加载进来,相对传统爬虫框架比较简单。

采集数据信息工作中爬虫的流程包括:

1)确定要爬取网站的URL地址,将其放入网络爬虫的List。

2) 将List里的URL进行DNS解析,获取的该URL对应的主机IP。

3) 通过selenium的driver.get(URL)函数将URL地址将其页面(也就是这个页面的HTML或者asp)加载下来。

4) 在用selenium的工具依照id选择抽取,或者是根据class抽取等来获得想要的数据。

5) 抽取结果按照设计的数据格式保存到csv格式的文件或数据库中。

2.1 网络资源使用数据的爬取

2.1.1学生视频观看数据的爬取

整个程序流程主要包括:请求数据、解析数据、保存数据。

1)请求数据。采用的是Selenium+Chromedriver的方式,Chrome为模拟浏览器。使用chrome浏览器的开发者工具分析目标网页的页面结构,确定进行数据请求的方法。首先通过Chrome()函数确定爬虫程序Chromedriver的文件位置以及请求参数;然后使用driver.get()函数请求目标网站的URL,获得网页数据。

2)分析数据。使用Chrome浏览器,定位数据的位置,即通过开发者工具确定我们要爬取的数据的标签或者id,如:课程的章节信息位于标签内且它用于区分的class是chaptername。然后通过selenium的.xpath()函数根据.//span[contains(@class, "chaptertitle-")]/text()筛选定位到该数据并取得章节的文本值,转化为字符串后返回该值。

3)保存数据。将爬虫程序完全运行后获得的数据以sqlite格式进行保存。(如图1所示)

2.1.2  其他学习资源数据的爬取

与学生视频观看数据的爬取方法类似,改变爬虫的选取规则,选取不同的字段,即可获得学生的成绩数据、每道题的得分数据。分别如图2、3所示。

2.2 数据预处理

通过爬虫工作獲得本平台所要的原始数据后,需要对原始数据进行一系列的运算和分析,为后面的可视化做准备:

1)若某学生因缺考导致成绩数据为空,这时进行空值填0的操作。

2)在将原始的成绩数据经过处理后,从数据库种查询并读取出成绩数据,将其转化为DataFrame数据类型,然后分别统计歌词测试成绩的及格人数和不及格人数、计算最高分和最低分,平均分,并对每道题的分值计算。

通过以上数据爬取和预处理,可以从目标网站获取到需要的数据资料:学生观看教学视频时长、学生考试成绩、学生每道题得分情况。

3 可视化分析

根据大量事例表明,学习者往往对一个配有突出颜色和色彩的图形印象深刻。将纯数字或者是文字的数据采用图表的呈现方式,有助于提高用户对其印象,研究表明越是具有显著吸引力的图表和图形色彩,越能提高用户对数据的印象。一般来说,图的记忆程度远远高于纯数字的数据。本平台在学生界面和老师界面分别给出数据分析结果及反馈建议。

3.1 学生界面

为了增加平台对学生的吸引性和鼓励学生们形成良好的竞争,平台从趣味性下手,为学生界面设计了当下年轻一辈喜欢的段位展示系统,以此来表现他在班级所处的排名,该系统符合年轻人的审美标准的同时也会让那些因为段位太低的学生,从而有开始努力学习的动力;而高段位的同学则会因为保持当前段位而不断努力学习。

学生排名系统其影响排名的高低的因素非常多,本平台采用Fisher–Yates随机置乱算法,综合考虑各单元的学习成绩和观看课程视频的时间,按照不同的权重计算后得到最后排名。相对于传统的直接按照成绩分数排名相比,该排名系统弱化了名次的影响采用段位的机制,而且从多方面考量,不再是以单一的成绩数据作为评判标准。

Fisher–Yates随机置乱算法又被人们称作高纳德置乱算法,按照常人思维来说就是生成一个有限集合的随机排列。因为算法是无偏的,所以每个排列都是等可能的,Fisher–Yates随机置乱算法需要的时间正比于要随机置乱的数,不需要额为的存储空间开销。这里主要用于对影响排名的参数进行权重的随机分配。

首先我们确定了影响排名的因素为:4次自测题的成绩,3部分教学内容的观看教学视频总时长;一共7个参数分别记为x1,x2,x3,x4,x5,x6,x7。经过洗牌算法得到的权重序列记为w1~w7。学生的综合分数记为y,则f(x)=y,即有如下公式:

同时系统有9个段位,从高到低依次为:倔强青铜、不屈白银、荣耀黄金、尊贵铂金、璀璨钻石、超凡大师、杰出大师、至尊星耀、最强王者。设学生的综合分数上限是MaxY,则有如下划分(表1)。

学生的段位显示如图4所示。

平台构建了学生的学习模型,给出学生的段位构成雷达图(如图5所示),学生可以从雷达图中看出自己的薄弱章节,观察了解自己的学习过程。平台通过学生因人而异的学习诊断与个性化反馈信息,学习进度和能力水平,推荐个性化学习材料,进而提高班级教学质量。

3.2 教师界面

传统的分析考试成绩仅仅是靠表格数据,而且重点是放在了比较排名次上。新的评价体系淡化评价的甄别、选拔功能,强化评价的诊断、改进与激励功能。通过可视化量化进行总体成绩分析,更容易找出班级存在的问题,开出有效建议与精确指导的“药剂”,才是应该是分析班级成绩真正价值所在。

3.2.1课程成绩的可视化

在教师界面,使用者可以直观地看到本课程的4次自测题及格情况统计(如图6所示),发现该班级的同学在单片机原理与应用的自测题2和自测题3的测试中,不及格人数比较偏多,说明这两次测试的知识点,该班级掌握情况比较差,希望教学者能够重视起来,加强这部分的知识讲解。对于总体来说该班级对于单片原理与应用这门课程的知识掌握不算太好,有待加强。

3.2.2 学生每道题的得分情况分析

以自测题2为例,教学者可以看出题目10的掌握情况不是很好(如图7所示),占班级7/8的人没有拿到此题的分数;相对于其他,该班级对题目4,掌握得比较好,因为班级3/4的人都拿到了此题的分数,所下教学者可以针对此次掌握的较差的题目相应的知识点提醒学生进行重点复习。

3.2.3 成绩和观看教学视频时长关系的可视化分析

学生在观看完成所有视频课程之后完成相应的测试,学生成绩应该与学生观看课程视频时长有关。一般来说,观看相对应教学视频时间越长,对应的测试成绩应该越高。

通过对本平台学生成绩及学习时间的统计,教学者可以得出一个有趣的结果:并不是观看教学视频时间越长,成绩就一定会越高,但是成绩高的同学,观看视频的时间普遍偏长。

与学生交流了解到:虽然有的学生质量看的视频多,但是并没有认真学习内容,甚至有播放视频时学生没有在电脑旁的情况,导致成绩不理想。所以成绩和视频时间的关系并非存在简单的线性关系,观看视频时长越长是成绩好的一个必要条件。影响成绩的还有其他因素,比如学生观看视频的质量、视频讲解的质量等,如何提高学生观看视频的质量以及教学组织的质量,都值得教学者在后期教学中进一步探讨。

4 结论

本平台对网络课程《单片机原理与应用》的学习视频时长、学习成绩等进行分析,不仅可以通过对学生的学习进度和能力水平进行诊断,给出个性化反馈信息、推荐个性化学习材料,而且可帮助老师改进课程的组织和指导能力,开发出更符合学生学习方式和习惯的教学资源,也可以为教育管理提供可靠的评价依据,进而采取有效的管理控制方式。

参考文献:

[1] 毛照道. 基于学习行为分析的慕课建设策略研究——以《交互式电子白板教学应用》课程为例[J]. 教育现代化, 2017,4(29): 202-204,210.

[2] 张钧荐. 基于F-Y置乱和Z-Z置乱的两种图像加密算法[D].大连:大连理工大学,2019.

[3] 沈丽梅. 基于高校精品课程的网络学习行为分析研究[J].科教文汇, 2009,8(24):29,214.

[4] 刘鹃梅,羊四清. MOOC环境下成人高等教育教学资源共享模式构建[J].电脑知识与技术, 2020,12(16):1-2.

[5] 张鸰. 数据挖掘技术在线上教学评价中的应用[J].电脑知识与技术, 2018,14(29):6-8.

【通联编辑:王力】

猜你喜欢

网络爬虫数据挖掘可视化
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
基于并行计算的大数据挖掘在电网中的应用
炼铁厂铁量网页数据获取系统的设计与实现
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究