APP下载

基于大数据算法的第四课堂学生画像智能教育模型

2020-11-16李欣

数码世界 2020年10期

李欣

摘要:在新時代高等教育变革的浪潮下,迫切需要教育工作者将大数据、用户画像、深度学习这些先进的技术引入到学生的培养中来。本文已高校学生第四课堂实践数据为依托,充分利用大数据领域Pearson相似性、Apriori关联规则、GBDT、推荐系统等算法及用户画像技术,挖掘大学生学习习惯、行为兴趣偏好,充分发挥长板,从而形成符合学生发展的个性化培养方案。

关键词:学生画像;大数据算法;第四课堂

引言

在信息化数据化爆发的社会,人们越来越重视数据的价值,而互联网的繁荣,又使得数据有了行为特性,我们可以广泛的收集用户的网络行为、兴趣偏好等,进而通过机器学习、深度学习算法标签化处理数据,准确解析用户需求及预测用户变化趋势,从而形成个性化的推荐服务。随着高校信息化的日趋完善,在高校积累的知识数据越来越丰富,充分发挥学生长板,因材施教,进行形成千人千面的智能化教育显得尤为重要,而新型智能化教育也被提升到了前所未有的高度。本文已高校智慧化校园信息集成数据为基础,结合学生第四课堂活动数据,利用Pearson Correlation Coefficient、GBDT、Apriori等机器学习算法挖掘分析学生的学习习惯、兴趣偏好、特色长板,形成丰富的个性化的学生画像的标签,利用基于内容的推荐、基于行为的推荐算法融合深度学习算法构建推荐系统模型,为学生推荐个性化的学习路径及培养方案,精准服务使得高校教育从大众教育走向优质教育,实现个性化培养。

2 基于大数据算法的学生画像模型构建

2.1数据的采集及处理

模型整合了大学生多维度的第四课堂数据,包括经典阅读、社会实践、语言表达实践、文艺活动、体育活动、创新创业、科研攻关等13个维度的第四课堂实践数据,数据来源于线下的结构化数据表,并与信息化系统中智慧校园大数据相结合(包括学生自然属性信息、教务系统各门类成绩信息、图书借阅信息、校园消费信息等),形成了线上于线下互补,离线于实时共存的多渠道数据源。

数据的处理采用规范化的分析流程,先进行数据的探索,根据探索结果进行数据的预处理。如学生第四课堂各项原始数据,我们可以进行数据质量分析,如经典阅读实践活动的缺失值分析、异常值分析、一致性分析等整体把握原始数据的质量状况方便数据清洗时针对性选择方法;数据特征分析,可对经典阅读实践活动进行分布分析、统计量分析、对比分析及累积贡献度分析等,目的是深入掌握数据特性,结合实际进行数据变换如数据规范化、连续属性离散化、属性构造等。

在异常值分析方面模型根据特征维度的高低采用不同的算法,对于单维度特征采用6西格玛原理、箱型图原理、DBScan 聚类进行多渠道识别加权融合,高纬度特征采用孤立森林进行识别校准。对识别的异常值,模型整体采用拉格朗日差值法进行插值处理,较好的保证了数据原始的分布状态。

2.2分析维度及整体框架

基于大数据算法的第四课堂学生画像智能教育模型的整体架构,可分为数据的采集,数据的预处理、模型的建立、模型的自我学习和优化。在模型的建立环节,可以往单纯的利用指标训练不同,这里我们增加了大数据维度的标签分析,包括第四课堂实践活动的偏好度、学生的活跃度、第四课堂实践活动相关性分析(Pearson Correlation Coefficient)、受学生欢迎的第四课堂实践活动组合(Apriori关联分析)、第四课堂实践质量分析等,通过多维度的大数据分析进而构造高质量的模型训练数据集结合信息化系统中的学生的学习习惯及风格划分培养方案,利用GBDT算法进行智能预测,同时利用基于内容及行为的推荐算法进行推荐,如隐性因子算法根据学生的偏好、长板进行个性化推荐,对于最终的推荐方案结果,可通过评估样本集进行自我学习调优,给出最佳融合权重。

2.3第四课堂实践活动Pearson相关性分析

由于实践数据是数值型结构化数据,这里我们可以采用皮尔森相关系数(Pearson Correlation Coefficient)法进行相关的计算,将各项活动间的正相关、负相关、不相关通过相关系数矩阵和热力图矩阵进行表示,从而挖掘的较强的实践活动相关性规则。

为了更加准确的描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析,而皮尔森相似度就是其中最为有效的计算方法。一般用于对定距变量的数据进行计算,即分析两个连续性变量之间的关系,Pearson皮尔森相似度的计算原理如下:

r(x,y)=cov(x,y)/σx*σy

其中cov(x,y)为协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差,σx、σy为x与y的标准差,用于衡量两个数值特征的离散程度。

Pearson皮尔森算法计算特征相似度是有前提条件的,它的约束条件为:1两个变量间有线性关系;2均是连续变量;3变量均符合正态分布,且二元分布也符合正态分布两个变量独立。而且皮尔森相似度r的计算结果具有良好的可解释性,当r=1,正相关:r>0;负相关:r<0;不相关:|r|=0;完全线性相关:|r|=1,进而我们可以通过两两见的相似性系数解读实践活动相关性规则,提供基于数据的科学可靠的分析结论。

2.4 受学生欢迎的第四课堂实践活动组合Apriori关联分析

受学生欢迎的实践活动组合,利用apriori算法进行了关联分析,探索活动间是否具有关联性,即选择了某项实践活动的同学,更倾向于选择哪些实践活动,了解学生们的第四课堂实践偏好,可以适当的进行活动推荐。

Apriori关联分析核心就是在交易事务中挖掘频繁项集及关联规则,这里需要引入支持度和可信度(置信度)的概念。支持度:一个项集的支持度被定义为数据集中包含该项集的记录所占的比例,支持度是针对项集来说的,因此可以定义一个最小支持度,只保留最小支持度的项集。可信度(置信度):针对如{尿布}->{啤酒}这样的关联规则来定义的。计算为支持度{尿布,啤酒}/支持度{尿布},假设其中{尿布,啤酒}的支持度为3/5,{尿布}的支持度为4/5,所以“尿布->啤酒”的可行度为3/4=0.75,这意味着尿布的记录中,我们的规则有75%都适用。

借助Apriori关联规则算法,我们可以根据数据集中的样本的记录数量,选择合适支持度、置信度参数,进行算法训练从而挖掘学生实践活动的偏好组合。

2.5 GBDT算法智能预测

在前面的数据处理环节,我们通过多维度的大数据分析进而构造高质量的模型训练数据集同时结合信息化系统中的学生的学习习惯及风格划分了主流的几类培养方案,接下来利用GBDT算法进行智能预测。GBDT算法基本原理是通过多轮迭代,每轮迭代产生一个弱分类器(利用cart回归树构建),每个分类器在上一轮分类器的残差基础上进行训练。GBDT的思想可以用一个通俗的例子解释,假如有个人30岁,我们首先用20岁去拟合,发现损失有10岁,这时我们用6岁去拟合剩下的损失,发现差距还有4岁,第三轮我们用3岁拟合剩下的差距,差距就只有一岁了。如果我们的迭代轮数还没有完,可以继续迭代下面,每一轮迭代,拟合的岁数误差都会减小。主要优点:可以灵活处理各种类型的数据,包括连续值和离散值。在相对少的调参时间情况下,预测的准备率也可以比较高。这个是相对SVM来说的。使用一些健壮的损失函数,对异常值的鲁棒性非常强。比如 Huber损失函数和Quantile损失函数。基于上述优点,我们针对学生的学习习惯及风格划分了主流的几类培养方案数据集进行智能预测,通过算法的参数调优及特征的优化,寻找最佳分类推荐模型。

3 结束语

本文将大数据学生画像技术与学校多年开展的第四课数据相结合,深入挖掘学生长板,为高校人才培养和个性化教育提供理论支撑。通过基于大数据的算法分析学生第四课堂兴趣偏好、活跃度、突出长板等并与学生的学习风格、生活习惯等画像指标数据相结合,对学生进行多维度画像,了解学生的长板,为个性化教育提供数据支撑,切实发挥大数据技术对改进人才培养目标、课程体系等培养环节的推动作用,为人才培养模式的构建提供重要数据基础。

参考文献

[1]郎波,樊一娜.基于深度神经网络的个性化学习行为评价方法[J].2019.

[2]梁婷婷,李丽琴.基于深度学习的资源个性化推荐算法及模型设[J].智能计算机与应用.2018.