APP下载

基于Spark架构的艺术学慕课资源协同 过滤推荐算法研究

2020-08-04侯璐璐

现代电子技术 2020年3期
关键词:用户

侯璐璐

摘  要: 传统资源协同过滤推荐算法MAE值偏高,因此提出基于Spark架构的艺术学慕课资源协同过滤推荐算法。采用分级响应形式,建立用户?资源评分关系模型,用户对资源的评分减掉该用户评分平均值,完成资源协同过滤相似度计算的优化,引入集成度高的Spark架构,预测用户对资源的评分并生成推荐列表,实现艺术学慕课资源的精准推荐。经过与两种传统算法的对比实验结果可知,研究的算法在不同比例训练集和测试集的情况下,MAE值均低于两种传统方法,说明基于Spark架构的艺术学慕课资源协同过滤推荐算法推荐精度更高,性能更好。

关键词: 协同过滤推荐算法; Spark架构; 艺术学慕课资源; 用户评分预测; 用户?资源评分关系模型; 相似度计算

中图分类号: TN911.1?34; TP319                   文献标识码: A                    文章编号: 1004?373X(2020)03?0162?03

Research on art MOOC resource collaborative filtering recommendation algorithm

based on Spark architecture

HOU Lulu

(Baoji University of Arts and Sciences, Baoji 721013, China)

Abstract: The MAE (mean absolute error) value of traditional resource collaborative filtering recommendation algorithm is slightly higher, so an art MOOC (massive open online course) resource collaborative filtering recommendation algorithm based on Spark architecture is proposed. The user?resource scoring relation model is established in the form of hierarchical response. The average value of the user′s scoring is taken from the user′s scoring for resources, which is then used to optimize the similarity calculation for resource collaborative filtering. The Spark architecture with high integration level is introduced to predict the user′s scoring for resources and generate the recommendation list, thus realizing the accurate recommendation of art MOOC. The results of comparative experiments show that, in comparison with the two traditional algorithms, the MAE value of the proposed algorithm is lower than those of the two traditional methods in different proportion of training sets and test sets, which shows that the art MOOC resource collaborative filtering recommendation algorithm based on Spark architecture has higher recommendation accuracy and better performance.

Keywords: collaborative filtering recommendation algorithm; Spark architecture; art MOOC resource; user scoring prediction; user?resource scoring relation model; similarity calculation

0  引  言

慕课是当今时代下互联网与教育相结合的产物,它实际上是一种大规模开放的在线课程(Massive Open Online Course),是互联网时代下涌现出的一种在线课程的开发模式。传统课程只有几十个或几百个学生,但是一门慕课最多可以容纳十多万人。因此,在互联网中,利用协同过滤进行艺术学慕课资源的推薦[1?2]。协同过滤简单来说,就是利用共同兴趣或者是拥有共同经验人群的喜好大数据资料,来给用户推荐有可能感兴趣的信息,个人通过合作机制给予信息一定程度的回应,利用评分等方法将特别感兴趣的以及特别不感兴趣的资源进行区分,并利用大量的评分记录对信息进行过滤,帮助别人进行信息的筛选。由于资源数据日益庞大,现有的艺术学慕课资源协同过滤推荐算法只能停留在数据表面上的分析,导致MAE值较高,因此提出基于Spark架构的艺术学慕课资源协同过滤推荐算法。Spark架构的优点在于能够更加适用于数据挖掘的算法,能够从大量的数据中,通过算法搜索内部隐含的信息。

1  基于Spark架构的协同过滤推荐算法研究

随着慕课的大范围普及,很多的互联网社交平台上都能够搜索到大量的慕课资源。要想在海量资源中搜索到自己需要的信息,需要借助Spark架构下的协同过滤推荐算法来实现[3?4],预期通过建立用户自身的搜索历史模型,记录用户的喜好和兴趣,主动提供相关的慕课推送。从协同过滤算法的出发点来看,相似用户的喜好也会有相似的品味,因此可以利用相似用户(在这里简称为邻居)的喜好为目标用户做出推荐,算法流程如图1所示。

流程主要分为4部分,用户评分、计算相似度选择邻居、预测评分、资源推荐列表,下面对流程进行详细研究。

1.1  建立用户?资源评分关系模型

艺术学慕课的受众分群和资源推荐需要以用户?资源关系模型为基础,本文主要采取分级响应形式,对海量数据进行深层挖掘,将数据中隐含的反馈信息作为构建模型的重要元素。想要对用户推荐其感兴趣的资源,需要根据用户和资源的历史数据进行预测,比如用户是否观看了某个慕课课程,以及用户观看的时长和次数[5?6]。分级响应形式值是用户对资源进行不同级别的评价,可以用一个用户评分数据表来体现,见表1。

表1中:[m]代表用户数量;[n]代表资源数量;[Tmb]表示用户[Um]对资源[Ib]的评分值,评分值的区间为1~5分,分别代表非常不喜欢、不喜欢、一般、喜欢、非常喜欢,以此作为用户?资源评分关系模型,能够准确地体现出用户对不同慕课资源的满意程度。

1.2  优化资源协同过滤的相似度计算

在用户?资源评分关系模型的基础上,为了实现资源的精准推荐,需要依靠邻居的喜好做出预测,邻居需要对比相似度而选择出来,因此在相似度的计算中,需要能够正确衡量出资源和用户之间的相似性,才能够保证资源推荐的准确性。传统算法中用的是余弦相似度[7?9],但是余弦相似度忽略了资源被评分尺度的问题,因此需要对其进行修正,采用用户对资源的评分减掉该用户评分的平均值进行中心化评分,计算公式如下:

式中:[sim(i,j)]表示资源[i]和[j]的相似度;[U(i)]代表对资源[i]评分的用户全体;[U(j)]代表对资源[j]评分的用户全体;[U(i)?U(j)]代表对[i],[j]都有评分的用户全体;[Tu,i],[Tu,j]分别代表用户[u]对资源[i],[j]的评分;[Tu]代表两个资源的评分均值。单一慕课与所有慕课的集合之间都存在着距离[10?11],该距离为二者之间的最小距离,单一用户与用户集合之间的距离也能够同理得到。其相似度选择示意图如图2所示。

图2中,[K1]为慕课资源集合的个数,在基于慕课资源的协同过滤算法中,相似度选择对于算法整体的准确度有重要影响,实现了资源协同过滤相似度计算的优化。

1.3  实现慕课资源精准推荐

研究的算法中,想要实现慕课资源的精准推荐,需要引入Spark架构。Spark是一个能够快速且通用的集群计算引擎,在本文的推荐算法研究中,采用基于内存的数据抽象设计,将Spark任务的中间环节的结果进行保存,具体框架如图3所示。

Spark框架包含了SQL查询、文本处理、机器学习等功能组件[12?13],这些组件在Spark内紧密集成,其运算性能更好,尤其是在进行信息大批量分析和迭代的工作环境下,利用Spark框架的优势更加突出。当Spark架构在集群中运行时,首先由驱动程序通过资源管理器完成资源申请,在管理器分配完资源后,在相应的节点上启动Executor,节点在完成驱动程序提交的任务后,最后向驱动程序提交反馈,其运行过程如图4所示。

在算法中引入Spark架构,运行的过程中能够过滤大量的资源[14?15],并对剩余资源进行深层次的信息预测评分。预测评分主要是利用资源的相似度和资源[i]的邻居集合[N(i)]评估某用户对目标资源的评分,具体评估方法如式(2)所示:

式中:[Pu,i]代表用户[u]对资源[i]的相似度预测评分;[Ri]表示资源[i]的平均分;[N(i)]代表资源[i]的邻居集合;[Ru,j]代表用户[u]对资源[j]的评分;[Rj]代表资源[j]的平均分;[sim(i,j)]表示资源[i]和资源[j]的相似度。

通过公式得出的相似度预测评分越高,说明算法的准确度越高。根据用户[u]对资源[i]的最近邻集合[N(i)]的评分值,利用式(2)预测用户[u]对资源[i]的评分高低,产生了资源推荐列表,实现了艺术学慕课资源的精准推荐,至此完成了基于Spark架构的艺术学慕课资源协同过滤推荐算法研究。

2  实  验

为了验证本文提出的基于Spark架构的艺术学慕课资源协同过滤推荐算法是否能够提高推荐的性能,设计了对比实验,分别将两种传统算法和本文算法的预测精度进行对比,并将结果进行分析。

2.1  实验环境

搭建包含6台虚拟机的Spark集群,其中1台设置为主节点,另外5台设置为从节点,参数如表2所示。

协同过滤算法采用平均绝对偏差MAE作为算法精准的评价指标,其计算公式定义如下:

式中:[N]表示资源数量;[pi]表示资源的实际分数;[qi]表示资源的预测分數。当MAE的值越小,表示推荐的精准度越高。将进行实验的训练集和测试集以不同的比例进行实验,训练集和测试集比例分别为:6∶4,7∶3,8∶2,9∶1。

2.2  实验结果与分析

在上述的实验环境参数下分别用传统算法和本文算法进行实验,得到的实验结果如表3所示。

实验结果表明,随着训练集与测试集比例的增加,三种算法的MAE值都在减小,准确度都在不断提升。本文提出的算法在每种比例下,MAE值均低于两种传统方法,说明基于Spark架构的艺术学慕课资源协同过滤推荐算法推荐精度更高,性能更好。

3  结  语

针对传统资源协同过滤推荐算法推荐性能差,本文提出基于Spark架构的艺术学慕课资源协同过滤推荐算法。采用分级响应形式建立用户?资源评分关系模型,用户对资源的评分减掉该用户评分平均值完成中心化评分,优化了传统余弦相似度计算方法。利用Spark框架集成SQL查询、文本处理、机器学习等功能组件,完成了基于Spark架构的艺术学慕课资源协同过滤推荐算法的研究。经过与两种传统算法的对比实验结果可知,研究的算法在不同比例训练集和测试集的情况下,MAE值均低于两种传统方法,说明基于Spark架构的艺术学慕课资源协同过滤推荐算法推荐精度更高,性能更好。

参考文献

[1] 黄成成,远方.慕课与专业音乐教育改革:男高音歌唱家张美林教授的声乐慕课实践[J].戏剧之家,2017(9):215?216.

[2] 史晓玲,王福朋.浅谈学前教育专业音乐混合式教学改革:对初中起点五年制音乐教学的思考与实践[J].大众文艺,2018,450(24):205?206.

[3] 梁莹,陈孝余.艺术硕士课程“慕课”教学法探究:以学校音乐课程与教学理论实践课程为例[J].艺术教育,2017(4):229?230.

[4] 李涛,符丁.基于协同过滤算法的自动化隐式评分音乐双重推荐系统[J].计算机测量与控制,2018,26(11):171?175.

[5] 章宗杰,陈玮.基于标签扩展的协同过滤算法在音乐推荐中的应用[J].软件导刊,2018,17(1):99?101.

[6] 祝永志.基于Spark技术的协同过滤推荐算法的可扩放性研究[J].电子技术(上海),2018(7):41?42.

[7] 游思晴,周丽,赵东杰.基于粒子群优化算法的协同过滤推荐并行化研究[J].北京邮电大学学报,2018,41(6):119?126.

[8] 何丽,李熙伟.基于朴素贝叶斯与协同过滤的分布式推荐模型研究[J].北方工业大学学报,2017,29(5):96?102.

[9] 周显春,邓雨,吴世雄.基于改进协同过滤算法的个性化美食推荐APP开发[J].软件导刊,2019,18(2):94?96.

[10] 徐静,杜岗,安刚.融合关联规则及情感分析的音乐协同过滤推荐[J].连云港职业技术学院学报,2018,31(4):19?22.

[11] 李卓遠,曾丹,张之江.基于协同过滤和音乐情绪的音乐推荐系统研究[J].工业控制计算机,2018,31(7):127?128.

[12] 李艳,李葆华,王金环.一种新的基于LDA?MURE模型的音乐个性化推荐算法[J].吉林大学学报(理学版),2017,55(2):371?375.

[13] 许明杰,蔚承建,沈航.Spark并行化基于物品协同过滤算法[J].计算机工程与设计,2017,38(7):1817?1822.

[14] 黄亚坤,王杨,王明星.综合社区与关联序列挖掘的电子政务推荐算法[J].计算机应用,2017,37(9):2671?2677.

[15] 扈滨.互联网时代音乐基础理论教育翻转课堂模式探析:评《翻转课堂的可汗学院:互联时代的教育革命》[J].中国教育学刊,2018(5):142.

猜你喜欢

用户
雅阁国内用户交付突破300万辆
您拨打的用户已恋爱,请稍后再哭
关注用户
关注用户
两新党建新媒体用户与全网新媒体用户之间有何差别
关注用户
关注用户
挖掘用户需求尖端科技应用
Camera360:拍出5亿用户
100万用户