APP下载

协同过滤算法的研究

2019-03-25吴经纬

电脑知识与技术 2019年3期
关键词:协同过滤推荐系统个性化

吴经纬

摘要:互联网的快速发展,每天都产生了大量的信息,信息过载[1-2]十分严重,解决该问题的常用方法有两个,通过搜索引擎查询自己所需要的信息,这种方式有一个很大的缺点是,很多可能会使得引发人们兴趣的信息被埋沒了,而推荐系统是能很好解决该问题的有效方法,推荐系统常用的方法是协同过滤算法,本文对协同过滤算法常见问题做了一些研究。

关键词:推荐系统;协同过滤 ;个性化

中图分类号:TP311        文献标识码:A        文章编号:1009-3044(2019)03-0020-02

1前言

我们所处时代的显著特征是信息大爆炸,每天所产生新的信息量非常惊人,毋庸置疑,身处其中人们跟以前相比更能够找到自己需要的信息,比如想购买的商品,想观看的电影等,然而跟不上信息增长的速度。有些用户喜欢看一些评分高的,还有就是热门的电影,遗憾的是这些电影是非常有限的,而有很多类似的精彩电影未能呈现在用户的眼前,既是资源的一种严重浪费,又没能给用户更好的享受。推荐系统是解决信息过载的很有用的方法,它最大的特点莫过于个性化,根据用户产生的历史数据,进而分析这些数据,挖掘出有用的东西,从而给用户带来更好的体验。时常当我们在亚马逊购物的时候,可能我们买了一本专业书,过一段时间你会发现,跟这本书相似的书籍,该作者的其他作品也可能会出现,还有就是买过这本书的人还买过什么,这方方面面无疑更有可能出现用户想买的商品,极大地提高了用户体验。当我们观看YouTube视频的时候也会发生类似的情况,推荐系统具备发现用户隐藏兴趣的能力,既能给相关公司带来巨大的收入,更能丰富人们的生活。本文主要对协同过滤算法的关键技术做了介绍以及其中的一些问题做了相应的分析。

2 基于用户与物品的协同过滤算法

基于用户的协同过滤算法利用用户的相关信息,给用户推荐相关内容或物品,比如当你在YouTube上观看一些视频的时候,它会给你推荐与你有相同兴趣爱好的用户他们喜欢的而你未曾看过的内容。而基于物品的协同过滤是利用物品之间的相似性进而推荐。

基于用户的协同过滤算法,实现步骤:

1)找到与目标用户有着相同兴趣的用户集合;

2)找到与目标用户有相同兴趣爱好的用户他们喜欢的,而目标用户未曾听说过的物品和评分预测[3];

3)生成TOP-N推荐列表;

相似度的度量是该算法的最重要的部分,常见的度量相似度的方法如下:

3改进相似度的思路

3.1热门电影的影响

以数据集MovieLence数据集为例,该数据集包含943名用户对1682部电影的10000条评分,而有的用户看的电影很少,有的用户看的电影很多,可能他们都看了一些热门电影,这不能说明两者的相似度很大,大部分人都会看热门电影,反而当他们看了一部冷门电影更能说明他们的兴趣相似度,所以给用户u和用户v共同观看电影中的热门电影一个惩罚项,以降低热门电影[5]对相似度的影响。

3.2共同评分项目数

由共同评分[6]项目定义的相似度公式

其中[N(j)]是指用户i评分的数目,用户之间共同观看的电影数目占自己观看电影数目的比例越高,越能够说明彼此的兴趣爱好很相似。

3.3欧几里德距离

余弦相似度计算相似度有一个很大的问题是能很好地描述用户们评分的习惯是否一样,比如a用户给五部电影评分都为5分,b用户给这五部电影评分都为1分,如果利用余弦相似度的话,则该相似度为一,而他们的兴趣爱好差别很大,如果在此基础上加入欧几里得距离,会有更好的效果,欧几里德距离能够刻画出两个向量的距离,能在某种程度上弥补余弦相似度的缺陷。欧几里德距离[7]公式(4)

4结束语

本文主要介绍了协同过滤算法实现的基本过程,以及相似度改进的相关思路,使得推荐的效果更好。协同过滤算法应用广泛,已经应用到我们生活中的方方面面,当然协同过滤算法还存在数据稀疏[8]性,冷启动[9],如何更好地实现实时推荐等等诸多问题。协同过滤算法中的优缺点综合起来值得好好研究。

参考文献:

[1]  刘建国,周涛,汪秉宏.个性化推荐系统的研究进展[J].自然科学进展,2009,19(1).

[2] 李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013(6)

[3] 李改,陈强,李磊. 基于评分预测与排序预测的协同过滤推荐算法[J].电子学报,2017(12).

[4] 彭石,周志彬,王国军.基于评分矩阵预填充的协同过滤算法[J].计算机工程,2013(1).

[5] BreeseJ S,Heckerman D,Kadie C.Empirical Analysis of Predictive Algorithms for Collaborative Filtering[C]//Proceedings of the Fourteenth Conference on Uncertainty in Artificial Intelligence.1998:43-52

[6] 张晓琳,付英姿,褚培肖.杰卡德相似系数在推荐系统中的应用[J].计算机技术与发展,2015(4).

[7] 李荣,李明奇,郭文强.基于改进相似度的协同过滤算法研究[J].计算机科学,2016(12).

[8] 张学胜. 面向数据稀疏的协同过滤推荐算法研究[D].中国科学技术大学,2011.

[9] 孙冬婷,何涛,张福海.推荐系统中的冷启动问题研究综述[J].计算机与现代化,2012(5).

【通联编辑:唐一东】

猜你喜欢

协同过滤推荐系统个性化
新闻的个性化写作
基于用户偏好的信任网络随机游走推荐模型
上汽大通:C2B个性化定制未来
满足群众的个性化需求