APP下载

基于个性化推荐系统的冷启动问题研究进展

2021-07-24付文博尹立杰

新一代信息技术 2021年3期
关键词:冷启动个性化矩阵

付文博,尹立杰

(河北地质大学信息工程学院,河北 石家庄 050031)

0 引言

随着物联网和人工智能等技术的快速发展,人类的信息产业迅猛增长,网络信息超载(Information Over-load)问题也日益严重。信息产业产生的大量的信息已经无法被用户全部接受浏览,在这样的信息空间中客户寻找到有符合自己要求的信息是困难的。为了解决信息超载问题,推荐系统(Recommendation System,RS)可以将海量的信息筛快速地选成用户可接受的数量,以便用户迅速准确地找到自己想要的信息。

推荐系统[1]的概念被Resnick等人提出,推荐系统分析用户和项目的特征或者利用用户和项目间的交互数据等信息,在用户未提供检索内容时自动筛选出用户可能感兴趣的项目,这里的项目是被推荐的信息,例如音乐,商品,新闻等。个性化推荐系统时在产生推荐结果的过程中对用户的个性化需求加以考虑,产生出推荐结果更符合用户兴趣偏好[2]进而提升推荐系统的性能。Adomavicius等人提出了推荐算法的形式化定义[3],如式(1):

其中 U表示推荐系统中用户集合,I表示项目集合,向用户u推荐项目i的推荐程度评估函数r:U×I→R其中R是全序集合。推荐算法所做的即是对任一给定用户u∊U,找到项目i∊I使得推荐度r最大。

推荐系统解决了信息过载问题,为用户提供便利,给企业带来利益,受到了工业界和研究人员们的重视,因此在众多领域得到了广泛应用。经典的推荐算法主要有:基于内容的推荐、协同过滤推荐以及混合推荐方法。在经典推荐算法的基础上研究人员进行研究创新,研究成果层出不穷。协同过滤推荐算法[4]作为工业界使用最广泛的算法,是科研人员研究工作的重心。

深度学习[5](Deep Learning)在图像处理,自然语言处理等领域的表现良好,性能远远超过传统的机器学习模型,在短时间内收获了研究人员的关注与研究,并且能取得了革命性的成果,这些深度学习的成果在工业界得到广泛的应用。同样地,将深度学习引入推荐系统领域[6]的研究与应用逐步得到了广泛的关注。深度学习在克服传统推荐方法对特征数据的依赖、推荐系统冷启动等问题方面具有巨大作用,其研究具有深远的研究意义。

1 冷启动问题

推荐系统在实际应用中,用户和项目交互信息数量往往不足得出优良的推荐结果。因为一个用户交互、评分的项目是有限的,每个项目也只能被少数用户交互、评分,在用户和项目数量都十分庞大的情况下,构成的用户-项目评分矩阵会非常稀疏;新项目刚刚加入系统时,没有被用户浏览评分,无法使用协同过滤[7-8]通过交互过该项目的用户找到其近邻项目,进而新项目无法被推广;再者,当新用户进入系统时,没有过浏览等行为记录,或者行为数据稀少,根据这些数据推荐算法不能得到用户感兴趣的项目的相似项目,产生个性化推荐[9]结果。以上是协同过滤推荐系统中的冷启动问题。

推荐系统无论采用基于内容的推荐算法,或是其他现有的方法,都对用户特征和项目特征的有较高的要求。除了人工标注外,这些特征从行为数据中学习得到。但是如果一个用户或产品行为数据稀少或者根本没有,将无法提取的有效的特征,推荐模型就无法做出有效的推荐。可见,无论采用什么推荐算法,都存在冷启动问题。

2 冷启动研究意义

用户需求具有不确定性,短视频、新闻等应用的崛起使这一特点更为明显。推荐系统作为一种解决用户不确定性需求的有效手段受到重视。很多产品将推荐业务放到最核心的位置(如首页),比如今日头条等各类信息流产品及很多电商类产品。冷启动问题将会导致推荐系统的效果大大降低,使新信息、项目无法被有效推送,新用户接受非目标项目推荐直接影响新用户的留存率和推荐系统的可用性[10]。根据导致原因的不同冷启动问题一般有以下三种形式[11]:新用户进入推荐系统中时造成的用户冷启动;新项目加入到推荐系统中时造成的项目冷启动;拥有一定数量的项目和较少的用户而且交互信息稀少的刚开始使用系统中发生的系统冷启动。新用户、新项目是持续产生的,对推荐系统来说是无法避免的,所以冷启动问题会伴随整个产品的生命周期。因此对冷启动问题的研究能够进一步推动推荐系统的发展。

3 冷启动解决方法

研究人员们提出了很多方法来缓解冷启动,减少冷启动对推荐系统产生的弊端。早期解决方法是牺牲个性化的冷启动解决方法,这类方法的思想是将用户对项目的评分值进行统计,计算平均值众数等产生对新用户的推荐项目,优点是思想简单,容易实现,弊端为对不同新用户推荐相同的内容,丧失了推荐的个性化[12]。

随后越来越多的保持个性化的冷启动解决方法被提出,个性化推荐系统充分利用除交互信息以外的用户和项目的描述性信息,从中挖掘用户的选择偏好,以及项目间的相似特征。再对这些信息加以利用从而有效地减轻对交互信息依赖造成的相似度计算困难问题[13-14]。根据辅助信息获取方式的不同,可以将分为以下六类推荐方法。

3.1 基于问卷调查的推荐

这类方法让新用户填写调查问卷,根据填写的兴趣计算新用户与原有用户的相似性,再使用协同过滤方法进行推荐。Zhang[15]等在调查问卷的设计时使用判别选择模型对问题组合进行筛选,在尽可能少地调查问卷项目集的同时尽量捕获用户偏好。CFAFN[16]询问新用户感兴趣的项目属性信息以补充新用户的信息(图1)。新用户加入时,系统将采用询问的方式引导用户提供他对项目属性偏好信息。用户可选择的内容包含所有项目属性,利用用户的选择构造用户-项目偏好属性矩阵完成个性化推荐。

基于问卷调查的解决方法可以让系统获得较好的推荐结果,但是这种方法的效果受调查问卷质量的影响非常大,只有具有代表性的、全面的调查问题会对推荐结果会起到积极作用。而且还要避免用户填写问卷的时间过长等问题降低用户的体验。

3.2 基于原始矩阵扩充的推荐

这一类的思想是通过将辅助信息添加进用户—项目交互矩阵中,缓解矩阵的稀疏性,辅助信息可以是用户的人口统计信息和项目的属性信息等。在改进后的矩阵上使用协同过滤算法做出推荐。Hdioud[17]等人采用项目的内容信息作为辅助信息,通过计算项目的内容信息的相似性后对项目做聚类,将结果用于推荐,从而改善系统性能并解决项目冷启动问题。CFAFN是通过用属性信息扩充原始矩阵以缓解矩阵稀疏性。申在协同过滤的基础上结合了项目语义与用户特征,该方法同时考虑到用户评分相似性与项目特征相似性,将其结合起来用于预测用户的邻居评分和项目的邻居评分,最后结合得到推荐结果。

图1 CFAFN 冷启动解决方案Fig.1 Clod start solution framework of CFAFN

在用户和项目数量数量较少时,扩充矩阵可以一定程度上缓解稀疏性的问题,但是在用户和项目的数量巨大的情况下,扩充数据的方式对缓解矩阵稀疏性的效果微乎其微。

3.3 基于社交信息的推荐

社交关系在人们的生活中有着举足轻重的地位,社交关系可以体现一个人的社会属性的信息,根据社交关系对用户的兴趣偏好进行挖掘,并据此进行推荐。sedhain[18]提出社会化协同过滤进行用户冷启动推荐。利用用户的社交内容数据计算出内容和产品的相似性,然后计算出目标用户对所有产品的喜好程度,再排序产生推荐列表。可以在用户完全没有行为记录的情况下做出推荐。琚[19]等人提出在考虑社交关系的基础上,融入对好友信任度的计算,突出信任关系在推荐系统中的重要作用。

3.4 基于深度学习的推荐

深度学习在图像、文本等信息处理方面表现突出,基于深度学习推荐算法主要利用了这个优势。缓解冷启动的思路是通过利用深度学习在特征工程中的能力捕获用户和项目的特征用于推荐。

韩等人[20]首先对训练集用户进行聚类,将训练集用户划分为若干类。然后计算新用户与所属类别中 其他用户之间的距离,选择其近邻用户集,在评分计算时综合考虑项目流行度对推荐效果的影响,进而为目标用户推送感兴趣的想项目。实验结果表明,在一定程度上解决了冷启动问题。相似的,邵[21]等人采用层次聚类的基于项目的协同过滤算法缓解新项目冷启动问题。推荐系统中的项目都有一定的描述性信息,例如视频的主题、分类、创作者、内容简介、标题、投稿日期等。算法根据这些描述性信息,分析项目描述性信息之间的相关度进而获取新项目和原有项目之间的相似度,据此提出了凝聚式层次聚类的新项目相似度算法。

3.5 基于知识图谱的推荐

除社交网络、用户或项目属性信息等作为辅助信息外,因为提供了从“关系”角度分析问题的思路,知识图谱[22-23]受到学者广泛关注。知识图谱中所蕴含的丰富信息可以有效地解决推荐系统中存在的一系列关键问题,例如数据稀疏、冷启动、推荐多样性等。利用知识图谱进行推荐的思想就是利用用户、项目之间语义信息连接获取用户和项目的特征,减少对用户—项目交互矩阵的依赖,进而提高推荐准确度[24]。雷[25]提出了通过知识图谱获取项目的属性信息,根据属性信息计算项目间相似度,再将得到的项目相似关系利用随机游走模型来进行传递。

3.6 基于网络推荐

近些年来,基于异质网的推荐算法被学者广泛研究,异质信息网络[26]由于包含多种类型的结点和边,能表征丰富的辅助信息,Sun等[27]提出PathSim 基于元路径的相似性做推荐。 蒋等人[28]该算法首先由二部图嵌入用户和商品的历史互动,并通过多层神经网络传播获取用户和商品的高阶特征,然后基于元路径的随机游走来获取异质信息网络中的潜在语义信息,最后将用户和商品的高阶特征和潜在特征融合并做评分预测。Shi等人[29]提出 HERec模型将异质网络表示学习与推荐算法融合,采用基于多条元路径的随机游走方法获取节点序列,使用skip-gram模型对用户和项目进行表示学习,最后结合节点的表示使用矩阵分解模型进行推荐预测(图 2)。该算法通过元路径捕捉用户和电影间的隐性关系缓解了冷启动问题。

图2 HERec方法的示意图Fig.2 The schematic illustration of the HERec approach

4 结论

近年来,随着物联网和人工智能等技术的快速发展,大数据具有丰富价值与巨大潜力,推荐系统是利用好这些数据的有利工具,个性化推荐系统也将与生活中的方方面面相关联。而随着互联网时代的发展,推荐系统中用户规模及项目规模的迅速增长,这导致用户—项目评分矩阵稀疏,新用户和新项目会不断的加入加入到系统中,冷启动是推荐系统无法避免的问题。冷启动问题能否被克服将严重影响用户使用体验,尤其在对时效性要求高的情况中如新闻推荐系统,冷启动问题能否被有效缓解对系统的可用性起着至关重要的作用。本文分析冷启动问题产生的原因,以及个性化推荐系统中的冷启动问题解决方法。随着深度学习的发展,越来越多的方法被提出用于缓解冷启动问题,知识图谱等新的领域与推荐算法的结合也都带来了新的思路。

猜你喜欢

冷启动个性化矩阵
轻型汽油车实际行驶排放试验中冷启动排放的评估
Evaluation of Arctic Sea Ice Drift and its Relationship with Near-surface Wind and Ocean Current in Nine CMIP6 Models from China
基于学习兴趣的冷启动推荐模型
坚持个性化的写作
新闻的个性化写作
上汽大通:C2B个性化定制未来
初等行变换与初等列变换并用求逆矩阵
矩阵
矩阵
矩阵