APP下载

融合项目标签信息面向排序的社会化推荐算法*

2017-03-16练绪宝林鸿飞

计算机与生活 2017年3期
关键词:排序标签矩阵

练绪宝,林鸿飞+,徐 博,林 原

1.大连理工大学 计算机科学与技术学院,辽宁 大连 116024

2.大连理工大学 公共管理与法学学院,辽宁 大连 116024

融合项目标签信息面向排序的社会化推荐算法*

练绪宝1,林鸿飞1+,徐 博1,林 原2

1.大连理工大学 计算机科学与技术学院,辽宁 大连 116024

2.大连理工大学 公共管理与法学学院,辽宁 大连 116024

推荐系统;社交网络;标签系统;排序学习;矩阵分解

1 引言

随着互联网技术特别是电子商务的飞速发展,互联网中数据的增长速度远远超过了人类的接收速度,信息过载问题显得越来越严重。帮助人类从海量数据中筛选出有用数据的信息过滤技术显得越来越重要,个性化推荐[1]技术正是一种根据用户偏好从大规模数据中找到用户感兴趣数据的理想方法。

目前,个性化推荐的应用主要分为两类:第一类是评分预测,即通过给定一个用户的历史评分行为预测对未知项目的评分,评分值即表示用户对项目的喜好程度。第二类是Top-K推荐,即为用户推荐其最可能喜欢的前K个项目。由于用户往往最关注排在前面的项目,因此和评分预测相比,Top-K更加直观地为用户提供排序的推荐列表,因此更加实用,这也是目前各大电子商务网站致力于解决的问题。本文的重点在于提高Top-K推荐的准确率。

个性化推荐技术的核心在于推荐算法,目前推荐算法主要分为两类,分别是内容过滤和协同过滤。内容过滤推荐方法主要通过分析用户和项目的内容信息,如用户的人口统计信息、项目的描述信息等,从而构建出用户和项目的一系列特征,最终通过匹配用户和项目的相似度来进行推荐。与此不同的是,协同过滤方法不需要任何用户或项目的内容信息,是一种完全与领域无关的方法。协同过滤方法有效地利用了群体智慧,它基于这样的假设:用户会喜欢和自己具有相同兴趣的用户喜欢的项目,同时,用户之间的共同行为越多,则用户之间的兴趣越相似。目前协同过滤方法主要分为基于记忆的协同过滤和基于模型的协同过滤,如矩阵分解[2]等。协同过滤方法有效地避免了需要专家标注信息的问题,并且已经广泛地应用在各种各样的推荐系统中。

近年来,随着在线社交网络的发展,基于用户社交关系的个性化推荐方法越来越受到工业界和研究人员的重视,这些基于用户社交关系的推荐方法也称为社会化推荐方法[3]。另外,互联网中的标签系统也越来越流行,在传统的推荐算法中融入标签信息也是一个新的研究方向。传统的社会化推荐方法仍然是基于评分预测的模型,没有考虑用户感兴趣项目的排序问题。

排序学习是一种在信息检索领域中优化文档排序的方法。通过将用户-项目对类比为信息检索领域的查询-文档对,排序学习方法逐渐应用在个性化推荐领域。和传统排序学习方法类似,个性化推荐中的排序学习方法也主要分为3类,分别是点级(point-wise)方法、逐对级(pair-wise)方法和列表级(list-wise)方法。文献[4]对基于排序学习的推荐方法进行了总结。

面向排序的方法虽然在解决项目排序时具有一定的优势,但是仍然有一定的局限性。点级方法是面向评分预测的模型,没有考虑排序的特性;逐对级方法需要考虑所有项目之间的偏序关系,模型训练的复杂度过高;列表级方法虽然考虑优化整个推荐列表的排序,能在一定程度上解决项目的排序问题,但在模型中融入的信息太少,没有考虑到用户社交关系和项目标签信息的影响,一定程度上影响了推荐系统的准确率,因此在实际应用中仍然具有一定的局限性。

基于以上分析,本文提出了一种融合项目标签信息面向排序的社会化推荐算法。首先通过用户之间的关注关系计算用户之间的信任度,接着通过用户之间的信任度在原始模型的损失函数中添加用户社交约束项和项目标签约束项,使相互信任的用户偏好向量尽可能接近,标签相似的项目特征向量尽可能接近,设计了名为STListRank-MF的推荐算法。最后,本文在真实的Epinions数据集和百度电影推荐大赛公开的数据集上进行了实验,选取了几种基于Pair-Wise的排序学习模型和ListRank-MF作为对比,结果表明,STListRank-MF方法具有更高的推荐准确率。

本文的主要贡献有:(1)借鉴了信息检索领域中排序学习的思想,将排序学习的方法应用到个性化推荐领域;(2)对比了多种逐对级和列表级的排序损失函数,并得到实验结果;(3)扩展了一种基于列表级的排序学习方法,并且融入了项目标签信息和用户社交信息,有效地提高了推荐结果的准确率。

本文组织结构如下:第2章介绍相关工作;第3章研究本文方法STListRank-MF的具体实现;第4章给出实验数据集及实验结果,并对实验结果进行对比分析;最后总结全文。

2 相关工作

2.1 概率矩阵分解

本文方法基于Salakhutdinov等人[5]提出的概率矩阵分解模型(probabilistic matrix factorization,PMF)。假设推荐系统中一共有M个用户,N个项目,R是一个M×N维的用户-项目评分矩阵,Rij表示用户i对项目j的评分,Rij通常是一个从1到Rmax的数(Rmax通常为5)。面向评分预测的协同过滤算法通过概率矩阵分解模型学习用户和项目的潜在特征向量,然后根据用户和项目的特征向量预测评分。概率矩阵分解通过极小化评分误差损失函数训练模型,其损失函数如式(1)所示:

其中,Iij为指示函数,若用户i对项目j有评分记录,则取值为1,否则取值为0。U和V分别是用户和项目的潜在特征矩阵,U∈RD×M,V∈RD×N,且U和V的维度D要远远小于M和N。最后一项是防止过拟合的正则化项,为正则化系数。,目的是将预测值映射到0到Rmax之间。最终通过用户和项目的潜在特征向量的内积再经过g(x)作为预测的评分值,即Rij=g(UiTVj)。

由于分解出来的用户和项目的特征向量维度远小于原始评分矩阵的维度,可以通过梯度下降的方法有效地实现降维。为了减少PMF中参数设定对算法的影响,Salakhutdinov等人[6]进一步提出了贝叶斯概率矩阵分解(Bayesian probabilistic matrix factorization,BPMF)。BPMF采用马尔可夫链蒙特卡洛算法进行参数估计,其推荐准确率较PMF有了一定的提高。概率矩阵分解及其扩展模型在评分预测问题上具有较高的准确率,但是在做Top-K推荐时没有考虑项目之间的排序关系,因此具有一定的局限性。本文提出的基于排序的矩阵分解方法能更好地解决Top-K推荐中的项目排序问题。

2.2 融合社交网络和标签信息的推荐方法

近年来,随着在线社交网络的发展,基于社交网络的个性化推荐方法越来越受到工业界和研究人员的重视。社交网络是指社会个体成员因为互动而形成的相对稳定的关系体系,在计算机科学中社交网络被描述成以用户为节点,社会关系或交互为边的有向或无向图。标签是一种无层次化结构的、用户描述信息的关键词,可以用来描述物品的语义和用户的兴趣。另一方面,项目标签作为描述项目特征的一个重要维度,具有短小精炼的特点,可以很大程度上反映一个项目的特征和用户的偏好分布。2008年Ma等人[7]提出采用概率矩阵分解[5]的方法同时分解用户-项目评分矩阵和用户-用户信任矩阵来进行推荐;2010年Jamali等人[8]提出在矩阵分解过程中同时约束用户和用户朋友之间的特征向量的差异,是基于社交网络采用信任传导的矩阵分解方法;2012年Wu等人[9]提出利用用户和项目的标签信息,在概率矩阵分解模型中加入用户和项目的标签约束项来进行模型训练,进而得到用户和项目的潜在特征矩阵,对用户-项目偏好值进行预测。2014年Li等人[10]利用标签信息构建用户-项目-标签的三部图,并采用随机游走算法构建推荐模型。2013年Yan等人[11]提出在推荐系统中融合标签的语义关系以提高推荐准确率。基于社交网络的推荐系统充分利用社交网络中的社会影响、传递性和同质性等特征,通过在社交网络中与其直接相连或间接相连的用户的偏好推测目标用户的偏好。综上所述,在传统的推荐方法中融入用户社交信息和项目标签信息对提高推荐系统准确率具有积极作用。

2.3 面向排序的推荐方法

排序学习是一种在信息检索领域中优化文档排序的方法。传统的基于评分预测的方法致力于降低评分预测误差,但是忽略了项目之间的排序关系,与此不同的是,基于排序学习的推荐方法以优化用户感兴趣的项目排列为目的,提供准确的Top-K推荐结果,这也更加符合现实世界的推荐场景。将信息检索领域的查询-文档对类比为用户-项目对,排序学习的思想可以很好地应用到个性化推荐领域中。类似地,在个性化推荐领域中的排序学习方法也主要分为3类,分别是基于点级的方法、基于逐对级的方法和基于列表级的方法。点级方法仍然等价于面向评分预测的模型。逐对级方法以一个项目对作为输入样本,将排序问题当然一个项目对的二元分类问题,如2014年Liu等人[12]提出的基于RankNet[13]的矩阵分解方法RankNet-MF,2010年Nathan等人[14]提出的基于Bradley-Terry模型[15]的矩阵分解方法Bradley-TerryMF,2009年Rendle等人[16]提出的基于隐性反馈的贝叶斯个性化排序(Bayesian personalized ranking,BRP)方法。BPR方法将用户未观察到的项目看作负例,运用贝叶斯最大后验概率方法优化模型,训练过程采用随机梯度下降方法。列表级方法将整个项目的排序列表作为一个训练样本输入,如直接优化排序指标的CofiRank[17],基于ListNet[18]优化整个排序概率分布的ListRank-MF[19]。

3 融合项目标签信息面向排序的社会化推荐算法

基于评分预测的推荐方法以拟合评分为目标,没有考虑项目之间的排序问题;Top-K推荐方法则以拟合推荐结果中前K个项目的排序质量为目的,更加符合真实的推荐场景。本文扩展了一种基于列表级的排序学习推荐方法,在此基础上融入用户社交信息和项目标签信息,取得了更加准确的Top-K推荐结果。

3.1 社交网络中信任度

在社交网络(有向或无向)中用户和用户之间的信任度是有向的,并且用户之间的信任度可以看作用户之间的影响力大小。假设一共有M个用户,若tuk表示用户u对用户k的信任度,则tuk越大表示用户k对用户u兴趣的影响力越大;反之,用户k对用户u的影响力越小。同时,如果用户u关注越多用户,则tuk应该随着减少;如果用户k被越多用户关注,则tuk应该增加。基于以上分析,本文运用式(2)计算用户u对用户k的信任度tuk。

其中,d-(vk)表示用户k被关注的数量;d+(vu)表示用户u关注用户的数量。特别地,在无向社交网络(例如人人网、Facebook等)中,有d-(vu)=d+(vu)=d(vu)。

由于社交网络中的社会影响,用户的爱好(口味)会被他所关注的朋友所影响,换句话说,用户u的潜在特征向量会被他的直接邻居所影响,参照文献[17]的方法,本文将这种社会影响按照式(3)量化:

其中,Nu代表用户u的直接邻居集合,将信任矩阵中每行进行归一化处理,使得,因此式(3)又可表示为。

3.2 项目的标签相似度

标签一方面反映了用户的兴趣,另一方面反映了项目的特点,具有相同标签的项目往往有类似的特征,打过相同标签的用户往往有类似的兴趣。假设一共有N个项目,L个标签,若标签出现次数越多,则该标签越重要,同时标签标注的项目越多,则其区分度越低,因此项目i中标签t的权重wit采用tf*idf权重,按照式(4)计算:

其中,tf(i,t)表示项目i被标上标签t的次数,没有明显标记次数时记为1;df(t)表示标签t被标记的项目个数,没有标记的标签权重自动记为0。至此,每个项目可以表示为L维的向量,项目i和j之间的标签相似度采用余弦相似度衡量,其计算方法如式(5)所示:

根据项目之间的标签相似度选择项目的K近邻,并对K近邻项目相似度进行归一化,得到归一化后的项目相似度,并将K近邻之外的项目相似度置为0,其归一化方法如式(6)所示:

其中,Ni是项目i的K近邻集合;sim(i,j)是项目i和项目j的标签余弦相似度。

3.3 融合项目标签信息面向排序的社会化推荐算法

面向评分的协同过滤方法以预测评分为目标,在做Top-K推荐时具有很大的局限性;面向排序的推荐方法虽然能在一定程度上解决用户感兴趣的项目排序问题,但是由于模型中融入的信息太少,没有考虑到用户社交信息和项目标签信息的影响,在一定程度上限制了推荐准确率。本文提出的融合标签信息面向排序的社会化推荐方法有效地解决了上述问题。

3.3.1 Top-one概率

假设一共有M个用户,N个项目,R是一个M×N的用户-项目评分矩阵,Rij表示用户i对项目j的评分,Rij通常是一个从0到Rmax的数(Rmax通常为5)。文献[15]将用户i的排序列表li中评分为Rmax的项目排序在第一位的概率表示为Pli(Rij),其计算方法如式(7)所示:

其中,φ(x)为增函数,且对于所有x都满足φ(x)>0,令φ(x)=exp(x)。Pli(Rij)表示项目在给定排序列表中被排到第一位的概率值,简称Top-one概率。显然,评分值Rij越大,则用户对该项目的喜好程度越大,相应Top-one概率值越高,更有可能被排到第一位。

3.3.2 融合项目标签信息和用户社交信息

在信息论中,通常用交叉熵(cross-entropy)来衡量一个概率分布和给定概率分布的相似程度,交叉熵越小则表明两个概率分布越相似,特别地,当两个概率分布完全一致时,则交叉熵达到最小值。类似地,可以用交叉熵来衡量预测项目排序列表的Topone概率分布和已知项目排序列表的Top-one概率分布的相似程度。同时考虑到社交网络中的朋友关系往往表示一种兴趣爱好的认同,互相信任用户之间的兴趣往往比较相似,信任度越大的用户之间特征的相似度也往往会越大,用户之间爱好的影响力也会越大;另一方面,项目标签作为描述项目特征的一个重要维度,具有短小精炼的特点,可以很大程度上反映一个项目的特征,因此项目之间标签相似度越高,则项目之间的特征向量应该越相似。基于以上分析,在原有损失函数中添加项目标签和用户社交信息惩罚因子,即用户信任度和标签相似度的惩罚项,损失函数定义为式(8)所示:

3.4 模型参数训练

基于以上分析,本文提出的基于排序学习的社会化推荐算法通过极小化式(5)所示的损失函数训练模型,需要训练的参数有用户潜在特征矩阵U和项目潜在特征矩阵V,训练过程采用梯度下降方法。由式(8)可得,Ui和Vj的梯度计算方法分别如式(9)和式(10)所示。通过计算好的梯度经过多次迭代更新Ui和Vj直至收敛,得到最优的Ui和Vj。

式(9)为用户i的特征向量Ui的梯度计算方法;式(10)为用户j的特征向量Vj的计算方法。

用户i的偏好向量Ui和项目j的特征向量Vj的参数更新方法如式(11)、(12)所示,其中η是学习率。用户i对项目j的偏好得分为用户i的偏好向量Ui和项目j的特征向量Vj的内积,最终的推荐列表由预测的项目偏好得分降序排列生成。

4 实验结果与分析

4.1 数据集描述

4.1.1 百度电影数据集

百度电影数据集由百度公司在2013年5月举办的电影推荐系统算法创新大赛中公开,该数据集主要有以下信息:用户-电影评分记录、用户关注关系、电影标签信息。数据集中包含9 722个用户对7 889个项目的1 256 998条评分记录,评分数据的密度为1.64%;同时这些用户之间有7 898条关注关系,关注关系的密度为0.008 3%,有1 121个标签,平均每个项目被标记了10个标签,其详细统计信息如表1所示。

4.1.2 Epinions数据集

Epinions数据集是现在公开可用的社会评分网络数据集之一,数据从网站Epinions(http://www.epinions.com)爬取,此网站提供各种商品的比较信息,可以在该网站上比较价格以及参考其他消费者建议。本文使用的是文献[10]的作者公开的数据集版本(http://www.trustlet.org/wiki/Downloaded_Epinions_dataset)。Epinions数据集中包含了评分信息和社交网络信息,社交网络信息也是单向的关注关系。表1列出了Epinions数据集的统计信息。

Table 1 Statistics information of two datasets表1 两个数据集的统计信息

4.2 评价指标

本文使用排序评价指标NDCG(normalized discounted cumulative gain)对实验结果进行评价。NDCG是信息检索领域用于评价排序质量的重要指标之一,在个性化推荐中项目评分可以自然地当作相关性等级。NDCG@k计算方法如式(13)所示:

其中,Q为数据集中的用户集合;R(u,p)为用户U在排序列表中第P位的项目赋予的评分;Zu是归一化因子,使得最优的排序NDCG值为1。

4.3 对比实验

本文采用6种方法进行对比实验,分别为基于评分预测的概率矩阵分解方法PMF[5]、基于RankNet[13]的矩阵分解方法(RankNet-MF[12])、基于Bradley-Terry模型[15]的矩阵分解方法(Bradley-TerryMF[14])、基于隐性反馈的贝叶斯个性化排序方法(BPR[6])、基于List-Net[18]的矩阵分解方法(ListRank-MF[19])。其中基于逐对级的RankNet-MF[12]和Bradley-TerryMF[14]方法都选取有评分记录的正例项目对作为训练样本,通过极小化其逐对级的误差来优化参数。这些方法的潜在特征空间维度都统一设置为5。同时,为增强实验结果的说服力,消除由于数据划分造成实验结果的不稳定因素,实验中采用5-折交叉验证的方法,将数据平均划分为5份,轮流选择其中4份作为训练集,剩下1份作为测试集,训练5次模型,将5次训练结果评价指标的平均值作为最终实验结果。将各方法的参数调至最佳情况下,在百度电影数据集和Epinions数据集上的实验结果对比分别如表2、表3所示。

Table 2 Result comparison of 6 methods in BaiduMovie dataset表2 百度电影数据集中6种方法结果对比

Table 3 Result comparison of 6 methods in Epinions dataset表3 Epinions数据集中6种方法结果对比

基于表3的实验结果,可以发现基于逐对级的3种方法RankNet-MF、Bradley-TerryMF和BPR,其整体表现不如基于列表级的排序方法和基于评分预测的矩阵分解方法。产生该结果的原因是:基于逐对级的方法以优化项目偏序对的分类误差为主要目标,没有考虑用户对项目列表整体排序结果的优化,且贝叶斯个性化排序方法选择将用户未观察到的项目当作负例,没有考虑用户评分的差别对用户偏好差异性的影响程度,并不适用于带有评分的数据集。基于List-Wise的矩阵分解方法排序准确率要优于基于评分预测的矩阵分解方法。ListRank-MF的推荐准确率要优于PMF,本文提出的方法STListRank-MF要优于SocialMF。产生该结果的主要原因是:ListRank-MF和STListRank-MF以最小化推荐结果的排序误差为目标对参数进行优化,而PMF和SocialMF以最小化优化评分误差为目标对参数进行优化,本文的参数主要为用户和商品的潜在特征向量。社交信息的融入可以提高推荐系统的准确率。其中SocialMF的效果要优于PMF,且STListRank-MF的效果要优于ListRank-MF。融入用户之间的信任度对用户的特征向量进行约束能够更好地刻画用户的偏好。产生该结果的原因在于社交网络中的用户朋友关系能够对用户的偏好产生一定的影响。本文方法STListRank-MF取得了最优的效果,也进一步证明了在基于排序学习的推荐模型中融入社交网络信息能提高推荐结果准确率,同时本文提出的用户之间信任度衡量方式也是合理的。从表2和表3中可以看到,对于不同的数据集,评分数据越密集,推荐准确率越高;社交数据越密集,推荐准确率提高幅度越大。

4.4 参数设置

如式(8)所示,除了分解结果用户和项目隐特征矩阵的维度K外,本文方法还有两个参数,分别是防止模型过拟合的正则化参数λ和社交信息惩罚参数λu。因为本文方法是基于ListRank-MF所做的改进,所以首先确定正则化参数λ,在确定效果最优的λ之后再调节社交信息惩罚参数λu,λu控制社交信息在模型中所占的重要性。针对不同的参数本文做了一系列实验,这些实验全部基于Epinions数据集,且Epinions数据集缺少标签信息,因此将项目标签信息惩罚系数λv设置为0,研究社交信息惩罚系数λu和正则化参数λ对实验结果的影响。

将社交信息惩罚系数λu设为0.1,按照0.2的间隔调整正则化参数λ。将λ分别设为0.1、0.3、0.5、0.7、0.9训练模型,模型的NDCG@1值变化如图1所示。从图1中可以看出,当λ小于0.3时,模型有过拟合现象;当λ为0.3时,模型最优;当λ大于0.3时模型出现欠拟合现象。

选取最优的正则化参数λ=0.3,按照0.05的间隔调整社交信息惩罚参数λu。将λu分别设为0、0.05、0.10、0.15、0.20训练模型,特别地,当λu取值为0时模型等价于ListRank-MF。模型的NDCG@1值变化如图2所示。从图2中可以看出,当λu取0.15时模型最优;当λu大于0.15时,推荐准确率下降。

Fig.1 Effect of regularization parameterλ图1 正则化参数λ的影响

Fig.2 Effect of social penalty coefficientλu图2 社交惩罚系数λu的影响

5 结束语

本文针对现有面向评分预测推荐方法的不足,将推荐问题看作排序问题,借鉴信息检索领域排序学习的思想,扩展了一种基于List-Wise排序学习的社会化推荐方法,在其基础上融入了用户社交信息和项目标签信息以提高推荐结果排序的准确率。另外对比了几种不同的排序损失函数,包括RankNet和Bradley-Terry模型,从而证明将ListNet的损失函数融入矩阵分解模型要优于RankNet和Bradley-Terry模型。同时,不同稀疏性数据集中推荐准确率也有明显的差异。实验结果表明,在Top-k推荐场景中本文方法能有效地提高推荐结果的准确率。

尽管本文方法融合了用户社交信息和项目标签信息,并且对实验结果有一定提高,但是由于社交关系和评分信息过于稀疏等原因,实验结果提高的幅度并不是很大。因此本文方法仍然有很大的改进空间,例如处理数据稀疏性问题,更加合理地衡量用户之间的信任度,如何度量标签信息对项目特征向量的影响等,这些都是今后研究的改进方向。

[1]Ricci F,Rokach L,Shapira B.Introduction to recommender systems handbook[M].New York:Springer US,2011.

[2]Koren Y,Bell R,Volinsky C.Matrix factorization techniques for recommender systems[J].Computer,2009,42(8):30-37.

[3]Jiang Meng,Cui Peng,Liu Rui,et al.Social contextual recommendation[C]//Proceedings of the 21st ACM International Conference on Information and Knowledge Management, Maui,USA,Oct 29-Nov 2,2012.New York:ACM,2012: 45-54.

[4]KaratzoglouA,Baltrunas L,Shi Y.Learning to rank for recommender systems[C]//Proceedings of the 7th ACM Conference on Recommender Systems,Hong Kong,China,Oct 12-16,2013.New York:ACM,2013:493-494.

[5]Mnih A,Salakhutdinov R.Probabilistic matrix factorization [C]//Proceedings of the 21st Annual Conference on Neural Information Processing Systems,Vancouver,Canada,Dec 3-6,2007.New York:CurranAssociates,2007:1257-1264.

[6]Salakhutdinov R,Mnih A.Bayesian probabilistic matrix factorization using Markov chain Monte Carlo[C]//Proceedings of the 25th International Conference on Machine Learning, Helsinki,Finland,Jun 5-9,2008.New York:ACM,2008: 880-887.

[7]Ma H,Yang H,Lyu M R,et al.SoRec:social recommendation using probabilistic matrix factorization[C]//Proceedings of the 17th ACM Conference on Information and Knowledge Management,Napa Valley,USA,Oct 26-30,2008. New York:ACM,2008:931-940.

[8]Jamali M,Ester M.A matrix factorization technique with trust propagation for recommendation in social networks [C]//Proceedings of the 4th ACM Conference on Recommender Systems,Barcelona,Spain,Sep 26-30,2010.New York:ACM,2010:135-142.

[9]Wu Le,Chen Enhong,Liu Qi,et al.Leveraging tagging for neighborhood-aware probabilistic matrix factorization[C]// Proceedings of the 21st ACM International Conference on Information and Knowledge Management,Maui,USA,Oct 29-Nov 2,2012.New York:ACM,2012:1854-1858.

[10]Li Ruimin,Lin Hongfei,Yan Jun.Mining latent semantic on user-tag-item for personalized music recommendation[J]. Journal of Computer Research and Development,2014,51 (10):2270-2276.

[11]Yan Jun,Liu Wenfei,Lin Hongfei.Music recommendation study based on tags multi-space[J].Journal of Chinese Information Processing,2014,28(4):117-122.

[12]Liu Xin,Aberer K.Towards a dynamic top-Nrecommenda-tion framework[C]//Proceedings of the 8th ACM Conference on Recommender Systems,Foster City,USA,Oct 6-10,2014.New York:ACM,2014:217-224.

[13]Burges C,Shaked T,Renshaw E,et al.Learning to rank using gradient descent[C]//Proceedings of the 22nd International Conference on Machine Learning,Bonn,Germany,Aug 7-11,2005.New York:ACM,2005:89-96.

[14]Liu N N,Cao Bin,Zhao Min,et al.Adapting neighborhood and matrix factorization models for context aware recommendation[C]//Proceedings of the 2010 Workshop on Context-Aware Movie Recommendation,Barcelona,Spain,Sep 30, 2010.New York:ACM,2010:7-13.

[15]Marden J I.Analyzing and modeling rank data[M].Boca Raton,USA:CRC Press,1996.

[16]Rendle S,Freudenthaler C,Gantner Z,et al.BPR:Bayesian personalized ranking from implicit feedback[C]//Proceedings of the 25th Conference on Uncertainty inArtificial Intelligence,Montreal,Canada,Jun 18-21,2009.Virginia,USA: AUAI Press,2009:452-461.

[17]Weimer M,Karatzoglou A,Le Q V,et al.COFIRANKmaximum margin matrix factorization for collaborative ranking [C]//Proceedings of the 21st Annual Conference on Neural Information Processing Systems,Vancouver,Canada,Dec 3-6,2007.Red Hook,USA:Curran Associates,2007:1593-1600.

[18]Cao Zhe,Qin Tao,Liu Tinyan,et al.Learning to rank:from pairwise approach to listwise approach[C]//Proceedings of the 24th International Conference on Machine Learning, Corvallis,USA,Jun 20-24,2007.New York:ACM,2007: 129-136.

[19]Shi Yue,Larson M,Hanjalic A.List-wise learning to rank with matrix factorization for collaborative filtering[C]//Proceedings of the 4thACM Conference on Recommender Systems,Barcelona,Spain,Sep 26-30,2010.New York:ACM, 2010:269-272.

附中文参考文献:

[10]李瑞敏,林鸿飞,闫俊.基于用户-标签-项目语义挖掘的个性化音乐推荐[J].计算机研究与发展,2014,51(10):2270-2276.

[11]闫俊,刘文飞,林鸿飞.基于标签混合语义空间的音乐推荐方法研究[J].中文信息学报,2014,28(4):117-122.

LIAN Xubao was born in 1993.He is an M.S.candidate at Dalian University of Technology.His research interests include recommender systems and machine learning,etc.

练绪宝(1993—),男,江西赣州人,大连理工大学硕士研究生,主要研究领域为推荐系统,机器学习等。

LIN Hongfei was born in 1962.He is a professor and Ph.D.supervisor at Dalian University of Technology,and the senior member of CCF.His research interests include information retrieval,text mining,natural language processing and sentiment computing,etc.

林鸿飞(1962—),男,内蒙古通辽人,大连理工大学教授、博士生导师,CCF高级会员,主要研究领域为信息检索,文本挖掘,自然语言处理,情感计算等。近年来发表学术论文100余篇,主持多项国家自然科学基金项目和国家高科技863计划项目等。

XU Bo was born in 1988.He is a Ph.D.candidate at Dalian University of Technology.His research interests include information retrieval,machine learning and learning to rank,etc.

徐博(1988—),男,辽宁大连人,大连理工大学博士研究生,主要研究领域为信息检索,机器学习,排序学习等。

LIN Yuan was born in 1983.He received Ph.D.degree from Dalian University of Technology.Now he is a lecturer at School of Public Administration and Law,Dalian University of Technology.His research interests include information retrieval,machine learning and learning to rank,etc.

林原(1983—),男,吉林梅河口人,大连理工大学公共管理与法学学院讲师,主要研究领域为信息检索,机器学习,排序学习等。

Rank-Oriented Social RecommendationAlgorithm with Item Tag Information*

LIAN Xubao1,LIN Hongfei1+,XU Bo1,LIN Yuan2
1.School of Computer Science and Technology,Dalian University of Technology,Dalian,Liaoning 116024,China
2.School of PublicAdministration and Law,Dalian University of Technology,Dalian,Liaoning 116024,China
+Corresponding author:E-mail:hflin@dlut.edu.cn

In recent years,recommender system has attracted more and more attention.According to application scenario,recommender system can be divided into rating prediction and Top-Krecommendation.Since traditional rating prediction and Top-Krecommendation only consider limited dual rating information between users and items,this paper extends a list-wise learning to rank-based matrix factorization method.On one hand,the method fully considers the focusing relationship among users.At first,compute trust values between users based on users’focusing relationship, then add trust matrix into the original loss function as a social penalty term to make users’preference vectors as near as possible.On the other hand,the method computes the weights of tags of items,based on which to compute the tag similarities between items,and then add the item tag penalty term to the loss function for training the model.The experimental results on the real Epinions and BaiduMovie datasets show that the proposed method outperforms several traditional methods,especially on the NDCG value,improving the recommendation accuracy effectively.

recommender system;social networks;tag system;learning to rank;matrix factorization

10.3778/j.issn.1673-9418.1603054

A

:TP311

*The National Natural Science Foundation of China under Grant Nos.61572102,61562080,61402075(国家自然科学基金);the Natural Science Foundation of Liaoning Province under Grant No.2014020003(辽宁省自然科学基金);the National 12th Five-Year Science and Technology Supporting Programs of China under Grant No.2015BAF20B02(国家“十二五”科技支撑计划项目).

Received 2016-02,Accepted 2016-04.

CNKI网络优先出版:2016-04-01,http://www.cnki.net/kcms/detail/11.5602.TP.20160401.1614.012.html

LIAN Xubao,LIN Hongfei,XU Bo,et al.Rank-oriented social recommendation algorithm with item tag information.Journal of Frontiers of Computer Science and Technology,2017,11(3):373-381.

摘 要:近年来,推荐系统越来越受到人们的关注,按照应用场景主要分为评分预测和Top-K推荐。考虑到传统评分推荐系统和Top-K排序推荐系统只考虑用户和项目的二元评分信息,具有一定的局限性,因此扩展了一种基于列表排序学习的矩阵分解方法。一方面,充分考虑用户之间关注关系。首先通过用户之间的关注关系计算用户之间的信任度,接着通过用户之间的信任度在原始模型的损失函数中添加用户社交约束项,使相互信任的用户偏好向量尽可能接近。另一方面,计算项目所拥有标签的权重,并以此计算项目之间的标签相似度,再将项目的标签约束项添加至损失函数中。在真实Epinions和百度电影数据集中的实验结果表明,该方法的NDCG值和原始模型相比具有一定的提高,有效地提高了推荐准确率。

猜你喜欢

排序标签矩阵
作者简介
恐怖排序
节日排序
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
多项式理论在矩阵求逆中的应用
让衣柜摆脱“杂乱无章”的标签
矩阵
矩阵
矩阵