APP下载

一种基于用户互动话题的微博推荐算法

2016-05-04鲁骁李鹏王斌李应博房婧

中文信息学报 2016年3期
关键词:好友社交内容

鲁骁 ,李鹏 ,王斌 ,李应博,房婧

(1. 国家计算机网络应急技术处理协调中心,北京,100029;2. 中国科学院大学,北京 100049;3. 中国科学院 信息工程研究所,北京 100093)

一种基于用户互动话题的微博推荐算法

(1. 国家计算机网络应急技术处理协调中心,北京,100029;2. 中国科学院大学,北京 100049;3. 中国科学院 信息工程研究所,北京 100093)

随着社交网络的发展,微博逐渐成为人们获取信息的重要来源。然而随着用户的增多,微博中的信息过载问题也越来越严重,如何快速准确地为用户推荐感兴趣的微博已经成为研究的热点。与传统的推荐技术不同,微博中的用户具有天然的社交关系,这为推荐算法提供了额外的用户信息,因此,融合了用户社交关系的社会化推荐方法日益受到重视。但是,现有的方法大多只利用了固定的用户社交关系或简单的互动行为,事实上,用户互动行为的出发点必然是用户与好友的共同兴趣,具有明显的话题相关性。该文从话题层面来分析用户的互动关系,提出了度量互动关系在话题上强弱度的方法,通过有效地融合互动关系的话题特征,最终提出了改进的微博推荐模型IBCF。实验结果表明,与现有的社会化推荐方法相比,该文提出的新方法在MAP和NDCG等指标上取得了更好的推荐效果,而且为推荐结果提供了更明确的可解释性。

互动关系,互动话题,社会化推荐,协同过滤,微博推荐

1 引言

随着社交网络的发展,微博成为了近年来发展最快的热门互联网应用之一。根据CNNIC于2013年1月发布的第31次《中国互联网发展统计报告》显示,截至2012年12月底,我国微博用户规模为3.09亿,较2011年底增长了5 873万,增幅达到23.5%。网民中的微博用户比例较上年底提升了六个百分点,达到54.7%。报告显示,微博已经成为中国网民使用的主流应用,人们日益依赖从微博上获取最新的信息。新浪微博的数据显示,用户平均每天的在线时长达到60分钟,该平台上每天的微博发布数量超过一亿,微博上的信息已经非常巨大。

信息量的膨胀,给用户带来了严重的信息过载问题,如何有效地为用户提供更有价值的内容,已经越来越具有挑战性,这不仅具有巨大的商业前景,同时拥有的学术价值也不容小觑。近年来,针对社交网络的研究日益丰富,TREC从2011年起提出了专门针对微博的信息检索任务,SIGIR、CIKM等会议中关于微博的研究论文越来越多,KDD CUP 2012上,腾讯提供了从腾讯微博中提取出来的部分数据,包括1000万个用户,五万个项目(人、机构、群),三亿条推荐记录以及大约300万个社会网络的关注行为等,用来支持用户推荐的研究任务。

推荐技术能够为人们提供更多的选择,不需要输入任何检索信息,利用推荐技术来自动为用户提供更感兴趣的好友或内容,例如,Twitter推出的“邮件精选”、“好友推荐”、“热门趋势”等服务,都是利用推荐技术来为用户推送。国内的新浪微博也提供了类似的“好友推荐”、“热门话题”等服务。可以看出,利用推荐技术实现的主动推送更适合于微博平台。传统的推荐方法,主要从物品内容及用户对物品的打分记录出发,试图挖掘用户的兴趣。而在微博中进行个性化推荐,除了用户的兴趣之外,还需要考虑多种影响因素,包括内容质量、作者影响力等,除此之外,用户之间的社交关系也是研究的重点。在微博中,用户之间具有明显的关系属性,很多研究从这些关系出发,提出了融合用户社交关系的推荐模型。

然而,现有的方法[1-4]一般只利用了固定的用户社交关系或简单利用了用户的互动、影响力等因素,这种简单的社交关系是一种单质的属性,只能描述用户是否具有关系,而无法描述关系的强弱,更无法解释用户关系的基础。本文提出一种新的方法来定义用户之间的关系,通过分析用户与好友之间的互动行为的频率及内容,来衡量用户关系的话题属性及关系强弱度,并将这种新的用户关系定义方法用在推荐模型中以改善推荐的效果。

本文主要贡献如下: (1)根据用户互动行为来分析用户与好友的关系,从话题层面来定义关系,提出度量这种关系强弱的方法;(2)在互动关系中引入时间因素,提出互动关系的时间衰减模型,更有效地模拟真实的用户关系发展情况;(3)在推荐模型中引入关系的话题分布作为特征,与用户兴趣特征及微博内容特征融合在一起,改进推荐模型的效果。实验效果表明,这种分析用户关系的方法,从话题层面上有效解释了微博用户的关系与行为,不仅能有效提高推荐的效果,也能为推荐结果提供更明确的可解释性。

本文后续内容安排如下: 第二节主要介绍传统的推荐方法及社会化推荐的相关研究进展;第三节阐述用户互动关系的定义,及在此基础上提出的推荐模型;第四节展示在新浪微博数据集上进行的实验结果,并对结果进行比较分析;第五节是本文结论及未来工作。

2 相关工作

传统的推荐方法主要分为两种,基于记忆的方法和基于模型的方法,通过挖掘用户的历史行为来分析出用户的兴趣,从而为用户推荐可能感兴趣的物品。协同过滤的基本假设是不同的用户具有不同的兴趣,从而对物品产生不同的喜好,如果两个用户都喜欢同一组物品,则说明这两个用户具有相似的兴趣,从而被称为“邻居”,邻居的喜好物品成为用户可能感兴趣的物品。

随着社交网络的发展,越来越多的因素被应用于推荐系统中。很多研究者对用户关系在推荐中的应用做了探索,例如,在推荐中考虑用户好友关系、用户信任关系等,并提出了较好的模型及方法。Sinha[5]在三组书籍和电影数据集中做了推荐效果的评估实验,分别为用户提供来自好友和来自系统的推荐物品,用于比较系统推荐和好友推荐对用户的影响,实验结果表明来自好友的推荐相对于传统的推荐系统而言,通常会具有更高的质量,说明用户的好友关系在推荐中具有很强的影响力,如何在推荐中引入好友关系已经成为研究的重要方向。

Konstas[1]利用用户的好友关系及社会化标签信息,构建了社交关系图模型,并提出了一种随机游走模型RWR,来整合用户好友关系及社会化标签,从而有效提高了推荐的效果。Ma[2]提出一种概率矩阵分解模型SoRec,通过将用户社交关系和用户打分记录映射到同一个隐含特征空间上,来整合用户的社交关系及打分记录,从而缓解数据稀疏性问题,并提高推荐精度。Mohsen[3]在此基础上更进一步,提出SocialMF模型,每个用户的隐特征空间都受到其邻居的影响,从而引入了用户的信任关系传导。Peng[6]利用排序学习,整合了用户社交关系的特征来进行用户推荐,Chen[4]提出了基于协同排序来进行微博内容推荐的方法,融合了多种特征,包括微博内容话题、内容质量、用户社交关系以及作者影响力等因素,其中用户关系主要包括共同好友数量、相互关注等。

由于很多情况下,用户没有明显的好友关系,所以很多研究者从用户的评分数据出发,来评估用户之间可能的关系。Pitsilis[7-8]提出基于用户评分差异度的用户信任关系计量方法,该方法通过对用户A与用户B在所有评分交集上的误差绝对值求和,来计算用户之间的信任度。Donovan[9]提出根据评分错误比例进行计算的方法,首先定义了用户之间评分的正确性评估方法,通过设定误差的阈值,将用户在同一物品上的评分划分为正确和不正确的二值问题,然后通过评估正确评分的比例来计算用户之间的信任度。Lathia[10]扩展了该方法,并提出非二值性的评判方法,他引入误差惩罚因子,用户之间的信任度由评分值的均值计算得到。

然而这些研究大都集中在用户关系的定义和使用方面,通过直接的用户关系或间接计算的用户关系,来改进推荐效果,但对于用户关系本身未作更深入的研究。例如,用户A虽然关注了好友B,但并非会对B发布的所有消息都感兴趣,从用户的转发行为上尤其可以看出这种倾向,本文从这点出发,首次提出基于用户关系话题分布的推荐方法。

Yang[11]与我们的工作比较接近,他在Epinion数据集上利用用户兴趣的类别来划分用户的好友圈,提出了基于兴趣圈子的推荐方法,从而实现在已知物品类别属性的情况下,寻找与用户具有相似兴趣的好友来改善推荐效果。但这个工作是在固定的物品类别信息上进行的,有较强的局限性,而且在微博中并没有类别信息可以直接利用。

本文主要从微博用户的行为出发,分析用户与好友互动行为的内容在话题上的分布,以此来重新定义用户的好友关系。本文认为用户与好友的关系建立在共同话题的基础上,并且在不同的话题上具有不同的关系强弱度,从而提出基于用户关系话题分布的推荐模型,此模型能够更好地契合微博环境,更深层次地解释用户关系,并提供较好的微博内容推荐结果。

3 本文工作

在微博中,用户之间最直接的关系就是社交关系,包括关注以及由相互关注所建立的好友关系。大多数基于用户关系的研究都集中在这个方面。然而,用户在使用微博的过程中,不断地制造内容、消费内容,通过这些行为,用户与其好友之间建立起了更深层次的互动关系。这些行为的数量及内容都为用户的好友关系提供了更多的信息,对微博的个性化推荐非常有价值。本文从这个角度出发,从用户的行为数据中挖掘用户深层次关系,并融入到微博推荐模型中来。

3.1 互动关系建模3.1.1 互动关系的话题模型

本文在微博语料环境下,假设用户对微博的兴趣都是基于对话题本身的兴趣,将微博的隐含话题作为隐参数来进行推荐预测。不同于以往其他的社会化推荐模型,本文认为用户在转发微博的行为中,除了考虑微博本身的话题因素以外,对微博的作者也有考虑。有一些研究试图分析过类似因素,包括作者影响力、用户与作者的好友关系等,本文则主要从用户与好友的互动行为上来分析用户的关系,本文认为用户之间的关系有其本身的动机,用户对好友的关系是建立在话题基础上的,而表现出来的现象就是在特定话题上,用户通常会选择性地转发某些固定好友的消息,这也能解释用户更倾向于转发已转发过的好友的内容这个现象。如图1所示,是用户互动关系的图模型表示。

图1 用户互动关系话题图模型

如图1所示,对于每一对互动关系r1,2,其在话题上的分布θ~Dirichlet(α),词语到话题的分布φ~Dirichlet(β),从而可以将关系到话题的分布表示为词语到话题分布的混合。以zi,j表示用户关系的话题分布,其计算式如式(1)所示。

(1)

其中,W是关系ri,j的内容中包含的所有词项。zi,j∈Rk是k维特征向量,代表着用户互动关系的话题分布特征向量。

另外,由于微博的短文本特点,直接利用LDA模型来计算话题分布,往往效果不佳。本文采用Hong[12]提出的USER scheme方法对微博内容进行处理,从而训练LDA模型,步骤如下:

(1) 对训练集中所有的微博按照作者进行整合,将每个用户发表的全部微博表示为单篇文档u-profile,所有用户的u-profile构成了训练语料集;

(2) 对整合后的语料集进行LDA模型训练;

(3) 训练集中所有的转发微博,每个用户与微博的原作者构成一个关系对r,按照r将所有训练数据整合为r-profile;

(4) 将训练集中所有的单条微博、测试集中所有的单条微博及根据关系对r整合的r-profile数据作为新文档,利用训练得到的模型,来处理这些文档,获取每个新文档话题分布;

(5) 每个r-profile文档的话题分布即为关系对r的话题分布;

这种方法有几个好处,首先,合并后的单篇文档的内容变得较为丰富,能提高模型的准确性;另外,整合后文档数量大幅度减少,从而有效缩短了模型的训练时间;而且,整合之后每篇文档都代表着一个作者的全部内容,从而文档的话题分布也就代表着作者的兴趣话题分布,而每个用户的兴趣话题数量相对而言规模较小,所以能够在较小的话题规模上完成模型的训练。

3.1.2 互动关系的强度

另一方面,根据本文对用户关系的定义,关系本身将具有话题属性,由于互动内容在各话题上的分布不同,所以用户关系在各话题上的强弱也会有所区别,物理意义即为: 用户对于好友在不同话题上的信任度不同。这可以解释为用户是由于某些共同兴趣才与好友建立了关系,而不是对好友的所有话题都感兴趣。

令微博d在话题tk上的概率分布表示为p(tk|d),根据用户j中被用户i转发过的微博,可以得到用户i对用户j在话题tk上的关系强弱度,其计算方法如式(2)所示。

(2)

其中,Di,j表示用户i转发过的用户j的微博集合,Dj表示用户j发表的全部微博集合。τi,j(tk)代表着在用户互动关系的每一维话题特征上的互动关系权重。

3.1.3 时间因素

由于用户的互动行为存在时间因素,这也从另一方面反映出用户关系的时效性,本文假设用户倾向于信任时间上较近的好友,我们给互动关系的强度引入了简单的随时间指数衰减的变量,具体计算方法如式(3)所示。

(3)

其中,β是调整关系强弱随时间衰减速度的参数,随着时间的增加,用户与好友的每条交互历史所带来的权重将逐渐减弱,通过衰减函数,能够使交互时间较新的好友获得更强的关系权重。

3.2 IBCF推荐模型

通过上述的用户关系分析,我们获得了用户与好友互动关系的话题分布,以及在不同话题维度上的关系强弱度权重。接下来,本文在RSVD模型[13]的基础上,融合了用户互动关系的这些特性,提出改进的推荐模型。

RSVD模型是经典的矩阵分解模型,有效融合了用户和物品的偏置信息,式(4)给出了模型的计算方法。

(4)

本文将互动关系的话题特征z作为隐性特征加入模型中,并为每一维话题特征引入权重因子τ,提出了基于用户互动关系的协同过滤模型 (Interaction-Based Collaborative Filtering),以下简称为IBCF模型,如式(5)所示。

(5)

为了将互动关系的话题分布及关系强度融合起来,我们将用户i对用户j的互动关系在所有话题上的强弱度表示为k×k对角矩阵,如式(6)所示。

(6)

其中,τi,j(tk)代表着在互动关系ri,j在话题tk上的权重值。这样通过εu,vzu,v的计算,能够得到带有权重的互动关系的话题向量,即εu,vzu,v∈Rk,以此为用户关系的话题特征向量。

3.4 最终模型

本文在进行LDA模型训练的过程中,已经根据u-profile和微博内容得到了用户的兴趣话题分布及微博内容的话题分布,在此处可以将它们作为显性特征加入到模型的偏置中,从而得到最终的模型如式(7)所示。

(7)

其中,zu,zi∈Rk,分别代表用户u和微博i的k维话题特征,bk(u)和bk(i)是它们的偏置参数,通过训练得到。

4 实验分析

4.1 数据集

本文的实验数据采集自新浪微博,由Zhang[14]提供,首先随机挑选了100个用户作为种子用户,然后采集他们的关注用户,以此类推进行迭代采集,每个用户采集他们最近发表的1 000条微博内容。随后,本文依照表1的条件对用户进行了筛选,选择活跃的普通用户,具体筛选条件如表1所示。

根据这些条件,经过合并去重,我们挑选出538个用户及26 271个关注好友,将这些用户及他们关注的好友所发表的全部微博内容作为整体数据集,其中,每个用户关注好友的微博构成了该用户的浏览数据集。

表1 用户筛选条件

另外,在构建实验数据集的过程中,本文对微博内容进行了一些处理。

1) 扩充微博内容,将转发的原文内容与用户转发时的说明进行合并;

2) 过滤掉微博中包含的链接、@好友昵称、标点符号、停用词等。

经过这些处理,使得微博内容能够保持为高质量的文本内容。

为了构建训练集和测试集,需要对微博进行正负例标记,在实验中,本文与Chen[4]、Yan[15]保持一致,将用户对微博的打分考虑为二值情况,以用户转发过的微博作为正例,未转发的微博作为反例,则用户对微博的打分ru,i的计算方法如式(8)所示。

(8)

在实验过程中,需要对原始数据集进行切分,得到训练集、验证集和测试集,为了模拟用户的微博时间线,本文主要通过计算出切分时间点来对数据集进行切分,具体的做法是首先对原始数据集按照时间进行排序,对选中的538个用户,单独统计每个用户转发微博的数量,按照1∶5的切分比例计算出每个用户的切分时间点;再对每个用户的好友微博集合按照该时间点进行切分,从而实现在切分时间点之后的数据为测试集,切分时间点之前的数据作为训练集;最后再用同样的方法从训练集中按1∶5的比例切分出验证集。

4.2 评价指标

本文采用NDCG@n[16]和P@n以及MAP作为评价指标,NDCG@n的计算如式(9)所示。

(9)

其中,U是测试集中所有用户的集合,Nu表示用户集合的大小,公式内部第一个加和用来计算DCG的值,Zu表示对用户u的完美排序结果的DCG值,用来进行归一化处理,外部第二个加和用来对各个用户NDCG@n取平均值,从而得到最终的NDCG@n。

MAP的计算方法如式(10)所示。

(10)

其中,Iu是用户u的推荐结果集中真正被u转发过的微博集合,|Iu|表示该集合的大小,Piu是在i处的准确率。

4.3 实验结果及分析

本文通过平方损失函数来评估算法的误差,计算方法如式(11)所示。

(11)

其中S是存在评分的用户-物品对集合。所以本文提出的IBCF模型其优化目标函数的计算公式如式(12)所示。

(12)

对以上损失函数,可以采用最小二乘法或梯度下降来求解参数。本文通过NelderMead方法[17]来训练步长参数和正则化参数λ,实验过程中设定NelderMead的迭代次数为50次,在验证集来完成参数的训练,最后在测试集上用训练得到的参数进行结果预测。

接下来,本文首先在验证集上分析了IBCF模型受话题数量和时间衰减参数的影响,然后在测试集上与其他模型进行了最终的结果对比。

话题个数影响

由于本文中用户互动关系的话题特征数量直接与LDA话题数量的设定有关,所以我们在验证集上评估了IBCF模型在不同话题数量上的表现,如图2所示。 横坐标是话题的数量,纵坐标是IBCF模型在指标MAP上的值,从图中可以看出话题数量过少时,由于话题的表现不明显,导致模型效果很差,当话题数量到达50之后,能有较好的表现。

图2 IBCF在不同话题数量下的MAP表现

另外,本文的互动关系能从话题中得到直观的解释。以微博用户“1073599852”为例,根据u-profile的话题分布,可以看到他的兴趣主要集中在话题9、13、17上,然后根据r-profile计算得到的各话题上的联系最紧密的好友,如表2所示。

如表2所示,是微博用户“1073599852”在各话题上互动最紧密的好友列表,左侧WORD是话题的代表性词汇,数值是其话题概率,右侧FRIEND是在该话题上联系最紧密的好友ID,数值是用户和该好友在话题上的关系强弱。可以看到,在同一个话题上,不同的好友具有不同的关系强弱值。值得注意的是,可以看到有一些好友在各个话题上都有较强的关系,例如,好友1577826897、1630461754、1752543513等,其主要原因是用户与这部分好友的互动次数较高,远超过其他好友,从而使其在计算关系强度时具有较多的相关文档,这也可以解释为用户联系最紧密的好友在各个话题上相比于其他普通好友都会都有较高的关系权重,符合微博中的实际使用情况。而且根据我们的模型,即使其相对具有较高的关系权重,但在不同的话题上关系的强度值依然是有明显差异的,从而有利于对不同的话题进行区别对待。

衰减速度影响

本文考虑了互动关系的时间因素,将互动关系的强度定义成随时间逐步衰减。在实验过程中,有两个因素需要考虑: 首先是时间窗口的设定,用来控制模型的粒度;其次是参数β的调整,用来调节随时间衰减的速度。

选择合适的时间窗口直接关系到模型的粒度,时间窗口越短,计算的粒度就越小,时间敏感度也就越强。但并非越短越好,过短的时间窗口会导致计算量的急速增大,例如,选30分钟为时间窗口长度,则每隔30分钟都需要重新计算微博的时间衰减值,而当窗口长度选择为一天时,每天内的微博时间衰减值一致。另外,从现实角度考虑,也可以看到微博中用户与好友的关系应当是缓慢变化的过程,一段关系一般会维持较长的时间。本文在实验中选择以一天为时间窗口的长度。

表2 用户的话题表示及该话题上相关好友的关系强弱

另一方面,参数β调节着关系强度的衰减速度,由于本文假设用户关系较为稳定,随时间的衰减较慢,所以需要将衰减速度控制在较小范围内。β的值与数据集联系比较紧密,在本文实验中,由于选择了以一天为时间窗口的长度,则时间差的分布在1~365,所以在实验过程中,我们选取了较小的β值,测试了β值从0~0.02之间以0.001为步长的20个数值,并在验证集上分析了IBCF在这些β值上的MAP表现,实验效果如图3所示。

图3 不同衰减参数下IBCF在MAP上的表现

从图3中可以看到,在β值较小的情况下,IBCF模型表现较为稳定,在β值接近0.02后效果有明显下降,可能的原因是由于衰减过快,导致用户关系强度比较弱,最终只有最近的几个好友能产生明显的互动关系影响,有效的互动历史数据过于稀疏,从而使得模型效果有所下降。

模型效果比较

为了验证IBCF模型在微博推荐中的效果提升,本文将IBCF同以下几个经典模型进行了实验比较。

(1) Item-based KNN: 基于共同打分项的经典协同过滤模型,本文选用余弦相似度作为相似度的度量。

(2) LDA: 通过LDA模型计算每条微博的话题分布,然后根据用户以往转发微博与新微博的话题距离来计算用户对新微博的兴趣,计算方法如式(13)所示。

(13)

其中,Vu表示用户u转发的所有微博集合。

(3) RSVD: 考虑了偏置的SVD分解模型,能够有效融合全局偏置、用户偏置和物品偏置。

(4) SocialMF: 经典的社会化推荐模型,在矩阵分解模型中引入了用户社交关系,并考虑了用户关系的传递。

这些模型在测试集上的表现如图4所示。左侧是各模型在P@n及MAP指标上的表现,右侧是在NDCG指标上的表现,可以看出基于共同打分项的Item-based KNN算法表现较差,主要原因应该在于微博中数据极其稀疏,大多数微博内容都只有很少的转发,从而导致共同打分项数据较少。LDA模型由于考虑了微博的内容话题,推荐精度有所提高,RSVD通过矩阵分解使得MAP达到0.3259,SocialMF模型由于融合了用户的社交关系,其表现相对较好,MAP指标达到了0.3973。相比之下,本文提出的IBCF模型在矩阵分解模型的基础上,融合了用户互动关系的话题特征、内容特征、用户兴趣特征,在MAP指标上达到了0.4758,相比于传统的RSVD矩阵分解模型提高了45.99%,相比于基于用户社交关系的SocialMF模型也提高了19.75%。另外从NDCG指标表现上也可以看出IBCF模型相对于其他模型具有更好的表现。

图4 IBCF模型与各模型推荐结果比较

5 总结和展望

本文主要研究了微博用户的互动行为在话题上的分布,提出了话题相关的用户互动关系的度量方法,并将此方法应用到微博推荐中,提出基于互动话题的微博推荐模型IBCF。实验结果表明,通过挖掘用户好友的关系话题,IBCF模型能较好地提高微博推荐的效果。

从实验结果中,可以说明本文提出的基于用户互动关系话题特征的推荐模型IBCF能够有效提高社会化推荐模型的精度。这个结果也验证了用户互动关系在社交网络中的重要性,因为互动的行为能更准确地反映出用户与好友的共同兴趣。

本文接下来的主要工作是考虑将互动关系和用户社交关系融合起来,进一步提高推荐效果。

[1] Konstas I,Stathopoulos V,Jose J M. On social networks and collaborative recommendation[C]//Proceedings of the 32nd international ACM SIGIR conference on research and development in information retrieval. ACM,2009: 195-202.

[2] Ma H,Yang H,Lyu M R,et al. Sorec: social recommendation using probabilistic matrix factorization[C]//Proceedings of the 17th ACM conference on information and knowledge management. ACM,2008: 931-940.

[3] Jamali M,Ester M. A matrix factorization technique with trust propagation for recommendation in social networks[C]//Proceedings of the 4th ACM conference on recommender systems. ACM,2010: 135-142.

[4] Chen K,Chen T,Zheng G,et al. Collaborative personalized tweet recommendation[C]//Proceedings of the 35th international ACM SIGIR conference on research and development in information retrieval. ACM,2012: 661-670.

[5] Sinha R R,Swearingen K. Comparing Recommendations Made by Online Systems and Friends[C]//Proceedings of DELOS workshop: personalisation and recommender systems in digital libraries. 2001: 106.

[6] 彭泽环,孙乐,韩先培. 基于排序学习的微博用户推荐[J]. 中文信息学报,2013,27(4): 96-102.

[7] Pitsilis G,Marshall L F. A model of trust derivation from evidence for use in recommendation systems[M]. University of Newcastle upon Tyne,Computing Science,2004.

[8] Pitsilis G,Marshall L. Trust as a key to improving recommendation systems[M]. Springer,2005.

[9] O’Donovan J,Smyth B. Trust in recommender systems[C]//Proceedings of the 10th international conference on intelligent user interfaces. ACM,2005: 167-174.

[10] Lathia N,Hailes S,Capra L. Trust-based collaborative filtering[M]//Trust Management II. Springer US,2008: 119-134.

[11] Yang X,Steck H,Liu Y. Circle-based recommendation in online social networks[C]//Proceedings of the 18th ACM SIGKDD international conference on knowledge discovery and data mining. ACM,2012: 1267-1275.

[12] Hong L,Davison B D. Empirical study of topic modeling in twitter[C]//Proceedings of the First Workshop on Social Media Analytics. ACM,2010: 80-88.

[13] Paterek A. Improving regularized singular value decomposition for collaborative filtering[C]//Proceedings of KDD cup and workshop. 2007,2007: 5-8.

[14] Zhang J,Liu B,Tang J,et al. Social influence locality for modeling retweeting behaviors[J]. IJCAI’13,2013.

[15] Yan R,Lapata M,Li X. Tweet recommendation with graph co-ranking[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1. Association for Computational Linguistics,2012: 516-525.

[16] Järvelin K,Kekäläinen J. Cumulated gain-based evaluation of IR techniques[J]. ACM Transactions on Information Systems (TOIS),2002,20(4): 422-446.

[17] Lagarias J C,Reeds J A,Wright M H,et al. Convergence properties of the Nelder--Mead simplex method in low dimensions[J]. SIAM Journal on Optimization,1998,9(1): 112-147.

A User Interaction Topic Based Microblog Recommendation Algorithm

LU Xiao1,2,LI Peng3,WANG Bin3,LI Yingbo1,FANG Jing1

(1. National Computer Network Emergency Response Technical Team/CoordinationCenter of China, Beijing 100029,China;2. University of Chinese Academy of Sciences,Beijing 100049,China;3. Institute of Information Engineering,Chinese Academy of Sciences,Beijing 100093,China)

In contrast to the existing social relationship based micorblog recommendation,this paper analyzes the topic level of user interaction,and proposes a new method to measure the strength of this relationship. We infer the topic of the interaction relationship,and propose IBCF as an improved microblog recommendation model. Experimental results show that,compared with the current popular social recommendation methods,the proposed method performs better according to MAP and NDCG,generating more reasonable recommended results.

interaction relationship,Interaction topic,social recommendation,collaborative filtering,microblog recommendation

鲁骁(1986—),博士,工程师,主要研究领域为信息检索、个性化推荐。E⁃mail:luxiao@cert.gov.cn李鹏(1985—),博士,助理研究员,主要研究领域为信息检索、社交网络分析。E⁃mail:lipeng@iie.ac.cn王斌(1972—),博士,研究员,博士生导师,主要研究领域为信息检索。E⁃mail:wangbin@iie.ac.cn

2013-02-17 定稿日期: 2014-03-31

国家自然科学基金青年基金(61402466)

1003-0077(2016)03-0187-09

TP391

A

猜你喜欢

好友社交内容
内容回顾温故知新
社交牛人症该怎么治
聪明人 往往很少社交
社交距离
属羊
你回避社交,真不是因为内向
删除好友
主要内容
雪花特快专递