推荐系统及其相关技术研究

1 推荐系统的定义

推荐系统是一门交叉性的研究课题, 涉及认知科学、信息检索、电子商务、消费心理学等众多研究领域[1]. 推荐系统根据用户的爱好和需求, 使用某种推荐策略向用户推荐适合的对象[2-4]. 推荐系统的规范定义如下[5]: 令C为所有用户的集合, S为所有可供推荐的对象的集合. 令u为度量对象s对用户c有用性的效用函数, 即 u: C×S→R, 其中R为非负实数的有限序集. 对每个用户c∈C, 系统理论上应推荐效用度最大的对象s’∈S:

由于u可由用户对已尝试对象的评分来表示, 所以推荐系统可以根据评分来推测用户对未尝试对象的评分,然后向用户推荐预测评分最高的对象. 常用评分推测方法有机器学习和逼近理论等.

2 推荐系统分类

根据对效用度u不同的定义和获取方式, 可将推荐系统分为基于内容(content-based)、基于协同过滤(Collaborative Filtering, CF)和混合型(hybrid)等三类推荐系统.

2.1 基于内容的推荐系统

基于内容的推荐系统通过分析用户尝试过且喜爱的对象来推荐其它相似的对象. 内容通常表示为该对象的多个关键字, 如一本书的作者、出版日期等. 对象s对于用户c的效用度u可以用其关键字权值表示, 如词频/

倒排文档频率(TF-IDF).

对象oj的内容可以定义为一个关键字权值向量: Content(oj)=(w1j,…, wkj). 该向量可表示基于内容的用户模型(ContentBasedProfile). 效用函数u(c, s)可定义为公式2[5], 系统优先推荐效用度大的对象. 其中score的计算方法有多种, 如余弦夹角向量距离[6].

u(c, s)=score(ContentBasedProfile(c), Content(s)) . (2)

除基于预定义的效用公式外, 数据挖掘技术可从数据中获取模式(model)从而实现基于内容的推荐. 常用的数据挖掘技术有贝叶斯分类器[7]、决策树以及人工神经网络等[8].

虽然基于内容的推荐算法简单易行且不依赖于用户的历史消费记录, 但存在着内容分析与特征提取难、推荐过于相似缺乏新意、对新用户的推荐质量不高等问题[9-11].

2.2 基于协同过滤的推荐系统

协同过滤推荐算法主要利用兴趣类似的其他用户(peer)的评分来做推荐[12]: 根据peer用户cj∈C的效用度u(cj, s’)来推测对象s对于用户c的效用度u(c, s). 该类推荐系统可分为启发式和基于模型两类.

2.2.1 启发式的协同过滤推荐系统

启发式推荐算法首先找到用户c的peer用户, 对他们对对象s的评分做聚集, 据此预测用户c对该对象的评分rc,s[3,5]. 常用的聚集方法有均值、加权求和等. sim(c, c’)用于计算用户c和c’的相似度, 常用的相似度度量方法有Pearson关联系数[13]和向量余弦距离[6]. 当用户评分较少时, 用户相似度计算可能误差较大, 因此文献[14]建议通过为未评分对象预设评分来提高评分预测的精确度.

2.2.2 基于模型的协同过滤推荐系统

基于模型的算法利用已有用户评分集训练一个模型, 然后用概率统计的方法进行评分预测: Pr表示用户为对象s给出某分数的概率. 文献[14]提出了两种概率预测方法: 利用k-means等聚类方法将相似用户聚类, 或将每个用户看作贝叶斯网络中的一个结点, 每个结点的状态代表用户对每个对象可能的评分值. 其他基于模型的方法还包括机器学习和线性回归等.

虽然基于协同过滤的推荐系统不受内容分析技术的限制, 可以用于任何内容的推荐, 但也存在着对新用户的推荐质量不高、没有足够评分的新对象无法得到推荐、评分稀疏性等问题[15-16].

2.3 混合型推荐系统

为了充分利用不同推荐方法的优势, 提高推荐精度和效率, 研究人员对基于内容和协同过滤的方法进行整合, 提出了混合型推荐系统[17]. 根据不同的组合方式, 混合型推荐系统可分为三类:

1) 分别进行基于内容和基于协同过滤的推荐, 然后利用线性组合或投票机制对推荐结果进行融合[18].

2) 将一种方法的某些策略融入另一种方法中. 例如, 在基于协同过滤的推荐方法中利用对象基于内容的相似度来计算用户相似度[19], 从而解决稀疏性问题.

3) 将两种方法做前期融合得到一个统一的推荐结果. 常用的融合方法有基于规则的判决器和概率模型等.

3 推荐系统的改进

推荐系统已得到了快速发展, 但还应进一步改进以满足复杂的实际需求[20]. 我们认为应着重从以下几方面进行改进:

3.1 结合上下文信息

在推荐方法中加入上下文信息可以有效地提高推荐的质量. 其中, 用户消费记录是一类重要的上下文信息.

3.2 支持多标准推荐算法

现有推荐系统大多将评分作为唯一的推荐指标. 但实际应用中应将影响用户决策的多种因素都纳入考虑范围[21]. 以旅游景点推荐为例, 假设流行度poc(r)、价格prc(r)和开放时间opn(r)是影响景点选择的三大因素, 其中流行度是最重要的因素. 则推荐景点转化为找到poc(r)最大的景点r, 且r满足用户定义的价格和开放时间的约束条件.

3.3 加强用户控制

大多数现有推荐系统根据预设的用户个人信息和需求自动生成多个推荐, 在一定程度上限制了用户的参与性以及对推荐结果的控制. 系统应允许用户参与参数的定义与修改. 例如, SatisFly[22]音乐推荐系统允许用户定义歌曲流派、节奏等约束条件.

推荐系统可以通过相关度反馈机制来更新用户的实时需求, 例如通过用户对推荐的评价来显式地收集用户反馈信息. 该方法简单易实现, 但需要用户投入. 隐式反馈方法通过跟踪用户操作(例如购买记录、浏览记录等)隐式收集用户需求. 虽然不需要用户的额外投入, 但从收集数据中提取出有用信息是比较耗时的.

3.4 精度vs.多样性

用户对推荐质量的判断是主观的, 而且受个人心情、环境等因素的影响较大. 因此, 如何对推荐质量做出客观评价是推荐系统的难点之一. 精确度是现有评价机制的常用标准. 然而用户满意度并不完全取决于算法精度[23-24].因此, 推荐系统在保证精度的同时应考虑推荐的多样性, 例如限制相同对象不能被重复推荐.

3.5 加强交互界面设计

系统界面是影响用户满意度的重要因素. 现有推荐系统大多数致力于推荐算法的改进, 很少关注界面问题.文献[26]对比三个推荐系统发现在界面友好的系统中, 用户愿意主动提供更多的信息以换取高质量的推荐.

推荐算法的透明度是影响用户满意度的另一重要因素[25]. 现有系统大多只提供推荐排名, 缺乏对推荐产生原因的解释. 利用多维信息可视化技术对推荐结果做出直观易懂的图形解释[26]可以帮助用户理解推荐产生的原因.

3.6 支持包推荐模式

对推荐过程建模是推荐系统的一个新兴研究热点[27]. 现有推荐系统大多自动推荐多个独立的对象. 但在多个对象相互关联的应用中, 例如设计音乐播放列表、菜单或旅游线路时, 需要内含多个关联对象的推荐包. 文献[31]提出了包推荐的概念, 并介绍了影响包推荐质量的三大因素: 单个对象的推荐价值、多个对象的共现率以及推荐对象在集合中的顺序.

基于包推荐模式, 我们提出了渐进式推荐系统的概念[28]: 推荐流程被分解为数个连续的子步骤, 系统在每个步骤中根据用户需求生成推荐, 由用户决定加入最终方案的对象, 用户的选择会影响系统在后续步骤中的推荐. 这种渐进式的推荐模式将系统智能和用户决策有效地结合起来. 目前该概念已应用于旅游路线推荐[29]和音乐列表推荐[30], 实验结果表明用户对系统主动实时的控制可以提高推荐质量, 得到了用户的普遍好评.

4 总结与展望

在对现有推荐系统广泛调查和深入分析的基础上, 本文提出了几个改进方向: 结合上下文信息; 支持多标准的推荐算法; 考虑推荐的多样性, 向用户提供新颖的推荐; 加强交互式界面设计, 提高系统逻辑的透明度; 考虑到用户的多样性, 系统应提供多种推荐模式; 在多个推荐对象顺序关联的应用中, 系统应支持包推荐模式. 我们相信这些策略有助于提高推荐系统的推荐质量, 激发用户的参与性, 增强推荐系统的可用性.

[1] 周惠宏, 柳益君, 张尉青, 等. 推荐技术在电子商务中的运用综述[J]. 计算机应用研究, 2004, 21(1): 8-12.

[2] RESNICK P,VARIAN H R. Recommender systems[J]. Communications of the ACM, 1997, 40(3): 56-58.

[3] 许海玲, 吴潇, 李晓东, 等. 互联网推荐系统比较研究[J]. 软件学报, 2009, 20(2): 350-362.

[4] 黎星星, 黄小琴, 朱庆生. 电子商务推荐系统研究[J]. 计算机工程与科学, 2004, 26(5): 7-10.

[5] ADOMAVICIUS G,TUZHILIN A. Towards the next generation of recommender systems: a survey of the state-of-the-art and possible extensions[J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(6): 734-749.

[6] SALTON G. Automatic text processing[M]. USA: Addi-son-Wesley, 1989.

[7] DUDA RO, HART P E, STORK D G .Pattern classification[M]. 2nd ed.USA: John Wiley & Sons,2001.

[8] PAZZANI M, BILLSUS D. Learning and revising user profiles: the identification of interesting web sites[J]. Machine Learning, 1997, 27: 313-331

[9] 林霜梅, 汪更生, 陈弈秋. 个性化推荐系统中的用户建模及特征选择[J]. 计算机工程, 2007, 33(17): 196-198.

[10] 吴丽花, 刘鲁. 个性化推荐系统用户建模技术综述[J]. 情报学报, 2006, 25(1): 55-62.

[11] AUCOUTURIER J J, PACHET F. Music similarity measures: what’s the use? [C]// Proceedings of the International Society for Music Information Retrieval, Paris, France, 2002.

[12] 王志梅, 杨帆. 基于相似学习者发现的资源推荐系统[J]. 浙江大学学报: 工学版, 2006, 40(10): 1688-1791.

[13] SHARDANAND U,MAES P. Social information filtering: algorithms for automating ‘word of mouth’[C]// Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, Denver, Colorado, USA, 1995. New York,NY, USA: ACM Press,1995.

[14] BREESE J S, HECKERMAN D, KADIE C. Empirical analysis of predictive algorithms for collaborative filtering[R]. Redmond, WA, USA: Microsoft Research,Technical Report: MSR-TR-98-12,1998.

[15] PAZZANI M. A framework for collaborative, content-based and demographic filtering[J].Artificial Intelligence Review, 1999, 13(5-6): 393-408.

[16] BILLSUS D,PAZZANI M. Learning collaborative information filters[R]. AAAI Technical Report: WS-98-08,1998.

[17] BALABANOVIC M,SHOHAM Y. Fab: content-based,collaborative recommendation[J].Communications of the ACM, 1997, 40(3): 66-72.

[18] CLAYPOOL M, GOKHALE A, MIRANDA T, et al. Combining content-based and collaborative filters in an online newspaper[C]// Proceedings of ACM SIGIR Workshop on Recommender Systems: Algorithms and Evaluation, California, USA, 1999. New York,NY,USA: ACM Press, 1999.

[19] BASU C,HIRSH H, COHEN W. Recommendation as classification: using social and content-based information in recommendation [C]// Proceedings of the Fifteenth National Conference on Artificial Intelligence, USA, 1998.

[20] 许敏, 邱玉辉. 电子商务中推荐系统存在的问题及其对策研究[J]. 计算机科学, 2001, 28(4): 122-124.

[21] ADOMAVICIUS G, SANKARANARAYANAN R, SEN S, et al. Incorporating contextual information in recommender systems using a multidimensional approach[J]. ACM Transactions on Information Systems, 2005, 23(1): 103-145.

[22] ADOMAVICIUS G,TUZHILIN A. Multidimensional recommender systems: a data warehousing approach[C]// Proceedings of the 2nd Int’l Workshop on Electronic Commerce, London, UK, 2001. Berlin/Heidelberg: Springer Verlag, 2001: 180-192.

[23] PAUWS S, VAN DE WIJDEVEN S. User evaluation of a new interactive playlist generation concept[C]// Proceedings of the International Society for Music Information Retrieval, London, UK, 2005.

[24] BERENZWEIG A, LOGAN B, ELLIS D P W, et al .A large-scale evaluation of acoustic and subjective music si-milarity measures[J]. Computer Music Journal, 2004, 28(2): 63-76.

[25] SWEARINGEN K, SINHA R. Beyond algorithms: an HCI perspective on recommender systems[C]// Proceedings of ACM SIGIR Workshop on Recommender Systems, 2001. New York,NY,USA: ACM Press, 2001: 1-11.

[26] HERRERA P, BELLO J, WIDNER G.SIMAC: semantic interactions with music audio contents[C]// Proceedings of Workshop on Integration of Knowledge,Semantics and Digital Media Technology, London, UK, 2005.

[27] SHANI G, BRAFMAN R, HECKERMAN D. An MDP-based re-commender system[J]. Journal of Machine Learning Research, 2005, 6(2005): 1265-1295.

[28] CHEN Y X. Exploratory Browsing: enhancing the browsing experience with media collections[D]. Munich,Germany: University of Munich, 2010.

[29] KECK S. Incremental personalized trip planning system[D]. Munich,Germany: University of Munich, 2009.

[30] BAUR D, BORING S, BUTZ A. Rush: repeated recommendations on mobile devices[C]//Proceedings of the 15th Inter-national Conference on Intelligent User Interfaces, HK, China, 2011. New York, NY, USA: ACM Press, 2011.

Survey of recommender systems and relevant techniques

CHEN Ya-xi, LIU Tao, FANG Shi-hong

(Southwest University for Nationalities, Chengdu 610041, P.R.C.)

Based on the definition and classification of RecSys, this paper identifies several limitations of existing techniques and proposes corresponding solutions. These strategies will substantially improve the quality of recommendations, stimulate user participation, and hence enhance the applicability of RecSys in a broader range of usages.

recommender system; personalization; E-Commerce; collaborative filtering

TP391.3

: A

: 1003-4271(2014)03-0439-04

10.3969/j.issn.1003-4271.2014.03.21

2014-03-12

陈雅茜(1981-), 女, 四川雅安人, 副教授, 博士, 研究方向: 人机交互、推荐系统.

2014年国家外专项目; 西南民族大学中央高校基本科研业务费专项资金(青年教师基金项目)(13NZYQN19); 西南民族大学2013年教育教学改革项目(2013ZC70); 西南民族大学中央高校基本科研业务费专项资金(优秀科研团队及重大孵化项目) (13NZYTD02); 西南民族大学中央高校基本科研业务费专项资金(青年教师基金项目)”(12NZYQN16).