APP下载

海量学术资源个性化推荐综述

2018-02-07刘柏嵩王洋洋

计算机工程与应用 2018年3期
关键词:个性化学术建模

刘 伟,刘柏嵩,王洋洋

1.宁波大学 信息科学与工程学院,浙江 宁波 315211

2.宁波大学 图书馆与信息中心,浙江 宁波 315211

1 引言

随着进入大数据时代,海量的学术资源(论文、图书、会议预告、学术新闻、专利和学术博客等)出现在互联网上,虽然满足了用户对学术资源的基本需求,但是也使得用户需要花费大量的时间来获取对自己真正有用的学术资源,这就是所谓的信息超载问题。

目前,大多数用户是通过使用关键字搜索来解决信息超载问题,但由于关键字搜索所固有的局限性导致用户的多元化和个性化需求难以得到满足[1]。人们急需寻找一种更高效的解决方法。

学术资源个性化推荐技术的发展为这一问题的解决带来了突破性进展。学术资源个性化推荐是根据用户信息描述用户兴趣特征建立用户兴趣模型,根据学术资源描述推荐对象特征建立推荐对象模型,然后采用相应的推荐算法将用户兴趣模型和推荐对象模型进行匹配,为用户推荐其感兴趣的学术资源的一项技术。学术资源推荐流程如图1所示。

早在20世纪90年代,人们已经开始对学术资源推荐进行研究。Giles等人1998年推出第一个论文推荐系统[2]。亚马逊推荐系统则是最著名的致力于图书推荐的系统。而对于会议预告、学术新闻、专利和学术博客等学术资源推荐的研究,目前仍处于空白。

本文以论文和图书两类学术资源的个性化推荐相关研究为研究对象,根据学术资源个性化推荐的过程,对用户建模、对象建模和推荐策略等内容进行逐步分析,最后对学术资源个性化推荐未来研究的重点和发展方向进行大胆的预测。

2 学术用户画像

为了能够更准确地进行个性化推荐,那么在推荐之前,需要准确地描述用户的兴趣特征,刻画理想的用户画像。用户模型的好坏对推荐来说至关重要。在进行学术用户画像的过程中,要格外注意下面三个方面的问题。

2.1 学术用户类型

只有深入了解用户,才能建立理想的用户模型。特别地,在学术领域更具特殊性。与商业领域的推荐不同,在学术领域进行推荐,用户的身份对推荐结果有极其重要的影响。但是大多数研究都将用户的身份等同处理了,这也是目前学术推荐领域的一个缺陷。通过分析,本文将用户按照在某一领域或某一研究方向发表论文数量分为初级用户、中级用户和高级用户三个不同科研层次的对象。

初级用户,即将要或刚刚涉足于某一领域或某一研究方向的用户。对于初级用户而言,理解前沿的文章会很困难。这一领域的“经典文献”对他们更加重要,而且能够给予他们的帮助也更大。

中级用户,即在某一领域或某一研究方向初步取得了科研成果的用户。对于这些人,不需要刻意为他们推荐“经典文献”,而应该根据他们发表的论文去判断他们的兴趣和研究方向,为其推荐与他们兴趣和研究方向类似的高质量的论文或前沿进展。

高级用户,即在某一领域或某一研究方向已经取得巨大的研究成果,已经可以说是这一领域权威性专家的用户。对于高级用户,他们喜欢在不同领域的科研成果的碰撞中触类旁通,得到新的灵感。为他们推荐的学术资源需要更注重该领域的前沿进展,或者推荐其他相关领域的高质量的科研成果。

对于中级用户和高级用户,还存在一种特殊情况。他们关注某一感兴趣的科研人员,对这一科研人员发布的任何信息,他们都想要去获取。针对这种情况,需要个性化推荐策略能够建立“权威专家”,这能够更加凸显推荐的个性化。

不仅如此,在这些用户中,还存在一批特殊的用户,即企业的科研人员。这些人注重于专利。这要求推荐策略能够准确地定位用户身份。

2.2 兴趣特征获取和描述

首先,用户兴趣特征的获取分为显式获取和隐式获取两种。

显式获取兴趣特征的方法一般就是收集用户的基本信息,如姓名、年龄、受教育程度、职业、用户自己选择的学科或领域或者用户自己输入代表兴趣的关键词。这种方法简单、直接,而且往往比较可靠。但是,这一方法灵活性差,表述存在异质性,用户兴趣改变需要手动更改,导致这一方法的时效性和准确性难以保证。此外,在学术领域,用户往往也是生产者,能够通过挖掘用户发表过的文章,对其进行特征描述[3]。

隐式获取兴趣特征的方法就是通过跟踪用户的行为,然后根据用户“互动”(收藏[4-5]、打标签[6]、下载[7]、阅读和浏览[8]或引用[9]等行为)的对象推测用户的兴趣偏好。即,对用户“互动”的论文提取关键词进行分析,推测用户的兴趣。这种方法减少了用户不必要的负担。缺点就是会产生大量的计算。

图1 学术资源推荐流程

其次,通过TF-IDF处理关键词描述用户兴趣特征是最流行的方案。也有人提出用标签、兴趣本体、领域知识、用户背景、学习目标和认知模式等[10-13]各方面来描述用户的兴趣特征。

另外对于用户特征描述,不仅要考虑用户的长期兴趣偏好,还要考虑用户的短期兴趣偏好。目前在学术领域,大多数都是建立的静态模型,只关注了用户的长期兴趣,对于短期兴趣的关注还是比较少的。用户兴趣和需求的变化是影响用户特征描述的重要因素[14]。

2.3 学术用户建模

学术用户建模方法主要有基于向量的建模、基于主题模型的建模及基于本体的建模。

(1)基于向量的建模

基于向量的建模是指利用一组特征词的向量表示用户兴趣偏好模型。其中,特征词可以是用户的元数据信息,也可以是用户的行为数据信息。单纯采用特征词描述的方法无法准确描述用户偏好。为了克服基于向量建模的这一缺陷,基于词频-逆文档频率(TF-IDF)[15]的向量表示法是一种改进的建模法。该方法赋予特征相应的权值,对出现频率高的特征赋予较高权值,出现频率低的特征赋予较低权值。此方法法可反映每种特征的重要程度,是目前比较流行的描述用户兴趣方案。

(2)基于主题模型的建模

(3)基于本体的建模

本体[18]是对客观世界中抽象出来的某些概念的明确的形式化描述,它包含了事物的种类、性质等信息并且反映出事物间的关系。基于本体的建模基本思想是通过一个本体概念向量来描述用户兴趣特征,模型通常是树形层次结构的组织形式,树的一个节点代表用户的一个兴趣类。

3 学术资源建模

不同的领域,推荐对象不同,如何对推荐对象进行建模也是一个重要的问题。

3.1 文本类型学术资源建模

学术资源主要是文本类型的,在描述推荐对象方面,主要有两大类方法,基于内容的方法和基于分类的方法。

3.1.1 基于内容的方法

目前,文本类对象特征提取技术相对比较成熟,在学术领域,大多数都是采用基于内容的方法从推荐对象本身进行特征提取,用提取的特征词来进行对象建模。

这些建模方法主要分为两种,一种是使用简单的词语作为特征词描述对象特征。这些方法中有些方法直接使用索引词[6,19]、主题词[20],以及从通过潜伏狄里克雷分类[21]或机器学习生成的文献参考语料库(ACL或ARC)中引用的概念词[21]作为特征词。另一种是通过提取特征词描述对象特征。这些特征词主要是从标题[22]、摘要[20,23-24]、引言[25]、介绍[26]、前言[26]、作者提供的关键词[23,26-27]和参考书目[28]以及论文的正文[19,29]等内容中提取的。有一些方法也会从外部来源如社会标签[27],ACM分类树和DMOZ目录[30-31]和引文上下文[24,29]等内容中提取特征词。

此外,还有一些方法是利用非文本特征进行推荐。例如:利用引用特征的CC-IDF方法[25]或者改进的CCIDF方法[4,28],以及利用共同作者的数量的推荐方法[32]。

川酒生态酿造的产品需要通过生态化的方式来消费[18]。生态消费是一种绿化的或生态化的消费模式,它是指既符合物质生产的发展水平,又符合生态生产的发展水平,既能满足人的消费需求,又不对生态环境造成危害的一种消费行为[19]。目前,相关研究已发现白酒中存在大量的健康因子。“适量饮酒,有益健康”已是所有白酒行业的共识[20]。川酒行业目前正积极引导消费者生态消费,提倡一种健康、文明、和谐的饮酒方式,在川酒的消费过程中加入生态的理念,将饮酒过程转变为生态消费过程。同时,生态酿酒产业的发展为白酒的生态消费提供了强有力的技术支撑[21]。

对于一些特殊的论文,也需要采用一些特殊的方法进行描述。比如,“经典论文”的推荐。这类论文不会因为时间而沉寂。利用下载持久性原则和引用传递性原则[33]就能够很好地区分出这些论文。“经典论文”的推荐还能够在一定程度上解决用户冷启动问题[34]。

3.1.2 基于分类的方法

基于分类的方法是通过利用文本分类的方法将推荐对象分到不同的类别(如:学科)中,然后将同类的对象推荐给对此类对象感兴趣的用户。文本分类技术也比较成熟,此类方法有很多种,例如朴素贝叶斯(Naiva-Bayes),k最近邻方法(KNN),支持向量机(SVM)和深度神经网络(DNN)等。使用基于分类的方法进行推荐对象建模,可以预先定义推荐对象的类别,也可以利用聚类技术自动产生[35]。

3.2 其他类型学术资源建模

随着计算机科学技术和信息技术的发展,学术资源除了文本类型之外,还有图片、图像、影像、语音等多种形式。利用传统的推荐算法进行资源推荐,主要用到资源对象的描述信息,这些信息通常是由人工设计[36],将颜色、形状、纹理和结构转化为单一全局表达来描述资源内容。随着深度神经网络取得突破性进展,近年来大部分研究使用主题模型(LDA),或者使用基于深度学习模型的方法进行推荐[37]。

4 学术资源个性化推荐的推荐策略

推荐策略是整个推荐流程中最关键的模块,一个推荐策略的优劣直接决定了最后推荐结果的好坏。截止到目前为止,被提出的推荐策略有很多。经过分析,学术资源个性化推荐策略基本上包括以下几类:基于内容的推荐、协同过滤推荐、基于网络结构的推荐、基于社交网络的推荐、基于关联规则的推荐、混合推荐、基于深度学习的推荐。

4.1 基于内容的推荐

基于内容的推荐(Content-based Recommendation)也叫基于内容的过滤(Content-based Filtering,CBF),是应用于学术资源推荐领域最主要的推荐策略[38]。基于内容的推荐方法最早是应用于信息获取领域[39]。该方法的主要思想是根据用户的交互项目,从推荐对象中选择与用户交互项目相似的对象作为推荐结果。此方法适用于所有类型学术资源的个性化推荐。

现有基于内容的学术资源推荐算法更多是注重分析学术资源内容属性进行推荐的,如Wang等人基于学术资源内容,结合权威性、受欢迎程度和新鲜度等资源特性为用户推荐学术资源[40];Younus等人则是基于资源内容将其主题模型用于微博数据,向初级研究者推荐其研究领域的最新科技论文[41]。

更深层的学术资源推荐算法是结合学术资源属性特征构建用户模型,Guan等人通过合并元数据,如标题、关键字、摘要和引用来加强科学文献的语义信息,使用每个术语的tf-idf值来为每个科学文献建模,并使用不同权重的主题词向量来构造用户兴趣模型,以提升推荐的准确性[42]。

基于内容的推荐策略存在两个关键部分:一个是用户互动对象的确定;另一个是互动对象的内容特征描述。

用户和对象之间的“互动”通常就是用户行为[43]。

关于内容特征的描述,采用基于内容的方法。但是提取特征词的过程中会存在一个问题,从论文不同区域提取的特征词权重是不相同的[44]。例如,标题中出现的特征词通常比正文中出现的特征词更有意义。

基于内容推荐的优点如下:

(1)不需要评分数据,不存在数据稀疏性问题。

(2)对于新对象也不存在冷启动问题。

(3)拥有比较成熟的分类学习算法为该策略提供技术支持。

(4)能够自动创建用户模型,不需要大量的前期分类工作。

该方法也存在不能推荐跨领域跨学科的学术资源[45]、计算量大等不足。此外,这类方法比较注重资源的推荐,一般采用在某一个周期以主题、期刊的方式进行推送,商业数据库之间的资源需要分别推荐,百度学术目前虽然做到整合类期刊、图书资源以主题订阅的方式进行推送,也未能实现对用户进行个性化、实时推荐。另外这些研究主要基于关键词的向量空间模型或者主题模型描述项目和用户兴趣特征,向量空间模型往往并不能准确地反映有关用户兴趣和偏好的语义范畴信息。并且,在面向多类型学术资源的场景中,不同类型学术资源的主题模型有所区别,传统基于内容的学术资源个性化推荐显得适应性不足。

4.2 协同过滤推荐

协同过滤推荐(Collaborative Filtering Recommendation,CF)在个性化推荐领域是最成功的策略。基本理论是,用户喜欢具有相同兴趣的用户喜欢的东西,当两位用户评价相同项目时,两位用户被认为是具有有相同兴趣的。当具有相同兴趣的用户被识别时,将一个用户感兴趣的项目推荐给其他用户,反之亦然[46]。此方法适用于存在大量用户行为数据时的学术资源推荐。

在学术推荐领域,协同过滤的应用要比基于内容的推荐少。出现这种情况的主要原因是CF需要用户的参与,但在学术推荐领域用户参与的动力往往不足[8,47]。这种情况造成了“冷启动”问题,这种问题可能发生在以下几种情况中:(1)新用户,一个新的用户打分的项目很少或没有,找不到有相同兴趣的用户。(2)新项目,项目是新的,还没有被至少一个用户打分。(3)新社区或学科,一个新的社区,用户对项目打分的动力很少,导致的结果就是没有用户对项目打分。

在基于协同过滤的资源推荐领域中,主要是基于传统协同过滤算法进行资源推荐工作,Yu等人基于用户阅读文献的语义分析建立用户文档,通过传统协同过滤方法找到相似的用户文档并预测用户兴趣,实现个性化推荐[48]。这类推荐算法的准确性容易受到数据稀疏和冷启动问题的影响,为此Kai等人通过融合用户评分项目和用户评分项目的类型计算用户相似度,并设计了相应的协同过滤算法来提高推荐结果的准确性[49];Niu等人利用三种不同类型信息(users,items,user-items)应对数据稀疏问题,并预测项目评分,产生高质量的推荐结果[50];Seo等人提出融入朋友间亲密关系到推荐模型中,为同兴趣主题下的新用户推荐资源[51]。

协同过滤推荐的优点:

(1)不需要对推荐对象进行容错处理[52]。

(2)考虑了推荐对象的质量[53]。

(3)能够发现用户新的兴趣点[54]。

(4)不需要专业知识对学术资源进行分类。

(5)用户越多,性能越好。

协同过滤推荐研究在两个方面存在明显不足。一方面,这些研究主要利用用户的显式和隐式行为数据进行用户兴趣建模,容易出现数据稀疏问题;另一方面,这些研究往往基于静态的场景,在用户数据不断更新、用户需求不断变化的情况下,难以应对学术资源在线移动推荐的真实需求。

4.3 基于网络结构的推荐

基于网络结构的推荐策略不考虑用户和推荐对象的内容,而是把用户和推荐对象抽象为节点,而用户选择了某一推荐对象就会在用户和对象之间存在选择关系,此策略认为信息就隐藏在这种选择关系中。此方法不仅能够利用单类型数据进行推荐,而且能够利用多类型异构信息进行推荐。

该策略的基本思想:通过学术资源之间存在的固有联系,构建图形网络,展示学术资源之间是如何连接的。建立图形网络后,使用网络来查找推荐候选项目。通常,输入一篇或多篇论文,然后根据这些输入的论文构建图形网络,在图形网络中进行随机游走找出最受欢迎的项目[23]。

图形网络中包含作者[22,55]、用户/客户[26]、场景[22]、关键词和特征词[22,55]、论文发表年份[22]。根据图形网络中的实体,实体之间的联系可以是引用[22,56]购买[26],“发表在”关系[22],共同作者[55],特征词之间的相关性[55],或者论文中特征词的同现关系[22]。例如,Chakraborty等人在由查询文献的引用和内容相似属性构成的感应子网上建立随机游走基础框架,向用户推荐某些类别的科技论文[57];Pan等人则是基于引用关系和学科内容知识构建异构图,采用一种基于图的相似性学习算法实现学术论文推荐[58]。另外,一些作者还根据非固有关系进行实体的连接。例如,文本相似性[26,59]。此外,有的连接是基于属性相似性,书目耦合,共引用强度[26,59]或人口统计学相似性[26]。

基于网络结构的推荐的优点:能够推荐较偏门领域的学习资源;能够部分地解决学术资源数据稀疏性问题。至于该策略的缺点:存在重复属性,这会影响推荐的精确度。

4.4 基于社交关系的推荐

基于社交关系的推荐是把社交网络分析理论应用于推荐系统的一类方法。基于社交关系的推荐是一个特别注重协同关系的个性化推荐策略。在个性化推荐中,用户之间的关系是非常能凸显用户兴趣特征的因素,但是在传统的个性化推荐算法中,将所有的用户都是等同看待的,这种处理方式忽略了用户间真实的社交关系。对于学术资源的推荐来说,其本身就具有一定的特殊性,比如,用户在学术社交网络中的朋友,可能是自己的学生,可能是自己科研团队中的成员,还有可能是自己关注领域的权威人物,这就使得不同人相关的学术资料对于用户的价值是不一样的。这种真实的社交关系对于学术资源的个性化推荐影响更大。

在学术领域,基于社交关系的推荐是利用用户的学术关系,属于基于作者的推荐。基于作者进行学术资源推荐的对象主要是科研文献,通过科研社交网络或者论文中的共著关系、引用关系等信息,挖掘研究兴趣相似的科研人员,并相互推荐研究相关的科研文献。刘先红等利用科研社交网络推荐系统向科研人员推送个性化信息解决信息过载问题[60]。基于作者的推荐方法,一方面基于作者、社交信息和共引关系等进行学术资源推荐,例如,Xia等人基于研究人员经常搜索同一作者发表的文章,提出通过对文章之间的共同作者关系信息来确定推荐的目标研究者,提升推荐效果[61];Zhao等人通过弥合作者背景知识和研究目标之间的知识差距为研究人员推荐有用的资源[62];Alotaibi等基于隐式科研社交网络关系,共同读者关系和标签行为关系提出三种个性化论文推荐算法[63]。另一方面,结合模型和社交关系进行学术资源推荐,例如,Guo等提出基于核的协同主题回归模型,利用高斯过程和核函数捕捉数据之间的非线性社交关系为用户推荐论文标签[64];Wang等基于经典的论文推荐模型CTR(Collaborative Topic Regression)[65],随后Wang等基于CTR模型又提出一种新的贝叶斯层次模型RCTR(Relational Collaborative Topic Regression)[66],引入论文之间的社交网络结构关系为科研人员推荐论文标签。

基于社交关系推荐能够提供更加个性化的推荐结果。但是这方面的研究都是通过社交网络个人信息和科研文献中信息,构建作者的研究兴趣模型,并根据该模型推荐相关文献,但是如果用户之前没有发表过文章,则无法有效建立该用户的研究兴趣模型。而且用户的论文发表主题也具有一定的随机性和可变性。此方法适用于基于作者的学术资源个性化推荐。

4.5 基于关联规则的推荐

关联规则是一种非常有效的数据挖掘和机器学习技术,是描述两个或者多个对象之间某种潜在的特征关系规则。它的基本思想是从大量的数据中挖掘出能够描述数据项之间相互联系的有价值的知识。关联规则的推荐大致分为两个步骤,第一步,挖掘及制定一系列的规则,然后利用规则来分析计算资源间的关联性;第二步,通过分析用户的行为及偏好,然后根据事先制定的规则向用户进行推荐。此方法能够通过关联规则挖掘用户和学术资源的潜在关系进行个性化推荐。

学术资源的关联挖掘指的是利用用户的历史访问记录来发现资源之间的关系,从而完成信息的推荐服务[67]。也有直接挖掘用户资料的关联规则进行推荐[68]。例如,Anh等人利用马尔可夫链模型发现关键字之间的各类关联关系,并将关键字作为基本元素向用户推荐更多该主题下的论文[69]。

关联规则推荐的优点:

(1)不需要领域的相关知识,能够挖掘用户潜在的兴趣点。

(2)能够发现不同领域的学术资源之间的关联,提供新鲜的资源推荐。

关联规则推荐的缺点:

(1)运算性能问题。

(2)推荐的个性化程度比较差。

(3)关联规则侧重于发现不同类别的对象之间的关联。

4.6 混合推荐

各种推荐方法都有各自的优缺点。在实际应用中可以针对具体问题采用推荐策略的组合进行推荐,即所谓的组合推荐。组合推荐的目的是通过组合不同的推荐策略,达到扬长避短的目的,从而产生更符合用户需求的推荐。根据应用场景的不同,这种组合方法也会不同,目前主要的混合方式可以分成两种:

(1)推荐结果进行组合:这是一种最简单的混合方法,分别用两种或两种以上的推荐方法产生推荐结果,然后采用某种算法把推荐结果进行混合而得到最终推荐[56]。

(2)推荐算法进行组合:将两种或多种推荐策略进行组合以实现个性化推荐[70-71]。

4.7 基于深度学习的推荐

近几年来,深度学习在语音识别、图像分析和自然语言处理等方面取得了革命性的进展。同时,最近的研究表明,深度学习能够有效地解决信息检索和推荐方面的难题。将深度学习技术应用到推荐系统中,由于其先进的性能和高质量的推荐促进了推荐系统的发展。与传统的推荐模式相比,深度学习能够更深层次的理解用户需求、项目特性以及用户与项目之间的隐式关系。

在个性化推荐过程中,利用自编码器[72]对用户或项目相关的信息(包括行为数据和文本、图像等信息)进行重构学习到用户或项目的隐式特征,然后基于这些隐式特征预测用户对项目的偏好,能够有效提高用户对推荐结果的满意度。卷积神经网络[73]能够从图像、文本、音频等内容中提取项目的隐式特征,然后利用用户隐式特征为用户推荐学术资源。循环神经网络[74]主要是用来建模数据之间的序列影响,从而帮助获取更有效的用户和项目的潜在关系。例如,CNN用于文本信息中预测潜在因素[75],有助于提高对于隐性特征提取的准确度。DNNs能够改进协同过滤算法中存在的矩阵分解的内积可能不足以描述隐含特征的复杂结构的问题[76]。循证神经网络(RNNs)能够发现论文的连续和潜在的语义特征,提高推荐质量[77]。Wei等人则通过深度神经网络抽取项目特征来预测冷启动项目评分,有效地解决了冷启动问题[78]。

基于深度学习的推荐能够大大提高系统的自动化程度和可扩展性,但是只能缓解推荐系统存在的冷启动和数据稀疏性问题,而不能完全解决冷启动和数据稀疏性问题。

5 学术资源个性化推荐研究的重点总结和趋势预测

在商业领域,个性化推荐技术经过多年的发展,日渐成熟。但是,在学术领域,学术资源的个性化推荐可以说是才刚刚起步。下面针对相关方面的问题进行大胆的总结和预测。

5.1 学术个性化推荐相关问题总结

(1)对会议预告、专利、学术博客和学术新闻的个性化推荐

目前学术资源个性化推荐的研究,关注点只是在论文和图书两方面,而对于会议预告、专利、学术博客和学术新闻等学术资源的个性化推荐的研究还处于空白期。不同的科研人员所需的资源不同,例如,企业的科研人员需要专利,权威专家需要学术新闻等。

(2)相似度计算方法评估

基本的相似度计算方法:皮尔森相关性、余弦距离、欧式距离和基于Log似然的相似性等相似度计算方法;协同过滤推荐中最流行的描述隐含特征间相互影响的协同过滤技术——矩阵分解等。使用不同的计算方法会产生不同的效果,目前没有统一的评判标准,无法定性各种计算方法的好坏。

(3)数据稀疏性问题和冷启动问题

目前,解决数据稀疏性问题的方法主要有两种:一种是人工填补数据[47];另一种就是混合推荐[79]。克服冷启动问题,主要有两种解决方式。一种是通过用户和项目之间的互动推断隐含评分然后进行推荐[7-8,80]。另一种就是利用混合推荐的推荐方法[79]。此外,CF方法和神经网络的紧耦合对于冷启动项目推荐非常有效[81]。

在学术领域的推荐中,数据稀疏性和冷启动问题比商业领域更加严重,可以说是学术资源个性化推荐的两个头号难题。包括经典协同过滤算法和新出现的基于网络结构的推荐算法都存在这样的问题。虽然,很多研究尝试解决,但这些办法只是治标不治本,无法彻底根除。

(4)多语种的学术资源推荐

现有的学术资源推荐都是单语种的推荐(中文学术资源推荐或英文学术资源推荐),还没有出现一种跨语种的学术资源推荐方法。

(5)推荐算法评估方法

在过去的20多年中,关于研究学术推荐算法的论文发表了200多篇,但是,没有明确的结果表示哪种算法是最好的[82]。归根结底,就是缺乏有标准化的评估方案。

5.2 学术个性化推荐研究的趋势预测

(1)“学术基因”的研究

目前,对于提高个性化推荐的准确率和满意度,都是在两个方面进行研究:一方面是改进关键字提取技术;另一方面是加入社交关系。但是对于如何描述用户和推荐对象的特征的研究进展不大。在其他领域的推荐方面,提出了“基因”这一概念改进推荐对象的特征描述,进而提高推荐的准确度。例如,“商品基因”[83]、“音乐基因”[84]、“图书基因”[85]。学术资源也可以引入“学术基因”提高推荐性能。所以,“学术基因”的研究应该得到更多的关注。

(2)多维度用户画像

随着用户在多种类型学术资源上的行为数据规模不断增大,类型也越来越多样化,其内在的特征维度越来越高、信息内容越来越丰富、关联关系也越来越复杂,这对于表征和刻画学术用户的兴趣偏好带来巨大的挑战。传统的学术用户画像建模通常通过社交网络个人信息和科研文献信息等浅层特征建模用户画像,而忽略用户行为数据中的显隐性特征,忽略了学术用户浏览学术资源对象中语义丰富的富知识表征,从而难以对用户兴趣全面地、准确地进行表征。因此,如何深层挖掘学术用户行为数据中显隐性特征,对学术用户浏览的跨类型学术资源进行学习和建模,发现其中包含的富知识表征,并在此基础上形成多维度的学术用户画像,是基于学术用户复杂关联行为数据的学术用户画像建模所面临的重要科学问题。多维度用户画像的研究必将促使个性化推荐技术取得飞速发展,因此这方面的研究将成为研究的热点。

(3)跨类型学术资源的个性化推荐

由于互联网上学术资源数量巨大、类型繁多,每个学术用户获取学术信息的主要媒介有所不同,有些用户偏向通过学术数据库、专利网站等资源获取兴趣领域的学术信息,有些则偏向通过新闻、博客和社交平台等渠道获取最新学术信息,导致学术用户对不同学术资源类型的兴趣偏好各异,这为跨类型学术资源的个性化推荐带来了全新的挑战。传统的学术资源推荐通常知识单一类型的资源推荐,无法同时为用户提供不同类型的推荐结果,忽略不同类型资源在特征表述时的不同,忽略了用户对不同类型学术资源的需求,从而难以全面地满足用户的学术需求。因此,如何为用户推荐跨类型的学术资源是学术资源个性化推荐研究所面临的重要问题,跨类型的学术资源个性化推荐研究在未来一段时间必将成为研究的主流。

(4)跨语种学术资源的个性化推荐

随着互联网的发展,科研人员不仅需要不同类型的学术资源而且需要不同语种的学术资源。由于不同语种的学术资源特征表述不同,阻碍了跨语种的学术资源推荐研究的发展。传统的学术资源推荐只能进行单一语种的资源推荐,无法同时为用户推荐不同语种的学术资源。因此,如何设计跨语种特征表示机制为用户推荐跨语种的学术资源是推荐研究亟待解决的问题,跨语种的推荐研究值得受到更多的关注。

(5)融合深度学习和现有的推荐方法进行学术资源的个性化推荐

传统的推荐方法,采用浅层模型进行学术资源的个性化推荐,依赖于人工提取特征词,难以有效挖掘到深层次的用户和学术资源关系。深度学习模型能够融合用户或学术资源的元数据、用户的行为数据,以及用户的学术关系信息等多类型数据,从而学习到用户和学术资源的深层次关联关系,提高学术资源的推荐效果。融合深度学习进行学术资源个性化推荐的研究值得更多的科研人员加以关注。

(6)在线推荐学习理论

传统推荐技术的研究往往基于静态的场景,即给定一组学术用户行为数据来进行建模和预测。然而,当前在线学术资源个性化推荐系统面临的是动态场景,学术用户行为在不断地更新,学术用户的需求、偏好在随时间不断变化,学术资源也在动态实时更新,用户和推荐系统往往会有更多的交互行为,这些对推荐系统的在线学习和更新机制有了更高的要求。研究面向交互推荐模型动态演变理论,是实现学术用户画像建模与个性化推荐模型动态更新亟待解决的重要科学问题,学术用户画像建模与个性化推荐模型动态更新机制将是未来推荐研究的热点。

6 结束语

随着大数据的发展,促使学术个性化推荐成为了一个热门的研究方向。学术个性化推荐是解决学术领域信息超载问题的一个非常有潜力的方法。本文从推荐过程的三个模块(用户模块、对象模块和推荐策略)对学术个性化推荐进行了分析,对学术个性化推荐各个重点方面进行了讨论,并且对学术个性化推荐的研究方向作出了预测。可以预见,随着新技术的发展,学术个性化推荐必将产生新的思想、模型和方法,推荐的结果也将越来越令人满意。为了解决信息超载问题,此方法将长期成为学术领域的研究内容之一。

[1]张娜.电子商务环境下的个性化信息推荐服务及应用研究[D].合肥:合肥工业大学,2007.

[2]Bollacker K D,Lawrence S,Giles C L.CiteSeer:An autonomous Web agent for automatic retrieval and identification of interesting publications[C]//Proceedings of the 2nd International Conference on Autonomous Agents,1998:116-123.

[3]Sugiyama K,Kan M Y.Towards higher relevance and serendipity in scholarly paper recommendation by Kazunari Sugiyama and Min-Yen Kan with Martin Vesely as coordinator[J].ACM SIGWEB Newsletter,2015:4.

[4]Beel J,Langer S,Genzmehr M,et al.Introducing docear’s research paper recommender system[C]//Proceedings of the 13th ACM/IEEE-CS Joint Conference on Digital Libraries(JCDL’13),2013:459-460.

[5]Jiang Y,Jia A,Feng Y,et al.Recommending academic papers via users’reading purposes[C]//Proceedings of the 6th ACM Conference on Recommender Systems,2012:241-244.

[6]Ferrara F,Pudota N,Tasso C.A keyphrase-based paper recommender system[C]//Proceedings of the IRCDL’11,2011:14-25.

[7]Pennock D M,Horvitz E,Lawrence S,et al.Collaborative filtering by personality diagnosis:A hybrid memory-and model-based approach[C]//Proceedings of the 16th Conference on Uncertainty in Artificial Intelligence,2000:473-480.

[8]Yang C,Wei B,Wu J,et al.CARES:A ranking-oriented CADAL recommender system[C]//Proceedings of the 9th ACM/IEEE-CS Joint Conference on Digital Libraries,2009:203-212.

[9]Mönnich M,Spiering M.Adding value to the library catalog by implementing a recommendation system[J].D-Lib Mag,2008,14(5):4-11.

[10]肖诗伯,杨玉梅,兰鹰,等.基于多标签属性的学术文献推荐研究[J].情报探索,2015(4):8-10.

[11]Liang T P,Yang Y F,Chen D N,et al.A semanticexpansion approach to personalized knowledge recommendation[J].Decision Support Systems,2008,45(3):401-412.

[12]de Gemmis M,Lops P,Semeraro G,et al.An investigation on the serendipity problem in recommender systems[J].Information Processing&Management,2015,51(5):695-717.

[13]Zhao W,Wu R,Liu H.Paper recommendation based on the knowledge gap between a researcher’s background knowledge and research target[J].Information Processing&Management,2016,52(5):976-988.

[14]王嫣然,陈梅,王翰虎,等.一种基于内容过滤的科技文献推荐算法[J].计算机技术与发展,2011,21(2):66-69.

[15]Paik J H.A novel TF-IDF weighting scheme for effectiveranking[C]//The 36th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM,2013:343-352.

[16]Sang Jitao,Xu Changsheng,Lu Dongyuan.Learn to personalized image search from the photo sharing websites[J].IEEE Transactions on Multimedia,2011,4(4):963-974.

[17]Zhou Dong,Lawless S,Wade V.Improving search via personalized query expansion using social media[J].Information Retrieval,2012,15(3/4):218-242.

[18]Liu Dong,Hua Xiansheng,Wang Meng,et al.Boost search relevance for tag-based social image retrieval[C]//IEEE International Conference on Multimedia and Expo.New York:IEEE,2009:1636-1639.

[19]Nascimento C,Laender A H,da Silva A S,et al.A source independent framework for research paper recommendation[C]//Proceedings of the 11th Annual International ACM/IEEE Joint Conference on Digital Libraries,2011:297-306.

[20]Jiang Y,Jia A,Feng Y,et al.Recommending academic papers via users’reading purposes[C]//Proceedings of the 6th ACM Conference on Recommender Systems,2012:241-244.

[21]Bethard S,Jurafsky D.Who should I cite:Learning literature search models from citation behavior[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management,2010:609-618.

[22]Lao N,Cohen W W.Relational retrieval using a combination of path-constrained random walks[J].Mach Learn,2010,81(1):53-67.

[23]Ekstrand M D,Kannan P,Stemper J A,et al.Automatically building research reading lists[C]//Proceedings of the 4th ACM Conference on Recommender Systems,2010:159-166.

[24]He Q,Pei J,Kifer D,et al.Context-aware citation recommendation[C]//Proceedings of the 19th International Conference on World Wide Web,2010:421-430.

[25]Giles C L,Bollacker K D,Lawrence S.CiteSeer:An automatic citation indexing system[C]//Proceedings of the 3rd ACM Conference on Digital Libraries,1998:89-98.

[26]Huang Z,Chung W,Ong T H,et al.A graph-based recommender system for digital library[C]//Proceedings of the 2nd ACM/IEEE-CS Joint Conference on Digital Libraries,2002:65-73.

[27]Jack K.Mendeley:recommendation systems for academic literature[D].Technical University of Graz(TUG),2012.

[28]Erosheva E,Fienberg S,Lafferty J.Mixed-membership models of scientific publications[C]//Proc Natl Acad Sci U S Am 101(Suppl 1),2004:5220-5227.

[29]Kataria S,Mitra P,Bhatia S.Utilizing context in generative bayesian models for linked corpus[C]//Proceedings of the 24th AAAI Conference on Artificial Intelligence,2010:1340-1345.

[30]Middleton S E,De Roure D C,Shadbolt N R.Capturing knowledge of user preferences:ontologies in recom-mender systems[C]//Proceedings of the 1st International Conference on Knowledge Capture,2001:100-107.

[31]Middleton S E,Shadbolt N R,De Roure D C.Ontological user profiling in recommender systems[J].ACM Trans on Inf Syst(TOIS),2004,22(1):54-88.

[32]Zarrinkalam F,Kahani M.SemCiR—a citation recommendation system based on a novel semantic distance measure[J]Electron Libr Inf Syst,2013,47(1):92-112.

[33]Zhou Q,Chen X,Chen C.Authoritative scholarly paper recommendation based on paper communities[C]//2014 IEEE 17th International Conference on Computational Science and Engineering(CSE),2014:1536-1540.

[34]Wang Y,Zhai E,Hu J,et al.Claper:Recommend classical papers to beginners[C]//2010 Seventh International Conference on Fuzzy Systems and Knowledge Discovery(FSKD),2010,6:2777-2781.

[35]黄义文.大数据环境下图书馆学术资源个性化推荐服务研究[J].图书馆学刊,2016,38(7):78-80.

[36]周文罡,李厚强,田奇.图像检索技术研究进展[J].南京信息工程大学学报:自然科学版,2017,9(6):613-634.

[37]陈亮,汪景福,王娜,等.基于DNN算法的移动视频推荐策略[J].计算机学报,2016,39(8):1626-1638.

[38]Beel J,Gipp B,Langer S,et al.Paper recommender systems:A literature survey[J].International Journal on Digital Libraries,2016,17(4):305-338.

[39]刘玮.电子商务系统中的信息推荐方法研究[J].情报科学,2006,24(2):300-303.

[40]Wang Z,Liu Y,Yang J,et al.A personalization-oriented academic literature recommendation method[J].Data Science Journal,2015,14:1-9

[41]Younus A,Qureshi M A,Manchanda P,et al.Utilizing microblog data in a topic modelling framework for scientific articles’recommendation[M]//Social Informatics.[S.l.]:Springer International Publishing,2014:384-395.

[42]Guan P,Wang Y.Personalized scientific literature recommendation based on user’s research interest[C]//2016 12th International Conference on Natural Computation,Fuzzy Systems and Knowledge Discovery(ICNC-FSKD),2016:1273-1277.

[43]Sugiyama K,Kan M Y.Scholarly paper recommendation via user’s recent research interests[C]//Proceedings of the 10th ACM/IEEE Annual Joint Conference on Digital Libraries(JCDL),2010:29-38.

[44]Manning C D,Raghavan P,Schütze H.An introduction to information retrieval[M].Cambridge:Cambridge University Press,2009.

[45]Ricci F,Rokach L,Shapira B,et al.Recommender systems handbook[M].Berlin:Springer,2011.

[46]Resnick P,Iacovou N,Suchak M,et al.GroupLens:An open architecture for collaborative filtering of netnews[C]//Proceedings of the 1994 ACM Conference on Computer Supported Cooperative Work,1994:175-186.

[47]Naak A,Hage H,Aimeur E.A multi-criteria collaborative filtering approach for research paper recommendation in papyres[C]//Proceedings of the 4th International Conference MCETECH,2009:25-39.

[48]Yu J,Xie K,Zhao H,et al.Prediction of user interest based on collaborative filtering for personalized academic recommendation[C]//International Conference on Computer Science and Network Technology,2012:584-588.

[49]Kai Z,Lu P Y.Improved collaborative filtering approach based on user similarity combination[C]//International Conference on Management Science&Engineering,2014:238-243.

[50]Niu J,Wang L,Liu X,et al.FUIR:Fusing user and item information to deal with data sparsity by using side information in recommendation systems[J].Journal of Network and Computer Applications,2016,70:41-50.

[51]Seo Y D,Kim Y G,Lee E,et al.Personalized recommender system based on friendship strength in social network services[J].Expert Systems with Applications,2017,69:135-148.

[52]Torres R,McNee S M,Abel M,et al.Enhancing digital libraries with TechLens+[C]//Proceedings of the 4th ACM/IEEE-CS Joint Conference on Digital Libraries,2004:228-236.

[53]Dong R,Tokarchuk L,Ma A.Digging friendship:Paper recommendation in social network[C]//Proceedings of Networking and Electronic Commerce Research Conference(NAEC 2009),2009:21-28.

[54]McNee S M,Kapoor N,Konstan J A.Don’t look stupid:Avoiding pitfalls when recommending research papers[C]//Proceedings of the 2006 20th Anniversary Conference on Computer Supported Cooperative Work,2006:171-180.

[55]Arnold A,Cohen W W.Information extraction as link prediction:Using curated citation networks to improve gene detection[C]//Proceedings of the 4th International Conference on Wireless Algorithms,Systems,and Applications,2009:541-550.

[56]Lee Y C,Yeom J,Song K,et al.Recommendation of research papers in DBpia:A hybrid approach exploiting content and collaborative data[C]//2016 IEEE International Conference on Systems,Man,and Cybernetics(SMC),2016:2966-2971.

[57]Chakraborty T,Krishna A,Singh M,et al.FeRoSA:A faceted recommendation system for scientific articles[C]//Advances in Knowledge Discovery and Data Mining,2016:528-541.

[58]Pan L,Dai X,Huang S,et al.Academic paper recommendation based on heterogeneous graph[C]//Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data.[S.l.]:Springer International Publishing,2015:381-392.

[59]Woodruff A,Gossweiler R,Pitkow J,et al.Enhancing a digital book with a reading recommender[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems,2000:153-160.

[60]刘先红,李纲.科研社交网络的推荐系统对比分析[J].图书情报工作,2016,60(9):116-122.

[61]Xia F,Liu H,Lee I,et al.Scientific article recommendation:Exploiting common author relations and historical preferences[J].IEEE Transactions on Big Data,2016,2(2):101-112.

[62]Zhao W,Wu R,Liu H.Paper recommendation based on the knowledge gap between a researcher’s background knowledge and research target[J].Information Processing&Management,2016,52(5):976-988.

[63]Alotaibi S,Vassileva J.Effect of different implicit social networks on recommending research papers[C]//Conference on User Modeling Adaptation and Personalization,2016:217-221.

[64]Guo Y,Cheng H,Tang M,et al.Kernel based collaborative topic regression for tag recommendation[C]//International Conference on Education,Sports,Arts and Management Engineering,2016.

[65]Wang H,Chen B,Li W J.Collaborative topic regression with social regularization for tag recommendation[C]//International Joint Conference on Artificial Intelligence.[S.l.]:AAAI Press,2013:2719-2725.

[66]Wang H,Li W J.Relational collaborative topic regression for recommender systems[J].IEEE Transactions on Knowledge&Data Engineering,2015,27(5):1343-1355.

[67]陈祖琴,张惠玲,葛继科,等.基于加权关联规则挖掘的相关文献推荐[J].现代图书情报技术,2007(10):57-61.

[68]Jomsri P.Book recommendation system for digital library based on user profiles by using association rule[C]//2014 Fourth International Conference on Innovative Computing Technology(INTECH),2014:130-134.

[69]Anh V L,Hai V H,Tran H N,et al.SciRecSys:A recommendation system for scientific publication by discovering keyword relationships[C]//International Conference on Computational Collective Intelligence,2014,8733:72-82.

[70]刘旭东,葛俊杰.基于关联规则的个性化推荐在数字图书馆中的应用研究[J].德州学院学报,2010,26(2):72-76.

[71]Tewari A S,Priyanka K.Book recommendation system based on collaborative filtering and association rule mining for college students[C]//2014 International Conference on Contemporary Computing and Informatics(IC3I),2014:135-138.

[72]Li X,She J.Collaborative variational autoencoder for recommender systems[C]//Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2017:305-314.

[73]Wang S,Wang Y,Tang J,et al.What your images reveal:Exploiting visual contents for point-of-interest recommendation[C]//Proceedings of the 26th International Conference on World Wide Web,International World Wide Web Conferences Steering Committee,2017:391-400.

[74]Wu C,Wang J,Liu J,et al.Recurrent neural network based recommendation for time heterogeneous feedback[J].Knowledge-Based Systems,2016,109:90-103.

[75]Shu J,Shen X,Liu H,et al.A content-based recommendation algorithm for learning resources[J].Multimedia Systems,2017:1-11.

[76]He X,Liao L,Zhang H,et al.Neural collaborative filtering[C]//Proceedings of the 26th International Conference on World Wide Web.International World Wide Web Conferences Steering Committee,2017:173-182.

[77]Hassan H A M.Personalized research paper recommendation using deep learning[C]//Proceedings of the 25th Conference on User Modeling,Adaptation and Personalization,2017:327-330.

[78]Wei J,He J,Chen K,et al.Collaborative filtering and deep learning based recommendation system for cold start items[J].Expert Systems with Applications,2017,69:29-39.

[79]Parvatikar S,Joshi B.Online book recommendation system by using collaborative filtering and association mining[C]//2015 IEEE International Conference on Computational Intelligence and Computing Research(ICCIC),2015:1-4.

[80]McNee S M,Albert I,Cosley D,et al.On the recommending of citations for research papers[C]//Proceedings of the ACM Conference on Computer Supported Cooperative Work,2002:116-125.

[81]Wei J,He J,Chen K,et al.Collaborative filtering and deep learning based recommendation system for cold start items[J].Expert Systems with Applications,2017,69:29-39.

[82]Roy D,Ray K,Mitra M.From a scholarly big dataset to a test collection for bibliographic citation recommendation[C]//AAAI Workshop:Scholarly Big Data,2016.

[83]夏秀峰,吴兰兰.一种基于商品基因的个性化推荐模型[J].辽宁大学学报:自然科学版,2009,36(4):329-334.

[84]李瑞敏,闫俊,林鸿飞.基于音乐基因组的个性化移动音乐推荐系统[J].计算机应用与软件,2012,29(9):27-30.

[85]唐晓波,周咏.基于图书基因组的个性化图书推荐研究[J].图书馆学研究,2017(2):76-85.

猜你喜欢

个性化学术建模
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
坚持个性化的写作
如何理解“Curator”:一个由翻译引发的学术思考
对学术造假重拳出击
基于PSS/E的风电场建模与动态分析
新闻的个性化写作
不对称半桥变换器的建模与仿真
上汽大通:C2B个性化定制未来
满足群众的个性化需求
三元组辐射场的建模与仿真