APP下载

一种长短期兴趣结合的个性化检索模型

2016-05-04王晓春李生杨沐昀赵铁军

中文信息学报 2016年3期
关键词:信息检索文档检索

王晓春,李生,杨沐昀,赵铁军

(哈尔滨工业大学 计算机科学与技术学院,黑龙江 哈尔滨 150001)

一种长短期兴趣结合的个性化检索模型

王晓春,李生,杨沐昀,赵铁军

(哈尔滨工业大学 计算机科学与技术学院,黑龙江 哈尔滨 150001)

个性化信息检索针对用户个人兴趣优化文档排序,被认为是改善用户检索体验的一种有效途径。为提高个性化检索模型的检索性能,该文提出了一种将用户的长短期兴趣结合的通用方法,利用用户长期兴趣和短期兴趣对查询模型进行改进。大规模真实搜索日志数据上的实验结果显示,利用长短期兴趣能够获得准确表达信息需求的查询模型,相对于传统的个性化检索模型取得了更好的效果。

个性化信息检索;长期兴趣;短期兴趣

1 引言

作为辅助人们检索信息的工具,搜索引擎大大提高了信息检索的效率。然而,用户习惯使用短查询[1],致使信息需求表达不准确,加之传统搜索引擎没有考虑用户个人兴趣的差异,通常难以返回针对具体用户的结果[2-3],未能充分满足用户的个性化信息需求。

相比之下,个性化信息检索不仅考虑了查询和文档之间相关性,还考虑了文档和用户兴趣之间的相关性,因此被认为是改善用户检索体验的一个有效途径[4]。很多研究表明个性化信息检索的返回结果能够让用户更加满意[5-7]。

个性化检索模型在很大程度上依靠用户兴趣模型优化文档的排序结果。很多研究工作围绕建立准确的兴趣模型展开。用户兴趣按照时间跨度可以分为长期兴趣和短期兴趣[8]。长期兴趣表示具有持续性的兴趣,其优势是可以用于预测即兴兴趣或者发现多个即兴兴趣的长期性性规律[9]。短期兴趣的优势是可以用于发现用户某一时刻的短暂兴趣[10]。研究发现,长期历史中可以发现和用户相关的信息,短期历史中可以发现与查询有关的信息[11]。也有研究认为长期兴趣模型在查询会话的开始非常重要,而短期兴趣模型在长的查询会话中非常重要[10]。

为了综合利用用户的长短期兴趣,本文设计了一种长短期兴趣结合的通用方法,构造能够准确表达个性化需求的查询模型。通过对引入长期兴趣、短期兴趣前后的查询模型的检索结果进行比较,发现了长期兴趣和短期兴趣均有利于当前查询意图的准确表达,同时引入长短期兴趣的查询模型的检索性能最好。

2 相关工作概述

用户兴趣按照时间跨度可以分为长期兴趣和短期兴趣[12]。长期兴趣来自于长期历史,即当前查询以前用户提交的查询和点击记录[12]。短期兴趣来自于短期历史,一般指当前的查询会话*严格地说,短期历史包含在长期历史当中,短期兴趣是长期兴趣的一部分。。查询会话指用户为了满足一个搜索意图而在较短的时间内进行的连续查询行为。由于用户的信息需求难以通过查询完全表达清楚,研究者经常借助历史信息中体现出来的用户兴趣提高检索性能。

长期历史记录了过去很长一段时间里用户感兴趣的信息,很多研究基于长期历史对用户兴趣建模。文献[13]搜集了所有用户的历史点击,利用用户点击的文档和跳过的文档构成训练序对,采用SVM模型优化检索结果。文献[11]在向量空间模型框架下为每个用户建立长期兴趣模型,从用户历史点击中提取关键词。考虑到不是所有的历史都对当前查询有帮助,Bin Tan等[15]提出了一种挑选有效信息的方法。长期历史中每一次查询被看作一个历史兴趣单元,计算各个历史兴趣单元与当前查询的相关度,以该相关度为权重对相关历史单元加和作为长期兴趣模型,最后与当前查询线性结合从而构成带有个性化的查询模型。该方法有效过滤了长期历史中的无关信息,对新旧查询都可以提高检索性能。宋巍等用历史点击的摘要代替网页内容,根据当前查询从中寻找最相关的摘要,再从相关摘要当中提取候选扩展词,根据候选词和查询在上下文的共现频率筛选出扩展词[16]。Matthijs利用单个用户浏览历史,利用历史网页结构化信息和过滤技术对用户长期兴趣建模[17]。

与长期兴趣不同,短期兴趣来自查询会话,它表示用户当下的兴趣。一般认为,短期历史与当前查询主题是连贯的[9,18],因此短期历史用于用户兴趣建模引起了很多研究者的重视。Sriram在2004年提出一种利用历史查询和历史点击建立用户兴趣模型的方法,但是没有提供实验结果。文献[19]系统讨论了在语言模型框架下建立短期兴趣模型的方法,当前查询、历史查询和历史点击线性组合形成查询模型,并在TREC数据上验证了方法的有效性。文献[20]给出了基于短期历史的个性化检索模型的统一框架,采用语言模型对用户兴趣建模,并与当前查询进行线性组合,在大规模搜索引擎日志数据上验证了引入短期兴趣可以提高搜索引擎的检索性能。近年来,研究者对短期历史中查询变化进行了更加细致的研究。文献[5]将短期历史中相邻查询之间的关系区分成五种类型,将其作为特征融入排序模型,提高了针对初始检索结果的重排序效果。文献[21〗采用机器学习算法对用户连续的查询行为建模,把每一次查询和点击看作是隐状态的观测值,根据测试查询和短期历史的转移概率预测点击排序。与现有商业搜索引擎的检索结果进行比较,发现该方法能有效提高检索结果。

实际上,短期兴趣体现了用户短暂的兴趣信息,长期兴趣体现了持续性信息,二者结合能够更加准确地刻画用户完整的兴趣信息。已有研究者将长期兴趣和短期兴趣进行结合。文献[21]建立了长期兴趣模型和短期兴趣模型,根据文档 和用户兴趣的相似度对初始检索结果重排序。然而长短期兴趣结合前后检索性能的变化这部分实验没有给出。文献[22]为每个用户分别建立了用户长期和短期兴趣模型,考虑了历史点击、查询和用户的共现频率。但是该方法仅针对重复查询,没有在更广泛的查询上验证该方法的有效性。文献[23]在过滤问题上探讨了长短期兴趣结合问题,按照文档与用户兴趣的相似度对文档进行过滤,实验结果显示用户兴趣结合可以提高文档过滤效果。文献[10]将用户兴趣区分为长期兴趣、短期兴趣、除去短期兴趣的长期兴趣,实验结果显示结合三种兴趣的检索结果的准确率最高。这种做法实际上是对用户的整个历史进行重采样,难以看出用户的长短期兴趣各自产生检索性能的变化。

从现有研究来看,用户的长期兴趣和短期兴趣均可提高检索性能。然而,用户长期兴趣、短期兴趣、以及二者结合对个性化检索性能的不同提升效果没有明确结论。为此,本文在语言模型框架下探索用户的长短期兴趣及二者结合对个性化检索性能的影响,提出一种长短期兴趣结合的方法。为每位用户建立兴趣模型,利用用户的长短期兴趣改进用户的查询意图模型,从而返回针对用户的检索结果。实验结果显示,综合利用用户长短期兴趣能够构造准确表达个性化需求的查询模型,相对于单独使用一种用户兴趣的个性化检索模型取得了更好的效果。

3 结合长短期兴趣的个性化检索模型

个性化信息检索中,基于语言模型的检索模型常被用来检验融入用户兴趣后检索性能的变化[15,17]。这里也借助这一经典的检索框架,探索用户的长短期兴趣及二者结合对个性化检索性能的影响。

3.1 模型框架

信息检索系统根据已知查询和文档集合中的文档内容的相似度来计算查询和文档的相关性。在语言模型的框架下,Kullback-Leibler (KL)距离常被用于衡量查询和文档的相关度[24],如式(1)所示。

(1)

式(1)中ω表示一个词,V代表了整个词表,q表示当前查询,θq代表当前查询对应的查询意图语言模型,d表示一篇文档,θd代表了文档d所对应的文档语言模型;D(θq||θd)衡量了查询模型和文档模型两种模型的相似度。

根据KL距离模型,检索问题实际上等价于分别估计查询语言模型θq和文档语言模型θd,并以两个模型之间的KL距离衡量查询和文档的相关度。

准确估计查询意图模型θq是个性化信息检索的关键。考虑到用户提交的查询难以足够清晰表达查询意图,而用户历史包含用户个人的兴趣信息,它有利于当前查询意图的准确理解。因此,我们对用户查询意图建模时考虑了用户提交的查询和用户的历史兴趣,见式(2)。

(2)

式(2)中,ω表示一个词,θq表示根据用户提交的查询而估计的查询语言模型,θhistory表示根据用户历史而估计的历史兴趣模型。

用户历史兴趣由长期兴趣和短期兴趣两部分组成,见式(3)。用户长期兴趣代表持续一段时间的兴趣,用户短期兴趣代表瞬间兴趣。

(3)

式(3)中,θshort表示根据短期点击历史的网页内容而估计的短期兴趣模型,p(ω|θshort)表示词ω在短期兴趣模型中的权重,θlong表示根据用户的长期点击文档而估计出来的长期兴趣模型,p(ω|θlong)表示词ω在长期兴趣模型中的权重。

将式(3)代入式(2)。于是,含有用户长短期兴趣的查询意图模型p(ω|θq)由用户提交的查询模型、用户短期兴趣模型、用户长期兴趣模型组成。也就是说,查询意图模型p(ω|θq)可改写为式(4)。

(4)

式(4)中,a,ß,γ分别表示用户提交的查询模型、用户短期兴趣模型、用户长期兴趣模型的重要性,它们的和为1。

这里,用户长短期兴趣采用一种直观的线性组合方式进行结合,方便考量短期兴趣模型、长期兴趣模型以及二者结合对个性化信息检索性能的影响。

3.2 长期兴趣模型

长期兴趣来自于用户的长期历史。长期历史从第一个历史查询开始累积。如果当前查询Qk是第k个查询,那么长期历史Hk指从第一个到当前查询之前的历史总和。中间某一次查询和点击分别表示为qi和Ci(1≤i≤k-1)。我们为每个用户建立兴趣模型,选择了基于长期兴趣建模的有代表性的方法做基线模型。按照文献[15]介绍的方法,对长期历史中的每次查询建立一个历史兴趣模型单元θi,每个历史兴趣单元有对应的权重λi。以当前查询Qk返回结果中前20篇文档代替当前查询,计算与各个历史兴趣模型θi的Cosine相似度作为该历史兴趣模型的权值λi。用户的长期兴趣模型由每个历史兴趣模型单元按照各自权重加和而成。如式(5)所示。

(5)

3.3 用户短期兴趣模型

用户提交了一个查询,检索系统返回了检索结果,用户查看了部分网页之后发现返回结果没有满足自己的信息需求,于是再次向检索系统提交了一个查询,如此往复,直到用户的查询需求得到满足。该用户在短时间内提交的查询和做出的点击就构成了用户的短期历史。如果当前查询是用户短期历史中的第k个查询Qk,那么短期历史查询指当前查询之前的查询Qi(1≤i≤k-1),短期历史查询所对应的点击Ci(1≤i≤k-1)则构成短期历史点击。用户短期兴趣模型p(ω|θshort)根据短期历史点击用语言模型进行估计。文献[23]给出了基于短期兴趣建模方法,如式(6)所示。

(6)

其中|Ci|表示某次历史点击的网页内容的长度,用词数表示,tf(ω,Ci)表示词ω在某次历史点击文档Ci中出现的次数。

3.4 参数调整

个性化检索中涉及很多参数,例如,当前查询模型和用户历史兴趣模型的权重、伪相关反馈选取文档数目、每个模型用多少个词表示等等,这些参数对于最终的个性化信息检索结果都有影响。为了确定查询意图模型中原始查询模型权重和用户历史兴趣模型的权重值,按照文献[25]介绍的方法: 以0.1为步长在区间0到1之间进行线性搜索: 参数а,ß,γ∈{0.1,0.2,…,0.9},并且满足а+ß+γ= 1。使训练集合的检索结果的MAP值达到最大的权重组合设定为模型测试时的参数。同样,我们也对伪反馈的文档数和词数量进行了专门的训练。伪反馈中的文档数变化范围为{5,10,15…50},词的数量的变化范围设定为{10,20…100}。

4 实验数据和实验设计

4.1 实验数据和评价指标

实验数据来自2007年3月31天的中文搜索日志*http: //www.sogou.com/labs/resources.html不存在的网页和空网页被过滤掉了。搜索日志中记录了用户的查询和浏览信息,包括日期和时间、用户ID、查询、用户点击过的URL,点击的URL在返回结果中的排序,用户点击次序。我们下载了日志记录中所有用户点击过的网页*http: //trec.nist.gov/,构成了带检索文档集合。

已知用户的ID号、日期和时间可以得到该用户一个月内的查询历史和点击历史。根据点击历史将原始网页下载并搜集整理,得到该用户的点击数据。这些数据组成候选实验数据。

候选实验数据按照如下标准进行筛选。

(1) 为保证测试查询有长期点击历史,测试查询必须由频繁进行检索的用户所提交。频繁检索用户指在一个月之中至少进行30次检索的用户。以每个用户的最后一个查询作为测试查询;

(2) 为保证测试查询确实存在相关文档,用户至少点击过1篇文档,并且该文档确实存在于待检索文档集合中;

(3) 为了保证测试查询存在个性化潜力,测试查询必须被多个用户提交过,并且不同用户有不同点击。

经过这样的筛选,我们的测试查询有比较充分的历史信息,针对不同的用户需要检索模型提供不同的检索结果。最终获得了180个测试查询,平均每条查询有51.67个长期点击历史。

测试查询确定之后,测试查询之前提交的所有查询构成长期查询历史,对应的点击构成了长期历史点击。而对于短期历史,我们采用了实践中的一种常用方法,即将与目标查询最近的n次查询历史近似看作短期历史,并在实验中对n的范围进行了初步探讨。实验数据统计信息见表1。

表1 实验数据描述

我们以搜索日志中的用户的真实点击为查询的答案,即相关文档。实验条件所限没有对文档的相关等级进行人工标注,因而不适合采用如NDCG等更加复杂的评价指标。我们以MAP(Mean Average Precision)为个性化检索模型的评判标准,这是一种非插值的平均准确率计算方法,可以从整体上衡量检索结果的精确程度。它也是文本检索会议评测中一直使用的评价指标之一。

4.2 实验结果及分析

实验中我们把只考虑原始查询的模型记作Query,把结合了短期兴趣的查询模型记为Query+short;把结合了长期兴趣的查询模型记为Query+long;把同时结合了长短期兴趣的查询模型记为Query+combine。我们比较上述几个查询模型的检索结果。

我们采用三重交叉验证方法验证本文中提出的方法。全部数据随机分成三份。每一次,2/3的数据用于训练模型中的参数,1/3的数据用于测试模型的检索性能,每次训练数据和测试数据不重合。这样一共进行三次。三次测试结果合并组成了最终的测试结果。

我们以引入了长期兴趣的个性化检索模型Query+long为基线模型,与结合了长短期兴趣的个性化检索模型Query+combine进行对比。在上述实验数据上比较长短期兴趣结合前后检索性能的变化。实验结果如表2所示(t检验表明新模型与基线模型的差异是显著的,p值为0.004)。

实验结果显示,只考虑用户提交的查询时检索结果的MAP值为0.1402,用户长期兴趣或者短期兴趣提高了检索结果的质量,相对于原始查询的检索结果,MAP分别提升了7.20%和8.06%;在长期兴趣的基础上比较结合短期兴趣前后的检索性能的变化,发现Query+combine模型MAP值相对升高了9.65%。可见,用户兴趣有利于准确理解当前的查询意图,当把长短期兴趣结合的时候检索质量最高。

表2 个性化检索结果对比

短期历史在这里近似定义为与测试查询时间距离最近的n(1≤n≤5)次查询及其对应的点击。n的取值不同,短期历史信息的数量就不同。上述实验中选取了与测试查询最近的两次查询作为短期历史。为了研究短期历史的长度对于最终检索性能的影响,我们对n取不同的值,重新计算短期兴趣,同样采用三重交叉检验,实验结果如表3所示。

表3 不同短期历史对原始查询检索模型的影响

实验结果显示,当n从1到5之间变化时,查询结合短期兴趣Query+short检索性能均超过原始查询的检索性能(原始查询的检索结果的MAP为0.1402),而将长短期兴趣结合Query+combine检索性能进一步得到提升。当n取值为2时,查询结合短期兴趣Query+short检索性能提升最大,查询结合长短期兴趣Query+combine检索性能也提升最大。当n取值大于2的时候,查询结合短期兴趣Query+short、以及查询结合长短期兴趣Query+combine检索性能的提升幅度变小。可见,用户长短期兴趣结合要比使用一种兴趣模型产生更准确的检索结果。在长期兴趣和短期兴趣结合的时候,并不是短期历史查询的数量越多检索效果越好。

值得一提的是,通过训练我们发现伪反馈通常取返回结果的前30至40篇文档,从伪反馈提取30至50个词左右,原始查询的权重一般在0.7或者0.8,可见在整个查询模型当中原始查询占据着最重要的作用,用户兴趣对于当前查询起到辅助和补充作用。

6 结论

个性化检索根据用户历史兴趣模型调整文档排序而提供更加精准的检索结果。本文探讨了如何更加准确地构建用户历史兴趣模型来提升搜索用户的个性化检索体验。与现有方法不同,我们将用户长期兴趣模型、短期兴趣模型和查询模型线性组合形成新的查询模型。实验数据表明,将长期兴趣和短期兴趣结合可以提升个性化检索结果的质量。

[1] Spink,B J Jansen,D Wolfram,T Saracevic.From E-sex to E-commerce: Web Search Changes. IEEE Comput. 2002,35(3): 107-109.

[2] Jaime Teevan,Susan T Dumais,Daniel J Liebling. To personalize or not to personalize: modeling queries with variation in user intent[C]//Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval.2008: 163-170.

[3] Ryen W White,Steven M Drucker. Investigating behavioral variability in web search[C]//Proceedings of the 16th international conference on World Wide Web. 2007: 21-30.

[4] Pitkow J,Schütze H,Cass T,et al[J].Communications of the ACM. ACM,New York,NY,45(9): 50-55.

[5] Biao Xiang,Daxin Jiang,Jian Pei,et al.Context-aware ranking in web search[C]//Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM,New York,NY,2010: 451-458.

[6] 周博,岑荣伟,刘奕群,张敏等. 一种基于文档相似度的检索结果重排序方法在线全文. 中文信息学报,2010,24(3): 19-26.

[7] 蒋在帆,王斌. 基于用户行为分析的个人信息检索研究. 中文信息学报,2010,24(3): 9-12.

[8] David Sontag,Kevyn Collins-Thompson,Paul N. Bennett,et al.Probabilistic models for personalizing web search[C]//Proceedings of the fifth ACM international conference on Web search and data mining,2012: 433-442.

[9] Carsten Eickhoff,Kevyn Collins-Thompson,Paul N Bennett,et al. Personalizing atypical web search sessions[C]//Proceedings of the sixth ACM international conference on Web search and data mining. 2013: 285-294.

[10] Paul N Bennett,Ryen W White,Wei Chu,et al. Modeling the impact of short-and long-term behavior on search personalization[C]//Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval,2012: 185-194.

[11] Matthew Richardson. Learning about the world through long-term query logs.Transactions on the Web(TWEB),2008,2(4): Article.

[12] Billsus D,Pazzani M. A hybrid user model for news story classification[C]//Proceedings of 7th International Conference on User Modeling. 1999: 99-108.

[13] Gui-rong Xue,Jie Han,Yong Yu. User Language Model for Collaborative Personalized Search. ACM Transactions on Information Systems,Vol. 27,No. 2,Article 11. 2009,27(2): Articlell.

[14] K Sugiyama,K Hatano,M Yoshikawa. Adaptive web search based on user profile constructed without any effort from users[C]//Proceedings of the 13th international conference on World Wide Web,2004: 675-684.

[15] Bin Tan,Xuehua Shen,ChengXiang Zhai. Mining long-term search history to improve search accuracy[J]//Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining,2006: 718-723.

[16] 宋巍,张宇,刘挺,等. 基于检索历史上下文的个性化查询重构技术研究.中文信息学报,2010,24(3): 55-61.[17] Nicolaas Matthijs,Filip Radlinski. Personalizing web search using long-term browsing history[C]//Proceedings of the fourth ACM international conference on Web search and data mining,2011: 25-34.

[18] Rosie Jones,Benjamin Rey,OmidMadani,et al. Generating query substitutions[C]//Proceedings of the 15th international conference on World Wide Web,2006: 387-396.

[19] Smitha Sriram,Xuehua Shen,Chengxiang Zhai. A Session-based Search Engine[C]//Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. 2004.

[20〗 Xuehua Shen,Bin Tan,ChengXiang Zhai. Context-sensitive information retrieval using implicit feedback. In Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval,2005: 43-50.

[21] Huanhuan Cao,Daxin Jiang,Jian Pei,et al.Towards context-aware search by learning a very large variable length Hidden Markov Model from search logs[C]//Proceedings of the 18th International Conference on World Wide Web. 2009: 191-200.

[22] Zhicheng Dou,Ruihua Song,JiRong Wen. A large-scale evaluation and analysis of personalized search strategies[C]//Proceedings of the 16th international conference on World Wide Web,2007: 581-590.

[23] Thorsten Joachims. Optimizing search engines using clickthrough data[C]//Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining,2002: 133-142.

[24] Chengxiang Zhai,John Lafferty.Language modeling for information retrieval[C]//Proceedings of the tenth international conference on Information and knowledge management,2003: 403-410.

[25] Jianfeng Gao,Haoliang Qi,Xinsong Xia,et al. Linear discriminant model for information retrieval[C]//Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval. 2005: 290-297.

Personalized Search by Combining Long-term and Short-term User Interests

WANG Xiaochun,LI Sheng,YANG Muyun,ZHAO Tiejun

(School of Computer Science and Technology,Harbin Institute of Technology,Harbin,Heilongjiang 150001,China)

Personalized information retrieval tailors the ranking of documents by taking into account individual interests,which has long been recognized as promising in improving the search experience. In order to improve personalized retrieval performance,this paper presents a general method of combining long-term and short-term interest to improve the query model. Tested on a large-scale real search log of a commercial search engine,our method can capture the individual information needs more accurately and significantly outperforms the state-of-the-art method.

personalized information retrieval;long-term interests;short-term interests

王晓春(1982—),博士研究生,主要研究领域为信息检索。E⁃mail:xcwang@mtlab.hit.edu.cn李生(1943—),教授,博士生导师,主要研究领域为信息检索、机器翻译。E⁃mail:lisheng@hit.edu.cn杨沐昀(1971—),副教授,硕士导师,主要研究领域为信息检索、机器翻译。E⁃mail:ymy@mtlab.hit.edu.cn

2014-09-11 定稿日期: 2015-05-28

国家自然科学基金(61105072 & 61272384);国家863计划项目(2011AA01A207)

1003-0077(2016)03-0172-06

TP391

A

猜你喜欢

信息检索文档检索
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
高职院校图书馆开设信息检索课的必要性探讨
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
基于多尺度投影的相似颅骨检索
网络环境下数字图书馆信息检索发展
Word文档 高效分合有高招
基于神经网络的个性化信息检索模型研究
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat