一种融合聚类和时间信息的微博排序新方法

2015-04-21卫冰洁

中文信息学报 2015年3期

关键词：排序文档检索

卫冰洁，史亮，王斌

(1. 中国科学院计算技术研究所，北京 100190；2. 中国科学院信息工程研究所，北京 100093；3. 国家计算机网络应急技术处理协调中心，北京 100029)

一种融合聚类和时间信息的微博排序新方法

卫冰洁1,3，史亮3，王斌2

(1. 中国科学院计算技术研究所，北京 100190；2. 中国科学院信息工程研究所，北京 100093；3. 国家计算机网络应急技术处理协调中心，北京 100029)

随着微博的快速发展，微博检索已经成为近年来研究领域的热点之一。微博检索与传统文本检索在两个方面明显不同：一是微博具有自己的特点，表现在文本短和内容中具有主题概括词(称为Hashtag)；二是微博排序中除了考虑文本和语义相似度，还需考虑时间信息。根据这两点区别，该文在统计语言模型的基础上，使用聚类进行文本扩展，并将Hashtag信息运用到聚类过程中。同时，因为微博数据集中具有Hashtag的微博个数不超过13%，针对这一现象，该文还提出了一种扩展微博Hashtag的方法，最终提出了基于聚类的三个模型。然后通过定义文档先验将时间信息加入到提出的三个检索模型中，得到融入聚类和时间信息的三个模型。最后基于TREC Microblog数据的实验结果证明，融合聚类信息和时间信息的模型在MAP和P@30上有明显提高，分别提高7.1%和11.6%。

微博检索；Hashtag；聚类；时间；语言模型

1 引言

微博，即微型博客(Microblog)，是区别于传统博客的一种互联网产品。用户通过网络、客户端等即时发布信息，通常要求文本字数不超过140个字，用户也可以获取他人发布的信息，实现信息的共享。目前全世界已有多个成熟的微博平台，例如，Twitter、新浪微博、腾讯微博等。由于其所具有的便捷性、实时性，微博已经成为了近年来最热门的互联网应用之一。

随着微博的广泛流行，微博的用户量和数据量均呈现爆发式的增长。据CNNIC发布的第29次中国互联网络发展状况统计报告得知，目前国内有近半数的网民在使用微博，约2.5亿人。同时，Twitter、新浪微博、腾讯微博的注册用户总数也已超过3亿。在如此巨大的用户量的背景下，微博数据量也呈现指数级增长。据报道指出，微博网站每日微博数量已经达到亿级别。在海量微博数据的背景下，用户获得所需信息的困难度日益增大，微博搜索的重要性不言而喻，是近年来研究领域的热点之一。

微博搜索虽然属于文本搜索的范畴，但是却不同于传统的文本搜索，它具有自己的特点，表现在两个方面，第一个是搜索数据不同，第二个是排序原则不同。本文基于这两方面区别深入对微博搜索进行研究。

微博搜索面向的数据是微博。相较于传统文本，微博具有文本短、含有主题词(即Hashtag)等特点。聚类是解决文本短、信息量不足的传统方法之一[1]。在统计语言检索模型的基础上，将聚类结果以平滑方式加入到文档概率计算公式中，修订了文档原有词概率，扩展了文档未有词概率，通过在TREC多个数据集上进行实验，证明了加入聚类信息对检索效果有提高。与此同时，Hashtag是用户为了表明该微博的主题而用两个“#”号括起来的词汇，统称为Hashtag，是微博的特征之一(图1)。文献[2-5]均表明Hashtag是微博检索中有效的特征之一，加入Hashtag信息的检索模型效果普遍优于没有加入Hashtag信息的检索模型。

图1 以“网络地铁”为Hashtag的微博

微博排序相对于传统搜索排序，除了要考虑查询和文本的语义相似度之外，还需要关注另一个因素即时间。Teevan, Ramage[6]对微博查询和传统查询进行了多维度的统计对比，他指出用户进行微博检索时的搜索意图均是跟时间有关的，也就是说微博查询大多属于时间敏感查询。而传统搜索排序无法很好地解决这类查询的搜索需求，因此在针对微博搜索制定策略时，时间是不可忽略的因素。Li 和Croft[7]以及Efron 和Golovchinsky[8]等通过实验证明，加入时间因素可以提高微博检索的效果。

总结前人的工作，聚类是应对微博文本短的一个有效办法，Hashtag是微博的显著特征，时间是微博排序算法中应当考虑的因素，这三者对于微博搜索都非常重要。但是目前尚未有相关工作，在微博排序中同时考虑这三方面因素，因此本文以统计语言检索模型为基础，研究如何融合Hashtag、聚类、时间三因素于排序算法中，最终提出了一个融合聚类和时间信息的排序方法，并在TREC Microblog 数据集上进行实验验证，结果表明融合多因素对微博搜索效果有明显的提高作用。本文的贡献列举如下： 1)针对微博数据集中Hashtag存在率低的情况，本文提出了一种将微博文本作为“伪查询”，利用其搜索结果进行Hashtag补充和扩展的方法；2)本文证明了Hashtag和时间这两个因素对于微博检索的重要性，有利于提高检索的性能。

文章内容组织如下：第2节介绍相关工作；第3节介绍基于时间和聚类的语言检索模型；实验和结果分析将在第4节给出；第5节是对本文工作的总结和展望。

2 相关工作

统计语言检索模型是利用了统计学和概率论理论的检索模型，是三大信息检索模型的一种，也是本文的研究基础[9-11]。基于多项式分布的查询似然模型(Query Likelihood Model)是语言检索模型的热门模型之一[11]。设q表示查询，d表示文档，w表示词， Md表示根据d构建的语言模型[9]，QL模型的排序函数如式(1)所示。

(1)

其中，p(d)是指文档的先验概率，tf(w,q)是指词w在查询q中的出现次数，称为词频，p(w|Md)是指词w在文档d所代表语言中的分布概率，在一元语言模型的假设和采用极大似然估计方法下，得到的计算公式如式(2)所示。

(2)

同时为了避免零概率事件，Zhai 和Lafferty[10]提出了多种平滑方法，本文将采用Jelinek-Mercer(简称JM)平滑，加入平滑后的概率计算公式为：

(3)

其中λ是平滑参数，Pml(w|Mcollection) 是整个数据集的语言模型概率。

Liu和Croft[1]提出了一个基于聚类的统计语言检索模型(CBLM，Cluster-BasedLanguageModel)。Liu和Croft首先对数据集进行聚类，然后使用该文档所在的聚类信息对文档进行平滑，由此给出了基于聚类的文档语言模型(CBDM，Cluster-BasedDocumentModel)，公式如下：

(4)

其中λ,β是平滑参数，Pml(w|Mcluster) 是该文档所在聚类的语言模型概率。论文在TREC的多个数据集上的实验证明加入聚类信息的检索结果优于没有加入聚类信息的检索结果。下文简称该方法为CBLM。

微博具有不同于传统文本的多项特征，Hashtag是其中一项。Efron[2]提出了一个利用微博Hashtag的查询扩展方法。论文将微博语料库中的Hashtag提取出来整合为Hashtag集合；然后通过含有该Hashtag的微博集合构建该Hashtag的一元语言模型，记为 Mhashtag。设查询q的语言模型为 Mq，用KL距离表明该Hashtag和查询的相关程度，由此选择前k个作为查询扩展词。实验证明融入Hashtag信息有利于微博检索。文献[3-5]也在检索模型中运用到了Hashtag，并取得不错的效果。由此可知，微博的Hashtag对于微博检索而言是很有效的可利用因素。

将时间融入统计语言模型，其中一种方法为引入文本的时间先验[7-8, 12]。Li和Croft[7]提出假设“文档越新，其重要度越高”，由此定义以时间为输入的指数分布来表示文档的时间先验分值，公式如下：

(5)

其指数分布参数为α，为人工给定，其中td代表文本的时间，tcollection代表文本集中的最新时间。最终论文通过在TREC新闻语料集上做验证证明加入时间提高了搜索效果。Efron和Golovchinsky[8]在Li和Croft的基础上进行改进，引入了查询信息，通过查询的伪相关反馈文档计算指数分布的参数，公式如下：

(6)

(7)

卫冰洁和王斌[12]在微博数据的背景下，对文献[7]和文献[8]进行了更深入的研究。通过分析微博查询的时间分布图，定义了查询的热门时刻，给出新假设“文档时间距热门时刻越相近，文档越重要”，提出基于热门时刻的语言模型(Hot-TimeLanguageModel，HTLM)。本文将已有工作分为两类，一类是与查询无关模型P(dt)，即Li和Croft提出的模型，一类是查询有关模型P(dqt)，即Efron和Golovchinsky提出的模型以及HTLM模型，通过引入平滑思想，最终提出一个混合文档先验计算方法，公式如下：

(8)

其中ω是平滑参数，取值为0～1。论文在TRECMicroblog数据集上进行了实验验证，结果表明，HTLM模型优于已有工作，混合模型优于单一模型。

综上所述，聚类有利于检索效果的提高，融入Hashtag信息或者加入时间的排序模型在微博数据集上效果好于原有模型。但是加入聚类信息是否利于微博搜索、如何将Hashtag信息融入聚类中、如何克服只有少量微博具有Hashtag的困难、聚类和时间融合是否将促进检索效果的提升等还尚未得到验证，本文将就这些问题进行深入研究和验证，最终提出一个利用时间信息和聚类信息的语言检索模型。

3 融合时间和聚类信息的检索模型

3.1 针对微博检索的分析

检索数据和用户查询是一个检索过程的基本组成，这二者的特点也决定了检索模型的选择。那么我们分别从这两方面详细说明微博检索相对于传统检索的不同。

首先在微博搜索的背景下，数据不再是传统网页，而是新型数据：微博。微博相较于以往的文本，具有很多独有的特征，包括：文本字数限制在140个字以内和具有特殊符号“#”(称之为Hashtag)。文本字数的限制带来的是信息量的不足，而大部分传统的检索模型的前提是信息量充足，比如BM25以及语言模型。因此进行微博内容的扩充是非常必要的，本文选择聚类作为扩充方法。“#”在传统网页中并没有特殊的含义，而它在微博中却具有指定的意义：用两个“#”包围着的词通常为该用户给出的关于这篇微博的主题词，类似于某些用户给传统网页所打的标签。主题词对于微博内容的确定有很大关系，如果该主题词与查询相关，那么该篇微博内容与主题相关的概率很高。但是在数据集中，具有Hashtag的微博个数非常少，是提出微博检索方法时需要克服的问题之一。

其次，针对于微博查询的特点，已有多项研究表明微博查询具有时间敏感性[6, 8, 12]。面向时间敏感查询的搜索，传统的检索原则，即计算查询和文档的语义相似度，是不够的，需要在检索过程中引入时间的因素，从而使得一个文档的排名不仅仅侧重于它的语义相似度而同时与它的时间有关。考虑微博查询的时间特性，适用于微博的检索模型需要引入时间信息。

基于上面从数据和查询两个角度分析微博的特点，本文分别设计了基于扩展标签(Hashtag)的聚类语言模型和融合时间和聚类信息的微博检索模型，以期得到更优的微博检索效果。

3.2 基于扩展Hashtag的聚类语言模型

聚类算法是指将一系列文档聚团成多个子集或簇(cluster)，其目标是找出类内紧密、类间分散的多个簇。常用的聚类方法根据其簇之间是否有关系分为扁平聚类和层次聚类两类。K-means算法[13]是扁平聚类算法的代表方法，其基本流程为：当指定聚类个数为K时，首先从N个数据量中随机挑选K个对象作为初始的聚类中心；然后计算N个数据量与K个聚类中心的距离，选择最近的作为该对象所属类别；接着根据新类别重新得到K个聚类中心；最后判断是否达到停止条件，如果没有则从第二步开始迭代进行。当被划分数据为文本时，通常采用向量空间模型表示文本，tf*idf作为向量的每一维的权重，余弦相似度(cosinesimilarity)作为类别划分标准。

在微博数据集中，由于微博内容短，且经过词干还原和去除停用词处理之后，剩余的有效词个数很少，比如在TRECMicroblog数据中微博ID为29742094935392256(‘Jordansare’)、31907613243351040(‘JordanHasMe!’)、34773247190892544(‘IwantsomeJordans!’)最终文本都成为了“jordan”。在本文中，我们的目的是找到与微博内容相同或相似的结果，以此提高微博已有词的权重并加入未有词，也就是说这些微博之间是有共同词汇的，因此我们假设其聚类形状是以某个词或某些词为中心向外延伸的偏圆形，K-means聚类是针对这类型数据的很好的聚类方法。与此同时，由于微博文本短，所以它的向量维度不会过高；而其微博数量过大，我们采取减少数据集，即只选择查询的搜索结果中的前10 000篇微博构成新的文档集，降低算法的运行时间。图2是一个聚类结果的截图，从图中可以清晰的看出，这个结果是关于“Jordan”的微博集合。用该集合的语言模型平滑微博，可以提高“Jordan”的词概率，同时加入michael，egypt等词的概率，丰富了微博的原有信息，达到了我们最初的目的。也就是说当得到聚类结果之后，带入式(3)到式(1)中，得到CBLM算法。

在确定了聚类算法之后，核心问题便是如何融入微博的Hashtag信息。虽然文献[14]并非是针对微博排序的研究，但是可以借鉴其把Hashtag信息加入到聚类过程的方式。Ramage,Heymann[14]认为现有的很多网页拥有用户所标注的标签，这些标签便是对这些网页的主题的表明。论文中给出了多种融合网页原有文本和网页标签的方式，经过实验验证，原有文本和网页标签同时进行向量化的结合方式取得了较好的聚类结果。相较于微博数据，微博的Hashtag便是用户给定的特定微博的主题词，因此本文也采用这种方式进行微博文本的向量化，得到的模型称为CBLM+Hashtag。

同时我们发现文献[14]所做实验的背景是网页且都具有标签，而据统计可知，在微博数据集中，具有Hashtag的微博个数仅占13%，并且存在内容相同的微博有的有Hashtag，有的没有Hashtag。因此我们提出了一种扩展微博Hashtag的方法，设给定微博d，首先将微博d的文本内容作为查询，在微博数据集中搜索前K篇相似文本，构成其相似文档集合，记为Rset。然后抽取Rset中每篇微博的Hashtag，作为微博d的扩展Hashtag。在本文的实验中，K取值300。使用扩展后的微博数据集进行聚类，然后用来平滑原始微博的语言模型，进行微博排序，下文称该算法为CBLM+ExpandHashtag。

图2 微博数据集聚类截图举例说明

3.3 融入时间的统计语言模型

通过第2节对前人的工作介绍可知时间是微博检索不同于传统检索的特征之一，将时间融入检索模型的一种代表性工作便是作为文档先验。卫冰洁和王斌[12]在微博数据集的背景下，通过对微博查询的分析，对文献[7]和文献[8]的工作进行了扩展研究，最终提出了一个混合时间文档先验计算方法。根据论文中的基于混合模型的实验结果得知，当MAP最高时，P(dt) 选择的是文献[7]提出的模型；P(dqt) 选择的是HTLM系列模型，带入式(6)中得到最终先验计算公式为：

(9)

其中涉及的参数取值分别为α1为0.3，α2为0.3，计算tqd过程中涉及的热门时刻阈值参数取值为0.8，tcollection是数据集中的最新时间，取值为17。

3.4 融入聚类和时间信息的统计语言模型

在第1节中介绍了利用Hashtag的聚类语言模型，第2节中介绍了基于时间先验的语言模型，针对式(1)，前者修改的是p(w|Md) 的概率，后者修改的是P(d) 的取值，将计算公式带入，得到了我们提出的融入聚类和时间信息的最终模型，分别记为CBLM+Time，CBLM+Hashtag+Time，CBLM+ExpandHashtag+Time。最后我们通过在数据集上验证，证明加入时间之后的模型对检索效果有进一步的提升。

4 实验及分析

4.1 实验数据及评价指标

本文实验所用的数据集为2011年TRECMicroblogTrack发布的从2011年1月23日至2011年2月8日共有17天的Twitter数据，我们对数据集进行了预处理，包括去除所有的非英文及转发微博，处理过后的微博个数为9 679 710。然后对这部分数据集删除了微博内容的@信息和url信息，提取出微博的Hashtag单独存储，同时对于微博文本和Hashtag词进行了词干还原和分词处理。所用的查询集为TRECMicroblogTrack于2011和2012年发布的共110个查询及其标注的相关文档集合，共有113 926篇微博被标注。表1列出的是本文模型涉及的参数取值。我们将110个查询随机分为10份，然后用其中3份用来训练模型的参数，最后在整个数据集上进行效果验证。

表1 根据评价指标选择的最优结果参数取值

4.2 评价指标

本文选用信息检索研究领域常用的评价指标P@k和MAP用来对我们提出的检索模型进行性能评估。

P@k(Precision at k)，是指前k个返回结果集的正确率，如k可取值5,10等，在本文实验中，k取值为30。计算公式如下所示：

(10)

平均正确率(简称为AP)是指针对单个查询而言，计算返回结果中在每篇相关文档位置上的正确率的平均值[15]。MAP是指针对查询集合的平均正确率的均值。设查询记为qi，针对查询的相关文档集合为 {d1,d2…,dmi}，设Rik是返回结果集中遇到dki时的全部文档集合，本文的返回结果集为前1 000篇返回结果构成。则其AP计算公式为：

(11)

根据AP的计算公式，设查询集合为Q，则其平均正确率均值(MAP)的计算公式为：

(12)

4.3 融合聚类和时间信息的语言模型实验结果及分析

根据第3节的介绍可知，本文需要进行比较的模型共有8个模型，其中统计语言模型系列中的查询似然模型是本文的基准模型，记为QL；同时本文也同基于统计语言模型使用TREC数据的模型ATM进行了对比[16]，ATM模型是基于用户信息构建的检索模型，它使用用户所发的微博构造用户模型，以此达到扩充微博内容的目的，与本文使用聚类方法克服文本短具有对比性。表2列出了各个模型在TRECMicroblog数据集上的实验结果，其中含有 “*”号标记的表示该结果与QL在成对T侧上(P< 0.05)具有统计显著性。

表2 在TREC 2011 Microblog数据集上的检索结果

观察表2可得到，本文提出的模型相比于QL(基准实验)，在MAP和P@30两个指标上都有提高，表明了在微博检索背景下，聚类信息和时间信息对于排序结果有提高作用。在上文描述中，可知微博排序和传统文本排序的区别在于两点，第一点是考虑微博特征，我们主要关注的是微博文本短和具有Hashtag；第二点是在排序原则中考虑时间性质。下面我们也根据这两类进行具体分析。

首先分析考虑微博特征的模型，即融入聚类和微博Hashtag。具体来看，CBLM是加入了聚类信息的模型，检索效果优于没有加入聚类信息的，这是因为聚类代表与该文档相似的文档集合的信息，用这些信息平滑文档会同时加重文档本身的信息补充文档未有的信息。接下来我们运用微博的Hashtag特征，我们将微博的Hashtag加入到基于聚类的微博排序模型中(CBLM+Hashtag)，效果较之CBLM模型效果更优，其原因是因为微博的Hashtag词是用户给出的关于该篇微博内容的主题概括词，是对微博内容的高度总结，所以加入Hashtag信息后，是对微博内容的重要补充，由此该模型的检索结果更好。但是，微博数据集中具有Hashtag的个数非常少，仅占整体数据集的13%，而Hashtag信息又如此重要，因此我们提出了一个扩展微博Hashtag的方法，得到模型CBLM+ExpandHashtag，经过实验验证，MAP和P@30均得到提高。

然后我们关注加入时间特征的模型。在我们的模型中，时间性质是通过定义文本先验的方式加入统计语言模型的。通过表2中的数值可以看出来，在任何的原始模型上加入时间之后均比没有加入时间的模型在效果上更好，再一次证明了时间对于微博检索的重要性。加入时间之后，效果得到提高是因为微博查询是时间敏感查询，这部分查询的相关文档在某些时间段内的分布会高于其他时间段，因此加入时间先验后，会提高重要时间段内微博的分值，由此提高评价指标的取值，得到更好的排序结果。

总体来说，针对于原始的查询似然模型，在微博检索的背景下，考虑微博文本特征和时间特性的模型取得了最优的效果。

5 总结及未来工作

近年来，随着微博用户量和数据量的蓬勃发展，用户对微博检索的精确度要求越来越高，微博检索越来越重要。新型的数据给研究界带来了新的挑战。微博检索不同于传统文本检索的特点表现在两个方面：第一个是面向的数据不同；第二个是排序原则不同。微博相对于传统网页，具有文本短的特点，并且微博内容中具有用户给出的关于微博的主题词，称为Hashtag。同时微博检索原则中除了考虑查询和文本的语义相似度之外，还需要考虑时间特性。针对这两点不同，首先本文提出运用Hashtag的聚类语言模型，并且由于微博数据集中具有Hashtag的微博仅占13%，我们也提出了一种扩展微博Hashtag的算法。然后我们在提出聚类的模型基础上，通过定义文档的时间先验在检索模型中加入时间信息，最终得到融合时间和聚类信息的排序新方法。最后我们在TREC Microblog数据集上进行性能验证，相对于基准模型(查询似然模型，简称为QL)，分别证明了加入聚类信息和加入时间信息都比基准模型的效果更优，同时也验证进行了微博Hashtag扩展之后的融合聚类和时间信息的模型在检索效果上达到了最优，在MAP和P@30上分别提高了7.1%和11.6%。

本文工作还存在多个可以继续研究的问题，包括： 1)时间信息除了通过文档先验方式以外，如何在聚类过程中融入时间信息？2)每篇微博的Hashtag的个数不同，不同的Hashtag个数是否会具有不同的文档先验，有待进行验证。

[1] Liu X, W B Croft. Cluster-based retrieval using language models[C]//Proceedings of the 27th annual international ACM SIGIR conference on research and development in information retrieval, ACM: Sheffield, United Kingdom,2004: 186-193.

[2] Efron M. Hashtag retrieval in a microblogging environment[C]//Proceedings of the 33rd international ACM SIGIR conference on research and development in information retrieval, ACM: Geneva, Switzerland,2010: 787-788.

[3] Rui Li B W, Kai Lu, Bin Wang. Author Model and Negative Feedback Methods on TREC 2011 Microblog Track[C]//Proceedings of the Text Retrieval Conference (TREC),2011.

[4] Donald Metzler C C. USC/ISI at TREC 2011: Microblog Track[C]//Proceedings of the Text Retrieval Conference (TREC),2011.

[5] Feng Liang R Q, Jianwu Yang. PKU_ICST at TREC 2011 Microblog Track[C]//Proceedings of the Text Retrieval Conference (TREC),2011.

[6] Teevan J, D Ramage. M R Morris. TwitterSearch: a comparison of microblog search and web search[C]//Proceedings of the fourth ACM international conference on Web search and data mining, ACM: Hong Kong, China. 2011: 35-44.

[7] Li X, W B Croft. Time-based language models[C]//Proceedings of the twelfth international conference on Information and knowledge management, ACM: New Orleans, LA, USA,2003: 469-475.

[8] Efron M, G Golovchinsky. Estimation methods for ranking recent information[C]//Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval, ACM: Beijing, China,2011: 495-504.

[9] Song F, W B Croft. A general language model for information retrieval[C]//Proceedings of the eighth international conference on Information and knowledge management, ACM: Kansas City, Missouri, United States,1999: 316-321.

[10] Zhai C, J Lafferty. Model-based feedback in the language modeling approach to information retrieval[C]//Proceedings of the tenth international conference on Information and knowledge management, ACM: Atlanta, Georgia, USA,2001: 403-410.

[11] Ponte J M, W B Croft. A language modeling approach to information retrieval[C]//Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, ACM: Melbourne, Australia,1998: 275-281.

[12] 卫冰洁,王斌. 面向微博搜索的时间感知的混合语言模型[C]. 全国信息检索学术会议(CCIR),2012.

[13] Berkhin P, A survey of clustering data mining techniques[C]//Proceedings of the Grouping Multidimensional Data: Recent Advances in Clustering. 2006: 25-71.

[14] Ramage D, et al., Clustering the tagged web[C]//Proceedings of the Second ACM International Conference on Web Search and Data Mining, ACM: Barcelona, Spain,2009: 54-63.

[15] 王斌. 信息检索导论[M]，北京：人民邮电出版社，2010.

[16] 李锐，王斌. 一种基于作者建模的微博检索模型[J]. 中文信息学报, 2014，28(2)： 132-143.

Combining Cluster and Temporal Information for Microblog Search

WEI BingJie1,3, SHI Liang3, WANG Bin2

(1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China; 2. Institute of Information Engineering， Chinese Academy of Sciences, Beijing 100093, China; 3. National Computer Network Emergency Response Technical Team/Coondination Cente of China, Beijing 100029, China)

With the rapid development of microblog, microblog retrieval has become a hot research topic in recent years. In contrast to traditional text retrieval, microblog search significantly differs in two aspects. One is that microblog has its own text features, i.e. short text and Hashtag as the theme term. The other is that microblog search should consider the time information and text and semantic similarity. This paper addresses the above issue by clustering to expand text content. The hashtag is introduced into the clustering, and, to guarantee its effect, a method to enrich the Hashtag in a microblog is described. Finally we used the time information as the document’s prior and altogether three models are examined in the experments. Experiments on TREC Microblog dataset show that our models significantly improved MAP and P@30 with 7.1% and 11.6% increase separately.

microblog search; Hashtag; cluster; temporal; language model

卫冰洁(1987—)，博士，工程师，主要研究领域为微博检索及数据挖掘。E⁃mail：weibingjie1986@163．com史亮(1986—)，博士，工程师，主要研究领域为信息检索和数据压缩。E⁃mail：shiliang@ict．ac．cn王斌(1972—)，博士，研究员，主要研究领域为信息检索及自然语言处理。E⁃mail：wangbin@iie．ac．cn

1003-0077(2015)03-0177-07

2012-12-28 定稿日期： 2013-03-12

科技支撑计划(2012BAH46B02)。

TP391