APP下载

基于Web内容挖掘的论坛发贴分类推荐技术①

2011-11-02丁智斌杜念

华北科技学院学报 2011年1期
关键词:词频分类文本

丁智斌杜念

(1.华北科技学院基础部,北京东燕郊 101601;2.华北电力大学控制与计算机工程学院,河北保定 071003)

基于Web内容挖掘的论坛发贴分类推荐技术①

丁智斌1②杜念2

(1.华北科技学院基础部,北京东燕郊 101601;2.华北电力大学控制与计算机工程学院,河北保定 071003)

随着Internet基础结构的不断扩大和其所含信息的持续增长,Internet用户感觉越来越容易在WWW服务中“资源迷向”。目前提高用户使用效率的方法有页面预取技术、站点动态重构技术和Web个性化推荐技术等。因为网站的页面内容才是用户真正感兴趣的,本文应用了一种基于Web内容挖掘的文本分类技术来实现论坛中贴子的分类推荐。将此推荐服务应用于华北科技学院网站的论坛,可以根据网站中已有的分类数据向用户推荐新贴的适合分类,并能随论坛更新动态优化推荐效果。

Web内容挖掘;Web分类推荐;文本分类

0 引言

当今Internet技术迅猛发展,WWW服务由于传输的信息丰富性和友好交互性而倍受用户欢迎。但用户在访问站点时,Web页面现有的静态形式不可能做到让每个用户都非常顺利地达到他们的操作目的,例如在论坛网站中,用户发贴时必须根据预发贴子的类型选择一个合适区域,进入其专用页面,才能发表该贴。另外,由于网站使用的开放性,可能由于用户的操作不当或其他原因使得一个区域中发表了不应发表在该区域的贴子。而当浏览用户在网站中寻找相关贴子时,可能因为没是选择正确适当区域而不能达到浏览目的。这对网站的维护、用户的浏览和操作都带来了诸多不便。这是由网站运行过于依赖用户能力所导致的。

Web个性化推荐的核心思想就是根据之前已分类的文本作为训练集,然后对训练集进行分析,以便得出各类的分类模式。这种分类模式再经过一定的测试过程,不断地细化,用这些导出的分类模式对其他联机文本加以分类,从而实现对用户预发贴子的分类推荐。

1 Web内容挖掘与文本处理技术

Web内容挖掘是指从Web文档或其描述中发现知识的过程,主要是根据网页本身的内容作资料挖掘,目的是实现Web资源的自动检索,提高Web资源的利用率。其中,Web文本挖掘,是对页面文本内容的挖掘,是采用计算语言学的原理对Web文本信息进行抽取的研究和实践。Web文本挖掘可以对Web文档集合的内容进行总结、分类、聚类、关联分析以及趋势预测等。本文主要使用了文本挖掘中的文本聚类和分类技术。

与数据库中的结构化数据相比,文本数据具有有限的结构,或者根本没有结构,即使具有一些结构,也是着重于格式,而非文本内容。此外,文本的内容是人类所使用的自然语言,计算机很难处理其语义。文本信息源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上。所以需要对文本进行预处理,抽取代表其特征的元数据。这些特征可以用结构化的形式保存,作为文本的中间表示形式。

首先进行分词,即把一个句子按照其中词的含义进行切分。在基于词典的分词算法中,分词词典的数据结构的设计非常关键,它直接影响到了分词算法的性能。本文介绍了一种词典结构如图1。其中,Pi是指向所有首字为第i个汉字Hzi的词条在词库中的指针;W(i,k)是首字为HZi的第k个词(词条按内码顺序从小到大排列),不包括首字;A(i,k)是该词的属性;S为分隔符;Ii是字HZi的索引项。

分词之后,要进行文本特征提取,即识别文本中代表其特征的词项。构成文本的词汇数量是相当大的,因此,表示文本的向量空间的维数也相当大,可以达到几万维,因此需要压缩维数。本文应用的文本特征提取的算法[2]如下:

3)对于该类中所有的词,依据上面计算的互信息量排序;

4)抽取一定数量的词(互信息量大的词)作为特征项。具体需要抽取多少特征项,一般采用先定初始值,然后根据试验测试和统计结果确定最佳值,一般初始值定在几千左右;

5)将每类中所有的训练文本根据抽取的特征项进行向量压缩,精简向量表示。

目前信息处理领域中,文本的表示方法主要采用向量空间模型(VSM)[2]。其基本思想是以向量(ω1,ω2,…,ωn)来表示文本,其中ωi为第i个特征项的权重。本文使用相对词频来表示向量分量ω,相对词频的计算方法主要运用TF-IDF公式:

1)初始情况下,该特征项集合包括所有该类中出现的词;

2)对于每个词,特征项ti与文本dj的互信息量为I(ti;dj);

文本表示之后,用文本相似度来进行文本分类。因为相似的文本具有相似的关键词或相对词频,则可以基于关键词和关键词相对词频来计算一组文本的相似度。用相关矩阵T[2]表示文本与词的相关程度,其中tij表示第i篇文本与第j个词的相关程度,tij的取值范围为[0,1]。

利用文本与词的相关矩阵T可以分析文本间的相关性S,用Sij表示第i篇文本与第j篇文本的相关系数。以下是用余弦系数法[2]计算相关系数的公式:

2 VISUAL STUDIO平台下分类推荐系统的设计与实现

2.1 数据提取

本文中Web分类的训练集提取于华北科技学院的论坛网站。论坛网站中有四个专栏,十七个板块。从中提取了十个分类明显、数据较充足的十个板块。并对重复数据、数据项为空等条目进行了适当处理。

首先进行数据提取,爬虫是一种用来分解Web中超文本结构的工具,可以用它来收集每个页面的信息。采集的数据项包括:标题、内容、URL、作者id、发表时间等。

用以上方式采集其他九个专栏的网页内容信息,并把十个专栏中的网页信息导入到一个表web_content中见图2,实验在表上增加了一个属性fenlei,以区分不同类别的网页信息。再者,由于条目比较多,可以在fenlei属性上设置聚簇索引,以加快查询效率。

初提取的数据会有一些不规范,不适合本实验的问题,所以首先对初提取的数据进行适当的处理如下:

图2 web_content

1)删除重复项:由于初提取的数据中有重复条目对分类效果没有贡献或是贡献非常小,则删除重复项。

2)删除含有空属性值的条目:由于网页结构的复杂性,可能有为数极少的网页信息不能成功提取。而在实验时空值可能会造成扰乱,删除之后对实验几乎没有影响。

3)数据规范化处理:数据中,属性值由于提取时不够精确而不规范,对其进行进一步规范处理。做完以上工作后,进行数据处理前后的数据统计信息如表1。

表1 数据统计表

由于论坛专栏中主题数量的不均衡,数据库中的分类数据也不相等。但这源于论坛中各专栏的受欢迎程度,也体现了一定的推荐分类原则,所以本文中保持了这种不平衡现象。

2.2 文本表示

在对文本数据进行作为类别分类依据的下一步处理前,实验需要作以下假设:各个贴子长度相似;各个贴子对其所在专栏的分类贡献相似;预分类贴子被分到每个专栏的概率相等。基于这些假设,我们可以单纯的依据论坛的历史贴子信息,找到每个专栏的用词特征,从而找到专栏分类规律,实现用户发贴的分类推荐服务。

首先对采集的文本内容进行分词,本文使用的是中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS。选择细切分粒度,计算所一级标注,为'供求信息'专栏进行分词并提取关键字结果如图3所示。可以看到'&'、'nbsp'也被赋予了很高的权重,在试验中必须把它过滤掉。再看其他排在前边的关键词:出售、电脑、求购等具有典型的'供求信息'专栏文本特征;而可以、最后、同学、现在等好像与供求信息没有太大关系,但这些也许是供求信息专栏中文本的潜在特征。

图3 供求信息提取关键词结果

图4 keyword_w_td

由于视图是不适合用于临时查询的,所以除了创建以上数据处理视图以外,本实验还建立了一个基本表key_leibie_w,用来存储经过词频降维处理之后保留下来的特征项在类别中的相对词频值,以提高此推荐服务的效率。

文本相似度是在应用程序中计算的。计算文本与词的相关矩阵,在表key_leibie_w中记录了类别文本中特征项的相对词频,定义一个二维双精度组w_td(i,j)来存储所有特征项在每个类别中的相对词频,并定义xiangsidu(i)存储预分类文本leibie(0)与leibie(i)的相似度。

2.3 实验效果

为了体现实验数据的客观性,可以在论坛中随机找一篇新发表的贴子,作为预分类文本。以下就是'灌水乐园'专栏中的一篇贴子,如图5所示。

输入预分类贴子后窗口右栏可现实此贴与论坛各板块的文本相似度,为用户提供该贴分在各板块的适宜度,如图6。用户可以根据此数据选择适宜板块后发贴。

图5 一篇贴子

图6 运行效果

由图6可知,预分类贴子与灌水乐园(guanshuileyuan)的相似度最高,为0.007455……,这个推荐分类与此贴子的本来分类一致。相似度分析结果的其次推荐分类是影音天地(yingyintiandi)和软件资源(ruanjianziyuan)。而与其他七个类的相似度均为0,其原因可能是,相似度过小,超出了数据类型的精确范围。以上这个实验例子所用贴子比较短,含有的关键词也相应地少,对于分类的信息提供较少可能会使得分类推荐不够准确。换而言之,如果贴子较长,本推荐服务会有更好的表现。另外,如果每一次都为实验文本选定适合的类别,那么数据库中分类特征数据将逐渐丰富并更能反映分类规律,自然地系统的推荐服务将会越来越人性化、标准化。

3 结语

通过在华北科技论坛网站上进行Web内容挖掘,得到了一个对于论坛网站中发贴的分类推荐服务。经过对此服务的多次实验验证,可以证明此服务有一定的推荐效果。另外不仅是论坛,一些其他的信息发布网站、分类搜索网站,也可以应用此推荐服务,来实现相应功能。如果对此服务进行适当改进,还可以进行两文本间相似度计算,从而提供为用户推荐下一个相似浏览网页的服务。这种类型的推荐主要为用户的信息浏览提供方便,是用户个性化推荐服务的一个重要方面。Web内容挖掘在网页信息管理和个性推荐服务上应该有更广泛的应用,还有更多基于内容挖掘技术的智能用途等待去发现、去实现。另外,Web内容挖掘可以和结构挖掘、使用挖掘相结合,这样可以更好地实现Web挖掘对Internet的贡献。

[1]黎琳.Web内容挖掘在数字图书馆中的应用[J].图书馆学研究,2006,(2):19-21,24

[2]陈文伟.数据仓库与数据挖掘教程[M].北京:清华大学出版社,2006

[3]Liu Yuting,Gao Bin,Zhang ying,et al.BrowseRank:Letting Web Users Vote for Page Importance[C] Proc of the 31st annual international ACM SIGIR conference on Research and development in information retrieval.Singapore.SIGIR,2008

[4]苏新宁,杨建林,江念南,等.数据仓库和数据挖掘[M].北京:清华大学出版社,2006

[5]苗夺谦,卫志华.中文文本信息处理的原理与应用[M].北京:清华大学出版社,2007

[6]戴东波,印鉴.结合使用挖掘和内容挖掘的web推荐服务[J].计算机工程与应用,2005, 41(18):162-165

[7]胡雯,曾春年.Web内容挖掘算法的比较研究[J].武汉理工大学学报(信息与管理工程版),2006,(7):23-26

[8]陈正明,马光志.Web访问模式聚类中引入Web内容挖掘的方法[J].计算机工程,2005,32(18):70-71,78

[9]谭汉松,李红.基于信息过滤后的Web内容挖掘[J].计算机工程与应用,2003,39(30):186-18712

Posts Classification Recommendation Techology in
Forum Based on Web Content Mining

DING Zhibin,DU Nian
(1.Department of Basic Courses,North China Institute of Science and Technology,Yanjiao Beijing-East 101601,2.School of Control and Computer Engineering,North China Electric Power university,Baoding Hebei071003)

As the basic construction of the Internet constantly expands and the information it contains continuously increases,internet users find being apt to get lost in resource searching in WWW service.At present the ways in which the efficiency of user using can be improved are page prefetching,dynamic website reconstruction and web personalized recommendation etc.Because content of the page is actually the users'interest,in this paper we used a web-based content mining services to achieve the recommendation of classification of posts in the Forum.Through application of the recommendation to the North China Institute of Technology Forum Website,we can recommend to the user with the appropriate classification for the new post according to the departed classification in the site,and update the dynamic optimization with the Forum recommended result.

web content mining;web recommendation of classification;text classification

TP393.092

A

1672-7169(2011)01-0054-06

2010-11-27

丁智斌(1970-),男,河北威县人,硕士,华北科技学院基础部副教授。研究方向:数据挖掘与信息检索。

猜你喜欢

词频分类文本
基于词频分析法的社区公园归属感营建要素研究
分类算一算
在808DA上文本显示的改善
分类讨论求坐标
基于doc2vec和TF-IDF的相似文本识别
数据分析中的分类讨论
教你一招:数的分类
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索