LDA在提取涉警舆情关键词中的应用

2018-12-19罗玉王玲

现代计算机 2018年32期

罗玉，王玲

（西华大学计算机与软件工程学院，成都 610039）

0 引言

伴随着社会的迅速发展和信息技术的广泛应用，涉警舆情越来越多舆情信息的增长速度越来越快，一些负面涉警舆情，甚至是谣言，在网上传播，如果不引起重视任由其发展，必然会对公安工作的正常建设造成不良影响，引发涉警舆情危机。所以如果能通过一些关键词帮助公安人员进行舆情分析，那么无疑对社会的长治久安具有重大意义。

1 主题爬虫

考虑到涉警舆情数据来源广，文本数量庞大，种类多，本文使用主题爬虫技术,主题爬虫技术是一种依照特定的对象，主动的抓取万维网信息的程序或者脚本[1]。相较于通用爬虫，主题爬虫对爬取对象更加聚焦，抓取的网页信息与特定主题相关。主题爬虫主要面对两个问题主题的描述和主题的相似度计算。主题描述，指用户对所要爬取主题的描述。主题描述的好坏，对于爬虫的结果有着较大的影响[2]。通常主题描述有两种方法，一种是专家确定关键词集，另一种是通过初始页面提取关键词。

当前学者在此基础上提出了一些新的方法，李东晖[3]等提出了一种无监督的主题自动扩展技术，能让一个简单抓取脚本从开始的主题不断积累主题知识。主题爬虫的另一个核心问题，主题相似度计算根据符合要求的主题判断当前网页和当前网页的URL是否保留的算法。有两处需要进行主题相似度计算，一是对当前爬取页面的正文内容，二是对当前页面中的URL。根据网页结构、内容，判断是否与期望主题相关，Guo[4]等提出基于SVN分类的主题爬虫技术，通过训练SVN分类器，来表现文字内容和链接的主题相关度。

由于依据担负任务、职能、领域的不同，人民警察种别，分为户籍、交通、治安、消防森林、经济、经济犯罪侦查等警种，在这里，我们可以把警种类别看作不同的主题，每个警种对应一个或多个主题，每个主题下有与之相关的关键词。

本文将采取LDA方法来进行主题爬虫，利用Word2Vec词向量表示计算主题和网页内容的相似度，主题之间的相似度[5]。

2 LDA主题模型

LDA主题模型属于监督学习，它是一种文档的主题生成模型，它可以从语料中抽取潜在的主题，已经被普遍的应用到信息的主题发现中。

该模型的主要思想是一个主题由一些词生成，一篇文章则由一些主题生成，即一篇文章由某些词语生成。LDA模型如图1所示。

图1

其中，wd,n是可计算变量，表示一个文档D中的词汇，zd,n代表每个词在主题上的设定值，θd代表每个文档在主题空间中的比例，βk代表主题空间中第K个主题，α和η分别代表预先设定的比例系数和主题参数。图中矩形部分表示重复过程，|D|表示该语料库中文档的数量，K是当前主题空间的主题数。

因此，文档集D={d1,d2,...,dn}中的任意一个文本d={w1,w2,...,wn}的概率生成过程如下：

（1）D中词的总个数N服从泊松分布。

（2）主题分布 θ服从狄利克雷分布，即 θ|α～Dir(α)

（3）关于每个n，n∈{1,2,...,N}均存在潜在主题zn服从多元分布，zn|θ～Mult(θ)参数

（4）每个词wn也服从多元分布，即：

ξ，α，β表示超参数，其中，ξ仅仅确保表达的完整性，对模型的求解过程无影响；α表示任意一个与文档中主题分布有关的狄利克雷超参数；β表示一个与文本集合中主题词概率相关的狄利克雷超参数。这些超参数根据经验或多次训练来设定。

综上所述，LDA模型采用对文档中每一个词语的概率来进行计算，即：

P(wj|di)表示每个文档中单词出现的概率，即词频，P(wj|zk)表示某个主题中每个单词出现的概率，P(zk|di)表示某个文档中每个主题出现的概率。故得到文档中每个词的生成概率为：

3 关键词提取

本文的关键词算法采取融合LDA和TF-IDF的自动扩展提取算法。TF-IDF（Term Frequency-Inverse Document Frequency）在自然语言中通常用来表示词语的重要性的加权技术。TF表示词语的频率（Term Fre⁃quency）如公式（4）所示，IDF表示的是是逆文本频率（Inverse Document Frequency），一个特定词语的IDF，表示总的文件数除以包含该词的文件的数，为了简化计算将得到的商取对数。如公式（5）所示。

这里ni,j表示第j篇文档的第i个词语，|D|代表总的文档数，|{j:ti∈dj}|代表包含词语ti的文件数目。

我们选定部分初始关键词，将其加入到爬取种子集中，作为数据抓取的初始种子，通过这些初始种子检索新闻网站，通过融合LDA和TF-IDF算法抽取出文本关键词，将符合标准的关键词作为种子加入到种子集中，再进行新一轮的爬取。如图2所示。

图2 种子集获取流程图

4 实验结果和分析

本实验主要是使用Python实现，通过爬取互联网上的新闻作为训练语料，主要来自新浪、新华网、中国新闻网等，抓取新闻正文五万篇。使用Gensim包实现LDA主题模型的训练，训练过程采用Gibbs采样，由于时间和资源有限，选取三个区分度较高的主题作为实验素材，考察实验效果，选取消防、经济犯罪侦查、刑事案件三个主题，结果如表1所示。