APP下载

基于LDA模型的微信留言文本主题发现研究

2017-09-15施利萍

科教导刊·电子版 2017年24期

施利萍

摘 要 目前越来越多的机构建立微信公众平台,在公众号文章中的留言反映其受众在该文章话题下的关注热点和真实观点,因此分析和挖掘留言具有十分重要的参考价值。分析了微信公众号留言文本的挖掘价值,通过LDA主题模型,研究了如何从留言文本出挖掘出热点话题,从而帮助公众号更好地发展。

关键词 微信留言文本 主题发现 LDA模型

中图分类号:TP181 文献标识码:A

1微信公众号留言文本的挖掘价值

随着移动互联网的普及,通过手机上网的中国网民规模近十亿,而微信是目前使用最多的社交软件,月活跃用户数达5亿,微信公众号达数百分个。越来越多各单位机构建立微信公众平台,利用其进行宣传、展示、服务、产品推介等。微信公众平台传播资讯具有针对性强,覆盖一切碎片化时间;传播精准,历史信息传播周期长;交互性强,方便及时的交互体验;实时、灵活、低成本等特点。公众号的订阅者一般对该公众号信息较为关注,在公众号文章中的留言反映他们在该文章话题下的关注热点和真实观点。因此我们可以利用数据挖掘技术从这些留言文本中挖掘出网民所讨论的热点话题,从而了解到网民的态度。留言大数据挖掘有利于公众平台获取当前的热门关注点,从而有针对性地加强相关内容创建,进而提升用户体验和活跃度,增加用户的粘度和参与度。

留言文本具有信息内容短、信息量少的特征,这加大了提取话题的难度。本文针对公众号留言文本,应用LDA主题模型提取出热点话题。

2 LDA主题模型

主题模型是当前文本表示研究的主要范式,LDA(LatentDirichletAllocafion)主题模型是一种基于概率的主题发现模型,能够提取文本隐含主题的非监督学习模型,是主体模型中典型的代表。由于LDA模型是全概率主题生成模型,可以利用高效的概率推断算法进行计算,同时LDA模型在计算过程中与训练文档数量无关,因此更适合处理大规模语料库。

LDA模型是一个三层贝叶斯产生式概率模型,该模型采用“词袋”的方法,这种方法将每一篇文档看作一个词频向量,假设文档是由一系列潜在主题混合而成,主题是由词汇表中所有的词汇混合而成,每一篇文档代表了主题所代表的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。

3基于LDA模型的微信留言文本主题提取

3.1文本预处理

保證数据的质量,降低无关数据或噪声数据对结果的影响,需要对抓取到元数据进行预处理。本文主要从以下方面对数据进行整理:

(1)剔除只包含特殊字符和数字的留言,只保留重复评论中的一条;

(2)利用IKAnalyzer2012开源分词类库对每条留言进行分词,保留名词和动词;对短文本分词可通过使用词典中的词条进行字符串匹配来实现。将短文本分词后再去掉一些无意义的词语,如“的”、“了”等词语,虽然出现频率高,但对文本分类没有太大的贡献;

(3)建立停用词表剔除文本内容中的无用字词。

3.2 LDA建模

假定给定一个留言集R包含M篇留言文本{r1,r2,…,rM},留言文本rm是长度为Nm的词汇序列,记为rm={w1,w2,…,wN},其中wn表示序列中的第n个词汇,在M篇留言中分布着K个主题{t1,t2,…,tk}。词汇wi在留言rm中的概率可以表示为:

p(wi|rm) ==1p((wi|zi=j)p(zj=j|rm)) (1)

其中,zi是潜在主题,标示词汇wi的主题序号,p(wi|zi=j) 标示词汇wi被分配到第j个主题的概率p(zj=j|rm),标示第j个主题在留言rm中的概率。

模型假定每篇留言是由各个主题随机混合而成,将主题表示为在词汇上的概率分布,由此其中每个主题都是可解释的。模型使用多项式分布建立贝叶斯网络中各参数和变量之间的关联,并假设多项式分布的参数服从Dirichlet。每个主题又是词汇表中所有词汇的随机混合,混合比例也服从多项式分布。

根据经验,模型中主题数目K预设为50,同时根据Steyvers的建议,令 根据主题数目变化, 的所有分量取经验值=50/T,而 的所有分量取固定的经验值 =0.01,这三个可变量的取值确定后,结合输入向量运行Gibbs抽样,得到词汇表中的词语在K个潜在主题上的概率分布以及潜在主题在每篇留言中的概率分布。

本文认为表达某个主题的留言越多该主题就越重要。在模型中,一个留言可能包含一个或若干个主题,是若干主题的混合,那么某个主题的重要度就与该主题在所有留言的各混合主题中所占的比例有关。所以留言集合中主题的重要度可以通过计算留言集合中所有句子包含的该主题的权重的累加和得到。最后将主题按重要程度排序,从而得到留言文本的热点主题。

4 结束语

本文分析了微信公众号留言文本的挖掘价值,通过LDA主题模型,研究了如何从留言文本出挖掘出热点话题,从而帮助公众号更好地发展。

参考文献

[1] 刘坤峰,刘斌,秦长涛,刘振名,梁品超.新媒体微信公众平台建设及运营策略研究[J].河北工程技术高等专科学校学报,2017(01):42—44.

[2] 余传明,张小青,陈雷.基于LDA模型的评论热点挖掘:原理与实现[J].情报理论与实践,2010(05):103—106.endprint