浅谈文本聚类算法对网络热点发现精准度的影响

2017-09-07陈瑜韩晨靖

中国管理信息化 2017年17期

关键词：网络舆情精准度

陈瑜+韩晨靖

[摘要] 面对舆情载体已从传统媒体向互联网转移的新形势，从网络舆情热点发现的主要技术出发，研究网络舆情热点发展的规律，准确把握网络舆情热点，提高网络舆情的精准度。在此基础上，重点分析文本聚类中不同种类的算法研究对网络热点发现精准度的影响。

[关键词] 网络舆情；热点发现；文本聚类；精准度

doi ： 10 . 3969 / j . issn . 1673 - 0194 . 2017. 17. 092

[中图分类号] TP391 [文献标识码] A [文章编号] 1673 - 0194（2017）17- 0194- 02

0 引言

网络技术迅速发展的今天，互联网俨然成了民众关注社会万象的首要通道。如何在网络舆情信息采集的海量信息中快速准确地提取出热点信息，准确地把握热点并研究其形成的规律和发展的形势，成为网络热点研究领域中急需解决的问题。如何在网络舆情信息采集的基础上进行舆情汇集，研究网络舆情热点发展的规律，准确把握网络舆情热点，提高网络舆情的精准度，对于正确引导网络舆论具有十分重要的现实意义。在网络舆情热点发现的研究中，以文本聚类算法技术研究居多，将文本聚类相关理论技术应用到网络舆情热点的发现，可以大大地提高热点发现的准确度和有效性。因此文本聚类算法的研究对于网络热点信息的发现也就具有了十分重要的意义。

1 网络热点发现研究现状

我国最早以 “舆情”为研究目标的研究所是始建于1999年10月的天津市社会科学院舆情研究所。目前国内对于网络舆情热点发现的研究，主要集中于两个方面：对于中文的信息处理和数据挖掘的研究领域。

在中文的信息处理方面，主要是对于词频统计方式的研究，根据文献中所述，中文信息处理方面主要涉及的技术有识别新词、未统计过的词、中文和英文的相关分词技术等方面。在数据挖掘研究领域主要涉及的相关内容有：自动分类、文本的聚类、智能检索以及相关舆情信息的采集等方面，并取得了一定的成果。如：钱爱兵分析了网络舆情的基本情况，设计了一个基于主题的网络舆情分析模型；王伟等根据对网络舆情分析的需求，构建了基于聚类的网络舆情热点问题发现及分析系统。国外热点发现与分析研究较为有名的如美国的TDT（ Topic Detection and Tracking）研究项目，用以应对日益严重的互联网信息爆炸问题，对新闻媒体信息流进行新话题的自动识别和已知话题的持续跟踪。

2 文本聚类算法分析

聚类算法的研究开始于20世纪60年代，其所依据的思想方法起源于数值分类学的聚类分析。目前的聚类算法依据聚类划分的结果是否拥有层次结构，可以将其划分为层次法和平面划分法两大类，以及基于密度的方法、基于网格的方法和基于模型的方法。主要代表算法有：基于划分的K-Means算法、基于层次的Single- Link和CURE算法、基于网格的STING算法、基于密度的DBSCAN算法、OPTICS 算法以及其他聚類算法。

2.1 基于层次的聚类方法

基于层次的聚类是将一个有n个对象的数据集D分解为若干层嵌套的分块，根据层次的分解是自底向上还是自顶向下形成，层次结构分解是通过一个系统树图表示的。基于层次的聚类方法可以分为凝聚法和分裂法，层次聚类算法中典型代表是Single- Link和CURE算法。

Single-Link是一种层次凝聚算法，它为之后衍生出来的很多层次聚类算法提供了依据。Single-Link最大的优点是可以分层展示文本数据，该特点为人们浏览大规模文本数据集提供了非常大的帮助。

2.2 基于划分的聚类方法

基于划分的算法是给定一个具有n 个对象的文本集，将数据集划分为k个子集，并且k≤n。基于划分的算法有两个步骤：首先，创建一个初始划分，决定使目标函数最小化的k值，其次，采用一种迭代的重定位技术将每个对象分配到类中，保证每个类中至少要包含一个对象。划分聚类算法中最具代表性的算法是K- Means算法。

K-Means的算法复杂度较低，且K-Means算法不仅效率高而且可伸缩性强。因此K-Means算法常用于处理大型的文本数据集。

2.3 基于密度的方法

基于密度的聚类算法最大的优点就在于它能够发现任意形状的簇，能够将孤立点保存起来作为后续处理。它与其他的聚类方法的区别在于：它不是基于各种样本距离的方法而是基于密度的方法。该类方法的代表算法有：DBSCAN 算法、OPTICS 算法等。DBSCAN最大的优点就在于它能发现任意形状的类，它成为自动和交互聚类分析的通用基础，并为自动和交互的聚类分析计算出一个类的秩序。OPTICS算法不会显式地产生一个数据集合，它是DBSCAN 算法的延伸，该算法被用来计算数据集中对象的扩展聚类序列，且不用考虑输入参数的设置。

2.4 基于网格的方法

基于网格的聚类算法的主要思想是采用一个多分辨率的网格数据结构，把对象空间量化为有限数目的单元。所有的聚类操作都在这个网格结构（即量化的空间）上进行。该方法所聚类出来的结果是不依赖数据的输入顺序的，对于大型数据集中的高维数据进行聚类非常有效。STING 算法是基于网格聚类算法的典型例子，它使用的是多分辨率的聚类方法，在进行聚类的时候利用网格单元保存相关的统计信息，这些统计信息可以用作查询处理。

2.5基于模型的方法

基于模型的方法试图优化给定的数据和某些数学模型之间的适应性，它为每个类首先设定了一个模型，再去寻找数据与给定模型的最佳拟合。这种模型方法主要有两种：统计学聚类方法和神经网络聚类方法。自组织特征映射（SOM ）是神经网络聚类方法中的代表，SOM算法对人的脑神经元的相关属性进行模仿，该算法是作为神经网络学习中不需要监督的一类算法。SOM算法简单，对于复杂的求导、积分运算是不包含在其中的，并且可以很好地处理孤立点问题。endprint

2.6 算法分析

通过上面介绍的各种文本聚类算法，可以看到现在最常用于文本聚类的算法是K-Means、Single-Link、DBSCAN和SOM四种算法，它们拥有一个共同的特征：即建立在距离或相似度计算的基础之上。将常用的聚类算法从对象形状、聚类粒度、初始条件、终止条件、能否适应动态数据、噪声影响等方面的性能特点进行比较，可以得出：K-Means算法的对象形状与其他三种算法不一样，K-Means算法为凸形，其他三种算法都是任意形状；四种算法的聚类粒度都不一样，有各自的粒度值规定；K-Means和SOM算法有初始条件，Single-Link和DBSCAN算法没有初始条件；且K-Means和DBSCAN算法的终止条件很精确，Single-Link和SOM算法的终止条件不精确，但是K-Means和DBSCAN算法要受到噪声的影响。

3 文本聚类算法对热点发现的影响

聚类作为一种知识发现的重要形式，日益受到重视，聚类算法的研究是为了要在海量的数据集中找出属于同一类的数据。在聚类算法研究中，提出了一些对聚类算法评价的标准，这些标准包括：可扩展性、能够处理噪声数据和孤立点、能够处理不同类型的属性、高维性、能够发现任意形状的类、能够根据用户指定的约束条件进行聚类以及聚类的结果具有可用性和可解释性。

因此，在使用聚类算法之后通常都会对聚类结果做出一个评价，以此来发现使用的聚类算法是否有效，这一步对于热点发现研究分析来说是很重要的。在网络热点发现过程中，使用文本聚类算法将得到的数据样本进行聚类，并得到聚类结果，再去判断该聚类结果中每个类别包含的个数是否達到了最优，这在评价聚类结果的时候对于聚类评价指标的有效性来说就成为了一个很重要的方面。文本聚类是网络热点发现的核心，对于不同的聚类算法会有不同程度的有效性。通过对比各种聚类算法，有效性越高的聚类算法，对于热点发现的精准性就越高。

主要参考文献

[1]J B Pena-Shaff. and C Nicholls. Analyzing Student Interactions and Meaning Construction in Computer Bulletin Board Discussions[J]. Computers & Education，2004，42（3）：243-265.

[2]曾依灵，许洪波.网络热点信息发现研究[J].通信学报，2007，28（12）：141-146.

[3]钱爱兵. 基于主题的网络舆情分析模型及其实现[J].现代图书情报技术，2008，24（4）：49-55.

[4]王伟，许鑫. 基于聚类的网络舆情热点发现及分析[J].现代图书情报技术，2009，3（3）：74-79.

[5]A K Jain，M N Murty，P J Flymn.Data Clustering： A Review[J].ACM Computing Surveys，1999，31（3）：264-323.

[6]T Kohonen. The Self-Organizing Maps[J].Proceedings of the IEEE，1990，78（9）： 1464-1480.endprint