基于网络中心节点的微博社区发现方法研究*

2018-07-09修扬，何莉

通信技术 2018年6期

修扬，何莉

（四川信息职业技术学院，四川广元 628017）

0 引言

社会个体通过彼此之间的相互联系，形成了一种相对稳定的社会体系，这种相对稳定的社会体系被称为社会网络[1]。现实生活中，存在很多人未察觉到的社会网络，如整个城市的交通或者电力网、人们之间进行商品交易形成的交易网和通过人际关系形成的人际关系网等。随着web2.0的发展，越来越多的网络社交平台相继出现。国外的twitter、facebook在最近几年迅速普及，国内的微博更是一个强大的社交平台。相对于传统的社交网站，微博具有明显的发展优势，主要源于微博方便快捷的操作方式和内容支持原创的特点。原创内容有助于用户之间产生联系，微博的关注功能、转发功能和@功能也增强了微博用户间的交互性。用户通过微博的关注、转发以及@等互动方式互动，逐渐形成了虚拟的社会网络。虚拟网络的发展，一定程度上反映了真实的社会关系。与其他社交平台相比，微博具有“网络社交”和“媒体”功能[2]。由此可见，微博在新闻舆论、信息传播和网络舆情等方面有着极其重要的作用。

近年来，研究者们主要从重叠社区的划分和非重叠社区的划分两个方面研究社区的分类问题。本文将主要介绍研究者们在非重叠社区发现方面上的研究现状。

在Girvan和Newman等人[3]最初的论文中，他们研究了Santa Fe研究所的研究人员组成的协作网络，利用提出的方法能够识别研究所不同部门的成员。

Blondel等人[4]研究了比利时电话运营商移动电话的交互网络，研究的网络节点达到260万，通过使用一种模块度优化的层次聚类算法将节点聚类，将节点划分到6个层次，其中最高的一层由261个用户组组成。这261个用户组由100多个节点组成，而这100多个节点主要被划分到两个组，最终表现出了比利时人由于语言不同引起的显著差异。

Tyler等人[5]研究了惠普实验室工作人员间的交互网络，通过最初的Girvan-Newman算法，可以衡量某个节点到某个社区的归属程度。算法的最终社区划分结果与研究人员的部门组织结构相似。

国内各个研究机构也相继展开了对网络社区的发现研究。林友芳等人[6]针对目前社区划分方法中较好的方法出现的时间复杂度过高和一些快速算法的社区划分效果不佳等问题，提出了一种模型。该模型可使节点之间的联系边变得稳定，很大程度上能够表达个体间的关系紧密度，实现了一种有效社区发现方法。实验证明，作者提出的算法具有较快的速度，划分的社区质量较高，还能够适应于无权或者加权网络。

Zhou等人通过在不同的社区间交换节点，最后通过优化Shaply值来优化社区结构获得最终的社区。作者给出了此方法的理论实现，但是实际过程中算法的复杂度较高，难以实现[7]。

李孝伟等人分析出许多社区发现方法并未考虑网络节点的属性和节点之间的链接属性，所以提出了一种新的解决方法。结合节点自身所具有的属性与节点链接所具备的属性，提出了基于这两个因素的新的社区发现方法。新算法对相似权值进行了定义，通过运用聚合层次算法实现了对网络社区的划分[8]。

从现阶段国内外研究组织结构对微博的研究可以看到很多不同的研究路径，但是这些路径总结起来主要包括以下几类。

（1）微博结构和特征的研究

从微博整体结构来看，微博中的各个节点呈现出严重的异质性，整体来说是一个异构网络；微博网络没有标度，具有小世界的特点[9]。从社会网络的角度对微博进行分析，国内外的专家学者们主要是对微博的互动结构进行探索研究。

（2）微博用户行为的研究

对微博用户行为进行有效分析与把握，对企业营销或者社会舆论导向具有极其重要的意义。对微博用户行为的研究主要包括：微博行为的动机研究、微博的行为统计分析和微博的行为预测。此外，还包括微博行为所产生的各方面影响。从微博用户的关注行为和被关注的行为来分析，最终得到用户的关注数量呈现长尾分布，粉丝数量呈现幂律分布[10]。

（3）微博内容的研究

在字数少于200字的微博中，微博内容丰富，个人观点也非常庞杂。对微博内容的分析主要是基于文本（摘要、关键词等）对内容进行数据挖掘，用于分析时下流行热点问题，进行决策支持；也可以在基于微博内容数据挖掘的基础上，对用户的情感进行分析。有学者研究微博内容的变化趋势，并试图分析内容变化趋势背后的演化规则[11]。

（4）信息传播的规律研究

微博是一种新的信息传播方式，随着微博的发展，信息的传播方式也逐渐发生了变化。通过发布微博，用户发出的信息可以无限制传播，且在无限制传播的同时，其传播速度也相当惊人。所以，微博的发展，某种意义上促进了人与人之间的交流。在国内，人们研究微博传播主要存在两个方面，一是新闻传播，二是营销学。在统计分析的基础上发现，微博传播速率具有规律性，传播路径也非常典型。探究微博传播规律，对阻止谣言的大肆传播具有积极的意义。

在此背景下，本文提出了基于网络中心节点的微博社区发现方法（Micro-blog Community Discovery）——简称为Micro-blogCD算法。对于该方法的实现，首先利用已有的节点度、紧密度和介数三种中心节点衡量指标，通过使用熵权法计算三者的权值，再利用三者加权形式，综合考虑节点度、紧密度和介数来衡量网络中的中心节点。在挖掘出中心节点后，利用节点之间的结构和微博内容主题相似度来挖掘以中心节点构成的微博网络社区。此处结构相似度是指节点与节点之间共同关注和共同粉丝数量的相似程度。在计算节点间的主题相似度时，主要利用基于LDA的开源主题模型——Gibbslda++对数据集作主题抽样，在此基础上，利用节点的主题余弦相似度衡量节点的主题相似性。在没有对节点主题进行提取前，先要对节点微博信息进行处理，处理的内容主要包括分词、去除停用词等。在挖掘中心节点时，本文以经典的网络数据集和新浪微博真实数据作为数据源，对本文所用的中心节点挖掘方法的可行性和效率进行验证分析。在获取到由网络中心节点构成的网络社区后，通过使用高斯定理计算旁节点到各个社区的拓扑势大小，将旁节点划分到拓扑势大的社区，从而得到微博网络社区。

1 关于本实验

1.1 中心节点的获取

步骤1：计算网络中节点的节点度值、紧密度值和介数值。

步骤2：利用熵权法对节点度值、紧密度值和介数值分配权值，得到α、β和γ。

步骤3：根据α、β和γ的取值，重新计算新的节点度值、紧密度值和介数值。

步骤4：根据

获得本文所要求的加权综合值，然后对节点的加权综合值进行排序。

步骤5：根据加权综合值的排序结果，取出加权综合值最大的10个节点，从大到小依次为w[1]～w[10]，计算 w[1]～w[10]这 10 个数之间的增量去掉最大值和最小值，计算增量的平均值设立一个阈值为其中

步骤6：将w[1]对应的节点放入A中，w[2]～w[10]代替 w[1]～w[10]，使 B 中比 w[10]小的最大的一个节点代替w[10]，B集合的节点总数减1。

步骤7：重新数10个节点w[1]到w[10]，重新计算这10个数之间的平均值如果∇ d 有大于的，则将转入步骤6。

步骤8：得到最终的中心节点数组。

熵权法。熵权法[12]客观分配权值，熵权法依照各指标的差异度，利用信息熵原理计算各指标的熵权，然后利用熵权更改各指标的权重，得到各个指标中较为客观的权重值。在使用熵权法确定权重值结果时，某个指标的作用越大，其对应的权重值也越大。

熵权法的具体步骤如下。

步骤1：选取m个节点、n个衡量指标形成原始矩阵：

其中aij表示的是第i个节点在第j个指标下的值。

步骤2：计算第i个节点第j个指标占整个j指标的权值：

步骤3：计算第i个指标的熵值：

步骤4：计算第j个指标的权重值：

1.2 中心节点的合并

社区发现是为了找到社会网络中的中心子团，而中心节点之间本身之间就有较强的联系。换句话说，它们本身很有可能属于同一个社区。因此，在社区发现过程中，有必要找到中心节点后对相似度高的中心节点进行合并。本文将从以下2个方面考虑中心节点之间的相似程度。

（1）结构上的相似性。两个中心节点之间共同拥有的粉丝数量越高，则可能说明这两个节点属于同一个机构的人员，比他们拥有共同的一位同事同时关注了他俩；如果两个中心节点之间的共同关注数量较高，则这两个节点在生活中可能有很多交集，或者这两个人共同关注的内容很相似。中心节点之间的相似值为 ),( jis ，即：

（2）内容上的相似性。如果这两个中心节点所发的微博内容主题很相似，很有可能说明这两个中心节点的生活情趣或者生活态度相似。主题相似度的计算公式为：

对结构相似度值和主题相似度值分别设立阈值在两个中心节点之间的结构上的相似性大于阈值且博文内容主题上的相似性大于阈值时，将两个中心节点划分到同一个社区。如果有3个节点A、B、C，3个节点两两相似，则把这3个节点划分到一个社区中；如果只有A与B相似、B与C相似，那么将优先考虑节点之间的结构相似度值。实验过程中只要结构相似，那么节点之间的主题相似度极高；反过来，如果两个节点的主题相似度高，节点的结构相似度不一定高。

中心节点合并过程具体如下：

步骤1：声明1.1节中得到的中心节点数组；

步骤2：计算中心节点数组中两两节点之间的值和值，并设立阈值φ1、φ2。

步骤3：找出所有的 ),(jis 值和 ),( jiSim 值中的最小值，如果两个最小值均大于21φφ、，则转步骤5；

步骤4：合并 ),(jis 值和 ),(jiSim 值均大于阈值21φφ、的节点，再计算剩余的中心节点之间的相似度，转步骤3。

步骤5：返回最终合并的中心节点，构成n个社区。

1.3 归并旁节点

数据场中，网络被看做是一个拥有N个节点的物理系统。在这个物理系统中，每一个节点周围都客观存在一个作用范围。相应地，每一个节点都会受到其他节点的联合作用。随着节点之间的网络距离增大，节点之间相互作用的力度也会变小。在数据场势的概念中，目前常用高斯势函数来描述节点之间的相互作用关系，被称为拓扑场势[13]：

其中φ( j )表示节点j的拓扑势；mi表示节点i的质量，本文中mi代表的是中心节点的WUIR值；di,j表示节点i与节点j的距离；σ表示影响因子，表示节点的拓扑势的影响范围。

本文将拓扑势概念应用到微博网络中，利用所得的WUIR值表示节点的质量，di,j表示节点i与节点j之间的最短距离。因此，微博网络中节点离中心节点越近，所得的拓扑场势越大。

归并旁节点的过程如下：

步骤1：计算每个旁节点到所有中心节点的最短路径距离；

步骤2：每一个中心节点都会对旁节点起作用，那么计算旁节点在每一个网络社区中的场势；

步骤3：利用高斯定理的转化形式，最终将旁节点划分到拓扑场势最大的社区中。

由式（7）得知，网络中的每一个节点对其他的节点都会产生作用，σ表示节点的影响范围。根据6度空间理论，两个陌生人之间间隔的人数不会高于6个。在本文的归并旁节点算法中，本文取e=6。一个网络中的节点用户都是通过中心节点而聚集在一起的，如果两个节点相隔太远，说明两个节点归属社区的中心节点也相差很远。

1.4 算法流程描述

本文的1.1节至1.3节详细介绍了本文提出的基于网络中心节点的微博社区发现研究的各个步骤方法。本文提出基于网络中心节点的微博社区发现方法——Micro-blogCD算法，能更好地适应微博网络，提高微博社区发现效率。

Micro-blogCD算法的基本流程如下：

步骤1：根据1.1节内容获取中心节点；

步骤2：根据1.2节内容合并中心节点；

步骤3：根据1.3节内容归并旁节点。

2 实验验证

为了测试基于网络中心节点的微博社区发现方法的有效性，本文将采用一个真实的的网络数据集——Zachary空手道俱乐部作为测试数据，然后利用爬虫得到的新浪微博数据集，对本文提出的社区发现算法进行进一步测试，以验证算法的准确性和可行性。

2.1 Zachary空手道俱乐部实验

表1列出了Zachary空手道俱乐部数据集的各个节点相关的介数值排序、紧密度值排序、节点度值排序、WUIR值的排序以及PageRank值排序。其中，在使用WUIR算法前，通过熵权法计算节点度、紧密度和介数的权值分别为α=0.165 2、β=0.008 5、γ=0.826 3。

表1 Zachary数据集中通过各种算法所得的节点值排序结果

从表1显示的数据可以看出，节点度、紧密度和介数分别从各自的角度来衡量节点的重要性。这三种方法基本上都能衡量出节点中心，但是在衡量Zachary空手道俱乐部的网络中心时，三种方式计算出的值存在较大差异性，如图中的26号、17号、7号等节点。此外，紧密度值与其他两者的值相差较大。

采用加权综合法算法，节点的重要性不再靠单一的指标来衡量，而是综合考虑三者因素的共同影响，全面考虑节点的重要性，避免了采用一种方法的单一性。从PageRank算法中可以看出，它的计算结果与节点度、紧密度和介数的差异很大。从表1可以看出，节点1的重要性明显比5大，但是根据PageRank算法得出的结论是1的节点重要性最小，说明PageRank不适宜用来计算节点的重要性。从表1的数据还可以看出，基于加权综合的方法获得的节点重要性比PageRank算法更合理，且比单一因素考虑节点重要性时更全面。

从表1数据中也可以得出，节点1和节点34是Zachary网络的中心节点。利用高斯定理归并网络中的旁节点，在俱乐部网络中拓扑势最大的节点是1和34。由于该网络中的节点并没有像微博用户节点有微博内容，因此不再计算中心节点之间的结构相似性和微博内容相似性。在获取到中心节点后，使用旁节点到各个中心节点构成的社区的拓扑势大小对其余节点进行归类。利用Micro-blogCD算法对社区进行划分的结果，如图1所示。

图1 Zachary Micro-blogCD算法俱乐部实验结果

从图1可以看出，节点3与两个社区中的节点连接的数目相同，处于两个社区的连接地带，因此利用场势来归并旁节点时，节点3的划分存在歧义。

利用GN算法对Zachary网络进行社区划分，得到如图2所示的结果。

图2 Zachary空手道俱乐部——GN算法结果

从图2可以得到，GN算法将Zachary俱乐部数据集划分了4个社区，图中不同的颜色表示不同的社区。比较图1与图2，GN算法只是把图1得到的两个社区又进行了结构划分。从图2还可以看出，节点3现在仍然处于3个社区的交界地带，因此节点3的划分仍然存在歧义。

由于GN算法需要计算每个节点之间的介数值，基于最短路径的网络的时间复杂度为o(m2n)，稀疏图矩阵的时间复杂度为o(n3)。因此，时间的复杂度较大。从模块度的角度来看，GN算法与Micro-blogCD算法得到的社区划分模块度大小相当。GN算法是公认的社区划分效果较好的方法，因此Micro-blogCD算法对于社区划分的效果较好。Micro-blogCD算法在对Zachary数据集进行社区划分时，因为网络中的中心节点的数目相对较少，所以在对这34个节点进行社区划分的时间主要消耗在归并旁节点的过程中。但是，在旁节点的归并过程中，场势的大小不会因为节点归并改变，所以省略了拓扑场势重复计算的过程。因此，这个过程中Micro-blogCD算法的时间消耗少于GN算法。

2.2 爬虫获取的新浪微博数据集实验

为了测试本文提出的网络社区发现算法的合理性和有效性，往往需要真实的数据作支撑。一般情况下，网络上的数据可以通过爬虫程序获得。通常，在爬虫程序中设置入口URL地址，程序通过一定的策略将网页中自己所需的内容按照一定的格式对其进行保存，网页中的有效地址将会作为下一次爬虫的入口。本文采用Python+Selenium调用浏览器的形式获取微博数据。本文从网络中爬取了6 235个节点和7 334条关系数据，用于网络中心节点的获取和网络社区的发现。

本文借助Pajek软件将网络中的节点的节点度排序、紧密度排序和介数值排序，以及使用PageRank算法、WUIR算法对节点的重要性进行排序，得到的结果如表2所示。

表2 新浪微博数据节点重要性排序结果

需要显示的数据过多，导致数据显示不清楚，因此表2只列出了节点度排序、PageRank排序和WUIR的排序结果。其中，利用熵权法得到微博数据中节点度、紧密度以及介数三者的权值分别为α=0.321 8，β=0.002 4，γ=0.675 8。

采用加权综合法对节点的重要性进行计算，得到WUIR值（详见2.2节）。通过使用中心节点获取算法，最终识别94个中心节点，分别为 1834329297、1805982651、1341556070… 和2008019865、1618051664，编号分别为1～94。

对这94个中心节点的关注列表和粉丝列表进行整理，得到两个数据文件，分别是focus.txt和follows.txt。在focus.txt文件中，共有94行数据，每一行代表一个中心节点的关注节点id。同样地，在follows.txt文件中也有94行数据，分别对应94个用户的粉丝节点id。图3表示94个节点的关注列表截图，此处省略了follows.txt文件截图。为了合并结构相似的中心节点，本文要寻找到94个节点中两两节点的关注id交集和粉丝交集，然后利用式（5）计算两两节点的结构相似度。本文考虑到如果两个用户关注的节点id更多，那么两个节点的兴趣比较类似，所以在式（5）中，将对α、β分别赋值为0.8和0.2。

图3 中心节点关注列表截图

本文利用微博爬虫程序爬取了这94个节点的原创微博内容，得到weibo-content-id.txt文件，文件内容截图如图4所示。该文件中共有94行数据，每一行代表一个节点的微博内容。

图4 中心节点微博内容截图

提取微博内容的主题前，需要对微博内容进行预处理。预处理的过程包括分词和去除停用词。分词的目的是将内容划分成序列特征的文档。英文中，空格是英文词汇天然的分割符号；中文中，词与词之间之间的分割比较模糊，中文词的词之间没有类似英文中的空格的统一的分割符，因此需要更多的操作。目前，常用的有基于字符串匹配的中文分词方法[14]、基于规则[15]以及基于统计[16]的中文分词方法。市面上也存在很多中文分词工具，其中反响较好的是中国科学院计算技术研究所研制的汉语词法分析系统（Institute of Computing Technology，Chinese Lexical Analysis System），简称为ICTCLAS。该系统的主要功能不仅包括中文分词、词性标注和命名实体识别，还包括新词识别、支持用户词典、支持繁体中文、支持GBK、支持UTF-8、支持UTF-7和支持UNICODE等多种编码格式。此外，还有python结巴分词工具。本文将采用结巴工具对节点的微博信息进行分词处理，采用中心节点的原创微博内容作为数据源。图5是94个节点的微博内容分词结果截图。

图5 中心节点分词去除停用词截图

为了得到中心节点的主题相似度，在对节点微博内容进行分词去除停用词后，本文将利用基于LDA模型的开源工具GibbsLDA++[17]对分词后的数据做主题抽样。该工具主要基于LDA（Latent dirichlet allocation）为文本数据进行建模获得文本的主题分布。其中，LDA模型做主题抽样的思想主要是：文档是由一定概率的主题分布而成，而这些主题又以一定的概率选择相应的词语构成。有关LDA模型的详细阐述可见《基于LDA模型的主题分析》一文[18]。GibbsLDA++工具有很多版本，本文采用该工具的C++版本。利用GibbsLDA++工具，本文最终得到了94个中心节点的主题概率分布，截图如图6所示。本文对微博内容共提取10个主题，图中每行有10项数据，分别表示各个主题占微博内容的概率。利用式（6）计算两两节点的主题余弦相似度，即计算图6截图中行与行之间的余弦相似度。

图6 中心节点微博主题相似度矩阵

在分别获得中心节点的结构相似度和主题相似度后，合并这94个中心节。本文中结构相似度阈值取0.1，内容主题相似度阈值取0.9。如果两个节点的结构相似度大于阈值0.1且内容主题相似度大于0.9时，将两个中心节点划分到一个社区，中心节点的合并结果如表3所示。

表3 新浪微博数据集中心节点合并结果

利用旁节点归并方法将旁节点划分到拓扑场势大的网络社区，得到最终的网络社区划分图，如图7所示。

图7 新浪微博社区划分结果

如图7所示，具有相同颜色的节点属于同一个社区，不同颜色的节点属于不同的社区。MicroblogCD算法将新浪微博数据划分出了多个网络社区，本文共得到18个网络社区。在这18个社区中，最大的社区节点数量达到683个，最小的社区中的节点数目大约只有最大社区节点数目的1/6，为113个。在每一个网络社区中，社区内部都由少量的中心节点和大量的旁节点构成。中心节点起着连接各个网络社区的作用，且作为各个社区的网络核心，有着较大的活跃度。从图7可以看出，基于归并旁节点后，许多旁节点将处于几个社区之间的过度地带，且有些节点属于两个社区的重叠部分。属于重叠社区中的节点的划分是本文Micro-blogCD算法存在的不足，是今后需要改进的方向之一。

3 结语

本文详细介绍了该算法的各个流程，利用网络中真实的数据源和爬虫获得的微博数据集作为实验数据源，对本文提出的社区划分方法作出验证。本文比较利用GN算法对Zachary数据集得出的结果与本文算法得出的结果，结论验证了本文算法的合理性。此外，在对微博网络社区划分的过程中，由于结构相似度和微博主题相似度所设阈值的改变，可以根据阈值调节网络社区的大小。

本文提出的基于网络中心节点的微博社区发现算法，在整个实验过程中体现了一些不足，主要有以下几点：

（1）在中心节点的挖掘识别方面，本文采用人工方法寻找网络的中心节点，没有自动识别的方法。以后的工作中，采用自动识别的方法用以挖掘网络的中心节点是需要改进的地方。

（2）在归并旁节点的过程中，如果某一个节点在不同社区中的拓扑场势相同，那么对于此类旁节点在微博社区中的划分是有歧义的，需在归并旁节点的方法上做出改进。

（3）本文在归并旁节点的过程中，要计算每个旁节点到所有中心节点的最短路径距离，所需时间较长，导致整个实验时间复杂度较高。因此，在以后的工作中，可以寻找更好的计算最短路径的方法。

[1] Streeter C L,Gillespie D F.Social Network Analysis[J].Journal of Social Service Research,1993,16(01-02):201-222.

[2] 苑卫国,刘云,程军军等.微博双向“关注”网络节点中心性及传播影响力的分析[J].物理学报,2013(03):494-503.YUAN Wei-guo,LIU Yun,CHENG Jun-jun,et al.Analysis of the Centrality and Influence of Communication on Twodimensional “Follow-up” Network Nodes in Weibo[J].Acta Physica Sinica,2013(03):494-503.

[3] Girvan M,Newman M E J.Community Structure in Social and Biological Networks[J].Proceedings of the National Academy of Sciences,2002,99(12):7821-7826.

[4] Blondel V D,Guillaume J L,Lambiotte R,et al.Fast Unfolding of Communities in Large Networks[J].Journal of Statistical Mechanics(Theory and Experiment),2008,2008(10):1-6.

[5] Tyler J R,Wilkinson D M,Huberman B A.E-mail as Spectroscopy:Automated Discovery of Community Structure within Organizations[J].The Information Society,2005,21(02):143-153.

[6] 林友芳,王天宇,唐锐等.一种有效的社会网络社区发现模型和算法[J].计算机研究与发展,2012,49(02):337-345.LIN You-fang,WANG Tian-yu,TANG Rui,et al.An Effective Social Network Community Discovery Model and Algorithm[J].Journal of Computer Research and Dev elopment,2012,49(02):337-345.

[7] Zhou L,Lü K,Cheng C,et al.A Game Theory Based Approach for Community Detection in Social Networks[C].British National Conference on Databases,Springer Berlin Heidelberg,2013:268-281.

[8] 李孝伟,陈福才,刘力雄.一种融合节点与链接属性的社交网络社区划分算法[J].计算机应用研究,2013,30(05):1477-1480.LI Xiao-wei,CHEN Fu-cai,LIU Li-xiong.A Community Partitioning Algorithm for Social Networks Combined with the Attributes of Nodes and Links[J].Application Research of Computer,2013,30(05):1477-1480.

[9] Java A,Song X,Finin T,et al.Why We Twitter:Understanding Microblogging Usage and Communities[C].Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 Workshop on Web Mining and Social Network Analysis ACM,2007:56-65.

[10] 赵文兵,朱庆华,吴克文等.微博客用户特性及动机分析——以和讯财经微博为例[J].现代图书情报技术,2011,27(02):69-75.ZHAO Wen-bing,ZHU Qing-hua,WU Ke-wen,et al.An Analysis of User Characteristics and Motivations of Microbloggers-taking Weibo as an Example[J].New Technology of Library and Information,2011,27(02):69-75.

[11] Cheong M,Lee V.Integrating Web-based Intelligence Retrieval and Decision-making from the Twitter Trends Knowledge Base[C].Proceedings of the 2nd ACM Workshop on Social Web Search and Mining ACM,2009:1-8.

[12] 王祖俪,王娟,石磊等.基于客观赋权法的多属性社交网络节点重要性排序[J].计算机应用研究,2016,33(10):2933-2936.WANG Zu-li,WANG Juan,SHI Lei,et al.Ranking of Node Importance of Multi-attribute Social Networks Based on Objective Weighting Method[J].Application Research of Computer,2016,33(10):2933-2936

[13] 赫南,李德毅,淦文燕等.复杂网络中重要性节点发掘综述[J].计算机科学,2007,34(12):1-5.HE Nan,LI De-yi,GAN Wen-yan,et al.An Overview of Important Node Mining in Complex Networks[J].Computer Science,2007,34(12):1-5.

[14] 常建秋,沈炜.基于字符串匹配的中文分词算法的研究[J].工业控制计算机,2016(02):115-116.CHANG Jian-qiu,SHEN Wei.Research on Chinese word Segmentation Algorithm Based on String Matching[J].Industrial Control Computer,2016(02):115-116.

[15] 姚天顺,张桂平,吴映明.基于规则的汉语自动分词系统[J].中文信息学报,1990,4(01):37-43.YAO Tian-shun,ZHANG Gui-ping,WU Yingming.A Rule-based Automatic Chinese Word Segmentation System[J].Journal of Chinese Information Processing,1990,4(01):37-43.

[16] 傅赛香,袁鼎荣,黄柏雄等.基于统计的无词典分词方法[J].广西科学院学报,2002,18(04):252-255.FU Sai-xiang,YUAN Ting-rong,HUANG Baixiong,et al.Non-dictionary Segmentation Method Based on Statistics[J].Journal of Guangxi Academy of Sciences,2002,18(04):252-255.

[17] Kai Yip.利用gibbslda做数据集主题抽样[EB/OL].(2017-02-15)[2018-02-04].http://gibbslda.sourceforge.net/.Kai Yip.Using gibbslda for Data Set Topic Sampling[EB/OL].(2017-02-15)[2018-02-04].http://gibbslda.sourceforge.net/.

[18] 石晶,范猛,李万龙.基于LDA模型的主题分析[J].Acta Automatica Sinica,2009,35(12):1586-1592.SHI Jing,FAN Meng,LI Wan-long.Thematic Analysis Based on LDA Model[J].Acta Automatica Sinica,2009,35(12):1586-1592.