结合神经网络的文本降维方法*

2020-03-20陈新元谢晟祎

福建轻纺 2020年3期

陈新元，谢晟祎

（1.福州墨尔本理工职业学院信息工程系，福建福州 350108；2.福建农业职业技术学院实验实训中心，福建福州 350119）

1 引言

随着科技和社交网络的进步，人们的交流呈现在线化、数字化的趋势。微博是国内的主流社交网络平台之一，类似国外的Twitter；截至2018年，活跃用户数达到4.62亿（出自微博数据中心发布的2018年用户发展报告）。人们可以在微博上分享其观点和情感，可以发表微博或对其他用户的微博进行评论。此外，微信、人人等IM工具或平台也有大量的社交信息。

对社交文本进行分析，可发现网络意见领袖，可提取、监控、跟踪网络舆情[1]，还可进一步将数据挖掘的结果用于构建情感网络模型，或用于商业领域如产品、服务的智能推荐等。

文本分析的基础是构建表示模型。传统的文本特征表示方案多采用向量空间模型（VSM），将文本表示为特征向量，向量取值代表了特征权重。当文本较短时，特征词数量也较少，且动态性较强，故生成的特征多为稀疏矩阵；随着文本规模的增长，特征向量矩阵的维数巨大，出现了维度灾难，因此文本降维具有重要意义。

传统聚类方法可分为划分法和密度法，前者根据距离等标准，给定分区数K，通过初始划分并反复迭代的方法优化样本的划分，将数据集构造为K个分组，令同一个组内的对象尽可能接近或相关，每个分组代表一个聚类。密度法则是计算区域内点的密度，若密度超过阈值，则加入相似聚类；密度法可克服基于距离的算法只能发现“类圆形”的缺点[2]。

本文希望能进一步提高表示模型构建的准确率，因此尝试对几种主流降维方法进行分析，并在真实数据集上比较其降维效果。在此基础上，结合神经网络实现聚类，将分词后的微博文本表示为特征词簇，从而优化文本表示模型。实验阶段将自组织神经网络的表现与传统k-means算法比较以验证方案的有效性。

2 结合神经网络的文本降维方法

2.1 随机映射(RP)

根据Johnson-Lindenstrauss引理，可以在多项式时间内将高维空间映射到O(log )维的子空间上；同时对于任意0＜ε＜1，点间距离偏差可控制在1±ε以内。因此对于m×n的矩阵Mm×n，可通过Mm×n·Rn×r = M’m×r(r＜＜n)的方式降维，其计算复杂度为O(mnr)，若原矩阵为稀疏矩阵，可进一步将计算复杂度降至O(cmr)，其中c＜n为行内非0元素的均值。

2.2 非负矩阵分解(NMF) [3]

由于文本特征矩阵的元素值非负，故可以分解为2个非负矩阵的乘积，即Mm×n = Km×r×Rr×n(r＜＜n)，(m+n)×r ＜ mn。取原矩阵和矩阵R的第i列，可表示为Mi = KRi，则Mi则可视作关于K的正线性组合，系数为Ri。K=[w1， w2， …， wr]可看做是对M进行线性估计的优化的基向量，可尝试用用较少的基揭示M的数据结构。该算法具有收敛快、存储空间小等优点，适用于大规模文本。

2.3 隐含语义分析(LSA)

文本用词多样性并非可靠的概念表示，相反很可能掩盖了其语义结构，因此LSA方法通过奇异值分解实现降维，将矩阵W表示为W=UAVT，U、V分别是对应的左右奇异向量矩阵，A是W按奇异值递减构成的对角矩阵；通过构建近似矩阵Wr=UrArVrT实现降维以突显语义特征，Ur和Vr分别作为文本向量和词向量。通过奇异值分解和近似矩阵设计，LSA在很大程度上消除了文本噪声[4]。但奇异值分解资源开销较高，达到O(mn2)，因此LSA通常用于少量文本的处理。此外，若文本为稀疏矩阵，同样可将复杂度降至O(cmn)，其中c＜n为行内非0元素的均值。3种方法中，RP和NMF的复杂度低于LSA。

2.4 基于神经网络的特征词聚类算法

基本思路为特征词的上下文越相似，其应用环境和语义就越相似[5]；因此将特征词左右各n个词计入上下文考虑范围，根据上下文的相似度，使用神经网络实现自动聚类。

具体过程如下：

⑴ 在给定特征词集合的基础上，使用Huffman编码；

⑵ 设置context窗口参数并进行提取，将特征词自身作为第1层DBN的输入，其上下文作为第1层输出，训练DBN，得到最能代表该特征词的窗口向量；

⑶ 将DBN的输出作为SOM神经网络的输入，其输出即为相同或相近语义的特征词聚类结果。

3 实验与结果分析

实验所用硬件为：Xeon 3104×2；16G×8内存；1.2T SAS硬盘×3，Raid5。

本文自建微博数据集，使用分布式的爬虫系统同时通过微博API接口和Web页面提取信息，随机抽取话题；使用中科院的ICLCLAS对抓取的数据进行分词和停用词处理等预处理操作，最后得到分割后的文本单元。

分别运用RP、NMF和LSA等方法作降维处理（r=100和r=200），采用SOM神经网络进行文本聚类分析，在来自4个话题的10万、20万、50万条微博短文本上比较降维用时和聚类平均准确性，结果如表1、表2所示。分析可知：

表1 降维用时（单位：s）

⑴ 与计算量少的RP方法相比，NMF和LSA的耗时高出许多；后两者间，耗时随着数据集规模增加逐渐接近；在50万条数据集上，无论r取100或200，NMF和LSA的用时基本一致；

⑵ 3种降维方法都能在一定程度上提高聚类的准确率，相比RP，NMF和LSA的聚类准确率有明显提高，能够在一定程序上降低噪声的影响；LSA的准确率最高。

此外，实验中使用了增量算法对文本分块并不断更新表示模型，同时使用了Storm框架提高分析效率，实现文本表示模型的动态更新。具体过程如下：LogHub系统接收文本后，使用并行Spout组件读取文本；将数据副本缓存在IRichBolt中；数据通过增量模型，经聚类和降维后发送到IncrementBolt；最终通过HBase Shell进行实时表示和分析。

4 结论

文本降维是特征矩阵表示模型优化的重要环节，合适的文本降维方法有助于提高聚类准确性。实验数据表明，RP、NMF和LSA方法都能在一定程度上改善聚类表现；基于神经网络的聚类方法相比传统K-means方法也有一定改善。另外，降维矩阵的选择和计算，对于方法用时和准确率也有一定影响，相关参数的计算可作为今后研究的内容。