APP下载

结合神经网络的文本降维方法*

2020-03-20陈新元谢晟祎

福建轻纺 2020年3期
关键词:降维准确率聚类

陈新元,谢晟祎

(1.福州墨尔本理工职业学院 信息工程系,福建 福州 350108;2.福建农业职业技术学院 实验实训中心,福建 福州 350119)

1 引言

随着科技和社交网络的进步,人们的交流呈现在线化、数字化的趋势。微博是国内的主流社交网络平台之一,类似国外的Twitter;截至2018年,活跃用户数达到4.62亿(出自微博数据中心发布的2018年用户发展报告)。人们可以在微博上分享其观点和情感,可以发表微博或对其他用户的微博进行评论。此外,微信、人人等IM工具或平台也有大量的社交信息。

对社交文本进行分析,可发现网络意见领袖,可提取、监控、跟踪网络舆情[1],还可进一步将数据挖掘的结果用于构建情感网络模型,或用于商业领域如产品、服务的智能推荐等。

文本分析的基础是构建表示模型。传统的文本特征表示方案多采用向量空间模型(VSM),将文本表示为特征向量,向量取值代表了特征权重。当文本较短时,特征词数量也较少,且动态性较强,故生成的特征多为稀疏矩阵;随着文本规模的增长,特征向量矩阵的维数巨大,出现了维度灾难,因此文本降维具有重要意义。

传统聚类方法可分为划分法和密度法,前者根据距离等标准,给定分区数K,通过初始划分并反复迭代的方法优化样本的划分,将数据集构造为K个分组,令同一个组内的对象尽可能接近或相关,每个分组代表一个聚类。密度法则是计算区域内点的密度,若密度超过阈值,则加入相似聚类;密度法可克服基于距离的算法只能发现“类圆形”的缺点[2]。

本文希望能进一步提高表示模型构建的准确率,因此尝试对几种主流降维方法进行分析,并在真实数据集上比较其降维效果。在此基础上,结合神经网络实现聚类,将分词后的微博文本表示为特征词簇,从而优化文本表示模型。实验阶段将自组织神经网络的表现与传统k-means算法比较以验证方案的有效性。

2 结合神经网络的文本降维方法

2.1 随机映射(RP)

根据Johnson-Lindenstrauss引理,可以在多项式时间内将高维空间映射到O(log )维的子空间上;同时对于任意0<ε<1,点间距离偏差可控制在1±ε以内。因此对于m×n的矩阵Mm×n,可通过Mm×n·Rn×r = M’m×r(r<<n)的方式降维,其计算复杂度为O(mnr),若原矩阵为稀疏矩阵,可进一步将计算复杂度降至O(cmr),其中c<n为行内非0元素的均值。

2.2 非负矩阵分解(NMF) [3]

由于文本特征矩阵的元素值非负,故可以分解为2个非负矩阵的乘积,即Mm×n = Km×r×Rr×n(r<<n),(m+n)×r < mn。取原矩阵和矩阵R的第i列,可表示为Mi = KRi,则Mi则可视作关于K的正线性组合,系数为Ri。K=[w1, w2, …, wr]可看做是对M进行线性估计的优化的基向量,可尝试用用较少的基揭示M的数据结构。该算法具有收敛快、存储空间小等优点,适用于大规模文本。

2.3 隐含语义分析(LSA)

文本用词多样性并非可靠的概念表示,相反很可能掩盖了其语义结构,因此LSA方法通过奇异值分解实现降维,将矩阵W表示为W=UAVT,U、V分别是对应的左右奇异向量矩阵,A是W按奇异值递减构成的对角矩阵;通过构建近似矩阵Wr=UrArVrT实现降维以突显语义特征,Ur和Vr分别作为文本向量和词向量。通过奇异值分解和近似矩阵设计,LSA在很大程度上消除了文本噪声[4]。但奇异值分解资源开销较高,达到O(mn2),因此LSA通常用于少量文本的处理。此外,若文本为稀疏矩阵,同样可将复杂度降至O(cmn),其中c<n为行内非0元素的均值。3种方法中,RP和NMF的复杂度低于LSA。

2.4 基于神经网络的特征词聚类算法

基本思路为特征词的上下文越相似,其应用环境和语义就越相似[5];因此将特征词左右各n个词计入上下文考虑范围,根据上下文的相似度,使用神经网络实现自动聚类。

具体过程如下:

⑴ 在给定特征词集合的基础上,使用Huffman编码;

⑵ 设置context窗口参数并进行提取,将特征词自身作为第1层DBN的输入,其上下文作为第1层输出,训练DBN,得到最能代表该特征词的窗口向量;

⑶ 将DBN的输出作为SOM神经网络的输入,其输出即为相同或相近语义的特征词聚类结果。

3 实验与结果分析

实验所用硬件为:Xeon 3104×2;16G×8内存;1.2T SAS硬盘×3,Raid5。

本文自建微博数据集,使用分布式的爬虫系统同时通过微博API接口和Web页面提取信息,随机抽取话题;使用中科院的ICLCLAS对抓取的数据进行分词和停用词处理等预处理操作,最后得到分割后的文本单元。

分别运用RP、NMF和LSA等方法作降维处理(r=100和r=200),采用SOM神经网络进行文本聚类分析,在来自4个话题的10万、20万、50万条微博短文本上比较降维用时和聚类平均准确性,结果如表1、表2所示。分析可知:

表1 降维用时 (单位:s)

⑴ 与计算量少的RP方法相比,NMF和LSA的耗时高出许多;后两者间,耗时随着数据集规模增加逐渐接近;在50万条数据集上,无论r取100或200,NMF和LSA的用时基本一致;

⑵ 3种降维方法都能在一定程度上提高聚类的准确率,相比RP,NMF和LSA的聚类准确率有明显提高,能够在一定程序上降低噪声的影响;LSA的准确率最高。

此外,实验中使用了增量算法对文本分块并不断更新表示模型,同时使用了Storm框架提高分析效率,实现文本表示模型的动态更新。具体过程如下:LogHub系统接收文本后,使用并行Spout组件读取文本;将数据副本缓存在IRichBolt中;数据通过增量模型,经聚类和降维后发送到IncrementBolt;最终通过HBase Shell进行实时表示和分析。

4 结论

文本降维是特征矩阵表示模型优化的重要环节,合适的文本降维方法有助于提高聚类准确性。实验数据表明,RP、NMF和LSA方法都能在一定程度上改善聚类表现;基于神经网络的聚类方法相比传统K-means方法也有一定改善。另外,降维矩阵的选择和计算,对于方法用时和准确率也有一定影响,相关参数的计算可作为今后研究的内容。

表2 聚类平均准确率

猜你喜欢

降维准确率聚类
一种傅里叶域海量数据高速谱聚类方法
混动成为降维打击的实力 东风风神皓极
基于知识图谱的k-modes文本聚类研究
基于数据降维与聚类的车联网数据分析应用
一种改进K-means聚类的近邻传播最大最小距离算法
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
大气腐蚀数据降维最优维度研究