基于语义强化和特征融合的文本分类

2020-03-02王子牛王宏杰高建瓴

软件 2020年1期

王子牛王宏杰高建瓴

摘要：文本分类是信息检索、机器问答的基础性任务，是自然语言理解的一项重要语义任务。本文提出了一种基于语义强化和特征融合的（LAC）分类模型。该模型首先将Word2vec嵌入的词向量输入LSTM进行句子语义的提取，然后将提取的语义特征输入Attention层进行特征的强化，同时用卷积层提取文本的局部特征，其次把强化的语义特征和利用卷积层提取的局部特征进行融合，最后经池化层对特征进行降维，并将经池化后的特征向量输入到全连接层，引入Dropout防止过拟合，得到最终的分类结果。由于CNN提取特征时存在忽略上下文信息的弊端，所以提出用LATM提取上下文信息，然后进行特征的融合的方法;另外，由于LSTM在捕获句子信息时会因为距离过长而出现的信息遗漏现象，所以提出将Attention作用于LSTM。通过实验表明，本文提出的模型比单独的CNN模型、以及先用LSTM提取语义信息，在进行局部特征提取的LSTM-CNN模型的效果更好。

关键词：特征融合;神经网络;LSTM;Attention;自然语言处理

中图分类号： TP391 文献标识码： A DOI：10.3969/j.issn.1003-6970.2020.01.046

本文著录格式：王子牛，王宏杰，高建瓴. 基于语义强化和特征融合的文本分类[J]. 软件，2020，41（01）：211215

【Abstract】： Text classification is a basic task of information retrieval and machine question answering and an important semantic task of natural language understanding. This paper proposes a classification model based on semantic reinforcement and feature fusion （LAC）. The model will first word sentence semantic vector input LSTM are extracted， and then extract the semantic characteristics of the input characteristics of the strengthening of the Attention layer at the same time the local characteristics of convolution layer was used to extract text， secondly to reinforce the semantic characteristics and utilization of the local characteristics of convolution layer of fusion， finally the pooling layer for feature dimension reduction， and after pooling feature vector input to full connection layer， introducing the Dropout prevent fitting， get the final classification result.Due to the disadvantage of ignoring context information when CNN extracts features， a method of extracting context information by Lstm and then fusing features is proposed. In addition， since LSTM may miss information due to the long distance when capturing sentence information， it is proposed to apply attention to LSTM.Experiments show that the model proposed in this paper is better than the CNN model alone and the LSTM model used to extract semantic information first， and the lstm-cnn model used to extract local features is better.

【Key words】： Feature fusion; The neural network; LSTM; Attention; Natural language processing

0 引言

隨着互联网技术和科学技术的不断发展，人们的交流沟通方式发生了翻天覆地的变化。聊天的媒介由最原始的纸质媒介转变为现在的电子媒介，一些新型的电子工具，例如：微博、微信、QQ等时时刻刻在影响并且改变着人们的生活。随着海量数据的不断产生，国家对人工智能[1]、大数据等新兴技术的宣传和投入，人们如何有效合理的利用这些信息渐渐成为了科研工作者的研究重点。因此，文本分类进行理论的研究以及具体的实践，对于解决上述的问题，有着十分重要的现实意义。中文文本分类是自然语言处理（NLP）领域的一个重要分支，是信息检索[2]、数字图书馆[3]等领域的基础技术。传统的文本表示方法存在着维数高，数据稀疏等问题，随着深度学习在文本方面的运用，这些问题渐渐被解决。目前自然语言处理任务的两大主流模型是卷积神经网络（CNN）和循环神经网络（RNN）以及他们的变体[4]。这些模型都取得了良好的效果。

文本分类技术，在它的漫长的发展过程中，可以被概括为以下三个阶段：基于知识工程（KE）、基于机器学习（ML）和基于神经网络（NN）。第一，探索阶段（1960-1963）：1960年，Maron发表了第一篇关于文本分类的论文，并对文本自动分类进行了初步研究[5];1963年，Gerald Salton提出了矢量空间模型（VSM）用于文本的表示[6]。第二，理论研究阶段（1963-1989）：侯汉清教授对中文文本分类的发展方向进行了理论性的指导同时介绍了国外计算机在自动分类系统、分类检索等方面的运用。在此之后，国内才正式开始了对中文文本分类技术的研究。1987年，王继成等人研究出了中文文本分类系统。第三，应用实践阶段（1990年至今）：机器学习方法与知识工程方法相比具有精度高、易于实现的优点。基于知识工程的文本分类，因其可移植性差、不可跨领域操作、规则制定过程繁杂等缺点，90年代末期被机器学习的分类方法[7]所取代。

深度学习最初运用于图像识别和语音识别领域，近些年在自然语言处理领域也取得了很大的成功[8]。特别是在2014年Kim.Y提出CNN用于句子分类之后，深度学习技术逐渐取代了传统的机器学习方法已成为主流文本分类技术。2015年，Lai等人提出了一种无人工特征的循环卷积神经网络分类方法RCNN[9]，大大提高了文本分类的正确性;2016年，Bahdanau等将注意力机制应用到自然语言处理（NLP）领域的机器翻译[10]，在翻译准确率上较传统神经网络模型有较大提高;2016年，Yang等人提出了一种用于文档分类的层次注意力机制网络，在构建文档时对文档内容赋予不同的权重，简称HAN[11];2017年，Joulin等人提出了一种高效的文本分类模型fastText[12]，Johnson和Zhang提出了一种基于单词粒度级别的深层CNN模型，简称DPCNN[13]，通过增加网络的深度提取更加优质的特征，进而提高分类的性能;2018年，黄民烈教授团队提出了一种具有自适应注意力机制的密集型连接的卷积神经网络，简称DCCNN[14]，由于获得的特征尺度比较丰富，注意力机制又能够自行的选择合适的特征用于文本分类，预测精度都有所提高;2019年，Shen和Yi kang等人提出ON-LSTM[15]，这篇论文的想法是将树结构集成在递归神经网络中，在语言建模方面取得良好的性能。

深度学习在文本处理领域实现了重大突破，获得比较好的成绩。这跟文本向量的表示和文本特征的提取有密切的关系。文本向量空间模型表示方法与神经网络的组合使得提取到的文本特征向量越来越精简而具有代表性。深度学习虽然提供了一种有效的方法来减少人工提取特征的数量，但是这些方法仍然是需要词汇资源，都依赖于获得高级别的特征。

本文中提出一种基于语义强化和特征融合的模型。该模型利用长短时记忆网络（LSTM）提取句子中重要的语义信息，利用自注意机制（Attention）对句子中的单词的关联性做进一步的强化，然后与利用CNN提取的特征进行融合。这些都没有使用先检的知识或者自然语言处理系统，没有利用任何的外部的语法信息。本文基于THUCNews新闻文本分类数据集的子集，分别对CNN、LSTM-CNN、LSTM-ATT-CNN进行了相关的实验，结果表明本文提出模型更加具有竞争性，取得了更好的效果。

1 LAC模型

1.1 模型结构图

本文提出的LAC模型结构如图1所示。

该模型由8部分组成：

（1）输入层：输入句子。

（2）嵌入层：将句子中单词利用Word2vec映射到低维度。

（3）LSTM层：利用LSTM层获取文本语义特征。

（4）Attention层：进一步强化LSTM提取的语义特征。

（5）卷积层：提取文本的局部特征。

（6）特征融合：利用TensorFlow框架将（4）和（5）的特征融合，获得更加科學的表达。

（7）池化层：特征降维，减少过拟合。

（8）SoftMax层：对文本进行分类。

1.2 文本向量化

为了机器能够理解自然语言，首先需要将自然语言符号数学化，即文本向量化[16]。文本向量化直观理解为将一篇文章表示为0、1向量。

文档用Z表示，一篇文档用Y个句子表示，句子用向量S表示。句子S由N个单词组成，表示一个单词向量。S中的每一个单词进一步被表示为，是一个需要学习的参数，v是指词汇表的大小，是指词向量的嵌入维度。是大小为的向量，在索引为的位置值为1，其他位置值为0。

1.3 LSTM网络模型

循环神经网络（RNN）在学习模型参数时，随着网络层数的增加，会出现只有靠近输出端的参数更新而远离输出端的参数难以学习和更新的情况，为了解决这个问题提出了RNN的变体长短时记忆网络（LSTM）[17]。它被用于机器翻译[18]、图像分析[19]、语音识别[20]等许多的领域，渐渐成为解决自然语言处理问题的主流方向。LSTM模型如图2所示。

2 实验结果分析

2.1 数据集

基于THUCNews新闻文本分类数据集的子集，选取金融、房地产、体育、家居、教育、科技、时尚、政治、游戏、时尚等十大类作为实验数据，每个类别6500条数据。数据集语料库分配：训练集5000*10，验证集500*10，测试集1000*10。

2.2 实验参数

2.3 实验结果对比

本文的实验涉及到的开发工具跟实验环境如下：

硬件环境：CPU：Inter（R） Core（TM） i5-7500 CPU@3.4 GHz 3.41 GHz，