卷积神经网络语言模型研究

2017-03-16田晓艳

科技创新与应用 2017年5期

田晓艳

摘要：卷积神经网络在自然语言处理中的应用是近年的研究热点。文章通过对几项典型工作的分析，研究了卷积神经网络在各项自然语言处理任务中的性能与效果。并对卷积神经网络语言模型的改进规律进行了总结。

关键词：卷积神经网络；语言模型；分析

1 卷积神经网络语言模型

CNN语言模型基本结构包括输入层、卷积层、池化层及后续的分类层。输入层是表示语言的矩阵，该矩阵可以是通过Google word2vec或GloVe预训练得到的词嵌入表示，也可以是从原始数据重新训练的语言的向量表示。输入层之后是通过线性滤波器对输入矩阵进行卷积操作的卷积层。在NLP问题中，输入矩阵总是带有固定顺序的结构，因为矩阵的每一行都表示离散的符号，例如单词或者词组等。因此，使用等宽的滤波器是非常合理的设置。在这种设置下，仅需要考虑滤波器的高度既可以实现不同尺寸的滤波器做卷积操作。由此可知，在处理NLP问题时，卷积神经网络的滤波器尺寸一般都是指滤波器的高度。

然后，将卷积层输出的特征映射输入池化层，通过池化函数为特征映射进行降维并且减少了待估计参数规模。一般的，CNN池化操作采用1-max池化函数。该函数能够将输入的特征映射统一生成维度相同的新映射。通过池化操作，可以将卷积层生成的特征连接成更抽象的高级特征，所得到的高级特征尺寸与输入的句子不再存在直接关系。

最后，将得到的高级特征输入softmax分类层进行分类操作。在softmax层，可以选择应用dropout策略作为正则化手段，该方法是随机地将向量中的一些值设置为0。另外还可以选择增加l2范数约束，l2范数约束是指当它超过该值时，将向量的l2范数缩放到指定阈值。在训练期间，要最小化的目标是分类的交叉熵损失，要估计的参数包括滤波器的权重向量，激活函数中的偏置项以及softmax函数的权重向量。

2 卷积神经网络语言模型应用分析

CNN语言模型已经广泛应用于诸如文本分类，关系挖掘以及个性化推荐等NLP任务，下面将对这些应用进行具体的介绍与分析。

2.1 CNN在文本分类中的应用分析

kim提出了利用CNN进行句子分类的方法。该方法涉及了较小规模的参数，并采用静态通道的CNN实现了效果很优异的句子分类方法。通过对输入向量的调整，进一步提高了性能实现了包括情感极性分析以及话题分类的任务。在其基础上为输入的词嵌入设计了两种通道，一种是静态通道，另一种是动态通道。在卷积层每一个滤波器都通过静态与动态两种通道进行计算，然后将计算结果进行拼接。在池化层采用dropout正则化策略，并对权值向量进行l2约束。最后将该算法应用于MR、SST-1与SST-2、Subj、TREC、CR以及MPQA等数据集。MR数据集为电影评论数据集，内容为一句话的电影评论，其分类包括积极情感极性与消极情感极性两类。SST-1与SST-2数据集为斯坦福情感树库是MR数据集的扩展，但该数据集已经划分好了训练集、验证集及测试集并给出了细粒度的标记，标记包括非常积极、积极、中性、消极、非常消极等情感极性。Subj数据集为主观性数据集，其分类任务是将句子分为主观句与客观句两类。TREC数据集为问题数据集，其分类任务是将所有问题分为六类，例如关于数字、人物或位置等信息的问题。CR数据集为评论数据集，包括客户对MP3、照相机等数码产品的评论，其分类任务是将其分为积极评价与消极评价两类。MPQA数据集是意见极性检测任务数据集。通过实验证明，该方法在这几个典型数据集上都能取得非常优异的效果。

2.2 CNN在关系挖掘中的应用分析

Shen等人提出了一种新的潜在语义模型，以词序列作为输入，利用卷积-池化结构为搜索查询和Web文档学习低维语义向量表示。为了在网络查询或网络文本中捕捉上下文结构，通过输入单词序列上下文时间窗口中的每个单词来获取词汇级的n-gram语法特征，将这些特征聚合成句子级特征向量。最后，应用非线性变换来提取高级语义信息以生成用于全文字符串的连续向量表示。该模型的不同之处在于，输入层与卷积层之间加入了word-n-gram层与letter-trigram层，它们能够将输入的词序列转变为letter-trigram表示向量。在卷积层通过上下文特征窗口发现相邻单词的位置特征，并变现为n-gram形式。然后通过max池化将word-n-gram特征合并为句子级的高级特征。在池化层之后增加了语义层来提取更高级的语义表示向量。

2.3 CNN在个性化推荐中的应用分析

Weston等人提出了一种能够利用标签（hashtag）有监督的学习网络帖子短文本特征表示的卷積嵌入模型（Convolutional Embedding Model）。该方法利用提出的CNN模型在55亿词的大数据文本上通过预标注的100，000标签进行训练。该方法除了标签预测任务本身能取得好的效果外，学习到的特征对于其它的文本表示任务也能起到非常有效的作用。该模型与其它的词嵌入模型类似，输入层为表示文本的矩阵，但是，在用查找表表示输入文本的同时将标签也使用查找表来表示。对于给定的文档利用10万条最频繁出现的标签通过评分函数对任何给定的主题标签进行排序。

其中，econv（w）表示CNN的输入文档，elt（t）是候选标签t的词嵌入表示。因此，通过对分数f（w，t）进行排序可以获取所有候选主题标签中排序第一的话题进行推荐。实验数据集采用了两个大规模语料集，均来自流行的社交网络文本并带有标签。第一个数据集称作people数据集，包括搜集自社交网络的2亿1000万条文本，共含有55亿单词。第二个数据集被称作pages，包括3530万条社交网络文本，共含有16亿单词，内容包括企业、名人、品牌或产品。

3 结束语

卷积神经网络应用于语言模型已经取得了非常大的发展，对于自然语言处理中的各项任务均取得了优异的结果。本文通过对几项典型工作的分析，探讨了不同卷积神经网络模型结构在不同任务中的表现。通过综合分析可以得出以下结论。首先，CNN的输入采用原始数据训练的向量表示一般效果会优于预训练的词嵌入表示；其次，在卷积层滤波器的尺寸一般采用宽度与输入矩阵宽度相等的设置；最后，为了优化结果可以采用dropout正则化处理。

参考文献

[1]Graves A， Mohamed A R， Hinton G. Speech recognition with deep recurrent neural networks[J].2013，38（2003）：6645-6649.