APP下载

面向特定方面情感分析的图卷积过度注意(ASGCN-AOA)模型

2022-04-19夏鸿斌

中文信息学报 2022年3期
关键词:集上向量注意力

夏鸿斌,顾 艳,刘 渊

(1.江南大学 人工智能与计算机学院,江苏 无锡 214122;2.江苏省媒体设计与软件技术重点实验室,江苏 无锡 214122)

0 引言

方面级情感分类是近年来备受关注的一项基本自然语言处理任务。与文档级情感分类任务不同,方面级情感分类是一种更细粒度的分类任务, 旨在识别上下文句子中特定方面的情感极性。例如,在句子“The price is reasonable although the service poor”中,“price”和“service”这两个方面词的情感倾向分别是积极和消极。

方面级情感分类克服了文档级情感分类在句子中出现多个方面词只能处理单个方面的限制。在之前的示例中有两个方面词,并且整个句子总体情感都带有正极性和负极性。如果忽略方面信息,则很难确定指定目标的极性,这种错误通常出现在一般情感分类任务中。在以往的一项工作中,Jiang等[1]手动评估了Twitter的情感分类器,发现40%的情感分类错误是由于未考虑方面词。

传统方法[2-3]主要侧重于统计方法,设计一组手工特征来训练分类器(如支持向量机等),需要大量人工协作。近年来,神经网络模型[4-5]受到越来越多关注,因为它们能够由方面词及其上下文自动生成有用的低维度表示,并且能够在没有仔细设计特征的情况下,在方面级情感分析上获得很高的准确性。特别是,可以识别出句中对方面判断积极有利的词。因此,神经网络实现的注意机制[6-7]被广泛应用于方面级情感分类[8-13]。Chen等[9]建立了一个带有门控循环单元网络的多注意力机制模型,用来捕获每个上下文单词和方面词之间的相关性。Ma等[10]设计了一个使用两种注意力机制交互学习方面词和上下文表示的模型。Song等[12]提出了一种注意力编码网络,该网络采用多头注意力机制进行上下文和方面词之间的建模。这些基于注意力的模型已被证明在学习特定于方面的表示是成功和有效的。

尽管上述研究有所进展,却仍有问题存在。基于注意力的模型, 不足以捕获一个句子中上下文单词和方面之间的语法依赖关系。例如,“Its size is ideal and the weight is acceptable.”通常将“acceptable”定义为方面“size”的描述,但实际上并非如此。基于卷积神经网络(CNN)的模型,只能将多词特征感知为连续词,并对词序列进行卷积运算,但不足以确定不相邻的多个单词所描述的情感。例如,“The staff should be a bit more friendly”,如果以“staff”为方面,模型可能会做出错误的预测,将“more friendly”作为描述性短语,而忽略“should be”的影响。但“should be”却将情绪反过来了。

针对这些问题,在文献[14]基础上结合注意-过度注意(AOA)神经网络,本文提出了一种面向方面的情感分类模型(ASGCN-AOA)。采用双向长短时记忆网络(LSTM)层处理相关上下文信息,在LSTM输出之上实现一个多层图数据卷积结构(ASGCN),获得特定于方面的特性。AOA神经网络可以捕获方面和上下文句子之间的交互。实验结果表明ASGCN-AOA能有效解决当前基于方面级情感分类方法的局限性,并优于一系列已知模型。

本文工作的主要贡献包括以下三点:

(1)利用GCN网络的近邻特性对图中节点表示进行编码和更新。

(2)通过引用语法依赖树,GCN网络能够绘制与目标方面语法相关的单词。

(3)结合注意-过度注意(AOA)机制,不仅能自动从方面到文本,还会从文本到方面产生相互关注。

1 面向特定方面情感分析的ASGCN-AOA模型

图1为ASGCN-AOA模型图。该模型主要由ASGCN、AOA和情感分类器组成。

1.1 特定于方面的图卷积网络(ASGCN)

从图1模型图中可看出,ASGCN由词嵌入双向LSTM处理和获取特定方面特征两部分组成。

图1 ASGCN-AOA模型

1.1.1 词嵌入双向LSTM处理

给定一个长度为n的句子s={w1,w2,…,wτ+1,…,wτ+m,…,wn-1,wn},包含m个方面词t={wτ+1,…,wτ+m}的方面词。将每个单词标记嵌入低维实值向量空间与矩阵E∈R|V|×de,|V|是词汇量大小,de表示词嵌入维数。利用句子词嵌入,构造一个双向LSTM生成隐藏状态向量Hs={h1,h2,…,hτ+1,…,hτ+m,…,hn-1,hn},其中hs∈Rn×2dh表示句子s双向LSTM的隐藏状态向量,ht∈Rm×2dh(τ+1≤t≤τ+m)表示方面词t双向LSTM的隐藏状态向量,dh为单向LSTM输出隐藏状态向量的维数。

1.1.2 获取特定方面特征

与一般情感分类不同,基于方面的情感分类主要从方面来判断情绪,因此需要面向方面提取特征。在本文中,通过在句子语法依赖树上应用多层图卷积,并在其上施加一个特定于方面的掩蔽层来获得方面特征。

(1)基于句子依赖树的图卷积

为了解决现有方法的局限性,本文利用了基于句子依赖树的图卷积网络。即在构造出给定句子依赖树后,根据句子中单词得到邻接矩阵A∈Rn×n。需要注意,依赖树是有向图。虽然GCN通常不考虑方向,但它们可以适用于感知方向的场景。因此,本文应用了ASGCN的两个变体,即无方向性依赖图ASGCN-DG和有方向性依赖树ASGCN-DT。实际上,两者唯一的区别在于ASGCN-DT的邻接矩阵比ASGCN-DG的邻接矩阵要稀疏得多。

ASGCN变体在双向LSTM输出之上以多层方式执行,即H0=Hc,以使节点感知上下文。然后通过归一化后的图卷积运算更新每个节点表示因子,本文采用文献[14]基于依赖树的图卷积计算如式(1)、式(2)所示。

(3)

其中,F(·)是一个分配位置权重函数,增加接近方面的上下文词重要性,减少依赖解析过程中自然产生的噪声和偏差。函数F(·)表示为:

(2)非特定方面的屏蔽

在这一层屏蔽掉了非方面词隐藏状态向量,保持方面词状态不变,如式(6)所示。

(6)

1.2 注意-过度注意(AOA)

其中,i为句子单词,j为方面词。

1.3 情感分类器

最终句子表示形式是句子隐藏语义状态的加权和,使用来自AOA模块的句子注意力。

(11)

将这个句子表示作为最终分类特征,并将其反馈到一个线性层中,将r投射到目标C类的空间中。

x=Wl·r+bl

(12)

其中,Wl和bl分别为权值矩阵和偏差。在线性层之后,使用softmax层来计算具有方面t的句子s,其情感极性c∈C的概率如式(13)所示。

(13)

方面目标最终预测情感极性只是具有最高概率的标签。训练该模型以使L2正则化最小化交叉熵损失,如式(14)所示。

(14)

其中,I(·)是指标函数。λ是L2正则化参数,θ是LSTM网络和线性层中一组权重矩阵。应用dropout以避免过度拟合,随机丢弃LSTM单元部分输入。

1.4 学习算法

算法:ASGCN-AOA输入:包含m个方面词的句子s,单词标记嵌入低维实值向量空间与矩阵E∈R|V|×d参数:句子单词邻接矩阵A∈Rn×n,成对交互矩阵I=hs·hLtStep1:双向LSTM生成隐藏状态向量//对句子向量处理 Hs={hs1,hs2,…,hsτ+1,…,hsτ+m,…,hsn-1,hsn} /∗获取特定方面特征∗/Step2: 基于依赖树图卷积计算 h~tl=∑nj=1AtjWlgl-1j;//根据式(1) hlt=ReLU(h~t/(dt+1)+bl);//根据式(2) glt=F(hlt);//根据式(3)Step3: 非特定方面的屏蔽HLt=0 1≤t<τ+1,τ+m

2 实验及分析

为了验证本文提出的ASGCN-AOA模型在方面情感分析上的性能,采用Pytorch深度学习框架实现本文算法,并选择Adam作为优化器来学习模型参数,在Windows 10基于x64处理器,Pycharm 2019,Inter(R)Core(TM)i7-8700k CPU @ 3.70GHz,16GB内存,Python 3.7的环境下进行对比实验分析。

2.1 数据集

本文实验在五个数据集上进行,分别是TWITTER数据集、SemEval 2014任务4的LAP14数据集, REST14数据集、SemEval 2015任务12的REST15数据集、SemEval 2016任务5的REST16数据集。每个数据集由训练集和测试集组成,每句评论中都包含一个或多个方面及其对应情绪极性。即: 积极、中性、消极。表1显示了各数据集统计信息。

表1 数据集统计信息

2.2 实验评价指标

为了比较各个模型算法在处理方面级情感分析的性能,采用准确率(Accuracy)和宏平均(Macro-F1)作为评价指标,定义如式(15)、式(16)所示。

其中,TP是将正类预测为正类数,TN是将负类预测为负类数,FP是将负类预测为正类数,FN是将正类预测为负类数。

2.3 对比模型和参数设置

为了综合评价本文模型的两个变体ASGCN-AOA-DT和ASGCN-AOA-DG,将它们与一系列基线和先进模型进行比较,如下所示:

LSTM: Tang等[16]利用LSTM最后一个隐藏状态向量预测情绪极性。

MemNet: Tang等[17]将上下文视为外部内存,并从多跳架构中获益。

IAN: Ma等[10]用两个基于注意力LSTM网络分别生成方面术语和上下文表示。将上下文表示和方面表示连接起来,用于预测方面情绪极性。

AOA: Huang等[15]借鉴了机器翻译领域的注意-过度注意AOA思想, 捕获方面和上下文句子之间的交互。

ASCNN: Zhang等[14]将ASGCN中2层GCN用2层CNN代替。

ASGCN-DT: Zhang等[14]在句子依赖树上建立一个图形卷积网络(GCN)有方向性依赖图。

ASGCN-DG: Zhang等[14]在句子依赖树上建立一个图形卷积网络(GCN)无方向性依赖图。

ASCNN-AOA: 本文将ASGCN-AOA中ASGCN部分2层GCN用2层CNN代替。

ASGCN-AOA-DT: 本文提出ASGCN-AOA模型的有方向性依赖图变体。

ASGCN-AOA-DG: 本文提出ASGCN-AOA模型的无方向性依赖图变体。

本文模型性能对比实验结果皆是在同等环境下重现得到。使用300维预训练Glove向量初始化单词嵌入,所有模型权重均按均匀分布进行初始化,隐藏状态向量维数设置为300,使用Adam作为优化器,学习率为0.001。L2正则化为0.0001,batch_size为32。GCN层数设置为2。

2.4 实验结果及分析

实验结果如表2所示。可以看出,ASGCN-AOA两个变体在TWITTER、LAP14和REST14、REST15、REST16数据集上均优于LSTM、MemNet、IAN。

表2 5个数据集上不同模型的性能比较 (单位: %)

与ASGCN-DT相比,ASGCN-AOA-DT在REST14数据集上准确率低于ASGCN-DT,而ASGCN-AOA-DG除了在LAP14数据集上宏平均值低于ASGCN-DG,其余各数据集实验结果均高于ASGCN-DG。对于AOA模型,除了在REST14数据集上AOA准确率高于ASGCN-AOA外,在其他数据集上均低于ASGCN-AOA。由此可见,ASGCN-AOA模型相对其他单独的图卷积网络和注意力机制模型,结合两者后的模型, 在学习上下文句子和方面词的有效性,正确判断方面级情感的准确率更高。

此外,ASGCN-AOA-DT在除REST14以外所有数据集上都优于ASCNN-AOA,说明ASGCN-AOA-DT更善于捕获长范围单词依赖,而在某种程度上,ASCNN-AOA显示了方面特定屏蔽带来的影响,可能是REST14数据集对语法信息不敏感造成的。

与此同时,在LAP14、REST14、REST15和REST16数据集中,ASGCN-AOA-DG性能比ASGCN-AOA-DT好得多,可能是因为ASGCN-AOA-DT邻接矩阵比ASGCN-AOA-DG邻接矩阵更稀疏。而对于TWITTER数据集,可能是来自TWITTER数据集的句子语法较少,限制了句子有效性,从而使ASGCN-AOA-DG和ASGCN-AOA-DT在TWITTER数据集上得到次优结果。

2.5 消融实验

为了进一步研究ASGCN-AOA每个组成部分对性能的影响程度,本文对ASGCN-AOA-DG进行了消融研究,重现实验结果如表3所示。其中引用了文献[14]BiLSTM+Attn的结果作为基线,它分别使用两个LSTMS表示方面和上下文。

表3 消融实验不同模型的性能比较 (单位: %)

首先,删除位置权重(即ASGCN-AOA-DG w/o pos.),可以看到模型性能在5个数据集上均下降。从REST14数据集主要结果可以得出结论: 如果语法对用户生成内容不是至关重要的,那么位置权重整合对降低用户生成内容的噪声没有帮助。此外,在剔除特定方面掩蔽(即ASGCN-AOA-DG w/o masking)后,该模型不能保持与ASGCN-AOA-DG w/o pos一样的竞争力。这验证了特定于方面的屏蔽的重要性。

与ASGCN-AOA-DG相比,ASGCN-AOA-DG w/o GCN(即保留位置权值和特定于方面的掩蔽,但不使用GCN层)在所有5个数据集上,它的功能均要弱得多。然而,ASGCN-AOA-DG w/o GCN在除REST14和REST16数据集以外所有数据集上仍然比BiLSTM+Attn稍好一些,这是由于特定于方面的屏蔽机制优势。

而在保留ASGCN,去除AOA模块后,ASGCN-AOA-DG w/o AOA与ASGCN-AOA-DG 相比,其性能下降明显,甚至低于BiLSTM+Attn基线数据。

因此可以得出结论: GCN对ASGCN-AOA的贡献是很大的,因为GCN捕获了语法词依赖关系并同时建立了长期的文字关系。然而,从TWITTER和REST14数据集中能看到,GCN在对语法信息不敏感的数据集上取得的成绩较低。AOA在捕获方面和上下文句子之间的交互,学习方面和句子表示上效果显著,能够自动关注句子中重要部分。

2.6 模型注意力可视化比较

为了更好地理解ASGCN-AOA是如何工作的,图2可视化了AOA、ASGCN-DG和ASGCNAOA-DG三个模型对相关例子的预测,标记出相应方面词。

图2 模型注意力可视化

例如,第一个例句“great food but the service was dreadful!”包含两个方面,这可能会妨碍基于注意力的模型将这些方面精确地与它们的相关描述词对齐。第二个例句“The staff should be a bit more friendly.”使用虚拟语气词“should”,这给检测隐含语义带来了额外困难。最后一个例句包含否定,这很容易导致模型做出错误预测。

AOA在这三个例子中失败了2次。有了位置权重后,ASGCN-DG和ASGCN-AOA-DG都正确地处理了所有三个示例,这意味着GCN有效地将语法依赖信息集成到一个丰富的语义表示中。但从可视化结果可看出,ASGCN-AOA-DG比ASGCN-DG在方面词上的注意力与上下文单词联系上更明显。

3 结束语

以往针对特定方面情感分析的研究主要集中在注意力机制与卷积神经网络。然而基于注意力的模型不足以捕获一个句子上下文单词和方面之间的语法依赖关系,基于卷积神经网络的模型无法获取全局信息。因此,本文在文献[16-17]的基础上,提出了一种基于图卷积网络(GCN)和注意-过度注意(AOA)神经网络的方面情感分析ASGCN-AOA模型。实验结果表明,GCN通过利用语法信息和长期单词依赖来提高整体性能,AOA能够更好地捕获并学习上下文句子与方面。

本文模型虽取得一定的成效,但还可以进一步完善。例如,语法依赖树的边缘信息,即每个依赖树的标签边缘,在这个工作中没有被利用。

猜你喜欢

集上向量注意力
向量的分解
让注意力“飞”回来
GCD封闭集上的幂矩阵行列式间的整除性
聚焦“向量与三角”创新题
基于互信息的多级特征选择算法
如何培养一年级学生的注意力
A Beautiful Way Of Looking At Things
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
师如明灯,清凉温润