面向领域新闻的词汇输入预测

2023-01-31张明西马悦荣林启新

计算机工程与设计 2023年1期

张明西，马悦荣，林启新

(上海理工大学出版印刷与艺术设计学院，上海 200093)

0 引言

词汇输入预测[1]通过理解文本并依据上下文在给定一组词汇的情况下预测下一个词汇，进而达到提高用户输入效率的目的。在新闻行业，新闻时效性是体现新闻价值的重要因素。词汇输入预测可应用于撰写新闻报道来提高写稿效率。

长短期记忆网络(long short-term memory，LSTM)作为典型的时间序列预测模型，已经广泛应用于交通流速预测[2]、语音识别[3]、新冠走势预测[4]等不同领域的时序数据研究，同时为词汇输入预测提供一种有效解决思路。首先，LSTM利用长距离的时序信息预测后序时间序列。用户输入词汇具有前后顺序，符合LSTM输入序列在时间维度上的递归结构。其次，LSTM训练采用基于时间的反向传播算法，通过不断调整参数加强输入至输出的映射，能够根据输入找出规律，输出合适的词汇。再次，LSTM的记忆机制综合考虑了存储历史序列信息的长期记忆和保留近期输入序列信息的短期记忆，因此输出的结果符合用户的用词习惯。

在领域新闻中，用户的难点在于通用的停用词比较容易输出，而与行业相关的高频词汇则不易输出。例如，当用户输入“比赛”时，会优先推荐“了”、“的”等通用的停用词，但在体育新闻中常用于“比赛”序列后的高频词汇如“获胜”等则不会优先推荐。LSTM模型依据用户习惯、输入序列，对于不同行业里使用的高频词汇缺少考虑。

为此，文中结合样本修剪在LSTM模型上开展领域新闻词汇输入预测研究。依据领域新闻文本中词汇前后序列间的强弱关系进行词汇关系的修剪，采用优化后的文本数据训练LSTM来生成词汇输入预测序列，对记者输入的词汇预测下一个词汇，提高准确率的同时提高了输入效率。

1 相关工作

近些年来，大量的研究者在词汇输入预测方面开展研究。典型的词汇预测方法包括N-gram模型、RNN模型、LSTM模型等。

基于统计语言模型的词汇预测利用序列中词汇的概率分布进行预测。Yazdani等[5]引入Tri-gram语言模型进行文本预测，通过显示下一个词汇的建议列表，减少用户输入文本时的打字时间消耗。Goulart等[6]提出基于朴素贝叶斯和潜在语义分析(LSA)理论的混合词汇预测模型，考虑词汇之间的句法/语义规则来减少训练时间，通过梯度下降技术优化参数进而提高预测的准确率。Tofique等[7]提出新术语“相互语境”，通过用户双方的4个语境属性生成相互语境，考虑用户之间的相关性。

基于深度学习的方法利用语料库进行神经网络训练来实现词汇预测。Barman等[8]利用RNN对标音转录的阿萨姆语进行训练得到更好的下一个词汇预测效果。Habib等[9]提出LSTM-CONV1D模型，用于远程医疗服务中的下一个单词预测，简化阿拉伯语环境下医生的医疗建议书写过程。Ghosh等[10]提出了CLSTM(上下文LSTM)模型，通过将上下文向量附加到输入的词汇上，利用词汇和主题作为特征来提高词汇输入预测的性能。赵璐偲等[11]引入基于BERT特征的LSTM网络用于电子病历输入文本的句子推荐。张楠等[12]基于Transformer翻译模型, 提出神经机器翻译方法用来联合预测小写形式英文单词及其对应大小写属性。Sukhbataa等[13]引入递归神经网络来预测文本序列的下一个词汇，通过端到端训练减少训练过程中需要的监督，更普遍地适用于词汇输入预测的现实环境。

2 系统流程的框架

面向领域新闻的词汇输入预测系统的流程框架如图1所示，主要分为离线和在线两个阶段。其中，离线阶段主要是删除领域新闻数据集文本词汇间的弱关系，具体步骤为：文本预处理，对文本进行分句、清洗、去停用词、分词等；构建词汇网络，基于文本的词汇前后序列关系构建词汇网络；前后两个词汇的相关度计算，借鉴TFIDF思想构建词汇相关度度量模型计算词汇之间的相关度，并设置阈值去除网络中相关性弱的关系；删除词汇之间的弱关系，提取弱关系词汇，在原文本中进行词汇关系的分割与删除。

图1 系统的流程框架

在线阶段主要是为用户输入的词汇预测下一个词汇，具体步骤为：词汇输入预测模型，使用删除弱关系的文本数据训练LSTM模型直至训练完成；下一个词汇排序并推荐，根据用户输入的词汇，模型预测下一个词汇的概率由大到小排序，取topk的建议列表推荐给用户；用户根据词汇建议列表选择合适的词汇，若还未完成输入，则模型根据被选择的词汇再次预测下一个词汇，直至用户输入完成并输出结果。

面向领域新闻的词汇输入预测系统根据记者撰写新闻报道的领域来提供与该领域相关的词汇，通过构建网络、相关度计算、去噪等操作更加准确地提供与输入词汇相关度高的下一个词汇，提高记者的写稿质量和速度。

3 输入序列表示

为了消除领域新闻中词频对词汇预测准确率的影响，需优化文本数据来进一步明确输入序列表示。主要通过词汇序列间的关系构建词汇网络，借鉴TFIDF思想构建词汇相关度度量模型删除词汇间的弱关系实现去噪，再还原为相应的文本数据。

3.1 词汇网络构建

领域新闻文本数据量庞大，通过构建词汇网络来快速且精确地得到整个文本的词汇序列关系。TextRank[14]是一种基于图的排序算法，通过把文本分割成若干词汇，利用共现窗口构建词汇之间的关系建立词图模型。因此，可以借鉴TextRank算法建立词图的思想，基于原文中词汇前后序列的关系建立词汇有向图，进而构建词汇网络。主要步骤如下：

步骤1 对领域新闻文本R依据分离句子结束符进行分句，得R1=[S1,S2,S3,…,Sn]；

步骤2 对文本R1依次去停用词、数字、特殊字符来清洗文本，采用基于字典的分词方法对每个句子进行分词即Si=[w1,w2,w3,…,wm]，得R2=[w1,w2,w3,…,wn]；

步骤3 基于文本R2中的词序关系，以前一个词汇指向后一个词汇的顺序遍历R2建立有向词图。

上述步骤建立有向词图G=(V,E)，其中V为词汇节点的集合，即步骤2得到的词汇R2=[w1,w2,w3,…,wn]，E为有向边的集合，即由节点wi→wj构造有向边。每次以当前词汇位置依据先后顺序向右遍历全文得到两个词汇之间相同有向边的总数量，即两个节点之间的权值，从而构建词汇网络，如图2所示。

图2 构建词汇网络

图2中左边为原始文本，右边为构建的词汇网络。每个词汇都为一个节点，两个节点间的连接则为边。对于原始文本中的一个词汇，定义这个词汇在文本前后序列中的后一个词汇为后继词汇。在原始文本中，词汇“世界杯”的后继词汇分别有“冠军”和“小组赛”，所以在相应的词汇网络中词汇“世界杯”指向词汇“冠军”和“小组赛”；词汇“欧洲”的后继词汇只有“冠军”，所以词汇“欧洲”只指向“冠军”；词汇“冷门”和“魔咒”没有后继词汇，所以在相应的词汇网络中没有指向任何一个词汇。

3.2 词汇关系度量

词汇网络中存在许多相关性弱的关系，在预测时未考虑这些噪音的干扰，以致预测结果的准确率较低，因此，需计算词汇之间的相关性大小进而达到去噪的目的。TF-IDF用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度，广泛应用于数据挖掘、文本处理和信息检索等领域[15,16]。同样，可以借鉴这种思想来构建词汇相关度度量模型计算文本中词汇之间的相关性，来评估一个词汇对另一个词汇的重要程度。一个词汇的重要性随着它作为另一个词汇的后继词汇出现的次数成正比增加，但同时会随着它作为所有词汇的后继词汇出现的频率成反比下降。

F为给定的词汇b作为词汇a的后继词汇所出现的频率。fb为词汇b作为词汇a的后继词汇所出现的次数。mb为词汇a所有的后继词汇出现次数总和。F值可计算为

(1)

定义D为词汇b普遍重要性的度量。如果词汇b作为不同词汇的后继词汇出现的频率越低，D也就越大。用 |W| 表示文本中所有词汇的总数，用 |Q| 表示文本中后继词汇为词汇b的词汇a总数。D值可计算为

(2)

如果词汇b为词汇的后继词汇出现的频率高，并且作为其它词汇的后继词汇出现次数少，则说明词汇b对词汇a的重要程度高，相关度高。定义T为F与D的乘积，乘积越大，则说明两个词汇之间的相关度越高。T值可计算为

T=F×D

(3)

文本中词汇的后继词汇包括许多相关性低的无用词汇，不仅降低预测准确度同时也增加了计算的开销。系统通过设置阈值的方式去除词汇间的弱关系，通过去噪达到优化词汇网络的目的。用Y表示去除词汇a序列后的噪声词汇而设置的阈值，可计算为

Y=(Tmax-Tmin)×μ+Tmin

(4)

式中：Tmax为词汇a的后继词汇中最大的T值；Tmin为词汇a的后继词汇中最小的T值；μ∈[0,1]是用来控制去除数据的范围；当词汇b在词汇a序列后的T值大于Y，则保留两个词汇之间的关系；否则，去除两个词汇之间的关系。通过设置阈值修剪词汇关系，实现词汇网络的优化。参数μ取值越大，产生的阈值就越大，词汇网络也就会越稀疏，反之亦然。

3.3 删除词汇之间的弱关系

对于优化后的词汇网络需还原为文本数据，对原文本中词汇之间的弱关系进行分割与删除。主要步骤如下：

步骤1 在词汇网络中提取出T值低于阈值的两个词汇之间的关系。

步骤2 基于词汇前后序列关系，每次以当前位置开始向右遍历文本R2的过程中，对步骤1所提取出的弱关系词汇使用分割符在词汇之间进行分割得到文本R3。

步骤3 对文本R3再进一步修剪，若两个分割符中间只存在一个词汇时，则删除这个词汇以及只留下一个分割符，最后得到文本R4。

在遍历完整个文本的同时删除了所有词汇之间的弱关系，得到优化后的文本数据，从而明确输入序列表示。

4 词汇输入预测模型

词汇输入序列具有前后时间顺序的结构特点，LSTM的输入序列在时间维度上呈递归结构，因此，LSTM适用于词汇输入预测，能够根据用户输入的词汇来返回下一个词汇的topk建议列表。

4.1 长短期记忆网络

LSTM网络是由Hochreiter & Schmidhuber[17]提出能够学习长期依赖关系的特殊RNN。与标准RNN在神经网络的重复模块具有简单的单层结构不同，LSTM的重复模块通过4个神经网络层结构以非常特殊的方式进行交互[18]，如图3所示。

图3 LSTM结构

ft=σ(Wf·[ht-1,xt]+bf)

(5)

it=σ(Wi·[ht-1,xt]+bi)

(6)

(7)

(8)

ot=σ(Wo·[ht-1,xt]+bo)

(9)

ht=ot*tanh(Ct)

(10)

4.2 词汇输入预测模型

基于LSTM的词汇输入预测模型的整体架构如图4所示，模型主要由输入层、隐藏层、输出层组成，其中隐藏层由三层LSTM层和一层DROPOUT层组成。根据文本数据中词汇出现的频率为每一个词汇进行编号来构建字典，同时生成逆序字典以解码 LSTM输出数值为相应词汇。在使用优化的文本数据训练LSTM过程中，LSTM的输入为词汇对应的整数向量，输出为Softmax激活函数归一化后的预测概率向量，采用Adam优化器达到最小损失函数的目的，通过不断更新迭代模型权重得到最优模型。根据用户输入的词汇，模型依据预测概率向量，通过对概率进行逆序排序，并使用逆序字典解码得到相应的topk词汇建议列表。

图4 基于LSTM的词汇输入预测模型

4.2.1 分类交叉熵损失函数

交叉熵损失函数通过最小化交叉熵得到目标概率分布之间的差异来衡量人工神经网络(artificial neural networks，ANN)的预测值与实际值，其中分类交叉熵损失函数(categorical_crossentropy)适用于多分类问题，而词汇输入预测任务相当于把每个词汇当作一个类别，通过预测下一个词汇即某个类别的概率大小进行排序推荐，因此也可看作为一个多分类问题。损失是多类标签与Softmax()函数计算得到的预测值之间的交叉熵大小，能够准确衡量模型的训练程度以便于后续优化，公式如下定义

(11)

4.2.2 Adam优化器

Adam优化器集成Ada Grad和RMSProp算法的优势, 能够计算不同参数的适应性学习率同时消耗更少存储资源，经过偏置校正后，对于每个迭代学习率都有一个固定的范围来稳定参数，并通过梯度的一阶矩估计和二阶矩估计动态调整学习率。计算公式[20]如下所示

(12)

5 实验结果与分析

5.1 实验设置

5.1.1 实验环境

实验使用的CPU是Intel(R)Core(TM)i5-8250U,内存是8 GB。优化数据集算法部分由Java编写，开发的环境为Eclipse Java 2019。词汇输入预测部分由Python编写，开发的环境为PyCharm 2019。

5.1.2 实验数据及参数设置

实验所用的数据集见表1。实验中模型的LSTM隐藏层节点数设置为512，初始学习率设置为0.001，数据批处理量batch_size设置为128，dropout层损失率设置为0.2。

表1 实验数据集

5.1.3 评估方法

评估语言模型的直接方法是映射其准确性，所以在实验中随机选择100个中文词汇进行实验效果评估。其ground truth为原始数据集文本去掉通用停用词后的文本序列中前后两个词汇的关系。采用平均精度均值(mean ave-rage precision，MAP)来评估词汇输入预测结果的准确性。首先平均精度均值(MAP)定义为

(13)

式中：Z为词汇输入的次数；Lk(Wi) 为词汇Wi输入后预测结果的前k个词汇的平均精度函数。Lk(Wi) 定义为

(14)

式中：n为处于预测结果的位置j时的相关词汇数量；rel(j) 表示位置j上的词汇是否相关，不相关为0，相关为1。

5.2 不同参数设置对应的MAP值

LSTM-opt为文中所提方法的模型，图5(a)、图6(a)为取不同参数μ的LSTM-opt模型对应的MAP值，其中k分别为5，10，15。参数μ是用来控制去除词汇关系网络中弱关系的范围，减少噪音对词汇输入预测的影响。当μ取值为0.1时，MAP值最高，随着μ的持续增长，由于删除过多词汇之间的关系，网络过于稀疏，导致MAP值快速下降。

图5 体育新闻数据集对应的MAP值

图6 财经新闻数据集对应的MAP值

图5(b)、图6(b)、图7和图8分别为不同数据集的参数k对应的MAP值。通过观察可知，随着k的不断增加，MAP值呈不断下降趋势。因为当k的取值较小时，检索结果的范围小，检索出的相关词汇与输入词汇都有较高的相关性，所以MAP值较大。但是随着k的不断增加，检索范围的扩大，检索出来的弱相关词汇也随之增加，导致MAP值持续下降。从而可知返回结果中越靠前的词汇与输入词汇的相关性越大，进一步说明本文方法返回的预测结果具有合理的排序。

图7 娱乐新闻数据集参数k对应的MAP值

图8 时政新闻数据集参数k对应的MAP值

其次，随着k的增加，LSTM-opt(μ=0.1)模型的MAP值皆大于基准的LSTM模型的MAP值，这是因为基准LSTM模型训练的数据集的词汇网络中存在许多的弱关系，不仅增加相关性计算的开销，并且在词汇输入预测结果中产生噪音词汇，导致准确率偏低。与之不同的是LSTM-opt(μ=0.1)模型由于删去了部分词汇之间的弱关系，实现了一定的去噪，优化了词汇网络，从而显著地提高词汇输入预测的准确率。

5.3 实例研究

通过随机选择4个词汇进行实例展示来更清晰直观地观察实验结果。面向体育新闻的词汇输入预测返回的结果见表2。由于训练的数据集是体育领域新闻报道，所以返回的词汇都与体育领域紧密相关。例如，当输入“比分”时，返回的词汇依次为“扳平”、“改写”、“差距”等。在体育新闻中，“比分扳平”、“比分改写”、“比分差距”等都是常用的高频词组搭配，两个词汇之间存在较高的相关性，因此非常符合体育新闻记者的写稿习惯及要求。类似地，“球员”、“决赛”、“媒体”的返回结果也都满足体育新闻记者的需求。

表2 面向体育新闻的词汇输入预测返回的词汇序列

面向财经新闻的词汇输入预测返回的结果见表3。当输入“股市”时，返回的词汇依次为“大跌”、“上涨”、“下滑”等，而“股市大跌”、“股市上涨”、“股市下滑”在财经新闻中也都为常用词组搭配，因此也完全符合财经新闻记者的写稿习惯及要求。通过实例研究与分析，本文的方法能够更加准确地返回记者所期望的结果，提高作者的写稿速度。

表3 面向财经新闻的词汇输入预测返回的词汇序列

6 结束语

文中研究与设计了一种面向领域新闻的词汇输入预测方法，实现了领域新闻记者的输入预测功能。基于领域新闻文本的词序关系构建词汇网络，借鉴TFIDF模型的思想构建词汇相关度度量模型，通过修剪词汇关系来优化词汇网络，进一步优化用来训练LSTM的文本数据。利用训练好的LSTM模型，根据输入词汇得出前k个最相关的词汇。通过大量实验结果表明，与传统LSTM模型相比，文中结合样本修剪的方法有效地提高了领域新闻词汇输入预测的准确率，满足了各领域新闻记者写稿需求。在未来工作中，将着重于优化模型结构方面来进一步提高模型预测的准确率。