基于相关词向量的彝文分词模型研究

2023-04-13汪文涛

现代计算机 2023年3期

汪文涛

（西南民族大学电子信息学院，成都 610041）

0 引言

彝文自动分词是使用统计学习、机器学习或深度学习的方法标注数据训练模型，达到自动将彝文的句子切分成多个词组成的序列。彝文分词可以将彝文文本切分成自然语言处理的基本分析单位，尽管在其他下游任务中可以用字作为基本分析单位，但每个词之间隐含的特征关系能够帮助模型更好地收敛，为进一步开展彝文相关的自然语言应用，例如机器翻译、文本分类、阅读理解、情感分析等打下坚实基础。

彝文和中文类似，没有天然的分割符号，对中文分词的研究也能给彝文分词带来启发和理论基础。早在上世纪80 年代就提出了基于词表的分词方法，其中刘源［1］介绍了正向最大匹配法，逆向最大匹配法等使用词表来分词的方法。Xue［2］使用最大熵算法，利用四位标注集进行分词。Peng 等［3］构建线性链条件随机场实现中文分词。深度学习相关的模型能够从数据中学习到深层次的特征关系，在数据集足够的情况下在自然语言处理中也有更好的表现。Zheng等［4］首次将神经网络应用于中文分词中，并用感知机算法加速训练过程。Chen 等［5-6］人提出了GRNN（gated recursive neural network）模型，并且首次将其应用在中文分词上，测试性能与之前的传统机器学习方法相同。Yao 等［7］提出了双向LSTM 模型应用于中文分词，进一步提高了分词准确率。而彝文分词研究也是沿着中文分词的研究方向发展，主要是基于词典的机械分词方法，利用最大、最小匹配法［8］来实现分词，或者是基于机器学习（隐马尔可夫［9］或条件随机场［10］）方法来实现机器分词。

本文主要在前人的研究基础上将深度学习方法应用于彝文分词上，使用BILSTM-CRF模型训练，并且鉴于彝语资源较少无法充分提取特征的情况，充分利用词典在原模型的基础上加入相关词向量特征，提高模型性能。

1 相关工作

1.1 LSTM网络

长短期记忆（long short-term memory, LSTM）是在循环神经网络（recurrent neural network,RNN）的基础上对神经单元结构做出调整，而保留整个序列模型的框架。由于其神经元结构的特殊性能够筛选出过去和未来时刻的有效信息，但由于LSTM 神经单元结构更加复杂并且仍然是序列模型，其训练时间会变得更长。LSTM 的总体结果与RNN 类似，当前时刻的网络与上一时刻的网络之间是有关系的，如图1 所示，y是LSTM的隐层输出，x为LSTM的输入，即每个字或词。

图1 LSTM结构

LSTM与RNN的区别是每一个神经网络的单元结构不一样，如图2所示，它由三个不同的门和一个记忆细胞决定。其中记忆细胞具备选择性记忆的功能，可以选择记忆重要的信息，过滤掉噪声信息，减轻记忆负担。首先通过遗忘门f（t），它决定上一时刻状态输出ct-1中保留信息的多少；输入门控制当前输入的新信息更新到当前状态中，充当过滤无效信息，保留有效信息的角色；输出门则是确定神经单元中哪些部分可以输出。通过一个LSTM 神经单元后既能考虑到之前的信息又能与当前的输入信息结合，达到解决序列信息的长距离提取问题。

图2 LSTM神经单元结构

LSTM单元工作流程的公式如下：

其中：σ表示sigmoid 激活函数；tanh 也是激活函数的一种；xt和ht分别表示当前时刻的输入向量和输出的隐藏层向量；W和b分别表示权重矩阵和偏置向量，下标表示它们对应的类别，例如Whi和Wxi表示输入门中上一时刻隐藏层向量和当前时刻输入向量的权重矩阵，bi则表示输入门的偏置向量，◦表示哈达玛乘积，即矩阵对应元素相乘。ft，it，ot，ct分别表示当前时刻遗忘门、输入门、输出门和细胞状态更新的输出。

1.2 条件随机场

LSTM 只能提取出输入句子与输出之间的特征关系，无法提取上一时刻输出和当前时刻输出之间的特征关系，而条件随机场（CRF）正好能解决该问题，它是一类适合预测任务的判别模型，不仅能够提取输入的特征信息，而且在考虑之前时刻标签的情况下对当前时刻结果进行预测。CRF结构如图3所示，以分词为例，当一个字对应的标签为B时，那么下一个词的标签不太可能还为B，这一规律在CRF 中能够得到体现。

图3 CRF结构

给定观察序列X，预测标签序列的条件概率P(y|x)可以表示为

其中：W(x)为规范化因子，保证条件概率分布和为1；tk(yi-1,yi,x,i)为状态转移函数，表示上一时刻的标签转移到当前时刻对应标签的概率；sl(yi,x,i)为特征转移函数，表示序列中当前时刻的输入转移到对应标签的概率。

1.3 BILSTM-CRF

BILSTM 是双向LSTM，结构如图4所示，前向传播能够获取之前时刻的序列信息，而反向传播能够获取未来时刻的序列信息，最后将两个方向的输出做拼接或对应元素求和就可以得到整个网络的输出。

图4 BILSTM结构

BILSTM-CRF［11］模型就是将BILSTM 的隐藏层和CRF 模型结合在一起。该模型利用BILSTM很好地提取上下文的特征，再经由CRF 模型考虑标签之间的关系。由1.2 小节可知，CRF 预测输出是由状态转移函数和特征转移函数决定，因此在BILSTM-CRF 模型中就用BILSTM 的隐层输出来充当状态函数，并且引入状态转移矩阵Aij和特征转移矩阵Pij，其中Aij表示时序上从第i个状态转移到第j个状态的概率，由BILSTM 的隐层输出再接一个线性层得到；Pij是输入转移矩阵，是随机初始化的。在给定输入序列X的条件下，标注序列的预测输出为

2 基于相关词向量的BILSTM-CRF模型

BILSTM-CRF 能够很好地考虑到字与标签、标签与标签之间的关系，但是在低资源少数民族语言的分词中很难构建出大规模分好词的数据集，数据集的规模较小意味着模型没办法提取到足够的特征，即没有收敛。而彝文在不断的发展和传播中也构建出了许多彝汉对照大词典，因此能够收集到较大规模的彝汉对照词表。在BILSTM-CRF训练中加入每个字所在的相关词向量能够提高在句子中这个字所提取的特征关注。

相关词向量是由输入序列和词典统计得到，如图5 所示，对于输入序列X=(x1,x2,…,xn)，统计X在词表中包含的所有词，构建一个大小为M×N的矩阵Z，M为包含的词数，N为序列长度，每一行由0 和1 构成，该词在原序列中所在位置设为1，其余设为0。

图5 相关词向量

模型结构如图6 所示，X为输入序列，P为词向量矩阵，相关词矩阵Z通过transformer 后，每个相关词的输出向量与其包含字所对应的BILSTM 的输出相加后作为CRF 模块的输入Pij，计算过程见式（9），其中xi为BILSTM 输出矩阵的行向量，pk表示相关词向量，然后再结合状态转移矩阵Aij通过CRF进行训练。

图6 加入词向量的BISLTM-CRF

模型选好后还需要选择合适的损失函数，BILSTM-CRF是由CRF模块得到预测结果，因此在改进模型中仍然使用CRF 的损失函数，计算过程如式（10）所示，PRealPath是真实的句子标签序列分数，Ptotal表示该序列所有可能结果的分数总和，训练的目标就是要最小化损失函数。

3 实验及结论

3.1 数据集获取

由于目前互联网上没有彝文分词的相关文本资源，本文数据是在网上查找彝文相关文献，将彝文句子保存在电脑中，并由彝族同学人工标注，数据内容包括句子编号及分好词的彝文，分好词的彝文用空格隔开以便后续处理，共计标注了4005 条分好词的数据用于训练，表1 为标注彝文展示。

表1 标注彝文文本

3.2 数据处理

对原始数据进行处理首先需要去除数据中的无效字符、中文字符以及标点符号，然后再进行标注，如表1所示，标注时通过空格将句子分隔成多个词组成的序列，因此可以将每个词都提取出来，根据每个词的长度将其标注为不同的符号，标注规则如表2所示。

表2 标注规则

3.3 实验环境、数据集及评价指标

本次实验所用模型全部使用GeForce RTX 2080Ti显卡训练，训练时间缩短至3 个小时左右，实验数据的80%为训练集，20%为测试集，模型分别采用BILSTM-CRF 和基于词向量的BILSTM-CRF 进行对比实验，比较指标主要是精确度、召回率和F1值。

3.4 实验设计及结果分析

实验中模型的字嵌入维度设为256，BILSTM隐层维度设为512，dropout 设为0.2，epoch 设置为50，学习率设为0.0001，batch_size 设为20。表3为不同模型的预测结果对比，可以看出加入相关词向量后的模型分词效果得到明显提升，可见对每个字所属的词向量特征进行训练可以增加一些词出现的概率。

表3 不同模型预测结果对比

4 结语

彝文分词是一个需要不断发展的方向，近年来对少数民族语言的研究越来越多，但在彝文方面的却很少。本文将深度学习方法应用到彝文分词上，构造了BILSTM-CRF模型，在此基础上提出了基于相关词向量的BILSTM-CRF 模型，实验证明改进后的模型是有效的。本研究为彝文的后续研究做出了贡献，为机器翻译、自动摘要、文章理解等自然语言处理的应用研究有一定推动作用，未来随着彝文数据量的增加，可以使用更深层次的网络进一步提高模型性能。