APP下载

基于BERT-CRF的中文分词模型设计

2022-02-17陈月月,李燕,帅亚琦,徐丽娜,钟昕妤

电脑知识与技术 2022年35期
关键词:自然语言处理

陈月月,李燕,帅亚琦,徐丽娜,钟昕妤

摘要:分词作为中文自然语言处理中的基础和关键任务,其分词效果的好坏会直接影响后续各项自然语言处理任务的结果。本文基于BERT-CRF的分词模型利用通用领域数据集与医学领域数据集对模型进行训练,分别取得F1值0.898和0.738的实验结果。

关键词:BERT;CRF;中文分词;自然语言处理

中图分类号:TP311        文献标识码:A

文章编号:1009-3044(2022)35-0004-03

自然语言处理(Natural Language Processing, NLP)是研究计算机理解和自然语言生成的信息处理[1]。随着深度学习的发展,神经网络算法被广泛应用于各项自然语言处理任务中。分词作为自然语言处理中的基础和关键任务,其结果会直接影响后续命名实体识别、关系抽取等自然语言处理相关工作的准确性[2]。由于神经网络具有很强的自学习性和自适应性,有助于提高中文分词模型的性能,因此,现有的中文分词模型大都结合了神经网络算法对分词模型进行构建。

分词的目的是将一个完整的句子分割为词语级别[3]。不同于英文中以空格为分词符号的分词,在中文文本中,词与词之间没有明确的分词标记,其以连续字符串的形式呈现,且存在一词多义和语境不同意义不同的现象。因此,做好中文分词工作对处理所有的中文自然语言处理任务有着至关重要的作用。

1 相关工作

分词模型是自然语言处理中最基本的语言处理模型之一。中文的语言结构复杂,难以准确地进行词语识别[4]。因此,中文分词成为分词任务中的热点话题。中文分词方法可以分为传统的分词方法和基于神经网络的分词方法。

传统的分词方法包括基于词典规则的方法和基于统计的方法。基于词典规则的方法就是按照中文文本的顺序将其切分成连续词序,然后根据规则以及连续词序是否在给定的词典中来决定连续词序​是否为最终的分词结果[5]。基于词典规则方法构建的分词模型分词速度快、容易实现,且其在特定领域分词的準确率较高,但其高度依赖词典规则,针对词典规则中未登录词的识别效果差。基于统计方法构建的分词模型,其主要思想是把字符序列中的每个词都看作由字组成,计算字符序列中任意相邻字符出现的概率,概率值越大则说明相邻字符成词的可能性越大[6]。基于统计方法构建的分词模型可以很好地识别未登录词,但模型复杂度高,存在人工特征提取工作量大、容易过拟合等问题。

鉴于传统分词方法的各种不足,近年来,随着计算机技术的不断发展,基于神经网络的分词方法逐渐成为分词任务处理中的研究热点。基于神经网络的分词方法构建的分词模型,其主要思想是将输入序列中词向量的元素值作为模型参数,并使用神经网络和训练数据的学习来获取模型的参数值。神经网络充分利用了文本自身所具有的有序性和词共现信息的优势,具有很强的自学习性和自适应性,可以自动从原始数据中提取特征,而无须人工构造特征,避免了人工设置特征的局限性[7]。因此,神经网络算法在自然语言处理任务中得到了广泛的应用。张文静等[8]提出了一种基于Lattice-LSTM的中文分词模型,该模型集成了多粒度的分词信息,在多粒度的中文分词任务中取得了优异的性能表现;胡晓辉等[3]利用双向LSTM可以提取输入序列前后信息和卷积神经网络能够提取文本局部特征信息的特点,提出了基于BiLSTM-CNN-CRF的中文分词模型,在中文分词任务中取得了较好的效果。

2 基本原理

本文采用基于BERT-CRF的中文分词模型对文本进行分词处理。模型结构如图1所示。主要包含基于BERT的词嵌入层和CRF条件随机场模型层。其中,BERT的词嵌入层用于提取输入文本序列的上下文信息;CRF用于进行最后的序列标注,将输入的数据标注成B、M、E、S的向量形式。

2.1 BERT词嵌入层

BERT是从Transformer中衍生出来的预训练模型,2018年由Google团队提出。BERT模型采用深层双向的Transformer组件来进行模型构建,打破了单向融合上下文的限制,生成了融合上下文信息的深层双向语言表征[9]。BERT的结构如图2所示,其中,E1、E2…En为输入向量; T1、T2…Tn为经过多层Transformer编码器后的输出向量。

BERT预训练模型凭借庞大的语料库和强大的计算能力,在获得通用语言模型和表示的基础上,结合任务语料对模型进行微调[10],可以很好地完成各类文本处理任务,成为当前各类自然语言处理任务中的研究热点和核心技术。

2.2 CRF条件随机场模型层

CRF条件随机场模型是由Lafferty等[6]提出的一种序列标记模型,它结合了最大熵模型(Maximum Entropy)和隐马尔可夫模型(Hidden Markov Model,HMM)的特点,能够充分考虑标签之间的依存关系,避免了标记偏执和最大熵模型局部优化的问题,克服了HMM输出独立性假设的缺点,可以很好地完成分词等其他序列标注任务。因此,现有的分词模型大都结合了CRF模型,模型结构如图3所示。

根据CRF的定义,CRF条件随机场模型是输入随机变量X和输出随机变量Y的条件概率分布模型。其中,X为输入变量,表示要标记的字符序列;Y是表示标注序列(也称为状态序列)的输出变量。

3 实验及分析

3.1 数据集

本实验中的通用数据集来自SIGHAN 2005第二届中文分词任务中的Peking University数据集(简称PKU数据集);中文医学领域数据(Chinese Medical Corpus,CMC)来自《国医大师治疗中风经典医案》疗病丛书中所记录的医案数据。

按照9:1的比例将通用领域和中文医学领域训练数据分割为训练集和验证集。

3.2 实验设置

本实验的环境参数和模型训练参数设置如表1和表2所示。其中,模型训练的迭代次数(epoch_num)为20次。实验中涉及通用领域训练语料和医学领域训练语料,针对两个不同领域的数据集均使用BERT-CRF分词模型对数据集进行训练。所有数据采用BMES四词位标注法进行标注,各标注的具体含义如表3所示。

3.3 评价指标

试验结果评估指标采用查准率(Precision,P)、召回率(Recall,R)和F1值,各项指标的计算公式为:

[F1=2PRR+P]                          (1)

[P=TPTP+FP]                            (2)

[R=TPTP+FN]                           (3)

式中:TP表示分词正确的词数;TP+FP表示分词的总词数;TP+FN表示标准分词集中的词数。

3.4 结果分析

本次实验分别利用PKU数据集和CMC数据集对BERT-CRF分词模型进行训练,其训练结果如图4和图5所示,两个数据集实验结果的对比如表4所示。

由表4可以看出,基于BERT-CRF的中文分词模型的分词效果在通用领域数据集上的分词结果更好。这是因为不论是基于哪种分词方法来构建分词模型,其分词的效果都依赖于大规模的训练数据,但由于目前医学领域开放的数据集较少,且数据专业性强,很难获得大量标注的训练数据,导致模型训练不够完全,无法达到模型所期望的最佳分词效果。因此,若想在医学领域数据集上获得更好的分词效果,需要增加医学领域的训练数据,并对模型进行进一步的优化和训练,使得模型能够更好地理解医学领域的中文文本,从而发挥模型的最佳分词性能。

4 结束语

针对自然语言处理中的中文分词任务,本文利用BERT-CRF的模型探究同一模型在不同领域数据集上的分词效果,分别在PKU数据集和CMC数据集上进行模型训练,得到F1值分别为0.898和0.738的实验结果,证明了该模型在通用领域数据集上的分词效果更好。

参考文献:

[1] ISO/IEC.Information technology—artificial intelligence—artificial intelligence concepts and terminology:ISO/IEC TR 24372:2021(E)[S].2021

[2] WANG K,ZONG C,SU K Y.A character-based joint model for Chinese word segmentation[C]//23rd International Conference on Computational Linguistics,2010:1173-1181.

[3] 胡曉辉,朱志祥.基于深度学习的中文分词方法研究[J].计算机与数字工程,2020,48(3):627-632.

[4] 王若佳,赵常煜,王继民.中文电子病历的分词及实体识别研究[J].图书情报工作,2019,63(2):34-42.

[5] WU A.Word segmentation in sentence analysis[C]//Proceedings of 1998 International Conference on Chinese Information Processing.Beijing:Chinese Webster F.What information society?[J].The Information Society,1994,10(1):1-23.

[6] LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data [C]//Proceedings of the Eighteenth International Conference on Machine Learning.San Francisco.Morgan Kaufmann Publishers Inc,2001:282-289.

[7] 姚茂建,李晗静,吕会华,等.基于BI_LSTM_CRF神经网络的序列标注中文分词方法[J].现代电子技术,2019,42(1):95-99.

[8] 张文静,张惠蒙,杨麟儿,等.基于Lattice-LSTM的多粒度中文分词[J].中文信息学报,2019,33(1):18-24.

[9] 何涛,陈剑,闻英友.基于BERT-CRF模型的电子病历实体识别研究[J].计算机与数字工程,2022,50(3):639-643.

[10] 王海宁.自然语言处理技术发展[J].中兴通讯技术,2022,28(2):59-64.

【通联编辑:唐一东】

猜你喜欢

自然语言处理
基于LSTM自动编码机的短文本聚类方法
自然语言处理与司法案例
基于组合分类算法的源代码注释质量评估方法
词向量的语义学规范化