APP下载

基于FCN-CRF 的医疗命名实体识别

2022-09-14潘胜星唐雅娟

电子设计工程 2022年17期
关键词:层数语义向量

潘胜星,唐雅娟

(汕头大学电子工程系,广东汕头 515063)

在医疗领域中,存在大量的非结构化文本,如医疗主题的文献、病历记录等。通过信息抽取技术,可以从大量非结构化文本中高效地抽取出感兴趣的信息,在后续任务中使用,如自动医疗问答、智能医疗诊断等。

命名实体识别(Named Entity Reconition,NER)任务是信息抽取的一个基础任务,旨在从非结构化文本中抽取出特定的实体。该任务可以被看作一个序列标注任务[1]。文献[2-4]提出以LSTM-CRF 为基本框架的模型进行命名实体识别,该模型主要利用了字级别的信息进行标注。文献[5-6]对LSTM 单元进行了修改,使其动态地结合词信息,但无法并行计算。文献[7]延续该思路,引入rethinking 机制,并将LSTM 单元换为CNN 单元,从而实现单样本输入的并行计算,提高GPU 的利用率。文献[8-9]将图神经网络引入NER 中,用节点之间的路径表示词汇信息,对节点进行信息的聚合从而得到标注结果。文献[10]将表示词BMES 信息的向量与字级别的向量表示拼接后送入模型中。整体来看,基于词典增强的方法需要对每一个输入模型的句子进行潜在词匹配,该过程的时间复杂度通常是O(n2)级别的,而输入文本长度通常在20~200 个字符之间,因此训练模型所需的时间非常长。

语义分割任务同样可以看作一个序列标注任务,区别在于语义分割作用于二维的图像。语义分割与NER 类似,标注都具有连续性以及平移不变性。基于两个任务的相似性,提出将FCN 模型引入NER 任务中。实验结果表明,FCN 模型应用于命名实体识别时可以得到与基于词典增强的方法相似的性能,同时无需词信息,因此训练所需的时间大幅度缩短,更易于在实践中使用。

1 任务比较

从表面上看,语义分割与命名实体识别是不同的任务,一个来自计算机视觉领域,另一个来自自然语言处理领域。但事实上,这两个任务具有颇多相似性。

1.1 标注的单位

图像语义分割任务处理的对象是二维的图像,而命名实体识别任务所处理的对象是一维的文本。二者都可以被看作是序列标注的问题,语义分割标注的单位是像素,而命名实体识别标注的单位是字。

1.2 最小单位的表示形式

图像的像素在计算机中一般会被表示为一个RGB 三通道的向量,而文字在计算机中则会被映射为表示字符的向量。即两个任务输入的最小单位都是向量,输入的是向量的序列。

1.3 平移不变性

两个任务标注出的内容均具有平移不变性。图像中,分割出的物体不因位置改变而改变其所属类别;文本中,抽取出的实体不因其在文本中位置的移动而改变类别。

1.4 语义连续性

每个最小单位并非孤立地标注,而是受周围标注的影响。在图像中,被标注为天空的像素点附近的像素点,其标签更可能依然是天空,而有较小的可能性是人或者汽车。在文本中,被标注为B-类别1的文字之后,通常只能接续位置为M 或者E 的标签,且不能被标注为1 之外的类别。由于该特性的存在,语义分割的模型中有引入CRF 优化输出的方法[11],而在NER 中,在最后输出标签之前使用CRF 则是几乎目前所有方法的共同选择。

2 FCN-CRF模型

该节将原本应用于语义分割的FCN 模型的结构进行修改,得到FCN-CRF 模型。

2.1 整体结构

FCN-CRF 整体结构与FCN 基本一致,保持了“编码器-解码器”结构。编码器部分由多个卷积层组成,逐层抽取特征并映射为标签分数,在解码器一侧,从最后一层卷积层输出的标签分数开始,往前逐层使用转置卷积结合信息,输出分数。

2.2 输入层

在输入层,对于一个输入的文本序列X={x1,x2,...,xn}中的每一个字xk,通过一个嵌入查找表ec得到对应的向量,表示为ek[12],如式(1)所示:

2.3 编码器

编码器部分由数个卷积层组成。与图像不同,文本由于长度相差较大,通常不会被全部填充到一样长度,而是按照长度排序,分批送入模型前对该批次文本填充到统一长度[13],因此输入文本长度是不统一的,模型在运算过程中需要保持输入的长度不变。因此在编码器中,卷积层使用尺寸为3、填充为1 的一维卷积,从而保持文本长度不变。需要注意的是,虽然文本序列可以被表示为向量序列,看作一个二维矩阵,但每一个向量是需要被整体看待的,如果使用二维卷积则会破坏每个向量的信息完整度,因此需要选择一维卷积[14-15]。

此外,同样是考虑到文本长度保持不变,因此池化操作被去除了。

2.4 解码器

解码器部分主要由转置卷积层组成,例如,一个5 层的FCN-CRF。在编码器的每一层,先抽取特征并映射到类别分数,然后将第5 层的分数与第4 层融合,并使用转置卷积重新映射到类别分数,得到结合了两层信息的结果。以此类推,然后将该结果与第3层的分数融合,再次使用转置卷积。其中,转置卷积与在语义分割中的设置不同,这里不需要对文本序列进行上采样,因此填充设置为1,使得经过转置卷积后的长度与输入时相等。

2.5 条件随机场

经过解码器后,模型得到了关于输入序列的标注分数序列。但此时输出的标签,对于前后的关联性考虑不够强,因此,与目前的主流方法一致,在最后输出之前使用条件随机场对输出序列进行约束[16-17]。

3 实验结果

在瑞金糖尿病数据集上,对FCN-CRF 模型的性能进行测试,并选取了BiLSTM-CRF、Lattice LSTM、LGN 3 个模型作为对照。其中BiLSTM-CRF 是基于字级别信息的模型,而Lattice LSTM 与LGN 则是基于词典增强的模型。

瑞金数据集包含493 篇糖尿病领域的医学文献,标注者都具有医学背景。首先,对数据集进行预处理,包括去除无效字符,划分句子,限制句子长度在20~200 个字符之间。防止过长的序列使训练时中间保存的梯度过多导致显存不足,也防止过长的序列导致CRF 进行解码时效率过度下降。

模型的隐藏层单元数均为200,dropout 设置为0.1,优化器使用Adam,权值衰减为10-8。每个模型训练20 个epoch。对数据集做十折交叉验证得到实验结果。输入部分使用word2vec 在中文语料上训练得到的长度为100 维的词向量。

实验在Windows10 系统下进行,IDE 是Pycharm,深度学习框架为Pytorch。评价指标选择准确率(P)、召回率(R)以及F1,按照NER 中的严格F1 标准进行结果统计,记S为预测出的实体集合,G为句子中真实的实体集合,P、R、F1 的计算方式分别如式(2)-(4)所示。

FCN-CRF 模型最佳性能与其他模型对比的结果如表1 所示。可以看到FCN-CRF 超过BiLSTMCRF 约2.6%。与Lattice LSTM、LGN 模型的表现非常接近,F1 值差距在1%以内。表1 中展示的时间为FCN-CRF 在瑞金数据集上训练100 个epoch 后求得每个epoch 的平均训练时间,可以看到FCN-CRF 的时间仅为基于词典的方法的不到2%。

表1 各模型的实验结果

接下来,对不同层数的FCN-CRF 进行了实验。不同层数的性能如图1 所示,从图中可看出在瑞金数据集上,7 层的FCN-CRF 可以达到最好的效果。当层数堆叠更多时,模型性能反而下降,因为此时模型的参数冗余开始产生过拟合。

图1 不同层数的性能

表2 中展示了转置卷积层对于模型性能的影响。可以看到,将解码器部分的转置卷积层全部换为卷积层时,在FCN-CRF 为7 层时,性能出现明显下降。该现象可以解释为,在解码器部分使用卷积层时,相当于继续向更高层次抽取特征,该操作反而使得模型性能下降。

表2 转置卷积对模型的性能影响

在FCN 模型用于图像语义分割时,实验结果显示,模型从编码器的最后一层逐层往前结合浅层的特征,并非越多越好,结合到过于低层的信息时,反而会影响模型的性能。对于该现象,同样希望了解在NER 中是否出现,因此对于不同层数的FCN-CRF模型均进行了对比测试,观察融合特征层数对模型的性能影响,如图2 所示。

图2 融合特征层数对性能的影响

从图2可以观察得知,对于不同层数的FCN-CRF,均有类似的结果,即随着往浅层方向融合的特征层数减少,模型的性能下降。但在图像语义分割任务中,融合特征层数较多反而影响性能。针对这一结果的解释是,因为图像的输入最小单位是像素,像素是仅包含3 维RGB 通道信息的很短的向量,每个最小单位包含的信息量较少,因此FCN 最初几层抽取图像特征时,包含的信息相对较低级,信息量较少,对于最终标注结果影响较小。而在文本数据中,输入的最小单位是字符,每个字符均会被映射为高维的词向量,此时每个最小单位所携带的信息量较多,在浅层时抽取的特征已经包含较多信息,若不对这部分信息加以融合,则可能较大程度上影响模型的最终性能。该部分实验结果说明,在NER 中使用FCN-CRF 模型时,为了得到更好的性能表现,应该把每一层输出的特征分数都融合到一起来获得最终的输出。

4 结论

目前,NER 模型大多需要结合词典信息,效率较低。该文提出将FCN-CRF 模型应用于NER 任务。实验结果证明,FCN-CRF 无需结合词典信息,也能达到和现有模型相似的性能,同时大幅度降低了模型训练所需的时间,提高了在实践中的应用性。

猜你喜欢

层数语义向量
真实场景水下语义分割方法及数据集
填筑层数对土石坝应力变形的影响研究
浅探铺设土工格栅技术在软土路基加固处理中的运用
向量的分解
聚焦“向量与三角”创新题
语言与语义
MoS2薄膜电子性质随层数变化的理论研究
向量垂直在解析几何中的应用
“吃+NP”的语义生成机制研究
向量五种“变身” 玩转圆锥曲线