APP下载

煤矿机电机械设备维修知识图谱系统研究

2023-10-27付山勇于世宝

设备管理与维修 2023年18期
关键词:命名图谱实体

张 磊,付山勇,于世宝

(陕西永明煤矿有限公司,陕西延安 717300)

0 引言

随着煤矿智能化技术的快速发展,煤矿设备的复杂性不断提高,设备维修资源不断丰富。传统的煤矿设备维修知识管理技术已经不能满足当前设备维修知识管理的需要,利用率低、互操作性差、知识流失严重等问题逐渐显现。研究大型煤矿设备维修资源的新型知识体系建设和知识管理应用技术迫在眉睫。知识图谱是利用图谱模型来描述客观世界中事物之间关系的一种技术方法,可以有效解决大规模数据下的知识动态挖掘和管理问题。本文基于煤矿设备维修领域没有统一的基础知识体系的现状,建立了煤矿设备维修本体论(CMEMO),以解决维修知识没有统一表示、整合、共享的问题,为煤矿设备维修知识图谱的构建提供支持。

1 基于BERT-BiLSTM-CRF 模型的CMEM 命名实体识别

本章基于煤矿设备维修领域构建的本体模型,利用BERTBiLSTM-CRF 模型,根据某煤矿集团各子公司保留的文本数据,如煤矿设备维修手册等,完成煤矿设备维修的命名实体识别。

1.1 CMEM 命名实体识别流程

针对CMEM(Comprehensive Modal Emission Model)实体识别中实体数量庞大、交替频率高、煤语义复杂等问题,需要选择合适的命名实体识别方法。由于基于监督的统计学习方法在实体识别过程中依靠大型标注语料进行模型训练,不适合没有大规模专业语料库的CMEM,容易出现实体识别不准确的情况。因此,本文采用改进的神经网络模型实现CMEM 实体识别。

结合条件随机场双向神经网络模型(BiLSTM-CRF),基于BiLSTM-CRF 神经网络模型,引入BERT(预训练语言)模型作为CMEM 的命名实体识别模型(即BERT-BiLSTM-CRF)。首先,将预处理后的数据分为训练集和测试集:训练集通过来自变压器的双向编码器表示(BERT)模型将输入文本序列转换为具有丰富上下文语义的768 维词向量,将BERT 模型的输出向量作为BiLSTM 模型的输入,提取上下文的特征值,利用CRF模型对输入标注序列的实体进行标注,最后得到识别结果。

1.2 CMEM 的命名实体识别(NER)模型

本文将BERT 引入CRF(条件随机场)的BiLSTM(双向长短记忆网络)中,构建基于BERT-BiLSTM-CRF 的命名实体识别模型。BERT-BiLSTM-CRF 模型将实体识别任务直接转换为序列标注问题,即通过构建BERT-BiLSTM-CRF 序列注释模型。序列注释模型有5 层,分别为输入层、BERT 层、BiLSTM 层、CRF层(输入是BiLSTM 层的输出结果)和输出层。其中,输入层表示要标注的输入序列,输出层表示标注序列。

1.3 CRF 层

虽然BiLSTM 可以学习一个单词或短语的上下文信息,并且在选择输出标签时可以使用最高概率的标签结果,没有考虑不同单词之间的关系,因此输出标签可能会被混淆,缺乏逻辑。因此,引入CRF 模型来解决BiLSTM 中单词关系的不识别问题,并获取全文信息并预测结果。在CRF 模型训练过程中,为了保证单词标签的正确性,在制作预测标签时添加约束。

根据本研究的需要,其目的是解决文本序列注释的问题,因此选择添加线性链条件随机场(Linear CRF 是一种条件随机场)层来有效地解决上述问题。CRF 模型的操作过程如下:①预先定义了特征函数fα;②利用给定的数据对模型进行训练,确定权值参数λk;③利用所确定的模型实现序列标注。

CRF 模型是基于BERTBiLSTM-CRF 模型的最后一层,其主要职责是捕捉前后标签之间的依赖关系,并对标签进行约束。该模型可以用P(Y|X)表示,其中X 是输入变量,代表标记的观察序列;Y 是输出序列,代表与X 相对应的标签序列。

鉴于随机变量x 是观察序列(x1,…,xi),随机变量y 是隐藏状态序列(y1,…,yi),每个(xi,yi)对是线性链中的最大clique,并且满足:

给定预设观测序列,则CRF 求解隐态序列x、y 的方程为:

其中,i 表示节点的当前位置,k 表示当前的特征函数,每个特征函数都有一个权值λk。由于状态序列与两个标记之间的关系有限,因此为CRF 模型定义了连续特征函数,即:

其中,用Z(x)归一化形成概率值;tj表示i 处的传递特征,对应的权值为λj;sl为i 处的状态特征,对应的权值为ul;j 和l分别表示特征函数的个数。

2 结果和讨论

2.1 实验结果

本文利用收集到的煤矿设备维修数据,包括维修手册、维修案例库、设备维修计划、设备完整性标准等,通过数据爬虫从网页抓取煤矿设备维修相关数据,形成煤矿设备维修命名实体识别的语料集。

首先,对数据进行预处理。也就是说,语料库被清理,无用的信息被消除。

然后使用Jieba 分词工具包对语料库进行分词。

最后,根据标记策略完成语料集的标注。

在实验过程中,语料库被随机分为训练集、测试集和评估集。训练集包含2254 个句子和48 972 个单词;测试集包括1636 个句子和26 548 个单词;评估集包含899 个句子和9837 个单词。

本文以SIGHAN 定义的4 个测试指标,即精度P、召回率R、F1值(F1-Measure,F1)和准确度A 作为命名实体识别的评价指标。它们通常用于评估检索任务、分类任务和识别任务的实验结果。具体定义公式如下:

本实验是在相同的配置环境中使用相同的语料库完成的,以展示基于提出的BERT-BiLSTM-CRF 模型的CMEM 实体识别的优越性。基于评估系统,引入精度、召回率、F1(F-measure)和准确度来分析每个模型的实体识别结果。实验结果表明,对于同一数据集中CMEM 实体的识别效果,BERT-BiLSTM-CRF 模型的识别在准确性、召回率和F1值方面优于Word2ve-LSTM 模型(表1)。

表1 实验结果的比较 %

2.2 讨论

与基本的Word2ve-LSTM 模型相比,BiLSTM-CRF 的准确率、召回率和F1值分别大幅提升了5.85%、8.49%和7.21%,表明双向神经网络模型在命名实体识别方面具有高精度的优势。与BiLSTM-CRF 相比,BERT-CRF 的F1值略有提高,识别的召回率和F1值分别提高了2.94%和2.86%;与BERT-CRF 模型相比,识别的召回率和F1值分别提高了2.93%和2.71%。这表明BERT 和BiLSTM 的组合更有利于CMEM 命名实体识别。

为了更直观地展示每个模型的识别情况,图1 将每个模型的F1值与不同的训练迭代进行比较。可以看出,BERT-BiLSTM-CRF 模型的F1值高于其他3 个模型,特别是在训练迭代次数增加到15 次之后,其F1值的领先趋势趋于稳定。

图1 不同训练迭代下的F1 值分析

从图1 和表1 可知,Word2ve-LSTM 和BiLSTM-CRF 的改进模型在CMEM 命名实体识别方面存在一定的局限性,主要是因为这两个模型仅限于单词的特征提取,而BERT-CRF 模型和BERT-BiLSTM-CRF 模型可以很好地解决这个问题。BERT 模型的核心是构建一个双向转换器,以使用上下文进行预训练。因此,BERT 模型不仅实现了短语级信息表示的学习,还实现了丰富的语义学习。通过上述模型比较,可知在所有指标中BERT-BiLSTM-CRF 模型的表现最佳,这表明其在实体识别方面表现最佳。

3 结论

随着知识图谱技术的日益成熟及其在各个领域的成功应用,知识图谱为各行业的知识管理提供了新的研究思路。基于这一背景,本文完成的主要研究工作有:

(1)建立煤矿设备维护领域知识图谱体系,将知识图谱技术创新性地应用于煤矿设备维护领域的研究,为知识图谱构建关键技术的研究提供理论支撑。

(2)在分析煤矿设备维修知识体系和特点的基础上,将本体引入煤矿设备维修知识模型构建中。构建煤矿设备维修知识本体模型CMEMO。

(3)提出了BERT-BiLSTM-CRF 煤矿设备维护的实体识别模型。引入谷歌最新发布的BERT 模型,使煤矿设备维护的命名实体识别准确率和F1值分别达到88.56%和88.23%。实验结果表明,该模型具有较好的命名实体识别效果。

猜你喜欢

命名图谱实体
命名——助力有机化学的学习
绘一张成长图谱
前海自贸区:金融服务实体
有一种男人以“暖”命名
为一条河命名——在白河源
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
补肾强身片UPLC指纹图谱
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
主动对接你思维的知识图谱