APP下载

面向粮情决策支持的知识图谱构建研究

2022-11-24李家馨

中国粮油学报 2022年10期
关键词:决策支持系统本体图谱

肖 乐, 李家馨, 葛 亮, 吴 涛

(河南工业大学信息科学与工程学院1,郑州 450001) (国家粮食和物资储备局信息化推进办2,北京 100038)

我国粮食产后损失惊人,据国家粮食和物资储备局的数据显示,我国在粮食储藏、运输和加工等产后环节,每年损失量达700亿斤以上,一年的粮食损失接近吉林省全年粮食产量,粮食行业“产后护理”空间巨大[1]。“减少粮食产后损失等于建设无形良田,是提高粮食安全保障水平的重要举措。在粮食产后损耗中,有一部分是由于农户及储粮管理人员缺少相关知识和经验,无法及时对粮情做出科学的决策而造成。已有研究提出构建粮情决策支持系统减少这部分粮食损耗,但当前的方法存在获取和添加知识困难、不能有效利用先验知识等局限性。针对这些局限性,本文提出构建知识图谱的方法辅助决策。以知识图谱为“专家”,指挥决策支持系统进行粮情决策,有效改善了农户及储粮管理人员因知识不全、经验不足而造成的粮食损失状况。

1 国内外粮食及相关行业决策技术进展

1.1 粮食及相关行业决策支持与专家系统进展

国外对粮食及相关行业决策系统的研究起于20世纪70年代末,第一个决策系统由美国伊利诺伊大学开发,用于诊断大豆病虫害[2];Flinn等[3]开发了一个SAG Pro系统做粮食害虫决策,该系统采用基于规则的方法向粮食管理者提供决策结果;Balleda等[4]提出了基于规则的专家系统-Agpest,该系统采用正向链接机制,有效的利用Agpest知识库;Nascimento等[5]开发了一种病虫害诊断工具,首先利用专家知识构建病虫害文本与图像知识库,之后编写规则和问题进行柚木害虫诊断防治;Afzal等[6]构建了水稻领域本体,并采用基于规则的方法为农民提供水稻管理方面的决策支持。以上传统基于规则的决策支持系统面临获取决策知识难度较大、依赖领域内专家构建IF-THEN规则的困境,针对基于规则的决策系统的不足,一些学者提出朴素贝叶斯算法用于构建决策支持系统。Wani等[7]提出利用朴素贝叶斯算法拟合机器学习模型进行害虫诊断预测;Nababan等[8]建立图像数据集,采用朴素贝叶斯方法训练模型并对油棕植物病害进行诊断;但基于朴素贝叶斯的决策系统依赖历史数据,能解决的决策问题有限,针对该问题,研究人员提出将人工神经网络用于决策支持系统。Kumar等[9]利用人工神经网络开发了一个决策支持系统,该系统利用实际作物产量数据建立预测模型。由于农业信息具有模糊性,且变量之间的关系复杂,Tay等[10]采用自适应神经模糊推理与人工神经网络结合的方法,有效的利用了模糊的农业信息进行决策支持,为玫瑰温室害虫的日常风险评估创建了决策支持工具;基于人工神经网络的决策支持系统存在需要大量训练样本的局限性,Prabakaran等[11]针对人工神经网络的局限,构建了基于支持向量机与模糊逻辑的作物施肥决策支持系统,有效的提高了农业生产效率;但支持向量机需要大量特征工程,且对新问题适应性较差,针对此问题,Saleem等[12]提出了基于深度学习算法的棉花害虫决策支持系统,该方法通过RBFN算法对环境因子进行分类,对粉虱生长环境进行精确监测。

2006年,我国原国家粮食局提出在“十一五”期间实施“安全绿色储粮关键技术研究开发与示范”项目,该项目涉及了粮情测控系统。早在1998年,杨秀金等[13]就提出了安全储粮智能决策支持系统,结合图像处理技术与规则推理的方法进行粮情决策,较为有效地减少了粮食损失;甄彤等[14]针对储粮通风提出储粮机械通风控制系统,整个系统首先根据粮情检测系统检测的数据进行知识库的建立,然后用推理机进行推理;张伶子等[15]将本体技术引入农业害虫诊断系统,采用Protégé编制本体和知识库,并构建推理规则对害虫进行诊断;传统基于规则的推理无法处理一些不确定性问题,针对这些不确定性,徐宏[16]开发了基于模糊理论的专家系统,用人工神经网络获取知识并构建粮食储藏的知识库用于推理;基于规则的方法获取决策知识困难,针对此问题,孙晓全等[17]构建了基于BP神经网络的粮情决策系统,该系统采用嵌入式AMR9的低成本传感器平台采集数据,并使用粮食信息加权融合与BP神经网络对数据进行训练以及预测。

粮食及农作物方面的知识资源分布散乱、稳定性低、数据种类多且数量大。在面对如此复杂的多源异构数据时,目前的方法存在以下局限性:基于规则的决策系统获取知识和添加新知识都很困难,不能捕捉到数据间深层次的关联关系,并且由于缺乏分层的知识表达造成了规则关系之间的不透明问题;基于机器学习和深度学习的决策支持系统在大规模的数据集上能得到较好的决策支持结果,但是它们难以利用先验知识,并且依赖大规模标注数据集。另一方面,在大量实践中,越来越多的人发现深度学习模型的结果与先验知识相冲。这些局限性阻碍了深度学习在粮情决策支持中的发展。

表1对粮食及相关行业决策支持系统现状进行了分析总结。

表1 粮食及相关行业决策系统与专家系统现状的分析总结

1.2 知识图谱应用于决策支持现状

知识图谱包含了大量世界上的实体和它们之间相互关系的信息[18],蕴含了人类丰富的先验知识,获取知识和添加新知识都较为方便且能挖掘出数据间的深层关联,能有效地弥补深度学习算法的不足。如今,利用知识图谱中的知识进行决策支持,从而提升决策支持系统的性能,已成为决策支持研究的重要问题之一。

目前基于知识图谱的决策系统已广泛用于医疗、金融等领域内,在粮食农作物方面也有了少量研究。例如,王娟[19]构建了基于知识图谱的烟草花叶病案例推理模型,提出了一套适用的烟草花叶病防治方案。于合龙等[20]提出基于知识图谱的水稻智能诊断系统。但是基于知识图谱的粮情决策系统鲜有报道。本文主要研究目的为构建粮情知识图谱,并将其用于粮情决策支持系统。

2 基于知识图谱的粮情决策系统构建

知识图谱,通过将数据粒度从文档级别降到数据级别,聚合大量知识,实现知识的快速响应和推理。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性的键值对,实体通过之间的关系相互联结。从原始数据到知识图谱的生成,大致要经历知识抽取、知识融合、数据模型构建等过程。根据知识图谱的分层结构,将知识图谱划分为自顶向下和自底向上构建,自顶向下是借助结构化数据源,从高质量数据中抽取本体和模式信息,加入到知识库;自底向上是从公开采集的数据中抽取出资源模式,选择置信度较高的新模式加入知识库。

粮情知识图谱与其他领域的数据特征相比,储粮领域的数据有如下特点:数据种类多、数量大;资源分布散乱、稳定性低;各个地方采用的存储方式和标准不同。因此,粮情知识图谱构建面临巨大的挑战。本文采用自底向上的方法构建粮情知识图谱。首先通过实体抽取以及关系抽取方法从多源异构的粮情数据中抽取出实体以及实体之间的关系,然后进行本体构建,实体以及实体之间的关系在本体框架的指导下被链接成知识图谱的表现形式,并用Neo4j存储知识图谱。之后在知识图谱的基础上进行知识推理,达到辅助粮情决策的目的。粮情知识图谱的构建框架如图1所示。

图1 粮情知识图谱构建框架

2.1 知识抽取

知识抽取主要由命名实体识别和关系抽取组成,其目的为从多源异构的数据中抽取实体以及实体间的关系,在此基础上形成本体化的知识表达。粮情知识抽取模型总体框架举例如图2所示。

图2 粮情知识抽取模型总体框架举例

2.1.1 命名实体识别

命名实体识别是指识别和区分文本中特定含义的词汇和所属的类别,它是知识图谱中的基础任务也是关键任务。早期基于规则的实体识别方法耗时费力,且不具有可扩展性,不能适应数据的变化。基于机器学习的命名实体识别方法主要是先训练原始语料,之后通过训练好的模型去识别实体。在机器学习方法中,命名实体识别也可以看作是序列标注问题[21]。通常采用的传统的机器学习方法有:马尔可夫模型、隐马尔可夫模型、最大熵模型以及将上述方法结合和改进的方法等。方莹[22]提出了C-CRF层叠条件随机场模型抽取农业实体,充分利用了农作物特征词典,获得了较好的识别效果。相比于基于规则的方法,基于统计机器学习的方法构建模型所需的代价小,鲁棒性好。但是基于机器学习的方法对选取的特征要求较高,对语料库的依赖比较大,而用来构建和评估命名实体识别系统的大型语料库又比较少。近年来,随着深度学习的发展,不少人也将深度学习的方法应用到命名实体识别的研究中。Collobert等[23]是较早将神经网络方法应用到NER的论文之一。Huang等[24]提出了双向长短时记忆网络,能有效利用序列的上下文信息。Guo等[25]提出了一种联合多尺度局部上下文特征和注意力机制的中文命名实体识别模型抽取害虫实体,通过CNN 提取多尺度局部特征,并采用注意力机制捕捉长距离依赖关系。实体识别准确性比Huang等[24]提出的Bilstm高了1.67%。

2.1.2 关系抽取

关系抽取主要指文本中实体之间的关系,例如语法、语义关系。通常将实体之间的关系形式化描述为。粮情领域中抽取的实体和实体之间的关系可描述为如图2所示的<豌豆象,分布,山西>,即“豌豆象”与“山西”之间的关系为“分布”。知识图谱中关系抽取的方法主要有3种,分别是基于规则的方法,有监督的方法和半监督或无监督的方法。基于规则的方法可移植性差。有监督的方法有核函数方法,逻辑回归方法和条件随机场等方法。有监督的方法主要是根据训练数据,设计有效特征,学习各种分类模型,然后使用训练的分类器预测关系。与基于规则的方法相比,有监督的方法在一定程度上减少了人力的耗费,但仍需要耗费大量的特征工程。半监督或无监督的方法则大大减少了特征工程,Kaushik等[26]提出了自监督算法进行农业文本关系抽取,建立了基于wordnet相似度的基线算法relxont来识别不同的关系,该法的平均精度为86.89%。乐毅等[27]提出一种PCNN模型和远程监督关系抽取方法进行害虫关系抽取,该模型加入了注意力机制和池化级特征注意力机制,避免了大量的人工标注。

近年来,也有学者提出联合抽取,将实体与关系同时抽取,Zheng等[28]提出将实体和关系联合抽取转化为序列标注任务,此法在公共数据集上的抽取准确率超过60%,但是在此法中,抽取的实体之间只能有一种关系;Katiyar等[29]提出了将注意力机制与BiLSTM的BiLSTM-WA模型做联合抽取,改善了Zheng等[28]提出的方法的缺陷;沈利言等[30]针对水稻病虫害文本,在BiLSTM-WA模型的基础上提出了双BiLSTM与注意力机制结合的水稻病虫害与药剂实体关系联合抽取的方法,其联合抽取准确率最高达到92.90%。

2.2 粮情知识图谱本体构建

本体是用于描述一个领域的术语集合,其组织结构为层次结构化,可以作为一个知识库的骨架和基础。本体构建的方式主要分为三类,分别为手动构建本体、半自动化构建本体和自动化构建本体。手动构建本体耗时费力,自动构建本体快速有效。本体自动构建目前处于起步阶段,目前采用较多的方法是手工构建本体。粮食本体构建属于特定领域本体构建,其本体构建源于2001年,联合国粮农组织实行了农业本体服务计划[31]。Chougule等[32]提出以OWL格式保存印度粮食害虫自适应本体。Abrahão等[33]提出使用UML对农业田间作业技术知识进行本体的构建。粮情知识图谱的本体构建举例如图3所示。

图3 粮食知识图谱的本体构建举例

2.3 知识推理

知识推理就是利用已有的知识推理出新知识的过程[34]。知识推理的方法主要分为三类:基于规则的推理、基于分布式推理和基于神经网络的推理。早期基于规则的推理就是利用简单的规则或统计特征对知识图谱进行推理。Chen等[35]提出了概率知识库,能批量用马尔可夫逻辑网络推理规则。然而基于逻辑规则推理的方法计算复杂度高,可扩展性差,且大部分稀疏的实体和关系严重影响推理性能。基于分布式推理的方法,对数据稀疏性不敏感,可扩展性更强。基于分布式推理包括张量分解、距离模型和语义匹配模型。张量分解方法以RESCAL[36]为主,RESCAL通过张量进行分解,得到实体和关系类型的嵌入式表示,反映了实体或关系领域结构的相似性,但该法效果有限。Bordes等[37]提出了TransE模型,TransE将所有的实体和关系映射为低维的向量,之后判断两个嵌入点平移后能否重合,若能,则关系存在。TransE效果较好,但是平移转化要求严格,难以对抗噪声。García-Durán等[38]提出语义匹配模型TATEC,主要是对知识图谱中的二元语义和三元语义进行匹配,以此衡量关系是否合理并构建线性优化目标,但此法不能捕捉非线性语义关系。神经网络能有效捕捉非线性语义关系,它通过非线性变换将输入数据的特征分布从原始空间转换到另一个特征空间,并自动学习特征表示。Shi等[39]提出了共享变量神经网络模型进行知识推理。Neelakantan等[40]提出采用PRA来寻找逻辑关系路径,并以递归神经网络为模型来建模关系路径。RNN的引入提高了模型的泛化能力,使其可用于处理训练数据中未观测到的新关系。但是由于第2个实体必须由推断获得,因此该法不适用于复杂任务。而Li等[41]针对这个问题提出了一种基于多代理和强化学习的路径推理方法,即MARLPaR。2个代理分别以迭代的方式进行关系选择和实体选择,从而实现复杂的推理任务。

知识推理从已有的三元组中推断出未知关系,为特定领域内的知识图谱提供有效的关联发现能力,辅助粮情进行决策支持。

3 实现

通过调研,本文采用联合粮情词典与Flat-lattice[42]的方法从多源异构数据中抽取粮情实体实现构建基于知识图谱的粮情决策系统的第一步。

3.1 语料准备

3.1.1 文本收集

本文语料主要来源于粮食大辞典[43]与知网爬取获得的粮食文本形成粮情数据集。粮情词典是由新词发现算法结合分词工具对粮食大辞典进行分词,之后经过筛选得到的领域内专业术语。

3.1.2 类别划分

本文将粮情数据的中文实体类别划分为14类。其实体类别如表2所示。

表2 实体类别

3.1.3 标注实体

选取部分语料,采用BIOES标注方法对33 346条数据进行实体语料标注。

3.1.4 特征分析

如表3所示,粮情数据集在实体类型和专业性等方面与通用数据集相比都有很大不同,除了无明确边界外,该数据集有几个特点:实体类别多,该数据集包含14个实体类别;专业性强、领域内未登录词多,在数据集中存在大量专业术语和未登录的粮情术语,如“褐胚”、“酸败”和“玉米象”等。而现有分词工具对领域内专有名词不敏感以及无法对未登录词进行正确分割,很容易导致分词错误,从而降低实体识别精度;数据集中存在一些嵌套实体,如“玉米象”与“玉米”,很容易造成模型误判。

针对粮情数据集的特点,本文提出了结合粮情词典与Flat-lattice做实体抽取。粮情词典的引入提高了Flat-lattice识别粮情领域内未登录词与专业名词的性能,同时辅助Flat-lattice更好地避免分词错误和充分利用词信息。

表3 粮情数据集样例

3.2 flat-lattice模型

汉字格结构对利用词信息和避免分词的错误传播有很大的好处。因此将一个句子与一个词典进行匹配,得到其中的潜词。如图4所示。格是一个有向无环图,其中每个节点都是一个字符或一个潜在的字。格包括句子中的一系列字符和可能的单词。单词的第一个字符和最后一个字符决定了它的位置。本文采用Transformer对序列中的长距离依赖进行建模,引入序列中的每个token的位置表示保存位置信息。为1个标记(字符或单词)分配了2个位置索引:头位置和尾位置,通过这2个索引,既可以从1组标记重构出1个格子,也可以把1个格子压成1个平面。如图5所示。因此,可以直接使用Transformer对格子输入进行完整的建模。

图4 汉字格子结构举例

图5 格子转为平面结构

算法流程为:

输入:输入的字符与粮情字典里的词进行匹配,与原始文本一起形成Token,由Token映射出头位置索引head和尾位置索引tail。

初始化可学习参数,Wr,Wq,WK,R,WK,E,u,V。

对于格子中的两个跨xi和xj,通过式(1)~式(4)计算它们之间的区间相对位置距离,

(1)

(2)

(3)

(4)

(5)

式中:Wr是一个可学习的参数,⊕表示连接算子,Pd计算如式(6)和式(7):

(6)

(7)

式中:k为位置编码的维数指标。

(8)

式中:Wq,WK,E,WE,R∈Rdmodel×dhead,u,V∈Rdhead是可学习参数。

Flat之后,将字符表示形式带入输出层,后面接条件随机场,从而得到命名实体识别结果。

3.3 实验结果

3.3.1 模型实验结果

表4为基于粮情词典和Flat-lattice的命名实体识别模型在粮情数据集上的实验结果,并同中文命名实体识别常用的基于字符的CRF,Bilstm-CRF模型以及无粮情词典的Flat-lattice模型的实验结果进行了对比。与传统的方法相比,基于粮情词典的Flat-lattice模型的实体识别效果有了很大的提升。相对于没有粮情词典的Flat-lattice模型,有粮情词典的模型能将F1值从89.96%提高到94.29%。

表4 实验结果对比

3.3.2 粮情词典的影响

实验结果显示,随着训练次数的增加,无粮情词典的模型与有粮情词典的模型F1值、准确率和召回率都逐渐提高。无粮情词典的模型的精确率、召回率、F1值分别为93.39%、86.78%、89.96%,而加入粮情词典后,则将精确率、召回率、F1值分别提高了2.65%、5.92%、4.33%,且有粮情词典的模型收敛速度更快。粮情词典对粮情实体抽取任务效果的提高起到了一定的帮助作用。

4 总结与展望

通过对以往的粮情决策支持系统的研究发现,当前粮食及相关行业的决策支持技术存在获取和添加知识困难、难以利用先验知识等不足。本实验针对这些不足提出了基于知识图谱的粮情决策支持技术,并采用粮情词典与Flat-lattice结合的方法从多源异构数据中抽取出粮情实体用于后续构建基于知识图谱的粮情决策支持。经过实验,结合粮情词典与Flat-lattice抽取实体F1值最高达到94.29%。

将知识图谱技术用于决策支持,既能挖掘出数据间的深层关联关系,还能有效利用先验知识进行辅助决策。构建粮情知识图谱决策支持系统不仅能为储粮安全提供信息保障,为农民提供科学决策,还能为科研人员提供研究参考。同时构建基于知识图谱的粮情决策支持也是智能农业的一部分,更是响应国家提出的“农业信息化”的号召。尽管对基于知识图谱的粮情决策支持系统做了很多尝试,但是还不够深入和完善,需要更进一步的研究。未来研究团队将探索如何从多源异构数据中自动化构建粮情知识图谱,并深入研究如何利用知识图谱的知识进行粮情决策。

猜你喜欢

决策支持系统本体图谱
护理临床决策支持系统的理论基础
眼睛是“本体”
绘一张成长图谱
面向知识转化的临床决策支持系统关键技术研究
临床决策支持系统应用于呼吸疾病的现状概述
电务维修决策支持系统研究
补肾强身片UPLC指纹图谱
基于本体的机械产品工艺知识表示
主动对接你思维的知识图谱
专题