APP下载

知识图谱相关方法在脑科学领域的应用综述

2022-11-25何松泽

计算机技术与发展 2022年11期
关键词:脑科学脑区图谱

王 婷,何松泽,杨 川

(成都信息工程大学 计算机学院,四川 成都 610225)

0 引 言

脑科学是继基因工程之后的最前沿的学科之一,也是最难以攻克的领域之一。其主要研究内容是加深人类对大脑的理解,达到“认识脑、保护脑和创造脑”的目标。随着科学技术的进展,目前脑科学研究呈现出多学科交叉,多技术应用的局面[1]。而将知识图谱的相关方法应用到对脑科学领域文献知识的集成、分析与挖掘任务上,会对目前的研究成果有着更加清晰的认识,也会为潜在的研究方向提供一定的指引,甚至是为病理诊断提供依据[2]。因此,将知识图谱相关方法应用到脑科学领域有着深刻的学术研究价值,也存在着广泛的应用空间。

知识图谱从本质上讲是一种描述实体关系的语义网络,其能够组织、管理和挖掘文本信息。知识图谱的出现也为脑科学领域汇聚出当前主要领域研究方向与方法。郭文斌等人[3]绘制脑认知知识图谱,指出中国脑认知研究领域和研究主线。韦洁瑶等人[4]构建出与脑连接机制论文相关的知识图谱,指出美国是脑认知科学的主导研究力量,研究重点落在白质、额叶皮层与神经性疾病的关系。王尧等人[5]利用Citespace构建知识图谱了解了近10年全球脑科学研究现状,指出目前研究热点和趋势呈现多学科交叉的特点。由此,知识图谱帮助研究人员从文献中提取脑科学领域的信息,帮助他们分析与融合已有知识。以自然语言处理方法来研究脑科学文献多数落在知识抽取上,对知识融合和知识推理的相关方法研究内容则较少。这可能是由于两方面的原因:第一,目前多需要为科研人员提供搜索服务。第二,目前国外主要是从图像、模型入手去抽取相关信息,而并非仅从文本数据中抽取相关信息,大规模地构建知识图谱。目前已经有脑科学相关的知识图谱应用出现。国内的有中国科学院自动化研究所类脑智能研究中心所实现的脑科学知识图谱,国外的有欧盟人脑计划(Human Brain Project)的EBRAINS Knowledge Graph[6](https://kg.ebrains.eu/)。它们的主要作用都是利用知识图谱提供数据整合、分享和搜索服务。现阶段脑科学的知识图谱为研究人员提供了数据集与相关分析工具,并且也完整地向研究人员展示如何从文献中抽取实体关系进行图谱的构建,也为他们提供了纵观全局的能力。然而,现阶段脑科学领域的知识图谱也存在着一些不足,主要表现在以下几个方面:一、未能更好地利用知识图谱对数据进行推理挖掘,重点都是落脚于提供搜索与管理服务;二、在平台的构建上,存在着平台缺乏良好维护的问题;三、在认知功能脑知识图谱上,大多都是与脑灰质相关,未能联系到脑白质,忽略了脑白质所处的作用。

该文对脑科学领域的构建知识图谱的主要方法进行了总结,并指出可以优化的方向,其次对于已有的相关应用或者工具进行了简要的介绍,并对未来方向进行了展望。

1 脑知识图谱构建相关方法

脑知识图谱构建与常规的文本知识图谱构建过程类似,本节主要围绕着知识抽取、知识融合以及知识推理这三个部分进行,主要内容概要视图如图1所示。

1.1 知识抽取

知识抽取是指通过一些自动化或者半自动化的技术抽取出可用的知识单元。具体针对脑科学领域,主要是对文献中脑区相关实体、认知功能相关实体、实验数据以及与某疾病相关的临床报告中的特征进行实体抽取,对与脑区有关的关系进行关系抽取,如脑区与脑区之间的关系、脑区与基因之间的关系等。

1.1.1 实体抽取

实体抽取又称作命名实体识别,是指从数据语料里抽取出命名实体。目前脑神经科学领域用到的实体抽取方法主要包括基于规则的实体抽取、基于机器学习的实体抽取和基于深度学习的实体抽取。一般来说,在脑科学领域,主要抽取的实体类别分为四类:脑区相关实体、认知功能相关实体、实验数据以及临床报告中与疾病相关的特征。基于规则的实体抽取,是指预先将非结构化文本数据进行分词,然后再按照实体类型等特征预先进行标记,构建出一个特征词典等新的语料输入后使用构建好的词典进行标记,再利用正则表达式进行匹配抽取出所需要的实体。Matthew等人[7]将文献中的实体进行注释,然后再用正则表达式匹配抽取出相应实体。Nariman等人[8]通过检索给定的术语,抽取出与脑出血有关的实体特征,再进行进一步的研究。研究人员[9]利用RENER方法匹配出与癫痫和脑电极位置的特征,该方法主要利用正则表达并结合一些其他规则来提高召回率。

由于基于规则的实体抽取迁移泛化能力较弱,学者们开始考虑运用机器学习的方式对实体进行抽取,即基于机器学习的实体抽取。Abacha等人[10]利用条件随机场构建分类器,定义了多种命名实体类别,该研究随机抽取文献摘要进行标注,选取单词的构词、词性等语义特征作为特征进行训练。Riedel等人[11]基于多个语料库特征和分类器识别出与认知实验相关的各种实体。Senders等人[12]使用自己所开发的回归模型从MRI报告中提取与胶质母细胞瘤相关的显著特征。

基于深度学习的命名实体识别,相比于机器学习的一大特点是它能自动提取特征。Matthew等人[7]利用条件随机场和双向长短时记忆循环神经网络进行词向量的构建和模型的训练。Sheng等人[13]设计了一种基于BiLSTM-CNN的多类别实体识别方法,能够有效地识别与大脑相关的实体。对于脑科学的实体抽取,主要是从神经影像学的相关文献和病历报告里进行相关实体的抽取,文献[14]表明近几年对于从神经影像学文献中提取相关知识得到了广泛的关注。目前对于脑科学领域的实体抽取,相关的已有的先进方法还未引用到这上面来,诸如在其他生物领域已经在使用了的方法:BioBERT[15]、Bio-ELECTRA[16]等以及在命名实体识别领域里能够取得较好结果的方法[17-19]。

1.1.2 关系抽取

关系抽取的目的是抽取出两个实体之间的语义关系。一般分为两种,一种是以管道方式进行抽取,另一种是以实体关系进行联合抽取。在脑科学领域,以管道式的抽取方法为主,主要抽取的是与脑区相关的关系,即脑区与脑区之间的关系、脑区与基因之间的关系等。以管道的方式进行抽取是指按顺序先抽取实体再抽取关系。Richardet等人[20]从大量的脑科学文献中提取实体及实体关系,其先使用三种不同的命名实体方法进行识别,接着再以三种不同的方式进行关系提取。Erinc等人[21]为了识别大脑其他区域与丘脑室旁核相关的关系,提出了一种基于词典与依存关系的方法来进行关系抽取。Sharama等人[22]提出一种ConnExt-BioBERT方法,依据管道方式将自然语言处理中预训练模型应用到脑区关系抽取上取得了较好效果。Liu等人[23]提出了一种新颖的远程监督模型来提取脑区与基因之间的基因表达关系,他们先对所需要的句子进行脑区和基因的标记,再提取出实体对进行分组,然后构建特征再进行模型的训练,最后提取实体关系。

1.1.3 知识抽取总结

对比脑科学领域中实体抽取方法和关系抽取方法,相关先进方法在关系抽取上使用的较多,而在实体抽取上使用的较少。其原因主要在于,进行关系抽取的时候往往会先进行实体抽取,这变相地将相关先进方法应用到实体抽取上。其次在于,关系抽取相比于单个的实体抽取难度更大,而实体抽取往往是很多任务的第一步,研究人员很容易将相关先进方法运用到更复杂的问题上去得到更好的结果。单独针对关系抽取而言,主要运用管道式的方法,即先抽取实体,再抽取关系,这样容易造成误差累积和实体重叠问题,应当着重关注实体关系联合抽取的方法,这样可能会在脑区关系抽取上有进一步的提高。

1.2 知识融合

知识融合建立在前续步骤知识抽取的基础上,其目的是将抽取于不同的知识库(或文献)的同一实体或概念的描述信息进行融合。该文所述脑科学知识融合方法将围绕着指代消解和实体消歧两个主要问题进行阐述。

1.2.1 指代消解

指代分为两类[24],一种是共指,指的是当多个名称对应同一实体的时候,将这些名称对应到正确的规范的实体上,也就是解决异名同物问题,不依赖于上下文信息。另一种为回指,指的是文中代词或名词依赖于上下文信息。具体针对于脑科学领域,Halil等人[25]提出了一种基于语义规则的方法来进行回指消解以提升关系抽取的效果,其主要算法分两步,第一步是识别与标记回指指代,第二步检查这些回指,并尝试将它们链接到先行词上,算法所用到的核心语义信息都是由SemRep[26]自然语言处理工具提供。Choi等人[27]利用生物共指语料库开发了一种基于规则的共指消解系统,算法主要思想是先识别出所有实体和代词,再根据一系列的语义规则对每个代词所指向的实体进行排序,排序高的即为代词所对应的对象,它能够对生物医学实体进行识别和共指消解。文献[20]则在命名实体识别之后进行标准化,主要利用了英文构词法特点来进行指代消解。

1.2.2 实体消歧

实体消歧是指一个句子里实体很有可能有多个意思,在不同的上下文环境中其意思不一样,也就是同名异物问题。实体消歧技术主要可分为两种,一种是实体聚类消歧,一种是实体链接消歧。而具体针对脑科学领域,实体链接消歧是较为常用的方法,它是指将文献里的指称项链接到外部的知识库中给定的正确的词条,能够清楚内在的意思,从而达到消歧的效果。Zeng等人[28]创建了大规模的脑科学相关的语义知识库,在实体消歧的过程中,用到了一种基于语义知识消歧方法[29],通过检索各种语义关系对文档进行相似度分析,从而实现实体消歧。Wang等人[30]提出一种概率的方法进行大脑相关实体消歧。其方法主要是用到了实体的流行度以及实体上下文知识特征,将这两种主要特征用概率的方法计算出来,再进行加权相加得到一个总体概率。

1.2.3 知识融合总结

根据已找到有关实体消歧以及指代消解的相关方法在脑科学领域应用情况来看,大多数方法都是基于规则或者基于统计机器学习的方法。且根据文献[2,20]来看,当大规模地抽取实体关系时,研究人员对于实体消歧所采取的方法要么是按照一定规则对实体进行消歧,要么就是对数据预先进行处理使得一个句子里只包含两个固定脑区或是做出某种限定使得只考虑句子内的关系,这些方法的应用可能对结果不会产生太大影响,但过程较为繁琐。如果能重点对知识融合的方法进行研究并能够应用到脑科学领域上面来,应该在一定程度上会提高脑科学知识图谱的构建周期。

1.3 知识推理

知识推理是指从已知的事实出发,通过已掌握的知识,找出其中蕴含的新知识,或者说归纳出的新的事实。在对脑科学领域文献进行挖掘推理时,主要关注的是基于规则的传统推理与基于深度学习的知识推理。

1.3.1 基于规则的传统推理

基于规则的传统知识推理,是指在知识图谱上使用一些规则或者利用统计特征进行推理。Zhu等人[31]提出一种无模型的方法,仅根据知识图谱本身来验证关系进行关系推断,并用聚类系数在脑知识图谱中找到相关主题。Liang等人[32]提出了一种推理重用的方法构建了大脑区域-孤独症的本体,以此本体出发,利用相关规则对此本体进行扩展从而发现隐藏关系。文献[2]则先利用属性推理对实体层次进行了划分、再用语义上的逻辑进推理,挖掘潜在的实体关系。文献[33]中使用关联分析的方法,对精神疾病与大脑的结构的相关文献进行分析,研究哪些脑结构在精神疾病中占主导地位。

1.3.2 基于神经网络的知识推理

基于神经网络的知识推理,主要是使用神经网络的学习能力与泛化能力,对三元组里的元素进行推理或对知识图谱路径里的元素进行预测。Zhu[34]利用神经网络训练了一个针对三元闭包的神经网络模型,其中关系频率代表关系可信度,利用这种模型能够捕获到大脑区域关系强度所暗含的关系链接。Nian等人[35]利用Node2vec方法从与神经退行性疾病相关文献中挖掘食物与该疾病的潜在关系。

1.3.3 知识推理总结

目前脑科学领域所采用的方法主要为基于规则和基于神经网络的方法。对比两种方法,基于规则的方法虽然对研究人员专业要求较高,但在后期对知识图谱扩充的时候不需要进行模型训练,按照现有的规则进行推理挖掘。而基于神经网络的知识推理,则在后期知识图谱扩充的时候可能需要对推理模型进行重新训练,加大了后期的工作量。并且观察文献[2,32-33]发表年份,近年基于规则的方法依然被研究人员所采用,说明基于规则的方法仍然具有实用价值亦或者是对该问题关注度不高。

1.4 脑科学知识图谱现有方法总结

从整体知识图谱的相关方法在脑科学应用上不难发现,研究人员目前着重关注的问题在于实体关系抽取,并且相对其他两个任务,文献[22]表明研究人员已经将相关较为先进的方法应用到处理该问题上。主要原因在于,实体关系抽取是构建整个脑科学知识图谱中最为基础也最为重要的任务,该任务也会对下游任务的效果产生重要影响。不过随着研究深入,知识抽取的方法日趋完善,研究人员着重关注问题会慢慢向知识融合与知识推理上转移。目前主要存在问题如下:

(1)获取数据集的难度大,很少有公开处理好的数据集。研究人员在研究某个问题的时候,都需要自己去下载文献摘要,自己去预处理数据,这样使得在对某一方法进行评估时,难以获得较为公正的评价结果。

(2)方法需要更新。部分方法还有待更新,即使在实体关系抽取任务上,虽然采用了较为先进的方法,但该方法仍然存在着误差累积的问题。

(3)文献[7,10]表明脑科学文本实体类别多。需要对标记方法进行深入设计,良好的标记方式会对模型带来效果提升。

2 脑知识图谱相关应用及工具

2.1 Linked Brain Data

Linked Brain Data是中国科学院自动化研究所类脑智能研究中心实现的脑科学知识图谱。它提供了大脑与神经科学的相关服务。LinkedBrain Data的知识是从结构化和非结构化的不同数据源里抽取,需要对其不同源数据进行合并。为此相关研究人员使用了文献[29]中所提出的一种基于语义的实体链接消歧算法并借鉴CASIA-KB[36]中从多数据源构建知识库的相关方法。在构建过程中,首先对于不同资源都有同一术语的情况考虑直接映射到一起,其次对于具有相同意思但形式不同的词汇将其重定向到相关知识库中。最后对于有歧义的词汇,使用上述提到的实体消歧算法进行实体链接消歧。作为国内脑科学相关的知识库,Linked Brain Data实时性好,具有知识推理功能。缺点是平台构建完整性不好,有些模块无法使用,对平台的维护不够,部分跳转网页链接失效,在脑认知功能关联图部分,主要目标还是与脑灰质相关,忽略了脑白质与脑灰质之间的联系。

2.2 InterLex

InterLex是以NeuroLex为基础所构建的一个项目,包含所有现有的神经词汇,并且得到了神经科学信息框架(Nuroscience Information Frame)[37]等项目的支持,是一种动态的词典。NeuroLex[38]是利用Semantic MediaWiki所创建的。在Semantic MediaWiki中的页面可以被标记出来并且以结构化的方式去揭示知识,即通俗上来讲Semantic MediaWiki可以将维基百科的页面变成“数据库”。NeuroLex最初的一些条目主要来自于神经科学信息框架标准本体库[39]。

目前NeuroLex已经过渡到InterLex上,并且已经处于公开测试阶段。InterLex正在构建一种方式能帮助生物学家交流他们的数据,使得相关信息系统能够更容易找到信息并且提供更加强大的集成数据的手段,其缺点是没有有效结合文献中的相关语句,用户无法及时深入了解。

2.3 KnowledgeSpace

KonwledgeSpace是欧盟脑计划的一个成果,它是基于社区化的一种百科全书,能将大脑相关术语概念链接到数据、模型和文献,并且它为用户提供了来自15个不同神经科学数据源(如艾伦脑科学研究所和人类大脑项目)的数据访问权限。KnowledgeSpace是由神经科学信息框架本体进行驱动的,它拥有神经科学领域的术语与概念,可以为命名实体识别提供辅助作用。它能够根据术语查询到该术语相关的文献以及概念,方便研究人员的相关查询与检索,该工具交互性良好,平台维护较好。在所查概念旁引用许多相关开放的相关数据,为研究人员进一步查询数据提供了帮助。缺点在于对所搜索出来的文献只进行了单纯的罗列。

2.4 EBRAINS Knowledge Graph

EBRAINS Knowledge Graph的前身是欧盟的HBP Knowledge Graph (人类脑计划知识图谱)[40-41],其目标在于帮助研究人员搜索和共享数据。它也存储了来自很多不同源的数据,能够支持更广泛的数据再利用和复杂的计算研究。EBRAINS Knowledge Graph由Blue Brain Nexus和EBRAINS所设计的扩展组成。Blue Brain Nexus是洛桑联邦理工学院所开发的一款开源知识图谱工具,用来组织和管理相关实验数据。EBRAINS Knowledge Graph继承了HBP Knowledge的相关属性,其不单是从文本中提取数据,还从实验图片中提取所需要的数据,丰富了相关知识储备。但对于知识推理方面的功能还有待进一步提升。

2.5 Textpresso For Neuroscience

Textpresso For Neuroscience[42]是一个关于神经科学文献挖掘工具,允许通过使用关键字和语义相关类别进行复杂的查询。它提供对文献中所有词语搜索的功能,并且引入了语义类别,能够更精准地在相关范围内搜索到文献数据,它还能查询出包含所包含相关词汇的句子,对于研究人员进行相关文献的参考提供了更高的准确性。Textpresso的主要数据来源于PubMed的摘要、全文以及期刊等信息。Textpresso的优点在于其搜索是以句子为单位的,即要求在一个句子中满足所有的查询项,并且结合了多种选项进行搜索能够提高搜索的精准度。不过其缺点在于精准度的提高,会降低其发散能力,即不能以一个关键字为中心发散到与其相关的知识上。本节简要总结如表1所示。

表1 相关应用与工具总结

3 脑科学领域知识图谱发展

现阶段国内外呈现出两种不同的研究方向趋势,国内以中国科学院自动化研究所类脑智能研究中心所实现的脑科学知识图谱Linked Brain Data为代表,主要通过文献文本来构建知识图谱,从而分析神经科学数据。国外以欧盟的“人脑计划”[43-44]的EBRAINS Knowledge Graph为代表,主要以实验数据以及模型等来构建,目的是为研究人员提供相关实验数据及可用的工具。对比国内外,国内神经科学知识图谱具有实时性好、可扩展性好等优点。但也有缺陷,国内的知识图谱没有将文献中的相关知识挖掘完全,比较注重实体与实体之间的关系,不太注重文献中相关实验数据以及相关方法。如果能将方法数据作为属性融入到知识图谱中,能够更好地服务于研究人员,通过查询这个知识图谱,研究人员就能知晓所使用的实验数据以及方法。

其次,国内的认知功能图谱并不是很完整,没有将脑白质相关知识包含进去,主要还是集中在脑灰质相关部分。将脑白质相关知识融入到脑灰质的知识图谱中,能够构建出更加完整的脑知识图谱,这会让研究人员更充分地挖掘其中的知识,提高对认知功能的理解。

而对于国外的知识图谱而言,他们为研究人员主要提供了相关数据集、模型项目等。优点是为研究人员提供了丰富的数据集与模型,缺点是排序选项较少,遇到较多的资源时,研究人员翻阅会比较耗时。

综合而言,现阶段在脑科学领域知识图谱的应用主要是以搜索挖掘知识与管理知识两大方向前进,其次便是神经科学领域的术语搜索系统用于辅助构建脑科学知识图谱。

4 结束语

近年来,大量的机器学习方式、深度学习方式运用到上面研究神经科学文献来,挖掘出了一些潜在研究方向与知识之间的潜在关系。在未来还可以通过以下几个方面对脑科学知识图谱展开深入研究:

(1)以多模态的角度构建知识图谱。从非文本数据和文本数据中提取所要的数据,构建出多模态的脑科学知识图谱,丰富知识图谱内容,使其更加全面将是一个主要的研究方向。

(2)利用迁移学习。在脑科学知识图谱构建上,因其针对于一个特定的领域,可以针对于该领域训练出更加有效的大规模预训练模型,将训练好的模型迁移到后续不同文本挖掘任务中,使其达到更优的效果。

(3)将神经成像数据对齐到文本数据上。将神经成像数据对齐到文本数据上,将有助于研究人员发现相关问题,也有利于多模态的知识图谱构建。

(4)利用图神经网络进行推理。图神经网络的结构,刚好可以对应于知识图谱的结构,以图神经网络去研究该问题,会是一个主要研究方向。

(5)脑科学知识图谱的应用拓展。目前的脑科学知识图谱,主要在于为科研人员提供知识管理,搜索挖掘实体关系上。将脑科学知识图谱应用拓展到相关服务行业,将会是脑科学知识图谱应用的一个方向。

猜你喜欢

脑科学脑区图谱
基于图对比注意力网络的知识图谱补全
脑科学在语文阅读教学中的应用举隅
教育与脑科学结合是未来教育发展的大方向
长期戒断海洛因成瘾者冲动性相关脑区的结构及功能特征*
非优势大脑半球缺血性脑卒中患者存在的急性期脑功能连接改变:基于rs-fMRI技术
再不动脑, 真的会傻
脑科学改变教育
董奇:脑科学研究与未来教育
图表
止咳药水滥用导致大脑结构异常