APP下载

基于迁移学习的化学键能数据自动抽取

2023-02-24薛秋红

现代情报 2023年1期
关键词:化学键语料实体

庞 娜 袁 钺 薛秋红

(1.北京大学信息管理系,北京 100871;2.中国科学院软件研究所,北京 100190)

随着科学数据的指数级增长,科学数据已成为科学研究的关键成果和重要的战略性资源。科学研究的范式也开始在实验范式、理论范式、仿真范式之外,出现第四科研范式——数据密集型科学发现。该范式由大量已知数据,通过计算得出之前未知的可信理论[1]。科学论文记录了验证过程、实验观察结果、研究结论等科学实验研究线索,包含大量高价值的科学数据。传统文献分析方法并没有对科学数据进行有效的分析,导致大量科学数据湮没于海量的文献中,不利于对科学数据展开深入的、创新性的分析,限制了数据密集型的科研发现。对论文中的科学数据的重新组织,可加速知识的再生产和再利用,促进科研创新。

以化学键能数据为例,国际上与化学键能数据相关的书籍与著作相对较少,相关开放数据库平台仍然处于研发的初级阶段。其中,清华大学基础分子科学中心键能研究团队和南开大学元素有机化学国家重点实验室从2014年起开发iBond化学键能数据库,并对学术界开放与免费使用(http://ibond.chem.tsinghua.edu.cn/或http://ibond.nankai.edu.cn/)。但是,iBond数据库中的科学数据是由领域专家从大量化学键能相关的科学论文中手工抽取,数据抽取效率低下[2]。因此,研发化学键能科学数据的智能抽取工具,能够帮助领域专家快速高效地构建化学键能数据库。

本文研究了由较少专家支持的化学键能科学数据抽取方法,实现对论文中的化学键能科学数据自动抽取。本文提出了一种自动抽取化学键能科学数据的方法,该方法首先在自动抽取的领域高频子词的基础上构建领域子词词典,然后构建端到端联合BERT-CRF模型对论文中的化学键能科学数据进行抽取。

本文的贡献如下:

1)构建了端到端联合BERT-CRF抽取模型来抽取化学键能科学数据,相比于通过构建词典和规则并借助机器学习或深度学习的手段来抽取实体关系的方法,本文提出的方法降低了对专家的要求。

2)利用领域高频子词抽取技术,构建了化学键能领域高频子词词典来提取领域特征。在后续的深度学习训练中,将之前构建的领域高频子词蕴含的化学键能特征输入到深度学习模型中,获得了较为理想的抽取结果。

3)对BERT模型中不同下游网络的效果进行对比实验,结果表明,对于特定的任务,适当但不复杂的下游网络可以带来结果的提高。

4)本文从化学领域的自由文本中提取出了微观的知识实体、关系,是使用智能情报分析技术对化学键能细粒度的知识进行自动抽取的一次重要实践,可以有效地促进化学领域的知识发现。

1 相关研究

近年来,研究者们常使用基于人工手动注释、基于规则、基于统计机器学习与基于深度学习等方法进行领域知识实体的抽取[3]。其中,有很多学者对化学领域中的科学数据抽取进行研究,主要包括化学命名实体抽取与对应的关系抽取两个重要的研究方向。

1.1 化学领域的命名实体抽取

从期刊论文和化学公司内部技术报告中抽取化学实体一直是信息抽取领域重要的研究方向之一。不同于生物医学领域拥有大量专家标注的数据可以提供学习,早期的化学实体识别缺乏人工标注的数据,其使用的数据大多来自生物医学领域[4-7]。真正意义上的化学实体识别来自于2015年BioCreative会议中的CHEMDNER测评任务[8],该任务需要对其发布的语料中包含的化合物与药物名称进行抽取。目前主流的化学领域实体抽取方法主要有两种:基于机器学习的抽取方法与基于深度学习的抽取方法。

基于机器学习的抽取方法主要使用马尔可夫模型、条件随机场模型等机器学习模型来对语料的特征进行建模,从而抽取化学命名实体。该类方法根据字符串在语料库中出现的统计频率来决定其是否构成一个实体,主要的机器学习模型有最大熵马尔可夫模型、条件随机场模型等。Corbett P等[5]构建了PubMed语料库,使用最大熵马尔可夫模型对语料中的化合物、化学反应、化学形容词、酶、化学前缀进行有效地抽取。类似的,Jessop D M等[9]利用最大熵马尔可夫模型对多种类型的化学实体进行识别,提出了OSCAR4化学实体识别工具,该工具可以识别有结构的化学实体、反应、化学形容词、化学前缀等。Klinger R等[6]构建了IUPAC语料库,使用条件随机场模型抽取语料中的化合物与化学修饰符。Rocktäschel T等[10]提出了ChemSpot化学物质自动识别系统,使用条件随机场模型与基于词典相结合的方法识别化学名称、药物、缩写、分子公式等。Khabsa M等[11]提出了ChemXSeer化学实体自动提取工具,通过向条件随机场模型中加入n-grams、词缀、上下标、化学符号等一系列新的特征指标来识别化合物、化学修饰符等。

基于深度学习的抽取方法主要使用卷积神经网络、长短期记忆网络等神经网络来自动化特征工程,实现对化学命名实体的有效抽取。近年来,随着深度学习的大火,国外已将深度学习广泛应用于化学物质识别,例如,Gu J H等[12]应用最大熵模型与卷积神经网络来共同识别生物医学领域中化学药物、疾病实体;Xie J H等[13]使用双向长短期记忆网络识别电子烟使用反馈意见中的化学物质。在国内,马建红等[14]从百度百科科学分类下的化工科技词条库的词条中爬取相关信息建立语料库,并采用BiLSTM-CRF方法来识别相关化学物质、化学属性、化学参数及其量值。杨培等[15]采用BiLSTM-CRF结合注意力机制的方法进行化合物与药物的识别。

1.2 化学领域的关系抽取

对于化学领域的关系抽取,相关研究则较少[12,16],并且大都只基于某一类关系进行抽取。程威等[16]使用基于最短依存路径和注意力机制的双向LSTM模型,从生物医学文献中自动抽取出化学物质和蛋白质之间的相互作用关系,如上调、下调、和催化作用等。Gu J H等[12]应用最大熵模型与卷积神经网络来识别生物医学领域中化学药物与疾病之间的关系。此外,较为有代表性的是Pang N等[17]提出的两阶段联合BERT-CRF模型,Pang N等在进行化学键能科学数据抽取实验时,考虑到化学领域涉及广泛的子领域,实体的类型非常复杂,并且科学论文中包含若干从句、复合句等长难句,机器学习方法在抽取复杂句子中的实体和关系时效果可能不是很好,因此他们在构建抽取模型时,采用深度学习的方法来抽取复杂的语义关系。“两阶段”模型首先使用专家构建的词典和规则来识别包含许多未知单词的化合物和化学键实体。然后用“$”将已识别的化合物和化学键的标识符(化合物标识符为$CMP$,化学键标识符为$BON$)进行封装,替换未登录词,然后将结果输入到下一阶段的深度学习模型中进行训练。该模型能够对化学键能语料库中的化合物、溶液、反应、方法、化学键、化学键能指示词等实体以及之间的关系进行有效抽取。

1.3 小 结

可以看出,无论是使用机器学习的方法还是使用深度学习的方法进行化学领域实体关系的抽取,都要依赖于手工标注好的语料,且上述研究使用的标注语料大多是生物医药领域的数据,而由于化学领域中手工标注这些专业程度高的语料需要耗费大量的时间与人力成本,纯粹基于化学领域的标注数据开展的研究相对缺乏。虽然有学者使用BERT等大规模预训练模型来解决实体关系抽取任务中标注数据缺乏的问题,但是由于相关领域数据专业程度极高,识别的难度依然较大,需要专家的介入。为了解决该问题,本文提出了一种端到端的化学键能自动抽取模型,该模型以Pang N等提出的两阶段联合BERT-CRF模型为基础,通过结合本文构建的化学键能知识库和提出的领域高频子词的抽取方法,来保障模型在不需要专家介入下的识别准确性。

2 方 法

2.1 研究问题陈述

本文所抽取的化学键能科学数据来自ChemBE语料库,该数据包含7种类型的实体以及3种类型的实体之间的关系[17]。

7种实体分别为化合物、溶液、反应、方法、化学键、化学键能(pKa)指示词和化学键能值(pKa值),如图1所示。3种实体之间的关系可以在一个句子中描述:XX化合物在A溶液中发生B反应,使用C方法去研究D化学键,其pKa值为E。上述关系可简化为3种关系,如图2所示。本文的研究目标是从化学键能相关的科学论文中抽取7种实体和3种关系。

图2 3种需要抽取的关系

2.2 端到端联合BERT-CRF抽取模型

本文提出的端到端联合BERT-CRF抽取模型在输入时,使用事先抽取好的领域高频子词词典,将单词切分成具有领域特征子词作为后面BERT模型的输入,从而提高抽取结果的准确性。图3为端到端联合BERT-CRF抽取模型整体技术框架。

图3 端到端联合BERT-CRF抽取模型整体技术框架

2.2.1 化学键能知识库构建

通过对化学论文(如《JOURNAL OF THE AMERICAN CHEMICAL SOCIETY》等期刊的论文)、权威化学词典(如《Dictionary of Chemistry》等词典)与权威化学网站(如PubChem等网站)中包含的文本数据进行解析、清洗,本文构建了包含化合物、化学反应、化学形容词、化学方法等词典。

2.2.2 抽取领域高频子词

子词是一个包含有位置信息的词缀。而领域高频子词则指的是在某一专业领域内被频繁使用来表达特定含义的修饰词缀,一般固定地出现在一些专业名词的某一位置(前缀或是非前缀位置)。在抽取领域高频子词时,使用高频字符串抽取的思想从知识库中的语料抽取化学键能领域的高频子词。因此,该任务可以转化为抽取带有位置信息的词缀的任务。

在抽取领域高频子词时,抽取知识库中出现频率大于5的最长子串。同时,抽取包含前缀和非前缀这两个位置信息。用“0”表示前缀,用“1”表示非前缀。算法1为领域子词抽取算法。然后根据抽取的领域子词结果,改写后面的BERT深度学习模型词汇表,并在非前缀子词前面添加“##”符号来标识。后续输入到BERT模型之前,需要首先根据改写的词汇表,将单词切分成若干在词汇表中的领域子词进行表征。

算法1:领域子词抽取算法

表1给出了典型实例,说明同一单词“tetramethylpiperidine”的不同子词切分后的结果。在改写了包含领域子词词汇表后,与在公共领域中训练的BERT原始词汇表相比,该词被切分后保留了更多的语义信息,具有更多的领域特征,有助于在后续的深度学习任务中获得更好的抽取效果。

表1 专业词汇切分子词效果前后对比

在后续再训练过程中,使用《Journal of Organic Chemmistry》等期刊中70万篇化学论文的摘要,对谷歌训练的12层transformer的参数进行再预训练。在对transformer参数进行训练时,使用由化学领域高频子词构成的改写后的词汇表。通过对领域无标记语料进行再预训练,使参数可以更好地表征出化学领域语义特征,有助于提高后续抽取任务的准确性。

2.2.3 端到端联合BERT-CRF模型

端到端的联合BERT-CRF模型如图4所示。

图4 端到端联合BERT-CRF模型

与两阶段联合BERT-CRF模型相比,端到端联合BERT-CRF模型只使用深度学习模型来解决复杂的专业术语问题,因此减少了预测的时间。此外,端到端的联合BERT-CRF模型在训练过程中更加简单,因为它根据可以表示领域特征的领域高频子词直接进行训练,对专家的要求相对较少,当迁移到其他领域时,再遇到复杂的专业术语问题,仅需要较少的专家支持和较少的领域资源即可以完成领域迁移。

之后使用规模较小的、基于特定任务的数据进行下游NER任务的微调,在下游的网络中,本文使用了BERT内置的softmax层和CRF层来训练标记的数据。首先,使用BERT内置的softmax层来预测标签[18]。logitsi使用softmax进行归一化之前的全连接层的输出。i表示所属类别,类别总数为C。Softmax常用于多分类问题。

(1)

为了避免概率太小而导致归一化下溢的问题,本文使用了logSoftmax对数函数。logSoftmax函数可以写为:

(2)

然后,在BERT模型后添加CRF层,完成下游实体识别与关系识别任务。CRF层由Lafferty J等[19]提出,常用于序列标记任务中。本文使用CRF作为下游网络,共同抽取实体和关系。CRF层中有状态转换矩阵,可以使用过去和将来的标签来预测当前的标签,并可以为可能的标签进行打分,以给出标签序列的概率。给定一个输入序列x={x1,x2,…,xn},一个预测序列y={y1,y2,…,yn},标签序列如式(3)所示[20]:

(3)

式(3)中tj(yi-1,yi,x,i)是观察序列的转移特征函数,表示在标记序列i和i-1位置的标记;sk(yi,x,i)为观测序列的位置i处标签的状态特征函数;λj是训练数据中需要估计的参数。在式(3)中,Z(x)为标准化因子[20]:

(4)

最优输出序列为y*:

y*=arg maxp(y|x)

2.2.4 模型联合抽取标注体系

本文的模型中采用了联合抽取标注体系,目的是利用一个模型同时抽取科学实体和科学关系。传统的模型先抽取实体,再根据抽取的实体结果抽取关系,准确性较低。联合抽取标注体系同时抽取实体和关系,可以同时使用实体与关系的特征表示来支持两个抽取任务,减少传统标注方式带来的二次误差,提高关系抽取的准确率。联合抽取标注体系包含“<位置信息、实体信息、关系信息>”3个部分。标注体系编码了位置信息、实体信息和关系信息这3类信息,标签中蕴含了实体信息和关系信息,如图5所示。

图5 联合抽取标注体系

位置信息有3种选项:B、I、O。其中B代表“Begin”,表示实体的开始;“I”代表“Inter”,表示实体的中间部分;O表示“其他”,即非实体词。实体信息有7个选项:化合物CMP、溶液SVN、pKa指示词ENG、化学键BON、方法MTH、化学反应RCT、pKa值EGVL。关系信息有4种选择:“CE”(化合物-pKa指示词)、“SE”(溶液-pKa指示词)、“EE”(pKa指示词-pKa键能值)、“NR”(无关系,不需要考虑)。标注体系的标签组成如表2所示。

表2 标注体系的标签组成

在上面的标注体系中,抽取实体时,是等价的,因为在抽取实体时不考虑后面的关系信息,只关注标签的前两部分。如果一个单词实际的标签为,但是被错误地识别为标签,则抽取到了正确的实体与错误的关系。标注示例如图6所示。

3 实验结果分析

3.1 实验数据

本文使用的实验数据来自ChemBE(化学键能)语料库[17]。ChemBE语料库中的语料来自化学键能相关学科的20多本主流学术期刊,如《Journal of the American Chemical Society》等。该语料库标注了研究问题陈述中需要抽取的7种实体和3种关系,是一个用于自动抽取化学键能科学数据的小型语料库。本文的实验数据可从https://github.com/quewentian/ChemBE-BERT-CRF中获取,实验数据的详细情况如表3所示。

表3 实验数据详细情况

3.2 基线模型

本文的基线模型采用Pang N等提出的两阶段联合BERT-CRF模型[17],该模型对有不同文本特征的实体关系采用不同的处理方法。两阶段BERT-CRF模型在第一阶段使用了专家构建的词典和规则来抽取包含大量未知的专业词汇的实体关系;在第二阶段使用了标识符替换第一阶段识别出来的未登录词汇(即,没有在BERT模型的词表中出现过的词),并将其输入到BERT模型中进行训练。图7为两阶段联合BERT-CRF模型。

图7 两阶段联合BERT-CRF模型

3.3 实验结果与分析

本文对不同的端到端联合BERT模型设置进行了实验,并且在整体的实体关系联合标注数据上设计了几组对比实验:首先,对比不同的下游网络组合,在BERT后添加不同的下游网络;其次,对比不同的BERT模型的输入,即,对比是否使用到了领域高频子词。

不同的网络组合有两种下游网络可以选择:softmax层和CRF层。这两个下游网络可以将BERT模型的输出归一化为概率。

不同领域高频子词也有两个选择:原始的基于全领域训练得到的全领域高频子词,以及本文中基于化学键能领域知识库训练得到的化学键能领域高频子词。使用不同的高频子词来切分未登录单词,然后将这些单词切分后的子词输入到BERT模型中。

从表4可以看出,端到端模型最佳的识别结果可以媲美之前提出的两阶段模型的最佳结果,端到端BERT-CRF模型与化学键能领域高频子词都采用的情况下,相较于之前提出的两阶段BERT-CRF模型的F1值只下降了1.26%。但是考虑到中间不需要针对领域专业术语去人工构建规则,该结果的准确性相对理想,这也证明了可以使用类似的想法以较低的成本迁移到其他领域。

表4 不同模型设置的实验结果

表5和表6显示了端到端BERT-CRF模型中使用化学键能领域高频子词分别在实体抽取和关系抽取上的结果(实体抽取的结果,不再考虑标注体系中后面的关系信息),其中大多数实体和关系抽取效果较好。然而,对于一些实体和关系,由于语法结构和构词规则的复杂性,准确性仍有较大的提升空间。图8展示了部分未准确抽取的错例,可以看到由于化合物实体的构词往往较为复杂,部分化合物难以完整且准确地识别。由于语料中参考文献的引用编号在预处理中未完全清除,因此部分数值型实体会和参考文献的编号混杂在一起,从而干扰数值型实体的抽取。此外,长难句等复杂的语言结构会为实体和关系的识别造成一定的困难。因此,未来考虑在预处理阶段尽可能地剔除参考文献的引用编号来增加抽取的准确性;考虑在模型中引入更多的外部知识来提高语义的表征能力,进一步提升复杂的实体与关系抽取准确性。

表5 端到端BERT-CRF模型+化学键能领域高频子词实体抽取结果

表6 端到端BERT-CRF模型+化学键能领域高频子词关系抽取结果

图8 错例分析

本文将代码部署为服务,使用不同的颜色来显示不同的实体,并使用下划线来标记具有重要关系的句子,如图9所示。

图9 系统部署界面

4 研究结论

本文提出了一种端到端的联合抽取模型,并提出了自动构造化学键能领域高频子词的方法,利用蕴含丰富领域特征的领域高频子词对大量未登录词进行分解后再输入深度学习模型中进行训练,解决了大量的未知专业词汇的问题。实验结果证明了该方法的有效性。该方法的抽取结果可以媲美两阶段BERT-CRF模型抽取的结果[17],但是该方法显著降低了对领域专家的要求,并且可以迅速、低成本地迁移到其他领域。

未来将尝试在之前构建的知识库中引入更多的外部知识,并向深度学习模型中加入更多的领域特征,例如词法、句法等外部知识[21],以解决复杂的实体和关系抽取准确度低的问题。

猜你喜欢

化学键语料实体
前海自贸区:金融服务实体
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
基于语料调查的“连……都(也)……”出现的语义背景分析
基于学科观念建构的“化学键”教学尝试
基于微观认识的“化学键”教学设计
化学键与分子间作用力考点精析
华语电影作为真实语料在翻译教学中的应用
《苗防备览》中的湘西语料