APP下载

基于ERNIE-BiGRU模型的摘要语步自动识别研究

2023-01-18何茜茹乔晓东

中文信息学报 2022年11期
关键词:结构化语义结构

温 浩,何茜茹,王 杰,乔晓东,张 鹏

(1. 西安建筑科技大学 信息与控制工程学院,陕西 西安 710311;2. 北京万方数据股份有限公司 北京100038;3. 西安建筑科技大学 艺术学院,陕西 西安 710311)

0 引言

学术论文是科研工作者研究成果的体现,而摘要作为论文的开头和内容的提炼,是学术论文中必不可少的内容。国家标准《文摘编写规则》中将摘要定义为: “以提供文献内容梗概为目的,不加评论和补充解释,简明、确切地记述文献重要内容的短文。”[1]通过摘要,研究者能直观地了解到全文内容和逻辑结构,即使不阅读整篇论文,也能了解到该文献的主要工作。但近年来,论文数量呈爆炸式增长,研究者很难在庞杂的文献信息中快速定位到所需内容,所以亟需构建一些自动化的算法来对大量的摘要内容进行分类和提取,以帮助科研工作者更有效地获取论文中的关键信息。为实现上述目标,本文从摘要语句的内在结构着手分析,对摘要的语句进行分类。在摘要中,语句的结构就是摘要的语步,以下简称语步[2]。对摘要的语句分类,就是语步分析或识别、分类。摘要中语步作为一个基本功能结构,有很强的功能性和目的性,能够精炼地反映学术论文所表达的主要意图。目前对语步识别等工作的研究较少,又因为作者的书写习惯不同,所以其功能结构还没有统一的表示模型。特别是各个刊物对摘要语步标注要求的不同,又给语步的标识带来了一定的不确定性。例如,有的刊物要求作者自行标记摘要的内容,即用小标题在摘要的若干句子前标明这些语句的功能,这类摘要就被称为结构化摘要;而有些刊物没有做这种标注的要求,只是展现一段文字,那么这类摘要就被称为非结构化摘要。目前,实现语步自动化识别的算法大多是基于结构化摘要,而很多摘要的表现形式依旧为非结构化[3-4],若直接将目前算法用于非结构化摘要语步识别研究则还存在以下困难:

(1) 作者在摘要写作时,为了能够保证内容的完整性,一个语句中往往包含多个语步结构,这就导致语步结构特征不明显,若仅需要获取特定的某个功能语步,则需要通过人工的方式,从整段非结构化摘要中分析、提取所需的功能语步,难以通过自动化的方式准确提取和定位所需语步,这极大耗费科研人员的精力。

(2) 语步结构中的歧义现象也成为了制约语步分析的巨大障碍,歧义现象容易产生语义混淆,导致算法很难充分学习到语步语义信息,造成最终识别准确率不高。

为了克服以上困难,实现摘要语步的自动化识别。本文尝试从自然语言处理的重要环节即句法分析角度出发,在详细分析非结构化摘要语步结构的同时兼顾结构化摘要的语步结构,提出了基于ERNIE-BiGRU模型的摘要语步自动识别算法。该算法首先根据句子的内容和含义,将语步的结构统一标注为背景、目的、方法、结果、结论五类;其次,按以句号结尾的完整句子级别将摘要划分为单语步结构和多语步结构;再通过研究多语步结构的语义信息和层次结构,提出基于句法依存关系的多语步结构拆分法,并利用该方法对摘要多语步结构进行自动化拆分,获得多个单语步结构,并且基于上述算法划分得到的单语步结构构建相应的训练语料库;最后,对经过处理的数据使用ERNIE模型进行训练,得到语步的词向量特征,并且同时考虑到文本上下文关系的信息,将训练得到的词向量作为双向门限循环单元(BiGRU)的输入进行特征识别,以得到最终的语步分类结果。通过实验表明,本文提出的算法取得了很好的语步识别效果。

本文的组织结构安排如下: 第1节介绍目前语步识别的相关算法和相关概念;第2节介绍本文所提出的算法,即基于ERNIE-BiGRU模型的摘要语步自动识别算法;第3节给出实验结果,并与其他相关算法进行比较分析;第4节对摘要识别任务进行总结和展望。

1 相关研究

近年来,中国整体科研实力显著提升,学术论文的数量增长迅猛,如何从海量学术论文中有效寻找出自己所需的内容成为亟需解决的问题。相应的,摘要作为对学术论文内容的总结,在寻找相关研究的过程中是必不可少的角色。然而,现有的摘要在表示形式上,存在标注标准不统一的问题。不同期刊对摘要的书写有着不同的要求,部分期刊要求作者以结构化形式编写摘要,但对摘要语步要求又没有统一标准,就如有的期刊要求摘要以“目的”“方法”“结果”“结论”四种语步进行标注;有的期刊要求以“目的”“方法”“结果”“局限”和“结论”等语步进行标注,这就增加了语步标注的困难。除此之外,大部分期刊仍以非结构化的形式展现摘要,非结构化摘要中各语步混杂在一整段的摘要片段中,使读者很难快速掌握非结构化摘要中的关键语步。此外,目前实现自动识别语步的算法,大多都是基于结构化摘要的语步识别,其中比较有代表性的是文献[1,5-6]等的研究。文献[5]提出将文摘语步转化为由位置、类别词相似度、核心动词、上下文信息等一系列文本特征表示的数据集合,采用机器学习算法,实现了语句自动分类;文献[6]在大规模结构化摘要语料的基础上,引入基于深度学习语步识别模型,对比分析不同深度学习模型在科技文献摘要语步识别的效果;文献[1]提出了一种以字为基本语义单元,利用摘要中所有字所包含的语义信息,构建了基于深度学习语步自动识别模型。

通过分析相关研究算法,发现已有算法除了存在只针对结构化摘要分析的局限之外,还存在没有充分利用句法结构来提升语步识别效果的缺陷。虽然也有研究者加入了以字为基本单位的语义信息,但在中文信息处理中,基于词的语义信息比基于字的语义信息更加稳定,更加明确。综合分析了现有语步识别算法的优缺点后,本文重点尝试在非结构化文摘的基础上兼顾结构化文摘,实现摘要语步自动识别研究,最后在实验中取得了相对不错的识别效果,在一定程度上说明了句法分析是摘要语步识别任务的重要前提。下一节将详述本文提出的基于ERNIE-BiGRU模型的摘要语步识别算法。

2 摘要语步自动识别研究

本文提出的基于ERNIE-BiGRU模型[7-8]的摘要语步识别算法,主要由四部分组成: 第一部分实现多语步结构拆分;第二部分通过ERNIE训练得到单语步结构的向量;第三部分加入BiGRU层,强化在不同时间段更新后的语步上下文特征;最后,使用softmax层对摘要语步进行分类识别。其整体网络结构如图1所示。

图1 基于ERNIE-BiGRU模型的摘要语步识别

2.1 摘要多语步结构拆分

非结构化摘要对语步没有明确的要求,所以作者在书写时,为了有效地表达自己的意图,会将不同功能的语步融合到同一个句子中,这样就会产生多语步结构的句子。对这类句子,不能简单地将它们归并到任意一个类别。例如,“本文首次提出了一种用于模式识别的新型开关电流Hamming神经网络,它采用电流镜计算待识模式与标准模式的匹配度。”在这个句子中,前半部分是“目的”说明,后半部分又是“方法”说明,所以这类句子既不能简单归为 “目的”类,也不能归为“方法”类,此时就需要把这个完整的句子,拆开成单个的句子,这就是多语步结构拆分。对于结构化摘要句子,虽然不涉及单句包含多语步的情况,但是相对短句的分类效果要好于长句,所以也需要对句子进行拆分。在此情况下,本文采用基于标点符号与句法分析相结合的方法进行多语步结构拆分,在多语步结构拆分的准确性上达到了预期的效果。

2.1.1 基于标点符号的多语步拆分

标点符号是理解语言的一个重要的标识符,每个标点符号都有着各自的作用。例如,逗号主要表示句子内部的一般性停顿,句号表示语义的终止[9]。本文首先根据句号,将一整篇摘要初步划分为多个语义完整的句子。而这些语义完整的句子中,并非只根据标点符号就可以将句子归为单语步结构, 如例1和例2。

例1该文提出了一种基于两级LRU机制的大流检测算法,并分析了新算法中的参数与平均误差之间的关系。

例2该文提出了一种基于两级LRU机制的大流检测算法并分析了新算法中的参数与平均误差之间的关系。

对于上述两个例子,从语义上来看意思相同,但是句法结构却截然不同。例2中,只含有一个句号终止符,很显然是一个单句。例1的句子比例2多了一个逗号,在逗号之前,“该文提出了一种基于两级LRU机制的大流检测算法”描述了论文的目的;在逗号之后,“并分析了新算法中的参数与平均误差之间的关系”描述了论文的方法,很明显这两个句子互相独立,因此例2的句子也可以拆分为两个单语步结构。上述分析表明,完全利用标点符号拆分多语步结构在大多数情况下并不能正确地进行拆分,只能起到一个辅助的作用。

2.1.2 基于句法依存关系的多语步划分

通过上一节的分析得知,标点符号除了表示语气的停顿,在多语步结构的拆分上同样有着重要作用,但是对于大多数多语步结构而言,仅靠标点符号来划分,不能实现精确拆分。所以,除了标点符号以外,需要借助另一种方法——句法分析[10-11]。句法分析是衔接自然语言处理中语义分析与结构分析的桥梁[12-13],本研究通过语言技术平台(Language Technology Platform,LTP)获得句子中各成分之间的依存关系,以此来描述语步结构。表1为句子各成分之间的依存关系。

表1 依存句法关系

将以上各成分间的依存关系及各词的词性进行依存句法树的搭建,以依存树的形式进行表示,如图2所示。将依存句法结果整理为五列,分别表示分词结果,词性、词语在文本中的位置,词语的父节点,词语的依存关系,其中,核心词HED和以HED为直接父节点的主语(SBV)、宾语(VOB)、并列关系(COO)加粗斜体标记。

例3本文提出一种基于遗传算法的TBDD排序算法。

图2 例3句子依存结构

例3展示了LTP对句子进行依存分析的结果,该句的动词“提出”作为核心词,“算法”作为宾语,“提出”对句子中的宾语起到支配作用,形成动宾关系。“基于”与“算法”形成介宾关系,其他词之间也存在着相应的依存关系。

再将例1和例2通过句法分析方法进行验证,例1和例2的句法分析结果如图3和图4所示。

图3 例1句子依存结构

图4 例2句子依存结构

由图3可以清晰地看出,该句有两个中心词,分别为“提出”和“分析”。此句的核心词HED为“提出”,“分析”是以HED为根节点的COO,两词之间呈并列关系,关系词为“并”。虽然句子间并没有符号隔开,但根据句法分析可以拆分为独立的两个单语步结构,“该文提出了一种基于两级LRU机制的大流检测算法”和“并分析了新算法中的参数与平均误差之间的关系”。

通过分析句子各成分间的依存关系,从而判断各句子之间的关系,如并列关系等。各分句结构独立,并存在着逻辑语义关系,所以标点符号与句法分析相结合的方法对于多语步结构拆分任务来说,是一个较为有效的方法。以此,提出多语步结构拆分思路,如图5所示。

图5 多语步结构拆分流程

(1) 以句号为基础划分符号,将非结构化摘要划分为句子级摘要语步;

(2) 通过LTP 4.0,得到句子级摘要的句法分析;

(3) 遍历句子中的所有词语,首先找到该句子的核心词HED,分析以HED为根节点的词语,找到与HED呈并列结构的COO,如果没有COO,则该句子是一个单句,不需要拆分;如果有COO,则该句子是一个可拆分复句,进入下一步;

(4) 如果该COO没有直接引导的SBV,则用原句的SBV与COO配合构成一个子句。如果该COO有自己前导的SBV,则利用该SBV和COO独立提取出一个子句;

(5) 若语步中包含多个以父节点HED为根节点的COO成分,对每个COO成分按步骤(3)~步骤(5)循环处理,直至处理完最后一个COO。

以上是多语步结构拆分基本思路,现根据以上思路完整实现拆分步骤,如例4所示。

例4本文提出一种自适应方法,仿真结果表明,该方法随着呼叫移动比变化可自动调整到最佳指针链长度。

图6 例5句子依存结构

由图6可以看出,HED为根节点。此句中的核心词HED是“提出”,遍历所有词语,有一个以HED为父节点的COO,则此句的两个中心词“提出”和“表明”呈并列关系,并且两者之间用逗号隔开。因此,该句子是多语步结构句,可以划分为两个单语步结构。从依存句法分析中可以看出,并列的COO单语步结构分句带有自己的SBV,就利用自带的SBV构成独立的单语步结构,所以两个单语步结构分别是“本文提出一种自适应算法”和“仿真结果表明该方法随着呼叫移动比变化可自动调整到最佳指针链长度”。

通过本节讲述的多语步结构拆分方法,最终获得多个单语步结构,以此构建基于单语步结构训练语料库,作为ERNIE预训练模型的训练语料,训练得到语步级词向量。

2.2 ERNIE预训练模型

ERNIE(Enhanced Representation through Knowledge Integration)是一种基于知识遮蔽策略的增强型模型,主要由Transformer编码和语义信息整合两部分组成[14]。前者通过Transformer编码器捕捉文本中每个词的上下文信息,并生成相对应的词向量表示;后者通过多阶段的掩码策略,将短语和实体的语义信息整合到语言表示中。

2.2.1 Transformer编码器

ERNIE模型采用多层Transformer编码器构建双向语言表示模型。Transformer利用self-attention机制,基于输入文本计算与本身的注意力分布,即计算每个词与同文本 内 其 他 词 的注意力分布,捕获同文本中词之间的一些句法特征或语义特征,以此来理解句子的整体意思,其原理为:

(1)

其中,Q(query)、K(key)、V(value)为输入字向量矩阵。dk为输入向量维度。

例如,X=[x1,…,xt,…,xN]表示N个输入信息,本文采用的最大序列长度为128,即N=128。在对t位置的词进行语义解析时,可以同时学习到前t-1和后t+1的所有文本信息,从而每个词在得到该文本的全局信息的同时能够动态地生成不同连接的权重,以此来缩短远距离依赖特征之间的距离,有效提高这些特征的利用率。由于传统语言模型的训练目标是预测下一个词,而在上述双向编码器计算过程中,预测的目标词会多次间接地“看到自己”,即若要预测输入信息xN,则每个输入在计算与其他词的注意力分布时看到预测目标xN,造成信息的泄露。针对这一问题,BERT模型使用掩码策略,将预测目标对应的信息用[mask]代替[15-16]。ERNIE模型在此基础上进一步改进掩码策略,融入了短语和实体层面的遮蔽。

2.2.2 信息整合

ERNIE模型通过对海量中文数据中的词、实体及实体关系进行建模,为了能够更好地学习真实世界的语义知识,该模型采用的知识遮蔽策略分为三个阶段。例如,“本文提出了适合于均匀圆阵的高分辨阵列测向算法”语义信息整合的三个阶段如图7所示。

第一阶段是基本级别掩码,将输入的语步作为一个基本语言单位的序列,并以字为单位进行掩码,我们可以获得一个基于字的表示。在中文信息处理中,通过字层面的掩码方式很难学习到更大语义单元的完整语义知识。

第二阶段是实体级别掩码,对于人、地点、组织、产品等实体信息可以用适当的名称表示。这一阶段中,首先分析句子序列中包含的命名实体信息,然后随机选取实体并对相应位置进行遮蔽和预测。

第三阶段是短语级别掩码,短语是由一组字符充当一个概念单元。短语级别的掩码类似于实体级掩码,随机选取句子中的短语,将同一短语所对应的所有信息都用[mask]代替,并对此进行预测。

图7 ERNIE信息整合三个阶段

经过以上三个阶段的语义信息整合,可以得到一个含有丰富语义信息的语步表示形式,把语步表示形式融入到Transformer编码过程中生成词向量序列,其中,ERNIE模型的隐层为768维。这样就可以得到词长为128的句子X的词向量序列,即X:{wi1,wi2,…,wiN}。再通过ERNIE模型的embedding层,训练得到每个语步的词嵌入向量,如式(2)所示。

xit=Wewitt∈[1,N]

(2)

即{xi1,xi2,…,xiN},We为embedding层权重参数。再将上述词嵌入向量作为BiGRU层的输入,进一步提取每个词所对应的上下文特征,增强句子的语义特征,从而提高语步识别效果。

2.3 BiGRU层

BiGRU由双向GRU构成,GRU是在LSTM的基础上简化得到的改进模型,其内部结构与LSTM相似,也是通过门控机制来对梯度进行处理,避免记忆衰退[17]。LSTM是由输入门、遗忘门和输出门组成的,简化后的GRU由重置门和更新门组成。重置门决定了候选状态中有多少信息是来自于上一时刻的状态,重置门的值越小,就代表当前状态对上一时刻状态的依赖关系就越少。更新门就是用来控制在当前状态中要保留多少历史状态的信息,更新门的值越大,就代表保留的信息越多。重置门与更新门的结构设计使GRU达到了在提高计算效率的同时保证同样出色结果的效果。GRU的结构示意图如图8所示。

图8 GRU的结构示意图

GRU网络层的工作流程如下:

(1) 计算更新门zt,数学表达式如式(3)所示。

zt=σ(Wzxt+Uzht-1)

(3)

其中,zt——更新门捕获的信息;σ——采用sigmoid激活函数;Wz、Uz——更新门的权重参数,需要先随机初始化;xt——为上一步输出的预训练词向量序列中第t个位置的向量,即{xi1,xi2,…,xiN},t∈[1,N];ht-1为上一个位置的向量。

(2) 计算重置门rt,数学表达式如式(4)所示。

rt=σ(Wrxt+Urht-1)

(4)

其中,rt——重置门捕获的信息;Wr、Ur——重置门权重参数,需要先随机初始化;其他同上。

(5)

(4) 计算当前时刻隐藏状态,数学表达式如式(6)所示。

(6)

以上为单向GRU的工作流程。在文本序列处理的过程中,单向的GRU只能学习当前时刻之前的信息,无法学习到当前时刻之后的信息,因此本文采用图1中展示的正向和负向两层结合的学习方式(BiGRU)来代替传统的GRU,得到一个正向输出和负向输出,最后生成一个二维矩阵作为最终输出。最后引入softmax对特征结果进行归一化处理,得到文本属于不同类别的概率,其中概率最大的类别作为模型语步识别的结果。

3 实验及结果分析

3.1 实验数据集

本研究中的数据集是基于各类学术期刊,包含非结构化摘要和结构化摘要两种形式。虽然各期刊对摘要书写要求的不一致导致目前语步没有统一的分类标准[18-20],但通过对期刊摘要的大量分析,认为采用背景、目的、方法、结果、结论五类语步是比较合理的,因为在这五部分中,背景是研究主题的背景及存在的问题;目的是研究主题的任务,所涉及的主题范围;方法是说明研究内容所用的原理、手段、程序等,简要说明实验方法及过程;结果是阐述实验的结果、效果或性能的提升;结论是说明本研究的价值、局限性等。这五部分内容基本能够全面地概括整篇文献,并且大量期刊的摘要中几乎都包含这五部分内容,所以本文采用这五个语步类别标准具有一定的普适性。

本研究中共收集整理20 308篇论文摘要,其中非结构化摘要从《电子学报》和《计算机学报》选取10 216篇,将TXT格式的语料集进行解析和去噪,包含约38 212句非结构化语步数据,构建非结构化原始语步数据集,并利用本文提出的多语步结构拆分法获得单语步结构112 848句,依照上述语步类别标准进行人工标注,从中筛选出有效单语步结构6万句,基于此构建非结构化摘要单语步结构语料集;结构化摘要从《情报理论与实践》和《数据分析与知识发现》等文献中选取10 092篇,对数据进行去噪预处理后,包含52 660句结构化语步数据,构建结构化原始语步数据集,利用本文提出的多语步结构拆分法获得157 980句单语步结构,构建结构化摘要单语步结构语料集。

我们分别从四个语料集随机选择30 000条语步,作为训练样本。在未参与训练的语料中,随机选取3 000条语步作为测试样本。训练集和测试集中,每种语步类型的数据量保持一致,以保证语步类型分布平衡。

3.2 实验设计及实验环境

本文实验分为两部分: 第一部分是采用结构化摘要语步数据集;第二部采用非结构化摘要数据集。两部分实验均基于ERNIE-BiGRU语步识别模型,分别采用摘要单语步结构和原始摘要语步进行识别效果对比,并设计基于BERT、ERNIE、ERNIE-BiLSTM模型为对比实验。在CPU: Intel(R) Core(TM) i7-10700 CPU @2.90GHZ,GPU: GTX 1650,内存: 128GB;python 3.6,pytorch 1.6.0框架的配置环境下进行实验,以验证本文所提方法在摘要语步识别上的效果。

3.3 评价指标

本实验通过正确率(Precision)、召回率(Recall)和F1值三个指标进行识别效果衡量,具体计算如式(7)~式(9)所示。

3.4 实验结果及分析

本文基于上文中构建的单语步结构语料集和原摘要语料集,使用ERNIE-BiGRU模型进行摘要语步识别实验。为了更好地检测ERNIE-BiGRU模型的性能,本文设置了对照实验,包括了基于BERT、ERNIE、ERNIE-BiLSTM的摘要语步识别实验。同时为了更加直接地呈现实验结果,本文分为结构化摘要识别效果和非结构摘要识别效果来展示,如表2和表3所示。

表2 结构化语步识别结果对比 (单位: %)

表3 非结构化语步识别结果对比 (单位: %)

如表2所示,从第一部分实验结果可以看出,不论是基于原数据还是改进后的数据,ERNIE-BiGRU模型的准确率均优于其他识别模型,从原数据的识别效果(88.36%)到改进后数据的识别效果(96.57%),识别准确率提高了8.21%,较其他模型差异最大。不同模型下不同数据集识别效果差异性由高到低排序为ERNIE-BiGRU(8.21%)、ERNIE-BiLSTM(6.48%)、ERNIE(6.28%)、BERT(1.46%)。

如表3所示,从第二部分实验结果可知,ERNIE-BiGRU模型的识别效果在准确率(93.75%)、召回率(93.72%)、F1值(93.73%)这三个评价指标上的表现都比其他模型效果好。其中,ERNIE-BiGRU模型下两种数据集的实验效果差异最大,为8.79%。各方法下不同数据集对识别效果影响的显著性排序如下: ERNIE-BiGRU(8.79%)、ERNIE-BiLSTM(7.35%)、ERNIE(6.48%)、BERT(4.25%)。

对比两组实验结果,从数据集角度来看,不论是在结构化摘要还是在非结构化摘要的实验中,从原始数据集到单语步结构数据集,基于不同模型的语步识别效果均有显著提升,这说明多语步结构的准确拆分对提升模型的识别效果有重要的影响,且本文所提出模型的参数不需要调整就可以进行结构化和非结构化的语步识别,所以本文的方法具有较好的鲁棒性;从识别模型的角度来看,不论采用哪种数据集,BERT模型到ERNIE模型的识别效果提升最高,这表明在预训练过程中准确把握文本特征的重要性。因此,实验证明了多语步结构拆分在识别非结构化摘要语步中是一个重要前提,且证明了ERNIE-BiGRU模型在识别语步的任务上具有较好的性能。

4 结论

本文基于ERNIE-BiGRU模型构建了语步自动识别模型,结合句法分析对非结构化摘要语步结构进行了详细的分析,提出了基于句法依存关系的多语步结构拆分法,来实现摘要语步的自动化识别。多语步结构拆分法可以准确地将多语步结构拆分为多个单语步结构,为自动化语步识别模型提供了优质的语料基础。ERNIE预训练模型可以学习词语和实体之间的语义信息,生成句子级向量表达,并将此作为BiGRU的输入进行训练,学习到更好的序列信息,最后通过softmax得到最终的识别效果。实验结果可有效证明该语步识别方法是可行的,ERNIE模型可以很好地保留文本的语义信息,BiGRU模型的序列特征学习效果也同样显著,能够达到预期的识别效果。

猜你喜欢

结构化语义结构
《形而上学》△卷的结构和位置
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
语言与语义
论结构
批评话语分析中态度意向的邻近化语义构建
论《日出》的结构
“社会”一词的语义流动与新陈代谢