APP下载

基于机器学习和深度学习的南海证据性数据抽取算法比较与应用

2022-02-11彭玉芳陈将浩何志强

现代情报 2022年2期
关键词:贝叶斯南海证据

彭玉芳 陈将浩 何志强

摘 要:[目的/意義]本文尝试从文献载体到文献内容(全文检索)再到数据层面的细粒度的南海证据性数据抽取。首先,能提高南海文献数字资源的检索性能;其次,为专业人员提供充足的证据材料;最后,为南海维权的证据链关联模型构建做好基础。[方法/过程]根据南海维权证据的特点,制定抽取规则。通过文本清洗、文本分段、段分句、分词把非结构化的数据转化成结构化数据。然后分别比较朴素贝叶斯、SVM、随机森林、DNN、TexCNN、Bi-LSTM、LightGBM和XGBoost的证据性数据抽取效果。最后为了进一步提高证据抽取的准确性,增加了“5W”规则过滤和人工校验。[结果/结论]实验结果表明,基于TensorFlow深度学习框架,构建DNN模型的证据性数据抽取效果较好,准确率达0.88。通过进一步融合“5W”规则过滤和人工校验,显著地提高了南海证据性数据抽取的准确率,本文的证据抽取的方法具有一定的可行性。

关键词:证据性数据抽取;TensorFlow;机器学习算法;深度学习算法;“5W”规则

DOI:10.3969/j.issn.1008-0821.2022.02.006

〔中图分类号〕G255 〔文献标识码〕A 〔文章编号〕1008-0821(2022)02-0055-15

Comparison and Application of South China Sea Evidence Data Extraction

Algorithms Based on the Machine Learning and the Deep Learning

Peng Yufang1,2 Chen Jianghao3 He Zhiqiang4

(1.School of Economics & Management,Nanjing Institute of Technology,Nanjing 211167,China;

2.Department of Information Management,Nanjing University,Nanjing 210046,China;

3.School of Mathematical Sciences,University of Science and Technology of China,Hefei 230026,China;

4.Suzhou Research Institute,University of Science and Technology of China,Suzhou 215123,China)

Abstract:[Purpose/Significance]The study attempts to extract the fine-grained evidence data of the South China Sea from the document carrier to the document content(full-text search)to the data level.Firstly,it can improve the retrieval performance of the digital resources of the South China Sea literature;secondly,it provides sufficient evidence materials for professionals;and finally,it provides a foundation for the construction of the evidence chain association model of the South China Sea rights protection.[Method/Process]According to the characteristics of the South China Sea rights protection evidence,the extraction rules were formulated.Unstructured data were transformed into structured data through text cleaning,text segmentation,paragraph segmentation,and word segmentation.Then the evidence data extraction effects of Naive Bayes,SVM,Random Forest,DNN,TextCNN,Bi-LSTM,LightGBM and XGBoost were compared respectively.Finally,in order to further improve the accuracy of evidence extraction,“5W”rule filtering and manual verification were added.[Result/Conclusion]The experimental results showed that based on the TensorFlow deep learning framework,the evidence data extraction effect of the DNN model was better,and the accuracy rate was 0.88.Through further integration of“5W”rule filtering and manual verification,the accuracy of evidence extraction was significantly improved.The method of evidence extraction from  the South China Sea literature in this article has certain feasibility.

Key words:evidence data extraction;TensorFlow;machine learning algorithm;deep learning algorithm;“5W”rule

自西汉时期,中国人就已经发现了今天的南沙群岛。时至今日,没有一个国家在南海留下如此多的中国文化烙印,也没有哪一国政府像中国那样虽历经改朝换代,却始终如一地在官史记载中留下大量主权行使的记录。随着近几年南海问题国际化和司法化愈演愈烈,为了争取更多的国际话语权,维护中国在南海的海洋权益和领土主权完整,首先需要从大量的证据材料中抽取证据,为证据链的构建做好充分的准备。南海证据,指所有能够证明南海领土主权归属事实的材料。南海证据需同时包含时间、地点、人物、机构和事件,除了证据本身以外,还包含一些比较重要的证据描述。

越来越多的学者开始投身南海证据的研究,但目前无论从南海文库数字资源中还是从实体证据材料中寻找南海证据,大多局限于证据材料的载体形式,难以直接深入证据材料的内容或数据层面,因而孤证较多,难以构成反映历史全貌的证据体系。关于证据抽取方法,陶鹏通过命名实体识别和神经网络模型对司法领域的庭审记录文书进行证据信息抽取[1],张力元等通过LS-SVM对生物证据句子抽取[2],丁志远提出了基于混合模型和边界的判决文书与案件卷宗的证据抽取方法[3],而领域性的南海证据抽取的研究方法甚少,目前主要依靠人工实现。例如,20世纪70年代起,我国学者就开始从历史和法律结合的角度提供了无可辩驳的证据。从1979年,林金枝教授开始从史料角度论述南海领土主权归属[4],到2011年余敏友等,结合国际法来论述南海领土主权归属[5],尤其是2015年至今,国内有学者从法理依据和历史依据相结合来论述南海领土主权的归属[6],张卫彬教授对南沙群岛主权证据的梳理[7]和黄岩岛主权的证据梳理[8],许盘清等教授亦从地图视角详细论述南海主权的证据[9]。

综上所述,目前基于历史依据和法律依据,从文献载体到文献内容(全文检索)再到数据层面的细粒度的南海证据抽取还处于空白。本文通过选择常用的机器学习算法和深度学习算法,构建南海证据性数据抽取模型,并分别比较证据性数据抽取的效果。最后融合“5W”规则过滤和人工校验进一步提高证据抽取的准确率。但这里需要注意:通过机器学习或深度学习抽取的数据,不能完全称为证据,只能叫证据性数据。证据性数据有的是证据,有的不属于证据,只有通过证据价值判断和人工甄别才可能称为证据。本文不做从证据学视角的证据研究,即不做证据价值判断。由于抽取出来的证据性数据有一部分是属于一手资料的证据,还有一部分属于二手资料的证据性描述(带有作者观点的证据性数据)是有一定价值,可以作为证明案件的线索,所以没有删除,为了统一名词,将这两种证据性数据都统一命名为证据(后期将展开证据研究)。

1 相关研究

本文南海证据抽取,属于细粒度的信息抽取。信息抽取指从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术[10]。目前信息抽取依然是自然语言处理的研究热点和重点。

国内外信息抽取研究現状。本文从CNKI数据库,通过主题精确检索“信息抽取”,采集2011—2021年的国内信息抽取研究数据,最终获得有效数据2 968条。通过jieba[11]对摘要数据部分进行分词,然后应用LDA主题模型[12]分析国内信息抽取的研究主题。从Web of Science核心合集,主题检索“Information Extraction”,时间跨度:2011—2021,文献类型:ARTICLE,发现有88 246条,数据量比较大,此时修改检索策略。从Web of Science核心合集,标题检索“Information Extraction”,时间跨度:2011—2021,最终获得有效数据1 959条。通过Nltk[13]对摘要数据部分进行分词,同样应用LDA主题模型分析国外信息抽取的研究主题。

通过LDA模型,比较分析国内外信息抽取的研究主题,具体如表1所示。由此可见,目前国内外信息抽取主要集中在信息技术及命名实体识别中,而且领域性的信息抽取也逐渐增多,例如医疗领域、图像等的信息抽取。

为了更直观地看到国内外信息抽取的研究主题,通过Python生成词云图[14],具体如图1和图2所示。

综上所述,目前国内外信息抽取的研究主要集中在信息抽取技术、命名实体识别以及领域性的应用研究。①信息抽取技术。信息抽取的主要任务包括命名实体识别、实体消歧、关系抽取、事件抽取等,但无论哪种任务信息抽取的方法都大同小异。李嘉欣等[15]的命名实体识别方法综述。信息抽取的方法主要可分为以下几种:基于词典和规则的方法;基于统计机器学习的方法,例如隐马尔可夫模型(HMM)、最大熵、支持向量机(SVM)、条件随机场(CRF)、贝叶斯方法、决策树、随机森林等;基于深度学习的方法:循环神经网络(LSTM)、用双向长短期记忆模型和条件随机场(BILSTM-CRF)、BILSTM-CNNs-CRF、卷积神经网络(CNN)、递归神经网络(RNN)、BERT、GRU、ELMo、GPT等,每种算法都有其优缺点,没有最好的算法,只有最适合的算法;②信息抽取的领域性应用,主要集中在医疗健康领域、图像的信息抽取。证据抽取属于信息抽取的一部分,但目前证据抽取的研究甚少。例如,陶鹏基于联合模型的庭审记录证据信息抽取[16];张力元等应用LS-SVM与条件随机场结合的生物证据句子抽取[17];欧阳辉等基于证据理论的论文元数据抽取[18];杨健等基于边界识别与组合的裁判文书证据抽取方法研究[19];Kamarainen J K等基于简单的Gabor特征及其统计排名的对象证据抽取[20];Nishida K等通过多跳问答的多任务学习的证据抽取[21]等,以上已经初步实现自动化或半自动化的证据抽取。关于南海证据抽取,现阶段主要为人工抽取,例如,张朔人等的《更路簿》民间的南海证据[22];康丹关于南海岛礁主权归属证据研究[23];黄盛璋关于南海诸岛的历史证据[24];张卫彬的中国拥有钓鱼岛[25]、南沙主权的证据[26]等。因此,本文应用常用的机器学习算法和深度学习算法构建南海证据性数据抽取模型,并比较模型的证据抽取效果,然后结合“5W”规则过滤和人工校验,初步实现南海证据的半自动化抽取。

2 相关理论与方法

2.1 机器学习算法

Tom Mitchell,认为机器学习就是指计算机通过自身经验改善系统性能的行为[27]。简言之,机器学习指计算机通过算法学习数据中隐藏的规律和信息,从而获得新的经验和知识,便于计算机处理类似任务时候,能够像人一样思考与决策[28]。机器学习的算法众多,包括朴素贝叶斯(Nave Bayesian)、决策树、随机森林、K-Means、AdaBoost、SVM等[29]。

本文选用了机器学习领域经典算法:朴素贝叶斯、SVM、随机森林,以及常用的集成学习方法:LightGBM和XGBoost,重点描述朴素贝叶斯、LightGBM和XGBoost。

1)朴素贝叶斯(NB)算法是国内外常用统计分类算法,由于其较高的稳定性和简洁的模型的特点,在文本分类领域占有重要的地位。潘忠英[30]对朴素贝叶斯做了详细阐述。贝叶斯理论[31]作为概率论理论,即利用已知样本数据的先验知识,通过计算未知分类样本的后验概率,从而选择后验概率值最大的那一类[32]。

本文首先人工标注南海证据,标签Tag=1,即为“南海证据”,Tag=0,为非“南海证据”。设D为证据材料集,D={d1,d2,…,dn},对应的每份证据材料抽取的数据集为X={x1,x2,…,xd},标签数据T={t1,t2}={1,0},即D中的Xi可以分为T的类别。其中X中的每个元素都是相互独立且随机。则T的先验概率Pprior=P(T),T的后验概率Ppost=(T|X),由朴素贝叶斯算法可得:

P(T|X)=P(T)P(X|T)P(X)(1)

朴素贝叶斯基于Xi之间相互独立,在给定类别为T的情况下,式(1)进一步表示为:

P(X|T=tm)=∏di=1P(xi|T=tm) (m=1,2)(2)

由式(1)和式(2)计算出后验概率为:

Ppost=P(T|X)=P(T)∏di=1P(xi|T)P(X)(3)

最终得到X数据集中类别属于Tm(m=1,2)的朴素贝叶斯计算:

P(tm|x1,x2,…,xd)=P(tm)∏dj=1P(xj|tm)∏dj=1P(xj) (m=1,2)(4)

2)LightGBM

集成学习(Ensemble learning),比传统的机器学习算法具有较高的泛化能力,愈加备受青睐[33]。2016年底,Ke G L等[34]提出LightGBM(Light Gradient Bosting Machine),是微软提出的一种基于决策树的梯度提升框架,具有高精度、高并发、占用内存小等优点。LightGBM是GBDT的一种,包括两个最主要的创新:GOSS和EFB。

3)XGBoost算法[35]

极限梯度提升树(Extreme Gradient Boosting,XGBoost)算法是Boosting集成算法的一种。由Chen T和Guestrin C在2011年初步提出,这是一种基于GTB的学习框架。XGBoost的拓展性十分强,灵活性也相对较强、精度高。XGBoost通常以决策树为基学习器,新生成的树不断学习当前树预测值与真实值之间的残差,最终将多棵树的学习结果累加作为预测结果。目标函数由损失函数和树模型复杂度两部分组成,即:obj=∑ni=1l(yi,i)+∑kk=1θ(fk)。

2.2 深度学习算法

深度学习(Deep Learning,DL)是从已标注分类的实验数据学习类似人脑处理信息的神经结构,实现实验数据的自动分类的过程[36]。它是机器学习领域的一个最新发展[37]。深度学习网络内部应用了激活函数、损失函数、神经单元误差反向传播法、梯度下降法等多种数学工具,具备严谨的科学性。通过不断地计算数据和损失,得到可以用于预测或分類的神经网络模型[38]。目前基于深度学习的信息抽取方法主要包括DNN、LSTM、CNN、RNN,及其他们的扩展,包括Bi-LSTM,Bi-LSTM-CNN,CNN+Attention等[39]。本文就选择了文本分类中较常用的深度学习算法DNN、TextCNN和Bi-LSTM。

1)深度神经网络(DNN)

目前,深度学习算法大多是基于DNN,它分为输入层、输出层和隐藏层,网络的每一层都由许多神经元组成,层与层间采用全连接结构[40]。本文的深度神经网络是由一层输入层、两层隐藏层以及一层输出层组成,并且经过多次试验,隐藏层64、隐藏层16可获得最佳性能,具体如图3所示。

深度神经网络,层与层之间的数据传输通过神经网络的最小单元——神经元来计算,具体如图4所示。z表示将输入线性加权,权重是需要学习的参数,表示激活函数(常用的激活函数有sigmoid函数、tanh函数、relu函数)。激活函数的引入,使得深度学习具有解决非线性问题的能力,使模型的假设空间从线性扩展到非线性,大大提高了模型的表达能力。

z=∑(wixi+bi)

y=σ(z)=σ∑(wixi+bi)

2)卷积神经网络(CNN)

卷积神经网络,是一种深度学习模型或类似于人工神经网络的多层感知器,为了提高一般前向向后传播算法的训练性能,CNN通过不断迭代训练多层网络结构,并利用空间关系减少需要学习的参数数目[42]。

典型的CNN主要由输入层、卷积层、池化层、全连接层和输出层组成,具体如图5所示[43]。其中CNN的基本结构包括两种特殊的神经元层:①卷积层,每个神经元的输入与前一层的局部相连,并提取该局部的特征;②池化层,用来求局部敏感性与二次特征提取的计算层。这种两次特征提取结构减小了特征分辨率,减少了需要优化的参数数目[44-45]。卷积神经网络在训练过程中,通常采用梯度下降方法进行优化模型。

Kim Y在2014年首次提出运用卷积神经网络进行文本分类,即TextCNN。TextCNN输入层的形式是一个句子中的单词以及单词对应的词向量形成的n*k矩阵,其中n为句子的单词数,k为词向量维度。本文TextCNN分别使用步长为3、4和5的一维卷积层处理文本数据[46]。

3)长短期记忆网络(LSTM)

长短期记忆网络(Long-Short Time Memory,LSTM)作为目前最有效的序列模型,对传统RNN模型的梯度消失问题的改进,增加了一个判断数据保留还是遗忘的细胞结构cell[47]。LSTM主要由三大门限单元构成,分别是遗忘门、输入门和输出门,具体如图6所示[48]。

首先,遗忘门,LSTM处理时序数据时,是从左边向右边处理,因此大量的信息在输入时,需要决定哪些信息是保留的,哪些信息是需要舍弃的。在遗忘门里有一个开关控制,即图中ft。控制函数为:

f(t)=σ(wf[h(t-1),xt]+bf)(5)

其中wf、bf分别为遗忘门的权重和偏置。

其次,输入门,前文的信息经过选择输入到输入门中,在这一层的任务是决定哪些信息需要更新,以及更新多少:

it=σ(wi[h(t-1),xt]+bi)(6)

ct=σ(wc[h(t-1),xt]+bc)(7)

Ct=it*ct+f(t)*Ct-1(8)

其中wi和wc代表相应的权重,bi以及bc代表相应的偏置,Ct表示当前的单元状态值。

最后,输出门,经过前两道门的筛选完成后,最后经过输出门,决定哪些信息是需要输出的,输出门内有控制输出的开关:

σt=σ(wo[h(t-1),xt]+bo)(9)

ht=ot*tanh-1(ct)(10)

其中wo和bo代表输出门的权重和偏置,ht为当前单元的输出值。

本文使用Bi-LSTM(Bidirectional Long ShortTerm Memory,BLSTM)在LSTM的基础上,分别用前向和后向的LSTM来抓取过去和将来所含的隐藏信息,这两部分的信息组成最终的输出[49]。

3 数据预处理及数据标注

3.1 文本清洗

南海文库数字资源由沈固朝团队构建,是南海问题证据链工程和话语权工程的重要内容。本文从中下载409篇PDF格式的南海证据材料,并通过Python程序转化成TXT格式。证据材料资源类型主要包括期刊和学位论文,含有少量的报纸、地图、档案。为了提高实验的准确性,这时候需要对TXT的证据材料做进一步清洗,主要包括以下几个方面:①去掉除中文词、英文字母、数字,以及某些特定标点符号以外的特殊符号;②去掉文章中多余的空格、空行;③英文字母统一转为小写。文本清洗之后,再进行文本分段、段分句,获得处理对象的最小单位“句子”,即一句话或一段文字。

3.2 文本分词

通过对文本中的句子进行分词,便于后期做抽取工作,也有利于对证据材料做进一步的数据挖掘。目前分词工具众多,例如jieba、thulac、pkuseg、hanlp、ltp等,鉴于分词的准确性及运行时效,最终选择jieba分词作为本文的分词工具,其采用比较流行的分词算法隐马尔可夫链(HMM)。本文研究南海证据,属于领域性的主题,现有的分词字典可能不包含南海领域词汇,因此本研究增加了6 418个南海专业领域词。

3.3 文本预处理结果

通过以上文本清洗、文本分段、段分句,获得处理对象的最小单位——中文概念中的句子,然后对句子进行分析,将非结构的txt文本转化成结构化的数据,每一行都表示文本中的完整的一个句子,具体如表2所示。

3.4 实验数据标注

南海證据的抽取属于二分类问题。由于不同学科不同研究领域的专家对南海证据的鉴定及证据价值的评价容易产生分歧,很难统一,因此从定性或定量的角度来评判南海证据是非常困难的。本文不从证据法视角来研究南海证据,其研究目标之一是为相关专家提供南海证据材料,不做南海证据的研究。人工标注南海证据的依据是证据的五大基本属性“时间、地点、人物、机构和事件”。然后通过机器学习、深度学习算法,自动学习证据性数据抽取模型,找出证据性数据抽取效果比较好的模型,并应用到具体证据材料中。由于机器学习和深度学习并不能百分百精确完成证据抽取任务,因此增加了“5W”规则过滤,以及最终的人工校验。通过以上才能初步完成南海证据的抽取。

本文从409篇证据材料中随机抽取81篇,然后每篇随机抽取10~20条句子作为南海证据,进行人工标注,标注的依据是“凡是能证明南海领土主权归属事实的材料,同时包含时间、地点、人物、机构和事件”。由于作者自2014年至今都从事南海证据链研究,所以标注的效果相对比较好一些。“Tag=1”是“南海证据”,“Tag=0”属于非“南海证据”。最终从81篇证据材料中抽取1 529条数据,其中“Tag=1”的“南海证据”有641条,“Tag=0”的非“南海证据”有888条,具体如表3所示。然后对1 529条实验样本按比例进行分配。训练集和验证集共计占80%,用来训练模型,验证集的作用是为了模型调优,防止过拟合。测试集是将模型训练和预测过程隔离,防止信息泄露。模型是否成功,主要看其在测试集上的效果。这样得到训练集样本容量980;验证集样本容量244;测试集样本容量305。本文应用机器学习和深度学习的证据抽取的实验样本分布参考此处。

4 南海证据性数据抽取模型构建

本文分别基于朴素贝叶斯、SVM、随机森林、DNN、CNN、LSTM、LightGBM和XGBoost构建南海维权的证据性数据抽取模型,并比较这些模型的证据性数据抽取效果。

4.1 基于朴素贝叶斯的南海证据性数据抽取

4.1.1 文本向量化

输入上文已经分好词的文本,使用BOW和N-gram将文本向量化。根据训练样本,将单词进行one-hot编码,计算出的词汇量大小为V,则每个单词获得一个唯一的向量,长度为V。除了单词所在的位置为1,其他位置均为0:

wordi=(0,…,1,…,0)

单词向量化以后,再将单词所构成的句子进行向量化。S表示一个待分类的句子。将S中的单词计数,获得S的单词和对应的数量(即词袋)。S中的单词集合表示为{word1:n1,…,words:ns},S中的单词的位置上,放置这个单词的个数,未出现的单词为0,此时文本向量化完成,即S的向量表示为:

S=(n1,…,ns,0,…,0)

4.1.2 模型训练

朴素贝叶斯模型的实验数据表示为(文本向量,标签)。前文抽取的1 529条数据,按8∶2的比例分为训练集和测试集,然后放入朴素贝叶斯分类模型,学习出朴素贝叶斯分类器。实验数据集如表4所示。

通过混淆矩阵分析基于朴素贝叶斯分类器的南海证据性数据抽取结果,测试集上的混淆矩阵如表5所示。

从混淆矩阵可得基于朴素贝叶斯分类器的南海证据性数据抽取效果,计算准确率(Accuracy)、精确率(Precision,查准率)及召回率(Recall,查全率)。本文定义:TP为“南海证据”被判断为“南海证据”的数量,TN“南海证据”被判断为非“南海证据”的数量,FP为非“南海证据”被判断为“南海证据”的数量,FN为“南海证据”被判断为非“南海证据”的数量。于是得TP=100,TN=131,FP=31,FN=44,根据以下公式得:

Accuracy=(TP+TN)/(TP+TN+FP+FN)(11)

Precision=TP/(TP+FP)(12)

Recall=TP/(TP+FN)(13)

F1=2PR/(P+R)(14)

最終基于朴素贝叶斯的南海证据抽取效果为:Accuracy=0.75,Precision=0.76,Recall=0.69,F1=0.72。

4.2 基于DNN的南海证据性数据抽取

本文的深度学习方法,主要使用目前主流的TensorFlow深度学习框架。薛先贵等[19]对TensorFlow深度学习框架做了详细的阐述,它是最流行的,且相对完善的深度学习库之一,可以比较方便快捷地设计神经网络结构。

4.2.1 文本向量化

与朴素贝叶斯的文本向量化相似,仍然使用BOW和N-gram将文本向量化,包括词级别的向量化(Word Level Vectorize)和字级别的向量化(Character Level Vectorize)。

4.2.2 模型训练

深度学习的实验数据仍表示为(文本向量,标签数据)。与朴素贝叶斯模型的实验数据区别在于,此模型将准备好1 529条数据分成3块:训练集样本、验证集样本和测试集样本。其中训练集(Training Data)和验证集(Validation Data)的容量占总数的80%。Validation Data是用来避免过拟合,在训练过程中,通常用Validation Data来确定一些超参数。最终实验数据集分布如表6所示。

DNN模型中的层数、每一层中的神经元个数属于超参数,这个在模型训练中需要人工进行模型调参。经过多次试验,隐藏层64、隐藏层16可获得最佳性能。同时为了防止模型过拟合,给深度学习网络增加Dropout和L2正则化(Regularization)。经过交叉验证,隐含节点Dropout率等于0.5的时候效果最好,其随机生成的网络结构最多,通过以上超参数的设置,使得“目标数据”抽取模型达到最优,具体如表7所示。

由于南海证据性数据抽取属于二分类问题,本文选用交叉熵作为损失函数(Loss),优化器选择改进的随机梯度下降法,RMSprop[50]。将数据分Batch,Batch_size=64,通过每一次模型轮循计算验证集上的损失率和准确率,最终可见轮循到第8次以后,验证集上的Loss不再下降,验证集上的准确率不再提升,再往后模型则开始过拟合。因此,模型的轮循次数为8时,模型达到最优,具体如图7、图8所示。

通过混淆矩阵分析基于DNN南海证据性数据抽取结果,混淆矩阵如表8所示。

最终基于DNN的南海证据性数据抽取效果为,正确率是0.88,精确率是0.90,召回率是0.82,F1值是0.86。

4.3 基于TextCNN的南海证据性数据抽取

TextCNN是利用卷积神经网络对文本进行分类的算法,模型的实验数据的样本分布与DNN相同。首先通过一个Embedding层,相当于临时进行了词向量的计算,把原始的词序列转换成了指定维数的词向量序列,嵌入成为100维度的向量,然后使用一个核数为50,分别使用大小为3、4和5的一维卷积处理文本数据。基于TextCNN的证据性数据抽取模型结构,如图9所示,并且通过以下超参数的设置,使得南海维权的证据性数据抽取模型达到最优,具体如表9所示。

由于南海证据抽取属于二分类问题,TextCNN模型的卷积层的激活函数选择Relu,输出层的激活函数选择Softmax,优化器选择Adam,Batch_size=128。通过每一次模型轮循计算验证集上的损失率和准确率,最终可见轮循到第50次以后,验证集上的Loss不再下降,验证集上的准确率不再提升,再往后模型开始过拟合。因此,模型的轮循次数为50时,模型达到最优,具体如图10所示。

通过混淆矩阵分析基于TextCNN的数据抽取效果,混淆矩阵如表10所示。

最终基于TextCNN的南海证据性数据抽取效果为,正确率是0.87,精确率是0.87,召回率是0.87,F1是0.87。

4.4 基于Bi-LSTM的南海证据性数据抽取

模型的实验数据的样本分布与DNN相同。基于Bi-LSTM的证据性数据抽取模型结构,如图11所示,并且通过以下超参数的设置,使得南海维权的证据性数据抽取模型达到最优,具体如表11所示。

由于南海证据抽取属于二分类问题,Bi-LSTM模型的卷积层的激活函数选择Relu,输出层的激活函数选择Softmax,优化器选择Adam,Batch_size =128,通过每一次模型轮循计算验证集上的损失率和准确率,最终可见轮循到第80次以后,验证集上的Loss不再下降,验证集上的准确率不再提升,再往后模型开始过拟合。因此,模型的轮循次数为80时,模型达到最优,具体如图12所示。

通过混淆矩阵分析基于Bi-LSTM的南海证据性数据抽取效果,混淆矩阵如表12所示。

最终基于Bi-LSTM的南海证据性数据抽取效果为,正确率是0.83,精确率是0.85,召回率是0.83,F1是0.83。

4.5 基于SVM的南海证据性数据抽取

实验样本分布及文本预处理与上文相同。通过TF-IDF对1 529条数据构造词袋特征。

通过混淆矩阵分析基于SVM的南海证据性数据抽取效果,混淆矩阵如表13所示。

最终基于SVM的南海证据性数据抽取效果为,正确率是0.71,精确率是0.74,召回率是0.71,F1是0.68。

4.6 基于随机森林的南海证据性数据抽取

实验样本分布及文本预处理与上文相同。首先使用随机森林模型默认的参数进行训练模型,并在验证集上显示模型效果,结果如表14所示。

通过表14可以看到,模型在训练集上表现良好,验证上表现很差,表现出明显的过拟合的现象。因此,对随机森林的参数进行调整,将基分类器的个数从默认的100减少到70,此时验证集的效果有所提升,最终验证集的数据抽取效果为:正确率是0.71,精确率是0.71,召回率是0.71,F1值是0.69。

通过混淆矩阵分析基于随机森林的南海证据性数据抽取效果,混淆矩阵如表15所示。

最终基于随机森林的南海证据性数据抽取效果为,正确率是0.70,精确率是0.72,召回率是0.70,F1是0.68。

4.7 基于LightGBM的南海证据性数据抽取

实验样本分布及文本预处理与上文相同。首先使用LightGBM模型默认的参数进行训练模型,并在验证集上显示模型效果,结果如表16所示。

通过表16可以看到,模型在訓练集上表现良好,验证上表现很差,表现出明显的过拟合的现象。因此,加入L1、L2正则项,验证集上得到了提升,最终验证集的数据抽取效果为:正确率是0.72,精确率是0.72,召回率是0.72,F1值是0.72。

通过混淆矩阵分析基于LightGBM的南海证据性数据抽取效果,混淆矩阵如表17所示。

最终基于LightGBM的南海证据性数据抽取效果为,正确率是0.66,精确率是0.66,召回率是0.66,F1是0.66。

4.8 基于XGBoost的南海证据性数据抽取

实验样本分布及文本预处理与上文相同。通过混淆矩阵分析基于XGBoost的南海证据性数据抽取效果,混淆矩阵如表18所示。

最终基于XGBoost的南海证据性数据抽取效果为,正确率是0.69,精确率是0.69,召回率是0.69,F1是0.68。

4.9 南海证据性数据抽取模型的比较

通过上文的基于机器学习和深度学习的南海证据性数据抽取模型应用,比较模型的证据性数据抽取效果,具体如表19所示。

为了更直观地显示模型的证据性数据抽取效果,具体如图13所示。最终DNN的南海证据性数据抽取效果最好,准确率和精确率是最高的,分别是0.88和0.90。

5 南海证据性数据抽取模型的应用与优化

5.1 基于DNN的证据性数据抽取

本文最终选择基于DNN的南海证据性数据抽取模型。通过DNN南海证据性数据抽取模型,从南海文库采集的409篇证据材料抽取具体的证据,最终从98 809个句子中,抽取到31 826条句子属于南海证据性数据,具体如表20所示。

由于模型的准确率是0.88,抽取的31 826条证据中还存在一些非证据。而且证据性数据只有通过证据价值判断和人工甄别才可能成为证据,但本文不从证据学视角研究证据,为了能够使证据性数据结果转化为证据,本文制定了证据性数据过滤规则和最终的人工判断,进一步提高证据抽取的准确率。

5.2 基于“5W”规则过滤

根据证据的固有属性,构建证据链的过滤规则,即证据需同时满足“5W”规则:时间(when)、地点(where)、人物(who1)、机构(who2)、事件(what)。论文使用哈工大的语言平台采用深度学习方式的LTP提供的NER接口进行实体识别,获得证据属性,其中what是选择LTP抽取的证据的动词或动名词。

需要注意的是,尽管证据中的“What”作为证据的事件,被界定为能表达证据内容行为词,可以是动词或动名词。但在证据的规则过滤时,为了提高证据过滤的准确性,本研究使用TF-IDF计算每条证据排名前5的关键词也加入“What”中。最终通过“5W”规则过滤,结合人工校验,从409篇证据材料中,抽取有效的证据21 174条,部分南海维权的证据及“5W”抽取结果如表21所示。(注:经过“5W”规则过滤和人工判断,依然有小部分证据性数据带有作者的个人感情色彩,但考虑其在证据链中可能的重要性,就没有过滤,最终作为证据呈现。)

6 结论与展望

本文分别基于机器学习和深度学习的经典算法构建南海证据性数据抽取模型,经过比较分析,基于DNN的南海证据性数据抽取模型效果最好,正确率达0.88,精确率达0.90。但人工智能的方法并不是完美的,为了进一步提高证据抽取的效果,本文融合了“5W”规则过滤及人工判定,显著地提高证据抽取的准确率。南海证据的抽取是一个艰难的任务,本文只是初探,后期将进一步通过语义分析及融合其他算法进一步实现南海证据的自动抽取。为南海文库数字资源的检索提供支持,为专业人员提供充足的证据材料做好准备,也为后续南海维权的证据链关联模型构建做好基础。

参考文献

[1]陶鹏.基于联合模型的庭审记录证据信息抽取研究[D].武汉:武汉大学,2020.

[2]张力元,姬东鸿.LS-SVM与条件随机场结合的生物证据句子抽取[J].计算机工程,2015,41(5):207-212.

[3]丁志远.基于证据匹配的案件质量评估方法设计与实现[D].贵阳:贵州大学,2019.

[4]林金枝.西沙群岛主权属我的国外历史证据[J].南洋问题研究,1979,(5):79-93.

[5]余敏友,雷筱璐.南海诸岛争端国际仲裁的可能性——国际法分析[J].武汉大学学报:哲学社会科学版,2011,64(1):5-11.

[6]谈中正,王婷婷.“南海维权:历史与法理斗争研讨会”综述[J].亚太安全与海洋研究,2015,(5):119-124.

[7]张卫彬.中国拥有南沙群岛主权证据链的构造[J].社会科学,2019,(9):85-96.

[8]王璇.我国拥有黄岩岛主权的地图证据证明力研究[D]. 合肥:安徽财经大学,2017.

[9]许盘清,沈固朝.菲律宾地图展览中的“北岛”地理位置与地名沿革考[J].亚太安全与海洋研究,2016,(4):102-112,126.

[10]Grishman R.Information Extraction:Techniques and Challenges[M].Information Extraction a Multidisciplinary Approach to an Emerging Information Technology.Springer Berlin Heidelberg,1997:10-27.

[11]石凤贵.基于jieba中文分词的中文文本语料预处理模块实现[J].电脑知识与技术,2020,16(14):248-251,257.

[12]邹晓辉,孙静.LDA主题模型[J].智能计算机与应用,2014,4(5):105-106.

[13]李晨,劉卫国.基于NLTK的中文文本内容抽取方法[J].计算机系统应用,2019,28(1):275-278.

[14]宋海霞.用Python生成词云图[J].少年电脑世界,2019,(9):4-8.

[15]李嘉欣,王平.中文命名实体识别研究方法综述[J].计算机时代,2021,(4):18-21.

[16]陶鹏.基于联合模型的庭审记录证据信息抽取研究[D].武汉:武汉大学,2020.

[17]张力元,姬东鸿.LS-SVM与条件随机场结合的生物证据句子抽取[J].计算机工程,2015,41(5):207-212.

[18]欧阳辉,禄乐滨.基于证据理论的论文元数据抽取算法研究[J].电子设计工程,2010,18(4):66-69.

[19]杨健,黄瑞章,丁志远,等.基于边界识别与组合的裁判文书证据抽取方法研究[J].中文信息学报,2020,34(3):80-87.

[20]Kamarainen J K,Ilonen J,Paalanen P,et al.Object Evidence Extraction Using Simple Gabor Features and Statistical Ranking[C]//Scandinavian Conference on Image Analysis.Springer-Verlag,2005.

[21]Nishida K,Nagata M,Otsuka A,et al.Answering while Summarizing:Multi-task Learning for Multi-hop QA with Evidence Extraction[C]//Meeting of the Association for Computational Linguistics,2019.

[22]张朔人,张若城.南海维权的民间证据——《更路簿》内涵与面世抄本研究[J].云南师范大学学报:哲学社会科学版,2018,50(4):26-35.

[23]康丹.南海岛礁主权归属证据研究初论[D].武汉:武汉大学,2013.

[24]黄盛璋.南海诸岛历来是中国领土的历史证据[J].东南文化,1996,(4):84-94.

[25]张卫彬.中国拥有钓鱼岛主权的证据链构造[J].政治与法律,2020,(2):90-100.

[26]张卫彬.中国拥有南沙群岛主权证据链的构造[J].社会科学,2019,(9):85-96.

[27]赵彰.机器学习研究范式的哲学基础及其可解释性问题[D].上海:上海社会科学院,2018.

[28]张润,王永滨.机器学习及其算法和发展研究[J].中国传媒大学学报:自然科学版,2016,23(2):10-18,24.

[29]姜娜,杨海燕,顾庆传,等.机器学习及其算法和发展分析[J].信息与电脑:理论版,2019,(1):83-84,87.

[30]潘忠英.朴素贝叶斯中文文本分类器的设计与实现[J].电脑编程技巧与维护,2021,(2):37-39,70.

[31]Cornfield J.Bayes Theorem[J].Revue De Linstitut International De Statistique,1967,35(1):34-49.

[32]王峻.基于属性相关性分析的扩展朴素贝叶斯分类器[J].平顶山学院学报,2018,33(5):65-69.

[33]Dietterich T G.Machine Learning Research:Four Current Directions[J].AI Magazine,1997,18(4):97-136.

[34]Ke G L,Meng Q,Finley T,et al.LightGBM:A Highly Efficient Gradient Boosting Decision Tree[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems.Red Hook:Curran Associates Inc.,2017:3146-3154.

[35]徐國天,沈耀童.基于XGBoost和LightGBM双层模型的恶意软件检测方法[J].信息网络安全,2020,20(12):54-63.

[36]尹宝才,王文通,王立春.深度学习研究综述[J].北京工业大学学报,2015,41(1):48-59.

[37]张润,王永滨.机器学习及其算法和发展研究[J].中国传媒大学学报:自然科学版,2016,23(2):10-18,24.

[38]涌井良幸,涌井贞美.深度学习的数学[M].北京:人民邮电出版社,2020.

[39]鄂海红,张文静,肖思琪,等.深度学习实体关系抽取研究综述[J].软件学报,2019,30(6):1793-1818.

[40]赵志欣,戴文婷,陈鑫,等.基于深度神经网络的正交频分复用波形外辐射源雷达参考信号重构[J/OL].电子与信息学报:1-8[2021-07-09].http://kns.cnki.net/kcms/detail/11.4494.TN.20210702.0906.012.html.

[41]Jurafsky D.Speech and Language Processing:An Introduction to Natural Language Processing,Computational Linguistics,and Speech Recognition[M].北京:人民邮电出版社,2010.

[42]王晨琛,王业琳,葛中芹,等.基于卷积神经网络的中国水墨画风格提取[J].图学学报,2017,38(5):754-759.

[43]陈鸿翔.基于卷积神经网络的图像语义分割[D].杭州:浙江大学,2016.

[44]李飞腾.卷积神经网络及其应用[D].大连:大连理工大学,2014.

[45]吴潇颖,李锐,吴胜昔.基于CNN与双向LSTM的行为识别算法[J].计算机工程与设计,2020,41(2):361-366.

[46]史沛卓,陈凯天,钟叶珂,等.基于TextCNN的中国古诗文分类方法研究[J].电子技术与软件工程,2021,(10):190-192.

[47]张蕾,孙尚红,王月.基于深度学习LSTM模型的汇率预测[J/OL].统计与决策,2021,37(13):158-162[2021-07-09].https://doi.org/10.13546/j.cnki.tjyjc.2021.13.037.

[48]周凌寒.基于LSTM和投资者情绪的股票行情预测研究[D].武汉:华中师范大学,2018.

[49]侯伟涛,姬东鸿.基于Bi-LSTM的医疗事件识别研究[J].计算机应用研究,2018,35(7):1974-1977.

[50]张天泽,李元香,项正龙,等.基于RMSprop的粒子群优化算法[J].计算机工程与设计,2021,42(3):642-648.

(责任编辑:孙国雷)

收稿日期:2021-05-26

基金项目:国家社会科学基金重大项目“南海疆文献资料整理中的知识发现与维权证据链建构研究”(项目编号:19ZDA347);南京大学2015年度研究生创新工程“跨学科科研创新基金”项目“民国档案文献中的环中国南海文化电函与报道研究”(项目编号:2015CW04);江苏省研究生培养创新工程项目“基于自动关联技术的南海问题证据链研究”(项目编号:KYLX15_0025)。

作者简介:彭玉芳(1987-),女,博士,研究方向:情报分析、安全情报、自然语言处理、信息组织与检索。陈将浩(1989-),男,硕士研究生,研究方向:用户画像、文本分类、情感分析。何志强(1990-),男,硕士研究生,研究方向:数据挖掘,信息与网络安全。

猜你喜欢

贝叶斯南海证据
北海北、南海南
贝叶斯公式及其应用
南海的虎斑贝
对于家庭暴力应当如何搜集证据
基于贝叶斯估计的轨道占用识别方法
“大禹治水”有了新证据
一种基于贝叶斯压缩感知的说话人识别方法
手上的证据
IIRCT下负二项分布参数多变点的贝叶斯估计