APP下载

基于法律要素引导的相似案例推荐算法

2021-12-17刘博阳李尚叶麟张宏莉

智能计算机与应用 2021年6期
关键词:向量语义要素

刘博阳,李尚,叶麟,张宏莉

(哈尔滨工业大学 计算机科学与技术学院,哈尔滨 150001)

0 引言

随着法律知识的普及,人们习惯于使用法律手段解决问题,导致了需要被解决的各类案件数目逐年增长,这无疑给法律工作者带来了巨大的压力。近些年,有很多学者开始研究法律领域的人工智能,在判决预测,案件分类等方面取得了很多成就。然而相似案件推荐的算法研究较少,由于相似的案件往往有着相似的判决结果,寻找相似案例对法务工作者乃至普通大众都有参考意义,因此本文着眼于此,提出了一种基于法律要素的模型来提高相似案例推荐的准确性。

相似案例推荐,即在给定一个判决文书的情况下,找出在法律角度上与之相似的案件。从本质上来说,此问题还属于文本相似度的研究,然而案件的相似并不是简单的文本相似,而是挖掘文本中所包含的法律要素的相似,这就导致了单纯使用文本相似度计算方法并不能找到高度相似的法律案件。

综上,本文提出了一种由要素引导的神经网络模型来形成案件文本的向量表示,然后利用该向量表示计算两两案件的余弦相似度,并返回相似度最高的一系列案例作为给定案件的相似案例。本文在真实的故意伤害罪数据集上进行了实验,发现返回的相似案例要优于常用的文本相似度计算方法。

1 相关工作

在欧美等实施判例法的国家中,每一个案件的判决中都会引用以往的判决案件作为新案件判决的依据,因此,案件之间就会构成一个引文网络。Opijnen 使用网络度统计和结构属性提取相关文件的法律域名领域[1];Wagh等人提出了利用案例引证网络节点的中心性和介数性来寻找印度法院判决相似性的方法[2];Minocha等人定义了一个法律角度的离散度,用于衡量两个案例的相邻案例集合的相似度,进而发现引文网络中相似的案例[3]。

基于引文的相似性的法院案件在法律领域无疑具有非常重要的意义,但是案例引证图通常非常稀疏,因此基于机器学习和自然语言处理的方法被提出[4-5];Ashley等人利用基于案件特征的最近邻算法计算案件相似度[6];Carneiro等人在采用基于词频的贝叶斯统计方法对法律案例的相似度进行计算[7]。

随着word embedding 的出现,信息检索已经转向了神经信息检索。Xia等人利用法律的文本语料库训练word2vec 模型,用于计算法律文本的相似度[8];Vo 也表示基于词嵌入的文本语义表示对法律文本检索领域很有帮助[9]。但这些方法都忽视了对法律领域知识的使用,因此本文从法律要素的角度将领域知识结合到文本的向量表示中,使得模型能够从法律要素的层面寻找相似案例。

2 模型构建

2.1 模型框架

本文提出了相似案例推荐模型,该模型的整体框架如图1 所示。首先将案例输入到一个神经网络中,用案件中包含的法律要素作为标签训练网络,并利用输出层前一层输出的向量作为案例的向量表示,由于在训练过程中包含了语义信息和要素信息,因此利用该向量可以很好的表示一个案件的语义信息和案件中所包含的法律要素情况,本文利用该向量计算任意两个案件之间的余弦相似度,最终返回相似度最高的K个案件最为推荐的相似案例。

图1 相似案例推荐模型整体框架图Fig.1 Overall framework of similar case recommendation model

2.2 法律要素预测模型

预测要素标签的神经网络结构,如图2 所示。整个网络分为5 层,分别为词嵌入层、语义嵌入层、两个全连接层和一个输出层。

图2 法律要素预测模型Fig.2 Legal element prediction model

词嵌入层的输入是经过分词,去除停用词等预处理操作之后的文本,该文本可以表示为式(1):

其中,wi代表分词后的短语或词组。经过词嵌入层后,wi会被映射到语义空间中形成向量,式(2):

在这一步中,词向量的转化采用word2vec 实现。进一步地,为了使文本能够学习上下文的语义信息,本文采用了基于循环神经网络的语义嵌入层,式(3):

在接下来的两个全连接层中,第一个全连接层的输出维度即案件的向量表示维度,该层的输出不仅被当作下一个全连接层的输入,也用于形成一个案件的向量表示,被进一步用于相似案例推荐,式(4):

第二个全连接层的输出维度与法律要素的类别数相同,用于预测法律要素,式(5):

由于预测法律要素属于多标签分类问题,本文在输出层中采用sigmoid函数,式(6):

本文使用的损失函数为交叉熵损失函数,其计算公式(7)为:

2.3 法律要素选择

本文根据故意伤害罪相关法律条文中规定的法律要素和数据集中法律要素出现的次数,选取了出现次数较多的前35 个要素作为标签,这些标签都是结合人工观察与正则表达式抽取出来的,具体的法律要素见表1。

表1 故意伤害罪相关法律要素Tab.1 Legal elements of intentional injury

3 实验

3.1 数据集

本文中使用的数据集是从中国裁判文书网中爬取的,该数据集中一共有2 148 篇判决文书,其罪名均为故意伤害罪。在寻找相似案例的时候,本文使用的并不是完整的判决文书作为输入,而是使用判决文书中案情描述的部分作为输入。

3.2 基线方法

在预测法律要素的模型中,本文比较了RNN 模型及其几种常见的变体,包括LSTM、GRU、BiGRU以及采用attention 机制的BiGRU。在神经网络的训练中,隐藏层的输出维度均为128,均采用adam 作为优化器,学习率设置为0.001,第一个全连接层的输出为200 维。

在相似度计算的对比模型选取中,本文主要采用了4 种常用的用于计算文本相似度的无监督模型,tf-idf、word2vec、doc2vec和结合tf-idf的word2vec作为对比实验,其中结合tf-idf的word2vec 是将一个单词的tf-idf 的值作为word2vec的权重,进而获得句子的向量表示。

3.3 评价指标

由于缺乏刑事类相似案件的数据集,并且司法领域也并没有明确的规定表明满足什么条件的两个案件可以称为相似案件,即相似案例的判定并不存在一个充要条件。但由于中国司法领域对类案类判的要求,相似案例的判决结果应当相似,即判决结果的相似是相似案例的必要条件。因此,本文拟采用这个必要条件对模型进行测评。在司法领域中,判决结果主要是罪名、相关法律条文和刑期,本文分别给出这3 个方面的相似度计算公式。

对于罪名而言,相似案例都具有相同的罪名,罪名维度的相似性计算公式可以表示为式(8):

由于法律条文是一个集合,这里借用杰卡德系数来计算两个案件法律条文维度的相似性,式(9):

刑期都是采用整数表示的,为了便于计算,本文将刑期的单位统一成月份,刑期相似度计算函数为式(10):

最终,两个案件的相似度的综合计算为公式(11):

由于本文使用的数据集都是在同一罪名下的数据,因此式(11)变为式(12):

相似案例推荐属于信息检索范畴,本文采用信息检索领域常用的DCG(Discounted cumulative gain)作为评价指标,其基本思想是对信息检索返回的p个结果分别进行打分,并将这些结果的分数求和,得到p个返回结果的综合得分。该指标主要有两点假设,第一是返回的结果中,越相关的结果排在越前面越好,另一点是打分高的结果比打分低的结果好。该指标的计算公式(13)如下:

其中,p代表返回的相似案例的个数;i代表返回案件的顺序;reli代表返回的第i个相似案例与给定案例的相似度程度;这里的reli即为本文中用于计算两个案件相似性得分的sim(D1,D2) 的值。

3.4 实验结果

首先给出法律要素预测模型的准确率、召回率和F1 分数,其具体数值见表2。

表2 法律要素预测模型效果Tab.2 Experimental results of legal element prediction

本文比较了5 种不同的语义嵌入层模型,发现BiGRU+attention 的效果最好,因此本文采用该模型生成的向量作为案例文本的向量表示。

本文的模型与基线模型的效果对比见表3。其中,DCG@5,DCG@10,DCG@20 分别代表返回的前5 个,前10 个和前20 个案例的DCG 的值。可以看出,本文模型在寻找相似案例的效果上比其它模型有明显的提高。

表3 相似案例推荐模型效果Tab.3 Experimental results of similar legal case recommendation

本文中模型对给定案例返回的前5 个相似案例的结果见表4。其中,粗体下划线的部分为案件涉及到的法律要素,返回的案例中包含的法律要素基本与给定案例相符合,其中返回的第二个案例与给定案例有着极高的相似性,所有返回案例涉及到的相关法律条文有一定误差,但刑期误差都较小。

表4 某具体案例的相似案例推荐情况Tab.4 Similar legal case recommendation for a specific case

4 结束语

本文提出了一种相似案例推荐算法,该算法利用法律要素作为标签训练神经网络,并利用网络结构中学习到法律要素信息的输出层的前一层的输出向量作为一个案例的向量表示,本文利用该向量计算任意一对案件的相似度,找出相似度最高的案例集合作为给定案例推荐的相似案例。本文的算法取得了良好的效果,但法律要素预测模型的F1 分数不高,今后的研究方向是设计网络来提高法律要素预测的准确性,进一步提高相似案例推荐的精度。

猜你喜欢

向量语义要素
向量的分解
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
2015年8月债券发行要素一览表
2015年6月债券发行要素一览表
汉语依凭介词的语义范畴