APP下载

基于短文本隐含语义特征的文本蕴涵识别

2016-05-04张晗盛雅琦吕晨姬东鸿

中文信息学报 2016年3期
关键词:蕴涵正确率短文

张晗,盛雅琦,吕晨,姬东鸿

(武汉大学 计算机学院,湖北 武汉 430072)

基于短文本隐含语义特征的文本蕴涵识别

张晗,盛雅琦,吕晨,姬东鸿

(武汉大学 计算机学院,湖北 武汉 430072)

该文采用基于短文本隐含空间语义特征改进文本蕴涵识别,该方法通过构造句子的隐含变量模型,并融合基于该模型的句子之间相似度特征,和词汇重叠度、N元语法重叠度、余弦相似度等字符串特征,以及带标记和未标记的子树重叠度句法特征一起利用SVM进行分类。基于该分类算法,我们对RTE-8任务进行了测试,实验表明短文本的隐含语义特征可有效改进文本蕴涵关系识别。

文本蕴涵;隐含语义特征;短文本;支持向量机

1 引言

在自然语言处理(NLP)领域中,为了有效地处理自然语言中广泛存在的同义异形现象,近年来国外一些学者尝试用“文本蕴涵”(Textual Entailment)来为语言中纷繁复杂的同义表达建立模型[1]。文本蕴涵可以定义为: 给定一个连贯的文本(Text)T和一个被看作为假设(Hypothesis)的H,如果H的意义可以从文本T的意义中推断出来,那么就认为T蕴涵H(即H是T的推断)[2]。目前,文本蕴涵在自然语言处理的很多应用中起着关键作用,如自动问答系统、教育NLP领域中自动评判学生答案系统、语义检索和机器翻译都能使用到文本蕴涵。

国内外很多学者都在积极从事文本蕴涵的研究,构建了不同语言的文本蕴涵推理模型,并且举办了多个文本蕴涵领域的比赛和测评。美国国家标准技术研究所NIST(National Institute of Standards and Technology)组织了文本蕴涵识别RTE(Recognizing Textual Entailment)评测,该评测目前已经举办八届,构造了一些文本蕴涵推理模型和文本识别模型。Zesch等人将文本相似度和BUITEE推理系统得到的蕴涵信息作为分类特征[3],从而识别文本蕴涵。Sergio 等人采用分层的方法识别文本蕴涵[4],不仅通过分析文本T和假设H之间的词汇重叠关系,还分析T和H之间的句子重叠度来识别文本蕴涵关系。刘茂福等人将文本间的蕴涵关系转化为事件图间的蕴涵关系[5],利用最大公共子图的事件图相似度算法计算事件语义特征,并与统计特征、词汇语义特征一起对中文文本蕴涵进行识别。这些方法在处理短文本的文本蕴涵时识别率低,原因在于短文本中所能提供的信息有限,传统分类方法不能有效识别蕴涵。

本文首先介绍短文本隐含语义模型;接着将该方法得到的特征与字符串特征、句法特征结合构成对文本蕴涵识别的系统,并将该系统运用在RTE-8测评任务中;最后对实验结果进行分析,并对全文工作进行总结和展望。

2 短文本隐含语义模型

由于传统主题模型(LSA,PLSA,LDA)在识别短文本的文本相似性上有局限性,这些模型都通过句子中的单词找到潜在语义的描述,但短文本中获得的信息有限,从而导致传统主题模型并不能很好比较短文本相似性。本文采用Weiwei Guo和Mona Diab[6-7]提出的方法,对句子中出现的单词和未在句子中出现的单词构造句子的完整语义模型。给定一个语料库(WordNet,Wiktionary,布朗语料库),构造词-句子共现矩阵X,其中Xij表示第i个单词wi在第j个句子sj中的TF-IDF值,如果Xij=0则表明该词没有出现在该句中。对词-句子共现矩阵进行加权矩阵分解[WMF],将X分解成两个矩阵X≈PTQ,其中P是K×M矩阵,Q是K×N矩阵。P·,i和Q·,j分别近似表示单词wi和句子sj语义关联性,我们可以通过计算Q·,j和Q·,j′的余弦相似度来得到两个句子sj和sj′的相似度。矩阵分解如图1所示。

图1 矩阵分解

P和Q中的向量最终优化结果会使式(1)所示的目标函数达到最小值

(1)

式中λ是正则化项的权重系数,W是权重矩阵,用来指明X矩阵中每个元素的权重大小。权重矩阵的设定方法如式(2)所示。

(2)

对于出现在句子中的词,设定权重为1,而未出现在句子中的词将权重设定为小于1的正数wm(本文将wm设定为0.01)。

3 分析框架

我们将文本蕴涵识别看成分类问题,即将结果分类成蕴涵和不蕴涵。将本文构建的系统由数据预处理、特征提取和SVM分类器三个主要模块组成[8-10],具体的分析框架如图2所示。

图2 分析框架示意图

3.1 隐含语义特征

通过上节训练的短文本隐含语义模型,我们可以计算出T和H两句子之间的相似度特征,把该特征称为短文本隐含语义特征。

3.2 字符串特征

(1) 词汇重叠度: 假定T和H中出现的相同词汇越多,T和H的相似度越高,它们表示相同或相近含义的概率就越大。因此,可以使用词汇重叠度表示T和H包含相同词汇的程度,如式(3)所示。

(3)

Words(T)表示文本T中包含的词汇集合。

(2) N元语法重叠度: 假设在T和H中n-gram相同个数越多,则T和H越相似。本系统分别使用了二元语法重叠特征和三元语法重叠特征。该特征的计算如式(4)所示。

(4)

(3) 余弦相似度: 两个文本向量的余弦相似度越高,则这两个文本之间存在蕴涵关系的概率就越大。该特征构建每对T和H的词汇向量,并计算这对向量的余弦相似度。

(4) 匹配率: 该特征与词汇重叠度不同,它只求T和H中相同单词的数量,即|Words(T)∩Words(H)|。

(5) 长度比: 该特征考虑T和H长度的比值,公式如式(5)所示。

(5)

(6) 长度差: 如果T蕴涵H,那么T和H之间的长度应该相似或者T中包含的信息量比H略多,最直观的反映就是如果T和H长度之差越小,则表明T和H之间越相似,因此,使用T和H的长度差从表面上度量两者的差异,我们对长度差求倒数,则特征值越大,表明T和H越接近,当T和H长度相同时,我们将特征值设为2。长度差的计算如式(6)所示。

(6)

(7) Dice系数: Dice系数用来表示T和H的相似程度,计算公式如式(7)所示。

(7)

(8) 最长公共子串相似度: 两文本存在的最长公共子串越大,它们之间存在蕴涵关系的可能性就越大,文本对最长公共子串相似度的计算公式如式(8)所示。

(8)

(9) Levenshtein距离: 即编辑距离,表示从一个字符串转成另一个字符串所需的最少的编辑操作次数,编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。这里我们对Levenshtein距离取倒数,这样值越大,则字符串越接近。

(10) Euclidean距离: 该特征的计算公式如式(8)所示。其中xi,yi分别对应T和H,我们对得到的Euclidean距离取倒数,则特征值越大,句子越相似。

(9)

(11) Manhattan距离: 该特征的计算公式如式(10)所示,其中xi,yi分别对应T和H,我们对得到的Manhattan距离取倒数,则特征值越大,句子越相似。

(10)

(12) Chebyshev 距离: 该特征得到的是两个字符串向量之间各个维度数值差的最大值,计算公式如式(11)所示。

(11)

(13) Jaro-Winkler距离: Jaro-Winkler值越大,表明两字符串相似度越高。Jaro-Winkler尤其适合短字符串相似度的度量。计算公式如式(12)所示。

(12)

其中m是文本T和H匹配文本串的个数,这里“匹配”的含义是同一个文本串在指定的LJW长度范围内同时出现在文本T和H中。

(14) 最小子串相似度: 该特征分别计算T中子串和H的Jaro-Winkler距离,并取最小值。

(15) 最大子串相似度: 该特征分别计算T中子串和H的Jaro-Winkler距离,并取最大值。

(16) 否定词特征: 文本T和H中出现的否定词数量一定程度上可以判断T和H中是否蕴涵,添加记录T和H中否定词个数是否一致的特征。计算文本中否定词个数公式如式(13)所示。

(13)

n1和n2分别表示T和H中否定词的数量。如果n1对2求余的结果与n2对2求余的结果相同,则fneg的值为0,否则为1。

3.3 句法特征

系统包含两个句法特征,这些特征用来计算每对T和H之间依存结构的相似性。

(1) 未标记的子树重叠度: 该特征计算文本T和假设H中存在相同子树的比率。通过句法依存分析工具得到子树中父节点和子节点以及两个节点之间的关系表示。图3显示了一个例句“She bought a book”中存在的子树。如果文本T和假设H对应子树中父节点和子节点相同,则认为两个子树相同。计算公式如式(14)所示。

(14)

图3 “She bought a book”句子中存在的子树, 箭头代表依存关系方向

(2) 带标记的子树重叠度: 与未标记的子树重叠度类似,该特征也计算文本T和假设H中存在相同子树的比率,不同的是,未标记的子树重叠度没有考虑父子节点中关系是否相等,而带标记的子树重叠度不仅考虑父子节点是否相等,还要考虑两节点中的关系是否相等。

4 实验结果

4.1 任务介绍

实验选取RTE-8测评任务进行测试[11-12],RTE-8测评针对教育NLP领域中的学生答案进行分析,该测评分为主任务和试点任务,我们只参加主任务的测评。测评的主任务分为五分类(5-way task),三分类(3-way task)和二分类(2-way task)三个子任务。每个子任务数据集中,给出了一个问题Q(Question),和该问题的标准答案RA(Reference Answer)以及学生答案A(Answer)。把问题Q和学生答案A当作T(Text),把问题的标准答案当做H(Hypothesis),然后对该T-H对进行蕴涵判断。每个子任务判断标准如表1所示。

表1 任务判断标准

续表

使用的数据集分两部分: 一是Beetle数据集,该数据集是从BEETLE II教育辅导系统中获取的标注语料,数据集包括高中电学知识;二是Science Entailments语料库(SciEntsBank),该语料库中包含了16个不同科学领域的知识,如物理学、生命科学等。例1来自SciEntsBank语料库中的5way训练集,其中A1标记为Correct,A2标记为Partially_correct_incomplete,A3标记为Contradictory,A4标记为Irrelevant。

例1:

Q: Georgia found one brown mineral and one black mineral. How will she know which one is harder?

RA: The harder mineral will leave a scratch on the less hard mineral. If the black mineral is harder,the brown mineral will have a scratch.

A1: The one with scratches or deeper scratches is weaker and the other rock is harder.

A2: Scratch test.

A3: Whichever one that has more scratches.

A4: The one that does not break.

任务中提供三个测试集,第一个测试集被称为Unseen answers(UA)测试集,在该测试集中,提供的问题和标准答案与训练集相同,但学生答案不同;第二个测试集被称为Unseen questions(UQ)测试集,该测试集中问题、标准答案以及学生答案均与训练集不同,但和训练集处于同一领域范围;第三个测试集被称为Unseen domains (UD),该测试集仅在SciEntsBank数据集中出现,测试集随机选取三个与训练集不同的领域,从选取的领域中获得问题、标准答案和学生答案。Beetle语料库中训练集、Unseen answers(UA)测试集、Unseen questions(UQ)测试集分别有3941对、439对、819对文本,SciEntsBank语料库中训练集、Unseen answers(UA)测试集、Unseen questions(UQ)测试集、Unseen domains(UD)测试集分别有4969对、540对、733对、4562对文本。

本文使用支持向量机解决文本蕴涵识别问题,由于SVM的提出是为了解决二分类问题,因此可以直接用于RTE-8任务的二分类子任务。而对于RTE-8任务三分类和五分类子任务而言,解决办法是将一个多分类问题分解成若干个二分类问题,从而可以使用多个二分类器模拟实现多分类器。本文选用“一对一”方法来完成多分类。对于RTE-8三分类子任务的三类关系,需要对三类关系两两组合,从而需要训练三个二分类器,同理,五分类子任务需要训练十个二分类器。测试时,将测试数据对每个二分类器进行预测,分别得到一个类别,找出投票数最多的类别作为最终的分类结果。

本文蕴涵识别系统使用LIBSVM*http: //www.csie.ntu.edu.tw/~cjlin/libsvm/。核函数使用径向基函数,惩罚因子C和核函数因子γ通过网格搜索训练得到,并使用LIBSVM默认的五折交叉

验证优化参数。

4.2 实验结果分析

实验首先仅使用字符串特征与句法特征作为分类特征在RTE-8任务中进行测试,然后加入隐含语义特征再次测试,得到的实验结果如表2所示。表中WHU表示未加入隐含语义特征实验结果,WHU-ls表示加入隐含语义特征实验结果。实验过程中,由于多种特征并不在同一取值范围之间,我们在用分类器分类之前,将训练集和测试集中得到的所有特征归一到-1到1之间。

表2中可以看出,加入隐含语义特征后二分类、三分类、五分类子任务总正确率分别比原系统总正确率提高2.6%、2.5%、6.8%。

表3分别列出了二分类(2-way task)、三分类(3-way task)、五分类(5-way task)子任务中结果最好的三支队伍成绩以及本文实验结果,同时,表3中列出了基准测试(baseline)和所有成绩的均值。实验结果中每组最好成绩用黑体标出。

表2 加入隐含语义特征前后正确率对比

表3 二分类、三分类、五分类子任务正确率

续表

从表3可以看出,本文实验所得到正确率在二分类和五分类子任务中均高于排名第一的比赛队伍,三分类子任务中等于排名第二的比赛队伍,正确率高于平均值和基准系统(baseline)。特别地,在二分类子任务的beetle数据集对应的Unseen Questions(UQ)测试集和五分类子任务SciEntsBank数据集对应的Unseen Domains(UD)测试集中WHU-ls系统正确率分别为0.774和0.528,高于排名第一的队伍结果。

我们根据该任务的中T和H的特点,分析第二部分提到的一些字符串特征和句法特征对模型性能的影响。

实验中发现,测试集中部分学生给出的答案长度非常短,仅仅是1到4个单词,如例2所示。

例2:

Q: Explain why you got a voltage reading of 1.5 for terminal 1 and the positive terminal.

RA: Terminal 1 and the positive terminal are separated by the gap.

A1: no

A2: I do not understand

A3: positive charge

例2中,所有答案在二分类任务中都判定为incorrect。所以我们可以通过使用长度差和长度比特征,直观地通过T和H的长度关系判断是否蕴涵。添加长度比和长度差特征前后的实验结果如表4所示,表中WHU-n表示未添加长度比和长度差特征实验结果。

表4 添加长度差和长度比特征前后系统比较

从表4中看出,加入了长度比和长度差特征后,三组子任务正确率都比未添加长度比和长度差特征的系统有所提高,这说明添加长度比和长度差特征对蕴涵识别模型起到了积极效果。

实验中我们还发现,测试集中部分学生答案之间大部分单词相同,仅仅多出一个否定词,导致答案意思相反,如例3所示。

例3:

Q: Explain why you got a voltage reading of 1.5 for terminal 1 and the positive terminal.

RA: Terminal 1 and the positive terminal are separated by the gap.

A1: because there was no separation in the positive battery terminal and terminal 1.

A2: because there was no gap in the positive battery terminal and terminal 1.

A3: because there is a gap between the positive battery terminal and terminal 1.

A4: Because there was a gap between the positive battery terminal and terminal 1.

例3中,A1和A2仅仅比A3和A4多一个否定词no,导致A1和A2为incorrect而A3和A4为correct。使用相似度的方法判断这种类型学生答案较困难,所以有必要添加否定词特征。添加否定词特征与未添加否定词特征的实验结果如表5所示,表中WHU-n表示未添加否定词特征实验结果。

表5 添加否定词特征前后系统比较

从表5中看出,加入否定特征后,除了五分类子任务正确率持平,其他两组子任务的正确率都比未添加否定特征WHU系统有所提高,说明添加了否定特征后对实验结果有提高。

我们除了分析长度差、长度比特征和否定词特征,还对前文提出的所有特征进行分析。我们在二分类子任务中依次将每个特征去掉,并观察每次实验结果,表6显示依次去掉一个特征对实验结果的影响。

表6 二分类中依次去掉每个特征后结果比较

续表

从表6可以看出,在二分类子任务中,匹配率特征、Jaro-Winkler距离在Beetle测试集中效果好于其他特征,二元语法重叠度特征在SciEntsBank测试集中效果好于其他特征。有些特征虽然在一个测试集中被去掉之后正确率反而有所上升,但在另一个测试集中起到积极的效果。

5 结束语

以RTE-8任务为背景,本文设计并实现了基于学生问答的文本蕴涵系统。系统基于支持向量机构建分类器,以短文本隐含空间语义特征、字符串特征和句法特征生成特征文件,对文本蕴涵识别进行处理。实验所得到正确率在二分类和五分类子任务中均高于排名第一的比赛队伍,三分类子任务中等于排名第二的比赛队伍,正确率高于平均值和基准系统(baseline)。这表明,利用短文本隐含空间语义特征的方法对短文本进行文本蕴涵识别是可行的。

对实验结果进一步分析发现,本系统在识别三分类中矛盾(contradictory)、五分类中矛盾(contradictory)和不切题(irrelevant)的准确率和召回率较低,有较大的提升空间,同时我们发现RTE-8任务中部分学生答案会使用代词指代问题中出现过的词语,使用指代消解将答案中的代词进行消解可能会提高文本蕴涵的识别率,未来研究将对这些方面进行改进。

[1] 袁毓林,王明华. 文本蕴含的推理模型与识别模型[J].中文信息学报,2010,24(2): 3-13.

[2] Dagan I,Dolan B,Magnini B,et al. Recognizing textual entailment: Rational,evaluation and approaches-erratum[J]. Natural Language Engineering,2010,16(1): 105.

[3] Zesch T,Levy O,Gurevych I,et al. UKP-BIU: Similarity and Entailment Metrics for Student Response Analysis[J]. Atlanta,Georgia,USA,2013: 285.

[4] Jimenez S,Becerra C,Gelbukh A,et al. SOFTCARDINALITY: Hierarchical Text Overlap for Student Response Analysis[J]. Atlanta,Georgia,USA,2013: 280.

[5] 刘茂福,李妍,姬东鸿. 基于事件语义特征的中文文本蕴含识别[J]. 中文信息学报,2013,27(5): 129-136.

[6] Guo W,Diab M. Modeling sentences in the latent space[C] //Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1. Association for Computational Linguistics,2012: 864-872.

[7] Guo W,Diab M. A simple unsupervised latent semantics based approach for sentence similarity[C] //Proceedings of the First Joint Conference on Lexical and Computational Semantics-Volume 1: Proceedings of the main conference and the shared task,and Volume 2: Proceedings of the Sixth International Workshop on Semantic Evaluation. Association for Computational Linguistics,2012: 586-590.

[8] 刘茂福,李妍,顾进广. 基于统计与词汇语义特征的中文文本蕴涵识别[J]. 计算机工程与设计,2013,34(5): 1777-1782.

[9] 张鹏,李国臣,李茹,等. 基于 FrameNet 框架关系的文本蕴含识别[J]. 中文信息学报,2012,26(2): 46-50.

[10] Ren H,Lv C,Ji D. The WHUTE System in NTCIR-9 RITE Task[C] //Proceedings of the 9th NTCIR Workshop Meeting on Evaluation of Information Access Technologies: Information Retrieval,Question Answering and Cross-Lingual Information Access.2011: 373-378.

[11] Dzikovska M O,Nielsen R D,Brew C. Towards effective tutorial feedback for explanation questions: A dataset and baselines[C] //Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.2012: 200-210.

[12] Dzikovska M O,Nielsen R D,Brew C,et al. SemEval-2013 task 7: The joint student response analysis and 8th recognizing textual entailment challenge[C] //Proceedings of the Second Joint Conference on Lexical and Computational Semantics (* SEM). Association for Computational Linguistics},2013,2: 263-274.

[13] 石晶,戴国忠. 基于知网的文本推理[J]. 中文信息学报,2006,20(1): 76-84.

[14] 陈波,姬东鸿,吕晨. 基于特征结构的汉语主谓谓语句语义标注研究[J]. 中文信息学报,2012,26(3): 22-26.

[15] 张宁,孔芳,李培峰,等. 基于机器学习方法的英文事件代词消解研究[J]. 中文信息学报,2013,26(6): 51-58.

Recognizing Textual Entailment Based on Short Text Latent Semantic Feature

ZHANG Han,SHENG Yaqi,LV Chen,JI Donghong

(School of Computer, Wuhan University, Wuhan, Hubei 430072,China)

This paper improves the identification of textual entailment based on short text latent semantic features. The method trains a reliable latent variable model on sentences,and gets the sentence similarity features. The short text latent semantic features,combined with other string features such as word overlap,N-gram overlap,cosine similarity,etc,and lexical semantic features such as unlabeled sub tree overlap,labeled sub tree overlap,are used to identify textual entailment using SVM. We test on RTE-8 task,and the result shows that the latent semantic features are helpful to recognize textual entailment.

textual entailment;latent semantic feature;short text;support vector machine

张晗(1990-),硕士研究生,主要研究领域为自然语言处理、文本蕴涵。E⁃mail:zhang_han@whu.edu.cn盛雅琦(1991-),硕士研究生,主要研究领域为自然语言处理、文本蕴涵。E⁃mail:shmilysyq@whu.edu.cn吕晨(1989-),博士研究生,主要研究领域为自然语言处理、机器学习等。E⁃mail:lvchen1989@whu.edu.cn

2014-02-23 定稿日期: 2014-05-27

国家自然科学基金(61173062)

1003-0077(2016)03-0163-09

TP391

A

猜你喜欢

蕴涵正确率短文
个性化护理干预对提高住院患者留取痰标本正确率的影响
伟大建党精神蕴涵的哲学思想
门诊分诊服务态度与正确率对护患关系的影响
我的超级老爸
KEYS
Keys
BCK-代数的广义 (∈,∈∨q)-模糊蕴涵理想*
生意
生意
勾股定理中蕴涵的数学思想