APP下载

汉语复句关系词的依存树特征分析∗

2017-09-12杨进才罗越群陈忠忠胡金柱

计算机与数字工程 2017年8期
关键词:复句例句自动

杨进才罗越群陈忠忠胡金柱

汉语复句关系词的依存树特征分析∗

杨进才罗越群陈忠忠胡金柱

(华中师范大学计算机学院武汉430079)

复句关系词特征分析是复句关系词自动标识的关键。论文提出基于依存树的复句关系词特征分析方法,通过依存树核函数来捕获复句句法结构特征。对于复句句法分析所得依存树,选取最短路径包含树SPT(Short Path Tree)从树中选取关系词特征序列,设计依存树核函数对特征序列进行相似度的计算。实验证明,运用该方法进行关系词自动识别,具有较高的正确率。

复句关系词;依存树核函数;依存句法;特征分析

Class NumberTP391.9

1引言

复句上连篇章,下含小句,兼具句法、语义和语用等方面的属性[1]。它是汉语语法的重要实体单位,并且表达的语义信息丰富而复杂,因而成为汉语语法研究的热点。汉语句子中复句占大多数,复句是连接分句与篇章的桥梁,因而在中文信息处理领域具有较为重要的研究价值[2]。

在中文信息处理领域,复句的研究主要包括分句和非分句的识别、复句关系词的自动识别、复句层次的自动划分以及复句关系类别的标识。现阶段,对复句的分句和非分句的识别进行了大量的研究,且达到了较理想的识别效果。与此同时,复句关系词识别的研究正在从人工识别向自动识别进行。

目前关系词自动识别主要通过规则的方法。该方法的主要思想是:首先对汉语复句语料库中的复句进行分词处理,从分词的结果中提取关系词的约束条件,包括字面约束、分句位置约束、关系词位置约束、标记类型约束、词性约束、分句数目约束、语义约束、句式约束、关系词隐现约束、逻辑语义约束等。根据这些约束条件,分析关系词所在复句的特征并形成规则,然后通过规则匹配识别关系词[3~4]。例如:杨进才、郭凯凯等使用贝叶斯模型对汉语复句关系词进行识别并对规则进行挖掘[5]。胡金柱、舒江波、胡泉等对复句关系词识别的规则进行了研究[6]。

因此,在复句关系词自动识别系统中,复句关系词特征分析模块是该系统的核心模块之一。复句关系词特征分析模块所提取的特征信息有效与否,直接关系到关系词自动标识系统性能的高低。

现有的复句关系词特征的提取多为基于复句分句的分词结果。虽然文献[7]在对关系词及复句类别识别时使用了句法特征,但仅从清华树库中抽取出标注为连词、副词、连接词的词,在带功能标记的句法树中进行关系词的识别。但对没有带功能标记的句法树中的关系词没有进行识别,关系词在复句中被标注为其它词性的情况也没有考虑。本文将关系词识别的对象作为准关系词,即这个词在关系词库中存在,可以充当连词成分。但是,对准关系词的词性未作任何限定。

依存语法(又称从属关系语法、配价语法),由法国语言学家L.Tesniere于1959年首次提出[8]。1970年计算语言学家J.Robinson提出依存语法中关于依存关系的四条公理。由于依存语法具有形式简单、与语义关系接近、便于句法分析之后的进一步语义分析、更适合于处理自由语序的语言(如捷克语、汉语等)、更易于构造基于机器学习的高精度句法分析程序等优点,20世纪90年代我国学者开始将其引入汉语学的研究中,提出了用于中文信息处理的第五条公理。现在依存关系在中文信息处理各个研究领域得到了广泛的应用,国内有多家研究单位开发了中文依存树库,例如哈工大的汉语依存树库[9]。还有一些研究机构如清华大学开发了树库转换程序,将短语树库转化成依存树库[10~11]。

本文研究从复句依存树中提取关系词的句法特征,设计依存树核函数进行特征分析,利用树核函数的分析结果设计分类器,提高复句关系词自动识别的效率与准确率。

2复句依存树中关系词特征的选取

对于给定句子的依存句法树,如何选取树中恰当的部分用于关系抽取是实体关系抽取研究的关键问题之一[12~13]。复句依存树中,需要选择树中的恰当部分代表关系词所在复句的特征信息,使得这些特征对关系词的自动标识更加有效。

1)完全依存树

使用Stanford Parser[14~15]对例句1进行依存句法分析,所得到的句法分析结果如图1所示。

例句1:“是知道富士山的多,还是知道富士胶卷的多?”|《长江日报》1997年09月16日12版次。

图1例句1依存分析信息

图1 中,每一行都是一个三元组,表示一个依存关系:

关系名(父节点词语-层次编号,

子节点词语-层次编号)

对于复句依存分析得到的依存信息表,设计树生成算法来生成复句的依存树表示形式:

(1)遍历所得到的复句依存信息列表,找出存在且唯一的没有父节点的词,将该词当作复句依存树的根。

(2)为给定复句中的每个词找寻其所有孩子节点。

(3)当给定复句当中的所有的词都被设置了父子关系以后,算法结束。

根据树生成算法,将例句1的依存关系信息生成依存树的形式,所得到的依存树形式如图2所示。

图2 例句1的依存树

2)最短路径包含树

句法树关系抽取的结果表明:句法树中的最短路径包含树部分,被认为对表明实体关系、捕获句法树有效结构特征信息发挥着重要的作用。利用句法树中的最短路径包含树部分用作关系抽取,较之于使用完全句法树进行关系抽取,最短路径包含树将取得更佳的效果。

在对含有搭配型关系词“是,还是”的复句依存树,将采用最短路径包含树方法,选取树中连接关系词“是,还是”的最短路径及路径以下的部分,作为表示关系词所在复句的结构化特征。

例句2:“是排球给了他一切,还是他将一切都给了排球?”|《长江日报》1996年05月08日13版次。

图3 例句2的依存树

图4 例句2的最短路径包含树

例句2的依存树如图3所示,最短路径包含树如图4所示。在使用依存树核函数计算两复句的句法结构相似度时,将使用此结构的特征信息。通过依存树核函数对关系词所在复句的结构特征信息计算出的相似度,对搭配型复句关系词进行自动标识。

3核方法及依存树核函数

3.1核方法

由于核方法可以充分利用特征方法无法表示的结构化信息,因此近年来越来越多的研究人员开始研究和使用该方法[16]。通过使用核方法,将原特征空间之中的非线性分类问题转化为在变换后的高维特征空间的线性分类问题。该方法通过在原特征空间进行对象之间相似度计算得到变换后的高维特征空间中对象之间的相似值。

3.2依存树核函数

依存树核函数计算的是两复句实例依存树T1和T2之间的相似值,该函数记为K(T1,T2)。依存树T包含一系列节点{t0,t1,…,tn},树节点ti的特征表示为ϕ(ti)={v1,v2,…,vd};使用ti[j]来表示树节点ti的第j个子节点,ti[c]代表树节点ti的所有子节点集合,树节点ti的父亲节点表示为ti.p。

对含有搭配型关系词“是,还是”的复句实例3进行依存句法分析,使用依存树生成算法,将该例句依存分析所得依存关系列表构造成依存树形式。

例句3:“是守着包袱求稳定,还是在发展中解包袱?”|《长江日报》1995年10月28日02版次。

图5例句3的依存树

图5 中,t0[1]=t2,t0[c]=t0[{0,1,2}]={t1,t2,t3},t1.p=t0,ϕ(t6)={“还是”,“AD”,“ad v mod”}。

对定义于依存树节点特征的匹配函数m(ti,tj)∈{0,1}与相似度函数s(ti,tj)∈(0,+∞]进行如下简要说明:设定树节点ti的特征系列ϕ(ti)={v1,v2,…,vd}包含以下两个特征子集ϕm(ti)⊆ϕ(ti)和ϕs(ti)⊆ϕ(ti)。在匹配函数的计算中使用ϕm(ti),在相似度函数的计算中使用ϕs(ti)。函数具体形式如式(1)、(2)所示。

C(vq,vr)是定义于两具体特征值之间的函数,计算方法如式(3)所示。

s(ti,tj)返回两特征集合ϕs(ti)和ϕs(tj)之间存在的相同的具体特征值的数目。

对两个根节点分别为r1,r2的依存树T1和T2,定义依存树核函数K(T1,T2)为如式(4)所示。

式(5)中,Kc是定义于子节点上的核函数。令a和b都是指数系列,a的形式如下a1≤a2≤…≤an,b的取值与a类似。d(a)=an-a1+1,l(a)是系列a的长度。

常量0<λ<1是一个衰减因子,该衰减因子的引入是为了惩罚子系列中出现的匹配项,避免函数值过度依赖于树规模的大小,加快核函数的收敛速度。

4复句关系词标识

4.1关系词特征序列相似度计算

使用句法特征选取策略,对含有搭配型关系词的复句依存树进行结构特征的抽取,分别获得包含关系词在内的完全依存树和最短路径包含树。对代表关系词所在复句句法特征的结构对象,使用依存树核函数对其进行相似度的计算。

依存树核函数采用自顶向下的方式依次比较两结构化对象对应位置上的节点,当两结构对象的某个节点匹配成功时,则调用相似度计算函数计算相似值,并且使用相同的计算方法对其所有子节点进行递归计算,直到出现节点不匹配或者匹配已经达到了树的叶子节点。

4.2根据特征序列相似度计算对关系词标识

有标复句搭配型关系词自动标识的研究目标是,通过计算待标识的关系词特征序列与已知标识结果的关系词特征序列之间的相似度,来发现待标识关系词的标识类别。本文采用依存树核函数联合SVMLight(Support Vector Machine Light)机器学习方法构造联合分类器来发现待标识关系词的类别。文中使用的基于依存树核的SVMLight分类器对关系词标识的依据是,根据待标识关系词特征序列与训练集中位于决策边缘上的关系词特征序列之间的相似值给出分类结果,根据分类结果得到关系词的标识结果。基于依存树核函数的SVMLight机器学习方法使用的判别公式如式(6)所示。

式(6)中,yi∈{} -1,1,表示训练样例xi所代表的关系词是否是真正关系词(yi=1,是真正关系词,yi=-1,不是真正关系词),K(xi,z)=Φ(xi)·Φ(z)涉及计算变换后的空间中向量对之间的点积,即表示测试样例和训练样例的相似度,K(xi,z)表示前面部分介绍的依存树核函数。关系词标识规则为:如果f(z)=1,则判定关系实例z所包含的关系词是真正关系词;否则,不是真正关系词。

5实验结果与分析

对含有搭配型关系词的有标选择复句使用斯坦福大学的依存句法分析工具对其进行依存句法解析,通过对依存句法分析的结果进行处理,得到复句的完全依存树、最短路径包含树、最短依赖路径。

实验中将搭配型关系词的自动标识问题看作是分类问题,使用SVMLight作为分类器,然后在其中插入依存树核,使其能够支持树结构形式的输入。

将复句的上述两种树结构处理为分类器所需的格式。实验过程中,从华中师范大学语言所研究的汉语复句语料库(the Corpus of Chinese Com⁃pound Sentences,CCCS)中选用了500条包含搭配型关系词“是”,“还是”的复句实例,其中包含正例数目为300,负例为200。“是”,“还是”是弱式关系词,并将其标识规律用于其它搭配型关系词的自动标识。

采用准确率(Precision),召回率(Recall)和F值来评价关系词的自动标识性能。标识结果如表1。

表1 基于复句依存树的实验结果

表1比较了使用从复句依存树结构中抽取的三种结构特征,用于合用型关系词的自动标识的性能高低。从表中可看出,最短路径包含树取得了最佳性能,完全依存树次之,最短依赖路径的性能最差。

完全依存树包含了最丰富的特征信息。最短路径包含树保留连接关系词的路径特征以及路径以下包含的部分,而将完全依存树的其它部分予以剔除。实验结果说明,完全依存树尽管包含了最丰富的特征信息,但同时也引入了噪声信息,使得在关系词的自动标识中噪声特征抵消了有效特征的作用。而最短路径包含树通过剔除部分特征,取得了最佳性能。表明,最短路径包含树所包含的特征信息更能代表复句关系词所在依存树的结构特征。

最短依赖路径只保留依存树中连接关系词的路径特征,该特征未能够有效表示复句关系词所在复句的句法结构特征。

在关系词的自动标识中,卷积树核使用子集树的设置比使用子树设置所取得的效果更好。表2列出了使用卷积树核对从短语句法树中抽取的特征进行计算的结果。

表2 基于复句短语结构句法树的实验结果

表2表明,使用上下文相关的最短路径包含树用于关系词的标识,取得了较好的效果。这意味着,合用型有标选择复句的短语结构句法树中的,相较于其它几种结构特征,该部分特征能更加有效表示关系词所在短语结构句法树的特征信息。

表1与表2结果对照表明,从依存树抽取最短路径包含树,用依存树核函数计算相似度比从短语树中抽取特征,用卷积树核计算相似度的方法性能更优。

6结语

本文介绍了基于依存树核函数的复句关系词特征分析。给出依存树核对复句关系词特征信息序列进行相似度计算的基本原理,给出代表关系词所在复句的特征信息序列的抽取。分类器根据复句关系词特征信息序列相似度的计算结果,给出关系词的标识结果。通过观察最终关系词的自动标识效果,对完全依存树和最短路径包含树代表关系词所在复句句法特征的有效性进行比照。

复句关系词的自动标识可分为如下两种类型:单用型关系词的自动标识以及搭配型关系词的自动标识。搭配型关系词的自动标识是研究的重点。搭配型关系词根据组成部分的数量情况,可分为“两件套”,“三件套”等类型。本文从“两件套”关系词的自动标识入手,发现并总结其自动标识规律。将所得规律应用于其它类型的关系词的自动标识当中。

利用从复句实例依存树中选取的特征信息进行关系词的自动标识,最短路径包含树(SPT)取得了最佳标识性能。表明使用SPT代表关系词所在复句句法结构特征的有效性。

基于依存树核函数的复句关系词特征分析,需要解决如下两个关键问题:特征选取与依存树核函数形式。需要更多的实验去发现更能代表复句句法特征的关系词特征序列,针对文中依存树核函数在计算特征序列相似度时的局限性,需要进行进一步的改进,使得到的依存树核函数更能适应复句关系词的灵活搭配形式。

[1]邢福义.汉语复句研究[M].北京:商务印书馆,2001:1-695.

XING Fuyi.Research of Chinese Compound Sentence[M].Beijing:The commercialpress,2001:1-695.

[2]黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19.

HUANG Changning,ZHAO Hai.Chinese Word Segmenta⁃tion:A Decade Review[J].Journalof Chinese Information Processing,2007,21(3):8-19.

[3]胡金柱,陈江曼,杨进才,等.基于规则的连用关系标记的自动标识研究[J].计算机科学,2012,39(7):190-194.

HU Jinzhu,CHEN Jiangman,YANG Jincai,et al.Re⁃search on Auto-identifying of Adjoining Relation Markers Based on Rule[J].Computer Science,2012,39(7):190-194.

[4]胡金柱,舒江波,胡泉,等.汉语复句关系词自动识别中规则的约束条件研究[J].语言文字应用,2015(1):82-89.

HU Jinzhu,SHU Jiangbo,HU Quan,et al.On the Restric⁃tion of Rules in Auto-identifying Relational Words in Chi⁃nese Complex Sentences[J].Applied Linguistics,2015(1):82-89.

[5]杨进才,郭凯凯,沈显君,等.基于贝叶斯模型的复句关系词自动识别与规则挖掘[J].计算机科学,2015,42(7):291-294.

YANG Jincai,GUO Kaikai,SHEN Xianjun,et al.Auto⁃matic Identification and Rule Mining for Relation Words of Chinese Compound Sentences Based Bayesian Model[J].Computer Science,2015,42(7):291-294.

[6]胡金柱,舒江波,胡泉,等.复句关系词自动识别中规则的表示方法研究[J].计算机工程与应用,2016,52(1):127-132.

HU Jinzhu,SHU Jiangbo,HU Quan,etal.Research on ex⁃pression method of rules in auto-identifying relational word of Chinese compound sentences.Computer Engineer⁃ing and Applications,2016,52(1):127-132.

[7]李艳翠,孙静,周国栋,等.基于清华汉语树库的复句关系词识别与分类研究[J].北京大学学报(自然科学版),2014,50(1):118-124.

LI Yancui,SUN Jing,ZHOU Guodong,et al.Recognition and Classification of Relation Words in the Compound Sen⁃tences Based on Tsinghua Chinese Treebank[J].Acta Sci⁃entiarum Naturalium Universitatis Pekinensis,2014,50(1):118-124.

[8]高松,冯志伟.基于依存树库的文本聚类研究[J].中文信息学报,2011,25(3):59-63.

GAO Song,FEN Zhiwei.Research on Text Clustering Based on Dependency Treebank[J].Journalof Chinese In⁃formation Processing,2011,25(3):59-63.

[9]王跃龙,姬东鸿.汉语树库综述[J].当代语言学,2009(1):47-55.

WANG Yuelong,JI Donghong.A review of Chinese tree⁃banks[J].Contemporary Linguistics,2009(1):47-55.

[10]党政法,周强.短语树到依存树的自动转换研究[J].中文信息学报,2005,19(3):21-27.

DANG Zhengfa,ZHOU Qiang.Automatically Convert Treebank from Phase Structure to Dependency Structure[J].Journal of Chinese Information Processing,2005,19(3):21-27.

[11]尤昉,李涓子,王作英.基于语义依存关系的汉语语料库的构建[J].中文信息学报,2003,17(1):46-53.

YOU Fang,LI Juanzi,WANG Zuoying.On Construction of a Chinese Corpus Based on Semantic Dependency Re⁃lations[J].Journal of Chinese Information Processing,2003,17(1):46-53.

[12]车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6.

CHE Wanxiang,LIU Ting,LI Sheng.Automatic Entity Relation Extraction[J].Automatic Entity Relation Ex⁃traction,2005,19(2):1-6.

[13]董静,孙乐,冯元勇,等.中文实体关系抽取中的特征

[16]张兴,汪杨俊,余畅舟.LCL并网逆变器改进型重复控制策略[J].电力系统自动化,2014(20):101-107.

ZHANG Xing,WANG Yangjun,XU Changzhou.Im⁃proved repetitive control strategy for LCL grid connected inverters[J].Automation of electric power systems,2014(20):101-107.

[17]黄天富,石新春,魏德冰.基于电流无差拍控制的三相光伏并网逆变器的研究[J].电力系统保护与控制. 2012,40(11):36-41.

HUANG Tianfu,SHI Xinchun,WEI Debing.Study of three phase photovoltaic grid connected inverter based on Deadbeat Control[J].Power system protection and control,2012,40(11):36-41.

[18]刘士荣,李松峰,宁康红.基于极端学习机的光伏发电功率短期预测[J].控制工程,2013,20(2):372-376.

LIU Shirong,LI Songfeng,NING Kanghong.Short term prediction of photovoltaic power generation based on ex⁃treme learning machine[J].Control engineering,2013,20(2):372-376.选择研究[J].中文信息学报,2007,21(4):80-85.

DONG Jing,SUN Le,FENG Yuanyong,et al.Chinese Automatic Entity Relation Extraction[J].Journal of Chi⁃nese Information Processing,2007,21(4):80-85.

[14]Kumar M,Dua M.Adapting Stanford Parser's Dependen⁃cies to Paninian Grammar's Karaka Relations Using VerbNet[J].Procedia Computer Science,2015,58:363-370.

[15]Culotta A,Sorensen J.Dependency tree kernels for rela⁃tion extraction[C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics,2004:423.

[16]庄成龙,钱龙华,周国栋.基于树核函数的实体语义关系抽取方法研究[J].中文信息学报,2009,23(1):3-8.

ZHUANG Chenglong,QIAN Longhua,ZHOU Guodong. Research on Tree Kernel-Based Entity Semantic Rela⁃tion Extraction[J].Journal of Chinese Information Pro⁃cessing,2009,23(1):3-8.

Feature Analysis of Relation Words in Chinese Complex Sentences Based on Dependency Tree

YANG Jincai LUO Yuequn CHEN Zhongzhong HU Jinzhu
(Schoolof Computer Science,CentralChina Normal University,Wuhan 430079)

Feature analysis ofrelation words in Chinese complex sentences is the core work in automatic identification ofrela⁃tion words in complex sentence.In this paper,a feature analysis method of relation words based on dependency tree kernel is pro⁃posed.In the method,grammar tree features ofcomplex sentences are extracted by tree kernelfunction.A Short Path Tree(SPT)is used for features extract.A tree kernel function is designed for similar computation of features.Experiment shows the method achieves a very good effect.

relation word ofcomplex sentence,dependency tree kernel,dependency grammar,feature analysis

TP391.9

10.3969/j.issn.1672-9722.2017.08.023

2017年2月7日,

2017年3月20日

国家社会科学基金项目(编号:14BYY093);国家自然科学基金项目(编号:31371275)资助。

杨进才,男,教授,博士生导师。研究方向:现代信息系统、中文信息处理。罗越群,男,硕士研究生,研究方向:中文信息处理。陈忠忠,男,硕士研究生,研究方向:中文信息处理。胡金柱,男,教授,博士生导师,研究方向:中文信息处理、软件工程。

猜你喜欢

复句例句自动
连动结构“VP1来VP2”的复句化及新兴小句连接词“来”的形成
汉语复句学说的源流
自动捕盗机
哈汉复合句对比
让小鸭子自动转身
自动摇摆的“跷跷板”
好词好句
关于自动驾驶
好词好句
好词好句