APP下载

基于五元组的词语搭配自动抽取

2015-01-28孙婷婷

电子设计工程 2015年19期
关键词:互信息分词语料库

孙婷婷

(江苏科技大学 计算机科学与工程学院,江苏 镇江 212003)

计算语言学的发展为语言研究开辟了一个崭新的领域,词语搭配以其在机器翻译,信息检索,语义自动纠错,问答系统及语言产生、理解、学习中的重要作用,成为了自然语言处理研究领域的重点研究方向之一。

在国外,最早开展搭配研究的是Choueka,他利用《纽约时代周刊》约1100万词的语料库,通过计算重复出现的相邻词串的共现频率来抽取词语搭配[1]。之后,Church和Smadja等人都利用统计量,分别做过搭配抽取试验,准确率可达80%左右[2-3]。在国内,较早开始研究的是清华大学的孙茂松教授,他借鉴国外语言学和语料库学相关知识,提出了计算跨距[-5,+5]的词语之间搭配强度、离散度及尖峰三个指标,但是利用该方法进行词语搭配抽取的准确率不高[4]。之后,曲维光等提出了一种基于框架的词语搭配抽取方法,孙宏林提出了“统计+规则”的方法[5-6]。还有一些研究者开始尝试利用机器学习算法来进行中文词语搭配抽取[7]。如山西大学的白妙青利用支持向量机来对“V+V”形式的词语搭配进行研究,王素格和杨军玲提出利用最大熵模型和投票法来获取汉语中“V+V”词性构成形式的词语搭配[8]。这些方法都取得了不错的效果。

本文首先介绍了搭配的定义,并给出了语义搭配和句式搭配两类搭配的定义。然后提出了五元组模型,并依此为基础,利用统计量做了实验分析。

1 搭配的定义

对于搭配的定义,从不同的理论角度与应用背景出发,语言学研究学者和自然语言处理研究人员都有着各自不同的见解。本文采用的是由曲维光给出的有关搭配的定义:搭配是具有一定语法关系的词语组成的一种具有任意性、并重复出现的词语组合[5]。从定义中可以看出,搭配具有重复性、任意性、领域相关性、符合一定的句法结构等性质。在上述定义的基础上,本文给出了两类搭配的定义,这也是本文的提取目标。

1.1 语义搭配

定义 S=(x,w,y,w′,z) 为汉语中语意表达明确的一条文本信息,从该段文本信息中提取出的语义搭配记为c。其中:

1)w,w′是文本信息中的单个汉语分词项,在语料库中的词性标注为/n(名词)、/a(形容词)、/ad(副形词)或/v(动词);

2)x,y,z是文本信息中的单个分词项,或是由多个分词项构成的短语、短句。 其中,x,y,z可以为空;

3)c是w与w′的结构性组合,并且能描述w与w′之间的某种语义关系;

简单来说,w,w′就是语料库某句话中两个独立的分词项,它们的词性可以是名词、形容词、副形词或动词中的任意两种(可重复)。当不考虑句子中的其他成分,把这两个词组合在一起构成一个新词时,这个新词符合人们的日常语言习惯并且能描述w,w′这两个词之间的某种语义关系。

例如,w 为“金属”,w′为“制品”,则我们可以得到 c 为“金属制品”,其中,w 为 w′的材质;再如,w 为“仔细”,w′为“询问”,则我们可以得到c为“仔细询问”,其中w描述了w′动作的程度;再如,w 为“团结”,w′为“一致”,则我们可以得到 c为“团结一致”,其中w和w′为意思相近的形容词,或者称为并列形容词。

1.2 句式搭配

定义 S=(x,w,y,w′,z) 为汉语中语意表达明确的一条文本信息,从该段文本信息中提取出的句式搭配记为c。其中:

1)w,w′是文本信息中的单个汉语分词项,它们在语料库中的词性标注可以为/n(名词)、/v(动词)、a/(形容词)、/p(介词)、/c(连词)、/f(方位词)、/s(处所词)或/Ng(名语素);

2)x,y,z是文本信息中的单个分词项或是由多个分词项构成的短语、短句;

3)c是w与w′的结构性组合,并且w与w′存在一定的句式结构关系;

简单来说,w,w′就是语料库某句话中两个独立的分词项,它们的词性可以是名词、形容词、动词、介词、连词、方位词、处所词或者名语素中的任意两种(可重复)。当不考虑句子中的其它成分,把这两个词组合在一起时能构成一个短语,并且该短语符合人们的日常语言习惯。

例如,w 为“按”,w′为“处理”,则我们可以得到 c为“按…处理”;w 为“在”,w′为“中”,则 c 为“在…中”;w 为“从”,w′为“到”,则 c 为“从…到”;

2 搭配抽取相关技术

本节对搭配抽取的相关技术进行介绍。首先介绍了实验中用到的3种统计量,然后介绍了搭配抽取的评价指标。

2.1 搭配抽取统计量

目前,基于各种统计量来衡量搭配显著程度的方法已得到了广泛的研究应用,主要的统计量有互信息(MI)、t值、χ2检验、对数似然比等等。以下将对实验中用到的三种统计量进行详细介绍。

1)互信息

互信息 (Mutual Information)是信息论中重要的信息度量,一般用来对两个信号的关联强度进行衡量。在词语搭配抽取中,互信息则用于衡量两个词语的搭配强度,互信息值越大,表明词语搭配的强度越强[8]。对于两个词语w1,w2,它们之间的互信息计算公式如下:

其中 P(w1,w2)表示词语 w1和 w2共同出现的概率,P(w1)表示词语w1在语料库中出现的概率,P(w2)表示词语w2在语料库中出现的概率。

2)t值

在统计学中,t值一般用来处理对数据的检验问题。首先提出一个假设,然后计算数据集中的相应参数,据此来确定能否拒绝该假设[10]。这种思路在搭配自动抽取中也得到了广泛使用,原理如下:

假设两个词语w1和w2相互独立,不构成搭配,则:

H:

假设从语料库中抽取的样本分布呈正态分布,计算统计量t,考察其实际均值x与期望均值μ的差异,得到的t值越大,说明差异越大,越能拒绝原来的假设。则这两个词能组合成搭配的可能性很大。t值计算公式如下:

其中,N为语料库中的总词频数,C12为w1和 w2的共现频数,C1为 w1的频数,C2为 w2的频数。

3)χ2检验

卡平方(χ2)检验是一种有效的假设检验方法,常被用于检验多个正态随机变量是否具有独立性[7]。在词语搭配获取研究过程中,卡平方(χ2)检验的应用思路是:先假设待确认搭配中的两个分词项分布独立,然后计算这两个分词项的实际观测值与期望值的差异之和。其中,实际观测值是指这两个分词在语料中实际单独出现的概率以及它们的共现概率,期望值是指当满足假设即这两个分词分布独立时,它们在语料中出现的概率及共现概率。卡平方检验是利用观测值与期望值之间的差异来判断假设是否成立的[3]。卡平方检验计算公式如下:

其中,f11,f12,f21,f22分别是 w1和 w2在各种情况下的频率,即 f(w,w′),f(┐w,w′),f(w,┐w′),f(┐w,┐w′)。

2.2 评价指标

目前,搭配抽取性能评估方法主要有两种,即内部评估和外部评估。内部评估是指将计算机自动获取到的词语搭配集通过人工校对或是将其与现有搭配词典匹配进行比较,从而得到该搭配集中正确搭配的个数,再获得该词语搭配自动获取算法的准确率、召回率等评价指标;外部评估是指根据词语搭配的不同应用领域,考察抽取到的词语搭配集在该领域某些实际应用系统如信息检索、机器翻译等中的应用效果来评估该搭配抽取算法的性能。本文采用的是内部评估方法,涉及到准确率,召回率,F值三项指标,具体阐述如下:

1)准确率(Accuracy)

准确率指的是抽取的搭配中标准搭配所占搭配总量的比例,其计算公式如下:

其中E(c′)指的是提取出的搭配中标准搭配的数量,E(c)指的是提取出的搭配的总数量。

2)召回率(Recall)

召回率指的是抽取的搭配中标准搭配所占语料库中标准搭配的比例,其计算公式如下:

其中 E(c′)指的是提取的搭配中标准搭配的数量,N(c′)指的是语料库中标准搭配的总数量。

3)F1-Measure

虽然准确率和召回率都体现了该搭配自动获取算法的性能,但是这两个指标之间却是互相制约的。在这里,引入信息论中的F1-Measure概念来寻求搭配自动获取的准确率与召回率之间的平衡点。公式如下:

其中,A为准确率,R为召回率,β为参数,一般情况下,β的取值为1,则F1-measure公式为:

3 搭配提取模型

本文借鉴前人的研究方法,给出了一种基于五元组的搭配提取模型。

定义:定义 G=(w1,f,w2,g,w3)为从语料库中提取出的五元组。其中w1,w2和w3为单个分词项,f和g为分词的间距,取值 0,1或者 2。 从中可以提取出候选搭配 w1w2、w1w3和w2w3。例如,下面这句话中可以提取出的部分五元组如表1所示。

“在/p 这/r一/m 年/q 中/f,/w 中国/ns的/u 改革/vn 开放/vn 和/c现代化/vn 建设/vn 继续/v向前/v迈进/v。/w”

表1 五元组实例Tab.1 Examp le of quintuple

有了五元组的定义,利用由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的1998年 《人民日报》标注语料库(一月份),提取第二节中给出的两类搭配的具体步骤如下:

2)获取五元组。利用语段序列集生成五元组候选集并对其进行初步数据统计。

3)初步筛选。在五元组候选集中,将分词项中汉语个数少于2的五元组剔除。

4)再次筛选。分别抽取符合语义搭配和句式搭配定义的五元组集,用于语义搭配和句式搭配的提取。

5)获取候选搭配集。利用4)中的五元组集合,获取候选搭配集。

6)提取搭配。利用统计量,从候选搭配集中提取搭配。具体流程图如图1所示。

图1 搭配抽取流程Fig.1 Collocation extraction process

4 实验分析

搭配获取实验的第一步是要进行语料库的选取,本文所采用的语料库是由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的1998年《人民日报》标注语料库(一月份),网络下载地址:http://download.csdn.net/detail/xmujay/1259040。该语料库是严格按照人民日报的日期、版序、文章顺序编排的,该语料库实现了对110多万字的中文文章进行分词及词性标注。经统计,本语料库共含有50 178个词,总的词频数为22 708 665,共22 720行。

利用C#编程语言,根据上述搭配提取流程,共获得五元组70 63 130个,其中符合语义搭配定义的五元组1 460 033个,符合句式搭配定义的五元组866 308个。抽取结果如表2和表3所示。

表2 语义搭配抽取结果Tab.2 Results of sem antic collocation extraction

从上面两个表格中可以看出,不管是语义搭配还是句式搭配,效果最好的统计量为互信息统计量,准确率可达80%,召回率达到64%。相对于各统计量,句式搭配结果要优于语义搭配结果。

表3 句式搭配抽取结果Tab.3 Results of syntactic collocation extraction

5 结 论

本文以北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的1998年 《人民日报》标注语料库(一月份)为语料库,给出了基于五元组的词语搭配抽取模型,并针对语义搭配和句式搭配做了实验分析,指出基于互信息统计量的提取结果最好,准确率可达80%。

[1]Y Choueka,T Klein,E Neuwitz.Automatic retrieval of rrequent idiomatic and collocational expressions in Alarge corpus[J].Literary and Linguistic Computing,1983,4(1):34-38.

[2]Kenneth Ward Church,Patrick Hanks.Word association norms,mutual information,and lexicography[J].Computational Linguistics,1990,16(1):22-29.

[3]郎需超.基于R值的汉语搭配抽取[D].北京邮电大学,2012.

[4]林建方.词搭配抽取及在信息检索中的应用研究[D].哈尔滨工业大学,2010.

[5]曲维光,陈小荷,吉根林.基于框架的词语搭配自动抽取方法[J].计算机工程,2004,30(23):22-24.QU Wei-guang,CHEN Xiao-he,JI Gen-lin.Aframe-based approach to chinese collocation automatic extracting[J].Computer Engineering,2014,30(30):22-24.

[6]王璐,张仰森.基于典型句型的词语搭配定量分析及提取算法[J].计算机科学,2012(6):232-234.WANG Lu,ZHANG Yang-sen.Quantitative analysis and extracting arithmetic of collocations basic on typical patterns[J].Computer Engineering,2012(6):232-234.

[7]程月,陈小荷.基于条件随机场的汉语动宾搭配自动识别[J].中文信息学报,2009,23(1):9-15.CHENG Yue,CHEN Xiao-he.CRFs based recognition of Chinese verb-object collocation[J].Chinese Information Technology,2009,23(1):9-15

[8]王素格,杨军玲,张武.自动获取汉语词语搭配[J].中文信息学报,2006,20(6):31-37.WANG Su-ge,YANG Jun-ling,ZHANG Wu.Automatic acquisition of Chinese collocation[J].Chinese Information Technology,2006,20(6):31-37.

[9]王大亮,涂序彦,郑雪峰.多策略融合的搭配抽取方法[J].清华大学学报:自然科学版,2008,48 (4):608-612.WANG Da-liang,TU Xu-yan,ZHENG Xue-feng.Collocation extraction withmultiple hybrid strategies[J].J-Tsinghua Univ:Sci&Tech,2008,48(4):608-612.

[10]王大亮,张德政,涂序彦,等.基于相对条件熵的搭配抽取方法[J].北京邮电大学学报,2007,30(6):40-45.WANG Da-liang,ZHANG De-zheng,TU Xu-yan,et al.Collocation extraction based on relative conditional entropy[J].Beijing University of Possts and Telecommunications,2007,30(6):40-45.

猜你喜欢

互信息分词语料库
分词在英语教学中的妙用
《语料库翻译文体学》评介
结巴分词在词云中的应用
结巴分词在词云中的应用
基于改进互信息和邻接熵的微博新词发现方法
基于COCA语料库的近义词辨析 ——以choose和select为例
基于互信息的贝叶斯网络结构学习
联合互信息水下目标特征选择算法
基于JAVAEE的维吾尔中介语语料库开发与实现
基于增量式互信息的图像快速匹配方法