APP下载

双向型高搭配力度ngram链在语料库建设中的应用

2009-04-07

湖北工业职业技术学院学报 2009年1期
关键词:右向数组双向

苗 永

[摘 要]对搭配的研究是语言研究的焦点之一,搭配研究不仅包括两个词之间的搭配,还包括各种扩展的搭配,最常见的对搭配的扩展是搭配在频数上的扩展,通常称为词串(lexical bundles)。本文研究的是搭配的另外一种维度的扩展——按照搭配力度的双向扩展,称为双向型高搭配力度ngram链,即把搭配力度最强的多词序列提取出来,然后进行分析。分析发现:双向型高搭配力度ngram链中大部分序列与文本内容相关度比较高,并且结构相对完整,可以作为候选的关键词组。

[关键词]中国英语语料库;关键词组,;双向型高搭配力度ngram链

[中图分类号]H31 [文献标识码]A [文章编号]1008-4738(2009)01-0080-04

[收稿日期]2008-12-26

[基金项目]国家社科基金项目“ 基于语料库的英语本土化研究及应用 ”(07BYY022)

[作者简介]苗 永(1977-),男,河南师范大学外国语学院2006级外国语言学及应用专业硕士研究生,研究主向:语料库语言学、计算机语言学。

一、基本理论

ngram是由n 个连续单词组成的序列。在这里,文本被看成由元组(tuple ,例如ngram就是由单词组成的元组)组成的线性序列[1]。一个、两个、三个词组成的元组分别叫uni-gram、bi-gram、tri-gram 等等,而各个元组有相应的频率和概率。在候选关键词组鉴别阶段,我们对通常采用的词语分类信息(如名词、动词、形容词等)不予考虑,只考虑其频率和概率分布特征。这是因为,人们在单词分类时经常会遇到困难:一个词词性具有非常大的不确定性。李文中博士在2008年语料库语言学学术讲座中曾经提出:按照现在的词汇分类方法,一个词可能是名词,也可能是动词,还可能是形容词,偶尔还是副词,那么它到底是什么词呢?可能它什么也不是——现在的词性分类方法可能存在问题,从而导致词性分类极大程度上的不确定性。为了在第一个阶段暂时规避这个问题,我们这里暂时不考虑词性、词义。

双向型高搭配力度ngram 链以搭配力度为基础。根据卫乃兴的定义,搭配是指几个词在文本中反复共现(广义的界定)[2]。一个词与节点词共现频度的异常程度就是搭配力度[3]。在本项研究中,搭配力度用t值来衡量。一般情况下(不考虑自由度时),t值大于2说明搭配力度相当强。一些研究者认为,只靠t值来衡量搭配力度不太合适,因为一些不常用的词作为节点词的时候,其搭配词相对于节点词的搭配力度(用t值衡量时)明显偏大[4]。在可行性研究中发现,这种情况出现的概率很小,因此这里只是用t 值衡量搭配力度,t值大于2即认为搭配力度相当强,从而可以使ngram作相应链式延伸(生长)。其他研究者可以根据自己的需要,采用其他衡量标准如z值、mi值等等。

在研究搭配的时候,大部分研究者选择了对称跨距(如-5/+5,选择节点前五个词和节点后五个词作为语境)。这时会产生“双重进入”(double entering)。John Sinclair给出了一个例子:如果两个词频度相异,并且他们之间的搭配力度较强的时候,取不同的词作为节点词(另外一个作为搭配词),那么计算得出的搭配力度是不同的。如果词A的频度是词B频度的两倍,那么它们每次共现时,这次共现对B来说体现了更强的搭配力度,所以,以A为节点,B为搭配词体现出的搭配力度要小于以B为节点A为搭配词所体现出来的搭配力度[5]。

李文中教授从另外一个角度描述了搭配力度的不对称性。如“vice versa”,vice 后可能会有很多词高频出现,从这个角度讲,vice 对versa 的吸引力(以vice为节点词,versa为搭配词)并不强。而如果选择versa 为节点词,versa前面的搭配词是vice的概率则比较大,因此,选择versa为节点词,vice为搭配词,体现出来的搭配力度则更强。

为了规避“二次进入”和搭配力度的不对称性,我们准备采用非对称跨距。为了使ngram按照搭配力度强者优先的原则向两边延伸(生长),这里选择跨距为-1(向左延伸(生长))或者+1(向右延伸(生长)),即仅取左一或者右一位置作为语境,延伸(生长)条件为t值大于2,计算方法参照了马广惠的相关分析结论[6]。

二、双向型高搭配力度ngram 链的例子

利用中国英语语料库提供的随机抽取功能,我抽取到英文版《三国演义》中第十五回“Taishi Ci Fights With The Little Prince; Sun Ce Cuts Short The White Tiger King.”(根据冯志伟教授2008年在语料库语言学牧野论坛上的提议,为了避免版权争议,文章内的句子已经被随机打乱)。该章节单词频率最高的词是the,下面以the为例子(取the为根节点词)示意双向型高搭配力度ngram链的延伸(生长)。

1.右向优先延伸(生长)的例子

选根节点为 the,搜索其右一位置的搭配词,见表1。

可以观察到,在the的右一位置,与节点词the搭配力度最强的词有city、other、great等,其对应的搭配力度都大于临界值2。 所以the可以向右延伸(生长),形成“the city ”、“the other”、“the great”等新的ngram。下面以the city为例子,取其为节点词,继续观察the city向右生长的潜力(搜索其右一位置的搭配词),见表2。

可以观察到,在the city的右一位置,搭配词与the city的搭配力度都不够大,因此the city停止向右延伸(生长),转而观察the city向左延伸(生长)可能性。以 the city 为节点词,搜索其左一位置的搭配词,见表3。

可以看出,the city向两个方向皆找不到搭配力度较强的搭配词,所以停止了延伸(生长),应该输出of the city作为候选关键词组。

2.左向优先延伸(生长)的例子

根节点为 the,搜索其左一位置的搭配词,见表4。

在the 的左一位置, 与节点词the搭配力度最强词有 of、in、to、on等等,因此the可以向左延伸(生长)为新的ngram: of the 、in the、to the、on the等。下面以of the为例,取 of the 为节点词,继续观察of the向左延伸(生长)的可能性,见表5。

在of the的左一位置,搭配词与of the的搭配力度都不够大,因此停止向左延伸(生长),转而向右。观察右一位置搭配词与节点 of the的搭配力度,见表6。

在of the的右一位置,与of the搭配力度最强的词是city,因此,of the 可以向右延伸(生长),生成新ngram :of the city。取of the city为节点,观察左一位置(左向优先原则)搭配词与节点词of the city的搭配力度,见表7。

可以观察到,在of the city的左一位置,搭配词与of the city的搭配力度不够大,因此停止向左延伸(生长),转而观察右一位置搭配词与节点词 of the city的搭配力度,见表8。

可以看出,of the city 向两个方向皆找不到搭配力度较强的搭配词,所以停止了延伸(生长),应该输出of the city作为候选关键词组。

两次提取候选关键词的结果(一次为the city ,另一次为of the city)说明本文与城市相关(分析可知,这是三国时期之“攻城略地”主题的体现)。

实验发现,如果选t的临界值为2,对较长的文本较有效,而对于长度小于3 000字的文本的效果不太好。弥补办法之一是:如果文本较长,则应该选择较大的t值的临界值,反之,t值的临界值应该小些。

三、算法大致流程

在把这个思路用算法实现之前,还有两个问题:ngram延伸(生长)方向是左向优先还是右向优先?怎样消除冗余(例如,如果我们让bi-gram “a lot”向右延伸(生长),我们可能得到tri-gram “a lot of”,而我们让bi-gram “lot of”向左延伸(生长),我们也能得到tri-gram “a lot of”)

我们发现,如果合理编写算法,左向延伸(生长)和右向的延伸(生长)可以有机合并在一起,左向优先和右向优先不影响最终结果。我们选择了左向优先。对于冗余的问题,我们采取了把左向延伸(生长)结果和右向延伸(生长)结果放在同一个字符串数组中,然后把字符串数组排序,这样冗余的ngram就会被排到字符串数组的连续位置,然后删除重复元素。

最终确定算法大纲如下:

1.选择合适的单词作为uni-gram(ngram链的根元素,一般选择高频词或者关键词),放入字符串数组root[];定义字符串数组collocate[][],用于存储搭配力度大于临界值的搭配词(各数组的下标都从零开始,collocate[i][j]用于存储root [i]的第一个到第j-1个搭配力度大于临界值的搭配词)。

2.按照上述规则让root[]中每一个元素向左延伸(生长),把延伸(生长)后得到的新的ngram 按照collocate[i][j]+""+root[i]的格式放入数组ngram[](字符串数组root的第i-1个元素所生成的新的ngram个数是j-1)。

3.按照上述规则让root[]中每一个元素向右延伸(生长),把延伸(生长)后得到的新的ngram 按照root[i]+""+collocate[i][j]的格式放入数组ngrmam[]。

4.把ngram[]排序,删除重复元素。

5.N=2(长度为N的ngram将要被处理)。

重复第6步到第11步,直到N=max(max为需要的最长的ngram的长度,以单词数计算)。

6.按照上述规则让ngram[]中每一个元素向左延伸(生长),把延伸(生长)后得到的新的ngram 按照collocate[i][j]+""+ngram[i]的格式放入数组tempNgram[]。

7.按照上述规则让ngram[]中每一个元素向右延伸(生长),把延伸(生长)后得到的新的ngram 按照ngram[i]+“”+collocate[i][j]的格式放入数组tempNgram[]。

8.检查ngram[]中每一个元素延伸(生长)记录,如果ngram[]中的元素没有向任何一个方向延伸(生长),输出该元素作为candidate keyphrase。

9.把tempNgram[]排序,删除重复元素。

10.ngram=tempNgram,即把tempNgram各个元素的值赋予ngram。

11.N自增一(准备处理更长的ngram)。

(注:tempNgram是临时数组,暂时存放中间结果。)

为了实现这个过程的全自动化,相应软件正在开发中。

(注:感谢李文中教授的指导,文章中若有不当之处,系作者自己原因)

[参考文献]

[1]李文中. 语料库与学习者语料库 [M]//杨惠中. 语料库语言学导论. 上海:上海外语教育出版社,2002:69-81.

[2]卫乃兴. 语料库支持的词语搭配研究 [M]//杨惠中.语料库语言学导论. 上海:上海外语教育出版社,2002:82-127.

[3]濮建忠. 学习者动词行为: 类联结、搭配及词块 [M].郑州:河南大学出版社,2003 :191-192.

[4]桂诗春, 杨惠中. 中国学习者英语语料库 [M]. 上海:上海外语教育出版社,2003:11-23.

[5]Sinclair J. Corpus, Concordance, Collocation[M]. Oxford : Oxford University Press , 1991:109-121.

[6]马广惠. 外国语言学及应用语言学统计方法 [M]. 西安:西北农林科技大学出版社,2003:3-56.

Utilization of Bi-directional Ngram Chains of High Collocatabiliy in Corpus Building

MIAO Yong

(Faculty of International studies, Henan Normal University, Xinxiang 453007, China)

Abstract: The study on collocation is one of the focuses of language studies, which is not limited to collocation between two words; it encompasses extended studies of collocation, such as extension of collocation based on raw frequency, which is often called lexical bundles. In this thesis, collocation is extended on both directions (to the left and to the right) based on another criteria collocation. After analyzing the structures resulted, it is concluded that bi-directional ngram chains of high collocatabiliy are with relatively well-formed and highly content sensitive, which are qualified to be potential candidate key phrases.

Key words: Chinese English Corpus; key words and expressions; bidirectional ngram chains of high collocatabiliy

猜你喜欢

右向数组双向
cTCD、cTTE、cTEE对卵圆孔未闭右向左分流的诊断价值
双向度的成长与自我实现
给牙龈按摩防萎缩
JAVA稀疏矩阵算法
JAVA玩转数学之二维数组排序
Effect of Mineral and Vitamin Supplementation on Performance and Haemotological Values in Broilers
Excel数组公式在林业多条件求和中的应用
一种软开关的交错并联Buck/Boost双向DC/DC变换器
寻找勾股数组的历程
一种工作频率可变的双向DC-DC变换器