APP下载

基于条件随机场的维吾尔文组块分析

2016-05-04艾山吾买尔吐尔根依布拉音卡哈尔江阿比的热西提早克热卡德尔买合木提买买提亚森艾则孜

中文信息学报 2016年3期
关键词:维语组块语料库

艾山·吾买尔,吐尔根·依布拉音,卡哈尔江·阿比的热西提,早克热·卡德尔,买合木提·买买提,亚森·艾则孜

(新疆大学 信息科学与工程学院,新疆 乌鲁木齐,830046)

基于条件随机场的维吾尔文组块分析

艾山·吾买尔,吐尔根·依布拉音,卡哈尔江·阿比的热西提,早克热·卡德尔,买合木提·买买提,亚森·艾则孜

(新疆大学 信息科学与工程学院,新疆 乌鲁木齐,830046)

该文对维吾尔语树库标注体系进行分析,根据组块划分原则,在短语标记集的基础上制定了维吾尔语组块标记集,从已完成标注的3 000句语料库构建组块库。根据维文语言的特点,在英汉组块识别特征基础上,增加了词干、词缀、同义词标记等特征。该文中的性能评价指标采用了国际通用的准确率,召回率和F值,3 000个标注句子作为训练和测试语料库用,实验采用了交叉验证法,训练和测试语料库的比例分别为9∶1,8∶2,2∶1,召回率分别为80.34%,76.87%,66.76%。实验表明,语料库规模对模型性能影响较大。

条件随机场;维吾尔;组块分析

1 引言

组块是一种位于词语和句子中间的句法结构,也称作浅层句法分析(shallow parsing)或部分句法分析(partial parsing),致力于识别句子中的某些结构相对简单、功能和意义相对重要的成分,而不以完整的句法分析树作为目标,从而简化分析的复杂度,提升分析的性能。Abney在1991年率先提出了组块分析的思想[1]。国外的学者们采用基于转换的错误驱动学习方法、基于规则的分析方法等对组块分析进行了研究。2000年,国际自然语言学习会议(Computational Language Learning,CoNLL)在Abney描述的组块定义框架的基础上,重新分解和细化了组块的定义,并提出了英文的组块分析共享任务[2]。在这个定义下,很多学者尝试了使用基于支持向量机、基于手写规则、基于半指导学习等方法解决组块分析问题[3-4]。

近几年来,中文组块分析研究逐步得到人们的重视。周强在1996年对中文的语块和基本短语进行了研究[5]。1999年,赵军和黄昌宁对汉语基本名词短语的定义和自动识别进行了研究[6]。中国科学院计算技术研究所的李素建提出了12种汉语组块类型,根据这些组块类型和宾州大学中文树库短语类型的对应关系进行转化得到组块库[7]。周强进行了大规模中文语料库的组块标注研究[5],建立了一个完整的组块划分体系,构建了200万汉字的组块平衡语料库[8],张玉洁等也对中文组块分析进行了研究[9]。文献[10]提出了一体化的分析模型,文献[11]提出了一种基于分治策略的组块分析方法。

因(维语)自然语言处理技术的研究起步较晚,词法分析技术没达到可用水平等原因,维语句法分析技术的研究基本处于初级阶段。本文中对维语组块分析进行研究,采用条件随机场建立了组块分析算法。

2 组块定义和语料库的构建

2.1 组块定义和划分原则

根据Abney的定义,本文中为维语组块确定如下定义。

定义1 组块是一种较词复杂而较句子简单,处于词和短语之间,具有一定句法功能的非递归、不重叠、不嵌套的短语。

对上面的定义进行详细的解读: 组块由词序列组成,其被标记了句法功能标记,并且是非递归、非嵌套的。组块内部一般包含一个中心成分以及中心成分的前置修饰成分,而不包含后置附属结构。组块处于词和短语之间,最简单的组块就是一个词,而最长的组块就是非嵌套的短语。组块严格按照句法形式定义,而不体现语义性或者功能性。组块分析的目的是识别句子中某些结构相对简单、但有重要意义的成分,在词法分析和完全句法分析中间架起一座桥梁,从而简化句法分析并且提高句法分析的性能。

2.2 维吾尔语组块标记集的制定

研究和制定树库标注标记集和规范之前,对英语树库和TCT树库的构建过程进行深入的研究,并与维语句法结构进行了对比研究。根据研究与分析后,按照以下步骤展开了标注标记集的制定工作。

步骤1 根据语法书初步制定一套现代维语短语标记集;

步骤2 从语料库选择句子结构差异较大的100个句子;

步骤3 对100个句子进行人工标注,登记使用现有标记集不能准确地标记的现象;

步骤4 若有现有标记集不能准确地标记的现象,则对标记集进行分析与修正;

步骤5 若标记集没有任何问题,则检查人工标注的句子是否达到了500句,若没有,则转到步骤2,若达到了,则转到步骤6;

步骤6 结束标注阶段。

按照以上步骤,反复地进行标记集的制定、修正,并最终确定了37个维语短语结构标记集和八个功能语块标记集。本文中,根据组块分析的特点从37个短语标记集定义了18个组块标记类型(表1)。

表1 维吾尔语组块类型和标记

2.3 维吾尔语组块语料库的构建

目前,被标注完成的维语树库有3 000句,本文中从该树库语料库抽取构建维语组块库。从维语标注树库中提取产生式右边同时包含非终结符和终结符的产生式集合以及产生式右边只包含终结符的产生式集合。对同时包含非终结符和终结符的产生式集合进行人工校对,然后与产生式右边只包含终结符的产生式集合合并,根据该集合把原始句子转换成组块标注的句子(表2)。目前构建的维语组块库有31 184个组块。例如,从标注句子提取组块的过程如下:

拉丁文: [FS[SS[NP[NP Uning Öyidiki][NP Aq köngüllük]] [VP [UP q⊇rindashliqni [UP[CP b⊇sip chüshken] Idi]]]].]

表2 从以上例组抽取过程

表3所示的组块是维语树库中的高频组块,占所有组块的90.40%。

表3 主要的十种组块统计

3 基于统计学习模型的组块分析算法

3.1 组块分析的问题描述

组块分析可以看作一个机器学习过程。它的任务是: 在给定组块定义和类别下,对输入句子自动进行块划分和对划分的块类型进行标记。其可以被形式化地描述如下:

给定样本集合W=w1,w2,…,wn和类别集合C=c1,c2,…,cn,寻找一个从样本集W到类别集C的关系模型(映射规则)f: W×C →Boolean,然后利用这种学习得到的关系模型对新的输入样本进行类别判断。具体而言,给定由词序列W=w1,w2,…,wk组成的句子,句子可以被划分成若干个组块,每个词wi被标记了组块标记ti,T=t1,t2,…,tn代表组块标记序列。组块分析的结果如式(1)和式(2)所示。

W=…[wi,wi+1,…,wi+m]wi+m+1,…,wi+m+n…

(1)

T=…[ti,ti+1,…,ti+m]ti+m+1,…,ti+m+n…

(2)

组块分析的映射规则是系统根据机器学习的每类样本特征信息,自动学习出的分类规律和判别准则。在分析中,这种映射是一对一的单标号分类映射。

3.2 组块分析方法研究与分析

组块分析问题可以被转化为序列化标注的问题。而序列标注可用的方法或模型有基于转换错误的方法、隐马尔科夫模型、最大熵模型、支持向量机、条件随机场模型等。在以上的方法或模型中,性能最优的是条件随机场模型,因此,本文采用条件随机场建立维语组块分析模型。

3.3 特征空间的构建

判别式统计模型的关键是找出对消除歧义有贡献的各类特征,并使用这些特征组合出不同的特征模板,通过实验验证特征模板的有效性,并选择出最佳特征模板。本文中参考英文、中文等语种基于条件随机场的组块分析算法所用的特征,在此基础上构建维语组块分析的特征空间。

对于词类序列W=w1,w2,…,wk,英文、中文的组块分析中选取宽度为5的窗口,抽取当前词wi和前后各两个词的特征,提取的特征有词形、词性、词缀、组块标记等,在中文的组块分析模型中加入了前缀和后缀的特征。本文中,保留以上的特征基础上,根据维语词的特点,还加入词干、词缀、词性一级标记、词性二级标记、同义词标记等构建特征空间(表4)。

表4 特征空间

3.4 同义词标记库的构建

以上特征空间中的SY(synonym)代表同义词标记,以下详细解释该标记相关内容。因为,目前构建的维语树库规模较少,使用统计模型容易发生数据稀疏问题造成的参数估计不准确。如果能够把词义完全相同的单词使用某种标记或编号表达出来,那么在一定的程度上可以缓解语料库规模所带来的分析性能的下降。因此,从现有的维语同义词词典构建了一个维语同义词标记词典。该词典原有9 902个词条,其中1 778个词是复合词,为了保证同义词标记的准确率,本文中从其余的8 104个同义词选出词义严格相同的4 623个同义词,并构建了具有词性标注的同义词库,对所有的同义词进行根据词义和词性的分类,并给每一个分类分配了一个标记,最终构建了有971个同义词标记的词典,该同义词标记词典结构如表5所示。

表5 同义词标记词表

3.5 组块分析系统结构

条件随机场模型是有指导的机器学习模型,先需要使用一定规模的标注语料库进行模型参数的估计,然后可以使用训练好的模型进行解码,即对未标注语料进行标注。模型的训练使用L-BFGS算法,采用BeamSearch 算法进行搜索,搜索宽度为5,CRF模型使用CRFComLib训练和测试。

4 实验与分析

本文中把3 000个被标注的句子作为训练和测试语料库,由于语料库的规模较少,采用交叉验证法进行实验(图1)。本文的组块分析算法的性能评价指标采用了国际通用的准确率(P,Precision),召回率(R,Recall)和F值。

图1基于条件随机场的维吾尔文组块分析系统结构

4.1 特征选择

特征模板的选取和特征选择是判别学习模型训练和应用中的关键一步。特征是从训练样本中抽取而来的,直接反映了组块文本中的各种知识和实例。选取的特征规模和特征描述能力直接影响着分析系统的性能。对于不同的语言处理任务,选取的特征也会不相同。一般的特征选取办法分为两种:

1) 根据语言学家的语言学知识和文本的统计信息总结出来的经验,基于文本中的文字和标记,定义形式化的特征模板,并利用特征模板从文本中抽取特征,或者称为特征模板的实例化。

2) 根据语言学家对于语言学知识的总结,例如语言规则,语法规则,词典和资源库等外部信息,给予文本额外的信息和标记。

由于特征的任务相关性,有针对性的、任务驱动的特征模板和特征定义往往可以给予分析系统很大的帮助,而无效的特征反而会降低系统的性能。

本节中,根据文献[10]中的实验结果,分别采用词形、词干、词缀、词性、同义词标记等构建原子特征空间,在此基础上组合不同的特征模板进行实验,如表6所示。

表6 特征模板

续表

为了测试词形、词性、词缀、词干等特征信息的贡献,在文献[10]进行的总结的基础上,构建表6所示的特征模板。模板A是词形模板,模板B是增加词干信息,可以观察词性对模型性能的影响。模板C在模板B的基础上只增加了词缀特征。模板D中引入了一级词性标记,模板E中同时使用了一级和二级词性标记,模板F中引入了同义词标记。为了观察一级标记和二级标记对模型性能的影响,模板G中只使用了二级标记。为了选取最佳模板,利用所有的数据对表6包含的模板进行实验,如表7所示。

表7 封闭测试结果

4.1 交叉验证测试

由于语料库规模较少,实验中采用交叉验证法。为了观察模型使用不同规模的语料库训练时表现出的性能,进行三次实验,实验结果如表8所示。

实验A 把语料库分成十个没有交叉数据的子集,每一个子集的规模为300句,进行十次实验,最终求十次实验的平均值。

实验B 把语料库分成五个没有交叉数据的子集,每一个子集的规模为600句,进行五次实验,最终求五次实验的平均值。

实验C 把语料库分成三个没有交叉数据的子集,每一个子集的规模为1000句,进行三次实验,最终求三次实验的平均值。

表8 开放测试结果

从实验结果可知,语料库的规模对模型的影响力较大,主要的原因是使用模型训练的语料库规模还不能足以让模型达到饱和状态,即语料库规模的扩大不能提高模型性能的状态。因此,语料库的规模导致模型参数的估计出现更多的局部性或片面性。

[1] Abney S P. Parsing by Chunks[J]. Computation and psycholinguistics,1991: 257-278.

[2] T K Sang,S Buchholz.Introduction to the Conll-2000 Shared Task: Chunking[C]//Proceeding of CoNLL-2000,Lisbon,Portugal,2000: 127-132.

[3] A Kinyon. A Language-Independent Shallow-Parser Compiler[C]//Proceedings of 39th ACL Conference,Tourouse,France,2001: 322-329.

[4] J Hammerton,M Osborne,S Armstrong. Introduction to Special Issue on Machine Learning Approaches to Shallow Parsing[J]. Journal of Machine Learning Research.2002,2: 551-558.

[5] 周强.汉语语料库的短语自动划分和标注研究[D].北京大学博士学位论文.1996.

[6] 赵军,黄昌宁.汉语基本名词短语结构分析模型[J].计算机学报,1999,22(2): 141-146.

[7] 李素建,刘群,杨志峰.基于最大熵模型的组块分析[J].计算机学报. 2003,25(12): 1722-1727.

[8] 张昱琪,周强.汉语基本短语自动识别[J].中文信息学报.2002,16(6): 1-8.

[9] W Chen,Y Zhang,H Isahara. An Empirical Study of Chinese Chunking[C]//Proceedings of the 44th Annual Meeting of ACL,Sydney,Australia,2006: 97-104.

[10] 孙广路.基于统计学习的中文组块分析技术研究[D]哈尔滨工业大学博士学位论文.2008.

[11] 周俏丽,刘新,郎文静,等.基于分治策略的组块分析[J].中文信息学报.2012,26(5): 120-128.

Conditional Random Fields Based Uyghur ChunkingAishan Wumaier,Tuergen Yibulayin,Kahaerjiang Abiderexiti,

Zaokere Kadeer,Maihemuti Maimaiti,Yashen Aizezi

(College of Information Science & Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China)

This paper proposes a Uyghur Chunk parsing scheme,and extracts chunks from 3000 annotated sentences. According to the characteristics of Uyghur language,additional features on the stem,affixes,synonyms etc are augmented. 3000 marked sentences are constructed,and the cross-validation experiments at the training/testing ration of 9∶1,8∶2,2∶1 result in the recall rates of 80.34%,76.87% and 66.76%,respectively.

conditional random fields;uyghur;chunk parsing

艾山·吾买尔(1981—),副教授,博士,硕士生导师,主要研究领域为自然语言处理。E⁃mail:turgun@xju.edu.cn吐尔根·伊布拉音(1958—),教授,博士生导师,主要研究领域为自然语言处理,软件工程。E⁃mail:turgun@xju.edu.cn卡哈尔江·阿比的热西提(1984—),硕士,讲师,主要研究领域为自然语言处理,信息抽取。E⁃mail:kaharjan@xju.deu.cn

2014-01-08 定稿日期: 2014-05-10

新疆大学博士启动基金,国家自然科学基金(61063043,61262060,60963018,61063026);国家社科基金重点项目(10AYY006);新疆大学校院联合项目(XY110023);新疆多语种信息技术重点实验室开放课题(049807);国家社会科学基金科研项目(13CFX055)

1003-0077(2016)03-0090-06

TP391

A

猜你喜欢

维语组块语料库
对比语言学视野下的维吾尔语与朝鲜语音义相近词比较初探
浅析维语口语技能的影响因素和提升路径
平行语料库在翻译教学中的应用研究
《语料库翻译文体学》评介
组块理论的解读及启示
融入注意力机制的越南语组块识别方法
汉维语数词语法特征对比
陆丰7-2油田导管架平台上部组块低位浮托安装关键技术
荔湾3-1CEP关键建造技术研究
语篇元功能的语料库支撑范式介入