APP下载

蒙古文停用词和英文停用词比较研究

2011-06-28关高娃

中文信息学报 2011年4期
关键词:蒙古文词表词类

巩 政,关高娃

(内蒙古大学 计算机学院,内蒙古 呼和浩特 010021)

1 前言

随着互联网技术、多媒体技术的迅猛发展,多媒体数据量不断膨胀。在海量的多媒体数据中,文本资料在数据量和包含信息内容上都占有举足轻重的地位。如何快速有效地从如此庞大的数据中检索到想要的数据变得越来越重要。同时对信息中出现频率很高但所包含信息对检索没有多大贡献的停用词(Stop Words)的处理,从很大程度上决定了检索性能的高低。几乎所有涉及到机器学习的文本预处理都包括对停用词表(Stoplist)[1]的处理。

停用词是指为节省存储空间和提高搜索效率,搜索引擎在索引页面或处理搜索请求时会自动忽略的某些字或词[2]。通常意义上,停用词大致分为如下两类: 1)应用广泛,比如“Web”一词几乎在每个网站上均会出现,对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率;2)文档中出现的语气助词、副词、介词、连接词等,这类词通常自身并无明确的意义,只有将其放入一个完整的句子中才有一定作用,如汉语中常见的“的”、“在”,蒙古语中的格的附加成分。蒙古文文档中的停用词集合就称为蒙古文停用词表。

随着互联网的普及和信息化的发展,使用信息检索系统的用户变得越来越多,文档的语言种类及内容也越来越多。很多语种已经有了确定的停用词表。但是迄今为止蒙古文还没有确定的停用词表。所以有必要通过英文停用词和蒙古文停用词进行比较研究,来确定和完善蒙古文停用词表。

2 蒙古文词性简介

蒙古语是个词性较多、语法较复杂的一个语言。蒙古语从词法角度可分为三类。第一类为静词类,它具有静词类的一系列的形态变化。第二类是动词类,它具有动词类的一系列的形态变化。第三类是无变化词类,这类词的绝大部分主要表示某种语法意义[3]。静词类包括名词、形容词、数量词、时位词、代词等。静词类有格、数、领属等范畴的形态变化,表示事物、时间地点、性质特征、数量等意义。动词类分为实义动词和虚义动词。无变化词类是指没有形态变化的词,如: 副词、情态词、模拟词、后置词、语气词、感情词等。

3 基于联合熵及词类特征获取停用词

基于熵计算的选取方式,倾向于选取文本中稳定出现的词,因此容易受到文本行文方式等的影响。用联合熵法选取的停用词倾向于选取在句子中稳定出现且出现较多的词,因此受文本的行文方式影响较少,选取出的停用词更能反映文本的真实情况[4]。

基于联合熵算法选取蒙古文停用词的思想,是用词在句子中出现的频率与包含该词的句子频率的联合熵,分别计算词条在语料中各个句子内发生的概率,以及包含该词条的句子在文本中发生的概率pj,计算它们的熵,并依据它们的联合熵选取停用词[5]:

W(wi)=H(wi)+H(s|wi)

(1)

其中,H(wi)表示词wi在句子中的熵,用公式(2)计算:

(2)

H(s|wi)表示包含词wi的句子j的熵,用公式(3)计算:

式中:fj(wi)为单词w在句子j中出现的频率;n为句子数;fl(s|wi)为包含wi的句子在文本l中出现的频率;m为文本数。

采用联合熵作为停用词选取方法的理论依据是: 当一个词在句子中出现的平均信息量和包含该词的句子的平均信息量较大时,表示该词较为普通。应用该方法可以有效避免语料选取不均衡造成的停用词选取错误。

因此,经过统计算法得到的蒙古文停用词中还存在一些干扰检索结果,降低检索精度的实体名词及同形异义词,这些词也需要从蒙古文停用词表中去除。

本文在进行实验时,选取了按照TREC文档规范进行整理后的27 401个蒙古文文档。这些文档来源于《内蒙古日报》蒙文版,约54MB大小,语料内容大多属于新闻报道类。图1为语料中的一个蒙古文文档。图2为把联合熵(UE)算法应用到蒙古文语料中所获取的排序后的前50个蒙古文停用词。

图1 一个符合TREC规范的蒙古文文档

图2 UE方法获得的部分停用词

4 蒙古文停用词与英文停用词比较

图3 部分英文停用词及对应的蒙古文

图4 部分蒙古文停用词及对应的英文

经过以上的比较分析,我们可以对蒙古文停用词表进行进一步的优化,即把英文停用词中出现的介词和冠词用蒙古文中能够表达同样意义的其他词性的词代替,将它们添加到蒙古文停用词表中,来完善蒙古文停用词。

5 实验结果

本文首先使用UE算法从蒙古文语料中初步获得停用词表,然后从该表中去掉那些与主题关系较大的实体名词和同形异义词,又增加了一些能够表示英文停用词中的介词和冠词词意的词,最终确定了蒙古文停用词表。

为了验证所定蒙古文停用词表在检索中的贡献,本文分别做了以下实验。一是将蒙古文停用词翻译成英文,然后将该停用词表和英文停用词表分别应用到英文文档中做检索,比较检索的结果。二是将英文停用词表翻译成蒙古文,然后将该停用词表和蒙古文停用词表分别应用到蒙古文文档集中做检索,比较检索的结果。图5和图6为英文停用词表和蒙古文停用词表的检索结果对比图。

图5 英文与翻译成英文的蒙古文停用词检索结果比较

图6 蒙古文与翻译成蒙古文的英文停用词检索结果比较

从实验结果可知,使用从英文停用词翻译成的蒙古文停用词对蒙古文文档进行检索,不如使用本文所述蒙古文停用词对蒙古文文档进行检索的效果好(图6所示);同样使用蒙古文停用词翻译成英文对英文文档进行检索,也不如使用原英文停用词对英文文档进行检索的效果好(图5所示)。因此,不能直接将英文停用词翻译成蒙古文作为蒙古文停用词,而是要结合英文和蒙古文的词类特征来确定蒙古文停用词表。

[1] 化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007,8:48-51.

[2] 什么是停用词、静止词[EB/OL][2010-10-25]http://www.semshare.net/什么是停用词、静止词-SEO中的Stop Words/.

[3] 清格尔泰.蒙古语语法[M].呼和浩特: 内蒙古人民出版社,1999.

[4] 蒋斌.基于停用词处理的汉语语音检索方法[D].哈尔滨工业大学硕士论文.2008.

[5] 顾益军,樊孝忠,王建华,等.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340.

[6] GongZheng, Guangaowa. The Selection of Mongolian Stop Words[C]//Proceedings 2010 IEEE International Conference on Intelligent Computing and Intelligent Systems Volume 2.Xiamen,China: IEEE Comput,2010: 71-74.

[7] 白音宝力高.蒙古语同形词词典[M].呼和浩特: 内蒙古人民出版社,2001.

猜你喜欢

蒙古文词表词类
敖汉旗万寿白塔蒙古文碑文新释
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
学术英语词表研究管窥
——三份医学英语词表比较分析
用词类活用法扩充词汇量
部分海外藏蒙古文文献及其目录
从成语中学习词类活用
从唐诗的对偶看汉语的词类和语法
漫谈高考考点对词类及句子成分的隐性考查
国外叙词表的应用与发展趋势探讨*
常用联绵词表