APP下载

藏文信息处理中的自动分词技术所面临的基本问题

2016-05-14才项措达哇彭措

中文信息 2016年7期

才项措 达哇彭措

摘 要: 分词就是将连续的文字序列按照特定的规范重新组合成词语序列的过程,在藏文信息处理领域分词是不可或缺的基础性工作,也成为智能化藏文信息处理的关键所在。汉语信息处理中自动分词的基本问题同样存在于藏文信息处理之中,诸如分词规范、歧义切分和未登录词识别三个方面,此外,藏文信息处理的自动分词中还存在对紧缩词识别的问题。

关键词:藏文自动分词 分词规范 歧义切分 未登录词 紧缩词

中图分类号:TP391 文献标识码:A 文章编号:1003-9082(2016)07-0008-01

笔者在从事藏文信息处理技术的工作和研究中,对藏文自动分词技术中存在的基本问题形成了若干认识,目前暂从分词规范、歧义切分、未登录词识别和紧缩词的识别四个部分试作分析。由于这一工作的长期性和复杂性,我们的专业水平也存在一定的局限,诚挚的希望得到相关领域不同专业学者的指导与批评。

一、分词规范

藏文的分词规范,就是根据藏文词汇的语法功能,遵循藏文自身的特点及构词规律,将藏文的词类进行有效划分的算法及规范方案。对于藏文词类的划分有关学者已经提出了藏文分词的算法及规范方案,比较全面的有:扎西加、珠杰等在面向信息处理的藏文分词规范研究中,将藏文词类划分为26个基本类和9个特殊类,在26个基本类当中继续细分为不同的子类,基本类包括名词、处所方位词、时间词、数词、量词、代词、自动词、他动词、助动词、存在动词、断词、动名词、行动词、形容词、状态词、简别词、区别词、副词、时态助词、语气助词、原因助词、目的助词、终结助词、介词、连词、叹词、拟声词,特殊类包括成语、习惯语、简略语、前接成分、中接成分、后接成分、首饰符号、标点符号、非藏文符号;[1]扎洛在语言信息处理的现代藏语词性分类方法研究中将藏文词性分为名词、动词、形容词、数词、量词、副词、代词、状态词、叹词、拟声词、时间词、方位词、处所词、助词、连词、祈使词、终结词、前缀、中缀、后缀、简缩词、习用词、成语、标号点号、垂符、首符、特殊符号等二十七个大类;[2]祁坤钰在词类划分与标注集的研究中将藏文词类划分为名词、动词、形容词、副词、代词、介词、助词、数词、量词、终结词、连词、时间词、拟声词、感叹词、成语词、习惯词、缩略词、方位词、语素、非语素、标点符等21个大类。

对于未登录词的识别陈玉忠、李保利、俞士汶等撰写的论文藏文自动分词系统的设计与实现中采取标记但不切分的谨慎策略;才智杰和才让卓玛撰写的论文藏文自动分词系统的设计中基于词典分词时,由于查询词不在词典库中,从而文本分词后会形成若干个连续的单字,形成了碎片,它或者是单字词,或者是未登录词的一部分。

四、紧缩词的识别

古藏文中所有的字与字之间都用字分隔符分开,随着藏文字的发展,人们为了方便将有些字与它前面字之间的分隔符省略,从而形成了紧缩词。紧缩词在藏文文本中出现的频率非常高,这类词的识别是藏文文本分词的重点和难点。在才智杰撰写的论文藏文自动分词系统中紧缩词的识别中,通过研究藏文自动分词中的紧缩词,首次提出了一种识别方案,即还原法,并给出了还原算法。其基本思想是:利用藏文紧缩词的添接规则还原藏文原文,以达到进行分词的目的。对紧缩词可以用“去除/添加”法将其还原成藏文原形,即还原法。

五、结语

藏语信息处理目前正处于向上发展的关键阶段,要解决人与计算机接口、系统问答等一系列重要问题,首先要从能够独立表义的最小单位即词汇研究开始。藏文分词的关键是如何结合藏语字、词、句各类形式特征来确定藏文分词。藏文自动分词是藏语信息处理中的基础性课题,本文只是简略地介绍了在藏文自动分词中的几个基本问题,其解决方法等还有待完善。

参考文献

[1]扎西加,珠杰.面向信息处理的藏文分词规范研究[J].中文信息学报,2009,23(4)

[2]扎洛.语言信息处理的现代藏语词性分类方法研究[J].青海师范大学学报(自然科学版),2006,1

[3]完么扎西,尼玛扎西.藏语自动分词中的几个关键问题的研究[J].中文信息学报,2014,28(4)