APP下载

基于正则表达式的藏文虚词“”类识别算法研究

2019-10-14更藏卓玛安见才让

数字通信世界 2019年9期
关键词:歧义藏文虚词

更藏卓玛,安见才让

(青海民族大学计算机学院,西宁 810007)

藏文中共有85个虚词,它比实词少很多,但藏文虚词在藏文中的使用及其广泛,而且它在不同语境中扮演者不同的角色,因此出现了虚词的歧义问题,而因它的歧义性问题识别起来非常复杂,尤其是非依他关联词的识别。但对它的研究对藏文词和句子的处理起着重要性的作用。因此,文章通过藏文虚词添接规则和正则表达式对藏文虚词“”类进行识别研究。

表1 虚词“”类添接表

表1 虚词“”类添接表

藏文文本校对过程中校对藏文虚词的添接是一项很重要的工作,要完成这个工作首先要识别藏文虚词。

检测添接规则,并统计其次数。如图1所示。

图1

其表示匹配字母或数字或下划线或藏文字重复零次或者更多次后((匹配除了换行符以外的字符(匹配前面的位置加,例 如不能检测添接规则,并统计其次数。如图2所示。

图2

图3

检测添接规则,并统计其次数。如图4所示。

图4

2 实验结果

表2 “”等14个词语料中的数量统计

表2 “”等14个词语料中的数量统计

图5

表3 虚词“”类的歧义统计

表3 虚词“”类的歧义统计

数量名称总数 为虚词总数 为虚词百分比“ཞིང”类 9902 3996 40.3%

3 结束语

猜你喜欢

歧义藏文虚词
敦煌本藏文算书九九表再探
现代汉语歧义类型的再讨论
西藏大批珍贵藏文古籍实现“云阅读”
eUCP条款歧义剖析
基于混合策略的藏文虚词识别方法
黑水城和额济纳出土藏文文献简介
语文教学及生活情境中的歧义现象
基于条件随机场的藏文人名识别研究
Note from the Editor-in-Chief
基于关联理论的歧义消除研究