APP下载

藏文文本拼写错误类型分析

2022-04-12三毛措才智杰才让卓玛道吉扎西华旦扎西

关键词:语法错误藏文音节

三毛措,才智杰,才让卓玛,道吉扎西,华旦扎西

(1.青海师范大学 计算机学院,青海 西宁 810016;2.藏文信息处理教育部重点实验室,青海 西宁 810008;3.青海省藏文信息处理与机器翻译重点实验室,青海 西宁 810008;4.西南民族大学 计算机科学与技术学院, 四川 成都 610041;5.青海省海南州第五民族高级中学,青海 同德 813200;6.藏语智能信息处理及应用国家重点实验室,青海 西宁 810008)

0 引言

随着藏文文本信息量的急剧增长,藏文文本拼写检查需求越来越高,成为藏文信息处理领域重要的研究课题之一.本文通过分析藏文文本,总结归纳其拼写错误的规律和共性,为深入研究拼写检查方法奠定基础.拼写错误类型分析的越细越透彻,其拼写检查策略设计越有效,因此藏文文本拼写错误类型分析是藏文文本拼写检查首要解决的问题.近年来专家学者围绕藏文文本拼写检查展开了研究,特别在藏文字错误类型分析和拼写检查方面做了深入的研究.藏文词拼写检查也是藏文文本拼写检查的主要部分,到目前还没有全面、系统分析藏文词拼写错误类型的相关文献,进而影响了藏文文本拼写检查技术的发展.本文通过分析藏文书面语料中存在的各种拼写错误,总结归纳了藏文文本拼写错误类型,为藏文文本拼写检查工作提供了方法支撑.

1 研究现状

1967年,英国语言学家Corder[1-3]首次提出了错误分析的概念,对收集的文本语料系统地分析了存在的错误,并研究了其性质和类型,开创了文本错误类型分析的纪元.由于文本错误类型的多变性以及句法和语法的差异性,文本自动拼写检查并没有取得好的效果,自动拼写检查是一项具有挑战性的课题.为了提升拼写检查性能,计算语言学协会(ACL)组建了一个自然语言学习特别兴趣小组(CoNLL),为参与团队提供了一个论坛,专门用来探讨拼写检查评测集方法.CoNLL-2014[4]的目标仍然是自动检测在非英语母语者撰写的简短英语文本中存在的所有语法错误类型,并返回更正的文本.在英文拼写检查共享任务的启发下,国内也相继问世了很多有关错误分析的研究,该领域也受到了专家学者们的广泛关注.国际自然语言处理与中文计算会议(NLPCC)增设了中文语法错误修正任务,其目标是检测并修正由非中文母语者书写的中文句子中的语法错误[5],在NLPCC2018测试会上阿里巴巴团队、北京大学团队等6支队伍达到了较好的效果.2018年谭咏梅等[6]对ESL学习者常犯的名词单复数错误、动词形式错误、主谓不一致错误、冠词错误及介词错误五种类型进行分析,并提出了一种基于LSTM和N-gram的语法错误纠正方法.2020年,梁茂成等[7]对英语学习者的拼写错误进行了分类和分析,并对部分类型设计了自动拼写检查系统.

从21世纪初,我国学者们开始了藏文拼写错误分析,成果相对集中在字拼写检查类型分析方面.2009年,多杰卓玛[8]阐述了藏文文本中字拼写错误类型的多样性,并利用n元模型解决了藏文音节字查错问题.2011年,关白[9]列出了藏文字中的错误类型,并设计了与其相应的藏文音节字的校对方法.2013年,珠杰等[10]根据定义的五种藏文文本错误类型探讨了藏文音节拼写检查、梵文转写藏文错误检查、连续关系检查及藏文词语错误检查,设计了相应的藏文文本校对系统.2017年,刘汇丹等[11]按照预定的规则对藏文网页上含九千多万音节的语料统计了不同字拼写错误类型比例,并分析了导致拼写错误的原因.藏文文本中存在的拼写错误形式多样,影响了藏文文本拼写检查技术发展.

为了全面系统总结归纳藏文文本拼写错误的规律和共性,本文通过分析藏文文本的特征,总结归纳了藏文文本拼写错误类型,包括非真字(字级)和真字(词级、语法级和语义级)拼写错误类型.

2 藏文文本拼写错误类型

近年来随着藏文信息处理技术的发展,语料规模不断扩大,文本中的错误也在不断增多,从而对藏文文本自动拼写检查技术的需求越来越大.文本中的错误类型种类繁多,针对文本中的不同错误类型设计其检查方法,是拼写检查最可行、最基本的解决策略之一.

藏文由字母组成音节,音节组成词,词组成短语,短语构成句子,因而存在字、词、语法和语义层面的拼写错误.本文通过分析藏文文法,对藏文文本中存在的错误类型进行了全方位的分析,归纳出了藏文文本中存在的错误类型.藏文文本拼写错误类型见表1.

表1 藏文文本拼写错误类型及示例

由于标点符号错误所占的比例较小,本文不将对此进行重点说明.非真字错误和真字错误是目前藏文拼写错误分析领域最主要的两个部分,本文主要总结归纳了真字和非真字拼写错误类型,并对其做了详细说明.

2.1 非真字错误类型

藏文字是一种具有横向和纵向拼写性的拼音文字,是由前加字、上加字、基字、下加字、元音、后加字、再后加字等构件组成,构件的结构位都很明确.非真字拼写错误也称为字级的拼写错误,是指该藏文字不符合藏文文法的构字规则,它只考虑该字本身,与上下文信息无关.藏文中存在非真字错误的概率较大,在整个藏文拼写错误中也占有较大的比例.藏文的前加字、上加字、下加字、后加字和再后加字不但有明确的规定,而且前加字、上加字、下加字与基字之间有严格的搭配要求,再后加字的添加受后加字的制约,在书写藏文字时容易出现搭配错误,从而造成非真字拼写错误.根据搭配错误,非真字拼写错误可以分为前加字添加错误、上加字添加错误、下加字添加错误、后加字添加错误、再后加字添加错误、构件冗余错误及音节缩略错误.

2.2 真字错误类型

2.2.1 构词错误

2.2.2 语法错误

2.2.3 语义错误

藏文的文法系统很丰富,由于对藏文文法或者对词语的含义理解不清造成逻辑性的错误称为语义错误,可以分为语义搭配错误、缩略错误、谓语冗余错误和直译错误四种子类.

2.2.4 连带错误

3 结论

使用任何一种语言的过程中都会出现拼写错误的现象,由于藏文字母组成音节,音节组成词,词组成短语,短语构成句子,因而存在字、词、语法和语义层面的拼写错误.我们通过分析藏文文法,对藏文文本中存在的错误类型进行了全方位的分析,总结归纳了藏文文本中存在的错误类型.本文将藏文文本拼写错误类型分为非真字错误、真字错误和标点符号错误三种一级错误类型.非真字错误进一步分为前加字添加错误、上加字添加错误、下加字添加错误、后加字添加错误、再后加字添加错误、构件冗余错误及音节缩略错误等二级错误类型.真字拼写错误类型分为构词错误、语法错误、语义错误及连带错误等二级错误类型,标点符号错误类型分为标点符号缺失和冗余两种二级错误类型,本研究成果对下游任务藏文拼写检查技术奠定了基础.在此基础上,我们将针对不同的错误类型研究其拼写检查方法,以提升藏文文本自动拼写检查性能.

猜你喜欢

语法错误藏文音节
共处与辩诤:一部15世纪藏文传记所描述的佛教徒与非佛教徒“他者”的对话①
r(re)音节单词的拼读规则
西藏大批珍贵藏文古籍实现“云阅读”
信息技术藏文编码字符集扩充集A
拼拼 读读 写写
中职学校藏文教学之我见
看音节说句子
汉语负迁移对英语写作的影响及启示
高中英语写作中的语法错误分析