藏文文本中格助词的识别研究
2014-09-19当增卓玛
当增卓玛
(青海民族大学藏文信息处理软件研究所 青海 810007)
0 引言
古印度学家研究梵文时将静词分为七种变格形式,分别叫做第一格、第二格等,从而 “格”这个语法词也就在语言学中传承了下来。20世纪60年代末,乔姆斯基推迟了TG理论的标准模式,针对这一模式所存在的缺陷,美国语言学家乔姆斯基的学生费尔默提出了“格”语法的理论,这一理论从句法语义关系方面对TG的标准理论进行了修改,提出了一系列的概念及分析问题的新视角。对格语法的研究世界各国依据各自语言对各项分析与概念推理也不一致,没有统一的标准。国内从吐弥开始的藏语文法,己经建立起了一套完整的传统语法体系。但另一方面,随着语言学的不断发展,需要用新的语言学理论和方法重新宏观研究藏语语法,建立符合现代藏语语法的新体系,但是到目前为止,自动识别藏文八格的算法和软件都没有。本文为了给藏文文法研究者和学习者提供识别藏文八格,并正确消除藏文语境歧义,还可推动藏文信息处理和藏文文法中句法分析、机器翻译和语义分析等的进一步发展。
1 藏文格助词的概念及其分类
“格”(case)这个术语是由布莱克(Blake 1930)首先提出来的,“格”是语法范畴之一,它是指某些曲折语法中用于词间语法关系中的语法形式表达式表示名词和代词的形态变化,这种格有显性的形态标记即表层结构。
格语法(C ase Grammar)规则是美国语言学家菲尔墨(C.J.Filltnore)在 l968 年发表的《“格”辩》(The Case For Case)中首先提出来的。
(2)格助词的概念
格是名词的语法范涛之一。它通过一定的语法形式表示名词、代词在句子中跟其他词语发生的种种结构关系
(3)格助词的分类
藏语书面语的“格”若从语法意义上来分远不止八个,若从语法形式上可以分成八格即“本体词等 。 而 其 中 第 一 体 格是以名词为主体的原形词。第八格是对别人打招呼时对待不同人的一种称呼与指人的名词一起使用的词。因此在本文中不做详细研究的对象。位助词又包括业格、为格、于格,即总体可以分为四大类。(如图1所示:)
图1 藏文格助词的分类
(4)格助词的标记符号
本文中书写形式时使用青海民族大学藏语语料基本加工规范中的缩写形式。其中d表示副词;n表示名词;v表示动词;f表示方位词;vae表示助动词;cp表示为格即
2 藏文文本中格助词的知识库及识别算法
知识库是知识工程中的结构化,俱全面组织的知识集群。建立知识库,必须要对原有的信息和理论知识做一次大规模的的收集和整理,按照一定的方式进行分类存储,并提供相应的检索手段。经过这样处理后,信息、知识便从原来的无需变成了有序,并为有效的使用而打下了一定的基础。
格助词知识库
研究藏文传统语法的格助词的定义及举例中找出规律并进行形式化后构建知识库。(如图2所示:)
图2 格助词知识库
识别算法步骤如下:
①先构建语料库并研究藏文分词进行词性标注;
②研究藏文八格的形式化并建设藏文八格的知识库;
③研究藏文八格的算法并在藏文文本中研究藏文八格的识别;
④最终实现藏文文本中八格的识别。
3 总结
藏文文本中格助词的识别率除跟研究传统藏文语法有关外还跟词性标注的算法性能和大家公认的词性标记集及专家标注过的词性语料库。