APP下载

藏文字框架知识表示的研究

2010-06-05多杰卓玛

中文信息学报 2010年5期
关键词:藏文音节字母

多杰卓玛

(西北民族大学 中国民族信息技术研究院, 甘肃 兰州 730030)

1 引言

藏语言文字是藏族人民交流思想和信息传输的工具。既然交流的是思想,那么思想本身在计算机里的组织结构便显得格外重要。如何将这些思想用结构化的形式去描述或表示便成为藏文自然语言处理中最为关键的一步。这在人工智能里称为“知识表示”的问题。藏文自然语言处理若能在“知识表示”问题上有一点突破, 将会对它的发展起重要的影响。因此,本文根据框架知识的构成、框架知识的结构描述、框架知识的内部组织、框架知识的内部表示等,研究藏文框架知识的表示问题。特别对藏文字框架知识进行描述、构建了藏文字框架知识系统。

2 框架知识的构成

2.1 框架的引入

在人们日常的思维和理解活动中,当分析和解释某一新情况时,要用到过去经验中积累的一些知识。这些知识是人们认识事物并理解的过程中存储在人脑中的一种组织形式。这种组织形式称为框架(Frame)。框架是以往的经验在人们脑海中的一个通用的数据结构形式。框架提供了一个结构,一种组织[1]。框架(Frame) 也是一种描述所论对象属性的数据结构[2]。这种结构或组织中,新的资料可以用过去的经验中的知识来加以分析、解释和预测。它是借助于以往经验对特定场合下的对象或事件序列作出估计的一种知识表示方式。

2.2 框架知识的构成

框架的基本单元不是单一的藏文词语(词汇),而是与这个词语有关的背景信息和语义功能信息构成的结构,这些词语将会出现在特定的句子或某一类句子中, 给人们提供了概念在语言中的使用的场景和动因,从而形成一个以概念为中心的语义场。这个语义场是指意义上跟框架有关联的词或者场景共同构成的一个集合,也就是各个词语凭借相互关系共同作用、相互维系的一个集合,它介于词语和世界知识之间。文献[3]指出:按照人类智能的类型,可将语义场划分为聚合场和联想场。有关文献构造的聚合场,由概念之间的类聚关系形成。对某一概念以及与这个相关的概念用特定的关系描述出来。联想场即是从意义和形态上类似的或意义和形态上相近的概念间进行联想。

例2中,虽然提供了因某种行为而产生的结果(火),但是这种结果可能引出隐藏在背景中的其他的消息。比如,作为实体的点火人、点火所用的工具和燃物等。除外,还透露了产生 “火在燃烧”这种结果的可能性有两种:燃物的自发性燃烧和在他人的某种行为之下使得燃物燃烧。

以上的例句中看出,理解者理解词语的基本过程如图1,一个框架知识的组织过程如图2。

图1和图2说明:词语在理解者的大脑中激活了一个完整的认知过程,使理解者带着这个预期的抽象结构,填入惯例性的内容,得以完整理解句子表达的事件,从而形成了以某个词语为核心的框架知识。

图1 理解者理解词语的认知过程

图2 “点火”这一框架的组织过程

3 藏文字框架知识的表示

3.1 框架知识的结构描述

一般情况下,一个框架知识的结构是由一组跟框架有关的信息组成,即实体及概念的各个侧面(face) 的槽(slot) 组成。每个槽可以有 value、default、if-needed、if-added、if-removed 等侧面。这些侧面中可以嵌入属性值 (value,default),还可以是另一框架名,以表示框架之间的关系。一般,框架知识的结构形式如下:

框架名:()

(< slot - name -1)

(< Face-name >, < Face -1>)

(< slot-name- n > …))

例4下面以“藏文字”为例,描述其框架知识。

字丁数x1:

缺省:x1=1 条件:0

上下加字数x2:

缺省:x2=1 条件:x2≥0

基字数x3:

缺省:x3=1?

藏文音节的下一级框架:

框架名:<前加字>

2.6 989名孕妇中户口属地和文化程度对口腔知识的了解及口腔健康行为情况 城市户口和高学历孕妇对口腔知识的了解及口腔健康行为优于农村户口和低学历孕妇,差异有统计学意义(P<0.05)。见表5、表6。

字母数z1:

条件:0

框架名:< 基字 >

字母及字符数z2:

条件:0

框架名:<后加字>

后加字数z3:

条件:0

框架名:<又后加字>

又后加字数z4:

条件:0

框架名:<字丁>

字丁数x1:

条件:z1+z2+z3+z4=x1

类型:(<藏文正楷乌金字>,<藏文乌梅字>,<藏文拉丁转写字>…)

3.2 框架知识的内部组织

为了用框架知识的表示方法明确地描述出某领域的共有特性,我们将引进类 (class)或域(domain)的概念,使各种不同实体及概念隶属于各自不同的类别框架,并且它们之间的联系用is-a 链紧紧相连。框架知识及类别间的内部组织结构分为三个层面:类框架层、框架层、子框架层。每一个下层框架都包含在它的上层框架之中,通过绑定方式,将下层框架捆绑到上层框架上,并用框架间的关系链is-a把上层框架的特征及属性传递到下层框架。从结构上看:“框架的最顶层是固定的一类事物,基于概念的抽象程度表现出自上而下的分层结构。有效地实现了框架之间的继承关系”[4],如图3所示。

图3 框架内部的组织结构图

3.3 框架知识的内部表示

由框架知识的结构及内部组织情况看出,框架知识特别适合表达结构性的实体或概念。所以,与概念和对象有关的知识最适于用框架来表示。框架的槽就是对象的属性或状态,槽值就是属性值或状态值。不仅如此,框架还可以表示行为(动作),一般用if-needed、if-added、if-removed 等表示过程性知识的侧面,这样数据匹配和操作时可以自动触发相应的过程,便于实现框架系统的智能化。

框架的内部结构我们采用链表的方式把概念以及知识一一表示出来,即用指针连接来实现。如图 4 所示。链表结构方式有利于数据的动态管理,使得框架的各个槽及其侧面值随时都可以按照需求进行增减和删除,从而使知识的添加和删除操作简便易行。

图4 框架知识的内部结构表示图

4 藏文字框架知识系统的组成

在框架知识的组织分析中,我们将藏文字表示成一个框架知识体系,其组成是具有层次关系的一个个语言单位。这个框架知识系统如图5所示。图5也说明在框架知识内部可以使用框架的嵌套;另一方面,某个特定框架的最底层是组成框架的元素而非框架。以“藏文字”类框架知识中的“藏文音节”为例,“藏文音节”这个框架的槽(Slot)为“前加字”、“基字”、“后加字”和“又后加字”。其实 ,“前加字”、“基字”、“后加字”和“又后加字”已分到框架元素,如:前加字的框架元素为5个字母;基字框架元素为30个字母及445个字符;后加字的框架元素为10个字母;又后加字框架元素为2个字母。

图5 藏文字框架知识系统的组成图

从“音节”框架来看,它与下一级框架和上一级框架间的关系有两点:第一,它与下级框架“前加字”、“基字”、“后加字”和“又后加字”(简称下级框架)间的关系是整体与局部之间的关系。其实,这里所有的下级框架组成了“音节”框架,并且每一个下级框架是组成“音节”框架这个整体的一部分。第二,它与上级 “藏文字”框架间的关系是继承关系。 “藏文字”框架所具有的首要特性是用藏文字母拼写出来的拼音文字(包括单个辅音字母),并且它是辅音文字型。辅音文字型分为辅音字母、元音符号和标点符号3个部分。其中有30个辅音字母,4个元音符号,以及标点符号(藏用的有音节符、单垂线、双垂线等)。 可“音节”框架就继承了“藏文字”框架的这一特点。同样,在藏文字框架知识系统中,“前加字”和“后加字”等框架也继承了“音节”框架的特点,即就是用藏文字母拼写出来的拼音文字。因此,每一个上层框架包含了下层框架的某一特性或共性,这点正是体现了框架结构的上下层框架间具有继承性的特点。这里假设我们把每一个框架看成一个节点的话,正如文献[5]所说,通过继承关系可以将框架与框架相互联系,使得该系统成为具有层级性的网络,在这个网络中,特征可以从一个节点传递到它的下一级节点。

5 结束语

藏语自然语言的处理中,对藏语的词、短语、句子和篇章等基于语义内容的理解及翻译的研究离不开“知识的表示”这种基础工程技术的支撑,而“知识表示实际上就是对知识的一种描述,或者说是一种约定,一种计算机可以接受的用于描述知识的数据结构。对知识表示的过程就是把知识编码成某种数据结构的过程”[6]。虽然,用框架形式表示知识更能体现出框架知识间的继承性。但是,这种方法也有它的不足之处,一般不善于表示过程性的知识。本文仅仅从框架知识的构成、结构描述、内部组织、内部表示等,对藏文框架知识的表示、藏文字框架知识系统的组成作了初步的研究。而更加深入的研究和这样一个系统的实现将是我们进一步的工作。

[1] http://www.fjtu.com.cn/fjnu/courseware/0330/course/_source/web/lesson/char2/j5.htm#j1. [2006-9-24 /2009-5-8(12:05).]

[2] 朱光菊,夏幼明.框架知识表示及推理的研究与实践[J].云南大学学报(自然科学版),2006,28(S1):154-157.

[3] 张德政,庄洪波.基于领域本体网络模型的知识获取技术[J].计算机工程, 2007, 33(7):190-191,200.

[4] 付炜.基于框架网络结构的专家知识表示方法研究[J].计算机应用,2002,(1) :3-6.

[5] 俞士汶,黄居仁.计算语言学前瞻[M].北京:商务出版社,2005.

[6] 曹承志,王楠.智能技术[M].北京:清华大学出版社,2004.

猜你喜欢

藏文音节字母
敦煌本藏文算书九九表再探
缓存:从字母B到字母Z
西藏大批珍贵藏文古籍实现“云阅读”
拼拼 读读 写写
黑水城和额济纳出土藏文文献简介
基于条件随机场的藏文人名识别研究
看音节说句子
字母派对
木管乐器“音节练习法”初探
巧排字母等