APP下载

藏文语义词典建设中语义关系抽取方法的研究

2021-03-24曲塔吉安见才让

计算机时代 2021年2期
关键词:自然语言处理语义

曲塔吉 安见才让

摘  要: 研究语义是当前人工智能、语义网、语义词典等研究领域的热点,它可以有效支持機器翻译和自然语言处理等技术。文章根据藏文独特的文法特性,运用藏文逻辑格和计算语言学知识,在保留藏文原有特点的基础上,为藏文语义关系抽取方法建立较完整的语义场,以此为藏文语义词典建设提供了基础性构建方法。

关键词: 语义; 藏文格助词; 语义关系抽取; 自然语言处理

中图分类号:TP391.1          文献标识码:A     文章编号:1006-8228(2021)02-46-03

Abstract: Semantic research is a hot topic in artificial intelligence, semantic web, semantic dictionary and other research fields. It can effectively support machine translation and natural language processing. According to the unique grammatical characteristics of Tibetan, this paper utilizes the knowledge of Tibetan logic case and computational linguistics, and on the basis of retaining the original characteristics of Tibetan, establishes a relatively complete semantic field for Tibetan semantic relationship extraction method, so as to provide a basic construction method for the construction of Tibetan semantic dictionary.

Key words: semantics; Tibetan case particle; semantic relation extraction; natural language processing

0 引言

近年来,自然语言处理技术为具有传承价值的民族文字提供了很多优质的推广平台。现有相关算法有效解决了藏民族在自然语言处理技术方面遇到的各种问题,尤其是在藏文字的输入与处理、机器翻译等领域有了不少研究性成果,并在民族地区有了广泛的应用,很多网站都添加了藏文字显示的功能。

但是,藏文语义词典建设中语义关系的抽取方法还值得进一步研究。因此,本文在藏文语义关系抽取方法当中深入分析了藏文语义关系的各种性质和特征;还将藏文字文法知识当中的格助词应用于其中,因为在藏文语义关系抽取过程当中[1],藏文句子单词与单词的结合、单词与短语的结合要添加很多具有各种应用表达作用的格助词,才能有效的把句子与句末的动词相结合,然后根据句子结构当中语法的多变性,将句子结构的复杂性通过语法的方式表达出句子更多不同的含义。

1 相关工作

通过了解语义及语义关系相关的含义、特征以及关系分析,可以系统的分析一个词或一个句子的意思,对藏文语义关系抽取提供有力的语料库标注参考价值。

1.1 含义

语义[1]在藏语中称为“????????”,即语言的意义。是词生成句子后,通过不同的表达形式完善语言的意义。语义关系是指在句法结构、文法结构当中由某个词语或句子的语义范畴所建立起来的关系,既能联系整个句子的逻辑关系也能表达其中的语义关系。

1.2 特征

语义的特征[2]能将词语中符合组合选择的、有区别性特征的最小语义成分分析出来;能帮助整理词类序列相同、内部构造层次相同的语义类;可以对产生歧义的词语语义类进行再细分,凸显同一语义类的不同词语之间的差异等,如表1所示。

语义特征分析能有效的描述语言的结构规则,最大限度分析出句子当中语义结构间错综复杂的关系,从而让句子的内容变得简单易懂、更好的解释语言现象。

1.3 藏文格助词

藏文格助词[1]能通过藏文句子自身的特点对藏文字独有的结构规则和特征进行分析,按照给定的语法规则推导出藏文句子的结构规律;还能根据其结构规律将句子的句法单位与它们之间的关系联系在一起,再把最小的语义成分组成更大的语义成分,更细致的分析有名词、代词的句子当中发生的各种结构关系,对藏文语义关系抽取方法的研究起到了语料库标注的参考价值。

2 句法关系分析和语义关系分析

句法关系分析[3]是对某个句子当中的主谓宾、动宾等进行结构性的分析;语义关系分析[3]是对句子的意思进行意义和语法分析,将句子里包括的格助词(施事、受事、时间、处所等)做进一步分析,以此达到句法关系与语义关系抽取的最佳效果。

藏文单词在进入句子以后,词语与词语之间会形成一种词汇意义之外的关系。这种关系是要通过一定的结构形式来表现的,是单词在语句结构中体现出来的意义。它不同于词汇意义,也不同于句法意义,但又属于语法意义。因此,语义的相关知识细化句法知识,句法知识概括了语义知识,也加强了语义关系的解释力。如表2所示。

3 基于藏文词典建设的语义关系抽取方法

研究是藏文语义关系抽取[3]首先要建立藏语词典和规则库,字典中存放藏文词性标注和藏文角色标注,在规则库中存放藏文的相关语法规则,由于藏文、汉语、英语的句法规则有很大的区别,例如汉语一般是主谓宾结构,但藏文一般是主宾谓结构,所研究藏文语义关系抽取可采用以下三种方法。

⑴ 建立语义场

建立语义场[4],就是要对语义特征进行系统化表述。比如建立上下位关系、整体与部分关系、反义/同义关系等等。可以细分各种各样的关系,可以将同一个环境当中的事物联系在一起,也可以用意义同类的组织词汇原则的方式进行同类归类。如图1所示。

⑵ 依赖语义知识进行词义消歧

语义知识消歧,是为了在抽取语义关系时提高句子意义的准确率和识别率[5]。如表3所示。

⑶ 语言筛选

语言筛选是选用语义筛选和句法筛选两种方法,以此来判断一个词或者整个句子的句法语义关系。

语义角色筛选[6] 语义筛选利用藏文文法当中的处所、动作、结果等语义角色筛选描述语言用处的成分,但不篩选句子当中存在的格助词。如表4所示。

词性筛选 词性筛选利用藏文的词性分析将整个句子的名词、动词、形容词等放在语义关系识别的语言范畴内。如表5所示。

4 总结与展望

基于藏文语义词典建设中的语义关系抽取是分析句法语义的一种手段。在参考英语、汉语的语义关系抽取知识后,可以采用学习英语、汉语对词义进行义素分析或格分析的方法进行进一步研究,加强对藏文语义关系抽取方法的语义知识体系的把握。但是,在此基础上分析的藏文语义关系抽取方法在进行筛选和排除时[3],存在着相当大的难处,尤其句子形式与意义的非一一对应性的句子(比如:一个形式多个意义的词性多义词、一个意义多个形式的句子同义结构的句子)需要花大量的人工进行再三分析标注,越复杂的隐含句子,越容易产生错误意义,会导致结果的抽取识别率下降。

下一步将分析研究计算机语义理论和方法研究的结合,来获取藏文语义信息处理所需的技术和方法,以提高藏文字词汇分析和句子结构分析的准确性,提高藏语言信息处理的理解性,为监控和检索藏语信息处理水平提供理论支撑和实用参考。

参考文献(References):

[1] 格桑居冕.实用藏文文法教程修订版[M].四川民族出版社,2011.

[2] 安见才让.藏文信息处理原理与技术实现[M].青海民族出版社,2017.

[3] 东主才让.语言学概论[M].青海民族出版社,2013.

[4] 俞士汶.计算语言学[M].北京商务印书馆,2003.

[5] 何晗.自然语言处理入门[M].人民邮电出版社,2019.

[6] 龙从军.基于多策略的藏语语义角色标注研究[J].中文信息学报,2014.

猜你喜欢

自然语言处理语义
语言与语义
基于组合分类算法的源代码注释质量评估方法
面向机器人导航的汉语路径自然语言组块分析方法研究
“上”与“下”语义的不对称性及其认知阐释
词向量的语义学规范化
汉哈机器翻译中的文字转换技术研究
HowNet在自然语言处理领域的研究现状与分析
认知范畴模糊与语义模糊
“深+N季”组配的认知语义分析
语义分析与汉俄副名组合