APP下载

基于统计机器翻译理论的格律诗自动生成研究

2018-06-29朱骐

文学教育·中旬版 2018年4期
关键词:格律诗

内容摘要:当前我国与世界各国之间的沟通合作日益密切使得语言这一沟通桥梁作用的重要性得到了凸显。在这一背景下,机器翻译在当前环境下也得到了迅猛的发展。机器翻译理论作为计算机技术中一大新兴技术理论,对于文本类信息资源的整合处理以及当前多数行业领域内面向语言文字类信息资源的综合需求存在着较高的契合度,因此在实际应用过程中加强对于统计机器翻译理论的应用存在着积极价值。现以格律诗的自动生成研究为主要方向,浅析基于统计机器翻译理论的格律诗自动生成问题。

关键词:统计机器翻译 机器翻译理论 格律诗 中文诗歌 生成研究

格律诗作为我国诗歌文化的重要内涵,在我国长远的文化历史发展中存在着较为重要的实际影响。在诗歌文化中,格律诗由于其重要的文学地位以及独特的文化内涵而在我国汉语言文学领域具备着极高的文学价值。就格律诗的题材类型来看,格律诗包括了律诗以及绝句两种,均在我国存在着较为久远的历史背景。就此看来,在当前汉语言文化传承过程中通过现有的新兴技术种类来完成对传统文化的传承是当前我国统计机器翻译理论的应用目的之一。

同时,就我国现阶段计算機算法及翻译相关理论多元化发展的现状来看,在格律诗的自动生成之中进行机器翻译理论不仅有利于我国传统文化在当前社会的有效弘扬,更是在信息爆炸的时代之中进行诗歌创作与生成的一条崭新途径。现就笔者观点,对于格律诗生成系统中有关关键词检索以及统计机器翻译理论的应用思路加以简要分析。

一.格律诗生成与统计机器翻译理论的结合思路分析

诗词文化作为我国传统文学的重要内涵之一,在其发展历程之中对于语言文学的韵律以及美感较为重视,在诗词创作的过程中往往在题材以及格式上存在着较为严格的规范。同时作为语言艺术的具体内涵之一,格律诗相对于传统的诗词艺术而言在创作过程中具有着更大的实际难度以及对于艺术灵感更高的依赖性,因而近年来我国在进行计算机辅助为媒介的格律诗创作体系建设上进程较为缓慢。

就格律诗等特殊性语言文学自动生成体系建设在近年来的发展历程来看,微软亚洲研究院自然语言计算机组研发的自动对联系统可谓是格律诗自动生成研究中的一大突破性进展。由于对联在实际格式上与格律诗存在着较大的相似之处,尤其是在对仗、押韵以及各式、寓意方面的需求存在着较大的共通之处,因此在格律诗自动生成系统中同样可以应用这一体系的运行特点来在思路方面带来突破。自动对联系统在实际统计翻译理论的结合以及统计翻译理论应用的思路方面在于通过现有数字建模技术来对对联信息中的源语句、格式类型进行建模,通过较为复杂的运算进行创作格式以及创作思路的规律模拟;同时通过数字建模系统能够有效的对作品之中大多数案例中上下文之间的语义关系进行模拟,找出目标语句之间的对应关系。这一运作机制能够有效避免在创作过程中传统的统计翻译理论运行过程中对创作内容的严谨性造成影响。就此看来,对联自动生成系统在自身的运作机制上与本文所探讨的格律诗自动生成研究存在着较大的关联性,在思路方面可以通过对对联自动生成系统进行参考来完成当前所需自动生成系统的具体环节设计。

同时在格律诗的自动生成系统设计之中对于统计机器翻译理论的研究并不仅仅局限于在对联自动生成系统基础之上的发展建设,而是应当在借鉴其建设思路的同时在自身统计机器翻译系统之中加以相应调整。众所周知,格律诗相对于对联在自身语法语义、对仗押韵以及实际表达出的思想内涵均存在着质的增长,因此想要在进行格律诗的生成时在格律、意境方面同样能够达到自动生成的相应目的,就需要在进行统计机器翻译系统的建设过程中对于技术进行一定的革新。这里同样以对联的自动生成系统为例,在实际应用过程中进行生成主要依赖于对于源文件内容以及语句格式进行算法建模,进而尽可能多的进行译文的生成、并应用生成的译文与需求信息进行比对,进而完成最优解的最终确认。同时统计机器翻译理论在进行对数据的模拟建模以及分析生成时存在着一个较为主要的缺陷,即无法参照输入信息来对诗词的第一句进行生成。在这一背景下,想要针对实际需求来完成对于格律诗的自动生成往往需要使用者根据自身需求来进行第一句的选择与自主创作,这明显与我们进行格律诗自动生成系统建设的目的存在出入。因此未解决这一弊端,笔者认为可以通过一定的技术手段加以弥补,即通过添加一个能够结合节奏模板以及语言模型的诗词素材库,来面向格律诗创作自动生成的首句需求。

通过上述思路流程,笔者认为能够针对当前我国计算机统计机器翻译理论的发展现状有效建立起面向格律诗的自动生成体系,就体系自身的实际职能以及构成元素来看这一体系同样能够针对用户的多元化需求提供具有一定针对性的格律诗生成。

二.基于统计机器翻译理论的格律诗自动生成流程分析

(一)流程概述

绝句作为诗歌类型中的重要内容之一,是当前格律诗自动生成系统中的主要需求所在。想要应用统计机器翻译理论来完成对格律诗的自动生成就需要在实际生成流程上对流程做到尽可能的把握。就笔者研究分析,当前以绝句诗为主的格律诗自动生成流程主要包括首句生成以及二、三、四句生成两大环节。在用户想要进行诗歌的具体生成时,首先应当确定自身格律诗生成需求,即五言绝句或是七言绝句,并针对这一需求类型来完成对于表达内容进行关键词的输入,进而由计算机进行首句生成。在完成了首句生成的环节过后,计算机通过参考用户输入的实际信息来完成后续内容的自动生成。

在用户输入目标信息这一流程中,系统应当为用户提供与格律诗题材相关的诸多选项,来完成用户对诗歌语义类别的具体选择。诸如“时令类”、“远眺类”、“思乡类”等语义类别在供用户进行选择的同时还应在每个语义类别的下方添加与该语义类别存在关联的关键词,并严格按照《诗学含英》中的分类体系进行参考。众所周知,《诗学含英》一书中在语义类别的具体分类上面向不同的诗词类型共存在着40大类、1016个关键词、41248个词汇(其中不重复的有34290个)。在其中词汇长度同样存在着较大划分,从两个字节到五个字节不等。这就为格律诗的自动生成提供了较大的便利性。当用户确定好诗的具体形式以及选择好按照语义划分的具体关键词后系统便会按照源语言与目标语言的对应关系来利用用户的选择进行系统结果的优化改进。在这一流程之中系统能够有效的完成优质格律诗作品的自动生成,同时最大限度的满足用户实际需求。

(二)首句及二、三、四句生成

就五言绝句为例,在实际应用过程中五言绝句在节奏韵律方面主要存在着七种实际的节奏格式,分别在不同的诗词意境、表现内容中存在着相应体现。由于实际体系能够通过对用户的实际需求参照来完成关键词的最终生成,因此只需通过将得出的关键词结果进行排列组合便可完成对于绝句首句的生成工作。当前在《诗学含英》中近95%的诗句均可按照其中的构词及组句规律来完成对于整句诗句的构建,因此首句的自动生成完全可以参照该书中的语句生成格式来完成最终的确定工作。

而通过对绝句诗词的第一句、第二句进行统计研究笔者发现,九成的绝句诗词存在着上下句式内容特点以及结构完全相同的特点,同时三四句之间的关联性与一二句类似,同样在近九成的诗词之中都存在着句式一样的情况。就此看来想要完成对于二三四句的自动生成可以使一三句的生成放在首位,而二四句的生成则完全参照一三句的建模算法,即可完成对于整首诗词的自动创作。

统计机器翻译理论与格律诗的自动生成体系建设具有着较高的协同发展价值,同时就统计机器翻译理论的实际发展来看这一理论在自动生成等技术领域的实际应用已然具备了一定的成熟度,因此当前相关研究人员在进行格律诗的自动生成体系建设工作时还应加强对于该理论的具体应用,进而达到创作的严谨性以及语言的艺术性等最终目的。

参考文献

[1].杜金华,张萌,宗成庆,孙乐.中国机器翻译研究的机遇与挑战——第八届全国机器翻译研讨会总结与展望[J].中文信息学报,2016,(07):15-16

[2].蒋锐滢,崔磊,何晶,周明,潘志庚.基于主题模型和统计机器翻译方法的中文格律诗自动生成[J].计算机学报,2017,(16):30-34

(作者介绍:朱骐,盐城工学院副教授,从事计算机应用与教学、中国古典文学研究)

猜你喜欢

格律诗
梁文源格律诗的语意表达
自由诗与格律诗之间
用典与格律诗创作
从关联翻译理论看汉语格律诗英译中形式的趋同*——以《春望》三个译本为例
两本新格律诗选