APP下载

汉英机器翻译中从句复杂度的错误分析

2020-10-13成洁

微型电脑应用 2020年9期
关键词:机器翻译汉译英

成洁

摘 要: 误差分析是衡量机器翻译系统性能的重要手段。在从句复合模型的分析框架下,对从句复合级错误进行了分析,并从汉英语法差异的角度对错误进行了解释。统计结果表明,复句级错误发生的概率相对较高,而且错误的发生在不同的体裁上是不同的,并且与复句的长度呈正相关。

关键词: 机器翻译; 从句复杂度; 从句-复杂度级别错误; 汉译英

中图分类号: H315.9/TP391.2      文献标志码: A

Abstract: Error analysis is an important method for performance estimationof machine translation systems. This article analyzes clause-level compound errors under the analysis framework of clause-complex model, and explains the errors from the perspective of differences between Chinese and English grammars. Statistical results show that the probability of complex sentence-level errors is relatively high, and that errors occur in different genres, and are positively related to the length of complex sentences.

Key words: machine translation; clause complex; clause-complex level errors; Chinese-English translation

0 引言

机器翻译(MT)技术在过去几十年里得到了长足的发展。随着机器翻译的发展,机器翻译输出的评价方法也在不断发展。在MT发展的早期,人工评价是主要的方法。然而,随着机器翻译统计方法的广泛应用,通过计算机器翻译输出和人工翻译之间的相似度来进行自动评价的方法得到了广泛的应用[1-2]。尽管自动评价是一种客观的评价方法,提高了评价的效率,但自动评价的结果能否正确反映机器翻译输出的质量,并指出机器翻译输出错误的原因,还是值得怀疑。同时,虽然目前仍有人工评价的研究,但大多只是对机器翻译错误进行分类,没有详细分析错误产生的原因[3-4]。因此,本文旨在分析MT误差产生的原因。

根据Halliday的理论[5],语言结构涉及不同的层次,包括语素、词、组/短语、从句、从句复合词。不同的语言层次涉及不同的语境关系。由于跨语言从句复杂程度上的差异很大,而且涉及到遥远的语境关系,因此这种差异会给机器翻译带来更大的困难。所以,本文探讨了汉英机器翻译中的从句复合级错误。

1 汉英复合从句

汉语从句复合体是基于命名共享关系和逻辑语义关系组合而成的标点从句(p-子句)序列[6]。p-子句是由逗号、分号、句点、感叹号或问号与周围上下文分隔的文本段。下例说明子句的复杂度,如图1所示。

p-子句中的一个组件可以由另一个p-子句解释或断言。前面的组件称为命名,下面的p-子句称为定语从句。示例1显示了一个由4个p-子句组成的子句复合体,这些p-子句以换行缩进模式表示。在本例中,带下划线的组件是名称。冠名权上的成分、冠名权下和冠名权上的p-子句是它们的标志。

对于英语从句复合句来说,它基本上是一个传统的句子。在英语中,主语或名词短语加上解释或修饰后称为命名。它的谓語,或者它的解释或后修饰,被称为它的定语。

2 从句-复杂级错误

2.1 定义

从句复杂级错误(clause-complex level errors, CC)是指在翻译过程中,由于忽略了源语言的小句间关系而导致的错误[7]。更具体地说,在汉英翻译中,这些错误是由于忽略了从句复合体中p-子句之间的关系而造成的。

应该强调的是,在此只关注从句复杂度的错误。在本研究中,将不标记和分析非因忽略小句间关系而引起的错误。具体演示如何识别CC级别的错误,如图2所示。

在图2中,每个带圆圈的数字表示一个错误,其位置表示错误发生的位置。中文原版、机器翻译输出版和修订版中相同的数字表示机器翻译输出版中相同的错误。带圆圈数字右边带下划线的部分是机器翻译输出中的错误单词或短语。如果一个带圆圈的数字右边没有带下划线的部分,这意味着在这个位置的机器翻译的输出中有一些缺少的单词。

虽然机器翻译的输出中总共有7个错误,但只有错误2和错误6是CC级别的错误。错误2是因为此位置缺少逗号。在中文原句中,句子“为了给他医病”是后面三句话的逻辑目的。但是没有逗号,逻辑目的就无法正确表达。错误6对应于第四个p-子句。在直译方面,似乎第四个p-子句翻译正确。然而,从汉语从句复合体的结构来看,机器翻译系统未能在基于共享命名的最后一个p-子句的翻译中补充主语“她”。

其余5个错误不是CC级错误。错误1是由于中文人名的不正确细分引起的。在错误3中,中文短语“为了给他医病”的结构在输出中未正确翻译。发生错误4是因为中文“跑遍了”中的动词在翻译中丢失了。错误5是错误的,因为系统无法补充副词动词。错误7是动词的错误选择。所有这5个错误与其他p子句都不相关,因此它们不是CC级错误。

2.2 从句复杂级错误的分类

通过误差分析,发现CC级误差可分为形态误差、共享结构误差和逻辑关系误差。每种类型的错误都对应于一种在机器翻译输出中没有得到正确处理的子句间关系。

词形错误是指由于忽视小句之间的词汇关系而导致动词、名词或代词词形选择错误。当命名和命名之间的语义关系在机器翻译输出中不恰当地呈现时,就会出现共享结构错误。逻辑关系错误是指影响子句之间逻辑关系的错误。

形态错误主要是由于汉语缺乏形态而引起的,这一点已被广泛认识。因此,在此着重研究后两类错误。

3 汉英机器翻译输出中的从句级错误

本文分析了两类错误:共享结构错误和逻辑关系错误。

3.1 共享结构错误

从错误分析中可以看出,共有结构错误主要是由于中英文在共有层面上的语法差异,特别是汉语中缺乏形态结构和相对较大的从句复杂度(CC-size是指一个复合从句中包含的p-子句的数量)。下面是共享结构错误的示例,说明这两个特征的影响,显示了缺乏形态形式的影响。如图3所示。

中文和英文在语义角色形式上有所不同。 在中文中,不同的语义角色可以采用相同的形式。 在英语中,不同的语义角色对应于不同的形式[8]。 因此,中文命名无需更改其形式即可在将其共享为命名的讲述中承担不同的语义角色。 在图3的例子中,共享命名“她”在第一个p-子句中扮演属性“自家生活条件”的持有者,在第二个p-子句中变成动词“收养”的代理,并成为主题 在最后一个p-子句中。 在机器翻译输出中,机器翻译系统在第一子句中正确使用了所有格代词她,但是它未能相应地更改命名形式并为其他两个叙述的翻译补充它们。

显示了大型从句复杂大小的影响,如图4所示。

在中文中,从句复合句的大小可能多达数十个p-子句。 在一个大型的汉语从句复合句中,一个命名及其叙述很可能被许多p-子句分隔开,其中有些p-子句具有主谓结构或以句号结尾。 在示例4中,最后一个用中文讲的共享命名为“澳洲肺鱼”,相距数个p-子句。 然而,机器翻译系统仅复制了中文原件的结构,因此无法基于共享命名来补充主题的翻译。 这也是错误①,②,③和④的原因。

3.2 逻辑关系错误

汉语和英语从句之间逻辑关系的表达方式是不同的。在机器翻译输出分析中发现了两个特点:连接词的位置和省略。由于两种语言之间的差异,机器翻译系统很难在汉语原语中正确地呈现句间逻辑关系。如图5所示。

在中文中,可以将连词放在谓词之前,以逻辑方式链接p-子句,但又不妨碍p-子句,尤其是后面带有谓词的p-子句可以共享命名。 但是,用英语来说,不能将从属连词直接置于谓词之前而不将主语置于两者之间。 因此,在机器翻译输出中,应在位置1和3处补充对象。 另外,在中文中,不需要协调连词来连接两个共享逻辑连词的p-子句。 但是,用英语来说,应该使用一个协调连词来连接两个p-子句。 否则,这两个部分的逻辑层次结构将存在歧义。 因此,在位置2应该补充连词“和”。如图6所示。

在中文中,省略连词是很常见的。但是,在英语中,经常需要使用连接词来表示从句之间的逻辑关系。 在此示例中,第一个p-子句是第二个p-子句的条件,但是没有用于指示逻辑关系的连词。因此,系统将两个p-子句都输出为常规语句,而无法表达两者之间的实际关系。

4 实验与数据分析

在本研究中,对463个汉语从句复合体的语料库进行了错误分析,覆盖了3种体裁。 每个条款复合体都输入到4个在线机器翻译系统中,这些系统在翻译中采用了神经网络机器翻译技术[9]。在每个输出中标记,分析和计算CC级错误。每个中文从句复合词被视为从句复合词的一种类型(CC类型),而4个机器翻译系统的每个输入都被视为从句复合词的标记(CC标记)。总数为463 CC类型和1852 CC标记。

4.1 错误类型和错误数量

表1显示了共享结构错误和逻辑关系错误的数量。在分析结果之前,应说明两点。首先,一些错误被视为共享结构错误和逻辑关系错误。这就是为什么表1中的总误差大于表2和表3的误差的原因。其次,这两种类型的错误都计入1391个标记中(不包括具有太多复杂错误且无法识别为CC级錯误的标记和仅包含一个p-子句的标记)。

在表1中,SP代表堆栈模式,NB表示新分支模式,BP代表后位置模式,IP表示流入模式。从表1中可以看出,在1 394个标记中共有1 154个共享结构错误。共享结构错误可以根据错误所在子句复合体的不同模式进一步分为SP错误,NB错误,BP错误,IP错误和其他错误。统计数据表明,共享结构错误的可能性很高,而堆栈模式错误占共享结构错误的百分比最高。结果表明,现有的机器翻译系统仍不能正确地将中文命名共享结构转换为英文命名结构。

对于逻辑关系错误,总错误数为239,与共享结构错误的总数相比,这似乎是一个小数目。这是因为仅计算带有连词的CC标记中的错误。因此,基于较小的计数范围,逻辑关系错误的可能性也较高。结果表明,表达汉英逻辑关系的不同方式也阻碍了机器翻译系统产生高质量的输出。

4.2 不同大小从句复合词的错误分布

不同大小子句复合词中错误的分布,如表2所示。

由于268个只包含一个p-子句的子句复合体肯定没有CC级别的错误,因此CC的大小为1行的错误总数和平均错误数为零。

从表中可以看出,一般情况下,错误数与从句复杂大小正相关。确实有一些上升和下降,特别是当CC大小超过10。这是因为子句复合词的出现次数与其大小呈负相关。因此,基于小样本的统计在很大程度上受到偶然因素的影响。一个典型的例子是当CC大小达到25。语料库中只有一个这样大小的从句复合类型,其结构简单且偶然一致。4个翻译输出中,1个基本正确,3个翻译错误混杂无序。由于后三个译本无法在现有的分析框架下进行分析,因此它们被排除在统计范围之外。因此,平均错误数为0。

正相关可以从两个方面来解释。首先,当汉语从句复合词规模较大时,其命名可能与某些主语相距甚远,这些主语可以用句点或嵌套主语的主语与主语分开。在这种情况下,话语和命名之间的关系很难确定,因此无法在翻译中呈现出来。其次,从句复杂度越大,它所涉及的逻辑关系就越复杂。由于汉英两种语言表达逻辑关系的方式不同,在翻译大型从句复合句时需要对结构进行更多的调整,这给机器翻译带来了困难。

4.3 不同体裁的錯误分布

通过统计发现,CC级错误在体裁上的分布是不同的。如表3所示。

从表3中可以看出不同体裁的错误分布。百科全书中的平均错误数,无论是每个CC标记的平均错误数还是每个p-子句的平均错误数,都高于其他两种类型。同时,从最后一行的数据来看,百科全书体裁的平均复句长度最大。因此,结果与表3中的统计数据相对应,表明在较大的子句复合词中,CC级错误的概率更高。

5 总结

本文以463个汉语小句复合词为语料,采用4个机器翻译系统,分析了汉语小句复合词的中心偏误。将误差分为形态误差、共享结构误差和逻辑关系误差,并对后两类误差进行了详细分析。错误分析表明,汉英语法差异是造成这些错误的主要原因。相关差异包括:1)语义角色的形式要求;2)大型从句复合句的结构;3)连词的位置;4)连词的省略等。

同时,统计结果表明:1)共有结构错误和逻辑关系错误的概率较高;2)共有结构错误和逻辑关系错误的概率与从句复合词的大小呈正相关;3)不同体裁文本的错误概率不同,与社会新闻和政治文本相比,百科全书体裁的错误率更高。因此,认为有必要对CC级错误进行研究,这将对提高MT系统处理小句间关系的能力,从而产生更好的输出带来启示。

参考文献

[1] 王湘玲,王婷婷.人工翻译与机器翻译译后编辑对比实证研究[J].外国语言与文化,2019,3(4):83-93.

[2] 黎亚飞,张瑞华.机器翻译发展与现状[J].中国轻工教育,2019(5):38-45.

[3] 孙瑞.基于英语翻译应用视角下的计算机智能校对系统开发研究[J].微型电脑应用,2020,36(2):145-148.

[4] 李晗佶,陈海庆.翻译技术研究现状、问题与展望[J].北京科技大学学报(社会科学版),2019,35(4):112-118.

[5] Castro C D, Halliday M A K. An Introduction to Functional Grammar[J]. Language, 1995, 71(4):831.

[6] 张会会. 英语长句机器汉译的研究[D].济南:山东师范大学,2015.

[7] 左军军. 英汉机器翻译中长句分析技术的研究[D].沈阳:沈阳航空航天大学,2013.

[8] 吴欣辉. 基于中英文主题向量空间的文本分类算法[D].合肥:中国科学技术大学,2018.

[9] 李真,屈丹,高明霞,张文林,等.基于端到端的神经网络机器翻译技术研究[J].信息工程大学学报,2018,19(5):550-555.

(收稿日期: 2020.03.12)

猜你喜欢

机器翻译汉译英
KEYS
KEYS
Keys
互联网+新时代下人机翻译模式研究
“语联网+行业” 助力中国伟大复兴
大数据背景下石油科技翻译
大数据背景下石油科技翻译
机器翻译不可盲取
基于免费在线翻译工具的机器翻译缺陷探讨
汉哈机器翻译中的文字转换技术研究