APP下载

新闻信息类文本机器翻译的常见问题与分析

2021-09-11吴恒代思师

文学教育·中旬版 2021年8期
关键词:机器翻译问题分析

吴恒 代思师

内容摘要:随着神经网络翻译的发展,谷歌翻译和百度翻译成为使用率较高的机器翻译平台。本文从金融时报(FT)双语网站选取一篇新闻媒体的文本进行案例研究,对比人工翻译和两种机器翻译,分析两种机器翻译的优缺点,提出人工翻译依然无法替代,同时通过适当利用机器翻译的长处,可以提高翻译效率和质量。

关键词:信息类文本 机器翻译 问题 分析

传统的机器翻译存在着“只见树木不见森林”的问题,而近几年,尤其是2016年以来,随着神经网络机器翻译技术的突飞猛进,机器翻译的表现获得质的飞跃。谷歌推出的神经网络翻译(GNMT, Google Neural Machine Translation)采用循环神经网络(RNNs, Recurrent Neutral Networks)在产出译句的每个部分时都会参考整个原句,译文用词和语序都更自然,更符合目标语的语法。以维基百科和新闻译文为对象的质量测试表明,谷歌将翻译错误将降低了55%-85%。而百度翻译也采用了神经网络翻译,目前,神经机器翻译已经取代统计机器翻译成为Google和百度等在线机器翻译系统的核心技术。

根据德国翻译家卡塔琳娜·赖斯(Katharine Reiss)的文本类型理论,文本类型包括信息型( informative)、表情型(expressive)、操作型(operative)三类。信息类文本是指“自然科学、科技、工商经济”类文书文本,讲求术语表达的专业性,语言表述的直陈性、客观性、逻辑性和文体风格的不变性。新闻文本属于信息类文本,翻译时强调重视原文、简洁明了,且具有术语复杂、句式固定等特点,因此具有最高的机器翻译适用性。

《金融时报》中文网站的文章是经济新闻类,属于信息类文本。本文选取了网站中一篇题为《全球债市抛售加剧》的文章为研究对象,探讨新闻信息类文本的机器翻译的优缺点,对比谷歌和百度两种平台的翻译,并尝试提出改进的建议。

本部分从字词句等传统领域进行对比分析,用R指代网站的人工翻译,G为谷歌翻译,B百度翻译。为比对方便,原文划线处对应的翻译用阴影标出。

一.常用表达

这里的常用表达除了专有名词外,还包括常用的词和短语。

(P8)That lifted the 10-year US Treasury yield, the most widely watched interest rate in the global economy, by 5 basis points to a peak of 2.73 per cent on Monday, the highest since April 2014.

R: 这使得10年期美国国债收益率(全球经济中最受关注的利率)在周一上升5个基点,至2.73%的峰值,为2014年4月以来最高水平。

G: 这将全球经济最广泛关注的10年期美国国债收益率提高了5个基点,至周一高点2.73%,为2014年4月以来的最高点。

B: 这使全球经济最受关注的10年期美国国债收益率提高了5个基点,达到星期一的2.73%点,为2014年4月以来的最高点。

财经类的文章中,会经常出现这样的句式和表达,如“……上涨/下跌……,至……,为……最高/低水平”,原文的“a peak of number”是常用表达,意为“……峰值”。谷歌翻译中翻译成“高点”也未尝不可,但是百度翻译中漏译了这层意思,只能归咎于数据库中没有对应的词条,或者训练用的语料本身就漏译了。需要扩充数据库专业词汇,辅以人工纠错,解决词汇层面的问题。

(P8)The ①10-year German Bund climbed ②7bp to 0.69 per cent, lifting the five-year Bund yield back into ③positive territory for the first time since November 2015.

R: ①10年期德国国债收益率攀升②7个基点,至0.69%,5年期德国国债收益率自2015年11月以來首次回到③正值区间。

G: ①10年期德国外滩上涨②7个基点至0.69%,自5月份以来首次将5年期外滩收益率回升至③正面区间。

B: ①德国10年期国债上涨②7BP至0.69%,提升五年债券的收益率回到了2015年11月以来的首次③正。

Bund在德语中对应bond,读音和拼写都与英语接近,人工翻译能够识别出来,但是bund在英语中也有“堤岸、同盟”等意思,会产生干扰,这时人工翻译的优势就体现了出来。谷歌翻译很显然没有“学习”这个特殊用法,即“德国”后面的Bund意为“国债”,而百度翻译也没有“学习”数字后面的bp意为“基点”。原文③positive territory暴露了百度翻译的漏译问题,因为没有对应的词条,机器翻译只有一个字——“正”。谷歌翻译虽然语义上有点偏差,但也算中规中矩,没有完全漏掉。但是,谷歌翻译中波浪线部分居然将November翻译成“5月份”,说明系统还有很严重的漏洞。笔者尝试将“since November 2015”之前的三个意群“lifting the five-year Bund yield”,“back into positive territory”和“for the first time”任意删除一个,机器都能识别出“2015年11月以来”,说明目前机器翻译的模式识别还有提升空间。

对比词条①的三种翻译,人工翻译增加了“收益率”,增词不增意,让译文更清楚易懂,体现了人工翻译的主动性。这一点是目前机器翻译望尘莫及的地方。

二.词语搭配

搭配是指某种语言中一些词往往同时的趋势,搭配的形成是随机的,不同语言会有不同的搭配习惯。

(P1) The global bond market sell-off deepened on Monday, …

R: 全球债券市场的抛售周一加剧……

G: 周一全球债券市场抛售加深……

B: 星期一,全球债券市场抛售进一步加剧……

“deepen”的搭配意义取决于前面出现的词sell-off(抛售),中文一般使用“加剧”,而非“加深”。如果是Friendship deeps,自然可以说“友情加深”。神经机器翻译能够通过大量的数据训练识别出语言模式,所以,谷歌翻译的问题或许通过更进一步的数据训练,可以得到解决。百度翻译把“deepen”处理为“加剧”,更符合汉语的习惯,表明百度的翻译系统能够根据前文的“抛售”等词,自动筛选出符合语境的译文。毕竟,百度是中文搜索第一网站,其海量的中英文双语语料是数据训练的有力保障。

(P2) …but stirred concerns that long-dormant inflation might finally make a comeback …

R: ……但这也引发了人们的担忧:即长期蛰伏的通胀也许终于会卷土重来……

G: ……但令人担忧的是长期搁置的通货膨胀最终可能卷土重来……

B: ……但人们担心长期休眠的通胀可能最终卷土重来……

“long-dormant”这里的机器译文分别是“长期搁置”和“长期休眠”。虽然在语义上都与“long-dormant”对应,但是适用于不同的搭配,如“长期搁置的问题”和“长期休眠的状态”,但是原文的中心词是“通胀”,所以更恰当的搭配是人工翻译选择的“长期蛰伏”。根据语境选择不同的搭配,是人工翻译天然的优势,而机器翻译通过海量数据的训练,或许也能实现。

三.定语结构

(P7):Investors now expect the Federal Reserve to follow through on its plans to raise interest rates three times this year, and the European Central Bank is forecast to end its crisis-era stimulus programme.

R:投资者现在预计美联储(Fed)今年将执行其加息三次的计划,并预计欧洲央行(ECB)将结束危机时期的刺激计划。

G:投资者现在预计美联储将在今年三次加息的计划中继续执行,预计欧洲央行将结束危机时代的刺激计划。

B:投资者现在预计美联储将执行其今年三次加息的计划,预计欧洲央行将结束其危机时期的刺激计划。

后置定语依然是机器英中翻译的一个重大挑战。本例中“to …three times”的后置定语修饰前面的plan,两个机器翻译的版本都处理成前置定语,语言结构上机械转换成汉语中习惯的形式也是机器翻译擅长的地方。但是,两种机器翻译都将时间状语this year看作“加息”的限定成分,而人工翻译准确地把握限定对象,将“今年”的位置调整到动词“执行”的前面。这样处理读起来也更通顺,更符合汉语的表达习惯。笔者也分析了机器翻译遇到前后两个定语同时修饰一个中心词的情况,翻译结果不尽如人意。

(P2): ①Mounting optimism ②over the strength of the world economy has buoyed equities, which have enjoyed their best start to a year since 1987, but ...

R: 人们②对世界经济走强①日益乐观的情绪近期推高了股市。今年是自1987年以来股市开局表现最好的一年……

G: ②对世界经济实力表示乐观的态度助长了自1987年以来最佳开局的股市……

B:人们②对世界经济实力的乐观情绪提振了股市,自1987以来,股市迎来了一年来最好的开局……

原文中的mounting意为increasing,兩种机器翻译中都没有体现。笔者把optimism的后置定语“over … economy”删除以后,谷歌翻译变成“乐观情绪提振了股市”,漏译仍然存在;百度翻译则是“越来越多的乐观情绪提振了股市”。笔者将“optimism”改成“price”,谷歌翻译成“股价上涨”,可见谷歌的“深度学习”还没有学到mounting optimism这种情况,而百度翻译虽然收录了这种搭配,但是中文翻译过于死板,没有人工翻译的灵性。

通过分析对比后面非限制性定语从句的处理情况,百度翻译将从句另起一句,优于谷歌翻译。谷歌翻译将which从句处理成限制性定语,跟前面一句揉在一起,结果比较冗长。笔者尝试将定语②删掉,谷歌翻译成“乐观情绪提振了股市,自1987年以来已经开始了一年的最佳开局”,仍然是不明就里。谷歌翻译在处理类似结构时,应学习百度翻译的处理方法。或许让机器把which机械的替换成距离最近的名词,也能减少类似的错译。

四.指示代词

指示代词是实现衔接的一个重要手段。译文与原文一样需要衔接,英文衔接体现在语篇的表层结构上,通过语法手段和词汇手段的使用。

(P6)“①It all feels a little bit euphoric,” said Larry Hatheway, chief economist at GAM, the investment group. “②It has led to a lot of people thinking that we should prepare the groundwork for some risk mitigation strategies. ③This cant go on forever.”

R: “①这一切让人感觉有点欣快过头,”投资集团GAM的首席经济学家拉里·夏德威(Larry Hatheway)说,“②这导致很多人认为,我们应该为一些风险缓解策略做好铺垫。③这波行情不会永远持续下去。”

G:… Larry Hatheway表示:“①这一切都让人感到欣喜若狂。 “②這导致了很多人认为我们应该为一些风险缓解战略奠定基础。③这不可能永远持续下去。”

B:“①这一切都感觉有点兴奋,”Larry Hatheway说,在GAM投资集团首席经济学家。“②这导致许多人认为我们应该为一些减轻风险的战略做好准备。③这不能永远持续下去。”

原文中使用了it和this,机器翻译全部处理为“这”,一个两个没问题,但是一连串的“这”会让读者有点摸不着头脑。原文it和this用词的不同在中文翻译中应该体现出来。这一点人工翻译表现得更好,this译成“这波行情”让读者很容易回溯到上文的语境。指示代词的指代内容会随着语境的变化而变化,而机器翻译在技术上很难规定指代的具体内容,即便海量的数据“学习”以后,也难以应对千变万化的指代对象。这种尴尬的结果其实可以追溯到中英两种语言实现衔接的差异。英文用指示代词,而中文常用具体名词指代上文内容。所以,英汉互译中指示代词的处理上,人工翻译是难以替代的。此外,两种机器翻译还有些小问题,比如谷歌机器翻译中两段引文合并后,波浪线处多了一个引号;百度翻译中波浪线处的“在”也出现得莫名其妙,这都是机器容易出现“小毛病”的佐证。

五.名词化

名词化指的是其他词类形成名词的过程,或者是指分句派生出名词词组的过程。名词化是信息类文章中常见的语法现象,名词化结构的背后常常是一个动词结构。

(P7): There is also nervousness that the Bank of Japan could scale back some of its ultra-aggressive stimulus later in 2018.

R: 还有人担心,日本央行(BoJ)可能会在2018年晚些时候缩减一部分极端激进的刺激措施。

G: 日本央行也可能在2018年晚些时候缩减一些超激进的刺激措施。

B: 还有一种紧张情绪,即日本央行可能在2018年底缩减其部分激进刺激计划。

原文中的there is nervousness,其深层的意思是people feel nervous about …,人工翻译很准确地抓到这个意思。从两种机器翻译的对比看,谷歌翻译出现漏译;百度翻译虽然没有漏译,但是译文差强人意,究其原因是被原文“有”的表层结构限制了。名词化涉及语义理解,需要看透表面的结构,抓住深层次的动作含义,这也许是目前机器翻译比较难突破的问题之一。

从人工翻译与两种机器翻译的对比可以看出,人工翻译依然优势明显,不可替代,而谷歌和百度翻译各有优缺点。百度在常用搭配的选择上超过谷歌;而谷歌收录的财经类词汇超过百度,百度需要更多的提高数据库的专业化程度。而对于长难句的处理,百度倾向于保留原文结构,而谷歌则倾向于拆分结构。尽管长句翻译一般是用拆句法,但是如果拆了以后出现漏译错译,则是得不偿失,所以需要人工翻译审核把关。神经网络机器翻译的技术虽然大大提高了机器翻译质量,但是仍然存在一些低级错误,以及翻译质量不高的问题,人工翻译,尤其是高级笔译和审校依然是不可替代的。

参考文献

[1]Wu, Y., M. Schuster, Z. Chen et al. Googles Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. arXiv: 1609. 08144v2 [cs. CL], 2016.

[2]孙茂松,周建设.从机器翻译历程看自然语言处理研究的发展策略.语言战略研究,2016(6):12-18.

[3]刘洋,神经机器翻译前沿发展.计算机研究与发展.2017,54(6):1144-1149.

[4]张美芳.文本类型理论及其对翻译研究的启示.中国翻译,2009(5):54-55.

[5]原传道.英语“信息型文本”翻译策略.中国科技翻译,2005,18(3):50-52.

[6]孙谨慎.基于文本类型理论的机器翻译研究.中国科技翻译,2016(3):27-29.

[7]罗宾·威格尔斯沃思.全球债市抛售加剧.http://www.ftchinese.com/story/001

076136/ce#adchannelID=1100.2018-2-1.

[8]Baker, Mona. In Other Words, A Course-book on Translation. Routledge, 1992: 15, 47.

[9]Halliday, M.A.K & Hasan, R. Cohesion in English. Longman, 1976.

(作者单位:空军预警学院外语教研室;对外经济贸易大学英语学院在职人员高级课程研修班)

猜你喜欢

机器翻译问题分析
隐蔽失效适航要求符合性验证分析
电力系统不平衡分析
互联网+新时代下人机翻译模式研究
“语联网+行业” 助力中国伟大复兴
大数据背景下石油科技翻译
大数据背景下石油科技翻译
电力系统及其自动化发展趋势分析
机器翻译不可盲取
演员出“问题”,电影怎么办(聊天室)
韩媒称中俄冷对朝鲜“问题”货船