机器翻译与人工翻译发展趋势浅析

2020-10-20张祖英

卷宗 2020年20期

摘要：随着经济全球化的迅猛发展，世界各国间交流日益频繁，因此对各语言之间转换需求量和转换速度的要求不断提高，人工翻译逐渐难以应对超负荷的翻译工作量，机器翻译由此应运而生。本文从机器翻译的历史和发展现状出发，探析机器翻译其不容忽视的优越性及应用过程中不可避免的弊端。进而得出机器翻译离不开人工翻译，人工翻译也需要机器翻译的辅助。有鉴于此，机器翻译与人工翻译之间的关系应是相辅相成的促进关系，而非水火不容的敌对关系，在未来，二者应协同发展，互补互助。

关键词：机器翻译;人工翻译;发展趋势

机器翻译，又称计算机翻译，是指运用计算机来进行不同自然语言之间的转换，一般指自然语言之间的部分或全文的翻译。近年来，各类翻译软件及翻译系统层出不穷。如2006年，Google公司开始研发并最终推出自身品牌的翻译系统。2011年，百度公司推出能够支持27种语言互译的百度机器翻译系统。随着机器翻译系统功能的不断扩充，翻译质量的不断提升，这些软件越来越广泛的应用于人们的日常生活中。特别是其在科技类文献中的翻译表现几可与人工翻译水平一较高下。由此，学界中有些声音认为人工翻译终将有一日会被机器翻译所取代，届时，人工翻译将不复存在。然而，提出此种论调的人却忽视了机器翻译不可避免的一大现实——双语对齐语料库的建立离不开人工翻译的积淀与发展。在未来，机器翻译与人工翻译，究竟是相辅相成、携手并进、共同发展？还是机器翻译有朝一日能够脱离人工翻译的基石独立发展？为此，本文将在分析机器翻译发展历史及现状的基础上，探讨机器翻译与人工翻译的发展趋势，阐明两者齐头并进、相辅相成的可能性。

1 机器翻译发展历史及现状

机器翻译（Machine Translation，MT）的起源可以追溯到17世纪有关通用语言和及其词典的思想，但实用性的成果直到20世纪30年代才出现。当时法国人Georges Artsrouni和俄国人Petr Trojanskij分别取得了通用多语机器词典的发明专利。现代意义上的机器翻译，即基于计算机的翻译，来源于工程师W. Weaver于1949年发表的《翻译》备忘录。1954年乔治敦大学和IBM首次联合实验使用电脑的机译系统，用250个词将俄文材料译成英文。这个实验标志着机器翻译进入了新的发展阶段。总体而言，机器翻译主要分为四个阶段，即基于规则的机器翻译、基于统计的机器翻译、基于实例的机器翻译和基于不同方法应用的机器翻译。

1.1 阶段一：基于规则的机器翻译

从Chomsky提出转换生成文法之后，基于规则的方法一直是机器翻译研究的主流，他认为一种语言无限的句子可以由有限的规则推导出来。早期的机器翻译系统，从体系结构上可以分为直译式、转换式和中间语言式，它们的不同点在于对源语言分析的深度，它们的相同点在于都需要大规模的双语语料积累，如源语言推导规则、语言转换规则和目标语言生成规则等。这些规则的分析涉及词汇、语法、语义等语言层面，依据源语和目的语之间的转换规则和目的语语言生成规则，将源于语言自动转换成目的语语言。基于规则的机器翻译的优点在于：规则可以很准确地描述出一种语言的语法构成，并且可以很直观地表示出来。机器可以按照一组规则来理解它面对的自然语言，这组规则包含了不同语言层次的规则，包括用以对源语言进行描述的源语言分析规则、用以对源语言和目标语言之间的转换规则以及用于生成目标语的生成规则。由此可见，基于规则的机器翻译的核心在于这些规则系统的描写和构建，其成功与否及其翻译质量的高低直接取决于这些规则描写的广度、深度及其适用性。然而，规则库的建立需要耗费巨大，即使如此，规则的完备性仍然不能得到根本保证，规则库很难包含所有的语言现象。随着规则数量的不断增加，规则之间的冲突无法从根本上避免;同时也很难用系统化的规则分类体系，用恰当的规则去刻画所有的语言特征。而且早期的规则系统通常采用的都是确定性规则，即非此即彼的规则，系统的适应性很差。

1.2 阶段二：基于统计的机器翻译

基于上述问题，如何自动地获取语言规则、如何更好地表示规则以及如何更好地增强系统的适应能力成为研究人员关注的焦点。随着大量语料库的产生，统计方法为我们提供了很好的从己有的语言资源中自动得到我们所需要的语言信息的工具，传统的基于规则的机器翻译方法研究逐步发展成为对以规则为基础、语料库方法为辅助的高性能机器翻译方法的研究。对于机器翻译来说，基于统计的方法可以从两个层面上来理解，一种是指某些概率统计的方法在具体的机器翻译过程中的应用，比如用概率统计的方法解决词性标注的问题、词义消歧的问题等。另一种较狭义的理解是指纯粹的基于统计的机器翻译，翻译所需的所有知识都来源于语料库本身。基于统计的机器翻译主要涉及模型问题、训练问题和解码问题。模型问题指建立于源于句子转化为目的语句子的翻译概率模型。训练问题指利用语料库获取翻译概率模型的所有参数。解码问题则指在已知模型和参数的基础上，查找并确定源语语句概率最大的译文。尽管统计机器翻译在一些领域取得了一定的成绩，但是它需要大量的双语语料库，而且存在着数据稀疏问题。因此，如何构建大规模的对齐双语语料库，以及找到比较好的平滑算法进行准确的参数估计，成了基于统计机器翻译系统实现中的关键问题。除此之外，要找到最优的译文，也需要好的搜索算法。

1.3 阶段三：基于实例的机器翻译

基于实例的机器翻译思想最早由Nagao提出，其基本思想是，在已有的源语言实例句库中，待翻译句子按照类比原理匹配出最相似的实例句，取出实例句对应的目标语句子，进行适当的改造，最终得出待翻译句子所相应的目标语句子。如果待译文本与语料库现有文本完全一致，可以直接获得高质量的译文。整个翻译过程实际上是一个匹配过程。它的特点是不需要对源语言进行任何的分析，仅仅是通过类比进行翻译。从翻译過程来看，句子一级对齐的双语语料库是基于实例的机器翻译系统的知识源，在基于实例的机器翻译系统中，双语对齐语料库被称为翻译记忆库（Translation Memory）。基于实例的机器翻译系统的翻译质量取决于翻译记忆库的规模和覆盖率。因此如何构建大规模翻译记忆库成为基于实例的机器翻译研究的关键问题。对于双语语料对齐研究，Gale等描述了基于长度和基于偏移量的语料库的句子和段落对齐方法，Kay提出了基于词汇特征的句子对齐方法。不过，由于大规模的双语对齐语料库建设难度大，且不多见，基于实例的机器翻译在翻译通用文献时往往很难取得较高的匹配度，但在翻译专业文献时却能取得较好的效果。

1.4 阶段四：基于混合策略的机器翻译

在基于单一方法的机器翻译中，不管采用哪种方法，总是不能取得理想的效果，究其原因，主要是因为各种方法固有的问题造成的，例如基于统计的机器翻译方法采用的二元语法模型无法解决长距离依赖问题，以及语料库的标注体系、语料库的数据稀疏等等问题，而基于规则的方法很难覆盖所有的语言现象，并且在对源语言和目标语言分析生成过程中的歧义问题解决得不够理想。于是，基于混合策略的机器翻译方法成为研究的焦点，基于混合策略的方法充分利用各种机器翻译方法的优势，避免各种方法的不足，做到翻译结果的最优化，从而达到提高翻译系统性能的目的。在基于混合策略的机器翻译系统中，基于规则的方法一般用于对源语言进行语言分析，而统计和实例的方法则对语言资源进行自动获取以及如何利用语言资源处理方面起着重要的作用。

2 机器翻译特征及其局限性

本质上，机器翻译是基于双语描写、对比和匹配结果的形式化和程式化处理，实现不同语言的自动翻译，其特征主要表现为自动化、机械性、以句子为翻译单位、二度摹仿和语境制约有限等特征。

一方面，机器翻译可以在较短时间内对大量源于文本进行翻译处理，其翻译速度及一次性处理的文本数量远超人工翻译。另一方面，机器翻译的实施可以不受工作时间的限制。只要有电脑和机器翻译系统，便可连续开展机器翻译。目前，由于相关技术的先天不足，机器翻译只能翻译源于文本的概念意义和语篇意义，而在再现人际意义方面差强人意。人际意义通常包括主观判断、价值取向和情感态度等因素，这些因素具有较强的主观性，往往会因人因时因地而异，故而很难确定不同语言在人际意义方面的对应关系。

这些问题的出现是随着机器翻译的发展带来的。机器翻译最早只能是词对词的翻译，只起到词典的功能和作用，句法的应用使得句子的翻译得以进行，使用直接翻译法可以解决，以英汉为例，当原文和译语（目的语）有高度的相似性时，可以直接对应翻译，如原文“他是个医生。”目的语就是“He is a doctor.”，随着原文结构复杂程度的增加，如长篇的段落或篇章，机器翻译在句法和语义上的问题都全部暴露。语用因素也是翻译中不可忽略的部分，由于语境的制约和文化差异，有些材料需要做出归化或异化的处理，语用规则的介入将解决语境和文化制约的翻译过程。例如成语或习语的翻译，就非常需要考虑文化差异的制约作用，不过现有的成语（习语）词典可以解决了这个问题，也可以通过语料库来解决，最棘手的问题还是上下文语境问题，目前在机器翻译领域，语用问题还没有真正得到解决。

3 机器翻译与人工翻译的关系

诚然，机器翻译的速度及其一次性翻译的文本规模远非人工翻译所能企及。但是，机器翻译又是一种机械的二度摹仿活动，其翻译文本所拥有的内涵远不及人工翻译。机器翻译以人工翻译为基础。离开人工翻译，机器翻译无从谈起。机器翻译正常运行的关键——双语对齐语料库，即是在对包含人工翻译语料在内的双语语料进行分析，并以此为基础描写双语转换规则。没有人工翻译语料，就谈不上机器翻译所赖以实施的重要物质前提。

同时，机器翻译可以协助解决人工翻译所遇到的困难，如抽象名词、专业术语和短语等。除了句法和语义，人工翻译遇到的其他问题机器翻译也同样遇到，甚至还更多，而且人工能做到的机器不一定能做到。人工翻译可以在宏观上为语篇布局，也可以在微观上斟酌词句，机器翻译却往往做不到。人工很难翻译的地方，机器同样也很难处理，这些方面包括：1）人名、地名;2）歇后语;3）双关语;4）成语;5）俚语;6）格言;7）名言隽语;8）习惯用法等等。“She is a cat.”无论如何机器翻译都很难翻译成“她阴险狡诈”，因为这要跨越文化范畴和视角来进行翻译。人工翻译能统筹各种因素，包括语言、语境、语法、语用、跨文化、美学、以及读者对象、翻译目的和各种翻译技巧和策略的综合应用，机器目前做不到。从以上句法、语义和其他各个层面的观察，不难发现机器翻译效果与标准要求依然相距甚远，必须加强句法学、语义学向计算机语言转换的研究和实践。

机器能翻译是因为人给他输入了语言构成的“规则”和一定的“语料库”，要想機器翻译的质量高，输入的“规则”和“词汇”就要多。而输入的“规则”和“词汇”多到一定的程度，就会影响机器自身的分辨能力。目前，国内外在提高机译系统的译准率上也基本处于停滞不前的状态。当然，机器翻译有它的优点：速度快、效率高，虽然质量不高但仍具有一定的可读性。在一些并不需要精确了解原文材料的场合下，用机译可能更快达到预期的目的，节省很多人力、财力和时间。而且，随着语言学研究的进展，机译的质量也可能会越来越好。协同翻译是一项大规模、复杂的翻译任务，合理的流程设计和严格的过程控制可以充分发挥计算机在运算和存储方面的优势，降低用户工作量，减少重复劳动的概率，对于进一步扩大翻译规模、提高翻译生产率具有重要作用。但是，不论机器翻译的质量如何提高，机译和人译总会有差距，机器翻译也不可能取代人工翻译。机器翻译只能由其特定的使用对象在特定的范围中使用。

4 结语

综上所述，机器翻译的特征主要表现为自动化、机械性、以句子为翻译单位、二度摹仿和语境制约有限五大特征。由于这些特征的制约，机器翻译通常适用于科技文本和法律文本等程式化文本或信息性文本的翻译。而文学类等表现性文本的翻译则需要由人工翻译来承担。机器翻译离不开人工翻译，人工翻译也需要机器翻译的辅助。有鉴于此，机器翻译与人工翻译之间的关系应是相辅相成的促进关系，而非水火不容的敌对关系，在未来，二者应协同发展，互补互助。

参考文献

[1]Josef F， Ney H. Discriminative Training And Maximum Entropy Models for Statistical Machine Translation. In： proc. of the 40th ACL， Philadelphia， 2002

[2]Martin K. Text Translation Alignment Computational Linguistics，1993

[3]William A G， Church K W. A Program For A1igning Sentences in Bilingual Corpora. In： proc. of the 29th ACL，1991.

[4]董振东.中国机器翻译的世纪回顾[N].计算机世界，2003.

[5]冯志伟.自然语言机器翻译新论[M].北京：语文出版社，1995.

[6]冯志伟.自然语言的计算机处理[M].上海外语教育出版社，1996.

[7]蒋跃.人工译本与机器在线译本的语言计量特征对比[J].外语教学，2014.

[8]胡开宝，李翼.机器翻译特征及其与人工翻译关系的研究[A].中国翻译，2016.

[9]潘正芹，罗华珍，易永忠.机器翻译的困境、前景和出路[A].山东农业工程学院学报，2017.

[10]吴思乐.机器翻译与人工翻译浅析[A].广东交通职业技术学院学报，2003.

[11]叶娜，张桂平，韩亚东，蔡东风.从计算机辅助翻译到协同翻译[A].中文信息学报，2012.

[12]张克亮.机器翻译热的冷思考[A].计算机工程与应用，2006.

[13]张政.机器翻译难点所在[J].外语研究，2005.