APP下载

英语翻译软件翻译准确性矫正算法设计

2018-07-27黄登娴

现代电子技术 2018年14期
关键词:机器翻译

黄登娴

摘 要: 传统机器翻译方法采用管道式逐次操作对原始语料实施词性标识以及句法分析,获取英语语言的句法结构,使得翻译任务间存在的错误迭代传递、结构化实例准确性降低,导致英语语言文学翻译准确性降低。因此,对英语语言文学中的机器翻译准确性方法进行校对研究。设计基于知网的词汇语义相似度以及对数线性模型,采用汉英依存树到串的方式保存对应的双语语料,对源语言端实施依存结构化处理,确保汉英双语的对应关系,通过知网运算输入需要翻译句子(依存树结构)同实例库内源语言(依存树结构)中词汇的语义相似度。描述了机器翻译中相似实例检索模块以及译文生成模块的实现过程,通过面向数据的翻译模型进一步校对英语语言的准确翻译。实验结果表明,所提方法可得到准确率高的译文,具有较高的准确性和稳定性。

关键词: 英语翻译软件; 机器翻译; 翻译准确性; 语义相似度; 矫正算法; 迭代传递; 依存树结构

中图分类号: TN912.3?34; TP391.2 文献标识码: A 文章编号: 1004?373X(2018)14?0170?03

Design of translation accuracy correction algorithm for English translation software

HUANG Dengxian

(Civil Aviation Flight University of China, Guanghan 618300, China)

Abstract: In the traditional machine translation method, the syntactic structure of English language is obtained by using the pipeline?type successive operation to perform part of speech identification and syntactic analysis of the original corpus, as a result, wrong iterative transfers exist, and the accuracy of structured examples is reduced in translation tasks, which reduces the accuracy of English language and literature translation. Therefore, a proofreading study is conducted for the machine translation accuracy method in English language and literature. The HowNet?based lexical semantic similarity and logarithm linear model are designed. The Chinese?English dependency?tree?to?string mode is adopted to store the corresponding bilingual corpus, so as to perform dependent structured processing of the source language terminal, and ensure the corresponding relationship between Chinese and English. The lexical semantic similarity degree between sentences (dependency tree structure) to be translated and the source language (dependency tree structure) in the instance base is operated and input by using the HowNet. The implementation processes of the similar instance retrieval module and translation text generation module in machine translation are described. The accurate translation of English language is further proofread by means of the data?oriented translation model. The experimental results show that the proposed method can obtain translation texts with high accuracy rate, and has high accuracy and stability.

Keywords: English translation software; machine translation; translation accuracy; semantic similarity degree; correction algorithm; iterative transfer; dependency tree structure

机器翻译是自然语言操作范围中的关键,具有较高的应用价值。依据实例的机器翻译是一种经验主义的英语语言文学翻译策略,其无需复杂的深层次语法以及语义的分析,提高了英语语言翻译的效率。但是基于实例的机器翻译方法对实例库质量的要求较高[1]。传统机器翻译方法采用管道式逐次操作对原始语料实施词性标识以及句法分析,获取英语语言的句法结构,使得翻译任务间存在的错误迭代传递、结构化实例准确性降低,导致英语语言文学翻译准确性降低。针对该问题,本文研究了英语语言文学中的机器翻译准确性方法,塑造并实现基于汉英依存树串实例的机器翻译系统,提高了英語机器翻译的准确性。

1 基础算法与模型

1.1 依存树到串模型

依存树到串的模型为是一个翻译对,D表示源语言的依存树,S表示源语言的目标词语串,A用于描述D与S间的词对齐关系[2?3],依据依存树到串双语对齐模型的实例如图1所示。

图1实例上端时源语言的依存树D,D内各街道包括词语以及词性两个特征,各词语下的英文表示单词对应的词性,如NN表示名词,VV表示动词,JJ表示形容词等。单词中的线段用于描述词语间的依存关系。实例下端时中文句子对应的英文字符串序列S。上端和下端的虚线用于描述中文单词节点同英文单词间的对齐关系[4]。

1.2 基于知网的词汇语义相似度

相似度的取值范围是[0,1],不同词语[W1],[W2]间的语义相似度为:

[Simsemantic(W1,W2)=maxi=1,2,…,n,j=1,2,…,mSim(S1i,S2i)] (1)

式中,[S1i(i=1,2,…,n)]以及[S2i(i=1,2,…,m)]用于描述词语[W1],[W2]中存在的n个以及m个概念。两个词语的语义相似度是两词各概念相似的最高值。

词语的概念相似度能够采用概念的义原相似度进行描述,采用式(2)运算义原[p1]以及[p2]的相似度:

[Sim(p1,p2)=αd+α] (2)

式中:[α]是可调控参数;[d]是两个义原在义原树中的路径距离,其值非负。

1.3 对数线性模型

对数线性模型采用多特征思维的判断模型[5]。针对一个设定的句子[fJI=fI…,fj…,fJ],形成译文[eJI=eI…,ej…,eJ],其最大熵的翻译模型是:

[eJI=m=1MλmhmeJI,fJI] (3)

对数线性模型可拓展性强,能够针对不同的目标要求设置对应特征,可将多种多样的语言学方法运用到机器翻译中。正反向翻译概率以及译文语言模型等特征函数,是机器翻译系统的主要形式[6]。基于翻译系统的实际要求自动设置特征函数以及相应的特权权重,依据式(3)获取对产生的译文评分分数最高的最优译文。

1.4 机器翻译系统的实现

采用Sato & Nagao方法对依存机构描述,将依存树到串对齐实例的源语言依存树实施形式化描述,通过匹配描述式方法对实例库内的实例片段实施检测,获取输入句子,实现相似实例检测。匹配表达式采用替换、过滤以及增加三种方式[7?8]。在没有依存树架构关系层的目标语词串中,相应的译文表达式也随之改变[9]。以下是源语言依存树到串实例D3以及实例D5在实例库中的结构展示:

D3:[c2],[购入],

[c22,[她,PN]],

[c23,[XX]]

%%我购入XX

S3:[e21,she]

[e22,buy]

[e23,XX]

%%i buy XX

A3([c21,e22],[c22,e21],[c23,e23])

%%c21[?]e22,c22[?]e21,c23[?]e23

D5:[c51,[书NN]],

[c52,[一,CD]],

[c53,[英语NN]],

[c54,本DT]

%%一本政治书

S5:[e51,a]

[e52,english]

[e53,book]

%%a english book

A5([c51,e53],[c52,e51],[c53,e52],[c54,e51])

%% c51[?]e53,c52[?]e51,c53[?]e52,c54[?]e51

实例库中,像e21,e51这样的标识是以单词顺序进行标号的,目标词语串S的标号是前标中有“e”。针对例句“她购入一本英语书”,融入源语言实例D3与D5检测获取[c21,[r,c23[c51]]]是其中一个相应的表达式[10]。通过该目标匹配表达式获取输入语句的目标语译文是:

I buy a politics book。

依据本文对数线性模型,运用的特征函数为:

1) 正反向翻译概率,当单词量相同,被译句子和译句实例间存在相同的单词量较多,运用的特征函数会产生更正确的译文。

2) 语言模型。产生译文的品质用该函数来衡量,提高译文的流畅度。本文通过目标语言的语言模型可求出目标语言中存在翻译片段的概率。

2 实验分析

2.1 实验设置

实验语料为CWMT 2015官方测评采用的汉英新闻语料,从中采集大约42万句对英汉平行语料,当成双语实例库的初始语料。将CWMT 2015官方评测用的测试集当成测试集,实验语料情况如表1所示。

2.2 实验结果及分析

为了检测本文系统的有效性,实验基于表1的语料库,对比分析本文系统、基于语义语言的机器翻译系统以及开源的统计机器翻译系统的翻译结果见表2。

表2中的BLEU是对待评估译文和参考译文的n?单位片段实施对比分析,运算出匹配片段的数量越高,待评估的译文质量越好。NIST是译文质量评估的计量标准,用于评估译文单位量译文的质量,其值越高,说明译文质量越佳。分析表2可得,本文系统BLEU值以及NIST值都高于其他两种系统,说明本文机器翻译系统的性能更优,是一种有效的英语语言文学翻译方法。

实验从三种翻译系统的译文结果中采集局部译文实施分析,表3是测试集中语句“信息产业呈现快速发展趋势”,采用三种翻译系統翻译获取的译文情况。

分析表3中三种翻译系统的翻译差异在于对“快速发展”一词,开源的统计机器翻译系统翻译的译文是“fast change”,基于语义语言的机器翻译系统的翻译的译文是“keeping the momentum going”同原词存在较高的偏差,不符合英语的语法和语义。而本文系统对该词的翻译结果虽然同参考翻译语序不一致,但是语义却满足要求,具有较高的准确性。

表4和表5是本文系统和基于语义语言的机器翻译系统对实验语料库中的语句进行英译汉以及汉译英的翻译结果。两个表中的首列是两种系统对各句子翻译结果的平均数,本文系统的平均数小于基于语义语言的机器翻译系统,表明本文系统形成不准确的结果较少。分析两个表中的第2列翻译结果中准确翻译的召回率,也就是准确的翻译数比重,可以看出,本文系统的召回率更高。分析两个表内的第3和第4列可得,本文系统的翻译结果中首位以及前2位的正确翻译率,比基于语义语言的机器翻译系统高8~9个百分点以及11~13个百分点。综合分析这些结果可得,本文系统提高了翻译结果的准确性,具有较高的英语语言文学翻译性能和稳定性。

3 结 论

本文对英语语言文学中的机器翻译准确性方法进行研究,塑造并实现基于汉英依存树串实例的机器翻译系统,完成英语语言文学的准确翻译。

参考文献

[1] 汪昆,宗成庆,苏克毅.统计机器翻译和翻译记忆的动态融合方法研究[J].中文信息学报,2015,29(2):87?94.

WANG Kun, ZONG Chengqing, SU Keyi. Dynamic combination of statistical machine translation and translation memory [J]. Journal of Chinese information processing, 2015, 29(2): 87?94.

[2] BAKHVALOV P A, KOZUBSKAYA T K. Modification of flux correction method for accuracy improvement on unsteady problems [J]. Journal of computational physics, 2017, 338: 199?216.

[3] 季铎,马斌,叶娜.交互式机器翻译中译文查询行为的预测技术[J].计算机应用,2015,35(4):1009?1012.

JI Duo, MA Bin, YE Na. Prediction technology of translation query behavior in interactive machine translation [J]. Journal of computer applications, 2015, 35(4): 1009?1012.

[4] ZHANG C, CHENG Y, ZHU L, et al. Accuracy improvement of the immersed boundary: lattice Boltzmann coupling scheme by iterative force correction [J]. Computers & fluids, 2016, 124: 246?260.

[5] 李英军.机器翻译与翻译技术研究的现状与展望:伯纳德·马克·沙特尔沃思访谈录[J].中国科技翻译,2014,27(1):24?27.

LI Yingjun. The present situation and prospect of the research on machine translation and translation technology: an interview with Bernard Mark Shuttleworth [J]. Chinese science & technology translators journal, 2014, 27(1): 24?27.

[6] 刘智颖,郭艳波,晋耀红.汉英机器翻译中格式转换研究[J].计算机工程与应用,2014,50(6):192?196.

LIU Zhiying, GUO Yanbo, JIN Yaohong. Format conversion in Chinese?English machine translation [J]. Computer engineering and applications, 2014, 50(6): 192?196.

[7] 余洪英.基于决策树的商务英语实践教学成效评价[J].科技通报,2016,32(2):229?232.

YU Hongying. Business English practice teaching performance evaluation based on decision?making tree [J]. Bulletin of science and technology, 2016, 32(2): 229?232.

[8] 张冬梅,晋耀红.面向专利机器翻译的要素句蜕识别和转换研究[J].计算机科学,2014,41(z1):67?71.

ZHANG Dongmei, JIN Yaohong. Recognition and transformation for element sub?sentences in patent machine translation [J]. Computer science 2014, 41(S1): 67?71.

[9] 李强,李沐,张冬冬,等.统计机器翻译中实例短语对研究[J].北京大学学报(自然科学版),2016,52(1):113?119.

LI Qiang, LI Mu, ZHANG Dongdong, et al. Research on example?based phrase pairs in statistical machine translation [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2016, 52(1): 113?119.

[10] PAN L, LI S, JIA H, et al. Error correction and evaluation for axis translation test technique [J]. Journal of Shenzhen University, 2017, 34(3): 259?260.

猜你喜欢

机器翻译
机器翻译不可盲取
信息时代下机器翻译的“可译”与“不可译”
互联网+新时代下人机翻译模式研究
“语联网+行业” 助力中国伟大复兴
大数据背景下石油科技翻译
大数据背景下石油科技翻译
机器翻译不可盲取
基于免费在线翻译工具的机器翻译缺陷探讨
汉哈机器翻译中的文字转换技术研究
机器翻译句法错误分析