APP下载

基于混合策略的多语种票据转换

2015-11-07改造者余长江钟方伟

中国科技信息 2015年23期
关键词:多语种票据词汇

改造者:余长江 马 斌 钟方伟 周 平

基于混合策略的多语种票据转换

改造者:余长江 马 斌 钟方伟 周 平

主要研究现有业务系统实现多语种票据自动转换的方法;首先阐述了多语种票据转换的必要性,然后论述多语种票据转换的关键技术,给出自动转换方法的流程,最后通过实例论证了方法的可行性,对多语种票据转换方法的扩展性做了展望。

中国实行民族区域自治政策,对少数民族聚集地区社会稳定、民族团结和经济发展起到积极的推动作用。随着信息技术在各行各业的深入应用,很多票据、单据、发票等内容还是以汉语作为唯一表述语言;部分采用双语打印的票据,由于业务或内容变更而无法及时显示准确的信息,无法满足还没有掌握汉语文字的群众需求,对服务双方的交流造成一定的障碍,从而对当地民族团结和社会稳定造成了一定的影响。

新疆是国家重要的能源基地,电力行业是新疆经济发展的重要支撑,电力行业的服务质量对新疆发展和社会稳定起着重要作用。国家电网公司推广的电力营销业务系统,操作语言只有汉语,系统在新疆本地推广存在着严重的语言问题,尤其是电费缴费业务中票据的双语显示问题,不能完全满足客户需求。

为此,需要研究一种多语种票据转换和打印方法,将汉语票据内容通过实时翻译自动转换为多语种内容,同时按照票据格式进行排版,最后在不影响现有业务系统流程的前提下,实现多语种票据打印。

现有业务系统已经形成独立、完整的系统架构,因此,增加翻译服务需要考虑对现有系统的影响,开发、部署原则应当以最小代价为基础,不影响现有系统的业务独立性。

多语种票据自动转换关键技术

图1 混合策略翻译原理

基于混合策略的翻译模式

目前,市场上自动翻译系统的翻译准确率平均在60%左右,无法满足商业用途。但是,在特定领域内,存在有针对性的翻译方法,如针对姓名、地名的专有名词翻译,基于专业术语的词汇翻译,针对大批量和重复性工作的基于记忆库的翻译方法等,能够有效提升翻译准确率,使其满足商业要求。因此,针对票据内容的翻译,可以采用基于词典、记忆库、规则等混合策略的翻译模式,来提高翻译的准确率。

由于少数民族的人名或者地名,一般采用音译的方式,尤其是人名的翻译没有统一标准,存在多个汉语名字对应同一个少数民族语言名字的情况,因此,对人名和地名进行单独翻译不但能够提升翻译效率,更重要的是可以统一翻译标准。

常用词汇翻译,一般采用基于记忆库和专业术语库的翻译方式。在某一个领域内,通过翻译训练,将常用词汇记录在记忆库或者术语库,因此,能够满足大多数商业应用的需求。其他词汇的翻译需求,需要通过通用翻译方式来实现,这种翻译方式的准确率比较低、翻译效率低,因此,在特定领域或者场景中,主要用于对前几种翻译方式

由于目前已经存在汉英、汉维、汉哈、汉蒙、汉藏等多语种的翻译引擎,因此,将票据的汉语内容实时转换为多语种,需要重点解决两个问题。

一是提高翻译的准确率

由于当前的翻译引擎自动翻译的结果准确率比较低,还不具备普遍应用的水平,不能直接应用于实际业务。但是,可以通过扩展专业术语库、提供多策略的翻译方式、多伦次的语言训练等方式来解决此问题。

二是翻译服务集成方式的选择的补充。

基于混合策略的翻译模式,其主要步骤包括:

1.分词:将翻译目标语句,按照语言特点进行分词,分分离出单词、词组等;

2.标准:结合应用场景,按照词的特性,标注词的属性,例如,人名、地名、专业术语、领域词汇、通用词汇等;

3.分类:按照标准属性,翻译引擎调用不同语料库,进行检索翻译;

4.翻译:在词汇翻译后,调用翻译引擎进行词汇组合(翻译引擎提供语意分析,按照语言特点进行语句组合),形成完整的语句方式的翻译结果;

5.还原:按照商业应用目的或者场景,将翻译结果按照目标格式组合输出。

图2 翻译服务集成架构

图3 混合策略的票据自动转换打印流程

票据转换服务集成架构

多语种翻译作为一个服务,应该与原有业务系统独立,不影响业务系统的业务流程;同时,翻译服务也不应该重复业务系统的业务流程,只需提供翻译服务或者调用业务应用即可实现多语种业务,这样既保证了系统松散耦合,又可以降低开发成本。

实现多语种翻译、票据自动转换和打印等功能,首先需要开发和集成两个服务接口:一是在业务平台上开发相应的接口服务,二是多语种翻译服务中开发相应的接口服务。导出WSDL接口描述文件,通过应用集成将服务注册部署在企业服务总线(ESB)上,通过SOAP协议方式,实现在业务平台侧的业务响应服务和多语种翻译服务侧的业务响应服务。

其次,业务应用集成满足如下两个场景:

1.多语种翻译服务发送SOAP消息给ESB上的代理服务侦听,由代理服务动态路由到业务服务,实现调用业务平台上的接口服务。业务平台上的服务在完成业务处理后实时反馈执行结果。如图中右侧虚线部分;

2.业务平台发送SOAP消息给ESB上的代理服务侦听,由代理服务动态路由到业务服务,实现调用多语种翻译的接口服务。多语种翻译服务在完成翻译处理后实时反馈执行结果。如图中左侧实线部分。

多语种票据自动转换方法

自动转换流程

多语种票据自动转换方法包括三个主要步骤:一是预处理部分,主要完成业务交互数据的封装和解析;二是机器翻译部分,主要完成基于混合策略的机器翻译过程;三是后处理部分,主要完成翻译记忆、多语种票据生成等过程。其具体流程如图3所示。

预处理部分接收XML格式的数据包,通过数据解析,判断票据的类型,提取票据内容到待翻译队列中。判断票据类型主要有两个作用:一是获取票据主要数据项,用于票据内容提取、待翻译词汇的属性标注,助于翻译方式的选择;二是针对票据格式的记录,翻译结果将会按照数据项分别输入到对应的内容框中,并根据内容框的大小调整多语种文字的大小。

在预处理提取了票据内容后,将标注了属性的待翻译信息输入到翻译引擎,翻译引擎根据属性选择相应的语料库进行实时翻译,最后将词汇翻译结果组合成目标语句翻译结果输出。

后处理部分首先将翻译结果中,标准常用属性的部分提取出来,通过记忆库检索比较,将库中没有的词汇或词组录入记忆库,以备后续应用。然后根据预处理部分解析的票据类型和格式,填充多语种翻译结果,然后生成多语种票据,以XML格式封装保存。最后将生成的多语种票据输出到业务平台进行打印。

xml票据数据结构

多语种票据转换过程中,票据数据以XML格式封装,具体格式如下例所示:

<dataset〉</dataset〉:标记数据集的开始和结束;

<headers〉</headers〉:头元素集;

<header name=”头元素名”〉头元素值</ header〉:头元素;

<parameters〉</parameters〉:参数元素集;

<parameter name=”参数元素名”〉参数元素值</parameter〉:参数元素

<datastores〉</datastores〉:数据存储集的开始和结束;

<datastore name=”数据存储名”〉</ datastore〉:数据存储集的开始和结束;

<metadata name=”元素定义名”〉</ metadata〉:数据存储集中字段元素的定义;

<rowset〉</rowset〉:多行记录集的开始和结束;

<row〉</row〉:行记录的开始和结束;

<column name=”字段名” type=”字段类型”〉字段值</column〉:字段元素。

图4 多语种票据实例

实现与展望

基于混合策略的多语种票据自动转换方法已经应用于新疆电力维汉双语营销业务系统,在营销业务应用中需要与最终用电用户确认的表卡单据,如电费发票类单据、用电申请类表单、电费账单类、客户用电事故类表单、用电设备装拆类表单、停送电通知类表单、用电检查工作类表单等实现维语打印,确保最终的用户能看懂填报内容,保证确认信息清晰、明白、理解无歧义,有效的解决了民族用户看不懂汉语票据的难题,提高了供电企业服务用电客户,满足少数民族用户需求。

基于混合策略的多语种票据转换方法,是多语种机器翻译技术商业化成功应用,对于机器翻译技术的发展和普及具有重要意义。后续,将基于多语种处理技术的研究进展、应用领域的拓展,进行针对性的改进,提升应用面和翻译性能。

10.3969/j.issn.1001-8972.2015.23.020

猜你喜欢

多语种票据词汇
青岛市多语种应急语言服务现状与需求调查研究
语联世界,言通天下
藏语称谓在多语种史料中的行用路径与语义演变
本刊可直接用缩写的常用词汇
一些常用词汇可直接用缩写
本刊可直接用缩写的常用词汇
2016年11月底中短期票据与央票收益率点差图
2016年10月底中短期票据与央票收益率点差图
2016年9月底中短期票据与央票收益率点差图
2015年8月底中短期票据与央票收益率点差图