APP下载

铁路12306互联网售票系统多语言服务方案及自动翻译模型研究

2023-10-20杨立鹏郝晓培王思宇

铁道运输与经济 2023年10期
关键词:购票旅客记忆

杨立鹏,郝晓培,易 超,段 然,王思宇

(中国铁道科学研究院集团有限公司 电子计算技术研究所,北京 100081)

0 引言

随着“一带一路”建设、铁路“走出去”不断深入推进与发展,高速铁路服务的旅客群体越来越广泛,语言服务已经成为我国现代化进程中不可缺少的语言生活现象,在政治、经济、文化建设中都发挥着重要的作用。2016 年《国家语言文字事业“十三五”发展规划》中提出要将“提高国际语言文字服务能力”作为重要的任务之一,更加明确了语言服务在对外经贸合作和人文交流的重要地位[1]。为了满足国内外旅客多元化的客票服务需求,以及为北京冬奥会不同旅客人群便捷购票出行提供保障支持,12306 互联网售票系统作为铁路旅客购票最主要的窗口,其国际化需求也变得越发迫切,通过构建多语言售票环境,为不同国家及地区的潜在旅客提供多语种选择服务,设计更加贴合其使用习惯的交互流程,充分体现出我国铁路以旅客为中心的服务理念[2-3]。12306 互联网售票系统多语言售票环境所提供的语言越多,其开发和维护的工作量就越大,提供多语言的铁路售票环境往往意味着成本的节节攀升,需要权衡这两者之间的关系,用更小的投入提供更有效的多语言售票服务。

1 相关技术分析

1.1 多语言服务系统架构设计

当前国内提供多语言环境的交易系统相对较少,比较多的是一些以提高用户认知为主的产品介绍性网站,最常见的多语言服务实现方案主要有多语言多套页面和多语言内容管理2 种[4],均具有一定的优势与弊端。

(1)多种语言多套页面。针对不同的语言需求开发对应的页面程序存储在不同的目录下,通过不同的URL实现跳转[5],前端工程师可以针对不同语言特点对页面的内容和布局进行调整,无需考虑多语言的兼容性问题,灵活性大,对用户体验较好。但是多套页面存在大量冗余代码、程序可复用性低、服务运维成本高和服务器空间浪费等问题。

(2)多语言内容管理。通过引入多语言内容管理数据库,将业务信息人工翻译为不同语言,并存到相应的表内,提供唯一的索引ID,通过传入语言类型表示,其多语言化插件通过制定参数获取多语言内容数据库中对应语言的文本提供服务[6]。由于系统多语言内容存储在不同的表中,可以基于不同的参数在相同的业务代码完成语言切换,降低了开发成本,代码复用性高且代码冗余度低,且人工翻译方式能够保证翻译质量。

1.2 多语言翻译技术

目前主要的翻译手段包括专家直译和机器自动翻译[7-9]。其中,专家直译能够理解语言在不同目标语言、不同行业、不同应用场景所传达的含义,能够确保翻译的准确率,但存在处理时间较长、成本较高等问题;机器自动翻译采用人工智能相关算法进行翻译,虽然处理时间短、成本较低,但准确率无法得到保证,为了满足要求往往需要润色,常用的机器自动翻译包括以下2类。

(1)统计机器翻译。在大规模多语言平行语料库的基础上进行训练和模型参数调试,构建统计翻译模型,从而实现一种语言到多种语言的转换,具有降低人工成本、提高开发周期等优点,故在20 世纪90 年代,谷歌、百度等知名公司的翻译平台以此为主,并得到了广泛应用,但也存在线性不可分、数据稀疏及语义表达不准确等缺点。

(2)神经网络机器翻译。将源语言句子序列,通过输入神经网络模型映射为目标语言句子序列,采用连续向量表示构建翻译过程,避免了统计机器翻译独立性假设过强的问题,同时提高了泛化能力。

2 铁路客运多语言售票环境方案设计

铁路客运售票系统对外服务渠道主要包括12306 互联网售票系统(12306网站、12306APP、小程序)、车站窗口、车站自动售票机、车站大屏、电话订票等。多语言售票环境需要覆盖各个售票渠道,为满足旅客的多元化需求,更好地支撑多语言票务场景,在不增加系统开销、不增加旅客使用成本的前提下对铁路客运售票系统架构进行重新设计[10],增加了多语言支撑服务模块及多语言环境切换模块,构建一套可以适配多售票渠道且自适应的多语言售票环境,赋予原有系统更加灵活的扩展性,且支持用户手动在不同模式间灵活切换的系统。为了满足不同渠道的多语言售票环境,将多语言支撑服务模块跨网部署,多语言环境切换模块分散部署的方式以实现多语言环境兼容不同售票渠道。

多语言售票系统架构如图1 所示,红线部分为新增的服务调用轨迹,以12306APP 为例,在APP客户端与售票服务之间增加多语言环境切换以传入不同的参数,实现多语言切换,在售票服务与互联网售票应用服务之间增加多语言支撑服务与业务服务解耦,实现不同语言环境在服务端的语言切换;在售票服务与互联网售票应用服务之间增加多语言支撑服务模块实现不同语言内容的转换。

图1 多语言售票系统架构Fig.1 Multilingual ticketing system architecture

2.1 多语言环境切换

为了满足12306 互联网售票系统的多语言售票开发需求,将初期的系统架构进行调整,基于功能抽象的构建模式,在应用层之上构建Adapter层。应用层架构对比如图2 所示,以12306APP为例,根据APP启动时携带的个性化参数来创建不同的应用,从而突破应用层只能服务于单一软件系统的瓶颈限制。

图2 应用层架构对比Fig.2 Comparison of application layer architecture

Adapter层可对语言包资源、应用内文字大小、识读功能及容器的User-Agent 等系统特征进行个性化配置,并根据以上配置来控制要加载渲染的HTML5资源,以实现应用级横向的扩展能力,让原有的单一的架构具备更加灵活多变的特性。

(1)多语言切换时原生端与HTML5实时双向响应。由于12306APP 标准版客户端与HTML5没有直接交互、通信的方法,所以多语言APP 使用Hybrid方式进行开发,在HTML5利用HEAD请求将功能调用参数和回调函数注入到浏览器中,原生端通过网络请求代理,对浏览器内发起的请求进行拦截、解析,使用HTML5 注入的参数完成指令代码后(如切换语言),将结果通过回调函数通知HTML5侧,HTML5 获取到结果后做出预期处理,进而完成了一次双向响应。

(2)语言切换、语言词典动态更新及语种拓展功能的实现。在12306APP多语言版本首次安装时,在新特性页中提供了语言选择的功能,进入APP后用户还可以在设置页中进行语言的变更,用户选择的语种会进行持久化存储,在APP每次启动时,通过动态读取持久化数据来设置用户使用的语言,并加载相应的语言包。语言词典更新和语种拓展是借助原生基座提供的离线包发布能力,将页面资源和其用到的语言词典捆绑在一起,构建为离线包,当语言词典需要更新时,构建新版离线包,通过服务端进行发布,客户端感知到离线包有迭代时会主动拉取并对APP内资源进行替换更新。

2.2 多语言支撑服务模块

由于依托既有的售票系统架构进行多语言功能的扩展,为保障既有售票系统运行平稳,同时兼顾多语言系统的快速集成,设计在12306 互联网售票系统中增加多语言支撑服务模块。此模块独立于其他既有子系统结构,不会对子系统服务造成影响,利于快速迭代开发,该模块以售票环境多语言翻译结果为基础,通过以下2种方式实现。

(1)多语言多套页面。将12306 互联网售票系统内比较稳定、更新频率较低的页面,采用多语言多套页面的方式进行部署。以中文版本的网站结构和数据为基础,翻译出不同语言版本,并最终确保所有URL 链接的有效性。将不同语言的页面存放在不同的目录下,各语言版本表现出的页面内容和布局并不完全一致。

(2)多语言内容管理。12306 互联网售票系统通过预置语言资源包的方式,解决客户端固定语言文字的多语言处理场景[11]。多语言内容管理服务端针对不同人群、不同业务等响应的语言文字进行多语言翻译处理。多语言内容管理如图3 所示,多语言支撑服务在实现过程中结合客户端请求携带的语言环境标识,建立了不同业务术语的编码映射关系,形成了不同的语言资源包,通过对语言环境标识判断,获取对应的语言文字进行响应。需新增语言支持时,只需增加相对应的语言资源包即可。例如,服务端如需返回“输入密码错误。”,响应值返回到多语言支撑服务的值为“ASU.2029”编码,此时多语言支撑服务判断用户语言环境去对应的语言资源文件获取映射提示,如果是英文返回提示语“Incorrect password.”,如果是简体中文则返回“输入密码错误。”提示。

图3 多语言内容管理Fig.3 Multilingual content management

3 融入翻译记忆的神经网络自动翻译模型

12306 互联网售票系统作为专业性强、用户体验要求高的服务系统,其不仅存在一些客运特有的专业术语,而且针对不同的名词及语句具有固定的翻译方式,而当前常见的机器自动翻译无法将业务特点融入到翻译过程中,其翻译结果相对于人工翻译准确度较低,翻译质量很难得到保证,很难适应铁路客运售票的各个环境,为了解决该问题,研究提出融入翻译记忆的柔性匹配翻译技术,即利用术语翻译标准和翻译质量较高的句子,直接抽取其中相似的部分辅助翻译,在融入行业数据的同时减少翻译工作量。

3.1 翻译记忆资料库

多语言售票环境翻译模型的翻译记忆库主要包括铁路购票环境基本语料库和柔性翻译资料库2部分。

(1)铁路购票环境基本语料库。由业务专家根据铁路客运的业务特点提取旅客购票环节涉及的各种专业名词并对其进行翻译,定义不同专业术语以及常用句子的目标语言,具有一定的权威性,铁路购票环境基本词汇语料库(样例)如表1所示。

表1 铁路购票环境基本词汇语料库(样例)Tab.1 Basic vocabulary corpus for railway ticketing environment (sample)

(2)柔性翻译资料库。铁路12306 互联网售票系统双语系统构建初期,为了保证翻译质量,通过业务专家指导,专业翻译人员对旅客购票过程可能需要的提示信息进行翻译,生成一批质量较高的中英文对应关系资料库。12306 互联网售票系统的语言偏重功能性和交际性,属于应用型文本,不同于传统的叙述型文本,具有实用性强、词汇通俗易懂、信息凝练的特点。词条多为弹窗、按钮或提示性话语,对应某个具体的应用场景,用于提示信息或指引用户完成相关操作,从而便捷、高效、精准地办理购票、退改签和乘车信息查询等业务。从软件使用者的角度出发,在有限空间内最大限度地传递有效消息,提炼并重现中文词条的核心意义,使用准确严谨、清晰简明同时又符合目标用户的文化观念、阅读心理、语言习惯的表达方式进行灵活翻译,以便于使用者能够快速理解并做出判断[12]。

为达到“柔性翻译”的效果[13],主要采取的翻译方法可归纳为以下5种,翻译方法示例如表2所示。

表2 翻译方法示例Tab.2 Translation method examples

最后将翻译记忆资料库存入Elasticsearch 搜索引擎内,以方便搜索。

3.2 模型构建

融入翻译记忆的自动翻译模型的主要流程是:将源语言句子进行分词处理,并使用搜索引擎从翻译记忆资料库中检索与源语言句子分词相对应的目标语言翻译。

(1)相似语料搜索。首先将源语言句子S进行分词生成{v1,v2,…,vn},过滤出铁路客运专业名词{h1,h2,…,hm}作为翻译记忆专业术语候选集,在存储介质Elasticsearch 的翻译记忆资料库检索出专业名词的双语信息,同时也搜索与源语言句子S相似度较高的Top-50 相似双语句子,最后利用公式⑴重新计算相似度并重新进行排序,保持Top-K(K<50)个双语句子作为S的翻译记忆句子候选集{s1,s2,…,sk}(可能不包含铁路客运专有名词)。

式中:dist为编辑距离;S为源语言句子;Stm为从翻译记忆中获取的与源语言句子相似的句子表示。

翻译质量的高低与铁路客运专业名词的识别度及K的个数有关,铁路客运专业名词的有效识别能够融入铁路售票的业务场景,用<hi,pi>表示句子S中专业名词的双语信息,翻译记忆句子候选集越大能够提高日常用语的翻译质量越高,但是由于计算复杂度与K的大小线性相关从而影响翻译速度,为了保证模型速度,选择Top-1作为翻译记忆句子候选集,用<Stm,Ym>表示与句子S最相似的双语句子。

(2)翻译记忆编码。分别基于翻译记忆专业术语候选集TV<hi,pi>和翻译记忆句子候选集TS<Stm,Ytm> 构 建 矢 量 序 列Q,P。

Q:按照源句子S中专业术语的顺序构成的矢量序列,TV<hi,pi>中每个词汇对S重要程度相对于TS<Stm,Ytm>内的词汇都高。

P:翻译记忆句子候选集的相似句子Stm包含与源句子S匹配和与源句子S不匹配2 部分,且TV<hi,pi>内每个词汇对S的重要性不同,利用fastalign工具获取Stm和Ytm之间的对齐信息Ctm,若Cjtm=1则表示yj与某个si对齐,否则为0,其中si属于原句子S,以此为基础将M定义为

式中:M表示矢量序列;◦表示向量与矩阵之间的运算;Ctm表示源句子S与Stm之间的对齐分数;Btm表示源句子S与Stm之间的相似度得分;Etm为单位矩阵。

(3)自动翻译模型构建。在训练步骤i,Q,P以及已有的翻译序列Y<i的情况下可以为源语言句子S构 建 模 型R(yi|S,Y<i,Q,P)R(yi|S,Y<i,Q,P),整个自动翻译模型的目标函数定义为

自动翻译模型构建如图4 所示,其结构与Transformer 神经网络相似[14],其关键组件为示例层,包括3 个双头注意力机制[15],其中左侧多头注意力机制与标准的Transformer 相同,中间的注意力机制尝试从翻译记忆句子候选集中捕获信息,其查询来自Y<i,而键(Keys)和值(Values)来自翻译编码表示序列P,右侧多头注意力机制捕获翻译记忆专业术语候选集中的信息,其键(Keys)和值(Values)来自翻译编码表示序列Q,将3 部分多头注意力机制并行处理后,获得ADD&Norm运算,将获得的新序列作为下一次多头注意力机制的查询,模型其他部分与Transformer相同。

图4 自动翻译模型构建Fig.4 Automatic translation model building

4 运营情况

前期12306 互联网售票系统仅提供中文售票环境和信息化服务,为外籍旅客带来了一定的购票不便,因而大部分的外籍旅客采取线下购票,以降低信息交互带来的困难。在2021年12月多语言系统上线之前,12306 互联网售票系统中每个月外籍旅客注册比例相对平稳,均在1‰以下,在2021年12月上线以来特别是北京冬奥会期间,外籍旅客注册比例增长较为明显,最高达到了上线之前的3倍。

自12306 互联网售票系统上线以来,外籍旅客购票共计4 538.77 万人次,外籍旅客购票占全部互联网购票旅客0.22%。外籍旅客购票量如图5所示,自2021 年12 月多语言服务上线后特别是北京冬奥会期间,外籍旅客通过自己的账号在12306 互联网售票系统购票的比例逐步上升,最高达到上线之前的2倍。

图5 外籍旅客购票量Fig.5 Ticket purchase volume of foreign passengers

12306 互联网售票系统英文渠道售票情况如图6 所示,自12306 互联网售票系统多语言服务上线以来,英文版本的网站和APP 售票量逐步增加,到2022年3月底已累计售票15万张。

图6 12306互联网售票系统英文渠道售票情况Fig.6 English ticket sales of 12306 Internet ticketing system

综上所述,12306 互联网售票系统多语言服务上线以来,外籍旅客的注册比例和购票比例增长较为明显,通过提高外籍旅客的购票体验,吸引了大量的外籍旅客。

5 结束语

随着“一带一路”建设的不断推进,12306 互联网售票系统作为唯一的官方售票渠道,提供多语言购票环境为外籍旅客提供高品质的服务变得尤为重要。研究首先优化了当前售票系统架构,实现12306网站/APP和自动售票机等售票渠道为外籍旅客提供英文版人机交互界面,提高信息交互传输效率及用户视觉传达效能,提出融入铁路行业特点的翻译记忆神经网络翻译模型,使自动翻译在翻译的过程中融入翻译记忆库,并对最终结果进行柔性匹配处理,提高了自动翻译在铁路12306 多语言售票环境中的翻译质量,降低了人工翻译成本。多语言售票系统打破不同国家和地区游客在中国购买火车票过程中遇到的语言障碍,大幅提升了外籍旅客的出行体验,为北京冬奥会的成功举行、畅通国内国际双循环、服务“一带一路”建设发挥了积极的作用。

猜你喜欢

购票旅客记忆
不同的购票方法
非常旅客意见簿
直击痛点的“候补购票”可多来一些
铁路候补购票服务扩大到全部列车
我是人
记忆中的他们
给小旅客的礼物
儿时的记忆(四)
儿时的记忆(四)
记忆翻新