铁路客服智能语音导航系统设计与应用研究

2020-10-28蒋秋华陈华龙赵黄凯韩可可王亚军

铁路计算机应用 2020年10期

蒋秋华，陈华龙，赵黄凯，韩可可，王亚军

（1.中国铁道科学研究院集团有限公司电子计算技术研究所，北京 100081；2.北京经纬信息技术有限公司，北京 100081）

随着我国铁路客货运输能力的不断提升，尤其是铁路12306 互联网售票系统售票量的大幅增长，面向广大旅客和货主客户的铁路客服中心已经成为铁路提高服务质量的一个重要窗口和平台。中国铁路客服中心自2010年建设以来，已经建成了18个区域性客服中心，单日人工呼入话务峰值达到14万通，铁路客户服务水平得到了极大的提升[1]。

铁路客服语音导航系统是铁路客服中心重要组成部分，主要服务于旅客，通过交互式语音应答（IVR，Interactive Voice Response）自动向旅客提出语音提示，引导旅客选择所需要的服务，最后由专业的客服人员进行解答。这种方式为半自动客户服务方式，通过专业人员解决专业问题的方式提高服务效率，但是存在引导层次过深、用户体验差、服务标准不一致、人工服务成本高等不足[2]。

随着自然语音处理（NLP，Natural Language Processing）技术尤其是智能语音识别技术的飞速发展，智能语音服务技术及系统日臻成熟。谷歌、微软、苹果、阿里巴巴、科大讯飞等国内外公司都开发了商用的智能语音服务系统[3]。智能语音服务已经成为客服中心发展的必然趋势。

由此可知，应用智能语音服务技术改进现有铁路客服语音导航系统具有十分重要的意义。本文针对现有系统的不足，结合铁路客服语音应用场景的特点，应用智能语音识别技术设计了铁路客服智能语音导航系统，实现了全自动的智能语音服务，可在降低人工成本的同时，提升中国铁路客户服务中心热线的客服效率和品质。

1 系统设计

铁路客服智能语音导航系统是融合了NLP、信息检索、语音合成（TTS，Text To Speech）、语音识别（ASR，Automatic Speech Recognition）等技术的人工智能产品。为了改善信息检索的用户体验，系统以自然语音为输入，理解用户的查询意图后，通过检索、分析与处理，将以自然语言的形式表述的准确答案返回给用户，从而提供一种更加方便、友好和精准的服务。

1.1 系统架构

铁路智能语音导航系统依托基础运行环境提供线性伸缩的计算存储资源，采用ASR、TTS、NLP等技术构建导航引擎层[4]，通过对接电话自助服务系统，实现人机语音交互对话控制，涵盖业务逻辑处理、语音交互流程设计、识别处理等功能，如图1所示。

图1 智能语音导航系统架构

（1）基础架构层：实现系统语音识别、合成、自然语言处理和数据存储。

（2）导航引擎层：包括端点检测、声纹识别、语音识别、语音合成、语义理解等智能语音识别的核心模块，实现语音信号的起止端点检测、语音识别和语音理解，将旅客的语音转换为文字。语音合成引擎实现将文字按照选择的声学模型转换为语音信号播报给旅客[5]。

（3）导航服务层：主要实现将核心引擎功能封装成服务接口方式供上层应用调用。

（4）导航应用层：集成电话自助服务系统，设计业务交互流程，提供人机自助对话交互能力。

（5）语音接入层：对外提供接口适配、语音流适配、多渠道适配、协议适配。

1.2 系统功能

为实现系统全业务语音导航、节点间自由跳转、菜单扁平化，系统需具备智能打断、全局命令（重听、转人工、返回）、多轮交互、上下文理解、业务指引提示、错误处理等功能。

（1）智能打断：旅客无需等待提示音播放完成，可以随时打断、说出自己的需求。打断的方式支持语音打断和按键打断。

（2）全局命令：旅客在任何识别状态下，都可以说出一组特定的命令词，每个特定命令词对应特定的功能，从而方便用户快速回到主菜单、上一层，获得系统帮助。例如，用户可以在任何支持识别的环境中说“转人工”，系统都可以转到人工服务，具体命令详见表1。

表1 命令及作用

（3）多轮交互：以余票票价查询为例，余票票价多轮交互流程如图2 所示。

图2 余票票价多轮交互流程

（4）上下文理解：用户在系统交互过程中，需要通过多次会话交互才能获取想要的答案，因此，需要系统具备上下文理解功能，避免用户重复问答，影响用户交互体验。

（5）业务指引提示：用户根据提示说完需求后，系统会立即返回相应的业务指引，发出提示音（业务名称），使用户可以明确目前所处的业务及业务状态。对于用户而言，业务指引提示音能使用户了解自己现在“在哪里”，要“去哪里”，更加明了自己当前的操作状态，提升了用户的体验。此外，对于系统而言，及时对用户进行业务指引，相当于对用户当前的需求进行再次确认，保证了系统下一步进入的流程正是用户所需要的，避免系统资源的浪费。

（6）错误处理：在用户与系统交互的过程中，用户操作不当或者周边环境因素干扰等原因都可能会影响识别的精确性，导致系统出现拒识或者超时的情况。在这些情况下，系统就不能正确响应用户的需求。此时，系统必须具备柔和且准确的错误提示功能，以便更好地引导用户进行正确的操作，从而正确识别用户的需求。

1.3 系统流程

系统工作流程如图3 所示，包括：提示旅客开始服务，识别旅客语音，理解旅客意图，解答旅客问题，播报解答语音。

图3 系统工作流程

2 关键技术

针对铁路客服的语音环境和问题特点，在系统实现过程中，采用的关键技术包括语音识别算法和问题求解算法。

2.1 语音识别算法

混合高斯模型−隐马尔科夫（GMM-HMM）模型是一种得到广泛应用的语音识别算法。该算法通过GMM 把语音信号帧转换为状态，通过HMM 来计算该状态对应音素的最大概率，其主要优点是训练速度快，声学模型较小，缺点是没有利用帧的上下文信息，难以学习到深层非线性特征[6]。

针对GMM-HMM 算法的不足，本文采用深度全序列卷积神经网络（DFCNN）进行语音识别[7]。其结构如图4 所示，将每帧语音转换为时频图像，通过深度网络模型（非常多的卷积层和池化层）对整句语音建模，最终输出音节或者汉字，从而解决了传统算法中频率丢失和上下文信息利用的问题。

图4 DFCNN 结构

为了进一步提高DFCNN 的识别精度，采集了大量铁路客服语音样本进行标记，对模型进行微调训练，从而提高了该模型在铁路客服语音应用场景下的性能。

2.2 知识库问答技术

为了正确回答旅客提出的问题，采用知识库问答技术（KB-QA）进行信息搜索，得到答案。该技术包括知识库构建和自动回答。知识库构建包括两个任务：（1）通过实体链指法将自然语言中的多个实体指引到知识库中特定的实体上；（2）通过关系抽取法抽取出自然语言中的实体关系，生成知识图谱。自动回答技术有语义解析、信息抽取和向量建模等[8]。

深度学习技术也被广泛应用到KB-QA 的研究中，包括采用卷积神经网络（CNN）对实体链指、语义解析、向量建模等进行提升[9]。

以2019年运行数据为基础，分析铁路客服业务历史数据，可以发现旅客咨询的业务类型和业务量。排名前35 的业务包括退票、改签、退票时间规定、身份核验、营业时间、儿童票、账户注册等，共占比90%以上。收集这些业务的相关文档，采用实体链指和关系抽取构建了铁路语音客服知识库。