陆空通话语音识别功能实现

2018-05-14许开淳孟令鑫余彦龙张博

科技风 2018年5期

许开淳孟令鑫余彦龙张博

摘要：伴随着当下航空产业蓬勃发展、民航空域日益紧张、飞机日益增多，空中交通管制人员的责任也愈发重大。而陆空通话不仅是空中交通管制员在日常工作岗位上使用的标准用语，其熟练与否还是评价管制员能力的指标之一，同时也是航空院校学生平日训练用语以及日后考取执照从业上岗的基础。一线空管人员在使用陆空通话时的一字一句都关系到航空安全，因此相关航空产业人员需要勤加训练并提高陆空通话能力。本文研究了陆空通话语音识别方法，可作为开发陆空通话手机APP训练软件的基础，使从业管制人员以及相关专业在校大学生、航空爱好者能够随时随地的方便得到标准的陆空通话语音训练。

关键词：空中交通管理；陆空通话；语音识别；DTW算法

1 背景与意义

陆空通话是空中交通管制员从业上岗的基础，也是在日常工作中时刻使用的标准语言。管制员通过陆空通话与飞行员直接联系，做出明确的指示，引导飞机安全飞行。因此，无论管制能力有多强，若陆空通话发音不标准，特别是英语发音不标准，外籍飞行员听不懂管制员的指令，后果将不堪设想；近年来，国内飞行员由于发音不标准，与外籍管制员之间的尴尬对话屡有被曝光，也值得我们深省。因此，陆空通话对于管制员和飞行员都是十分重要的，其使用是否标准将直接影响空中交通安全。各类专业人员需要不断训练，提高陆空通话能力。

从学校培养人才的角度来讲，空管学院每年有将近400名毕业生走向全国各个一线管制岗位。在大学期间的培养过程，只有在相应的管制课程中才会得到教师的指导，训练和提高自身的陆空通话水平。而平时绝大部分学生在这一方面的投入时间很少，发音没有经过矫正，距离工作岗位要求有很大的差距。而恰恰这一重要的技能需要在平时不断训练，因此急需专门的辅导软件，使学生在日常生活中就能自学自练。

从单位对于人才的需求来讲，各个一线管制单位招聘管制专业的学生后，还要进行一段时间的岗位培训。而从长期的反馈来看，我们培养的学生大多数陆空通话发音不标准，少数学生经过短期培训就能胜任管制工作。因此单位对于学校的培养也提出了更加明确的要求，希望能够在大学期间提高学生的陆空通话水平，缩短单位培训时间，达到尽快上岗的目的。

从社会对于行业的了解来讲，近年来各种媒体对于民航及空管行业的关注越来越多。管制员正在逐渐由幕后走向台前，越来越多的普通人希望获得更多的管制知识。本文以及后续的软件成果，可以为各类人群提供认识和学习管制知识的工具，提升社会对于管制工作的认同感。

基于以上目的，本文研究了陆空通话英语语音识别的方法，可作为开发陆空通话训练软件的基础，学生通过手机便能够在课余时间随时随地得到标准的英语通话训练，可以有效提高自身的陆空通话水平、调节标准发音，具有很强的实用价值和推广意义。

2 实现方法

本文主要研究的问题主要在于陆空通话语音识别与标准化。陆空通话具有标准的发音，区别于日常用语，具有明显的行业特点，如字母 A 的发音不是/ei/而是/a：lf/，针对性非常强，因此需要在系统内制作成标准的模板，同时针对个体发音需要进行语音识别与比对，测量其标准性。

针对研究的问题，本文的解决方案是拟采用动态时间规整模型（Dynamic Time Warping，DTW）方法进行语音识别与标准化。

首先，DTW是目前主要使用的语音识别算法，由于陆空通话的标准性，可以比较准确的建立标准语音模型；其次，通过多年的教学积累，空管学院积累了大量陆空通话音频资料，与各地区空管局有着密切的合作，为模型的建立和训练提供了坚实的基础。

若把测试模板的各个帧号n=1～N在一个二维直角坐标系中的横轴上标出，把参考模板的各帧号m=1～M在纵轴上标出，通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网络，网络中的每一个交叉点（in，im）表示测试模式中某一帧的交汇点。动态时间规整（DTW）是把时间规整和距离测度计算结合起来的一种非线性规整技术，它寻找一个规整函数im =φ（in），将测试矢量的时间轴 n 非线性地映射到参考模板的时间轴 m 上，并使该函数满足：

D 为处于最优时间规整情况下两矢量的距离，d为两矢量匹配时距离，T（n）为第n帧语音信号特征参数矢量，R（m）为第m帧语音信号特征参数矢量，im =φ（in），N为匹配终点。由于 DTW不断地计算两矢量的距离以寻找最优的匹配路径，所以得到的是两矢量匹配时累积距离最小所对应的规整函数，这就保证了它们之间存在的最大声学相似性。DTW 算法的实质就是运用动态规划的思想，利用局部最佳化的处理来自动寻找一条路径，沿着这条路径，两个特征矢量之间的累积失真量最小，从而避免由于时长不同而可能引入的误差。

为保证动態路径搜索问题具有实际意义，需要对规整函数做约束。规整函数满足如下约束条件：

①边界限制：待测语音已完成信号端点检测，规整将发生在信号起始帧数和信号结束帧数间，规整函数满足如下关系

②因为信号在时域上表现为有顺序性，所以规整函数在时间上应该满足单调性的限制。

③通过规定规整函数不允许跳过任何一点的语音，来保证语音信息的损失量降到最低。

将语音信号特征参数信号帧数n=1～N在二维的坐标系横轴逐一标出，将用于语音识别的信号帧数m=1～M在纵轴上逐一标出这样便组成一个网格。其中，每个交叉点（ti，rj）表示待测语音信号特征参数中某帧信号和识别模板某帧数信号相交。

3 DTW算法计算步骤

然后从点（1，1）出发搜寻，反复执行上述操作，直到到达终点（N，M）便可计算出最佳匹配路径。D（N，M）即最佳的距离。在识别时，只需待测的信号特征参数和全部的识别参考模板的特征参数进行比较，计算出最小匹配距离Dmin（N，M）对应的参考模板即为识别结果。

4 发音模板设计

因为陆空通话发音模板不同于日常发音，所以需要研究设计一个语音参考模板库。通过采集语音数据，计算该语音信号的特征参数即梅尔倒谱系数，并将语音信号的特征参数——梅尔倒谱系数用文件保存。再将保存特征参数所对应文件名路径用数据库保存。每次读入一段语音信号时，会把该待测语言信号的特征参数——梅尔倒谱系数和模板库的数据进行比对，用 DTW求待测信号和模板的距离。找出距离最小的对应的参考模板所对应的信息即识别的结果。通过录音，然后进行特征参数训练形成参考模板，然后再次录音进行 DTW 识别。

5 实验结果与对比

6 结语与展望

本文的研究方法以及可能的后续开发软件为航空院校学生以及空管爱好者提供了陆空通话自学工具，使其可以随时随地地进行陆空通话训练，锻炼和提高英语通话水平。作为院校课堂教学辅助工具，它可以减轻教师辅导压力，提高教学质量；作为课后自学工具，可使学生完成自我独立训练，提高陆空通话能力。既可以自动对学生发音进行评判，促进发音矫正，还可以模拟简单的雷达管制环境，通过语音识别自动改变飞机状态，使学生独立练习管制训练有效降低专业教师辅导的时间成本，同时大大提高学习效率。

仍有待改进的地方在于软件只是针对小词汇量、孤立词的语音识别，对于连续词汇的大词汇量识别还有很多问题需要解决，特别是合理建立参考模板这些都是需要解决的问题。