基于嵌入式语音识别的家用服务机器人控制系统

2017-04-22董胡

微型电脑应用 2017年4期

关键词：控制板特征参数家用

董胡

(长沙师范学院信息与工程系, 长沙 410100)

基于嵌入式语音识别的家用服务机器人控制系统

董胡

(长沙师范学院信息与工程系, 长沙 410100)

语音是人类最自然便捷的交流方式，也是人机交互中最直接的交互模式之一。对语音识别的基本理论进行了介绍，包括语音信号的预处理、特征提取、模型匹配3个方面，给出了基于MFCC+ΔMFCC的语音特征参数提取方法。在实验室环境下提取了特定人的若干语音数据，利用MATLAB对语音特征参数MFCC+ΔMFCC进行了仿真识别实验，实验结果表明，该方法识别率高达94.54%，具有较强的鲁棒性。在实验基础上，通过搭建设计4个自由度的Arduino双臂机器人和ASR M08-A语音识别模块等硬件电路，实现了语音控制机器人完成各种规划动作。

嵌入式；语音识别；机器人；特征参数；控制系统

0 引言

众所周知，语音是人与人之间最自然便捷的交流方式之一[1][2][3]。同样，在人类发明电子计算机之后，人们也一度梦想通过“语音交互”这种方便快捷的方式和机进行沟通。倘若能把具有语音信息处理和识别能力的机器纳入人的语音交互对象，并为人类服务，使之像人一样具备听、说功能并对语音做出理解和动作反应，同时在交互方式上不受地点和时间的限制，那么将使人类的工作和生活方式产生革命性的变化[4]。进入21世纪，机器人愈来愈进入到人们生产、生活的各个方面。由于人口老龄化的比例越来越严重，相应的社会保障和服务也更加紧迫。而与之相应的将是更广大的具有语音识别功能的家用服务机器人市场。工业机器人之父约瑟夫.恩格尔伯格，他说：“常识告诉我们，家用服务机器人最终将拥有比工业机器人更大的市场”。一方面具有语音识别功能的家用服务机器人将更加广泛地代替人从事各种机械反复的、繁重的、和危险的生产作业。另一方面具有语音识别功能的家用服务机器人更多的进入到普通家庭中帮助人们、照顾老人，以及完成各种各样的任务。机器语音识别技术研究,将突破由于语种、腔调、方言不同,造成人与机器之间口语沟通和交流的障碍,并使机器语音交互系统成为普通民众人机对话的工具。如今,随着机器语音识别技术研究的不断深入发展，语音识别技术对人们生活的影响和重要性也逐步凸现出来。而如今用机器语音识别技术开发出非常多的产品，比如声控玩具、语音翻译系统、电话订票系统、语音自动拨号和回复软件等几乎我们社会生活中的各个方面，而其本身潜在的市场和经济效益也都将促使该门技术不断向前推进。

1 语音识别

由于语音识别技术的不断发展，面向不同任务的语音识别系统，就有多种不同的系统设计方案，但系统的整体结构和模型的思想都是大致相同的。即采集语音信号后，经过语音特征提取模块的处理，得到一组反映该段语音特征的参数模型，然后再将提取的语音特征参数导入语音模型库的模块，进行语音训练和模式匹配，最后得出正确的识别结果。语音识别系统实质是一种模式识别系统，包括语音预处理、特征提取、模式匹配以及参考模型库等基本单元，其基本结构原理图，如图1所示。

图1 语音识别系统原理图

预处理模块主要包括对语音的采样、A/D 转换、预加重、分帧、端点检测。预加重一般是在语音信号数字化以后，在语音特征参数分析之前。特征提取模块主要是计算语音的声学参数，进行特征的计算，取出反映信号特征的关键特征参数，其本质是在降低或很少降低语音分类结果性能的情况下来降低特征空间的维数。

语音训练阶段，将输入的语音信号经过多次训练后，经过预处理和特征提取得到相应的特征矢量参数序列，最后建立语音参考模式库。在识别阶段，将输入语音的特征参数和语音参考模式库中的语音进行匹配，将匹配的最佳结果输出。这种最佳的结果与语音特征的提取、语音模型的好坏以及模板是否准确都有很大的关系。

1.1 语音信号的预处理

一般而言，语音信号在进行分析和处理之前，首先要将语音信号进行预处理。语音信号预处理包括：预滤波、采样、A/D转换、预加重和端点检测等。语音信号经过预处理以后，提取语音特征参数，之后语音信号的所有处理都是基于语音特征矢量序列的。

语音信号是一种典型的非平稳、随时间而变的一维信号。众所周知，语音信号在数字化之前，为了滤除噪声或高于 1/2 采样频率的语音信号，需进行防混叠滤波。通常将这种防混叠滤波与模数转换器做在一个集成块内，用来保证语音信号数字化的质量。

1.2 语音信号的特征提取

语音特征参数的选择是整个识别系统的基础，对正确的识别率有着直接影响。语音特征一般包括基音周期(Pitch)、主分量分析(PCA)、独立分量分析(ICA)、线性预测系数(LPC)、美尔频率倒谱系数(MFCC)[5]。美尔频率倒谱系数[6]，其实是把信号的频谱将频率轴变换为Mel频率刻度，然后再变换到倒谱域得到我们想要的倒谱系数。Mel是音高的单位，它是人们耳朵听觉系统对声音频率的感觉，Mel频率刻度与频率的表达式关系,[7]如式(1)。

(1)

其中f是实际的线性频率，而fmel是美尔频率。

由于传统的MFCC一般只反映语音特征参数的静态特性，而我们人耳对语音动态的特征却更为敏感，语音特征提取参数中 MFCC进行差分后是一种动态参数，通过分析LPCC[8]、MFCC特征参数提取的方法，给出一种MFCC+ΔMFCC相结合的方法，将此方法应用于嵌入式语音识别系统中，以期获得较好的鲁棒性。

(2)

其中dCeP表示动态特征，CeP表示倒谱，k是求差分的帧的范围，k取常数2。

假设接收天线阵列中各个天线单元都是匹配的，则[ar]=0。若整个N+M端口传输系统的传输效率达到最大，式(1)可以化简为[9-10]

1.3 语音信号的模型匹配

目前常用的语音识别方法有基于特定人的动态时间规整法(DTW)、基于统计模型的隐马尔柯夫模型法[9]( HMM) 、基于小波变换以及神经网络的识别法(DNN，NPN)。模板匹配法是多维模式识别系统中最常用的一种相似度计算方法。说话人的模型是每个说话人对应于一个特征分布的概率密度函数。模型训练是在遵循一定的准则下，从己知模式中提取出随时间变化的语音特征序列，建立语音参考模型并存储。语音模板匹配是指未知的语音模式根据相应的准则与已有的声学参考模型库中某一模型获得最佳的匹配结果。基于模式识别的语音识别算法中最重要的部分是声学模型，其可以有效地描述语音特征信号空间的概率分布，合理地表达声学特征及决定语音识别的性能。在语音识别的过程中，首先要根据一定的模式匹配原则，来计算未知的语音模式与语音参考模板库中的每个模板的距离测度，最终得到最佳的匹配结果。本文采用动态时间规整法进行模型匹配。

2 家用服务机器人语音识别硬件设计

2.1 机器人机械臂自由度

机器人手臂的一个重要技术参数指标就是自由度，它直接关系到机器人的机动性，是传动执行装置的机械组合，本文设计的家用服务机器人机械臂由关节、臂和末端执行装置组成，自由度为4个。家用服务机器人手臂结构设计主要由关节间连接部件的尺寸大小以及关节自由度配置所决定。自由度越多，则结构越复杂，家用服务机器人手臂的运动学、动力学分析就更加的复杂[10-11]。

2.2 服务机器人手臂关节旋转

家用服务机器人手臂关节坐标位置的表示以及旋转变换，正运动学问题是通过已知的机器人各个关节变量来求解末端执行器的位姿；逆运动学问题根据机器人末端执行器的位置和姿态要求，通过运动学逆解求得各个关节转角。而在家用服务机器人动作的实现上将主要是运动学逆解问题，通过控制机器人手臂关节各个舵机转动的角度实现机器人预定动作路径的规划。然后将规划动作存储在Arduino控制板程序中，通过语音识别模块的输出结果触发相应的动作。

2.3 家用服务机器人语音识别系统硬件模块构成

其中，ASRM08-A模块主要实现传递控制命令给机器人机械臂完成预定的规划动作以及人机对话功能；ASRM08-A模块，如图2所示：

图2 ASRM08-A硬件模块

1) ASRM08-A语音识别模块串口与单片机相连时接线方式如下:

模块GND端口、TXD端口、RXD端口分别与单片机对应端口相连，若模块和单片机系统共用电源，则模块3.3 V端口连接单片机3.3 V输入端。

2) 语音识别模块自带功放电路输出，可直接连接0.5W的扬声器。SPK+接扬声器的正极，SPK-接扬声器的负极。

3) MIC为外置麦克风接口,插入外置麦克风时内置麦克风自动断路,此时只有外置麦克风起作。

Arduino MEGA2560、ArduinoMEGA传感器扩展板模块和传感器模块主要完成机器人传感数据的采集和显示功能；继电器模块主要实现机器人机械臂动作的开始和停止功能；WE-40C蓝牙模块连接在ASRM08-A模块和串口TTL4路继电器控制板模块之间，实现语音识别无线控制功能；16路伺服舵机控制模块电路和动作存储卡模块实现机器人动作的路径规划和存储。

其中，16路伺服舵机控制模块主电路采用RISC结构的Atmega8 AVR单片机作为主控芯片，具体主控电路，如图3所示。

机器人机械臂模块则为完成动作的硬件条件，由RB-04M14伺服舵机组成，机械臂自由度为四个。家用服务机器人硬件模块构成，如图4所示。

2.4 语音识别控制家用服务机器人动作的实现

在所述的ASRM08-A语音识别模块中，先通过语音合成建立语音识别模块的语音库，语音库的大小和内容可根据需要而设定。ASRM08-A模块的识别原理是通过预先设定的关键字与从麦克风输入的语音对比，输出想要的语音识别内容。

ASRM08-A模块与串口TTL4路继电器控制板模块连接，串口TTL4路继电器控制板模块中嵌入了隐马尔科夫算法，使得ASRM08-A模块的输出与继电器模块的输入对应，从而可以通过语音控制串口TTL4路继电器控制板模块的通断。ASRM08-A语音识别模块中含有三种语音检测模式，分别是循环检测模式、口令检测模式、按钮检测模式。这里采用语音识别模块采用口令检测模式。

串口TTL4路继电器控制板模块中继电器输出为三位的接线端子，分别以1、2、3代替，其中1、2是常闭触点，即继电器不通电的时候是通的，通电之后断开；而2、3是常开触点，即继电器不通电的时候是断开的，通电之后是闭合的。串口TTL4路继电器控制板模块与16路伺服电机控制器模块连接，所以在16路伺服舵机控制板供电端和电源端之间连接串口TTL4路继电器模块时，将16路伺服电机控制板的电源供电端连接在2、3常开触点上。同时为了实现无线语音控制，ASRM08-A模块和串口TTL4路继电器控制板模块分别加装蓝牙模块。其中ASRM08-A模块3.3V电源线与蓝牙模块3.3接口连接，ASRM08-A模块RX端与WE-40C蓝牙模块的TX端相连，ASRM08-A模块TX端与WE-40C蓝牙模块的RX端相连，ASRM08-A模块GND端与WE-40C蓝牙模块的GND端相连；而串口TTL4路继电器控制板模块与WE-40C蓝牙模块连接时，串口TTL4路继电器模块3.3V接口与WE-40C蓝牙模块的3.3V连接，串口TTL4路继电器模块RX端与WE-40C蓝牙模块TX端连接，串口TTL4路继电器模块TX端与WE-40C蓝牙模块RX端连接，串口TTL4路继电器模块GND端与WE-40C蓝牙模块GND端连接。

16路伺服舵机控制模块电路与机器人机械臂模块连接，16路伺服电机控制模块电路上位机软件规划机器人机械臂的运动路径，而运动路径规划是通过分别控制每个RB-04M14伺服航机的旋转角度来实现的。在本文中,规划的运动路径是“前进”、“后退”、“左拐”、“右拐”、“直行”等。然后将规划运动路径的代码存入动作存储卡模块。动作存储卡模块与16路伺服舵机控制模块电路相互接。

3 家用服务机器人语音识别系统软件设计

家用服务机器人嵌入式语音识别系统的软件设计平台是基于Linux系统平台的设计，本系统的核心部分是软件控制系统的模块化设计。控制系统模块化设计主要包括语音识别的系统初始化、语音训练、语音识别三部分。首先进行语音的训练，从采样好的训练语音中提取出随着时间变化的语音特征序列、建立语音参考模型库并存储；然后进行语音模式匹配，再次输入语音，从待识别的语音中提取语音特征参数，将相同的语音特征与已经训练好并存储的语音参考模型库中的语音特征进行匹配和比较，如果识别匹配不成功，则提示错误的原因以后，重复的进行匹配和比较，直至识别最佳语音结果，成功后即可执行用户的命令。嵌入式语音识别系统程序流程图，如图5所示。

4 实验结果与分析

在实验室环境下，录制30个特定人的语音数据，对其进行预处理和特征提取，存储计算30个特征矩阵作为语音参考模板，并且对语音帧进行预加重和加汉明窗处理，预加重系数为 0.95。其余3组作为待测语音模板，之后分别提取LPCC、MFCC、MFCC+ΔMFCC的特征参数并进行语音识别测试，如图6所示。

图3 16路伺服舵机控制模块主电路

图4 家用服务机器人硬件模块构成

由图6分析可知，LPCC方法的识别率为88.52%、MFCC方法的识别率为91.56%、MFCC+ΔMFCC方法的识别率为94.54%。比较实验结果可知识别率最高的是MFCC+ΔMFCC特征提取方法。因此通过实验研究证明，MFCC+ΔMFCC相结合的方法能有效地适用于语音特征参数的提取及识别。在上述语音识别的基础上，通过搭建四个自由度的Arduino双臂机器人和ASR M08-A语音识别模块等硬件电路，可实现语音控制机器人完成各种规划动作。

5 总结

本文使用MFCC+ΔMFCC的语音特征参数提取方法，实现了语音识别。实验结果表明，该方法具有较高的识别正确率，鲁棒性强。在语音识别实验基础上，通过搭建设计四个自由度的Arduino双臂机器人和ASR M08-A语音识别模块等硬件电路，将该语音识别方法应用在家用服务机器人上，能够做到实时控制家用服务机器人完成相关的规划动作，具有一定的实用性与参考性。

图5 嵌入式语音识别系统流程图

图6 特征参数提取实验结果分析

[1] 李书贞,施玉霞.基于语音指令的远程控制机器人系统的设计与实现[J].微型电脑应用,2008,24(11):1-3.

[2] Reinisch E. Natural Fast Speech is Perceived as Faster than Linearly Time-compressed Speech [J].Attention Perception & Psychophysics,2016,78 (4):1-15.

[3] Di C P. Systems and methods for Responding to Natural Language Speech Utterance[J]. Journal of the Acoustical Society of America, 2016,130(3):1781.

[4] 张田芳,刘幺和,谭保华.基于语音识别的远程机器人控制系统[J].湖北工业大学学报,2007,22(2):45-47.

[5] 谷志伟,汉峰.基于改进的DTW算法的变电站巡检机器人语音识别的实现[J].机电信息,2014(6):139-141.

[6] 李麟.家用机器人语音识别及人机交互系统的研究[D].哈尔滨工业大学,2007.

[7] 赵力.语音信号处理(第2版)[M].北京：机械工业出版社,2009.

[8] 黄羿博,张秋余,袁占亭,杨仲平.融合MFCC和LPCC的语音感知哈希算法[J].华中科技大学学报(自然科学版), 2015,43(2):124-128.

[9] 李建文,张晋平.基于改进语音特征提取方法的语音识别[J].微电子学与计算机, 2009,26(7):230-233.

[10] 郝宗波.家庭移动服务机器人的若干关键技术研究[D].哈尔滨：哈尔滨工业大学,2006.

[11] Amal Punchihewa.Voice Command Interpretation for Robot Control[C].IEEE the 5th International Conference On Automation,Robotics and Applications,2011, 5:90-95.

Control System of Home Service Robot Based on Embedded Speech Recognition

Dong Hu

(Information and Engineering Department, Changsha Normal University, Changsha 410100, China)

Speech is the most natural and convenient way of communication, it is also one of the most direct interaction pattern of human-computer interaction. Firstly, we introduce the basic theory of speech recognition, including speech signal preprocessing, feature extraction, and model matching. A speech feature parameter extraction method is then presented based on MFCC and delta MFCC. We get some speech data in laboratory environment, and use Matlab to make simulated experiment for speech feature parameters of MFCC and delta MFCC. The experiment result proves that this method can get 94.54% recognition accuracy and it has high robustness. On the basis of the experiment, by constructing and designing four degrees of freedom of the Arduino robot arms and ASR M08-A speech recognition module and hardware circuits, the voice control of robot and planned actions are achieved.

Embedded; Speech recognition; Robot; Characteristic parameters; Control system

长沙师范学院院级科研项目(XYYB201517)；湖南省教育厅项目 (12C0952)；湖南省自然科学基金项目(2015JJ6007)

董胡(1982-)，男，汉，湖北黄冈，长沙师范学院电子与信息工程系，讲师，研究方向:嵌入式技术、机器人技术及信号处理.

1007-757X(2017)04-0015-05

TP311

2016.04.05)