APP下载

语音模块在硬件设备中的应用

2021-04-11郑州科技学院白琛宇邝思豪崔宝利

电子世界 2021年6期
关键词:交互技术语音芯片

郑州科技学院 王 驰 白琛宇 邝思豪 崔宝利 王 成

互联网科技的快速发展使现如今人们的生活质量有了进一步的提升,在日常生活中可以看到许多语音操控和交互的例子,如手机、电脑、智能音箱以及家用扫地机器人的语音助手等等,使用语音控制代替手动操作极大便捷了人们的生活;本文讲述了语音模块在机器人等智能设备中是如何应用的,日常使用的机器人及现如今主流的智能设备所使用的语音控制模块;探讨了语音模块的发展历程和探讨未来可能的发展方向。

1 语音交互的发展历程

最早的人与机器的交谈的例子发生在爱迪生发明留声机时期,人们第一次听到机器人发出 的声音,但随后产生的电话也只是传输人与人之间信息交流的工具而已。由于语音是最方便且是人们最向往的与机器人的交流方式,因而人们对与机器人的语音对话的探索从未停止。受到技术的限制以及生活环境等的原因,语音交互的发展并不是那么顺利;直至20世纪80年代,语音识别技术才能够准确地将人们的口语转化为文本,这是语音识别技术发展的奠基石。随后的二十年,人们不断的对语音识别技术的准确率进行提升,并且向其可以作出回应的方向不断探索。

近几年,随着科学技术的不断发展语音识别技术也有了长足进步,由于手机和电脑逐渐成为人们生活中不可或缺的一部分,语音模块也开始在人们所使用的电子设备中使用并愈发成熟,迄今为止语音识别的数据准确率可以达到惊人的95%,下面来了解一下这是如何实现的。

2 语音模块的基本原理

语音模块的主要组成部分有麦克风、语音芯片、扬声器以及差分电路、放大电路等各种不同功能的电路;涉及有语音采集、语音合成以及语音识别三大主要技术,语音采集和语音识别两部分工作相辅相成,工作原理一般是先进行采集然后进行识别,图1所示为语音识别原理的简单框架图。

语音识别的实现过程:由麦克风进行语音输入(语音采集)、采集到的信息会先进行预处理包括噪声滤波、预加重、端点检测等方式去除噪声的影响并实现语音信号到数字信号的转换、智能语音识别芯片通过对数字信号利用MFCC、ASCC、LPCC等倒谱系数进行频谱分析,提取声音的关键词及相应的特征信号,这时基本已经确定了语音识别的结果,但是为了保证结果的准确和输出结果的合理会将特征参数同步到语音数据库进行比较分析,最后得出相应的识别结果进入正在使用的MCU。

语音合成主要涉及的技术为:语音-文字转换也就是TTS,其功能可以分为文本数据分析、语言韵律建模和最终的语音合成输出;语音识别和语音合成都是是构建语音交互系统不可缺少的一环,图2所示为简单的文语转化输出图。

图1 语音识别原理

图2 单音节文语转换流程

由上述可得知,识别结果进入到MCU之后,为使人们真正得到并听懂识别的结果,需要语音合成模块进行语言和韵律处理(也就是通过文本和词进行规整和划分,通过一系列的语法或者语义上的分析使计算机能够理解并利用特定的语音合成技术对语音的基本单元和韵律做出相应的调整和修改)最后输出符合要求的声音;使用不同的语音合成技术语音交互的输出效果当然会不一样,而目前常用的语音合成技术主要是共振峰合成、波形拼接合成和LMA声道模型技术。

3 常用语音芯片优缺点

语音芯片可以分为语音识别芯片和语音合成芯片它们都是语音模块的核心硬件组成;芯如其名,语音识别芯片、语音合成芯片就是在传统的语音芯片中添加语音识别、语音合成等的主要功能;它们能让机器听懂人类的语言,也能让机器发出人类可以听懂的声音,因此机器人可以从人的语言中分析出需要执行的命令,执行命令操作的同时做出相应语音回应。除此之外,多数语音芯片还具有高品质、高压缩率录音放音功能,可在一定程度上实现人机对话。那么使用不同的语音识别和语音合成技术,语音交互的效果会有什么区别呢?接下来会对常用的几种语音识别芯片介绍来了解:

3.1 语音识别芯片

NRK10芯片:是一款高性能、低成本的离线语音识别芯片,基于固定词条、非特定人识别同时还有播报功能(需要外挂SPI-Flash)。优点:识别率高、工业级性能、简单易用、更新词条方便等优势,在安静无回声环境中,2m内识别率可达90%及以上;广泛应用在智能家居、AI人工智能、玩具等多种领域;语种识别比较丰富;休眠后可以从任何GPIO、RTC、或WDT中断来唤醒,使其进入待机状态;待机状态下通过唤醒词或词条进入工作状态。缺点:识别词条数量较少同时还有字数的限制;在噪声环境中识别能力有较大的减弱。

LD3320芯片:集成了处理器和A/D和D/A转换器、麦克风等输入输出接口,降低了系统的成本;是一款基于“关键词语列表”的非特定人声语音识别芯片;用户可自由编辑50条关键语句;优点:不需要外接任何辅助芯片,具有高准确度和相对准确的语音识别效果;缺点:容易有误触发、误识别,有时在切换不同词条程序时有较长的等待时间。

3.2 语音合成芯片

SYN6658芯片:通过UART接口或SPI接口通讯方式,接收待合成的文本数据,实现TTS文语转换。具有小尺寸贴片封装、硬件接口简单、低功耗、音色清亮圆润等特点;支持任意中文文本的合成、可以适应室外严酷环境;识别文本、数字、字符串更智能、更准确,语音合成自然度更高;缺点:芯片不会主动休眠、同样唤醒时需要先发送唤醒命令。

UM5100芯片:集成了连续可变斜率增量调制方式(CVSD)的数据调制器、地址总线(A0~Al4)的地址信号发生器、三态数据总线缓冲器、工作方式控制接口电路、串并行双向转换器、时钟振荡器及控制电路、分频器等部分,采用低功耗COMS型工艺制作;缺点:没有工作模式选择、采样速率选择和放音速度的选择,当时钟频率和存储器确定之后,其录音时间和放时间就是固定的;语音信号的记录和再生需外接SRAM型或EPRAM型存储器。

4 语音模块在机器人上的应用

不论是语音识别芯片还是语音合成芯片都是无法直接单独应用到机器人等硬件设备上的,厂家会根据芯片的特性、功能的不同与其它各种相应的零器件集成在一块电路板上称为语音模块,拥有语音识别、语音播报等相应的能力。

语音模块在机器人方面应用十分广泛,尤其服务机器人行业智能控制领域。2012年以来全球机器人市场规模的不断攀升及市场份额的不断扩大,服务机器人发展迎来了黄金时代;国家科技部印发《服务机器人科技发展“十二五”专项规划》提出我国要不断钻研和开发服务机器人的创新创造,突破制约服务机器人产业发展的关键技术,让服务机器人产业成为我国未来战略性新兴产业;所以目前市场上儿童学习机、小度音箱、天猫精灵等智能硬件成出不穷。服务机器人在各种细分产业的快速发展也很大程度上促使语音技术的不断革新。

语音机器人的发展经历了三个阶段。第一个阶段,IVR技术(互动式语音应答),比较常见的形式就是拨打客服电话(非人工)办理业务时使用,缺点就是基本上都是使用按键形式。第二个阶段就是实时的对话机器人,也会在电话中经常使用,由于语音技术的不断发展,这种机器人能根据人们所说的话进行回应,但固定的程序限制及关键词库较少使得它只能回答一些简单的问题,完成简单的工作任务。第三个阶段就是现阶段的机器人,科研人员对机器人语音模块在各种场景的应用,说话内容、语气以及怎么回答都做出了非常细腻地创新,这也使得现在常见的语音助手或是社交群里的语音机器人能够根据人们的问题进行快速且相对准确的回答,这使得人工智能的应用更加便捷,能够更多地为人类提供服务。

5 语音模块在机器人上的应用趋势分析

5.1 背景

2017年10月,罗格朗联合南京物联在南京举行了主题为“AIOT,遇见新未来”的物联网暨智能家居全球高峰论坛活动。同时AIOT也是在我国首次被提出且深受各行业关注;AIOT(人工智能物联网)=AI(人工智能)+IOT(物联网),它的提出吸引了来自人工智能、物联网、互联网、家电等领域专家出席,深入探讨AIOT等相关技术的应用及影响,行业首次将AIOT概念推向大众化。同日,第一届小米IOT开发者大会上,小米宣布与百度达成深度合作,将在物联网与人工智能领域展开合作。万物互联与人工智能的时代联合到来,而人工智能与物联网将形成完美的互补和结合,人工智能将会成为物联网进一步持续发展新的突破点,让物联网进入了一个新的时代。

图3 中国服务机器人销售与全球规模对比

随着AIOT时代的到来、技术不断革新,科技的智能化大大的方便人们的生活。作为人与机器交互的“通道”,智能语音交互技术也呈现出爆发式增长趋势,我国致力发展语音交互技术也取得了巨大的成就,科大讯飞,小米,百度等企业都有推出基于智能语音交互技术的相关产品。智能语音交互技术会与家具、家电、可穿戴设备相融合,实现智能家电、智能家具、智能穿戴设备,通过语音唤醒语音助手从而实现其各自功能。可通过不同的唤醒关键词来唤醒相应的语音助手,从而避免唤醒混乱。

智慧化生活人们只需要靠“说”就可现实你想干的事情。现有的语音交互它能够将用户的语音输出转换为文字,之后自然语言处理技术开始发挥作用,对用户的意图进行识别,并根据用户的意图执行各种操作。如果用户想进行对话,则调用人机交互技术与用户交流,交流的结果通过语音合成技术返回给用户。但语音交互在智能方面缺乏“情感”,在与其交流沟通时并不能完全理解人的意图,以及其理解用户意图时无法结合用户个性化因素来回答用户的问题,不能满足不同用户不同情感,上下文不同场景的交互需求等情况,难以实现真正的智能语音交互。

5.2 趋势

机器人的应用从枯燥乏味的手动操作,到现如今语音智能控制,开启了智能化的时代。服务机器人在近些年越来越受到大众的欢迎,销量也在持续增长就是最好的例子;在全球市场占比我国的服务机器人销售额在逐年增长,如图3所示。

IFR统计数据显示,2019年中国服务机器人市场规模约22亿美元,约占全球25%的市场份额。不同于在工业机器人领域中国处于销售市场与高精技术不成正比的境况,在服务机器人领域中国在市场规模、产业链乃至先进交互技术等方面具备全球竞争优势,有望成为全球行业领导者。

5.3 总结

做好服务机器人的关键在于实现语音交互的智能化,智能化语音交互技术也是服务机器人行业发展的必然趋势。随着2020年5G技术小范围民用、大数据分析技术日益成熟、各种云端数据库的应用,可以说互联网时代真正的到来。语音交互技术未来发展应该是结合云端数据,利用大数据分析技术和物联网技术应用到家电行业、通信服务业、汽车电子等行业,可以对用户的意图理解更加的智能,富有“感情”的与人对话。其次是交流具有个性化,能够根据不同的用户习惯来与用户沟通,让合成的语音更加流畅自然,且富有各自音色。从而不同形式的智能交互机器人在不同的领域上服务人类,体现人类文明发展的趋势、彰显科技进步的强大魅力。

猜你喜欢

交互技术语音芯片
芯片会议
体感交互技术在脑卒中康复中的应用
虚拟交互技术系统的优势与应用分析
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
智能语音交互技术在媒体的应用和前景
VR交互技术在中小学拓展课程中的应用
多通道采样芯片ADS8556在光伏并网中的应用