一种基于AI 的听障学生语音训练教具设计

2022-05-30陆鑫焱徐绍达王曼丽

科学技术创新 2022年16期

陆鑫焱徐绍达王曼丽*

（1、辽宁科技大学，辽宁鞍山 114051 2、鞍山市第八中学，辽宁鞍山 114031 3、鞍山钢铁集团有限公司，辽宁鞍山 114021）

近年来人工智能技术伴随着人类科技的不断发展日趋成熟，在普通教育领域已经逐步应用。然而特殊教育领域的教学系统或装置还比较传统，对于调动学生学习兴趣和提升学生科学意识等都远远不够，亟需下大力气开发有利于调动学生学习兴趣、图文并茂、应用高科技成果的教育教学装置，这是目前发展特殊教育领域教学用具和教学方法改革的重要工作。在残障人群中，听力障碍人员占有很大的比重。据2006 年第二次全国残疾人抽样调查显示,中国共有2780 万听力残疾人，同时每年还有2 万到3 万新生儿患有先天严重听力障碍疾病。听障疾病使学生人际交往能力减弱，不利于相互间的沟通交流和学习，极易引发其他的心理问题[1]。对其进行语言训练和人格培养对提高适应社会的能力起着重要作用。因此将人工智能技术和传统的听力障碍人员语言训练方法相结合，设计出适合听障学生的交互式教学设备是至关重要的。本设计采用交互式设计，从听障学生的认知特点出发，帮助听障学生通过多维度的训练完成对语言的理解和构建[2]。

1 装置的整体设计

1.1 工作原理。本装置由视频采集模块、人工智能识别模块、语音识别模块、中央控制器、语音合成模块、音鼓、频谱灯等部分组成。视频采集模块选用USB摄像头采集待识别物体或语音训练学习卡片的信息；人工智能识别模块接收到图像信息后检测物体的类别和学习内容等信息并传输给中央处理器；语音识别模块负责采集听障学生的语音输入信息经识别处理后传输给中央处理器；中央处理器对接收到的信息进行处理后发送命令给语音合成模块；语音合成模块接收中央处理器传过来的信息控制喇叭发出模拟人的声音；音鼓将音频的振动效果放大并显现出来；频谱灯将声音震动频率信号转化为LED灯显示。如图1 所示。

图1 工作原理图

1.2 工作流程。该教具是一种基于AI 技术的用于听力障碍人员语言训练的辅助教具，教具具有体积小、携带方便，易于听障学生操作，可大量生产制造等优点。根据听障学生的交互式教学的需要，本装置设计成为基于人工智能的自主学习模式和单机巩固训练模式两种使用模式，如图2 所示。

图2

基于人工智能的自主学习模式，即通过视频采集、人工智能图像检测等方法，自动识别实物或图片，准确将学习内容的正确发音通过音鼓与频谱转化成相应声音、振动和频率显示，完成从听觉到触觉与视觉的转化，听障学生在学习过程中反复用手感受音鼓振动和声音变化的关系，通过视觉观察频谱灯光的变化，并不断的进行模仿发音训练，从而帮助听障学生形象的理解和学习如何正确发音。如图2(a)所示。巩固训练模式，该模式为教具脱离电脑人工智能软件后的单机使用模式，听障学生通过模仿自主学习模式下音鼓与频谱在发声时所产生的震动幅度与频率，反复的进行发音训练，并通过指示牌判别发音是否标准，以此不断的巩固学习效果。如图2(b)所示。

2 装置功能的实现

2.1 中央控制器选型及功能。本教具采用Arduino开发版作为中央控制器，因其开源、安全稳定、程序编辑和下载方便等特点，近年来得到广泛的应用。设计中选用的型号是MEGA2560 R3 改进版，主控芯片为ATMEGA2560-16AU，USB转串口芯片采用CH340G，实现快捷的程序装载过程和语音训练数据的传输[3-4]。Arduino开发版可以实现多串口通信，有4 对硬件串口，并且具有用程序模拟硬串口实现通信的软串口功能，相比较而言硬件串口比软串口性能更加的可靠。

中央控制器的主要作用是采用通用串口UART（Universal Asynchronous Receiver/Transmitter) 连接电脑、语音识别模块、语音合成模块等硬件设备，由振晶控制频率，实现高速数字信号传输及数据处理。各个模块之间的连接关系如图3 所示。

图3 功能模块连接图

2.2 图像检测。

2.2.1 人工智能图像检测架构的选择。在人工智能图像检测领域，卷积神经网络CNN (Convolutional Neural Networks) 是目前最具代表性的深度学习架构，是一种模仿生物感知方式而进行机器学习的深度学习网络结构[5-6]。主要通过卷积、池化等操作得到图片的特征值以实现识别功能。人工智能图像检测技术随着卷积神经网络的应用得到了飞速的发展,准确率也达到了可以实用的程度。卷积一般是指用正方形卷积核，遍历图像上的像素点，图像与卷积核重合区域内，图像的像素值与卷积核内相对应点的权重的乘积和，再加上偏置b，得到输出图像中的像素值。池化分为最大池化和平均池化，最大池化即取局部接受域中值最大的点，平均池化即取局部接受域中值的平均值。本设计采用YOLO-v4 人工智能识别算法。YOLO 技术由于采用了回归的思想实现one-stage 检测的算法，使得检测速度和检测小物品方面具有明显的优势[7]。

2.2.2 人工智能图像检测环境的搭建。人工智能图像检测采用Anaconda 软件环境，该软件是一个开源的python发行版本，含有大量的开发资源，包括tensorflow，c，numpy等。环境搭建过程先安装Anaconda，再通过Anaconda 安装OpenCV等其他模块[8]。OpenCV4.4 可以支持YOLOv4，这使得人工智能图像检测的应用更加的方便，因此我们在Anaconda 软件环境的命令窗口中用 pip install opencv-python==4.4-ihttps://pypi.tuna.tsinghua.edu.cn/simple安装OpenCV4.4 模块。如图4 所示。

图4 安装OpenCV4.4 模块

2.2.3 人工智能图像检测的实现。人工智能图像检测的实现，首先需要拍摄大量待识别物体图片，接下来标注物体标签作为数据集，提供给深度学习模型，经过诺干轮训练得到自己的权重文件，再通过识别程序调用权重文件以及摄像头用来检测物体，得到物体类别信息后，判断是否为有效学习内容，如果是则通过串口操作把学习内容的字节数组发送给主控开发板Arduino。

人工智能图像检测程序应用import 语句导入OpenCV4.4 库，运行YOLOv4 模型的Python 程序模块为：import cv2

人工智能图像检测程序运行后显示的识别效果如图5所示。

图5 人工智能图像检测结果

2.3 语音输入与识别。语音输入与识别模块选用LD3320 语音识别模块，该模块具有16 个io 口可接继电器、LED灯、单片机端口等外部设备，采用异步串口（UART）通信方式，具有内置咪头和外置咪头接口，单片机型号为STC11L32XE，提供一键下载功能，下载程序非常方便，广泛应用于家居智能控制，语音控制嵌入式产品等场景，实现语音交互的作用。

在本装置中，该模块的四个引脚（RX、TX、GND、5v）分别连接到Arduino开发版的14 引脚(TX3)、15 引脚（RX3）、5V引脚、GND引脚，内置咪头接收外部语音信息，并将信息进行分析和识别，识别成功后，通过串口将识别码发送给中央处理器Arduino开发版，实现教具接收人的指令。

2.4 语音合成。语音合成技术是通过电子和机械等技术制造出需要的声音。本装置语音合成功能选用的是SYN6288 语音合成模块，该模块采用SYN6288 芯片，通过异步串口（UART）通信方式，接收待合成的文本数据，应用TTS（Text To Speech）技术把文字转发成为播放自然语音的电信号，控制扬声器发出人可以听懂的、模仿人类标准发音的声音。

在本装置中该模块的四个引脚（VCC、RXD、TXD、G）分别连接到Arduino开发版的5V 引脚、引脚2(软串口1TX)、引脚3（软串口1RX）、GND引脚，通过串口接收从中央处理器Arduino开发板传输过来的文字信息，转换电信号驱动扬声器发出需要的声音。

2.5 音鼓与频谱灯。音鼓与频谱灯在本设计中作为声音转化输出设备。音鼓的作用是把喇叭的震动幅度放大，听力障碍学生将手放在音鼓上，可以感受到不同的发音产生不同的震动效果，从而熟悉声音产生振动的原理，学习震动自己的声带进行发声练习。频谱灯的作用是把喇叭产生的声音，转化为频谱灯的闪烁频率，从而让听障学习者通过视觉熟悉声音和频谱的联系从而练习发音。

本装置中通过给喇叭外面增添扩大振幅的铁皮鼓面，并采用带有麦克风的频谱灯接收声音并转化为频谱灯显示，实现听障学生用触觉和视觉代替听觉进行语言训练，强化对不同声音的认知并进行发音练习，从而学会正确的发音。该装置的成品样机图如图6 所示。

图6 装置样机图

3 装置的使用

3.1 基于人工智能的自主学习。第一，听障学生运行电脑端的人工智能学习软件；第二，软件运行后将待学习的课程卡片或实际物品对准摄像头，电脑会显示捕捉到的物体视频图像，人工智能软件开始对课程卡片或物品进行分析和识别；第三，人工智能学习软件将识别结果传输给通过USB连接的本装置，装置反复读出课程设置的学习内容，声音同时通过音鼓转换成震动，频谱灯接收到传播过来的声音通过led 灯的闪烁表现声音的频谱效果。

本装置通过上述过程在识别学习主题发出语音的同时，将声音转换成震动和灯光的闪烁变化，听障学生运用触觉方式感受音鼓的震动频率，运用视觉的方式观察led 所显示的频谱闪烁变化，从而学习发音的原理和强弱，教师负责口型演示辅助。从而充分调动学生的触觉、视觉感官，帮助听力障碍学生进行语言学习。

3.2 训练巩固。该教具的训练巩固工作模式，在脱离电脑人工智能学习软件的情况下可以单独使用。第一，听障学生对准本装置麦克风说出唤醒词“大宝”，这个唤醒词需要在本装置中反复使用，学生需要最先开始学习，并逐渐熟练并标准的说出，发音正确后装置上的红色指示灯闪烁，训练模式开始；第二，学生按照学习卡片内容，模仿学习模式下学习到的发音办法反复发出声音；第三，发音时感受声音产生音鼓的振动，并观察声音转化的频谱灯的闪烁，确定每个环节声带的发力大小；第四，如果学生发音正确，可被教具识别并由教具重复发出正确的声音加深学习者的印象，同时表示发音正确的指示牌弹出。

教具本身具有模糊识别功能，使用初期可以设置模糊程度，循序渐进帮助听障学生纠正发音问题培养信心。

4 结论

本设计采用人工智能识别、语音识别、语音合成、音鼓、频谱等技术，从多维度帮助听力障碍的学生感受声音，学习发出正确语音的原理和技巧。帮助听障学生通过不断重复某一事物的发音，强化理解声音与振动、频谱形状之间的联系，通过丰富视觉形象及触觉将声音具体化。在特殊教育学校，可以通过本产品让学生通过多感官弥补听力障碍带来的语音训练难题，从而降低教学难度提高学习效率。尤其是对于那些先天性失聪的学生，在早期启蒙教育、认知上会有很大的帮助。