双向交流手语翻译器

2018-11-20江西财经大学

物联网技术 2018年10期

江西财经大学

刘英子，方嘉俊，温昕，李玫洁，谢有发指导老师：谢亮

1 作品背景

1.1 研究背景

据最新资料统计，我国听力、语言残疾群体人数居各类残疾之首，达到2 057万人，占中国人口总数的1.67%，其中7岁以下儿童约80万人。身体的残疾为他们带来了生活的不便，内心的自卑，他人异样的眼光等与外界交流的障碍严重影响了他们的生活质量，大多数聋哑人仅能与家人和同群体互动交流，与正常人群体往来甚少。聋哑人士与不懂手语的正常人士沟通存在极大的障碍，而当前现今仅有非常小比例的正常人群体掌握了手语。

随着国内《中国制造2025》和“互联网+”以及国外由德国提出的工业4.0热潮的涌起，未来将以可穿戴智能产品、智能家电、智能汽车等智能终端产品为主要发展方向。双向交流手语翻译器是一款可穿戴智能产品，能够与手机等设备构成无线通信网，符合《中国制造2025》和“互联网+”高科技战略。

1.2 设计目的

设计本作品的目的在于人性化地为语言障碍、听力障碍者与正常人以及不同地域、民族的聋哑人群体之间交流困难这一问题提供一个简单有效的解决方案。

本作品设计了一个聋哑人与正常人双向交流的翻译系统，可实现如下功能：

（1）手语转语音和文字；

（2）语音转手语动画和文字；

（3）文字转手语动画；

（4）采用机器学习的方法进行手势识别，并自定义手势；

（5）远距离多人交流。

2 作品介绍

2.1 作品说明

2.1.1 作品系统框架设计

作品系统框架如图1所示。

图1 作品系统框架设计

2.1.2 作品功能

（1）手势实时翻译为语音和文字

聋哑人将手套戴在手上并通过手语交流时，手语翻译器将自动翻译并播放语音，告诉其他人手语的含义，同时，将信息由无线网络传送至手机移动终端，在手机移动终端上显示文字、播放语音或者播放手语视频。比如聋哑人比出“你好”，手机接收信息后将显示文字“你好”，播放语音或视频。手语转语音、文字功能如图2所示。

图2 手语转语音、文字功能图

（2）语音翻译为手势动画

使用者对着语音模块说话时，信息将通过无线模块传送至手机移动终端，在APP中进行识别语分析，之后找寻相对应的手语动画，通过视频形式播放，使听障人士“听见”声音。语音转手语功能如图3所示，语音转手语功能实拍如图4所示。

（3）采用人工智能技术通过机器学习识别手势，并可自定义手势和方言

利用手机设计了一款基于机器学习的APP，用以解决以下问题：

①为受教育程度不高的聋哑人提供“傻瓜式”操作；

②机器学习训练，自适应聋哑人手的大小差异；

③机器学习训练，适应各国、各地区、个体的聋哑人手语差异；

④机器学习训练，适应各国、各地区方言差异；

⑤机器学习训练，避免需要专业人士为聋哑人量身定做等繁琐步骤。

图3 语音转手语功能图

图4 语音转手语功能实拍图

用户只需在APP中的自定义界面输入想要加入或修改的词汇，并带上传感手套做出对应的手语动作，APP即会采集并分析此手势的关键信息并保存。所有自定义的手势都可立即使用。通过机器学习自定义手势功能如图5所示。

图5 通过机器学习自定义手势功能图

2.1.3 作品设计基本思路

本作品主体包括传感手套、语音手表和手机APP。

（1）传感手套

通过传感手套上的弯曲传感器、陀螺仪传感器和加速度传感器采集数据，进行分析和识别翻译，之后将处理翻译后的结果发送至手机端。

（2）语音手表

通过识别用户的语音输入，将语音信息发送至手机端，并播放对应手势动画。

（3）手机APP

手机APP可将接收的翻译信息转化为文字或语音，同时也可用于识别正常人的语音信息，并将其转化为文字和手语动画。

本作品设计了两种不同的交流模式，以真正实现聋哑人和普通人之间的双向交流。

（1）聋哑人与正常人沟通

传感手套可识别并将聋哑人的手语翻译为普通人可以理解的语音或文字，如图6所示。

图6 翻译模式

（2）正常人与聋哑人沟通

语音手表可将普通人输入的语音信息转化为文字或手语动画在手机上显示，使听力障碍者能快速理解普通人的语意。沟通模式如图7所示。

图7 沟通模式

（3）机器学习

为了适应不同人不同手势的差别，采用机器学习的相应算法进行手势识别，极大地提高了作品的实用性以及识别准确率，同时作品还支持手势自定义功能，用户可在手机APP上进行手势训练，设置手势以及对应翻译，且训练结果可立即使用。用户还可通过扫描二维码了解一些手语，方便用户学习。机器学习模式如图8所示，手语学习二维码设计如图9所示。

图8 机器学习

图9 手语学习二维码设计

2.1.4 功能测试结果

这款手语翻译器不仅能够通过手指弯曲度和手的朝向完成大多数静态手语手势的识别，如手语词数字“5”“ok”等，还能通过处理、提取所采集数据的特征完成动态手势识别。

静态手语数字“5”手势示意如图10所示，测试结果如图11所示，由手机APP显示识别结果。

图10 数字“5”手势语示意图

图11 数字“5”的手机APP结果显示

图12 “ok”手势语示意图

图13 “ok”手势手机APP结果显示

动态手语数字“20”手势示意如图14所示，测试结果如图15所示，手机APP显示识别结果。

图14 “20”手势语示意图

图15 “20”手势手机APP结果显示

动态手语“谢谢”手势示意如图16所示，测试结果如图17所示，手机APP显示识别结果。

此外，本产品在测试时，分别对其中六种静态手语和六种动态手语各测试了1 000组数据。对于静态手语来说，只要给定足够长的时间，都能够被正确识别，识别率高达99%；动态手语识别率相比较低，但均高于92%。手语识别率见表1所列。

图16 “谢谢”手势语示意图

图17 “谢谢”手势手机APP结果显示

表1 手语识别率

2.1.5 适用范围

该产品的使用场合较为广阔，没有大的空间限制条件，为健听人与聋哑人之间的交流搭建了一个高效快捷的平台，不仅能够改善如今市面上语言障碍患者辅助用品匮乏的现象，更是改善聋哑人士生活的语言辅助器具。

（1）服务于聋哑人群及其相关群体

（4）树立实时创新意识。创新是企业永恒的话题，对企业财务管理同样如此。新时期需要积极引进风险投资等科学理念，认真学习各项新的财务工具，尽可能多的在传统的财务工作方法上有所突破，提高财务效率的同时，也能够更好的降低企业财务成本，防范企业可能面临的众多财务风险。

手语翻译器主要针对聋哑人群及其相关群体设计。在日常生活中，一个高效的手语翻译工具是聋哑人和周围人群沟通的桥梁，利用手语翻译工具与聋哑人进行交流沟通必不可少。聋哑人及其相关群体是本产品的主要消费人群。

（2）服务于聋哑人群集中区域

手语翻译器主要服务于聋哑人群集中区域。在聋哑学校、福利院等聋哑人群集中区域，利用手语翻译工具与聋哑人进行交流沟通十分便利。因此，对于聋哑人群集中的区域而言，本产品将更受欢迎。

（3）可用于手语相关培训、学习

手语翻译器不仅可被聋哑人群及其相关群体、各类公益机构所使用，还可适用于广大人群进行手语学习及相关机构的培训。

2.2 作品关键技术

2.2.1 基于机器学习的手势识别技术

作品采用机器学习相应算法对手势进行识别，使得作品实用性以及准确率都有较大提升，能够适应不同人不同手势的差异，使静态手势识别率接近100%，复杂动态手势识别率最低为92%，准确率和稳定性极佳。同时，用户还能够训练自定义手语手势，方便快捷。

2.2.2 基于多传感器融合系统的数据采集技术

利用运动传感器和形态传感器对手指的空间姿态以及弯曲状况进行高精度捕捉，使得采集特征全面且准确。

2.2.3 处理技术

数据抽取时以0.1 s为时间间隔，并在保证有效性的前提下进行压缩。在已提取的数据基础上，提取和计算出方差、均值、最值数据，为最终的识别做准备。

2.3 作品竞争力

2.3.1 功能优势

（1）真正的双向交流

系统搭建了聋哑人和正常人双向沟通的桥梁，既可以将手语实时翻译，并在硬件设备端显示文字和播放语音，还可以在APP中直接将文字和语音信息转化为对应的手语动画，实现双向转译功能，即使在昏暗的坏境中也可实现无障碍交流。

（2）智能的机器学习技术

本系统采用BP神经网络算法实现机器学习，方便用户进行自定义操作。在用户开启系统的学习功能时，本系统会根据用户的手势不断提取特征数据，当用户重复的数量达到一定值，且系统提取到满足训练要求的特征数据时，则代表学习成功，系统会将此手语信息储存并为用户自定义手势对应翻译内容。当用户下次做出此手语动作时，系统会识别并翻译该自定义手势。

（3）精准的手语数据识别技术

本产品采用双手设计模式，信息采集精度更高，不仅能够准确识别多种手势，还可以方便用户自定义相关手势含义。通过手部的多传感器数据融合来识别手部及手指运动信息从而确定手势信息，避免因其他部位运动引起手势识别误差。

（4）携带便利

如上所述，本产品采用双手设计模式，产品外形为手套，携带轻便，使用可靠，且不易损坏。

（5）人性化产品体验

与其他手语翻译结果表示方式相比，大多采用文字来表现所要传达的意思，而本产品将数据处理后在进行文字表现的同时带有语音播报和视频播放功能，兼顾视觉与听觉，使沟通方式更为生动。

（6）便捷的人机交互技术

与现有的人机交互技术相比，传统技术大多选择将数据传输至计算机进行处理，且表现方式只选用文字或扬声器，而本产品的系统经无线模块将数据实时传输至移动终端，将翻译器与APP相结合，使用更为便捷。

2.3.2 技术优势

（1）作品采用机器学习相应算法进行手势识别，极大地提高了作品的实用性以及识别准确率；

（2）由分布在五指关节的形态传感器与运动传感器采集数据，捕捉的动作精确度高；

（3）个性化设定：用户可以自己为手语翻译器输入新的手势信息并使用；

（4）佩戴舒适，操作方式简单便捷；

（5）具有显示功能和语音功能，同时设计有配套APP；

（6）惯性记录、机器学习：数据手套会储存用户的使用记录，方便产品了解用户；

（7）电池节能环保。

2.3.3 同类对比

针对聋哑人的交流问题，国内外均由研究团队给出了解决方案。目前，言语障碍人士主要通过三种途径“发声”，分别为使用助讲器（电子喉）；依靠食道的震动发出声音；手语交流。目前市场上的手语翻译产品主要包括UNI平板，手语手环，数据手套。

（1）UNI 平板

Motion Savvy公司在2014年设计的UNI平板外壳利用Leap Motion技术记录、识别手势动作，具有使用不便，识别距离有限等缺陷，此类基于图像处理的动作采集方式具有明显的识别盲区，并且只能将手势翻译为文字进行单向交流。

（2）手语手环

手环利用肌电信号等传感器对手指动作进行解码。这款概念产品只能单向转译，并且可识别手势少，精确度不高，实用性存在较大缺陷。

（3）数据手套

乌克兰enable talk团队研发出一种可翻译手势的手套，同时配备操作系统，能将手语翻译成文本，但它也只能进行单向转译，且参数调整不便，价格昂贵。

双向交流手语翻译器与市场现有产品的对比见表2所列。

表2 双向交流手语翻译器与市场现有产品的对比

3 创新性与科学性

3.1 创新性

3.1.1 真正的双向交流

系统搭建了聋哑人和正常人之间双向沟通的桥梁，既可以将手语实时翻译为文字信息和语音信息，还可以通过手机和语音手表两种方式识别语音输入，然后播放对应的手语动画，实现双向转译功能。即使在昏暗的坏境中也可实现无障碍交流。

3.1.2 机器学习

作品利用手机设计了一款基于机器学习的APP，可解决自适应聋哑人手掌大小等问题。

3.1.3 远距离多人交流

可多用户组建交流无线局域网络，实现多点无障碍互通交流。可在昏暗、嘈杂喧闹的环境中实现多用户远距离无障碍交流。

3.1.4 多传感数据融合技术

目前世界上主流的两种手语识别技术分别为现代图像识别技术和多传感数据融合技术。现代图像识别技术自适应性差，一旦目标图像被噪声污染或是目标图像有残缺往往无法得到理想的结果。而本作品所采用的多传感数据融合技术，能够提高整个作品的可靠性和健壮性，增强数据的可信度与精度，保障作品的实时性。

3.1.5 加入生物电仲裁判断手势

通过对手部生物电信息的采集和分析，可以进一步提高精度，消除外部干扰对手势数据采集和分析的影响。

3.2 科学性

3.2.1 机器学习技术

在用户定义翻译时，本系统采用机器学习相应算法实现手势识别。在用户开启系统的学习功能时，本系统会根据用户的手势不断提取特征数据，当用户重复的数量达到一定值，且系统提取到满足训练要求的特征数据时，则代表学习成功，系统会将此手语信息储存并且由用户自定义手势对应翻译内容。这样在下次使用并做出此手语动作时，系统会识别并翻译此自定义的手势。

3.2.2 手势数据处理技术

在处理数据时，本作品根据自主研究设计的一种手势识别专用多维数组算法实现了对手势的定时采样和特征值提取。

定时采样：在实验过程中，发现对于大多数简单的手语手势假设1 s时间内可以表达结束。于是在处理时先抽取数据，以每0.1 s为抽取时间间隔，之后将抽取的数据保存到一个18×14的数组中，其中每一行的数据为不同时刻手的姿态信息（比如第一行为初始时刻的手的各种传感数据），每一列的数据为传感数据个数，通过定时采样，在保证有效性的前提下将数据压缩，降低下一步算法的复杂度。

3.2.3 手势数据采集技术

对于大部分手语而言，只需采集各手指的弯曲情况、手的朝向和手部运动轨迹就能推导出整只手的动作所包含的信息。因此，本团队基于对各信号的采集设计了一款传感手套，该传感手套内嵌有形态传感器且手背上固定了运动传感器。

形态传感器用以获取手指形态，判断手指的弯曲程度，运动传感器用于获取手部姿态信息。采集数据时，在上述两种传感器的基础上还增加了生物电传感器，用于采集做手语动作时的肌肉电信息，并通过分析此肌肉电信息获取手部动作和姿势信息。通过融合以上三种传感器的数据，系统的精准度和稳定性得到了良好保证。