手语识别研究综述

2021-03-12秦梦现

软件导刊 2021年2期

秦梦现

（河北工业大学人工智能与数据科学学院，天津 300401）

0 引言

中国是聋哑人口最多的国家，聋哑人由于听力受损、发声不完全等原因，只能用手语与健听人士进行沟通交流。手语由连续手势动作组成，指使用手形变化，手的位置、方向以及手臂摆动，再配以口型表达、面部动作和一定语法规则表示特定语义，是聋哑人和外界沟通交流的一种语言。然而，聋哑人毕竟是少数群体，大部分人由于不懂手语而极大影响聋哑人在日常生活中的正常交流及生活。如何减少聋哑人沟通障碍，实现聋健融合是亟待解决的问题。随着计算机技术的快速发展，自然语言处理技术正在不断打破局限，并逐渐应用于各相关领域。在语音识别方面，科大讯飞的语音识别技术可实现精准的语音识别，为聋哑人和健听人之间的正常沟通搭建了良好通道。将聋哑人的手语以文本或语音交互方式反馈到计算机上的技术被称为手语识别技术，该技术为聋哑人士与健听人群的交流提供了支持，其在人机交互、手势控制和手语教学等领域具有广阔的应用前景。

1 手语识别技术

手语识别研究是将手语通过计算机处理翻译成文字，涉及图像识别、自然语言处理等多个方向。手语视频中手臂运动速度、手形变化及口型等信息均对计算机处理能力有较高要求。计算机视觉［1］是手语识别技术的关键技术，其在人工智能的推动下得到快速发展。近年来，人工智能领域中的深度学习受到高度关注，深度学习让数以百计的实际问题得到了更好解决，已广泛应用于自然语言处理、人机交互等领域。随着数据的增长和计算能力的提高，深度神经网络中数据缺少、难以训练等问题正逐步得到解决。目前，以深度学习为基础的计算机视觉发展最快且最成熟，其在图像分类［2］如人脸识别［3］等领域已具有极大优势，在其它方面，比如人体行为检测、无人驾驶等领域也有了快速发展。计算机视觉技术应用广泛，能够帮助聋哑人更好地融入社会、认识并了解世界。

2 手语识别研究现状

随着计算机技术和人工智能的不断发展，手语识别在国内外受到了越来越多的关注［4］。手语识别方法根据特征处理方式可分为两类：基于传统方法的手语识别［5］和基于深度学习的手语识别［6］方法。

2.1 基于传统方法的手语识别

基于传统方法的手语识别算法涉及4 个阶段：图像预处理、手部分割、特征提取和分类识别。图像预处理是为了减小噪声等因素影响；手部分割是对手语演示过程中的感兴趣区域进行定位；特征提取是对能够表达手语信息的关键点进行采集；识别是根据提取的特征训练一个分类器，以便对后续输入的特征映射到事先设定好的分类中。其中，特征提取和分类识别是手语识别算法的核心关键（见图1）。

Fig.1 Sign language recognition process based on the traditional method图1 基于传统方法的手语识别流程

2.1.1 图像预处理与手部分割

采集到的原始图像中存在大量噪声，因此需对图像进行预处理以减少噪声干扰，使其突出肢体运动区域信息。Pansare 等［7］首先将输入图像阈值化为二值图像，然后采用高斯滤波对图像中的每一个像素点进行卷积计算，并加入到原始图像中进行噪声点覆盖。但这会造成图像中的像素点与周围像素点相似，降低图像清晰度。因此，Rao 等［8］采用索贝尔算子进行边缘计算，对肢体部分进行边缘锐化，增强图像关键信息。

分割目的是将手语图像分割成感兴趣区域和其它区域，并将感兴趣区域从图像中分离出来。手语图像由于肤色和背景存在差异，因此一般采用肤色分割获得手部这一感兴趣区域。例如，Chen 等［9］在RGB 色彩空间中，使用R＞G＞B 的规则进行肤色选择定位，将得到的区域与预先存储的样本肤色匹配，以找到手部区域并将其分离。

2.1.2 特征提取

特征是对输入图像中的关键信息进行描述，为了方便算法对图像数据的处理，将图像转换成紧凑的特征向量集。在手语识别研究中，一般采用针对图像空间外观特征（肢体的轮廓、颜色、纹理、运动方向）的方法进行数据建模。如Huong 等［10］使用主成分分析（Principal Components Analysis，PCA）对25 个手语类别特征进行降维，以加快对样本有价值信息的处理速度，找到肢体运动的关键特征，达到91.5%的准确度。但是，使用PCA 进行线性降维后，样本间的非线性相关性很可能丢失，导致识别结果降低。Harwat 等［11］利用二维图像提取手势，通过尺度不变特征转换（Scale-Invariant Feature Transform，SIFT）对手部特征点进行有效的特征提取，获得手的形状、方向等信息，形成对手部这一局部图像的描述，提升算法鲁棒性。

2.1.3 分类识别

分类的主要作用是将样本数据中提取的特征映射到与其对应的类别中，这是整个手语识别模型中的最后一步。根据识别图像种类不同，可以分为静态手语和动态手语两类。静态手语识别的是单帧图像，不涉及时间框架。KNN 是常用的分类方法，其核心思想是寻找训练样本中与其距离最短的K 个样本。如Gupta 等［12］将KNN 用于对每26 个手势的30 张测试图像进行分类，总体精度最高达90%。与静态手语分类不同，动态手语分类增加了时间维度。HMM 由于能够对齐手语帧并计算相似性而被广泛应用，方高林等［13］将自组织映射的强大提取能力和HMM 良好的处理时间序列属性相结合，实现非特定人群手语识别，实验结果表明，该方法比传统HMM 识别率高5%。

综上所述，基于传统方法的手语识别需根据经验知识设计和提取区分度较强的特征，尤其是在特征提取和分类识别两个阶段，需基于强大的理论基础知识对其进行多次实验验证。并且，传统手语识别方法少，进行手工特征提取需耗费大量时间，且多数用于手语孤立词［14］的识别，不具有普适性。动态手语识别需要建立更为可靠的长期时序关联性，这些因素导致手语识别发展受限。

2.2 基于深度学习的手语识别

随着计算机性能的大幅度提升，深度学习技术逐渐兴起。它能够避免人工经验特征提取的主观性及繁琐性，使得手语识别方向有了新的切入点，有效提高了手语识别率。具体流程如图2 所示。

Fig.2 Sign language recognition process based on deep learning图2 基于深度学习的手语识别流程

2.2.1 特征提取

随着深度学习在计算机视觉领域的快速发展，其在手语识别方面的运用也得到不断提升。在视频特征提取方面，卷积神经网络（Convolution Neural Network，CNN）［15］在分类、分割等视觉任务上展现出了强大的能力，尤其是三维卷积神经网络（3D Convolution Neural Network，3D-CNN）的出现，更是促使该方法以高效率、高性能的优点逐渐取代了传统手工特征模型。手语信息由姿势、运动轨迹、面部表情等组成，这些包含在视频的时序信息中，3D-CNN 可以对其进行较好提取。如Zhu 等［16］利用3D-CNN 提取视频帧序列的时间和空间特征，充分保证特征的完整性，最终取得了较好识别效果。3D-CNN 通过构建一个三维卷积神经网络实现较短时间片段上时空信息的有效学习，增强了相邻视频帧间的连续性。

2.2.2 手语识别

循环卷积神经网络（Recurrent Neural Network，RNN）针对提取的特征建立语言模型，将手语视频序列翻译成完整句子。如Ye 等［17］将3D-CNN 的全连接层和RNN 进行融合，极大地降低了序列块之间的信息丢失率。但是RNN 无法解决长时依赖问题，因此Xu 等［18］将提取的特征通过长短期记忆（Long Short-Term Memory，LSTM）进行时间关系学习，提高了序列时间建模准确率；Cihan 等［19］在手语识别编码和解码阶段采用门控循环单元（Gated Recurrent Unit，GRU），以更好地捕捉时间序列中时间步距离较大的依赖关系。

此外，手语识别可以看作视频序列和文本语句序列对应的关系任务。HMM 可以进行连续时间学习，如Koller等［20］将CNN 端到端地嵌入到HMM 中，以进行良好的时间序列处理，但序列匹配度不高，某一隐藏状态对之前隐藏状态的依赖程度较大。为了解决此问题，Pu 等［21］通过（Connectionist Temporal Classification，CTC）损失建立不同手语单词之间的依赖关系；Huang 等［22］在编解码器中使用注意力机制，将输入序列分配的不同权重加入到解码阶段进行手语识别。

综上所述，基于深度学习的手语识别利用深度学习强大的学习能力和拟合能力获取更全面、更抽象的特征，突破了传统手语识别方法的局限性。但大部分连续手语识别方法只注重网络结构创新，忽略了数据本身的优化处理，使得模型在输入阶段丢失大量有用信息，增加了识别难度，且对序列内部上下文间的关联性关注度较低，导致序列时序关系提取不完整等问题。因此，手语识别仍然是一个需深入研究的课题。

3 结语

随着计算机视觉领域的不断发展，手语识别研究初显成效，很多有效算法相继被提出。但是依然存在一些不足，如输入阶段数据较为单一、特征提取到的关键信息较少等。如何在当前基础上进一步优化模型，最终实现实时手语识别是未来研究方向。此外，不同类型的手语数据分布不同，如何将不同的手语数据训练成同一分布，以更好地进行手语识别也有待深入研究。