前路漫漫未来可期<br/>——走出手语识别的“误区”

前路漫漫未来可期
——走出手语识别的“误区”

2018-11-28姚登峰郭晓斌

中国科技财富 2018年11期

文／姚登峰郭晓斌

手语，对广大民众不陌生，时而看见生活周围的聋人飞快地打手势交流，聋人之间交流的语言就是手语。但更多的人知其然，不知其所以然。

200万年前人类祖先最早依靠一些简单的手势彼此沟通，在漫长的进化过程中，人类慢慢学会说话，取代了初始的手势。以致于在即将迈入人工智能的时代，很多人似乎忘记了人类先祖曾用的手势和现代社会依然存在手语族。

手语分为自然手语和手势汉语。自然手语是指聋人使用的“原生态”语言。聋人由于听力丧失，为了便于交流，便产生了一种用手势、身体、肢体动作、面部情感等相互补充的空间语言，从语言学的角度来说称之为自然手语。而手势汉语也称文法手语，符合汉语语法和语序的手势序列，但不是聋人平时使用的手语。

由此产生的“手语识别”是一个多学科交叉的研究课题，既要懂语言学，还要懂得计算机科学、认知神经科学、心理学等等。那么何谓“手语识别”呢？即通过机器能识别，准确地翻译出自然手语这门空间语言所表达的完整意思。

我国手语识别成果喜人

如果要研究手语识别，首先要了解手语，认识手语，了解聋人的需求。随着社会的文明进步，信息产业的飞速发展，越来越多的科研人员和爱心人士开始关注并研究手语识别。近几年国家自然科学基金委先后批准十几个手语识别项目立项，涉及单位包括中科院计算所、哈尔滨工业大学、北京工业大学、大连理工大学等，这些项目都取得了不同程度的进展和可喜的成果。还有些民间机构，包括一些企业、兴趣爱好者，也纷纷开始关注手语识别，希冀借助现代科技解决手语与文字、手语与语音之间的翻译，实现聋人与健听人之间的无障碍沟通。最具代表性的有中科院计算所的手语识别系统，北京工大的2008奥运手语播报系统等。

中科院所研发的手语识别系统历时八年，攻克了五大难关，主要包括数据采集和处理、手语大词汇量识别、非特定人手语识别、手语多模态表达以及手语运动数据重定向，在10多位聋校老师和众多聋校学生的帮助下，手语识别与合成课题组已建立了中国最大的手语词汇库，共有5500个词，并采用手语词根建模的识别方式来解决大词汇量的识别问题。该项目始终以聋人需求为出发点和落脚点，研究人员作为“手语识别”的先行者，对手语的信息化技术做了很多有益的探索，为改善我国的无障碍环境做出了贡献。

最近北航两位女生研发的手语翻译器炒得很火，这款产品在前不久百度与联合国开发计划署共同主办的“极·致未来”责任创新挑战赛上，获得了一等奖和最佳人气奖，被誉为最有“包容性”的项目。为保护失语者的尊严，她们本着人文的精神，想利用科技去帮助更多的聋人实现无障碍沟通。正是这样源源不断愿意为聋人做贡献的爱心，才让“手语”这门特殊的语言越来越多的出现在大众的视野，让人们关注到身边还有庞大的聋人群体，从而关注手语识别、手语机器翻译等科学技术。

手语识别发展“误解”多多

这么多重大的发明接踵而来。那么，手语翻译重大难题已解决了吗？不，并没有。我们在赞赏这些科研机构、学者对“手语识别”孜孜不倦探索研究的同时，要对一些夸大其词的舆论有正确的鉴别认识，因为过度的“赞美”会阻滞手语信息化事业发展；而某些概念、逻辑不准确、不专业、不严谨的导向，会误导手语学术领域对我国“手语识别”研究的认同度——表面上是夸大成果，实则是降低整体研究专业水平，损害研究部门形象。作为一名从事多年手语计算的计算语言学工作者，我想就目前一些“手语识别”常见的认知误区分享给大家。

第一、现在有报道称“可以实现手语信息与自然语言的实时双向翻译”。这句话表达的意思，把手语视作一种信息的地位跟自然语言实现转化。自然语言中包含着多种模态，当然也包括手语。手语本身就是一门独立的自然语言，在语言学研究领域已经达成共识。它跟汉语、英语、日语、俄语等自然语言一样，具有同等地位。所有关于手语的研究，必须建立在此基础上。因此，这句话是不准确的。

第二、有关手语识别的报道声称，只需要1000个手势就可以做出手语翻译系统。如果按照计算语言学专业术语严谨定义，1000个手势就可以做出的手语翻译系统，充其量只能算一个小容量的“手势汉语翻译小字典”。

有声音说“可以让所有没有任何手语基础的人能够通过自然语言与“聋哑”人士无障碍交流。”其愿望良好，但存在诸多谬误。首先概念模糊，有逻辑错误。对自然手语识别的研究仅仅还在起步阶段，还有很多尚未解决的科研难题。其次，报道的成果只是手势汉语的单词翻译。没有手语基础的人如何能够通过自然语言与“聋哑”人士无障碍交流呢？就连新闻联播里的手语翻译那么标准，能看懂的聋人不多，因为播报的是手势汉语翻译。

手机识别科普迫在眉睫

据2010年末人口调查报告统计，我国有有聋人2075万，每年新增2万听损儿童，比人口最多的少数民族——壮族还多440万人，占全国总人口的16.79‰，是我国人口最多的“少数民族”。随着康复技术的不断发展，国家对听障儿童给予诸多政策扶助和关爱，不少听障儿童得到了较好干预，他们听语康复回归到主流社会，第一母语不再是自然手语。

除去这些康复了的听障儿童，还有大批聋人群，他们中间能够上大学的毕竟是少数。只有接受过教育的聋人才能理解手势汉语。而更多的聋人群接受教育程度偏低，尤其是贫困地区仍然有很多聋人没有接受过教育（笔者对此没有做深入的调查研究，只是根据官方的报道和生活周围的人群估算），有的聋人认不到几个字，甚至无法写出一句完整的汉语句子，根本不懂手势汉语表达的意思，当然无法理解汉语语法和以汉语语法为基础的手势汉语。绝大多数聋人使用的是自然手语，也只能看懂自然手语。

就了解，目前“手语识别”的研究水平只能翻译对应的手语单词，并不具备翻译整段句子的功能，它们充其量可以作为一本“手语单词识别字典”。如果非要说它是具备了一定手语成句翻译功能的“手语识别系统”，那也只是“手势汉语翻译系统”。此系统适用者并不是以自然手语为第一语言的广大聋人群，而是专门供健听手语爱好者、聋人群中接受过一定教育的少部分聋人使用。

手语作为一门独立的自然语言，拥有自己独特的语法。最常见的例子就是在手语中的否定后置。例如，我们用汉语说：“禁止喧哗”，翻译成自然手语就成了“喧哗““禁止”，这两个词的前后位置有变化，否定被放到了最后，因为手语是以视觉效果为基础的空间语言，否定后置会使句意表达更有力。就像我们把一段汉语句子放到谷歌翻译成英文句子，可以保证翻译后的英文句子100%还原汉语句子的句意、且没有语法错误吗？同样的道理，如果不能搞清楚手语中的语法关系，翻译整体句意也很可能会是不伦不类，最多只能实现单词、短语的选择性翻译，这就是笔者所说目前相关手语识别的研究，只能定义“手语字典”。手语识别，即整句翻译功能还有无数个艰难险阻的科研难题需要攻克。

手势汉语与传统语言计算有些类似，而手语计算与传统语言计算有本质差异。传统语言的计算理论是建立在单信道基础上的，而手语计算是基于多信道的。传统语言计算的根本任务是“消歧”，而手语计算是以空间计算为主，核心任务是将单信道表征和多信道表征相互转换。因为手语的手部形状、手部位置、手掌方向、头部动作、眼睛凝视方向、面部表情、肩部动作和躯干姿势等这些信道都包含语言学意义上必不可少的信息。这些信道信息互为依存，相互联系，缺一不可。手语识别需要将空间建模、空间隐喻、空间语义等概念贯穿在手语计算的词法、句法、语义和语用等各个阶段。

那么对于手语研究我们应该抱怎样的态度呢？也许美国学者Huenerfauth Matt的成长故事可以给我们启发。他是国际上知名的手语计算专家，宾夕法尼亚大学计算机系计算语言学专业博士毕业，宾夕法尼亚大学NLP（自然语言处理的缩写）研究组是全美最好的团队之一。受到过良好的科学训练。他就读大学时就已经掌握了美国手语，并考取了手语翻译员证书。他从2006年博士毕业到现在，几十年如一日一直做手语计算的研究，没有换过方向。他的成果丰硕，从2002年到现在共发表了75篇论文。从matt故事可以看到，要成为这方面的专家，需要坐冷板凳的，耐得住寂寞。

从中科院研发手语识别系统的艰难历程可以看到，要想研究出一个实用的手语识别或翻译系统，并不是简简单单录入手语词汇，即便获得几个奖项也只能算在漫长的科研路上取得了一个个里程碑的成果。如果要研究出聋人需要的实用的手语翻译系统，就必须脚踏实地，扎扎实实做科学研究。首先要学习手语语言学，熟悉聋人的语言——自然手语。还要了解这个领域的科研动态，借鉴别人的成功经验去改进、提高、创新和发展。如果在不了解手语、不了解聋人实际需求的情况下做劳而无功的研究，其“成果”对聋人来说必然是没有实际效用的，不仅浪费自己的宝贵时间，将“热热闹闹”地让聋人大失所望。

写到最后，也许会人问：按照此文观点，手语识别，即手语的无障碍翻译岂不是遥遥无期吗？怎么样才能做出像谷歌、有道翻译系统一样的手语翻译系统呢？笔者的答案是：当有一天手语词典作为一本工具书达到了《牛津字典》这样的程度，当手语语法有了大家公认的成文成果，当手势汉语与自然手语各成体系、成熟并被世人所熟知接受，当越来越多的聋人接受到高等教育，当我们的科技飞速发展到支持这一切研究成果成型，这个时候，才有机会出现真正的、像谷歌、有道一样的翻译软件。路漫漫其修远兮，期待有更多的科研工作者持之以恒上下求索，相信这一天一定会到来！