符号学视域下多模态语言档案建设研究

2017-01-29石贞贞

山西档案 2017年4期

文 / 石贞贞

符号学视域下多模态语言档案建设研究

文 / 石贞贞

随着民族融合趋势的加强，越来越多民族语言濒危灭绝，记录民族语言工作刻不容缓。现有语言档案建设存在着搜索功能单一、缺少语音和图像信息、资源不能共享、语言保真度低等问题。基于符号学理论建设多模态语言档案，建设多模态语言档案馆，包含字、图、声三位一体数据库，可以最大程度保护、传播、开发和利用濒危语言。

符号学；多模态；语言档案

一、多模态语言档案的社会符号学

（一）目前语言档案建设的概况

全球化背景下，中国的多元化语言日益趋于统一，众多小语种濒危。研究表明：“44种民族语言处于濒危，9种已经消亡。”[1]但是目前关于保护濒危语言的实践活动还不够深入，仅仅停留在学术层面对相关语言档案文字材料进行撰写、翻译、注释以及记录。在这种保护层面上，入手点通常是语音、语法或者词汇等某一个方面，而在整体研究上存在缺失；语言体系各个部分缺少必要联系，缺乏相关度和统一性；其研究范式多凭借录音或者文字，保护效果差强人意。

上海语言资源有声档案库中仅存在上海不同区域使用的几十个单音字；在中国科学院的多民族语言资料库中，虽然建立了汉语、蒙语、维语和藏语的平行语料库和形态库，但这些资料仅是由781篇文章构成的文本信息。现今国内的语言档案大多在不同程度上存在着语音原始情景信息的缺失，未曾尝试用图像或其它科技手段全方位地展示语言。就技术层而言，音频和录像等物理材料不够理想，导致现存档案保真度和清晰度还有待提升。

（二）多模态语言档案的社会符号学定义

社会符号学认为语言是一种听觉符号系统，是人类在特定社会背景和历史实践中创造出来的富有独特意义的表达系统。[2]因此，社会符号学认为，对于语言的研究不能局限于词汇本身，还应当囊括非语言符号的语法，包含书面语、口语、图表、音乐、图像和动态影像等在内的所有可以构建语言符号的资源。在符号学视角下，多种模态并非互相割裂，每种模态都属于符号资源，最终将发展成为有意义、互相连接的网络。此种意义还具有选择性，所有模态或者模态之间的互动都可以表达独特的意义。而这些多种模态的“符号语法”能够使得人类建立起基于现实的心理图像，并更好理解周围发生的以及自身内部经验。LIM认为，图像语法包括四级单位，即作品（work）、图式（figure）、情节（episode）和成员（member）。[3]而这四级单位是以语言符号作为构建的基础。语言符号成为构建一切社会现实的基础。

（三）多模态语言档案的特征

与传统语言档案相比，多模态语言档案更加关注两个问题：不同模态话语中各成分关系，尝试建立跨模态关系框架，并对其进行分析；分析不同模态中的符号特征，并对不同模态中的语义进行清晰描述。多模态语言档案建立并分析跨模态关系，第一步就是要对这种跨模态关系进行详细统一的量化比较。通常而言，各模态符号特征的分析基础往往是语义，如过程、情态等。

二、多模态语言档案的建设与发展

（一）构建多模态语言档案数据库的优势

多模态的语境决定了符号活动语义选择的多样性。社会活动在不同语境下产生不同的语义需要，最终体现出截然不同的表达形式。因此建立多模态语言档案数据库有助于发现符号的类型规律，并据此改善话语行为：在一定语境下预测、引导并分析尚未出现的文化策略。另外，通过语音、图像、文字等子数据库建设，多模态语言档案馆可以完整、全面、立体呈现出该种语言特点，并深入挖掘此种语言背后的文化特征、社会意义。

与传统数据库不同，多模态语言档案馆所采集和保护的对象，将突破平面的纸质文档，试图针对濒危语言进行全方面立体全息录入。[4]语言档案在历史发展中经历了两次转型。19世纪末期采用“描述语言学”——直接通过翻译、听写、笔记等方法大量记录语言。此方法不仅不利于传播，用户在查阅时，还存在诸多不便；另外在纸质端，还存在着破损、受潮、遗失等问题，且保存成本高昂，需要投入巨大人力物力。这种文字档案投入产出比较低，不利于常年实行。随着科学技术的发展，人类可以使用多媒体等现代化技术对语言进行全面记录，开始从“描述语言学”演变为“记录语言学”：将资料集中于PC端——方便用户在任何时间、地点进行查阅，极大节省人力物力，并且资料不易遗失或损害。但现今对多媒体的利用还只停留在纸质版的数字化，并没有进一步利用多媒体进行语言资源的开发和保护。

多模态语言档案数据库不仅包括最为基础的纸质文档数字化，而且包括视频图像和语音信息。用户在利用多模态语言档案数据库查阅有关资料时，可以得到声音、图像、文字三位一体的全面信息，这将有利于语言的传播和保护，让语言分析变得更清晰、直观，极大减少了误差。

（二）多模态语言档案数据库的构建

多模态数据库的建立是包括录音、摄像等多个系统与维度的立体构建过程。

1.调查设计材料。这一步骤中最为重要的是语言档案数据库的内容选取。它必须选取具有代表性的语言或指定部分，概括出语音格局，在参考已有研究的基础之上制定出每种语言特定的字表、词表、句子和语篇。原则上所选的材料应为自然语言。在设计字表时，需要分为声调、元音和辅音三个部分，尽量用小的语料库覆盖全部的语音及声调，缩小数据库的冗杂。相较于字表的简单，词表优先选用复杂的双音节词，方便研究语言的变调；在句子和语篇设计方面有朗读和表达部分。其中朗读包括语言叙述的诗歌和民间故事；语篇部分要做好包括韵律、音段在内的搭配，丰富句子多样性；表达部分主要是“口述”，通过对一些常见话题的情景描述，记录人与人交谈或独自表达时的语言数据。

2.建立发声人信息档案库。这一步骤中最重要是要保证发声人标准性。所采集的发声人样本应是将研究语言视为母语的当地人、没有长时间外出接触其它语言，所共同生活的人也应使用同样的语言，并且发声人没有患有影响声音的疾病，听力和发音器官都正常。

3.语言档案采集。这是最关键的一环。传统模式声像采集中往往会出现录音质量不佳，数据失真的情况。为解决这个问题，录音环境最好选在专业录音棚，避免外界的干扰。另外，录音还应该配有摄像头和呼吸袋。这样，我们除了声音之外，还能捕捉发声人的面部表情和嘴唇发声的韵律，可以更好地对语言档案进行采集。

4.语言档案管理。对于庞杂的语料库，管理需要经过精心的设计；为了语音文件夹命名的规范化，我们可以进行有规律的编号与排列，以方便保存、分管与处理。

5.语言档案分析。在分析之前，先要对所采集的数据进行过筛，如噪声处理、长静音空白和咳嗽声等。另外，每次采集数据完毕后，都应该由发声者或者另一位以研究语言为母语的人对录音进行检查，进行查漏补缺，随后采用南开大学所研发的“桌上语音工作室”进行语音分析、测算和统计作图。

（三）多模态语言档案数据库的基本结构

相较于传统的数据库，多模态语言档案数据库不再局限于文本子数据库，还包括语音子数据库和图像子数据库两个部分。

文本子数据库为数据库的基础，主要目的是存放语言的字眼、词句、段落等文本信息，并分析其属性及相互之间的连接。

语音数据库是数据库最重要的部分，记录了语言的语音信息及其语音属性，涵括字眼、词句、段落等的发音，以及在连读情况下有无变调。语音特性比文本特性更为复杂，包括每一种语言独特的音系特征、语调特征和字音特征。另外，在对语音数据库分析后，人们可以通过语音进行检索，迅速地找出该研究语言的变调、韵律等语音特点，可以更好地对研究语言和普通话进行双向匹配。另外，语音检索功能在数据库的实际应用中，可以实现更好的用户交互与体验。

图像子数据库部分是对语音数据库和文本数据库的补充。通过发音人图像的补充，可以使整个数据库达到集成化效果。用户在搜索数据库中，不仅可以听到声音，看到文字，还能观察发声人的面部表情、体态等方面的视觉特征。这种三位一体的呈现方式，可以更加原汁原味体现方言内涵及特征，避免创建数据库过程中语言的失真问题，有效地对语言进行保护、管理、整合与利用。

这三个子数据库互相独立又互相影响，构成一个完整的、全新的数据库。数据库用户可以分析、下载各类文件，输出各类统计结果。

三、总结

总体而言，符号学视角下多模态语言档案建设还处于探索阶段，现阶段多数档案建设还止步于文字的记录和描述。胡壮麟教授曾在第十二届全国功能语言学研讨会上指出，“多模态”不仅有“科技含量”，还极具“难度”，实践者需要“语言之外的涵养”。可见，现阶段进行多模态语言档案的研究还存在着一定的难度。但是，在文化日益融合的今天，多模态语言档案的建设是语言保护的必然趋势。多模态语言档案的研究不仅有助于濒危语言的进一步保护，而且是对该类符号背后文化、意义、社会等人文核心问题的再次认知。构建多模态语言档案建设最终将对社会整体的良性发展大有裨益。

[1]徐越.“浙江方言音档”的构建及预期价值[J].浙江档案,2012(1).

[2]李宇明.当今人类三大语言话题[J].云南师范大学学报(哲学社会科学版),2008(4).

[3]Spolsky,Bernard.Language Policy[M].Cambridge University Press,2004.

[4]张芳霖,汤晓良,谢雨菲.我国方言档案式保护的SWOT分析[J].北京档案,2016(2).

G270.7；H003

1005-9652（2017）04-0084-03

（责任编辑：虞志坚）

石贞贞（1982-），女，河南南阳人，南阳师范学院环境科学与旅游学院，研究方向：档案管理。