我国低资源语言大规模数据建构及语言田野实践的数据转向*

2023-02-18范俊军

云南师范大学学报（哲学社会科学版） 2023年6期

范俊军, 沐华,2

(1. 暨南大学文学院,广东广州 510632; 2. 楚雄师范学院语言文化学院,云南楚雄 675099)

一、低资源语言与低资源语言的数据建构

(一)低资源语言概念的界定

低资源语言这个概念源于自然语言处理(NLP)领域,指缺乏可用于自然语言处理任务和语言学计量分析所需足够基础数据的语言。这里的“足够基础数据”有3层含义:一是数据种类多样,包括:(1)单语语料,如大词表,各种口语句和语篇等;(2)双语语料,如民族语-普通话、方言-普通话对照词表,双语句译、篇章意译文本等;(3)语域知识语义词网,如人名、地名、实体名关联知识描述等。二是机器可计算处理的数据,如制表符格式纯文本,字符数组或矩阵数据,数据库和语料库等。三是数据达到规模量级,如5万词条、10万句子等等。虽然不同NLP任务的数据有些差异,但都要有足够的基础语料。机器学习要有大量的单语词语、句子,以及书籍、科学论文、电子邮件、社交媒体等各种文本。机器翻译需要大量平行语料以及分词或词类标记的文本等。从语言学研究来看,语言结构单位组合与聚合的频次及分布,语言要素相关性及语言特征数学表征,也有赖于大量词语、句子和语篇的统计分析。语言应用方面,如制定拼音方案和正词法,其中涉及分词连写、声韵调字母选择、音节界限、新词术语意译等,也要大词表、语句和语篇统计分析才能有效解决。

低资源语言和通常说的“低声望语言”“弱势语言”“不知名语言”“较少人使用的语言”“少数民族语言”“濒危语言”等概念有某些相似之处,但属于不同概念。这里的“资源”是指语言数据,即机器可读形式、用于计算的语音或文本数据集,如机器词典、句表,书面语和口语语料库,术语数据库、语音库等。自然语言处理所需的低资源语言数据最低能低到多少呢?Oliver Adams等人对云南永宁纳西语进行词嵌入语言模型训练,所用数据有2000多词条和3039个句子,其中训练用句2039句,测试用句1000句。(1)Oliver A., Adam M., Graham N., Steven B., Trevor C. A survey of cross-lingual word embedding models[J]. Journal of Artificial Intelligence Research.2017,(1).Katharina Kann等人对15种低资源语言进行词类机器标注训练,搜集到可用的、数量最少的双语词表是马耳他语-英语对照词汇2100条,句子2361个(43900 token),而句子最少的是阿姆哈拉语,只有777句(17900 token),阿-英对照词汇2700条。两种语言的测试结果分别是0.3441和0.3544,(2)Kann, K., Lacroix O. ,Søgaard A.Weakly Supervised POS Taggers Perform Poorly on Truly Low-Resource Languages[J]. Proceedings of the AAAI Conference on Artificial Intelligence. 2020,(5).表明太少数据训练的模型效用较低。不过,15种语言平均有21320个词,5910条句子。

法国语言资源清单工程(3)Leixa, Jérémy, Valérie M., Khalid C.Inventaire des ressources linguistiques des langues de France (ELDA/DGLFLF-2013A)[C]. Paris: ELDA/DGLFLF, 2014.曾采用文本语料库、语音语料库、平行语料库、词库、语法标注语料等指标对法国几十种语言的数据资源进行评估,但世界上大多数语言缺乏数据评估。全球近7000种语言仅100种语言有语法树库(4)通用依存树库.https://universaldependencies.org:访问时间:2023-06-21;Zeman D, Marecek D, Popel M, et al. Hamle DT: To Parse or Not to Parse?//Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC-2012)[C]. Istanbul, Turkey: European Language Resources Association (ELRA), 2012:2735～2741.,50种语言有词网库(5)Global WordNet Association[EB/OL].http://globalwordnet.org,访问时间:2023-06-21.,其中仅16种语言有词义标注或知识库;谷歌、微软和苹果系统仅支持100多种语言(6)Google 谷歌[EB/OL].http://translate.google.cn,访问时间:2023-06-21.;美国世界少数民族语文研究院(SIL)有2000多种语言的《圣经》译本,但属单一语体;维基百科支持300种语言(7)Wikipedia[EB/OL].https://en.wikipedia.org/wiki/List_of_Wikipedias,访问时间:2023-06-21.算是最多的。目前人工智能语言模型主要是国家或地区官方语大语种,大量的低资源语言没有数据集和模型。因此,即使不考虑已有资料是否已经数字化或是否能将文献资料数据化并转换为数据库和语料库,全世界98%以上的语言都缺乏基本的文献、音像和网页资源。

一种语言是高资源(或称富资源)还是低资源,与人口和地域并无直接关系。低资源语言并不都是人口少的语言。印地语有5亿人口,但其比起法语仍是低资源语言。就我国而言,普通话属于高资源语言,粤方言属于较高资源,而藏语、维吾尔语、蒙古语、哈萨克语、朝鲜语、壮语等语言则属于次高资源。除此之外,其他汉语方言和少数民族语言都属低资源语言,尽管使用人口可能超过许多中小国家的国语或官方语。少数民族自治州的通用民族语通常有些文献积累,譬如一两部词典(或简单对照词表),一两种课本或读本,有的语言还有周报、月报(或版面)、期刊(或栏目)。但总体上语料种类和数量仍然很有限,五六万词条的词典或词汇集还很少,五六万的句典或句子集还未出现,语篇大多是口传故事小文本,知识读本十分罕见。至于音像和新媒体,目前仅有两三种民族文字新闻网站,零星的民族文字短文或小栏目板块等。我国使用汉藏语的自治州通用民族语,除藏语和壮语外,都缺乏可用于机器计算的语料库、词库和知识库,好些语言还缺乏可数字化和数据化的文献。

(二)自然语言处理领域建构或改善低资源语言数据的案例

近年国际语言资源评估会议(LREC)(8)LREC Conferences[EB/OL].www.lrec-conf.org/,访问时间:2023-03-06.、北美机器翻译协会(AMTA)(9)AMTA[EB/OL].www.amtaweb.org/,访问时间:2023-03-06.、低资源机器翻译论坛(LoResMT)(10)LoResMT[EB/OL].https://sites.google.com/view/loresmt/,访问时间:2023-03-06.都十分关注低资源语言,谷歌NLP专家(11)Sebastian R. The 4 biggest open problems in NLP[EB/OL].http://ruder.io/4-biggest-open-problems-in-nlp/,访问时间:2023-03-06.将面向低资源语言处理作为当今NLP四大开放问题之一。低资源语言处理主要涉及几个方面:(1)资源采集;(2)投射/映射技术;(3)语言任务(语法建模有关);(4)语音识别;(5)嵌入;(6)机器翻译等。(12)Alexandre M., Vincent C., Evan H. Low-resource Languages: A Review of Past Work and Future Challenges[J].http://arxiv.org/abs/2006.07264.重点是解决基本数据稀疏,其中一个解决方案是人工采集和创建低资源语言基本数据集,包括词汇数据、文本分句和词类标注等最基础的工作。例如,Mayoun等人所做的旁遮普语(Punjabi)词汇数据集,(13)Humayoun M, Ranta A. Developing Lexicon//Pacific Asia Conference on Language, Information and Computing[C].2010:163～172.Cannell等人试图为近千种资源稀缺语言建立网络基本语料(14)Scannell K P. The Crubadan Project: Corpus building for under-resourced languages[C].Building and Exploring Web Corpora: Proceedings of the 3rd Web as Corpus Workshop.2007:5～15.。低资源语言的语料数据建构是语言学家和语言学可以大显身手的领域。另一个解决方案是通过数据增强、多语言嵌入、迁移学习等算法扩充数据。例如,Fadaee等将视觉数据增强技术应用于语言处理,通过改变平行语料库的现有句子来增强训练数据(15)Fadaee, M., Bisazza, A., Monz, C. Data augmentation for low-resource neural machine translation[C].In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics,2017.;Kumar等人的零样本翻译技术允许同时使用多种语言或方言训练编码器模型,利用已学过的语言对在未见过的语言对之间进行翻译,从而避免为每种新语言重建机器翻译系统(16)Rashi K., Piyush J., Vineet S. An augmented translation technique for low resource language pair: Sanskrit to Hindi translation[C]. In Proceedings of the 2019 2nd International Conference on Algorithms, Computing and Artificial Intelligence,2019.。

就我国的语言来说,国外技术领域已研发了普通话、粤方言、藏语以及某些境外有分布的少数民族语言如佤语、白苗话、克钦语、掸语的预训练模型,开源社区发布了某些数据集。佤语、白苗话、克钦语(景颇)、掸语(傣语)等语言属于低资源语言。国内技术领域已实现某些特定NLP任务的,主要是一些文献资料丰富、语料数据较多的高资源或次高资源语言或方言。如普通话、省会汉语方言、藏语、蒙古语、维吾尔语、壮语、彝语等,(17)俄罗斯语、朝鲜语、哈萨克语在境外是一些国家的通用语,资源相对也比较丰富。这些语言基本实现了单语语音-文本的单向机器转换,民族语和汉语的文本翻译转换,语音识别和文本机器翻译基本达到实用水平(18)龙从军,安波.中国少数民族语言文字信息处理的进展[J].暨南学报,2022,(9).。

近两年国内技术领域对低资源语言开始有所关注。例如,陆杉等人基于泰语和越南语的词性标注和依存分析联合模型测试,(19)陆杉,毛存礼,余正涛,等.融合多粒度特征的低资源语言词性标注和依存分析联合模型[J].中文信息学报,2023,(7).杨鹏等人关于低资源语言无监督语音关键词检测技术研究,(20)杨鹏,谢磊,张艳宁.低资源语言的无监督语音关键词检测技术综述[J].中国图象图形学报,2015,(2).于重重等人关于土家语端对端语音识别转换模型测试研究(21)于重重,吴佳佳,陈运兵等.基于多头注意力机制的端到端土家语语音识别[J].计算机仿真,2022,(3).。国内技术领域有关低资源语言的研究和测试,主要是基于少量语言数据的算法改善、数据增强以及实现或提升某些NLP任务质量方面,受限于学术领域的相互隔离,国内NLP技术领域和语言学领域都未见到有团队开展我国低资源语言的数据建构理论研究和实践。我国低资源语言的数据集仍然十分欠缺,低资源语言模型也几乎是空白。语言数据严重失衡对建构高质量大语言模型产生了迟滞作用,不利于形成我国在当代语言模型技术竞争中发挥作用,可见低资源语言数据稀缺,是当前我国语言科学和自然语言处理共同面临的问题。

(三)低资源语言大规模数据建构的意义和价值

低资源语言NLP应用如机器翻译、语音合成和识别、文本生成、文本聚类、信息搜索、人际对话等等,有广阔的发展空间。全球低资源语言数量庞大,建构低资源语言基础数据,提升语言模型性能,是NLP的瓶颈。有足够的基础数据,才能实现AIGC生成内容,结合人机交互增强数据,解决数据稀疏和非平衡数据机器学习训练模型的难题。Meta AI技术团队致力于建构NLLB(No Language Left Behind,不落下一种语言)机器翻译语言模型,(22)NLLB T. No Language Left Behind: Scaling Human-Centered Machine Translation[C/OL]. https://doi.org/10.48550/arXiv.2207.04672,访问时间2023-03-06.希望囊括所有语言,但其关键仍在基础数据。

正因此,大力推动我国主体语群汉藏语系低资源民族语的不同结构、不同模态、不同知识语义的大规模数据建构,填补我国语言模型的空缺,有效推进NLP应用,可极大促进不同区域跨语言信息共享,经贸、文化、教育交流,提升知识社会化水平。我国有多个民族自治州的民族语还是跨国家分布,推动这些语言的大规模数据建构,促进NLP应用发展,有重要的国际政治和文化价值。我国南方低资源语言与东南亚、南亚、南太平洋区域境外语言有极大相关性,做好这部分语言的数据建构,能实现对周边汉藏语系或南亚和南岛语系国家及地区的传播使用,有助于贯彻“积极构筑民族语言文化高地,服务国家周边外交”(23)国家语言文字工作委.关于进一步做好语言文字信息化工作的若干意见[EB/OL].http://www.moe.gov.cn/srcsite/A19/s7067/201403/t20140314_166176.html,2014-03-14.的政策精神,形成我国语言文化及技术规范的国际话语权和向心力。

促进低资源语言的当代数字生活应用,是实现语言持续的重要途径。“用自然语言处理工具支持一种语言,可防止其灭绝并促进其发展,将原创产品中包含的知识向所有人开放,甚至可在应急响应的背景下起作用。”(24)Yulia T. Opportunities and challenges in working with low-resource languages[D].Carnegie Mellon University,2017.建构低资源语言的大规模数据,建立性能良好的NLP语言模型,对广大低资源语言社群学习和使用多种语言有广泛的传播效应,实现科学保护各民族语言文字,繁荣数字空间语言文化生活。

建构低资源语言大规模数据,需要先期研究和解决语域知识语义编目、大规模分布式语料采录、异构数据融合、新词实体名转译、民族语现代知识体系建构等新问题,这能有效推动田野语言学、社会语言学、语用学、语料库语言学等语言学科理论与实践创新和转向。基于大规模数据,汉藏语言异构数据分析,能检验历史比较语言学、语言类型学、音系词汇句法理论框架的解释力和适用性,提升语言学研究的数据科学性。

二、低资源语言数据建构的思路及任务

(一)低资源语言数据建构的基本思路

尽管技术领域针对低资源语言在探索数据增强、迁移学习、回译等算法来生成语料,扩大数据规模,但任何技术都不能做“无米之炊”,语言专家创建的优质基础数据仍然至关重要。训练良好的语言模型,需要数百兆、千兆甚至兆兆字节数据,相当于数百万、数千万或上亿个书面句子。创建这类数据集,生产成本很高,需要数年时间,几乎没有实体机构愿意支付数百人薪酬,让他们采录/说出或写出几十万或数百万词语和句子。这是建构低资源民族语大规模数据的难点。

因此,要考虑小成本、高效率建构优质数据。构建低资源语言数据目前主要有两个途径:一是通过注释原始语料创建新数据集,二是收集原始语料并将其与高资源语言对齐。(25)Alexandre M., Vincent C., Evan H. Low-resource Languages: A Review of Past Work and Future Challenges[EB/OL].https://arxiv.org/abs/2006/07264,访问时间:2023-10-19.这为降低成本提供了思路:其一,低资源语言对与其他语言对在一个模型中联合训练可以显著降低训练时间,便于维护;其二,低资源语言可受益于高资源的亲属语言。循此思路,对于我国低资源民族语,可建构语言对子的结构化数据。低资源民族语言对子有3类:“民族语-区域通用汉语方言”语言对,二是“民族语X-民族语Y”语言对,三是“区域通用汉语方言-普通话”语言对。前两类属于异构语言对,后一类属于同构语言对。有区域通用汉语方言作为中介语,加上有一个民族语言对作为辅助,通过机器迁移学习训练,可生成其他“民族语X-民族语Y”语言对的平行数据(适当人工修正的工作量要少得多)。例如,汉藏语系语言的语言对子可以这样组配:羌语-彝语,景颇语-傣语,傈僳语-白语,苗语-侗语,彝语-瑶语等。由于大部分汉藏语分布在云贵川湘桂等省区的民族自治州、县,广大区域通行西南官话,各族群众都能熟练或较熟练使用西南官话,因而可考虑将西南官话作为平行语料的首选翻译语,再从西南官话译成普通话,通过西南官话这个“中介语”可使民族语和普通话的句意表达更准确。这种方式也有助于提升低资源或零资源语言的机器翻译性能,建立良好的覆盖庞大低资源语言对的机器翻译系统。

建构低资源民族语数据应优先考虑哪些语言?从数据产生和积累基础来看,虽然我国多数民族语的现有语料和数据未达到自然语言处理所需的数据类型和规模,但民族自治州或自治县通行的民族语,如彝语、傣语、景颇语、傈僳语、苗语、白语、侗语等,有大量的人口和广泛的语域,有传统文字或新创/改进文字,有一定数量的图书或报刊文献,语料多样性和知识性、可采集性及其数据化质量基本能够保证,因而应优先考虑民族自治州的通用民族语建构大规模语料数据,待到经验成熟和数据处理取得明显效果时,再延伸到民族自治县通用民族语。

(二)低资源民族语言数据建构的主要任务

1. 大规模词语集

词语表是词和短语及其相关信息的集合。大规模词语集是自然语言处理的基础数据,它有多种用途,如逐词翻译,稀有词翻译,检查文本中不常见词汇或拼写错误,缩小源语言和目标语言之间嵌入空间的差距,等等。例如,MetaNMT机器翻译系统对欧洲某些低资源语言的翻译任务使用了1.6万个单词的词表,这是目前神经机器翻译系统所用词表的最低极限。从NLP和语言学计量分析来看,建构我国低资源民族语的大规模词语表,数量至少应在3万以上,常规数量应达到5～6万。

一种语言的词汇系统表征了该语言族群的知识体系。由于环境和历史的原因,大多数低资源民族语缺乏表达传统知识和现代知识的大词汇系统。这表现为两种状况:一是有些传统知识词汇逐渐退出语言生活,二是大量现代知识没有创造词汇,依赖移植汉语。前者可通过广泛语言调查来解决,后者则需要大批量创新和创造,这才是建构大规模词语数据集亟须解决的问题。

如何通过创新和创造来建构低资源民族语大规模词语数据集?我们提出的基本思路是:以各民族语方言区传统知识为基础,填补、迭代和创新基础方言传统词汇;以国家通用语现代知识体系为参照,创造各民族语言的现代词汇,促进各民族传统知识和现代知识的融合以及知识社会化。在实践上还应解决词汇扩容和保持词汇固有系统的问题,即词汇大规模扩容之后,词汇系统面貌仍然应凸显民族语的特征。挖掘传统词汇,创造现代词汇,移植汉语词汇,可按黄金分割予以规范,传统形式的词汇占0.618的比重。例如3万规模的词表,传统形式词应占18540条,规模扩大仍按此类推。传统形式词汇包括固有词,固有语素意译现代词,以及根据民族语与汉语历史语音对应关系的音译现代词。

建构低资源民族语大规模词语数据集有以下几种途径:(1)穷尽搜集现有纸质词典、词表及网络词库或词汇集。(2)搜集文字手稿和印刷书刊报文本并进行数字化,从中提取词语表。(3)全面调查标准音基础方言各种土语词汇,填补标准音点传统词汇空缺,兼收方言土语的不同说法,丰富词汇的语用功能。(4)以《现代汉语词典》为基础,参照农业、林业、动植物、草药、生态地理等知识读本或百科词典,筛选出适用于各民族现代生活的知识词汇来创新、翻译和移入。(5)在民族语通行的州市、城镇和乡村,选择若干大众化、典型性的服务实体和活动场所,对实体名称、公共服务、行政管理等领域词汇用语进行广泛的调查记录,如政务服务中心常用词汇和用语,医疗卫生实体常用词语,商业街道的商号名称和标牌用语等等。通过这些途径可建构一个覆盖各民族语言生活的知识系统和词汇系统。

2. 大规模知识语义词网

建立句法、语义知识库之类的语言知识数据,可帮助计算机理解自然语言意义并进行知识推理。以知识库的实体、类型和谓词为载体,描述自然语言的实体以及实体间的关系,可服务于自动分词、词性标注、句法分析、语义分析、机器翻译、信息提取、情感分析、文本摘要和人机问答等多个领域。数据规模较小的低资源民族语,建构知识库还能一定程度改善语料匮乏引起的其他问题,提高自然语言处理质量,帮助提升机器系统性能。

传统的句法语义知识库,如美国普林斯顿大学WordNet知识库、美国科洛大学的VerbNet知识库存在知识不足的缺陷;WordNet知识库往往会忽视词语之间的组合关系以及语句段落里的共现关系;VerbNet知识库将动词作为核心,也存在妥善处理情景式事物指称问题。知识库的语言形式涵盖词、词组、句子和篇章。知识内容通常包括两方面:一是语言本体层面的知识,如词法、句法和语义知识等。二是社会和环境认知层面的知识,即语言族群社区生活的一切知识,如生产生活知识、社会关系知识、自然环境知识、民俗文化知识等。理想的知识语义词网是将两类知识词汇融合在一起,按内容建立语义关联。但是,对于低资源语言而言,最基本的知识语义词网还是人名、地名、实体名等专有名词的指称和内容属性描述。例如,“三棵树”“石壁边”可能是村庄名,“常来”“随便吃”可能不是通用动词短语,而是快餐店名称,“牛扒呼”是傣族特色肉食菜名。对于大量的这类专名,应建立语义属性描述关联。由于这类词语的开放度较高,因此作为基础数据的知识语义词网条目通常应达到1万条以上。有关知识语义网,可参考资源描述框架(RDF)(26)关于语义网和RDF,可参阅网站课程:W3 School [EB/OL].https://www.w3school.com.cn,访问时间:2023-03-06.和都柏林核心元素集(DC)。

3. 大规模句集

机器学习的语言知识来自人们使用的话语和创作的文本,通常以单语句库、双语句库、语音句库、文本句库等数据形式存储。因此,口语句和书面语篇语句是低资源民族语数据建构的主要内容。深度学习的机器翻译对句库规模有严重依赖,语句过少,学不到足够的语言特征,很难训练出优良的模型。迄今优良的机器翻译系统所用训练语句都在百万以上,如WMT19中英数据集有1000万平行句对,WMT14英德数据集有500万平行句对。低资源场景下,虽然通过某些算法可适当减少语句数量规模,但三四万句仍是基本要求。建构低资源语言语句数据,无论是单语还是双语,基础句子集至少应有两三万句,常态五万,较理想的是八万或十万句。

建构低资源民族语大规模句子数据集有以下途径:(1)穷尽搜集文字手稿、图书、报刊或网站的句子及文本资料,做好分句标注,对纸媒文本数字化,对单语语料做普通话句译,对双语语料做句子对应等。(2)以汉语为参照,并结合民族社区语言生活,编制语域功能大纲,组织母语团队(通常应由几十或上百人),根据大纲分工编写几万个语句,里面应包括短句、长句、语段和语篇;然后根据编写的语句采录语音,发音人员应有广泛代表性,人员数量通常应达到100人以上,涵盖语言社群的各类成员。

4. 语料和资料的数据化

数据化是把一种现象转化成为可制表分析的量化形式的过程。(27)维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].周涛,译.杭州:浙江人民出版社,2013:104.语料数据化是将采集和转写的语音和文本资料,包括语料和其他数据,转换为结构化数据,亦即有固定格式和标准标签或标记的数据。这类数据才能供计算机程序直接读取和计算。对低资源语言来说,语料数据化能形成数量可观的有效数据。

语料数据化先应弄清语料内容及其相互关系,再按一定标准对语料分类并组织成结构化数据。例如,词汇资料应制成excel词表,带制表符格式的纯文本,有XML标签的文本或数组文本等等。语篇要分句分词,加上句标记和词类标记,制成xml标签文本或数据格式文本。其他如人口、语言名称、地点、方言差异等语言社会生活数据,在通常的语言志、研究著作和调查报告中都是文段描述,不便于计算机处理。这类数据应提取出来,制成指标数值数据表。句子和语篇文本应转换为字符数组数据,或制表符格式的矩阵阵列数据,或有xml元数据标签的纯文本。所有语料只有转换为机器可读的数据格式,才能用于机器学习训练和语言学计量分析。

语料数据化只有在大批量已数字化的词语、句子和文本基础上才有效率。但从我国低资源民族语言的现有语料来看,譬如汉藏语言,除了彝语、傣语、景颇语、傈僳语拥有一定数量的图书、报刊和网页文本资料以外,其他语言书面文献很少,即使有也是分散夹杂在中文图书报刊之中。一方面,将彝文、傣文、景颇文、傈僳文等过往书报刊语料制成数据集,需要数字扫描和OCR文字识别转换,但OCR识别率不高,需要大量人工校订,这给多快好省建构数据集造成不小阻碍。另一方面,分散在中文著作里的民族语词汇、句子或文本,通常每本书只有两三千个词语,一两百个语法例句,三五个或十来个故事,加起来不过一千来句,且都是音标标注,无法OCR扫描识别,完全依赖人工挑选、汇集和录入,得不偿失。因此,目前的语料数据化,最适宜的是那些有民族文字网站和民族文字读本的通用民族语。

三、低资源语言大规模数据建构助推我国语言田野实践的数据转向

我国几十年的语言调查研究,记录了一百多种民族语和上千种汉语方言的基本语料和人口数据,形成了少数民族语言6种丛书(28)6种丛书分别是:《中国少数民族语言简志丛书》《新发现语言研究丛书》《中国少数民族语言方言研究丛书》《中国少数民族语言系列词典丛书》《中国少数民族语言参考语法丛书》《中国民族语言语法标注文本丛书》。、汉语方言大词典和区域汉语方言调查报告、国家语言资源保护工程语料集、汉藏语言数据资源平台等标志性成果,奠定了民族语言学、汉语方言学、田野语言学、描写语言学的基本理论、分析框架、实践范式和数据样态。但这些成果所收录语料和分析用例,大多是一二千字音,两三千条词汇,两三百个语法例句,十来个口述小语篇。数据种类和模态偏少,数量规模偏小,(29)《中国少数民族语言简志丛书》(57种)各册附录词汇约1000来条,无句子和长篇语料附录,书中分析句子用例每册约60多句。《中国新发现语言丛书》(49种)各册附录词表约1500～2500,长篇语料1～6个,无句子附录,书中分析句子用例最多的200来句,最少的80多句,平均约160句。《中国少数民族语言参考语法研究系列丛书》各册附录词汇约2200～3000,长篇语料5～10个,无句子附录。《中国民族语言语法标注文本丛书》(20种)每册收录一种语言20来个故事文本,单语句子总量不足2000句。难以支撑广度和深度描写、比较、分析与实证,无法通过数据分析发现新现象和新规律并进行理论和方法创新;也无法在当代人工智能科技进步和社会语言生活需求发展中体现语言学的实际效用。低资源民族语的数据建构,能促使我们检省惯常的语言调查工作模式,推动以数据为本的理论与实践转向。

以数据为本的田野语言学理论与实践转向有两层含义:一是将采集和建构语言数据纳入田野语言学理论框架,体现数据思想,拓展理论内涵,创新语料记录观念和方法。二是建立采集和建构语言数据的实践规程,促进形成语言调查实践的新常态。

(一)将采集和建构语言数据纳入田野语言学框架

田野语言学是从语言结构主义思想出发,介绍语音、词汇、语法现象的调查、记录、解析和描述方面的概念、原理及方法,内容通常有实地调研操作,音标发音听辨,汉语方言或少数民族语的语音、词汇、语法调查,语言特点概略描写(调查报告)等。语言调查教科书都遵循这种内容框架,(30)笔者能见到的教科书中,仅见范俊军.中国田野语言学概要[M].广州:广东人民出版社,2016.有“数据资料建档”章节内容。旨意是阐述样本获取以及语言学分析的学理和实践价值。随着语言生活发展,语言学理论革新和语言科技进步,传统学科框架已显露出时代滞后性和学理缺陷性,这主要表现为:脱离语境的字词句片段,无法表征语言系统内在关系;有限的简略样本,无法体现语言社群言语交际样态;单纯的语言学经验观察记录,无法发现和揭示语言社会价值和知识价值。“传统的语言调查……在揭示语言的知识系统、文化体系方面明显不足……人类的知识和思维运作主要贮存、表现在词汇、语法、语用和篇章之中…必须在语言调查方法、语言调查内容等方面进行大幅度改进。”(31)李宇明.中国语言资源的理念与实践[J].语言战略研究,2019,(3).将采集和建构语言数据纳入田野语言学框架,是学科发展的必然。

语言是人类思维和知识最重要的载体,最重要的交际工具。将语言数据理念融入田野语言学框架,就是要贯彻“知识-交际”(32)范俊军.中国的濒危语言保存和保护[J].暨南学报(哲学社会科学版),2018,(10).理念,深化学科理论和实践内涵。内容拓展主要有几个方面:增加语言数据、数据模态、数据集、语料数据化、低资源语言、语言模型、知识语义词网等语言数据相关的概念、术语和原理阐释;定义采集和建构数据的任务、内容、方法手段、操作程式规范以及案例描述;增加语料数据的采集、记录和处理的技术原理、方法和工具运用;建立基于语用知识的语言调查和数据采集纲目;等等。

(二)促进形成我国语言调查实践新常态

惯常的语言调查模式有3个缺陷:一是个人旨趣驱动。调查什么现象,收集多少语料,做来何用,完全出于个人旨趣和需求。二是语料的社群性和知识性欠缺。找一两位原籍地说话“正宗”的老人或长者,照着现成词句表,问出“固有”的发音和说法,这种狭隘选择,造成语料样本无法体现社区社群的言语能力、语用知识和生活知识,缺乏多样性、充分性和真实性。记录了亲属称谓词,但没有体现社群族系和伦理知识;记录了房屋和器具词汇,但没有表现本土环境生活知识;记录了语法例句,但没有体现语用表达多样性及其联系。三是内容重复雷同。个人的学术取向决定了对语料的选择记录,而取向又往往被某个流行问题带节奏,结果是调查目的相同,研究问题类似,语料单一雷同,除了选取一些样本作为著述用例之外,其他则弃置不用,无法分享和传播,因而失去了效用。这也是为什么看起来有不少人记录了不少材料,但进行广度和深度比较、阐释、计量或实验分析时,却仍然缺乏可用的基本数据。我们将低资源语言大规模数据建构工作引入田野语言学实践,旨在推动两个转向,促进以数据为本的语言田野工作新常态。

1. 从个人学术导向的小样本调查转向社群知识为本的规模数据采集。

这种转向在实践操作层面主要有两项工作:

(1)建立面向词语采集的社区社群传统及现代知识纲目。

传统知识是指语言社群世代传承的知识,如本土地理知识、动植物知识,传统生产知识、生活知识、技艺知识、风俗礼仪等等。(33)肖自辉.面向传统生态知识:当代民族语言调查的价值取向[J].广西民族大学学报(哲学社会科学版),2018,(5).现代知识是指中华人民共和国成立以来,语言社区社群生产生活发展进程中通过学习、借鉴和创新而形成的新知识,如现代作物和机械化耕作知识,现代工业和手工业知识,现代学校教育知识,现代经济活动知识,现代家居生活和数字生活知识,现代城乡社区组织管理知识等等。

惯常词汇调查是依据汉语词拟定义类词表,分类较为笼统,通常只有二三十类,且夹杂了“代词、形容词、连词……”等词性分类。建立知识纲目,旨在舍弃单纯以个人语言学知识为导向的调查习惯,确立以建构知识词汇系统为核心的词语采集模式,因为词汇只有充分体现语言社区社群的知识体系,才能体现语言学特征系统。建立知识纲目,也不是抛弃传统的词汇调查表,而是对它进行改造和创新,这主要有3点:一是去掉词性分类,以语言社区社群知识贯穿始终,将传统知识和现代知识分开编目;二是以知识点为内容条目,即纲目列出的是知识点提示让人组织表达,而不是列出汉语词汇让人对照翻译。例如,关于食品和食物知识内容,可提示本地传统食物食品和新式食物食品,诸如传统日常菜品,传统节日节庆宴席菜品,婴幼儿食品,老人食品,身体保养食品,传统肉类菜品食品,传统水果蔬菜类食品,与各种菜品和食品制作、烹饪相关的工具、手艺、程序等等之类的提示语。只有列出知识点,才能激发社群成员的知识联想,把与知识有关的单词、短语、俗语及其语用范围和语义域充分表达出来。这样既获得了丰富知识,也采集了大量词语。三是充分体现现代知识内容。现代知识词语和表达在现实言语生活占有很大比重,舍弃这部分内容,则无法体现词汇系统面貌。现代知识词汇的调查,既要关注从汉语直接传入和移植的事物和概念词,也要关注新事物概念词语的翻译创新,即本族语创新应如何表达。也就是说,这不是机械被动地记录,而应融入新知识词语的建构。词语创新的基本原则是,以国家通用语知识体系为基础,建构民族语言的现代知识体系。

词汇调查工作新常态的重要特点是规模性、多样性、广域性的词语数据采集,即在数量上有较大升级,至少应达到1万以上,常态应有2～3万。形式上应涵盖词、短语、俗语,知识语义范围应包括惯常调查忽略的人名、地名、实体名等,模态应包括语音和文本,转写和注释形式应使用双语或三语,如民族语-普通话-地方汉语官话方言。

(2)建立面向语句采集的语言社区社群语域功能纲目。

语域是指语言社区社群生活的交际场合情景,如生产劳动场地、商贸集市、节庆活动等等。功能是指各种场景的话语事件和交际活动,如见面打招呼,受人帮忙致谢,出行问路乘车等等。惯常的句子调查模式是依据“语法例句表”记录句子(sentence),然而在交际活动的言语中,语法表征是多种多样的,按语法要点设计一些例句,无法体现语法和语音、词义、语用的内在关系,操作起来效率极低,难以获得大量有效语料。

语句调查工作新常态是采集大规模的交际语句(utterance),其基本原则是,以语言社区社群语域功能知识为纲,记录和创建交际语句和口述语篇。语料模态包括语音和文本,其中有目标语言和元语言解释样本,元语言应采用国家或地方通用语。语句数量至少应有几千句,通常两三万句,涵盖口语和书面语,相同句意的多种表达,并融合各种语域的话语事件和事物知识的陈述和表达,体现话语的交际功能和知识功能。

依据若干语法要点拟出一两百个例句,这容易做到。编写语言社区常见语域几百个常用语句,也不是很难。但要采集上万语句,功能覆盖社群交际的方方面面,还要融入语言社区生活各方面知识,则并非易事。因此,建立以语言社区社群语域语用为核心的言语交际功能纲目,显得十分重要。目前能见到的交际功能纲目主要是学习普通话(尤其对外汉语)的功能大纲,这些可作为基本参考。最重要的是要广泛考察民族语言和方言社区生活语域,建构一个全面的、可操作的针对我国低资源语言语句采集的语域语用功能纲目。纲目可采用二级分类:一级纲目列出社区社群生活的各种交际功能,如见面、打招呼、问候、求帮忙、表示感谢或道歉、购物等,可提炼出50～80个功能域;二级纲目列出具体话语事件和场景。例如,一级纲目“打招呼”可列出各种事件情景下的打招呼,亲属见面打招呼、熟人打招呼、陌生人打招呼、去政府办事跟工作人员打招呼、跟长者打招呼、跟年少者打招呼等,二级纲目将交际事件和情景联系起来。这样就有明确的指向,容易建立事件和情景的知识联想,编写和获得大量内容和功能广泛、表达形式丰富的语句。

2. 从个人学术研究的小样本标注转向多用途的数据化处理。

整理和处理语料是语言田野工作的重要内容,主要体现为语料的转写标注。语料的转写标注样态,是语言本体知识和社群环境生活知识的物质外壳,语料的识读和效用只能通过转写标注实现。惯常的语料处理,主要是表征语言学特征的转写标注,如音标记音和基于莱比锡注释规则(34)例如前文提到的民族语言语法文本标注丛书,该莱比锡规则由德国莱比锡大学和马普研究院的语言学者拟定,包含10条关于分行语素对齐注释规则,主要针对印欧语言。用它来标注我国汉语方言和少数民族语言时不宜照搬,还需要修改和补充。英文版下载网址:http://grammar.ucsd.edu/courses/lign120/leipziggloss.pdf.的文本标注。这种标注语料的数量不大,标注的信息量较少,仅适合研究者作有限的、经验式人工分析使用。

语料处理的新常态就是要形成以多用途为核心的数据处理的工作模式。这里的“多用途”至少表现在3个领域:一是语言学研究,二是语言教学,二是自然语言处理。惯常的音标转写和莱比锡标注语料就是适应语言学研究用途,但无法用于语言教学和自然语言处理。就语言教学而言,语料要能用于解决语音规范、拼音(文字)方案、正字法问题,解决音节整体识读问题,解决语篇朗读、诵读、演说的语音、语调、语气、话语情感等问题。语言教学的素材使用面比较广,传统单一的语言学转写标注语料缺乏这方面的效用价值,必然要数据化才便于做成教学产品,如各种词典、句典、手册以及课件和小课程等等。

语料的整理和处理还必须考虑语料在自然语言处理领域的使用,这也是当代田野语言学实践的分内工作。语料要用于NLP领域,除了规模性和多样性之外,还要数据化,即将样本素材做规范处理,使之成为机器可读取和计算的数据集。数据化处理包括标注和结构化两个方面。标注是指用机器可处理的字符集表征各种语料。通常的语料是用国际音标表征词语、语句和语篇,而作为机器计算的数据,通常应使用罗马拼音字母转写,声调也需要使用罗马拼音字母表征。通常的词句语料转写标注采用word文档分行进行句或词对齐编排,而作为机器计算的数据,通常要采用txt文件格式,写成计算程序语言所规定的字符数组格式。通常的语篇语法标注采用分行语素对应标注,(35)中国民族语言语法标注丛书包括《藏语拉萨话语法标注文本》(江荻)、《土家语语法标注文本》(徐世璇、周纯禄、鲁美艳)、《哈尼语语法标注文本》(白碧波、许鲜明、邵丹)、《义都语语法标注文本》(李大勤、郭晓、宗晓哲)、《白语语法标注文本》(王锋)、《藏语甘孜话语法标注文本》(燕海雄,江荻)、《嘉戎语卓克基话语法标注文本》(林幼菁)、《壮语语法标注文本》(蓝利国)、《纳木兹语语法标注文本》(尹蔚彬)、《水语语法标注文本》(韦学纯)、《维吾尔语语法标注文本》(王海波、阿力木江·托乎提)以及《达让语语法标注文本》(刘宾、孟佳仪、李大勤)。而作为机器计算的长文本语料,主要是分词和插入附码。通常语言调查录制的音频语料大都采用44KHZ的采样,而作为NLP机器使用的大多是16KHZ的数据。数组、矩阵、excel表、带制表符文本的语料,都是结构化的数据。双语词表和句表在数据化时,一对多或多对一的词条和句子,都应分开一一对应排序。数据化的语料不仅能用于自然语言处理,也可以大大拓展统计和比较方法在语言学分析研究中的广域使用。

四、结语

低资源语言是当前语言科学和自然语言处理共同面临的问题。我国是世界上语言和方言种类较多的国家之一,其中低资源语言占有较大比重,主要集中在少数民族语言和区域汉语方言。低资源语言也是世界语言文化多样性主要表现。目前人工智能已经发展到大语言模型阶段,低资源语言在自然语言处理领域的应用可以有效促进人工智能语言模型的发展与革新。低资源语言数据建构的思想,更是对语言学领域的机械形式主义和经验实验主义传统惯性的颠覆和扬弃,它将语言学者从游离于当今语言生活需求和语言科技革命的状态中拉回到当代语言学服务现实语言生活的轨道。对我国民族语言学和汉语方言学领域而言,围绕中国本土的低资源语言和方言,大规模采集和建构基础数据,广泛分享和传播数据,可以有效支持我国技术领域在当今语言模型创新与传播中发挥独特作用。我们也希望,语言学者积极开展低资源语言数据建构,全面推动基于数据计量的语言科学研究,提升我国当代语言学的数据科学性,实现语言学的重要创新和转向。