APP下载

藏语语言模型的研究现状及展望

2020-05-21郭杨拥措

电脑知识与技术 2020年9期
关键词:藏语研究现状

郭杨 拥措

摘要:语言模型是自然语言处理研究的基础,是计算机识别和自然语言理解的桥梁。到目前为止,语言模型走过来了三个阶段:统计模型、神经网络模型、深度神经网络模型。随着深度学习技术的广泛应用,大规模数据集的使用、复杂的模型以及高昂的训练代價称为语言模型建模的特点。随着信息化的高速发展,藏语的语言模型成为目前乃至以后的研究趋势。文章全篇介绍了语言模型的研究现状以及藏语语言模型的研究现状,并探讨了当前藏语语言模型在分析过程所经历的难题,并提出可能的解决方案以及应用前景。

关键词:语言模型;藏语;研究现状

中图分类号:G424 文献标识码:A

文章编号:1009-3044(2020)09-0181-04

引言

语言模型是许多自然语言处理任务的基础部分,对语言模型的研究可以促进自然语言处理方面技术的攻坚克难。通过对藏语模型的研究,可以提高藏文文本的分词技术,藏语语音的识别技术等,对于少数民族地区的民族化文化信息处理技术有着不可磨灭的重要性。

藏语是促进西藏文化和民族文化的主要工具和手段。因此,本文目标是基于对语言模型以及藏语语言模型的国内外最新研究的成果进行比较、分类、总结,从而探索出语言模型在自然语言处理方面的潜在趋势,帮助其他爱好研究自然语言的研究者全方位、各层次、多角度的了解该领域内的算法与技术。

关于藏语模型的相关研究很少,传统的N-gram语言模型仍在使用。最新的神经网络语言模型尚未应用于藏文。本文将基于语言模型、藏语语言模型这两个板块,通过分析两个板块下最新的衍变模型来进行详细阐述。

1 语言模型

自然语言从其出现开始,渐渐的变为一种在上下文的信息中表达和传递的方式,进而交付给计算机来处理自然语言。那么随之而来的一个重要问题就是如何解决自然语言的语境相关性?经过探索和发现,就是为自然语言建立数学模型。该数学模型是统计语言模型(Statistical Language Model),统计语言模型是现阶段自然语言处理任务中最基础的部分,在诸多任务中,如:文本分类、文本校对、机器翻译和语音识别等都有着它潜移默化的身影。

那什么是语言模型?假设,对于一个观测值:“yuyanmox-ing”,可能是由“语言模型”“寓言模型”“语言魔性”…等得到的,但是要想得到究竟是哪一个,通常需要计算它们的概率,比如:P('‘语言模型”"yuyanmoxing“)>P(“寓言模型”|“yuvanmox-ing”)>…,(P(110)),则可以确定为“语言模型”。如何对这个概率进行计算呢?从数学的角度来看:

如果我们直接用第一种方法,即为判别式模型,如果用第二种方法,即为生成式模型。当采用生成式模型的话,需要计算这个语句序列出现的概率即为P(I)的概率,如何计算P(I)的概率呢?计算一个文本序列w={w1,w2...wn)的概率,需要知道他们之间的关系,我们对这个关系的建模即为语言模型。

在研究白然语言处理的过程当中,总是有着各种各样的尝试,如何完美表达,完美计算和完美理解等。但是,由于基于手动规则的处理,早期模型在所有领域都不全面。手动规则已经达到了瓶颈,无法更深入的解决问题,于是在许多相关数学基础的研究者探索和发现中,通过统计,在大量没有标记的数据下进行有序的语法和语义的统计学习,从而取得一些成功。到目前为止,基于统计的语言模型已逐步从统计语言模型,神经网络模型升级到深度神经网络模型。

第一阶段的统计语言模型分为生成模型和判别模型。序列可以是单词,句子或整个章节。可以通过贝叶斯规则将生成的模型转换为判别模型,并且将概率分配给术语序列中的可能项。概率越高,序列符合语言规则越多,它出现的越“合理”[1j。随着时间的推移,学术探索者提出了许多语言模型,其中N-gram模型是最突出的代表。同时,还引入了N-gram模型的高级语言模型,如最大熵模型。

直到Bengio[21探索了一种新的模型一前馈神经网络语言模型(Neural Network Language Model),才逐渐揭开语言模型的第二个神秘面纱。从最基础的上下文计数(Context-counting)到上下文预测(Context-predicting)的创新成为了一种新的机遇和挑战。同时,统计的基本单位从词项变为词向量(Word Embed-ding),这是实现级别的主要变化,从而可以在识别和计算过程中更有效地进行改进。

在语言模型研究的第三阶段,深度学习在白然语言处理的应用中起着重要作用。递归神经网络(Recurrent Neural Net-work)是深度神经网络家族的一员,其特点是图灵完整性和序列构建,已成为一种重要的语言建模方法。同时在深度神经网络的欠缺方面,也进行了优化,比如:模型结构、耗费时间、输入输出等层面。三个阶段的语言模型的优劣,见表1。

2 语言模型的研究现状

在进入21世纪后,大数据、云计算等新兴技术扑面而来,世界开始步人人工智能的时代,中国也在紧随其后开始探索人工智能。最为突出的行业就是新闻行业,国内许多知名的公司和机构开始逐一踏人自动化生产的潮流中,一场新闻机器人的热浪蓄势待发。

机器新闻写作本质上是使用自然语言来生成文本的过程,实际就是生成(Natural Language Generation)编写新闻的过程。机器新闻写作的核心技术是自然语言生成、大数据和云计算的支持。目前,用于数据到文本生成的大多数神经网络模型基于递归神经网络。RNN的神经语言模型和Seq2 seq架构,同时使用了注意力模型。

文本生成本身就是一个输入输出的问题,输出一个序列,出来一个结果,而RNN就一种很适合对文本序列数据进行建模统计的神经网络。基于RNN的语言模型构建就是一种利用RNN的方法来表达语言序列的生成过程。同时与基础的RNN的层级上来看,加入了词向量层(Embedding)和softmax函数,多层级的加入与计算,使语言模型更加完善。换一个NLP任务来说,在机器翻译中,Seq2seq是RNN的变种,是EncoderDecoder的一种,同时注意力机制(Attention Mechanism)的引入,对于输入的数据进行加权计算,矩阵的变换等,也使得序列对序列方式下的表现更为直观,更为高效。

下面按照时间顺序具体介绍一下最新的研究方法,并如何一步步改进完善的,并分析它们之间的联系与区别。

Mei等人2016年提出一种端到端(End-to-End)新的神经网络模型,是基于编码解码(Encoder-Decoder)框架為一身的(简称MBW)c4]。同时用到了RNN的变形,基于长短期记忆网络(LongShort-term Memory)和对准器(Coarse-to-Fine Aligner)来实现文本的选取和文本的描述。

2016年,Lebret等人,通过爬取维基百科上面的人物传记数据来生成人物传记的句子,提出一种基于条件神经语言模型(Condition Neural Language Models)的神经模型(简称Table NLM)[5],在模型的构建中,使用了拷贝机制,通过计算向量与属性和值的数量关系来选取最有可能的替代品来预测未知词。

Sha等人2017年提出的神经网络模型,是一种基于规划顺序(Order-planning)[6],通过不同field之间关系模拟,来实现更好的文本生成的顺序排序,减少少见词的出现(Rare Words),

Chisholm等人设计的一种白编码器Seq2seq模型(简称S2SAE)[7],是针对一句话的人物传记,从而实现了从维基百科人物传记结构化数据报文本单句的生成。

Liu等人在2018年提出的模型中,是一种面向结构(Struc-ture-aware)的Seq2seq模型[8],通过对表格内容进行白定义属性门 (Field-gating)LSTM编码。

Bao等人2018年的Seq2seq模型[9],是一种面向表格(Table-aware)的模型,实验对象具有特殊性,是一个开放领域的数据集WIKITABLETEXT,因为其特殊性,在模型的基础上使用强大的拷贝机制(Copying Mechanism),在数据集的测试上,有了很大的提升。

Nema等人2018年提出了一种新的结构化描述(简称BAM-GO)[10j,同时使用双焦点注意力机制和门控正交化,一方面结合了宏观和微观层面的信息,也在文本的生成过程中将已出现的属性值在后续步骤中选择性遗忘(Never Look Back)。

Wiseman等人2018年设计的抽取模板来生成的方式(简称Ntemp)[11],是基于隐藏的半马尔科夫(HSMM)解码器的生成模型。利用一个类似二进制的转移概率来判断两种输入情况,一种情况不在数据源中,通过原始词来预测生成新的文本;另一种可直接生成本文,利用的是RNN来实现。

Freitag等人2018年构建的自然语言生成过程(简称NLG-DA)[12],实现了无监督的学习方式,同时也使用了降噪自编码器(Denoising-Autoencoder)来对生成的语句重新构造,会更好的生成正确的语句。该模型经常被用于E2E数据集[13]。 Kaffee等人2018年提出的针对单句的跨语言跨领域的神经网络模型(简称UL)[l4]。基于编码解码(Encoder-Decoder)架构,利用数学上的三元组进行输入,而解码使用了一层GRU,3+1的多层次结合来生成文本,也利用了拷贝机制来加强文本生成的效果。

神经网络模型的研究方法的联系与区别:见表2

在语言模型预训练的探索过程中,王英杰、谢彬和李宁波为了减轻模型对这种大型数据集的依赖,提出一种基于BERT针对中文科技自然语言处理小数据集任务的预训练语言表征模型ALICE,实验结果表明,与BERT相比,ALICE分别提高了1.2%的准确率与0.8%的F1值[17]。

3 藏语语言模型的研究现状

藏语是一种少数民族语言,对藏语语言模型的研究目前还处于最基础的,最初级阶段,依然使用的是N-CRAM语言模型,是基于N元文法模型的研究,而对神经网络方面的研究是少之又少。

2011年,北方民族大学多拉和才让三智在研究中发现,建立藏语语言模型,重新探索新的藏语语法体系[18]。根据藏语特点,2012年李冠宇和孟猛,提出了一种藏语识别声学模型,并利用高级藏语知识来减少模式匹配的模糊性,在HTK平台上建立了依赖于上下文的连续隐马尔可夫声学模型,实现了西藏拉萨的连续词汇连续语音识别[191。最后发现,在最优情况下,模型词的错误率大大降低。2014年,李照耀主要研究语言模型在藏文连续识别系统中的应用,结合西藏拉萨的特点,提出了一种新的文本筛选方案。通过比较各种算法的混淆和语音识别系统的识别率,将改进的Kneser-Ney平滑算法最终应用于基于HTK的藏文连续语音识别系统[20]。实验结果表明,Kneser-Ney平滑算法的修改版本在各种平滑算法中具有最少的混淆。2015年青海民族大学仁青吉和安见才让在对藏语语言模型的研究中,发现一个可靠的语言模型对比:在自然语言处理领域,例如语音识别,机器翻译和文本校对,起着至关重要的作用。通过在藏语语音识别系统中构建藏语模型来提高识别率,采用了一些算法来比较混淆[21]。

以上都是语言模型在语音识别上面的重大应用。

2017年西北民族大学张提主要研究声学模型,就是以提高声学模型参数的准确性为目的,通过最小音素误差准则估计三音素模型的参数,获得具有更好识别效果的声学模型[22]。

2017年中央民族大学周楠主要探讨深度神经网络在藏语拉萨话连续语音识别任务中的应用,研究了深度神经网络的网络结构,预训练和参数设置,训练的深度神经网络的输出层特征用于训练HMM的声学模型[23]。

2018年,天津大学研究中心发现,循环神经网络语言模型超过传统的N- gram模型已成为主流的语言模型建模方法。申彤彤的研究主要从两个方面解决了藏语RNNLM训练数据缺失的问题:模型训练技巧和藏文探究,分别提出了插值语言模型,领域自适应循环神经网络语言模型和结合藏文成分的循环神经网络语言模型[24]。

2018年,黄晓辉、李京探索将循环神经网络和连接时序分类算法应用于藏语语音识别声学建模,实现端到端的模型训练。发现循环神经网络模型有更好的识别性能,拥有更高的训练和解码效率[25]。

2019年,孙嫒、王丽客和郭莉莉等人提出了一种优化词向量的GRU神经网络模型进行藏语实体关系抽取的方法,加入了优化的词向量,在传统的词向量模型中结合藏语音节向量、音节位置向量、词性向量等特征对词向量进一步优化,并且选取了藏语词汇特征和藏语句子特征[26]。

以上这些是研究者不懈努力的成果,是藏语语言模型最新的研究。

4 藏语语言模型的展望

许多研究证明神经网络语言模型的性能已超过传统的N-gram模型,但同时神经网络语言模型的构建需要大量的训练语料库。对于藏语语言模型的研究,在训练神经网络模型的数据资源严重匮乏的情况下,如何选择相对于目标任务的合适语言模型,如何找到适合藏语的训练语言模型方法?如何对藏语语言模型的预训练及后续的微调过程进行优化等这些问题将成为研究藏语语言模型的重要途径。

目前在还存在一些问题需要探索研究:

(1)藏语数据集的不足与缺乏。互联网上公开共享的数据集非常缺少。

(2)藏語语言模型的研究领域单一。语言模型数据集集中在新闻领域,在社交媒体、法律等急需建设。

(3)评价标准不一致。研究员各抒己见,没有严格的标准,导致评价不一致,加大了研究中的难度。

随之时代的进步,数据的发展,文本生成、语音识别等越来越受到重视,希望在未来的研究探索中,有专门这个研究领域的奠基者,有公开数据集合和统一的评价标准,以及多领域、多语言等多方面、多层次的数据集供热爱研究自然语言处理的研究员所使用。目前的神经网络模型相比于之前的监督和半监督学习方式有了相当大的提高,但还是留有巨大进步的空间供我们学习,需要研究员们大胆的尝试与探索,比如从自然语言处理最基础的方面,研究结构化数据的特点等等,或者从自然语言处理任务中借鉴最新的研究成果等等。

近几年数据到文本生成技术越来越受到重视,数据到语音识别技术也越来越受到重视,加上机器学习和深度学习的同步发展,多领域、多角度、多层级的研究也越来越多,当然,一个树枝的发展需要树干的发展,只有在神经网络的研究不断深入,各方面硬件水平提升,存储能力得到扩展,各式各样的研究和应用才能有更好的发展,更大的可能性。

参考文献:

[1]王毅,谢娟,成颖.结合LSTM和CNN混合架构的深度神经网络语言模型[J].情报学报,2018(2):194-205.

[2] Bengio Y,Schwenk H,Senecal J S,et aI.Neural probabilistic lan—guage models[M]Ulnnovations in Machine Learning. Berlin/Hei- delberg: Springer-Verlag,: 137-186.

[3]文娟 .统 i+语模型的研究与应用[D].北京 :北京邮电大学。 2010.

[4] Mei H, UChicago T T l, Bansal M, et al. What to talk about and how? Selective Generation using LSTMs withCoarse-to- Fine Alignment[CV/Proceedings of the 2016 Conference of theNorth American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2016: 720-730.

[5] Lebret R, Grangier D. Auli M. Neural Text Generation fromStructured Data with Application to the BiographyDomain[Cy/Proceedings of the 2016 Conference on Empirical Methods inNatural Language Processing. Strouds - burg, PA: ACL, 2016:1203-1213.

[6] Sha L, Mou L. Liu T, et al. Order-Planning Neural Text Gen-eration From Structured Data[C]//Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence. MenloPark, CA:AAAl, 2018: 5414-5421.

[7] Chisholm A, Radford W, Hachey B. Learning to GenerateOne-sentence Biographies from Wikidata[CV/Proceedingsofthe 15th Conference of the European Chapter of the Associa-tion for Computational Linguistics. Stroudsburg, PA: ACL,2017: 633-642.

[8] Liu T, Wang K, Sha L, et al. Table-to-text generation byStructure-aware Seq2seq Learning[Cy/Proceedingsof the Thir-ty-Second AAAI Conference on Artificial Intelligence. MenloPark. CA:AAAI, 2018: 4881-4888.

[9] Bao J, Tang D, Duan N, et al. Table-to-text: Describing Ta-ble Region with Nlatural Language[C]//Proceedingsof the Thir-ty-Second AAAI Conference on Anificial Intelligence. MenloPark, CA:AAAl, 2018: 5020-5027.

[10] Nema P, Shetty S, Jain P, et al. Generating Descriptions fromStructured Data using a Bifocal Attention Mechanism and Gat-ed Orthogonalization[C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computa - tional Linguistics. Stroudsburg,PA:ACL, 2018: 1539-1550.

[11] Wiseman S. Shieber S M. Rush A M. Learning Neural Tem-plates for Text Generation[CV/Proceedings of the 2018 Confer-ence on Empirical Methods in Natural Language Processing.Stroudsburg,PA:ACL, 2018: 3174-3187.

[12] Freitag M, Roy S. Unsupervised Natural Language Genera-tion with Denoising Autoencoders[C]//Proceedings of the 2018Conference on Empirical Methods in Natural Language Pro -cessing. Stroudsburg,PA:ACL, 2018:3922-3929.

[13] Novikova J, Dusek 0, Rieser V. The E2E Dataset: New Chal- lenges For End-to-End Generation[Cy/Proceedings of the18th Annual SIGdial Meeting on Discourse and Dialogue.Stroudsburg,PA:ACL, 2017: 201-206.

[14] Kaffee L A, Elsahar H, Vougiouklis P, et al. Learning to Gen- erate Wikipedia Summaries for Underserved Languages fromWikidata[C]//Proceedings of the 2018 Conference of the NorthAmerican Chapter of the Association for Computational Lin-guistics. Stroudsburg,PA:ACL, 2018: 640-645.

[15] Liang P,Jordan M I,Dan K.Learning Semantic Correspon- ences with Less Supervision[C]//Joint Conference of the Meet- ing of the ACL and the International Joint Conference on Na-tu- ral Language Processing of the Afnlp:Volume. Stroudsburg,PA: ACL, 2009:91-99.

[16] Chen D L,Mooney R J.Learning to Sportscast:A Test ofGrounded Language[Cy/Proceedings of the 25th internationalconference on Machine learning - lC- ML '08, July 5-9,2008. Helsinki, Finland. New York, USA: ACM Press, 2008:128-135.

[17]王英杰,謝彬,李宁波.ALICE:面向科技文本分析的预训练语表征模型[EB/O Ll.[2019-08-21]. http://kns.cnki.net/kcms/de - tail/31.1289.TP.20190821.1541.009.html

[18]多拉,才让三智.信息处理用藏语语法模型知识库研究[J].西北民族大学学报(自然科学版),2011,32(3):13-18.

[19]李冠宇,孟猛.藏语拉萨话大词表连续语音识别声学模型研 究[J].计算机工程,2012,38(5):189-191.

[20]李照耀,藏语连续语音识别的语言模型研究[D].兰州:西北民族大学,2014.

[21]仁青吉,安见才让.藏语语言模型的研究[J].信息与电脑(理论版),2015(6):94,96.

[22]张提.基于MPE藏语拉萨话区分度声学模型研究[D].兰州:西北民族大学,2017.

[23]周楠,基于深度学习的藏语非特定人连续语音识别研究[D].北京:中央民族大学,2017.

[24]申彤彤.基于循环神经网络的藏语语言模型研究[D].天津大学,2018.

[25]黄晓辉,李京.基于循环神经网络的藏语语音识别声学模型[Jl.中文信息学报,2018,32(5):49-55.

[26]孙媛,王丽客,郭莉莉,基于改进词向量GRU神经网络模型的藏语实体关系抽取[J].中文信息学报,2019,33(6):35-41.

【通联编辑:唐一东】

基金项目:本文受国家重点研发计划重点专项《藏文文献资源数字化技术集成与应用示范(2017YFB1402200)》和西藏自治区教育厅“计算机及藏文信息技术国家级团队和重点实验室建设”(藏教财指[2018]81号)资助

作者简介:郭杨(1992-),男,山西长治人,西藏大学在读研究生,研究方向:藏语语言模型;通讯作者简介:拥措(1974-),女(藏族),通信作者,副教授,主要研究领域:自然语言处理,模式识别。

猜你喜欢

藏语研究现状
浅谈藏语中的礼仪语
汉藏语及其音乐
藏语拉达克话的几个语音特征
试井法分析井间注采关系的研究现状
我国环境会计研究回顾与展望
浅析电力系统谐波及其研究现状
藏语地理分布格局的形成原因
现代藏语元音特征研究
《栴檀瑞像传入中国记》的回鹘语与藏语译文