APP下载

人工智能时代语言学家面临的机遇和挑战

2020-09-26张乐唐亮

电脑知识与技术 2020年24期
关键词:机器翻译自然语言处理融合创新

张乐 唐亮

摘要:人工智能作为一个新兴的、极具发展前景的研究领域,其与语言学研究有着深厚的渊源。一方面,语言研究的成果为人工智能的发展提供了动力,另一方面人工智能对语言学提出了更高的要求,影响着语言研究的范围和方向,促进着语言研究的深入发展。在介绍人工智能及语言智能概念的基础上,阐述人工智能时代语言研究的新形势。从语言学家的视角出发,探究语言学内部的多个子学科面临的机遇及挑战。语言学家要顺应智能趋势,为人工智能的发展贡献更大的力量。

关键词: 人工智能; 语言学; 自然语言处理; 机器翻译; 融合创新

中图分类号:TP18       文献标识码:A

文章编号:1009-3044(2020)24-0195-03

Abstract: As an emerging and promising research field, artificial intelligence has a deep relationship with linguistic research. On the one hand, the results of language research provide the impetus for the development of artificial intelligence; on the other hand, artificial intelligence puts forward higher requirements for linguistics, affects the scope and direction of language research, and promotes the in-depth development of language research. Based on the introduction of the concepts of artificial intelligence and language intelligence, the new situation of language research in the era of artificial intelligence is explained. From the perspective of linguists, explore the opportunities and challenges faced by multiple subdisciplines within linguistics. Linguists should follow the trend of intelligence and contribute greater power to the development of artificial intelligence.

Key words:artificial intelligence;  linguistics;  natural language processing;  machine translation;  integration and innovation

1 引言

近年來,随着计算机的发展和科学技术的进步,人工智能技术得到迅猛发展,社会的这一深刻变革给各行各业都提供了更多的机遇,但随之而来的是在新形势下攸关“生死存亡”的重大挑战,不容忽视。可以说,人工智能是一把“双刃剑”。这敲响了语言学家心中的警钟,以研究自然语言为任务的语言学在人工智能时代将走上怎样的发展道路?笔者认为语言学家不必担心,新形势下语言研究面临的机遇是大于挑战的。语言是人类思维的表现形式,人工智能其根本目的是用计算机来模拟人类思维,要实现这一目标就必须以模拟人类的自然语言作为出发点。另外,中国计算语言学先驱,冯志伟先生曾说过一句名言:“人工智能领域,得语言者得天下。”冯先生所言肯定了语言及语言研究的重要地位,为语言学家们鼓舞了士气。语言研究是一个永恒的课题,特别是在人工智能、人机对话火热的今天,语言无疑是影响人工智能突破进展的关键。因此,在人工智能的时代背景下,语言研究如何一方面应对科技带来的挑战,更好地生存和发展,另一方面抓住机遇拓展新思路和新领域,为人工智能的发展贡献力量,是当前语言学家必须要思考的问题。

2 人工智能及语言智能

人工智能(Artificial Intelligence)简称AI,旨在用人工的方法和技术,使用各种自动化机器或智能机器(主要指计算机)模仿和扩展人类智能,实现某些机器思维或脑力劳动自动化。自1956年被正式提出以后,从此成为一个新兴的研究领域,在之后半个多世纪的发展历程中,人工智能潮起潮落,印证了前途的光明和道路的曲折。2016年被誉为人工智能跨越式发展的一年,这一年有许多标志性的成果出现,最为人称道的就是AlphaGo战胜了人类围棋冠军李世石,时隔不久AlphaZero又战胜了AlphaGo。机器智能在某些领域已经达到甚至超越人类智能,但是目前的人工智能属于弱人工智能,即让机器具有某种智能的行为。真正有知觉、能够推理和解决问题的强人工智能目前只是出现在好莱坞的科幻电影里或强人工智能者的信仰里。迄今为止,并没有任何一部真正理解人类语言的机器,因此更不会有像人一样能够进行创造性思维的机器和具有人一样的文化生存方式的机器。

语言是人类特有的能力和智能的体现,有研究表明,即使是像黑猩猩这样的人类近亲,也不具备这样的能力。语言对于人类来说有着极为重要的地位,它将人类的思想表达出来,是人类思维的工具,同时承载了人类想要表达的所有信息,是最重要的信息载体。为了模仿人类智能,人工智能的一种高级表现形式就是运用计算机和信息技术对人类语言进行分析和处理,我们把它称作“语言智能”。语言智能不仅是人工智能的核心部分,更是人机交互认知的重要基础和手段,因此被誉为人工智能皇冠上的明珠。

人工智能发展到今天取得了非常多耀眼的成绩,这其中数据、算法、硬件功不可没,使得一部分人陶醉于机器学习、深度学习和神经网络的成功之中。事实上,数据和算法的优势固然重要,但这些只是表面的因素,最终对人工智能的瓶颈起突破作用的将是语言、认知和其他学科。人们越来越深刻地认识到,人机之间的交互沟通离不开语言,只有在语言智能上获得关键性突破,才能推动弱人工智能逐步发展为强人工智能。

3 人工智能时代的语言学

处在科技领域前沿的人工智能并非是一个单一的学科,其发展是建立在计算机科学、心理学、语言学等多种学科相互渗透的基础之上的。虽然语言学与人工智能看起来区别很大,实则有着深厚的渊源,它为人工智能的发展提供合格的构建材料。

语言学是一门研究人类语言即自然语言的学科,包括了多个分支子学科。语言学的历史追溯起来较为久远,人类对语言的认识是逐渐深入的,今天的语言学与60年前也大不相同。纵观现代语言学的发展可以看出,语言学家们以揭示语言的本质为目的,在语言的结构、语义以及语言的社会功能等许多方面都进行了深入的研究。语言学的传统方法和理论被从事机器解决智能课题的计算机学家使用,早期取得了一些成果,但由于在计算机领域实践的实用性不强,并且研究后劲不足,影响其在人工智能方面的应用,已不能满足人工智能时代的需要。人工智能时代的语言学更加注重能否被计算机理解和使用,语言学应与计算机科学深度结合。

自然语言处理(Natural Language Processing)简称NLP,主要研究如何用计算机来分析处理自然语言,对文本包含理解和生成两部分,是人工智能学科研究和应用的主要领域。NLP的具体任务包括自动文摘、机器翻译、语音识别等。在早期的NLP领域存在着“厚此薄彼”的现象,简单解释就是语言学家遭受到计算机学家的无视甚至排斥,不仅很多和自然语言相关的大型项目里面语言学家的参与度不够,就连谷歌的诺维格和语言学家喬姆斯基之间的争论也是很不友好的。这一现象很快出现了转折,曾经大受追捧的统计方法在人工智能时代遇到了发展瓶颈,由于过度依赖语料,忽视句法、语义等语言学知识,深层的语言学知识并未得到探索和利用,造成NLP的发展受到桎梏。遇到今天的瓶颈,还需要更多更深入的语言学研究来解决。

以NLP的具体任务为例,机器翻译从诞生之日起就与语言学紧密联系,语言学和机器翻译很多情况下是共同发展的。最初成功的机器翻译是基于语言学规则,而后来出现的统计机器翻译和神经网络机器翻译中,传统的语言学逐渐被移出机器翻译的核心算法,但是仍然扮演重要的角色,特别是在数据不足的情况下。统计机器翻译中大可以从语言学角度出发,在基于统计的方法上添加规则。神经网络机器翻译添加语法、语义等信息可能会取得更好的效果,目前来看这些信息还没有较好的应用。除了机器翻译核心算法,一个完整的机器翻译系统还包括数据获取,数据预处理,结果后处理,性能评测等部件,在这些方面语言学还是大有用武之地的。

现阶段,机器翻译的发展主要由计算机专家主导,而语言学家日渐式微,这难免造成科技界的过分乐观和语言学界的担忧。语言不是轻而易举就能转译成功的,即使谷歌等公司宣称机器翻译技术达到了人类专业水平,翻译问题仍然存在。中国数学家、语言学家周海中教授曾在论文《机器翻译五十年》中指出语言本身才是制约译文质量的瓶颈,不能光靠程序设计来改良机译系统,只有解决语言本身的问题,才能真正提高机译的质量。机器毕竟不是人,很多人文性、艺术性、感情性的内容最终还是需要由人来完成。冯志伟教授指出,科技界过分强调语言的符号性,却忽视了语言是凝结文化的复杂系统,这不利于机器翻译解决反讽等多样化翻译难题;而语言学界也不必妄自菲薄,语言学家们应该拥抱技术革新,同时致力于机器翻译背后原理的探究,破解尚存的“黑箱”问题。

机器翻译的历史和现实促使语言学家必须进行新的探索,继续挖掘自然语言 的特点和规律,完善自然语言的表述模式,进一步加强机器翻译基础理论和应用技术的研究。自然语言是人类智能的一种展现,既然是智能的展现,那么通过研究自然语言,就可以挖掘出智能的一些本质。而一旦语言被机器认知理解,那么真正的人工智能就有更多实现的可能。人们越来越意识到,对于自然语言的关键问题,突破的钥匙其实是掌握在语言学家或者是通晓语言学成果的人手里。

4 语言学家的机遇和挑战

现代语音识别和自然语言处理研究的先驱Frederick Jelinek 1988年说道:“Every time I fire a linguist,the performance of the speech recognizer goes up.”这句话给人们提供了错误的信息:在自然语言处理技术发展的进程中,语言专家的作用微乎其微。这就引起了语言学界的大讨论:人工智能不需要语言学家,依靠计算机,依靠物理学家就可以完成,那语言学的实用价值在哪里呢?语言学家存在的意义又在哪里呢?笔者认为其实语言学家不需担心,人工智能在语言方面并不会一直如此发展下去,当遇到瓶颈期时,语言学的价值就体现出来了。本章将从语言学的几个分支学科的角度来探讨语言学家的机遇和挑战。

4.1 语音学

随着大数据的发展,很多智能产品已经慢慢进入我们的生活,尤其人工智能已经能够与人无障碍的沟通交流,他们甚至可以自创语言。但细细研究,这背后的成果并不来自语言学家,而是计算机程序,其工作原理是“深度学习”。计算机程序内部有一套处理任务的系统,将语言做成数据输入计算机,计算机自己去识别语言中内在的规则,并应用该规则输出成语言,与人进行正常沟通。

然而仔细观察就会发现,人工智能输出的话语与人说出的话并不相同。人在说出话语时是带有情绪的,说的同时也在表达自己的观点,一升一降都包含着丰富的意义,而并不是单纯的输出某一句话或某一段话,这就使得交流变得生动活泼。人工智能则不同,比如Apple的语音助手Siri,它在输出一句话时其实并没有任何情绪的表达,只是单纯客观地叙说某一件事。这些话没有升降的表达,更没有语气,这就使得语言的表达是呆板、枯燥的。

这就给语言学的分支——语音学留下一席之地。语音学是语音识别的理论基础,语音学特征知识在语音识别中起着十分关键的作用。早期的语音识别由于忽略了声调这一最显著的区别特征,识别效果并不理想。再加上上文提到的一些AI生成的语音枯燥呆板的现象,都在提醒着语言学家,加强对语音学特征知识特别是语调、语气的研究是个迫在眉睫的任务,只有充分地综合利用这些区别性特征信息,将其有效运用于语音系统,才能让语音识别和生成更上一个台阶。相信在不久的将来,语音学对语调、语气的研究将会对人工智能进一步发展做出重大贡献。

4.2 语义学

语言一直是智能的核心,语义问题是人工智能前进道路上不可避免且须迎头面对的困难。如今,在人工智能发展日新月异的情况下,人工智能语义问题或者比我们所想象的更加具有紧迫性和现实性。

越来越多的学者意识到,单纯依靠统计方法无法继续取得跨越性的突破,想要真正解决语义理解问题,必须依靠语言学的理论成果。语言学家可以在语义知识表示研究以及语义基础设施建设,比如大规模语义知识库构建等方面发挥应有的作用,语言知识库可以为语义理解任务提供宝贵的知识资源。在人工智能的背景下,一方面,大规模知识库构建任务需要时间和精力,对语言学家仍是一个不小的挑战,另一方面,知识库自动构建技术的成果也为语言学家减轻了很多负担。

4.3 计算语言学

计算语言学的传统研究方法及理论已经取得了丰硕的成果,可以为自然语言处理提供方法论的指导。智能时代要求语言学家开辟新的视野,探索新的研究方法。

在强大的计算能力和科学统计模型的双重辅助下,语言学家既可以沿用传统方式从语言样本中挖掘有理论价值的语言事实,给出详尽合理的解释;也能够使用大数据技术,挖掘、整理海量语言数据知识,并将这些知识应用到自然语言处理等人工智能领域中。当前,大数据驱动的方法已经接近天花板,通过大知识驱动实现NLP的突破,是当前语言智能发展的新趋势。人工智能科学的发展有可能推进语言的计算研究,从而使语言知识的表示成为计算机可识别的方式。这将会使语言学成为真正的科学。

4.4 认知语言学

人工智能发展至今,虽已取得了许多令人瞩目的成就,但现有的人工智能还只是弱人工智能。人工智能可能的突破性进展还要依赖于认知科学的参与。如今人类已经基本从神经层面了解了大脑的工作方式,这对于研制AI来说是硬件理论,操作系统是实现高级功能的关键。语言也具有指导认知和思维的作用,认知语言学对于构建AI的操作系统来说是一种指导思想,认知语言学的研究成果对于人工智能的发展有着强有力的推动作用。人工智能正处于认知智能阶段,认知语言学应该与计算机科学更多地结合起来,语言学家需配合计算机学家,着力解决语言认知的瓶颈。在人工智能时代创造大规模数据的基础上,语言学研究不但要有数据、模型,还需要结合人工智能研究热点,从认知角度入手,把注意视角从语言本身转向语言的实际使用规律、语言背后的语义及其组合机制等领域。

5 语言学家应学会融合创新

人工智能的发展不仅对语言研究的各个领域提出了要求,而且对语言学家的研究方法提出了新的要求,促使他们开放思维、探索创新。语言学家可以从事跨学科的语言研究,通过研究语言来辅助解决社会问题如种族歧视和性别歧视、生态问题如物种灭绝、心理问题如抑郁症等。语言研究是包括语言学家在内的诸多学科专家和衷共济的事业,语言学家需与其他学科的专家合力攻关前沿课题如人工智能中的自然语言理解等,实现优势互补、合作共赢。

在人工智能的时代背景下,语言研究不应再囿于单纯的本学科领域,而是要跨学科、跨领域,与其他学科交叉融合,逐步形成众多的语言学与其他学科交叉融合的新的分支学科,这样才能将研究不断引向深入,才能更好地适应新形势,在人工智能事业中发挥应有的作用。融合创新可以让现代语言学研究焕发新的生机和活力。

6 结束语

作为人类最重要的交际工具和文化载体,语言与人工智能之间有着千丝万缕的联系,二者相互促进,共同发展。人工智能时代科学技术的飛速发展,为语言学家的研究提供了便利条件,同时,新时代对语言研究提出了很多新课题。在此背景下,语言学家不仅要做“变革者”,熟悉技术、利用技术开展新研究,还要做“合作者”,增加与其他学科之间的对话,建立密切的学术沟通和交流,充分做到学者交流、学科交叉、学术交融,走多元融合和理论创新发展之路。

参考文献:

[1] 林尧瑞,马少平.人工智能导论[M].北京:清华大学出版社,1989.

[2] 王永庆.人工智能原理与方法[M].西安:西安交通大学出版社,1998.

[3] 蔡自兴,徐光祐.人工智能及其应用[M].北京:清华大学出版社,2004.

[4] 卓新贤.人工智能的语言学问题[J].现代外语,1994,17(4):1-5,72.

[5] 柳青峰.语言学与人工智能的语言培育[J].管理学家,2014(2):2.

[6] 蔡曙山,薛小迪.人工智能与人类智能——从认知科学五个层级的理论看人机大战[J].北京大学学报(哲学社会科学版),2016,53(4):145-154.

[7] 刘益光,方昱.大数据时代的语言研究研讨会暨冯志伟先生八十寿诞庆祝会成功举行[J].现代语文,2018(4):190-191.

[8] 汉语堂.“译者” 在人工智能时代扮演什么样的角色?[J].现代语文(语言研究版),2017(8):161.

[9] 郭燕慧,王枞,钟义信.语言认知与主题内容识别[J].北京邮电大学学报,2006,29(z2):88-92.

[10] 王连柱.语言研究多元融合与理论创新——“第二届(功能)语言学融合与发展高端论坛”综述(Ⅰ)[J].北京科技大学学报(社会科学版),2019,35(3):30-35.

【通联编辑:唐一东】

猜你喜欢

机器翻译自然语言处理融合创新
互联网+新时代下人机翻译模式研究
“语联网+行业” 助力中国伟大复兴
基于组合分类算法的源代码注释质量评估方法
小学“优课”教学模式的多元分析