人工智能飞速进步，为何听不懂人话？

2020-12-02约翰PAVLU

电脑报 2020年42期

约翰PAVLU

思维，AI难以突破的界限

人工智能语音技术，可能是继互联网后最重要的发明，作家詹姆斯·弗拉霍斯在他的最新著作《跟我讲话：人工智能语音技术如何改变我们的生活》中说：“语言，是人类与人工智能交互的最理想模式，无论是复杂的计算机编程语言，还是触摸屏与鼠标，都比不上利用语音进行人机交互。对于我们来说，语音交互是最简捷、清晰、没有技能门槛的模式。”

物联网加语音交互加智能设备，共同构建了未来人类生活的日常场景。在现实生活中，人类已经越来越习惯用语言指挥人工智能为自身服务：通过向智能家居设备下达语音指令，获取影音娱乐、天气资讯和交通状况;上班通勤途中，我们通过车载语音助手规划行车路线，在网购剁手中直接和人工智能语音客服沟通。

去年双11，淘宝天猫平台98%以上的电话客服由语音AI提供，日均达到6亿余次。知名咨询公司高德纳曾在去年作出预计，10年后，人类每天与智能设备进行的语言交流总量可能将占据我们日常语言交流的三分之一。

不过，我们已经远远不满足于这种简单的浅层交流。“让机器听懂人类以自身语言习惯发出的指令”，无疑是人工智能研究界意图攻克的“最后堡垒”。而这个技术突破的“难点”似乎近在眼前。

2017年，华盛顿大学及谷歌旗下人工智能公司DeepMind合作，推出一项名为“GLUE”的阅读理解语言能力测试，机器的测试成绩惨不忍睹，似乎人工智能主导的自然语言处理系统完全无法理解人类语言的丰富性。然而就在当年10月，谷歌推出了一种新语言训练模型，绰号为BERT，仅用六个月的时间就把测试成绩从D-提升到了B-。随后，微软和阿里巴巴不断地修正BERT模型、相互超越，在GLUE排行榜上轮换头名。

现在，在GLUE阅读能力测试中，人类已经无法与AI抗衡。到了这个阶段，研发人工智能语言模型极为烧钱，训练一个BERT模型租用云算力的费用大概是7000美元，而（自回归语言模型）GPT-3所需要的算力是前者的1900多倍，它所依托的数据库，是一个单词总数达到3000亿，来自互联网各类平台的人类语言资讯库，费用大概是千万美元级。所以，如果没有微软当年投资给OpenAI的十亿美元，我们恐怕也无法再读到GPT-3“写作”的友好宣言。

人工智能能够愉快地胜任客服、播音员、同声翻译，甚至新闻通稿撰写者，并不意味着它能够和人类一样思维，能和人类展开“合情合理”的自由对话，甚至情感互动。

人工智能与语言处理

人工智能已经能在国际象棋、电子游戏和模拟空战中轻松战胜人类，为何在对话中依旧如此笨拙？加州大学伯克利分校的斯图尔特·罗素教授在刚出版的《人类相容：人工智能与控制问题》一书中给出了一个答案：人工智能已经非常“聪明”（Clever），但还不够聪慧（Smart），前者得益于强大的芯片计算能力和数据库，而要实现后者，则要依靠逻辑推理能力，乃至基于“常识”的判断，而这些依旧是人类独有，机器无法逾越的能力门槛。

具体到人工智能对于语言的处理上，罗素提出了一个有趣的比喻——“中文房间”：一个不懂中文，但学习能力超强的人坐在一间充斥着中文语法书的房间里，每当门外塞进一张写着中文问题的纸条，他就通过查阅语法书，在另一张纸条写上一个自己力所能及的中文回答送出去。

看到这里，大家可能已经明白，这个“不懂中文的人”，就是人工智能，而“中文”则象征一切人类的日常语言和常识，语法书则是人工智能科研人员利用计算机语言所搭建的学习框架和逻辑。

一个帮助人工智能理解人类语言结构的树形结构案例，动词词组、名词词组和介词词组被拆分，单词则按照逻辑联系强弱进行再分组。如果要想让人工智能用“人类思维模式”来理解语言，现有的初步解决方案是在机器学习中，加强语言结构中某些元素的权重，比如突出“主语”、“动词谓语”和“宾语”，让单词之间的逻辑关系呈“树形”分布，有些单词之间的联系强，有些则弱，从而使得人工智能能够很好地学习上下文理解，以及辨识出两个相隔很远的单词之间的关系。

按照这种训练模式，位于旧金山的人工智能语音技术公司Primer研发的自然语言处理技术（NLP）模型，已经可以撰写出非常“标题党”的新闻专栏标题和简单报道，甚至可以对复杂的电影剧本加以总结。

不過，研究人员还不知足，毕竟新闻报道和剧本的叙事结构是线性的，包含元素的因果关系相对明确，非常符合AI的分析认知模式。于是，他们决定挑战一下，试图了解这个语言模型是否能够理解诗歌，就输入了T·S艾略特的《J·阿尔弗瑞德·普鲁弗洛克的情歌》，结果令人尴尬：人工智能无法做出总结，只能勉强摘出整首诗歌中最具现实性场景的一句作为答案：“在客厅里女士们来回地走，谈着画家米开朗基罗。”

在索邦大学数学与计算机科学研究专家菲利普·艾斯林看来，问题的核心在于人工智能无法拥有人类最宝贵的想象力，因而并不能真正理解它自己所生产的语言内容，更遑论评估其价值。一些人工智能语言专家说，人工智能所面临的“终极图灵测试”，很可能是人工智能是否能理解幽默并讲出一个人类觉得好笑的笑话，因为理解幽默同时需要了解场景、参与者的身份、情绪、语言的各种非常规运用，以及人类的行为准则和价值判断。

深度符号学习尚待时日

与此同时，华盛顿大学艾伦人工智能研究所研究员崔艺珍教授开发了另一种方法，将深度学习与符号学习相结合，以便让人工智能运用人类的逻辑来理解语言。

所谓的“符号学习”，即是一种最古老的人工智能学习模式，目的在于让人工智能的“思维决策”过程如同人类，逐步认识各类概念的特征，并学会处理它们之间的归属关系。这种学习方法的优点，在于不必像深度学习那样，必须建立庞大的“数据库”，而AI的整个决策过程，也将变得“透明可见”，有利于我们进行调整和优化。

但缺点是，人类必须像编纂字典一样，为人工智能编写海量的标签库，并在这些概念之间建立复杂的逻辑关系，并“翻译”为计算机能理解的语言。一想到诸如 “钝角”、“翅膀”、“摩擦”、“猫”、“下坠”这样的基本概念，都必须逐一“教给”电脑，更遑论其他复杂的概念与变化，我们肯定会感到头疼，不过它诱人的前景，确实令人难以拒绝。

为了达到这个终极目的，崔艺珍和她的同事们，建立了一个自己的人工智能语言学习框架COMET，同时在不断地编写为COMET准备的常识知识库“Atomics”，里面已经拥有上千万个词条知识概念与因果关系描述。这种巨大的努力和付出已经初见成效：加里·马库斯曾向GPT-2提了一个问题：“如果将一根点燃的火柴放入一个堆满了木柴和引火物的火炉，那么会发生什么？”不出所料GPT-2“呆住了”，然而崔艺珍的人工智能系统COMET，则输出了一个接近正确的答案：“他想生火”。

火柴加木柴会发生什么？想让人工智能了解最简单基本的因果关系，符号学习可能是全新而有效的解决方案。不仅如此，在训练中，COMET已经显示出了一定的联想与“共情”能力，当研究人员输入“父亲去上班了”，COMET会告诉你，这表示父亲“想赚钱”，“他很勤勉，自我驱动”，其他人“应该为他骄傲”。当然，这距离理想状态依旧远远不够，崔艺珍表示，人工智能如果要更好地理解常识，还必须引入视觉具象化与感知感觉（比如“红色”与“疼痛”）。

人类与AI的关系，无疑会上升到一个全新的维度，类似电影《她》中所描写的场景一般，它不仅能够提供明确的服务和解决方案，也能提供情感的慰藉和乐趣。