认知机器人：通往智慧之路

2017-08-22张红

中小学信息技术教育 2017年8期

张红

一直以来，为建立认知计算的基础，科学家已经花了数十年，将前沿计算机科学领域的十几个学科与人工智能结合起来。现在，我们正在亲眼目睹它在改变商业、政府和社会方面的巨大潜力。

1955年，当“人工智能”这个词首次被提出来时，不出所料地点燃了公众的想象力。在接下来的60年里，我们有好几次都被它的前景所吸引，担心它的潜力被滥用，但又为它的发展缓慢而沮丧。

然而，正如所有孕育得过早、超越了当前时代的先进科技一样，人工智能遭到了广泛的误解——被好莱坞电影错误地诠释、被媒体曲解为各种各样的角色，从人类的拯救者到毁灭者，应有尽有。那些真正参与业界的严肃信息科学研究和应用的人很理解智能系统的巨大潜能。这种技术（我们相信那将是“认知智能”而非“人工智能”）的未来与大众冠以AI的名头大不一样，将涉及各种各样的，来自技术、科学和社会的挑战与机遇，面临不同的监管、政策和管理需要。

认知计算是指一种能够规模化学习、有目的推理、并与人类自然交互的系统。它们不需要事先精确地编程，而是从它们与我们之间的交互和与环境之间的互动中学习和推理。过去半个世纪中，多个学科领域的发展使这些事情变得可能，它们与那些运行着的信息系统有着重要的区别。

那些信息系统是决定论的，而认知系统是概率性的。认知系统不仅能回答大量的问题，还能对更加复杂（且有意义）的数据提出假说、推理论述和建议。

此外，认知系统还能理解计算机科学家称之为“非结构化”的数据，这些数据占到了全世界数据的80%。这使得它们能够跟上现代世界巨量、复杂和不可预测的信息。

这些与机器的感觉能力和自主性都没有任何关系。相反，它能够增强人类的能力，让我们可以理解和运作社会中复杂的系统。这种增强智能对提升我们驾驭科技的能力是十分必要的一步，让我们能追寻更多知识、提升我们的能力和改善人类的境况。这就是为什么它不仅是一种新科技，还是科技、商业和社会新纪元——认知时代的黎明。

认知计算的成功并不以图灵测试或模拟人类的能力作为判断标准。它的标准更加实际，例如，投资回报率、新的市场机会、治疗疾病和拯救生命。

我们已经看到，它将大数据从障碍变成机会，帮助儿科医生做出早期诊断，为建设智慧城市提供创新解决方案。我们相信，这些技术展现了最好的（或许也是唯一的）机会，去处理地球面临的一些最持久的系统性问题，例如，癌症、气候变化和复杂多变的全球经济形势。

计算的历史与认知的崛起

为了理解认知计算的未来，必须把它放到历史的语境中。

到今天为止，我们经历过两个不同的计算时代——制表时代和编程时代。我们相信，在计算演化史中，认知计算是第三个计算时代，也是最具有转折意义的时代。喵爪机器人就是要把认知计算带进教育领域。

制表时代（1900-1940年代）

计算机起源于一种单一计数用途的机械系统，这种系统用打孔卡来输入和存储数据，最终决定这个机器要做的事情（虽然是以一种非常原始的方式）。这些制表机本质上是一种计算器，支持了商业和社会规模的扩大，帮助我们组织、理解以及管理从人口增长到全球经济进步等的各种事情。

编程时代（1950年代-现在）

在二战的时候，随着军事和科学的需要，从机械制表机到电子系统的演变开始了。在战争之后，数码“计算机”经历了快速演化，逐渐进入商业和政府。它们可以根据软件中的程序来进行“如果/就”的操作以及循环。从最开始的电子管到晶体管，再到微处理器，計算机的性能得到了迅速提升，这一发展过程验证了“摩尔定律”。在60年间，每18个月处理器的容量和速度就提升一倍。所有我们知道的计算设备，从大型主机到个人电脑，再到智能手机和平板，都是可编程的计算机。

认知时代（2011- ）

早在1960年，J.C.R. Licklider就在他的论文《人-机共生》中提出了超越可编程系统的潜在可能性。现代计算的很大部分都是基于LickLider的研究以及他的深刻见解：

“人-机共生”是在人类与电子计算机之间发生的共生关系，是人机关系可以预见的发展。这种关系包含人类与电子伙伴的强耦合关系。主要目的是：像为解决规划难题提供便利一样，也让计算机为规划思维提供便利。

在不依赖于不灵活的预定义程序的情况下，让人与计算机能够协作决策，控制复杂情况。

初步分析表明，与人类单独进行智能操作相比，共生关系将会更有效。

——J.C.R. Licklider，《人-机共生》，1960年3月

Licklider知道，认知计算将是程序化计算的必要的自然演化，虽然他并不知道这个目标如何实现。50年后，大规模并行计算以及浩如烟海的结构化与非结构化数据的积累，为认知计算奠定了基础。

我们看一下整个互联网到底改变了什么，互联网做了什么事情？互联网的本质就像微信的开启图片一样，解决的是一个连接的问题，是人和世界怎么连接的问题。比如，Uber、Airbnb、滴滴打车等，它连接的就是服务，是人和所有我们需要的服务之间的问题。如果你能解决人和连接世界某些方面的问题，就会催生大的产业机会。

连接背后是交互和索引，苹果做好了交互，谷歌做好了索引，诞生了世界上最伟大的两家公司

连接，我们需要一个方式，这个方式就是机器。所以我们说，人连接世界分两步，第一步，连接人和机器，人机交互；第二步，机器到世界，智能索引。因此，支撑连接的其实是交互和索引，有了这两个步骤，人和世界才能更加无障碍、流畅地连接。

首先是交互，交互其实牵引了过去30年信息产业的变化，这里面诞生的一个最伟大的公司就是苹果。苹果在PC时代引领了图形用户界面、鼠标。在移动时代，它的多点触控、语音验证、指纹验证等人机交互的技术也是最为先进的。苹果的伟大之处在于，它使得人在连接世界的关键链条上，首先让机器和人更近了。所以，人工智能巨大的产业机会就是先让人和机器没有距离，把人机距离缩短，这件事情非常关键。如果可以抓住这个问题，实际上可以诞生伟大的公司。

今天比较苹果系统和安卓系统会发现不一样的地方。安卓在人机交互方面总是差一点点，就是因为这一点点的差别导致用户选择苹果，因为人需要离机器很近。

我们再看索引。索引诞生了世界上另外一个伟大的公司——谷歌。苹果和谷歌是目前市场上市值最高的两家公司。谷歌一千亿美金，苹果六七千亿美金。谷歌把索引这个词做得非常好，我们现在讲的O2O，就是把线下的东西索引到线上。比如，Uber和滴滴打车，就是把真实世界里面的车索引到线上。

索引的趋势是什么？交互的趋势是人和机器越来越近了，索引的趋势就是从无序到有序，从数据到语义，从线下到线上。无序到有序，搜索引擎实际上是让互联网上非结构化的数据变得有一定的规律，然后我们可以更快捷地获取这些东西。

数据到语义，一个简单数字背后的内容是什么？线下到线上，现在共享经济的服务模式就是把很多线下的东西索引到线上，比如说Airbnb。

从个人电脑到智能手机，机器的进化是连接升级的核心，未来所有智能设备都会变成机器人

未来是什么样子的？连接人和世界，交互和索引。但是这里面有一个核心的问题，就是机器的进化。过去30年，我们经历了个人电脑到智能手机的变化和迁移。

智能手机之后会有一个分化。我们认为，在每个垂直的领域，都会出现很多智能硬件的分化，比如，无处不在的智能设备等等。

交互到极致的状态是什么？是人跟机器完全地融为一体，没有距离。这个机器变成了Robot，它完全懂你此刻在想什么，你想要什么，然后可以自主地完成你要做的事情。而索引到极致的时候是什么？就是完全的实时镜像。任何一个角落发生任何的事情，任何一栋房子，任何一件商品，它没有距离地立刻在网上有一个镜像的存在。那么，这里面需要无处不在的传感器和强大的计算能力。

未来万物互联到万物智能的三大趋势，即所有的设备一定会有各种各样的智能传感器，所有的设备都会有云端结合的数据处理能力，所有的设备都会连接人和服务。

面向未来，这些智能设备都会变成广义上的机器人。

真正伟大的技术，不在于让机器具有超级能力，而是让每一个平凡的人变得伟大

通常对做技术的人来说，他们会不断地完善技术，让它更好更强大，这是技术人的目标。但是有的时候这些技术不会真正地带来对社会的改变。一个例子就是IBM的“深蓝”，“深蓝”下国际象棋可以比人类下得更好，但是这本身并没有真正地为社会带来什么样的改变，而只是验证了机器多么的强大。另外一个例子就是搜索引擎，它也是一个很强大的技术，但是它让人无论身处什么地方、什么社会阶层，让人跟信息和知识的距离是一样的。所以它催生了巨大的产业，我认为到目前为止，搜索引擎也是互联网行业最棒的商业模式。

回到我自己的一个思考，伟大的技术目的不在于让机器更加伟大，不在于让机器具有超级的能力，它的意义一定是让每一个平凡的人变得伟大。如果可以做到这点，这就是一种伟大的技术，是一个伟大的想法。

喵爪机器人就是要帮这种技术用在教育上，让所有的学习都用在帮助机器人认知我们人类的世界，然后再为我们人类服务。我们会创造一个让学生在Watson的平台上教喵爪机器人，形成喵爪知识引擎。如果机器人能够独立解决更多的问题，并互相分享这些内容，那会怎么样？喵爪机器人计划的目的是使世界各地的喵爪机器人学习如何发现和处理知识，并將数据上传至云端，并允许其他机器人分析和使用这些信息。我们希望能建立一个信息库，让机器人能够很容易地获取它们所需要的全部信息。学生如果想获取知识来做项目，问机器人就好。

世界首个认知系统

在2011年2月，沃森项目首次公开，沃森是IBM开发的认知计算系统，它在Jeopardy！节目中战胜了肯·詹宁斯和布拉德·鲁特尔。这是首次面向公众证实认知计算，标志着所谓“AI寒冬的终结”。可编程系统在之前60年的演化中并未能够理解混乱的非结构化数据，因此也参加不了Jeopardy！节目。沃森能够回答微妙、复杂、语义双关的问题，显然，计算新纪元即将开启。

节目之后，沃森继续处理了更多的复杂数据集。在解谜之外，它发展出了理解、推理以及学习的能力。认知计算的目标就是照亮以往在我们世界中不为人知的部分——具体来说，就是潜藏在非结构化数据中的模式和洞察——使得我们能够对更重要的事情做出更明智的决策。认知时代的真正潜力将会是机器的数据分析、统计推断能力，以及人类特殊能力。比如，自我引导的目标、常识和价值观。

沃森的象棋博弈前辈“深蓝”在1997年击败世界象棋冠军Garry Kasparov之后，我们首次看到这种共生的迹象。在那次演示之后，Kasparov继续参加这种新“自由式”的象棋联赛。在其中，选手们可以自由地使用任何他们喜欢的计算机程序。在这些联赛中，一些选手孤身奋战，一些选手完全依赖于计算机程序，但那些将计算机与他们自身的直觉和比赛天赋相结合的选手是最成功的。

机器与人相配合的团队甚至比最强大的计算机更具优势。人类策略上的指导与计算机战术上的敏锐结合起来是所向披靡的。我们可以集中精力于策略规划，而不是把那么多时间花费在计算上。在这些情况下，人类的创造力是最重要的。

——加里·卡斯帕罗夫

前行的技术之路与何以可能的科学

当Licklider为认知计算帮忙想出一种哲学方法时，他几乎无法表达前行的技术进路。那条道路仍在被定义，不断调整。尤其是，我们敏锐地意识到数据正怎样塑造着我们的未来。Gartner预计世界的信息在未来5年将增长800%，而且80%的数据是非结构化的。包括人类语言记载的每一件事（从教科书到诗歌），图片捕捉的每一个瞬间（CAT扫描每个家庭照片）以及声音记录的每条信息。它是隐藏在气味、味道、文本和振动中的数据。它来自我们的活动，来自这个布满仪器的星球。

在价值日益源于信息、知识和服务的社会和全球经济中，数据代表着这个世界上最富有、最具价值、最复杂的原材料。直到现在，我们还没有方法对它进行有效开采。

可编程系统基于这样的规则：通过一系列预先设定的进程，从数据中得出结论。尽管它们强大而复杂，也是决定论的——其繁荣建立在结构化数据之上，但是无法处理定性或不可预见的输入。面对正在兴起的充满模糊和不确定性的复杂新世界中的众多方面，这种死板束缚住了它们的拳脚。

认知系统是基于概率的，意味着它们被设计成去适应和理解非结构化语言的复杂性和不可预测性。他们可以“读”文本、“看”图像、“听”自然语音。它们阐释那些信息，整理它以及提供它们意思的解释，还伴有它们结论的基本原理。它们不提供最终的答案。事实上，它们并不“知道”答案。相反，它们被设计成从多个来源中去衡量信息和想法，去推理，然后提供假说以供参考。一个认知系统给每个有潜力的洞见或答案分配一个“自信”。

结果，沃森自信水平出奇的低——14%。然而，认知系统能够从错误中学习。通过大规模的机器学习，认知系统能从训练和运用中不断得以改善。

消化语料库知识，根据任何给定主题接受专家训练，认知系统可以通过一系列Q&A的方式得以训练。人与系统互动，就系统反馈的正确性做出反应将会提升机器的“知识”。

我们喵爪星球会发动所有学生在自己学习的同时，训练喵爪机器人。喵爪机器人可以学习任务，同时将知识传送到云端，以供其他机器人和学生学习。

这个功能的重要意义是：如果不需要分别对所有类型的机器进行单独编程，那么可以极大地加快机器人的发展进程。

当喵爪机器人，它完成了一件事——以五种技术为基础的自然语言Q&A。今天，Q&A仅为沃森众多的以API方式提供的功能之一。打那以后，IBM已经研发出20多个新的API，采用了50多种不同的认知技术。这也是认知计算的技术进路和当前人工智能进路的关键区别。认知计算并不是计算机科学的孤立领域，而是需要许多学科知识，从硬件架构，算法策略，工业流程设计到行业专长。

我们每天使用的许多产品和服务——从搜索引擎广告应用，社交媒体网站面部识别，到“智能”汽车，电话和电网——正在见证人工智能的方方面面。

绝大多数人工智能产品和服务都是为了实现某种功能目的，侧重应用，专为某种特定服务而设。它们使用了一些认知计算的核心功能，一些使用了文本挖掘技术，其他的采用机器学习进行图像识别。所有的产品和服务都局限于最初打造它们的构想。

认知系统有五个核心功能。

1.与人的接触更加深入

人们与系统的互动更加充分，这种互动是以每个人偏好的模式、形式以及质量为基础的。它们充分利用搜集到的数据创造出有关个体的精细画面——比如，地理位置数据、网页互动、交易历史、钟爱节目的模式、可穿戴设备数据和电子医疗记录——并为这幅图景添加一些很难察觉的细节：品味、情绪、情感状态、环境条件以及人际关系本质和强弱。从所有结构和非结构数据中进行推理，找出什么才是人际交流中重要的东西。通过不断学习，这些接触交流将传递出越来越大的价值，也会变得更加自然，有预见性，情感也会拿捏适中。

2.规模化和提高专业技能

各种工业知识和专业知识正在以任何专家都不能赶上的速度迅速膨胀——杂志、新协议、新立法、新实践和崭新的领域。在1950年，人们预测全世界医学知识翻一番需要50年时间；到了1980年，时间缩短为7年；2015年，不超过3年。與此同时，个人一生能产生一百万GB的健康数据，相当于3亿本书。

为了帮助组织机构和个人跟上步伐，IBM设计了认知系统，它能帮助教师教学生。由于这些系统掌握了专业知识——语文，数学，科学——他们能够理解和传授复杂的专业技能，缩短了由内行变为专家所需的时间。另外，由于如果这些系统是由全体学生训练的——学生可以选择自己喜欢的方向去教——系统就能让所有学生获取所有知识。

这样学习就变成了训练人工智能的任务了。在人工智能达到一定的水平，学生还可以基于人工智能做创新项目。

3.用认知融合产品和服务

认知技术让感受、推断、了解用户和周围世界的新一类产品和服务成为可能。持续改善和适应，增强功能以推出未曾想到的新用法也因此成为可能。在教育应用上，喵爪正在开放有关应用，比如，教学生通过Scratch编程来控制感应器，学习物联网的应用。物联网正在急剧拓展全球的数字产品和服务——哪里有代码和数据，哪里就有认知技术的用武之地。

4.认知运营成为可能

认知也能转变学校的运营方式。融合认知功能的学校运营，能将内外资源中的数据表象化为共享资源。它让学校重视工作流程、文本和环境，这有利于持续性学习、改善预测和提高学校运营效率——以当今的数据流动速度做出决策。

5.提升探索发现

把认知技术运用到大数据上，校长和教师能找到规律、机会和可执行的假设，仅仅通过传统研究或可编程系统，几乎不可能发现这些。

假如能像设想的那样实现认知计算，那么，底层平台必须足够宽广、足够柔性，以便在各种学校、各个年级得到运用。它还必须支持跨学科运用。这需要一种全盘的研发进路，旨在打造一个强健的平台。它有许多功能可以支持来自开发者生态圈的各种各样的应用。

这个平台必须涵盖机器学习、推理、自然语言处理、语音和图像识别、人机交互对话和叙述生成等。许多功能要求运用高性能计算，专门的硬件结构，甚至是新的计算范例这样的专业基础设施。每种技术都源自自身科技或学术领域。但是，这些技术必须和支持认知结果的硬件、软件、云平台和应用协同发展。

随着沃森的迅速演化，未来可能已初见端倪。举个例子，一种分析X光，MRIs和超声波图像的认知医学图像应用，它能处理医学期刊、书本和文章的自然语言。它利用机器学习来矫正和增强理解力。它还可以开发深度知识表征和推理，有助于形成可能的诊断结果。为此，需要专门图像处理器来支持大规模数据和人类专业知识，指导系统学习，解读系统生成的结果。

这种新模型的威力能用到任何领域。通过分析测试成绩、出勤率和数字学习平台上的学生行为信息，学校能建立纵向的学生档案和个性化教育计划。

前沿认知科学的含义和义务

认知时代（The Cognitive Era）是应用型科学发展的下一步，它帮助人类理解自然并改善人类的生存状况。在此意义下，它是一个老故事开启新篇章。围绕人工智能的争论只是其中一个最新的例子，是相信科学进步的人和那些害怕它的人之间的古老争论的延续。与媒体和娱乐界的争论相反，在科学领域，裁决已定。追求认知性未来已成为广泛共识，人们也普遍认识有必要承担技术责任。

技术创造可能性和潜力，但最终，我们的未来将取决于我们做出的选择。我命在我，不在技術。

——Erik Brynjolfsson，MIT

具体而言，我们会继续形塑认知计算对工作和就业的影响。与所有技术一样，认知计算将改变人们的工作性质。这将有助于我们更快速、更准确地执行一些任务。许多处理过程会更便宜，更有效。某些事，它甚至会比人类做得更好。这也是自文明诞生以来一直发生的情况：新技术被发现具有更高的价值，它让我们的社会和生活得以适应和进化。所以，我们有理由相信，此时此刻的情况与以往是一致的。事实上，认知时代会为人类开启一个知识、发现、机会都以指数级速度增长的世界。我们也有充分的理由相信，人类的工作将变得越来越有趣，也更具有挑战性。

为下一代人类认知铺平道路

所有的技术革命不仅是被发现的，而且是由社会需求推动的。我们追求这些新的可能性并不只是因为我们有能力，而是因为我们有所求。

每一项革命性的技术，由于世界的复杂性和我们自己根深蒂固的偏见和方法，我们最初对它们的理解都是有限的。然而，所有的限制必然会被进展所突破。事实上，我们一直在为不知道付出昂贵的代价：我们不知道每位学生的学习困难在哪里，不知道如何教学生创新；不知道怎样点燃学生的学习积极性；不知道如何培养未来的诺贝尔奖获得者。

行为明智的最大障碍是无知，它也是恐惧的最大来源。小小的蜡烛会发出误导性的微弱光线，投射出巨大而不祥的阴影。正午阳光光线明亮，不会投下一丝阴影。是时候将这整个人与机器的难题置于耀眼的正午阳光之下了。计算机永远不会剥夺人的主动权，也不会取代人类的创造性思维。计算机会把人类从低级的重复性思考中解放出来，让人类更加充分地利用理性，创造更多机会。

——Thomas Watson Jr. （小托马斯.沃森，IBM第二代总裁）

我们相信，世界上的许多难题终将得到解决。借助认知计算，我们会实现这一宏伟目标。

炒作“人机大战”的戏码会让我们偏离主题，这些戏码只存在于那些激动人心却很具误导性的小说里。现在的认知系统不是我们的竞争对手，将来也不会是。科学和经济学的证据都不支持这种恐惧。真正的认知系统实际上是一种深化重要关系的工具——人与世界的关系。

通过它们，我们将为下一代人的认知铺平道路。我们能用崭新而有力的方式思考和推理。认知系统是真正灵感源于人类大脑的机器。同样的，这些机器也会真正激发人的大脑，提高我们的理性能力，改变我们的学习方式。在21世纪，知道所有的答案不能称得上智慧，提出更好的问题才算真正的天才。

喵爪会在全世界招募学校参与喵爪机器人的计划，大家一起来用一种全新的方法来共享每个人创造的认知。