如何构造一个健壮的人工智能体系

2017-11-30郑南宁

中国信息化周报 2017年42期

人工智能渗透到了社会各个领域，但从目前来看，无论是深度学习还是其它方法，解决的都是单一问题。人类大脑是一个多问题求解的结构，怎么从脑认知和神经科学中得到构造健壮的人工智能的启示，国内外都做了非常有成效的研究。

实现健壮的人工智能的方法

人类面临的许多问题具有不确定性、脆弱性和开放性。今天人工智能的理论框架，是建立在演绎逻辑和语义描述的基础方法之上的，但我们不可能对人类社会所有问题建模，因为这中间存在着条件问题，这是传统人工智能的局限性。

这个局限性主要表现在几个方面：需要对问题本身抽象出一个精确数学意义上的解析式的数学模型；需要为已建立的数据模型设计出确定的算法；处理的结果无法表现现实世界所固有的不确定性；图灵意义下的可计算问题都是可递归的；用“度量”区分模式，只能处理可量化的数据。

计算机和人类大脑是为问题求解的物质基础。在智力和计算能力方面，计算机远远超过了人类，但是人类面对的大部分问题都是开放的、动态的、复杂的，大脑在处理这种问题时表现出的想象和创造，还有对复杂问题的分析和描述，是传统人工智能方法所不能企及的。我们只能从人类大脑的神经网络结构中去获得构造新的人工智能的因素。人类大脑非常奇妙，也正是在这个物质基础之上，才演义出人类世界的发展和为问题求解的各种方法。

另外，神经元的连接并不是像我们一般理解的物理方式那样，而是靠突出，突出的过程中有一个间隙，这个间隙产生的反应，构成了大脑中奇妙的演进。人类大脑中的思维或学习都是发生在突出这个层面上的。实际上在大脑的神经网络连接中，不同空间对应不同功能，不同功能在自身内部产生着不同的成本函数。

人出生之后，大脑会不断发展，发展到一定程度，神经元增长到一定数量，又会递减，把不需要的神经元删掉。大脑是慢性记忆神经元，它需要具有高度的容错性。实际上，人出生时大脑是一样的，如三字经所提到的“性相近，习相远”，6 岁以前，大脑在发育，到 6 岁左右，从生物学角度上讲，这种发育就完成了，大家的记忆力、智商等都是教育上的反应。教育的基础就是大脑。所以，大脑不是通过一个统一的、没有分化的神经网络，来实现单一的全景优化学习的，不同功能和区域会生成不同的成本函数，它是模块化的，同时具有独特的系统来支撑注意、记忆、语言等功能。

脑认知和人工智能的结合

大脑有 800 亿个神经元容量，它主要有三种研究方式：结构研究、功能研究、有效研究。

大脑的结构连接是静态的，功能连接和有效研究则具有时空动态演化的特性。在视觉和听觉神经网络的区域空间当中，功能连接和有效连接是不一样的。

有效连接是针对具体任务的，在同一个视觉功能连接空间中，当我们执行不同的视觉任务时，它所形成的神经网络的有效连接是不一样的。有效连接则描述了神经元之间的因果与相互影响关系。

从这种结构化的观点来看，我们构造的神经网络还没办法模拟同时具有结构连接、功能连接、有效连接的方式。我们可以通过获取某一区域的活跃程度，或活跃状态，辨别大脑正在执行什么样的视觉任务。知道它在执行什么样的视觉任务，我们就得到了它有效连接的状态，也可以发现它的有效连接在时空演化中的特性。

前面讲了概念，在概念基础上我们要抽象出科学问题，这样才能指导我们进一步的研究，找到解决问题的方法。下面我们谈一下这个方法怎么和现在的方法结合。

我们现在深度学习的基本框架，是通过多层神经网络输入，根据误差来调整连接，这建立在大量数据标注的基础上，通过标记数据得到网络优化的成本函数。

大脑的认知活动

大脑的认知活动分为三个不同层次：一是哲学，二是形象思维和逻辑思维，三是敏感性。

直觉推理。直觉和敏感都属于创造性思维，警察在破案中，靠的是多年积累和实践，形成的直觉判断。灵感、顿悟与直觉的区别是，直觉是对当前环境的反应，它在人工智能的发展中扮演着十分重要的角色。我们需要一种基于直觉的人工智能，基于直觉的推理。

人的直觉反应实际上是寻找全局的最优办法。要构造直觉推理，需要两个关键因素：构造一个成本函数；给出一个决策结构，而这个决策结构就建立在记忆基础上。

人在观察事物时，一定会形成一种与时间相关的影像。如果把直觉推理和数学归纳演绎推理两类机制组合，就可以实现基于认知计算或受神经科学启发的人工智能。

认知推理。我们把认知推理称为直观、朴素的物理推理。物理层面的认知推理可以化解时间与空间，追踪事物的发展轨迹。认知推理的另一个要素在心理层面，简而言之就是学习方向受心理状态的引导。我们需要把物理层面和心理层面的推理嵌入到推理的人工智能系统中。

因果模型。在直觉和认知推理中，我们还需要构造一种模型，其中因果模型是基础。认知计算框架下的因果模型既要满足物理因果关系所产生的物理约束，同时又要让机器理解当前认知任务下的因果关系。

认知如何解决实际问题

我们在 2000 年初就开始做无人驾驶，有人说要把无人驾驶汽车和城市真实场景的车融合，我们还面临非常艰难的挑战，有相当长的路要走。

无人驾驶的挑战存在于：必须准确感知周围环境，在所有条件下安全行驶；必须能够抽象，要完成一种交互情境中的記忆计算；必须能够理解预行为。

现在绝大多数自动驾驶采取了场景感知与定位，决策规划与控制，这是一种简单的 ADAS 形式，但我们要如何通过新的方法来解决这个问题？

场景感知与情境计算。场景是某个交互场合在特定时间和空间中的具体情境和影像，它可以定义为一种实体。情境是指这种实体随着时间和空间变化而产生的关联。情境计算是对场景各个关联的对象做解释，可以定义为一个行为相关体。

这里的问题就是，第一，要让自动驾驶汽车像人一样理解和记忆，就要具有记忆推理和经验分析的技术；第二，进化发展的自动驾驶，其学习过程要像人类一样熟能生巧。

人类视觉关注的基本机制是选择、组织、整合、编码。人对变化非常敏感，可以提取交通场景中的显著变化。比如你在开车时，如果右前方突然出现一个骑自行车的人，你的注意力会转移到骑车人身上。在自动驾驶汽车上，我们要构造一个选择性的注意机制网络，对数种图像进行理解，并根据内部状态表示，忽略不相关对象，选择下一步要采取的动作。

把场景感知和情景认知结合起来，需要我们构建一个模型，融合先进知识概念，实现记忆学习。

场景感知是将通过各种不同属性的传感器获得的不同数据，提供到深度学习中，之后再根据长短期记忆和定位网络，进行情境计算。在这种框架中，我们可以把场景感知和情境计算融合在一起。

一个高效的情景计算要运用实际情境的因果关联，在最前端的数据层面进行有效计算，就需要把数据驱动变成事件驱动。怎么构造事件驱动？就是把可见光和激光点云数据融合在一起，把三维数据转化成二维图像数据。点云数据给出了每一个生物体的明确的点，二维图像没有深度信息，它是图像的几何形状变化。

（根据郑南宁院士最近的公开演讲整理而成，未经本人确认。）endprint