AI的“眼睛”不好使

2020-03-04吕之品

科学之谜 2020年12期

吕之品

将一辆黄色出租车和一副双筒望远镜区别开是很容易的，大多数人哪怕倒立时都能做到这一点。但对于人工智能（AI）可不是这样：把出租车翻过来，它就会将之认作双筒望远镜。

这只是美国人工智能专家阮安收集到的几十个例子中的一个，这些例子表明AI识别物体的本领比我们想象的要差远了。这让我们对AI在某些领域的应用（如无人驾驶汽车）更加谨慎。

人类是如何识别图像的？

图像识别是人工智能的一个重要领域。对于人来说，识别图像并不是一件难事。我们通常是依靠图像本身所具有的特征来将它们识别出来的。每个图像都有它的特征，如字母A有个尖，P有个圈，而Y的中心有个锐角等。研究表明，当我们识别一个图像时，视线总是集中在图像的主要特征上，也就是集中在图像轮廓曲度最大或轮廓方向突然改变的地方——这些地方的信息量最大。如果图像有多个特征，眼睛的扫描路线也总是依次从一个特征转到另一个特征上。

由此可见，在我们识别图像的过程中，知觉必须排除多余的输入信息，只抽取出关键的信息。然后将这些关键信息进行分门别类，存储在记忆中。当下次遇到类似图像时，将陌生图像中的关键信息提取出来，与存储在记忆中的信息进行比较，从而将其识别出来。依据这种办法，我们不仅能识别某个具体的字母A，也能识别印刷体的、手写体的、方向不正的（甚至倒立过来）、大小不同的各种字母A。

AI产生错觉的原因

但是，当前的AI图像识别技术还远远达不到人类的水平。它们更多地依赖模式识别。

所谓模式识别，就是说识别某个图像，必须在过去的经验中有这个图像的记忆模式（又叫模板）。当前的图像如果能与记忆中的模板相匹配，这个图像就能被识别。例如有一个字母A，如果在记忆中有个A模板，字母A的大小、方位、形状都与这个A模板完全一致，字母A就被识别了。这种方法强调图像必须与记忆中的模板完全符合才能加以识别。

这就怪不得AI经常会被人为篡改的图片迷惑。比如，将图片上的一只乌龟配上特殊的外壳之后，并不影响人类的基本判断，但AI却很容易将其误认为是一把枪。

然而，这还好说。这些图像毕竟是专门设计用来迷惑AI的，它们在现实中不太可能存在，现在问题严重的是，你几乎不需要专为AI篡改一个图象，就足以引起它混乱。

阮安和他的同事从一个用来训练AI的数据库中选择了一些常见物体的图像，然后随机旋转并改变物体在图片中的位置。他们发现，这足以难倒目前世界上最先进的几个图像识别系统，所有系统平均97%的时间里都识别错了。在一个案例中，原始图像是一辆校车，所有图像识别系统能正确识别。但是，把图像特写放大之后，却被它们误认为是一只口袋;当图像被倒置着立在道路上时，又被它们误认作是一辆铲雪机。

這是因为AI的图像识别本领是通过大数据训练出来的，但当初接受训练的时候，在海量的图片里，物体很少有倒立或放大的。