AlphaGo：人工智能迈出一大步背后的秘密

2019-09-10乐佳

电脑报 2019年21期

乐佳

近日，搜狗CEO王小川在发表公开演讲时，动情地回忆起了2016年他在新浪直播全程见证了李世石被机器打败，并坦言当时对他冲击很大，他认为那是人类历史上堪比文艺复兴的一场启蒙运动。今天我们再来深入地解读一下，阿尔法狗——人工智能迈出一大步背后的秘密。

2016年3月，由谷歌旗下公司DeepMind开发的人工智能程序阿尔法狗（AlphaGo）以总比分4：1战胜韩国天王级职业围棋选手李世石九段。此役使得AlphaGo声名鹊起，也使得人工智能、深度学习成为了世人关注的热点。仅仅过了几个月，同年的12月29日，一个神秘账号“Master”出现在了中文网络围棋平台弈城网上，并在短短几日之内以60胜0负1和的傲人战绩战胜了包括世界排名第一的柯洁九段、“棋圣”聂卫平在内的多个职业围棋领域的大师级人物。当人们还在震惊中猜测Master到底是何方神圣时，Google对外宣布Master的真实身份就是AlphaGo。AlphaGo是人工智能领域的一个里程碑，它的出现昭示着人工智能领域的研究又向前迈进了一大步。那么，AlphaGo到底有何过人之处，其在围棋领域取得的成绩为何会产生如此之大的反响？

其实，人工智能在棋类运动中战胜人类早已有先例，早在1997年5月IBM的“深蓝计算机”在国际象棋比赛中就战胜了当时的世界卫冕冠军卡斯帕罗夫。相较于国际象棋，围棋具有更复杂的规则和更多的棋盘状态，所以在“深蓝”战胜了世界冠军后的很长一段时间内很多人都认为计算机在围棋上是无法战胜人类的，甚至有人把围棋称为“人类最后的堡垒”。而如今，“人类最后的堡垒”也已经被攻破，势必会引起人们的强烈反应。

AlphaGo的成功一方面得益于硬件设备计算能力的极大提升，相较于20年前，如今计算设备的计算能力有了质的飞跃;另一方面，则得益于采用了深度学习算法。同“深蓝”采用的暴力解题的方式不同，AlphaGo通过使用深度学习来获得更加抽象的概念。AlphaGo的核心组成是两个卷积神经网络（Convolutional Neural Networks， CNN）：策略网络（Policy Network）和价值网络（Value Network）。简单来说，策略网络用于针对当前棋盘，输出在当前棋盘各个空白处落子的概率;价值网络则会给出在各个位置落子后的胜率;最后，AlphaGo使用一种蒙特卡罗树搜索（Monte Carlo Tree Search， MCTS）算法结合前面的两个网络输出最佳的落子策略。因此，AlphaGo厉害之处就在于当它的对手可能还在思考下在哪里的时候，它已经猜出了对手可能下子的位置，并利用对手思考的时间，继续计算后面的棋路。此外，AlphaGo还使用了强化学习算法（Reinforcement Learning， RL）：通过让策略网络不断地自我对弈，来不断提升策略网络预测落子概率的准确性。当然，AlphaGo的实际计算过程比这要复杂得多，此处主要是为了方便理解而对其对弈的计算过程做了大量的简化。

人工智能一般可以分为弱人工智能和强人工智能，两者最大的区别在于制造出来的智能机器是否具有自我意识。强人工智具有理解问题、思考问题、计划并解决问题的能力，甚至拥有自我意识和知觉。而弱人工智能虽然能解决一些人类才能解决的问题，但实际上它并不真正具备理解问题、思考问题的能力，也没有自我意识。自从AlphaGo击败众多围棋高手以来，不少人都觉得人类离人工智能统治人类的那一天又更近了一步。其实，尽管AlphaGo的确是人工智能领域的一个里程碑，但本質上AlphaGo仍然是一个计算机程序，它没有自我意识，也没有真正理解围棋，它只是算出了几个可以构建最佳落子策略的函数而已，它仍然属于弱人工智能。