APP下载

机器智能的寒武纪即将大爆发

2016-05-17吴甘沙

机器人产业 2016年4期
关键词:无人驾驶自动

□文/吴甘沙

机器智能的寒武纪即将大爆发

□文/吴甘沙

自动驾驶产业涉及三个“万亿美元级”市场。人工智能目前炙手可热,创业公司不断涌现,而自动驾驶有望成为人工智能带来的最大增值产业,没有之一。

信息技术发展呈现出20年的周期律,上世纪70年代到90年代是PC发轫的数字化,上世纪90年代至新世纪的第一个十年是互联网推动的网络化,而从2010年开始的20年,我们将面临机器智能的寒武纪大爆发。

生命的寒武纪大爆发有多种有趣的解释。第一,生物进化出能感知世界的视觉,导致物种的千变万化;第二,前寒武纪末期的一些动物生长出具有神经元和突触的弥散神经网络,智能初现;第三,那时高水平的地壳运动使大量钙元素喷入海水,早期生命演化出壳体和骨骼。

如果物联网是机器的“视觉”,计算能力飙升、新型计算架构出现是“神经网络”,互联网带来了“地壳运动”,而大数据是“钙元素”,所有这些印证了机器智能的爆发恰逢其时。

人工智能目前炙手可热,创业公司如雨后春笋般涌现,最近几年的发展让从业者思考,如何让技术形成涟漪效应,形成产业的非线性、跃迁式增长。有人把人工智能及其产业比喻成葡萄干和面包的关系,在一起创造出高价值的新品类,但葡萄干离开面包只是葡萄干而已。近年来,通过探索人工智能的产业机会,我们得出结论:最近5-10年,自动驾驶将成为人工智能所带来的增值最大的产业,没有之一。

自动驾驶产业和社会变革

自动驾驶产业涉及三个“万亿美元级”市场:全球汽车市场以万亿美元计算,出行同样是万亿美元级市场,而在实际产业之外,自动驾驶为社会经济带来的额外收益又将是万亿美元级。

自动驾驶“起风”自汽车产业。过去100年,这个被称为“工业之王”的产业在竞争格局上并没有产生大的变化,一辆车3万多零件,价值链和资金周转周期长,巨头林立,后来者只能知难而退。

然而,过去5年发生的四个趋势完全颠覆了这一格局。首先是新能源化,特斯拉这样的电动车将零件数降到1万个,进入者门槛极大降低;其次出行多样化,尤其是共享出行改变了汽车的消费模式;而智能化和网联化改变了汽车的定义,电子和软件压倒传统机械和电气,汽车成为移动的智能化空间,人与信息和服务产生无数的触点。

竞争格局的改变并不只有利于后来者,传统的汽车产业巨头比以往任何时间都更勇于拥抱新趋势。通用汽车投资出行服务提供商Lyft,又一掷10多亿美元买下创业公司Cruise Automation;国内来讲,长安汽车的具有辅助驾驶功能的汽车运行2000公里进京,并与谷歌等国外巨头积极接触……可以看到他们直面挑战的决心。

自动驾驶带来的变化远远不止是汽车产业,它的高级形态——无人驾驶——将彻底改变出行。我们心中有一个梦想:让首都摆脱“首堵”,让行者出行无忧,这也许只需要10年。今天的北京有近600万辆车,多数是私家车,“场外”仍有百万人排号买车,为每年的6万个车牌号惆怅。车越来越多,停车越来越难,而限行却让更多人买车,路上越来越堵,废气排放导致雾霾,交通事故高居不下……

吴甘沙 驭势科技联合创始人、CEO,前英特尔中国研究院院长

我们不禁思考:为什么都要买私家车?众所周知,北京有近两千万人口,却只有七万辆出租车,即使加上滴滴和优步的“游击队”,仍然无法为多数人提供即时、按需的出行服务。那么,想象一下这个场景:10年后,北京只有100万辆私家车,但同时有200万辆出租车,基于大数据的调度算法,可以使其为千万人提供按需的出行——当您踏出家门,车已经等在外面。

有人说,到处打车,打不起。其实,那时打车花费只需要今天的五分之一。为什么?我们可以算一笔账:以目前一辆出租车为5年生命周期的产值来看,10% 用于车钱和维修费,30% 是司机收入,30% 是份子钱、税和保险,30% 是油钱。10 年后人工成本和份子钱消失,调度算法消灭“空驶”、新能源每公里的能源成本低于常规燃料,打车成本自然就降低了。所以,您今天需要花 50 元,10 年后可能只需要不到 10元。路上长流不息的多数是无人驾驶的出租车,车减少了一半,但车的利用率极大提升,堵车成为过去时,天空更蓝,停车位被改成公园、活动空间和住所,车祸几近于零,这就是我们梦想的北京。

交通流、信息流、能源流的三流合一将形成巨大的海啸,所有与人或物相关的交通将被重新定义,而服务业将找到新的爆发点——无人驾驶出租车将成为除了家和办公室的第三空间,是移动的商业地产,移动的影院、移动的办公空间、移动的星巴克。

什么是自动驾驶?

自动驾驶是个笼统的概念,往往各种混杂说法见诸报端。在网络上一搜,你会看到诸如“长安汽车完成长距离无人驾驶首试”、“特斯拉无人驾驶出事!还敢放心交给它吗?”、“乐视无人驾驶超级汽车亮相”这样的报道,显然混淆了概念。

我们在这里正本清源。首先,我们要强调一个大概念是智能驾驶,在驾驶的智能方面分为驾驶辅助(driving assistance)和自动驾驶。驾驶辅助还是人开,其智能体现在对环境的感知、并适时预警(比如车道线偏离和前车碰撞预警)。

从驾驶辅助到自动驾驶又是很大的飞跃。自动驾驶在感知之外,加上了规划/决策和控制。驾驶辅助的感知强调低误报(误报一多驾驶就不用了)、低频触发,人是最终的决策者,所以驾驶辅助出错无伤大雅。自动驾驶的感知有极高的要求,因为把一段时间的控制权完全交与了机器,不仅要求低误报(不然莫名其妙的刹车不但烦人,在高速上也很危险),而且要求零漏报,漏一次就是交通事故。

自动驾驶常常有三种不同的形态:

首先辅助驾驶或半自动驾驶,特斯拉的Autopilot即是此类。在某些场景下汽车可以进入自动驾驶,比如自动的紧急刹车,在封闭、结构化道路上的自适应巡航和车道保持,还有自动泊车。必须注意的是,这类技术有较大的局限性,特斯拉近日的多起事故都是出现在十字路口、入口/出口和双向路,这超出了Autopilot的处理能力。

下一步是高度自动驾驶,在大街小巷多数场景下可以自动驾驶,还能支持多辆车的编队行驶。这类技术的环境感知和驾驶认知能力得到了极大提升,不仅仅能处理上述辅助驾驶不会的路况,甚至能在完全没有车道线的非结构化道路畅行。自动驾驶车还能在复杂路况下与其他智能车辆或人驾驶的车辆共享或竞争路权。

第三类是全自主驾驶或无人驾驶,完全由人工智能来驾驶,可以把方向盘、油门和刹车拿掉。

未来 5 年,传统车厂和零部件供应商未来5年的主要努力方向是第一、第二类自动驾驶,这并不是以拿掉驾驶员为目的的,而是让驾驶员更加安全和舒适,显然这是更稳妥和渐进的发展路线。

而一些研究人员则直接选择了无人驾驶作为切入点,同样剑指2020年。他们认为前两种自动驾驶是有问题的,因为机器失效时驾驶员不一定能在短时间内回到决策环中。而终极的办法是“消灭”驾驶员。这样的车是真正为出行者设计的,小孩、老人、宠物、残疾人都能够开车,出行的权利极大释放。传统车主要卖给消费者,而这类车则是面向运营的。其好处是,运营者可以限制它的运行区域和应用场景,在区域内配备高精度地图,可以布置增强的环境支持(比如GPS地基增强),并且限制速度。在无人驾驶上谷歌是个中翘楚,技术遥遥领先。即使这样,谷歌还是把这类车的速度限制在25英里/小时。在城区场景下,这个速度不是大问题,很多大城市的平均通行速度只有20-30公里/小时。

自动驾驶的前世:科研开道

自动驾驶真正获得进展是从无人驾驶开始的。这也多亏了美国国防部先进研究项目局(DAR PA),它可以说是孕育无数颠覆性技术的“黑科技神盾局”,大众熟知的互联网(阿帕网)、鼠标、触屏、Siri,乃至无人机和无人驾驶汽车,皆由此来。

自动驾驶的今生:企业精耕

谷歌的第一辆无人驾驶车是基于混电车普锐斯改的,顶上装着64线激光雷达,他们以此来建立高分辨率的三维环境模型,或高精度地图。为了建图,车往往到晚上开出来扫街,因为这时候路上比较清静不易被发现(有人发现了也误以为是街景车),而路面上临时的物体(地图噪声)也比较少。

谷歌的第二代无人驾驶车来自一个创业公司——510 SYSTEMS,其核心成员Anthony Levandowski就读于加州大学伯克利分校。虽然他并非属于无人驾驶车“三强”(卡内基梅隆、斯坦福和麻省理工),但他的产品非常强大。于是谷歌悄悄把这家公司买下来,并且在其基础上发展出了基于雷克萨斯的平台,一直到现在雷克萨斯仍然是谷歌车队的主流车型,已具备20多辆。

谷歌无人车

谷歌的第三代无人驾驶车可视作真正的跃迁,这款车完全从头设计的,长得“萌怪”,有点像树袋熊。谷歌在设计上做了很多思考(比如移除了雨刷,因为驾驶员不需要在雨中看清路况)。按照设计,这种车是没有方向盘的,但由于加州法律的限制,车里还是有个游戏操纵杆作为方向盘。目前已有30多辆第三代无人驾驶车在路上跑,且还在大量制造。

谷歌的60多辆车已经行驶了200多万英里,然而在实用性上仍面临一定的问题:一是激光雷达等传感器太过昂贵,二来区区200多万英里并不能证明无人驾驶足够安全或比人更好。根据统计,美国人的驾驶事故致死率是每9000万英里一次。

事实上,还有一些人试图在做另一条路线的探索,他们从驾驶辅助和辅助驾驶开始,死磕以视觉为主的低价方案,试图实现快速商业化。其中翘楚是Mobileye和特斯拉,后者的Autopilot在短短7个月间积累了1.3亿英里的自动驾驶里程。

Mobileye刚开始的时候更多在做一些高深的问题,比如行人和车辆检测。然而,一位高人的点拨让Amnon Shashua茅塞顿开——听从客户的要求。这时,通用汽车对车道线检测开始投标。Shashua的学生花了几个月写出了车道线检测,然而这不能保证Mobileye能够胜出。Shashua玩了极其高明的一招,他在给通用展示车道线检测的同时,顺便展示了还很不成熟的车辆检测。这让通用大喜,取消了投标,并且把资金投入这家以色列公司。

随后的10年,Mobileye从车道线、车辆检测,到行人检测,从算法到芯片,从后装的驾驶辅助产品到几百款车型的前装,从驾驶辅助到辅助驾驶,把单目摄像头加传统计算机视觉的技术路线发展到了极致。但这并没有阻止业界在更广领域的探索,基于多目摄像头的立体视觉,在很多场景下展示出优于单目的感知能力。

而在算法上,基于深度学习的汽车视觉算法展现了更强的适应能力,这在一定程度上削弱了Mobileye的先发优势。Mobileye基于10多年的经验和1000万英里的数据,精心设计了识别车道线和道路目标的识别特征(比如汽车的特征包括车身下的阴影、对称的方形后部、对称的车灯等),而深度学习强大的自我特征学习能力能够一举超越多年的积累。Mobileye并没有故步自封,近年来他们也开始了基于深度学习的探索。他们清醒地认识到,靠传统的计算机视觉算法已经不能适应高度自动驾驶的需求,在更复杂的路况中(比如不同角度的汽车识别、完全看不见车道线的非结构化道路),深度学习是唯一的选择。

视觉不仅仅是感知的重器,它提供了建立自动驾驶地图的另一种思路。如上文所述,谷歌坚持用激光雷达建立高精度三维地图,并且通过实时的稠密点云匹配来判断当前位置,但它的问题是:数据量大,每公里需要几个GB的数据,且无法实时更新;另一方面,每辆自动驾驶车都必须配备昂贵的激光雷达,这推迟了自动驾驶的普及。

于是业界开始探索新的思路。传统地图厂商,如HER E、TomTom和四维,寻求在现有地图上进一步提高分辨率,增加更丰富的路面语义信息(地标、交通信号、车道、坡度和曲率),而汽车不需要配备高端的传感器,这样的地图是否适合自动驾驶尚待检验。

Amnon Shashua

Mobileye以及驭势科技都不约而同地采用视觉地图,因为摄像头每辆车都有,从视觉中提取的地图又特别小,适合实时上传、通过众包的方式更新。事实上,基于视觉的定位更接近人的工作方式。我们根据道路上的标志来评估大致的位置,并且根据路面线条的变化做实时的决策(是选哪一条车道,是否上匝道等)。那么,只需从视觉中提取出那些标志和线条,众包上传到地图(每公里只需10kb级别的数据),并且通过实时匹配来获得定位。

在视觉狂飙猛进的同时,其他的技术也在飞速发展。比如视觉加雷达的多传感器融合,在很多场合下能够获得更好的感知能力。视觉的优势是分辨率高,含丰富语义,但缺点是受天气和光照影响;而毫米波雷达只能跟踪对象,而无法获知其大小形状,但受环境影响小。两者的融合已经成为目前辅助驾驶的标配,特斯拉的Autopilot即是如此(还配有短距离的超声波雷达)。

值得一提的是,特斯拉的致死事故中纵然有Mobileye视觉未能认出拖车横侧面的缘故,也有雷达识别失误的问题。雷达安装较低,垂直扫描角度小,只能在较远的距离看到拖车(拖车底盘高,所以近距离时不能扫描到),在这起事故中拖车被认成龙门或横跨马路的交通标志。目前,各个传感器只能在各自识别完成后做融合,这时候的融合逻辑就变得非常困难,因此,多传感器的底层、深层融合非常值得探索。我们已经看到雷达和摄像头的合体R ACAM,以及激光雷达和摄像头的混血版。

当然,固态激光雷达的异军突起也使得无遗漏的检测成为困难。传统的机械激光雷达要做每秒5-15转的360度扫描,机械马达做到足够可靠、激光发射和接受做到足够精准是非常昂贵的。固态激光雷达通过半导体技术,比如MEMS镜子或相控阵的光学干涉,实现了电子扫描。而半导体受益于摩尔定律,可以迅速降低成本。未来5年,我们有望看到100-500美元的激光雷达产品。

除了感知,在规划和控制这块我们也看到了长足的发展。传统的规划考虑安全和舒适性,而现在把竞争性也放入了考量。自动驾驶的车辆如何预测行人和其他车辆的动机和动作?如何激进地并线来获得路权?谷歌和Mobileye等都在开始探讨技术方案,比如采用强化学习和递归神经网络。必须指出,学习方法和专家知识是可以互补的。谷歌年初发生了自动驾驶车撞上大巴的事故,如果在规划中融入对大巴驾驶员判断的经验知识也许就可以规避。

另一些勇于吃螃蟹的人试图用深度学习的端到端学习来整个解决“感知-规划-控制”的一揽子问题。视觉图像作为输入,经过神经网络,控制信号直接出来。这个思路早在深度学习出来之前就由Yann Lecun试过,并不成功,而近年来深度学习的发展让业界对其又重燃希望(AlphaGo不就是把故纸堆里的Q Learning和深度学习嫁接、取得巨大成功吗?)。英伟达在从感知到控制的端到端自我学习上做出了有益的尝试,谷歌传言也在探索这一方向,黑客George Hotz用2000行代码实现的原型也被奉为传奇,但笔者判断真正实用尚需时日,在规划和控制上有限数据样本的统计学习还不足于取代人类的经验知识。

自动驾驶的系统设计

自动驾驶解决了一种安全“Safety”,可能会带来另一种安全问题“Security”。一方面,日益复杂的算法和功能要求使得通用操作系统在车上使用,另一方面,联网的需求使汽车直接暴露在网络攻击之下。前不久,两位黑客通过车载联网娱乐系统攻破并接管了一辆大切诺基,远程打开冷风和显示器,随即接管显示屏,大音量播放音乐,最后开启雨刷、熄灭引擎,揭示了让人恐慌的黑色未来。

在相当长的时间里,自动驾驶车将与有人驾驶车共享路权,单车智能是必要的基础。但自动驾驶的未来不是一辆车的战斗,随着5G通信网络的普及,V2X(包括车对车和车与基础设施的通信)将丰富自动驾驶的技术内涵和生态,放大其作用。

V2X能做什么?首先是安全。今年在沪宁高速上发生一起数十辆车连环相撞的惨剧。由于雨天极差的可见性,即使每一辆车都有自动驾驶功能,仍然难逃刹车不及的宿命。假设车车之间有通信,第一辆车发生制动的瞬间,后车连续接到指令、自动刹车,那就可以将大祸消弭于无形。

V2X还能改善能源效率。欧洲已经开始尝试大货车的编队行驶,领航车的执行动作通过V2X指令传播到跟随车辆,保持整个车队的队形和操控一致,这样最大的好处是后车风阻减少,能源大大节省,至于头车嘛,“能力越大,责任越大”,能源消耗是少不了的。

V2X还能提升通行效率。对于高速来说,一大问题是,只要有一辆车突然刹车,其减速影响将如地震波一般连绵传播数公里,使整个道路的通行效率剧减。麻省理工的教授发现,假设V2X允许每辆车的速度控制在前后车速度的平均值,某车瞬间减速的影响会向其前后两侧传播,并且迅速消失。除此之外,如果V2X能够掌握路口各个方向的车辆运行状况,并且计算出每一辆车的通行顺序和速度,那么可以完全把红绿灯拿掉,各车按序各行其是,完全不用担心撞车。当这一天实现时,城区的通行速度将获得1-2倍的提升(要知道,今天北京的平均时速只有20多公里/小时)。

特斯拉在致命车祸的抗辩中,指出Autopilot已经行驶1.3亿英里,这是第一起死亡事故。而全世界每行驶6000万英里就有一次致死事故,全美的平均数字是9400万英里,因此自动驾驶更加安全。但必须指出的是,这一论据并不充分。1.3亿英里、不到1年的上路时间、10万辆左右的车,只是非常小的样本。换言之,只要明天再出一起死亡事故,平均值就已经低于美国的平均值了。

在未来的3至5年内,智能驾驶将以驾驶员为核心,自动驾驶系统逐渐接触驾驶员的必要行为,其他行为将被人工智能所取代。在此阶段,主要以驾驶员的安全和舒适感受为重点,在特定场景内实现半自动驾驶、增强驾驶、高度自动驾驶,以及无人驾驶。在未来的5至10年间,智能驾驶将以出行者为中心,主张便捷的理念,在城市区域实现无人驾驶,随着车联网的成熟,逐渐过渡到全天候、全区域的无人驾驶。届时,无人驾驶将带动相应的物流、停车、保险和服务业等的发展。

手机扫码阅读

猜你喜欢

无人驾驶自动
Pizza from a vending machine
自动捕盗机
战“疫”需求急呼无人驾驶车冲上前线
北京第一条无人驾驶地铁试运行!你敢坐吗?
让小鸭子自动转身
自动摇摆的“跷跷板”
无人驾驶货船
关于自动驾驶
傍晚,路灯为什么能自动亮起来?
无人驾驶