语义图像分割解密谷歌DeepLab-v3+

2018-05-21技术宅

电脑爱好者 2018年9期

技术宅

视频抠像了解谷歌DeepLab-v3+技术

说到抠图，很多朋友想到的是Photoshop，确实借助PS我们可以精确地将人像从复杂的背景图中抠出来。但是如果要将人像从视频画面中“抠”出来，估计很多朋友就没听说过这项技术了。

PS抠图是对静态的照片进行前后景的分离，DeepLab-v3+技术则是对视频抠像，当然也可以对照片进行实时处理。比如之前某视频巨头网站测试的抠像技术（即时去背景），以及Google Pixel 2和Pixel 2XL手机的肖像功能，拍摄照片后可以获得类似单反相机的景深效果。这些技术背后的功臣就是DeepLab-v3+技术（图1）。

抠像技术的背后认识谷歌DeepLab-v3+技术原理

如上所述，DeepLab-v3+技术最大的特色就是可以抠像。那么这个抠像的功能是怎样实现的呢？

我们先来简单了解一下PS抠图技术。PS抠图是借助PS组件将照片前景和后景精确区分出来，然后通过提取前景的方法实现抠图（图2）。不过PS的精确抠图显然不是一般人都能胜任，它需要用户长时间学习和精细操作才能完成。D e e p L a b -v3+的抠像原理与之类似，不过这个学习的过程则是通过人工智能技术完成，作为终端用户则只要按部就班地使用即可。

那么DeepLab-v3+是怎么实现这种效果？这主要得益于日渐发展的人工智能技术。首先谷歌会建立DeepLab模型，通过机器来识别大量的照片和视频，借助改进的卷积神经网络特征萃取器、物体比例塑造模型以及同化前后内容的技术，再加上先进的模型训练过程。这样通过大量的样本学习和训练，同时借助人工智能的自我学习，DeepLab-v3技术可以对图像或者视频画面中的前后景物体进行精确的识别，从而生成一套独特的算法。现在DeepLab-v3+在Tensorflow上进行，使用部署于服务器端的卷积神经网络（CNN）骨干架构，可以让该技术有更高效的处理速度和更精准的识别精度，能够快速对照片或者视频中的各种元素进行精确识别（图3）。

这里以Pixel 2XL人像模式中的合成浅层景深效果为例，在Pixel 2XL手机启用人像模式后，集成DeepLab-v3+处理后台会自动根据照片背后景色进行分析，比如路、天空、树木、人或狗等物体进行识别，同时为每个像素指定语义标签。这样算法可以根据照片实际环境里的显示效果，对指定的语义标签进行处理，比如对人物背后的景物进行模糊处理，从而可以获得类似单反相机的景深效果（图4）。

对于视频抠像处理则类似，在视频画面中，DeepLab-v3+同样会对视频中前后景的元素进行分析，同样為每个像素指定语义标签。借助服务器端的卷积神经网络就可以实现对视频前景人物的精确识别，从而实现视频抠像功能，抠出的活动人物可以叠加到其他视频场景中，从而做出类似绿幕MR特效的影片（图5）。

DeepLab-v3+ 接地气的抠像技术

上面我们介绍了DeepLab-v3+技术原理，可以看到这项技术并不像技术本身名称那样“高高在上”，它在我们的生活中都有很多的应用。

比如随着手机的普及和摄像头分辨率的提高，人们越来越希望手机能够拍摄出更高质量、更真实还原实际环境的照片来。但是受限于手机本身的超薄尺寸，仅仅通过手机摄像头本身是无法拍出类似单反相机那样效果的图片（因为手机没有足够的景深）。不过随着技术的发展，类似DeepLab-v3+技术借助人工智能，使用机器学习来分离主题，结合定制的深度数据，使得手机也可以拍出类似单反效果的照片，显然会给我们日常拍摄带来更多的便利（图6）。

另一方面，现在短视频流行，也使得越来越多的朋友喜欢在手机上欣赏和处理视频数据。DeepLab-v3+支持的抠像技术则可以很好地满足大家在手机上对视频的处理，比如借助DeepLabv3+可以很轻松地将自己抠出来，叠加不同的视频背景，制作各种有趣的视频。当然该技术在电影特效方面有更多的用处，制作者可以制作出更多特效的影片效果来。