基于卷积神经网络的黑白人物图像实时着色方法研究

2019-09-10田影陈国栋王娜杨志伟

贵州大学学报（自然科学版） 2019年1期

田影陈国栋王娜杨志伟

摘要：黑白图像着色在计算机图形学方面应用广泛，有着非常好的发展前景，针对人物图像的着色的研究更是复杂多样。本文提出了一种深度学习算法，通过训练一个卷积神经网络（CNN）直接将人物的灰度图像输入映射到输出着色。该算法利用Imagenet数据集中大规模的人物图像来学习自然人物彩色图像的先验，同时使用卷积和完全连接的网络结构来提取适合笔画调整的视觉特征和空间特征来学习CNN模型。然后经过我们的多次试验表明，在减少人工交互的同时，可在较短的时间内实时生成效果很好的彩色人物图像。

关键词：人物图像;深度学习;卷积神经网络（CNN）;实时着色

中图分类号：TP391

文献标识码： A

在以前的大部分照片中，无论是重要历史人物的珍贵照片还是家庭生活照，大都是黑白的，因为那时的彩色摄影还没有普及。要想使一张人物的黑白照片变为彩色，让画面看起来更生动、真实，更能活灵活现地展示它拍摄的意义，给人更好的视觉效果，唯一的方法就是为其上色。自从有了电脑，就拥有了各种神奇的图像处理软件（最常用的就是Photoshop图像处理软件）。但这些图像处理软件的着色步骤较为麻烦，需要深入学习该软件的操作方法，使用起来会占用用户过多时间。

在计算机图形学中，存在两种广泛的图像着色方法：用户引导的编辑传播和数据驱动的自动着色。第一种方法由Levin等人[1]开创性作品普及，用户在图像上绘制彩色笔画，然后优化过程产生与用户的涂鸦相匹配的彩色图像。这样可以获得较好的结果，但通常需要繁琐的操作，因为每个不同颜色的图像区域必须由用户明确指出，选择精确的所需自然色度也是非常困难的。第二种是数据驱动着色方法。它是通过以下两种方式之一来对灰度照片进行着色：（1）通过将其与数据库中的示例性彩色人物图像进行匹配，并从该照片中非参数地“窃取”颜色，这一想法类似Hertzmann等人[2]的图像类比，（2）Aditya和Jason等人[3]通过从大规模人物图像数据中学习从灰度到颜色的参数映射。但着色结果包含不正确的颜色。

为了可以自动提取编辑传播的有效特征而无需手动选择图像特征，本文提出了一种卷积神经网络技术，训练Imagenet数据集中人物以及少量场景，自动从低级特征中提取用于人物图像的有效高级特征。系统首先从输入图像和用户笔画中学习CNN模型。接下来，使用CNN模型估计所有像素上的笔画概率，并且获得概率图。最后，概率图通过后处理来完善。每次用户更新笔划时，系统都会使用先前学习的参数有效更新CNN模型。采用大规模数据传播稀疏用户点，通过训练深层网络直接预测从灰度图像到全色图像的映射，实现人物图像快速简单的着色。

1 学习人物图像着色算法

本文提出了一种CNN体系结构，该体系结构使用卷积和完全连接的网络结构来提取人物图像中适合笔畫调整的视觉特征和空间特征。所提取的两个特征的重要性也是使用特征组合器层自动确定的，并且使用soft￣max层从组合特征计算出人物图像中所含笔画概率向量。

3 实验环境以及结果

3.1 实验环境

本文用到的深度学习框架是caffe深度学习框架，主要依赖软件有OpenCV、scikit￣learn、scikit-image、Python 2.7、Qt4以及重要的caffe文件。环境配置的系统使用Ubutun 16.04。为了实现卷积神经网络学习着色，该系统在显卡为1.NVIDIA GeForce GTX 670MX （99）和2. Intel（R） HD Gr（49），处理器为 Intel（R） Core（TM） i5-3210M CPU @ 2.50GHz 双核以及内存为8 G的PC上运行。

3.2 实验结果

通过利用卷积神经网络为黑白人物图像着色实现这些结果。用户从输入到输出仅使用不到一分钟的时间就可以大大提高图片质量。实现系统的实时着色，产生了很好的彩色图像输出。无论是家里的古老照片还是珍贵的黑白照片，都可以实现几秒钟的实时着色结果。

4 总结

为了达到较好的色彩效果和更真实的人物图片颜色还原，本文使用了卷积神经网络对灰度人物图像实时着色。通过对数据集人物照片的训练，提取特征，采用估计概率图对图片实现较为准确的着色效果。通过CNN的整体前馈网络完成识别到自动着色过程。本文实现了较为真实的色彩效果图。但对于每个图片实现颜色的更改，人工选择多种适合的颜色会在今后的研究中进一步探讨，从而实现对人物黑白图像着色的多样性。

参考文献：

[1]Levin A， Lischinski D， Weiss Y. Colorization using optimization[C]// ACM SIGGRAPH. New York， USA： ACM， 2004：689-694.

[2]Hertzmann A， Jacobs C E， Oliver N， et al. Image analogies[C]// Conference on Computer Graphics and Interactive Techniques. New York， USA： ACM， 2001：327-340.

[3]Deshpande A， Rock J， Forsyth D. Learning Large-Scale Automatic Image Colorization[C]// IEEE International Conference on Computer Vision. Santiago， Chile： IEEE， 2015：567-575.

[4]张国云，向灿群，罗百通，等. 一种改进的人脸识别CNN结构研究[J]. 计算机工程与应用， 2017， 53（17）：180-185.

[5]Wu Z， Jiang Y G， Wang J， et al. Exploring Inter-feature and Inter-class Relationships with Deep Neural Networks for Video Classification[C]// Proceedings of the ACM International Conference on Multimedia. New York， USA： ACM， 2014：167-176.

[6]Ngiam J， Khosla A， Kim M， et al. Multimodal Deep Learning[C]// International Conference on Machine Learning， ICML 2011， Bellevue， Washington， USA， June 28-July. Washington， USA： ICML DBLP， 2011：689-696.

[7]Glorot X， Bordes A， Bengio Y. Deep Sparse Rectifier Neural Networks[C]// International Conference on Artificial Intelligence and Statistics. Canary Islands， Spain：AISTATS， 2012：315-323.

[8]蔣帅. 基于卷积神经网络的图像识别[D]. 长春：吉林大学， 2017.

[9]Achanta R， Shaji A， Smith K， et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence， 2012， 34（11）：2274-2282.

[10]Chen X， Zou D， Zhao Q， et al. Manifold preserving edit propagation[J]. Acm Transactions on Graphics， 2012， 31（6）：132.

[11]Xu L， Yan Q， Jia J. A sparse control model for image and video editing[M]. New York， USA： ACM， 2013.

（责任编辑：曾晶）