利用大数据与人工智能技术进行老片修复

2020-10-21王美洁

科学与财富 2020年8期

王美洁

摘要：<正>随着时代的发展，用户对视频画质的要求不断提高，但很多经典影视作品往往由于拍摄时间早、技术水平有限、后期保管不当等原因导致画面质量较低，不免让观众心生遗憾。因此，对低质量老片进行画质提升有着重要意义，而且经典老剧具有普及度广、重播率高、口碑良好以及成本低等优势，进行老剧翻新可以用低廉的成本带来巨大的流量。而利用大数据AI技术，可以代替传统人工进行老旧视频与老片的修复工作，不仅释放了人工成本，更加提升了效率，造福观众。

一、修复老片的背景与意义

随着时代的发展，人们对视频画质的要求不断提高，4K、HDR等词汇逐渐走入我们的生活中。硬件（电视盒子、智能电视、AR设备等）价格逐年下降，新出的电影电视剧也都采用这些先进的技术，大大提高了人们的娱乐生活质量。但是由于历史原因，以前的拍摄设备不支持超高清，以及大量用户上传视频（UGC）随意性较强，市面上存在着大量的低质量视频。因此，对低质量视频进行画质提升有着重要意义，特别是一些经典老剧具有普及度广、重播率高、口碑良好以及成本低等优势，进行老剧翻新可以用低廉的成本带来巨大的流量。

众所周知，以前的老电视剧和老电影大多为胶片拍摄，胶片只要一遇上高温、高湿的环境，就会变质、褪色、发粘、颜色泛黄，不管是什么胶片只要放得久了，往往存在着灰尘、污垢、霉斑、掉色、图像抖动、划痕、闪烁、噪声、变色、模糊等种种问题，十分影响观看体验，而且由于当时技术限制，老片往往存在分辨率较低的问题，对于当前蓝光或4k的屏幕播放会造成严重的模糊现象。因此对老片进行重制变得十分重要。

目前市场上常见的老剧翻新方案分为：传统人工翻新和AI机器翻新两种方法。早期由于技术条件所限采用的人工翻新拥有很多的弊端，主要包括：人力成本高、耗时长、耗资巨大等。据统计，一个经验丰富的电影修复人员一天只能修复200-300帧，而一部电影通常包含几万到几十万帧画面，通常人工翻新一部电影大约需要耗时数月耗资数百万。而利用大数据AI技术进行翻新只需要几十个小时成本仅为服务器使用成本。因此，相比之下使用大数据AI机器翻新在人力资源和耗时方面都拥有巨大的优势。

现利用大数据AI技术，针对老剧的噪声大、模糊、颜色泛黄和分辨率低等特点分别建立视频去噪、去模糊、智能调色和超分辨率四大模块，证明能够实现老剧的画质增强。并将深度学习技术与视频转码技术相结合，利用ffmpeg视频转码工具搭建了一套全自动的老剧翻新转码系统。

二、大数据人工智能修复老片的主要模块

现有低质量视频大致存在分辨率低、画面模糊、噪声大、色彩暗淡等问题，针对这些问题，设计出了以下模块：

（一）超分辨率

超分辨率是计算机视觉领域常见的low-level问题，随着AI人工智能深度学习的兴起，超分辨率效果也取得了很大的提升，在一些公开数据集上不斷刷新PSNR指标。现有的两个问题，一是训练数据不够贴近实际，例如公共数据集大多是把高清图像经过降低分辨率生成低清图像，然后使用高清-低清图像对来训练模型，这样就会造成模型不能较好的用于实际应用当中，因为实际生活中的低清图像包罗万象，是不能够经过简单的降低分辨率得到的。二是模型的评价指标不够有效，经常会有PSNR值比较高的图像实际视觉效果比较差的情况发生。

数据方面，我们依托大数据云片库，一方面使用真实的低质量视频，一方面使用数据扩充规则来建立最接近实用场景的训练数据库。算法方面有两大类方法：单帧超分和多帧超分。

（1）单帧超分

顾名思义，单帧超分就是输入一张低清图片，输出一张高清图片，期间不借助任何别的信息作为额外输入。SRCNN是这类方法的开山之作，网络结构如下图左，先对低清图像做插值放大，然后通过三层卷积网络拟合非线性映射，最后输出高分辨率图像结果，这是最最传统的做法。由于先对图像做放大导致网络的输入数据维度大大增加，从而导致网络运行速度变慢。为了解决这个问题，espcn首次提出亚像素卷基层的概念，网络结构如下图右，图像尺寸放大过程的插值函数被隐含地包含在前面的卷积层中，在输出层将像素进行重新排列得到高分辨率图。由于卷积运算都是在低分辨率图像尺寸大小上进行，因此效率会较高。

（2）多帧超分

多帧超分是指将多个低清连续帧作为网络输入，输出一帧高清图片作为当前帧。其优势主要是利用了更多的信息，包括前后帧的时间和空间关系信息，难点在于前后帧融合设计。vespcn采用espcn为基础网络，融合策略包括早融合、慢融合和3D卷积融合。

在早融合中，网络输入滤波器的时间深度与第一层中折叠所有时间信息的输入帧数相匹配。在慢融合中，第一层合并的帧数小于输入帧数。3D卷积融合是慢融合的权重共享形式，即慢融合中如果每个层的权重被强制共享它们的值，那么虚线之上的特性所需的操作可以被每个新帧重用。

EDVR 是CVPR 2019 Workshop NTIRE 2019 视频恢复比赛中四个赛道的冠军算法，其核心在于图像对齐（PCD）模块和时空信息融合（TSA）模块，先对存在一定的抖动的相邻帧进行对齐，后面做信息融合时引入注意力模型。

多帧超分确实在一些指标上的值会比单帧超分高一些，但是视觉效果并未带来明显改进，综合考虑实际使用中对速度、稳定性以及泛化能力的要求，决定采用单帧超分。在兼顾超分效果的同时我们也关注模型的复杂程度和运行时间。对于网络深度，虽然上述方法有些网络设计很简单，层数很低，但是在数据量级很大的情况下，很难使模型的输出达到接近训练集LR到HR的映射关系。为了使网络结构深一些，我们采用resnet做为基本模块，为了减少总体参数量，在各resnet模块间加入级联机制，借用espcn思想，使用亚像素卷积层作为输出层。

Loss设计采用特征金字塔思想，使用一些中间层和最终输出层的多项式和作为loss函数表达式。我们都知道，网络的浅层包含较多的基本信息，包括纹理、线条等，网络的高层包含较多的语义信息，采用特征金字塔的思想设计loss函数的优点就是能够在实现图像超分的同时对一些细节部分进行精细刻画，充分学到LR图像到HR图像的整体和细节映射关系。超级分辨率效果图如下：

（二）智能调色

为了解决老剧颜色泛黄问题，我们设计了视频智能调色模块。智能调色我们主要采用双路GAN网络，充分利用GAN在图像生成方面的优势，依托搜狐视频的片库资源，进行端到端的非监督训练。与超分问题不同的是，智能调色很难找到训练数据对，因此采用非监督训练是一种比较有效的方式，而GAN网络在非监督学习以及图像生成方面都有着巨大的优势。

首先我们把调色问题理解为图像翻译问题，即把一种风格的图像翻译成另一种风格的图像。Cycle-GAN在风格迁移上已经做得很成功，我们充分借鉴其网络设计（如下图），大量采用循环一致性模块，为每个环节设计循环模块，大大降低GAN网络训练过程中不稳定情况的发生。某视频修复后效果图如下：

对于调色问题，还有一类方法就是所谓的“白盒模式”，即通过传统方法或者深度学习的方法得到视频应做的色彩参数变化，例如曝光度、亮度、对比度等，但是这种调整比较接近人工操作，无法发挥出数据内部信息的作用，所以我们未采用。

（三）去模糊

视频的模糊种类多种多样，此处要去除的主要是运动模糊。由于摄像机的抖动，或者画面内物体的快速运动都会导致视频的模糊，低清视频多多少少都会存在一定的运动模糊。去模糊网络结构参照GAN网络来设计，生成器用于生成清晰图像，鉴别器区分真实且清晰图像与造假或模糊图像。生成器结构仍然采用resnet作为基本模块，鉴别器和loss函数未做过多改动，主要采用原始GAN网络的鉴别器结构。效果图如下：

（四）去噪

视频噪声来源主要是由两方面引起，一是光照不均导致的背景噪声，二是图像在摄像机内数字化过程中产生的压缩噪声。

去噪网络与超分网络结构十分接近，去除了亚像素卷基层，保证网络为单倍输出。对于老剧去噪有两个难点需要解决：（1）对不同类型的噪声进行去噪;（2）对不同大小程度的噪声进行去噪;针对这两个难点，我们参考CBDnet设计了一个噪声估计子网络，视频在进去噪网络前先进噪声估计网络，将视频和噪声估计网络的输出同时输入去噪网络，从而得到鲁棒的输出。训练数据我们一方面采用公共的真实噪声数据集，一方面设计符合真实噪声分布的数据扩充规则。效果图如下：

从后两幅对比图可以看出，我们的算法可以实现盲去噪，即对于不同噪声大小的图都能很好的去除噪声。

三、AI转码系统应用场景

用以上模块模型与ffmpeg转码工具做结合，将每个基于深度学习的视频画面增强模块编写为ffmpeg转码滤镜，根据实际需要采用不同的模块组合，达到特定的效果。目前我们的视频增强模块主要用于以下两个方面的应用场景：

（一）进行老剧翻新

一些经典老剧具有普及度广、重播率高、口碑良好以及成本低等优势。即使是在当今新剧泛滥的年代，一些如天龙八部、封神榜等经典老剧依然处于热播榜的top10中，由此可见老剧翻新项目拥有着的巨大商业价值和潜力，用一句话来概括就是老剧翻新可以用低廉的成本带来巨大的流量。

相对于传统人工翻新方法，大数据AI翻新技术无论是在人力、物力、耗时、耗资等各个方面都拥有巨大的优势。根据不同老剧的实际情况，可以采用上述模块的不同组合达到最佳翻新效果。目前利用大數据AI老剧翻新技术已修复完成了《黑洞》、《风云》等600多部电影电视剧。

（二）提升至4K超高清

视频硬件设备不断升级，网络宽带降费提速，越来越多的用户对低清视频的容忍度也越来越低，为了不让用户因低清晰度而弃剧，对现存大量视频提升至4K分辨率的需求也越来越大。采用我们的视频超分辨率模块可以实现将现有的视频资源升级为4k分辨率，从而极大地扩充了4k视频的资源。

目前4K超分技术已经修复提升了几百部电影电视剧，修复后的4K超清视频带给用户更极致的观看体验。

参考文献：

[1]李国良，周煊赫.XuanYuan：AI原生数据库系统[J/OL].软件学报：1-15

[2]孙冰.从三毛、白娘子到小燕子、许三多：AI修复老片背后的新生意[J].中国经济周刊，2019（14）：74-76.