基于姿态引导的场景保留人物视频生成

2020-09-01李桂，李腾

图学学报 2020年4期

李桂，李腾

基于姿态引导的场景保留人物视频生成

李桂，李腾

(安徽大学电气工程与自动化学院，安徽合肥 230601)

人物视频生成技术是通过学习人体结构与运动的特征表示，实现从特征表示到人物视频帧的空间生成映射。针对现有的人物视频生成算法未考虑背景环境转换及人体姿态估计精度较低等问题，提出一种基于姿态引导的场景保留人物视频生成算法(PSPVG)。首先，取合适的源视频和目标视频，利用分割人物外观的视频帧代替源视频帧作为网络的输入；然后，基于GAN的运动转换模型将源视频中的人物替换成目标人物，并保持动作一致性；最后，引用泊松图像编辑将人物外观与源背景融合，去除边界异常像素，实现将人物自然地融入源场景且避免改变画面背景环境和整体风格。该算法使用分割出的前景人物图代替源视频帧中的人物，减少背景干扰，提高姿态估计精度，自然地实现运动转移过程中源场景的保留，生成艺术性与真实性和谐并存的人物视频。

人物视频生成；姿态估计；运动转换；生成对抗网络；图像处理

一直以来，人物视频生成技术作为计算机视觉和多媒体领域的重点研究内容之一，已有了各种生成策略和特征表示方法。基于位姿检测算法的人物视频生成技术是利用骨架图的变换进行运动的转换，生成各类有趣的视频，用于广告、电影或特效合成以及人物外观造型的切换等。由于广泛的应用场景，其受到了研究人员的高度重视，不断涌现出丰富的视频生成算法。

近年来，图像生成技术的迅速发展为人物视频生成技术的研究奠定了坚实的基础，提供了许多有效的途径和研究思路。现有的生成算法可分为2大类：①基于生成方向的分段式图像生成[1]，该方法在生成粗略图之后，再根据生成对抗网络[2]框架获得精确图像。②直接学习从骨架图到真实视频帧的映射关系，即通过姿态检测器检测出视频帧中人物对应的骨架图，生成器根据训练数据集学习人物的外观特征。根据求解的途径，特征表示的方法主要分为：骨架纹理的特征分离，其依赖于传统算法的估计[3]；使用骨架图或人体mask，该方法依靠生成网络来填充纹理特征，更依赖于数据集[4-5]；使用其他混合功能，例如人体表面模型[6]。

不同于基于人体图像的生成方法，本文将研究延伸至视频生成领域，直接学习从骨架图到真实视频帧的映射，从训练数据集中自动学习生成的人物外观特征，无需人工干预。基于生成对抗网络结构的人物视频生成算法，在学习不同视频间的映射时，仅针对外观模型变换与运动转移过程中的精度，未考虑源视频和目标视频中背景环境对人体姿态估计精度的影响，以及背景在运动转移研究范畴中的结合。

通过解决图像生成网络和判别网络之间的博弈游戏来学习图像生成以生成对抗网络(generative adversarial networks，GAN)[2]。其中，VAE[7]和PixelCNNs[8]等在视频合成方面均取得了非凡突破。此外，为了学习同视频之间的映射，RecycleGAN[9]，DiscoGAN[10]和MocoGAN[11]先后被提出。大量的研究结果表明，GAN逐渐成为图像或视频生成的最佳选择。

在保证人体姿态估计精度不降低的基础上，是否有一种算法能实现目标人物在源视频环境中学习到源人物的动作？例如，替身演员代替影视演员做高难度动作，通过算法转换后影视演员将在源场景下合成替身的动作，完成表演。本文通过去除背景的人物前景图像代替源视频帧进行姿态估计，提高位姿检测的效率和精度，以及结合图像分割和图像融合操作，实现源场景保留的人物视频生成技术。

与传统方法相比，本文方法使用去背景人物前景图作为网络的输入，并将运动转换后的视频帧与源视频帧的背景融合以实现背景切换。在经过大量训练后，可以实现良好的转换效果，具有很大的应用价值。本文的创新点如下：

(1) 姿态引导的场景保留人物视频生成算法(pose-guided scene-preserving person video generation，PSPVG)，是首个在不同视频人物对象之间实现目标姿势迁移和背景切换的方法。

(2) 相比于其他融合方法，本文方法使目标人物与源背景环境完全融为一体且无明显的边界像素差。

(3) 将分割后的源人物前景图代替源视频帧放入运动转换网络中训练，提高姿态估计的准确性，减少背景环境干扰以及肢体缺少等产生的影响。

1 基于姿态引导的场景保留人物视频生成算法

PSPVG主要分为3个阶段。首先，利用源视频帧中的人物前景图代替源人物图像进行位姿估计；其次，在基于GAN的运动转换模型上，将输入的目标人物外观视频帧与源人物姿态图像合成高分辨率的人物运动视频帧；最后，将与源姿势相同的目标对象与源背景进行融合。图1为PSPVG网络模型的总体结构框图，主要包括：①基于空间金字塔模型和编码-解码结构的语义分割算法；②基于GAN的运动转换模型结构；③基于泊松方程的无缝融合算法。

图1 PSPVG网络生成模型结构

1.1 基于空间金字塔模型和编码-解码结构的语义分割算法

随着深度学习的不断发展，图像分割技术涌现出许多优秀的网络。基于全卷积网络(fully convolutional networks，FCNs)[12]的方法已经证明了几个分割基准的显著改进[13-14]，其中变体包括：SPP模型，PSPNet[15]或DeepLab[16]算法。模型利用分割基准的多尺度信息获得结果，编码器-解码器模型[17-18]中编码器模块用于捕获更高语义信息，解码器模块用于逐渐恢复空间信息。本文采用“DeepLabv3+[19]”模型编码丰富上下文信息和通过一个简单有效的解码器模块去恢复对象边界，应用Atrous卷积来提取任意分辨率的编码器特征。

针对源场景保留模型中，人物肢体区域源背景的精度分割效果不佳的问题，需要选择适用于本模型且效果相对较好的分割方法。在图像视频生成领域，生成的图片存在精度低、质量差的问题，为了改进这些问题，本文使用分割后的人物前景图代替源视频帧作为网络的输入。经对比实验证明，利用基于空间金字塔模型和编码-解码结构的语义分割算法分割精度更高、视觉效果更佳。

在物体边界分割中，本文使用新颖的DeepLabv3+[19]网络模型架构进行分割，将其作为编码模块，并添加了一个简单有效的解码模块构成编码-解码结构(encode-decoder)以提升分割效果。特征提取部分通过空洞卷积调整卷积filter的接受野来捕捉多尺度的上下文内容信息，直接控制提取encoder特征的分辨率，以平衡精度和耗时。

二维信号使用空洞卷积，对于位置的，在输入特征图上应用滤波器，若输出特征图为，则扩张卷积为

1.2 基于生成对抗网络的运动转换模型结构

GAN的运动转换模型结构是指不同人物外观之间进行动作迁移。其中采用GAN和运动迁移算法构建的EDN (everybody dance now)[4]模型在图像视频生成领域表现良好[20-21]。本文在原有基础上结合背景切换将源人物和背景进行分离，并完成目标人物和源背景的融合，减小边界像素差，不仅实现了源场景保留的目的，还能达到良好的运动转换效果。

GAN的主要思想是训练2个网络：生成网络试图生成视频；鉴别器网络试图区分“真实”视频和“虚假”视频。过程中，生成器试图最大限度地欺骗鉴别器，同时鉴别器检测哪些样例为假

其中，为潜在的“代码”，通常从一个简单的抽样分布和来自数据分布的~p()样本中采样。实验过程中数据的真实分布未知，从数据集中抽取数据估计期望值。使用基于梯度的方法(stochastic gradient descent，SGD)优化方程2，2个网络和可以采用适合于任务的任何形式，且相对于参数w和w可微分。

姿态迁移部分分为：①姿态检测：使用去背景的人物外观图预训练位姿检测器，从源视频中描绘出给定帧的骨架图形。②全局姿态标准化：计算给定视频帧中，源人物和目标人物身体形状与位置间的差异，将源姿态图转换为符合目标人物身体形状和位置的姿态图。③从标准化后的姿态图形推断目标人物的图像：使用一个生成式对抗模型，训练模型学习从标准化后的姿态图形推断到目标人物图像。

为了创建编码身体位置的图像，用预训练姿势检测器P精确地估计关节坐标(,)。通过绘制关键点，并在连接的关节之间画线，训练时利用分割出的前景人物图取代源视频帧并作为生成器的输入，从而得到并绘制出最终的位姿简图，如图2所示。

创建视频序列时，必须修改单个图像的生成设置以提高相邻帧之间的时间相干性，而不是生成单独的帧。基于pix2pixHD框架加入时间平滑设置，预测2个连续帧的第一个输出(x–1)是基于其对应的姿势骨架图x–1和零图像。第二个输出(x)基于其对应的姿势骨架图x和第一个输出(x–1)，则鉴别器区分出“真实”序列(x–1,x,y–1,y)和“假”序列(x–1,x,(x–1),(x))的差异，即

图2 视频目标帧与对应骨架图

其中，x为合成当前帧的对应姿势图；x–1为前一帧对应姿势图；(*)为经过生成器的输出帧；为目标视频帧。

在运动转换模型中(图3)，通过加入分割算法替换源视频帧，以人物的外观图进行姿态估计，生成器以更加精确的生成图片进行网络模型训练。对比EDN模型，本文模型不仅能够实现运动转换算法，还能够提高生成图片与视频的精度，实现目标人物在源场景中执行准确的源人物动作。

图3 运动转换模型的训练部分

1.3 基于MVC的泊松融合加速算法

图像融合技术普遍应用于航天、医疗和工业制造等诸多领域。传统的图像融合算法中，有基于小波框架变换法、主要分析PCA法以及HIS融合法等。近年来，出现了许多基于深度学习的图像融合算法，其中包括基于深度卷积神经网络的多聚焦图像融合法[22-23]以及多尺度图像融合法[24]等，然而这些算法实现过程复杂、工作量繁重且效果较差。为确保目标人物外观更加自然地融入到风格多样的背景图像中，本文使用基于MVC的泊松融合加速算法进行无缝融合，以匹配选取内部像素而减小像素差，通过调整局部亮度与颜色的变化，使其更加贴近背景环境的颜色与风格。

泊松图像融合是将2张图像“无缝融合”的技术，在边界条件下进行梯度匹配，引入各种新颖的工具用于图像区域的无缝编辑。基于MVC的泊松融合方法将原有的泊松方程替换为拉普拉斯方程，然后使用Mean-Value Coordinates近似求解，使之变成插值问题，问题复杂度降低，算法更加简单，可实时进行交互运行。此融合方法能够使前景平滑地融入背景中，保持画面不突兀，平滑且不起伏，边界色差不明显。

相比其他融合方法，基于MVC的泊松图像融合技术在操纵颜色方面功能更加强大，使2种不同颜色的版本无缝混合，在保留人物完整“细节”的前提下，调整肖像颜色得到新融合的图像，其中细节包括：边缘、角点等。经实验证明，基于MVC的泊松融合加速方法非常适用于人物视频生成技术中的融合操作，拥有突出的画面效果。

本文在EDN[4]运动转换算法的基础上改进，加入语义分割算法与泊松图像融合加速算法，以实现视频帧背景的切换，减小边界像素差。通过改进运动转换算法，使用分割后的人物前景图代替源图像放入运动转换网络中进行训练，提高姿态估计准确性，减少背景环境干扰以及肢体缺少等因素的影响。文中的实验结果证明，该算法能够生成设计感十足、自然且真实的转换效果，具有巨大的应用价值。

2 PSPVG方法实验分析及讨论

为保证评估的客观性及公平性，本文使用文献[4]的评估方法，在多组数据集中对所提出的模型进行验证。首先，介绍多组自采集数据集及数据预处理操作；其次，详细介绍实现细节，并利用该数据集对所提出的PSPVG算法进行对比实验与评估。

在基于姿态引导的人物视频生成领域，由于外观和背景转换的效果感受具有一定主观性，为了衡量本文方法的有效性，检验融合区域的边缘是否自然平滑地嵌入，采用泊松图像编辑算法将得到的融合结果与未进行背景融合的EDN方法进行融合效果对比。

2.1 实验环境及数据集

(1) 实验软硬件环境。Pytorch框架；CPU：E5-2620 V3；内存64 G；GPU：GTX TITAN X (12 G)。

(2) 数据集。①源数据集：从网络上选取一段画质清晰、无明显遮挡的单人舞蹈视频，将视频截取至十分钟左右，进行视频转换得到帧图像。②目标数据集：为一段任意动作的10 min录制视频，可展现目标对象的完整外观与足够的运动范围来保证目标视频的学习质量。

为了保证画面的质量，均采用100~120帧率的多组视频作为训练数据集。将选取的源、目标视频分别进行预处理操作，转换成对应视频帧(源视频：12 930帧，目标视频：24 500帧)，预处理为512×512大小的图像。再分别用DeepLabv3+算法分割出人物前景图和背景，人物前景图作为训练数据，源背景图作为融合操作中的背景数据。

2.2 实施细节

DeepLabv3+[19]算法用于精确分割前景图与背景图，姿态转换算法用于高精度的姿态估计与高质量的运动转换，泊松融合算法用于实现自然的无缝拼接效果。采用分割的前景人物数据集来实现姿态检测(选择最先进的姿势检测器openpose[25-26]提供的架构)，可以降低画面遮挡与背景环境的干扰。

将得到的源人物和目标人物视频帧作为PSPVG网络的输入，使用位姿检测器进行位姿估计，及用一个预先训练的位姿检测器，绘制出位姿简图。利用基于GAN的运动转换网络合成高分辨率的人物运动视频，将骨架图、目标人物视频帧数据、源人物的前景图分别输入到基于GAN的运动转换网络中进行训练，将结果执行归一化操作，完成从归一化的姿态简图到目标对象的映射，将图片分割出前景，与源背景进行泊松图像编辑融合，得到的融合结果进行图像转视频操作，将结果利用泊松图像编辑进行融合操作，得到目标效果的视频。

如图4所示，在每个部分显示连续5个帧，第1列显示源人物序列；第2列显示标准化的姿势骨架图；第3列为源视频帧进行训练下的EDN[4]运动转换模型生成结果；第4列为PSPVG模型，使用泊松融合算法输出具有源背景的目标人物；第5列为使用拉普拉斯金字塔融合算法的输出结果。为了实现与源对象背景风格的融合，在昏暗的舞台氛围下选择泊松图像编辑算法融合前景图像和源背景图像。将得到的融合结果进行图像转视频操作，最终得到视觉效果大幅提升的视频结果。

图4 PSPVG与EDN算法的生成结果

2.3 实验结果及分析

在之前视频生成的工作中，并未结合背景切换进行运动转换。本文加入简单的mask转移方案和泊松图像编辑的混合结果，探讨基于EDN[4]运动转换网络实现外观与运动的转移，并展示其实验结果，以评估提出的框架。

为了评估生成各个帧的模型质量，本文以结构相似性(structural similarity index，SSIM)[27]与学习感知图像块相似性(learned perceptual image patch similarity，LPIPS)[28]作为精度指标。SSIM的范围是[0,1]，其值越高表示结构相似性越高，结果见表1。从利用图5的数据集训练多次得出的平均结果可知：①人物外观体型对比度越小，生成人物图像的相似度越高；②视频背景复杂程度和色差大小是人物与背景之间融合效果的直接体现；③使用分割出前景人物的数据集代替源视频帧作为训练数据，分割效果更加精确，学习感知图像块相似性更高。因此选择前景人物视频帧作为训练数据。

本文依靠定性分析来评估输出视频的时间一致性(图4)，通过源视频序列相应的姿态骨架图，先将动作从源人物迁移至另一个目标人物上，再将转换后的结果与源视频背景融合。经过泊松图像融合后，前景人物与背景的融合区域视觉效果自然、边界平滑；观察融合边界处的图像细节可以发现，融合区域与源背景以互相嵌入的方式融合，无明显分割痕迹。对比未增加背景的EDN运动转换算法，融合源视频背景之后的图像画面感更强，与源视频更接近，可实现目标人物的外观更换并平移至源舞台中，让不会表演的目标人物像源人物一样站在舞台上表演，实现很好的娱乐性和真实感。

表1 不同数据集上训练模型的相似性值

PSPVG模型在大部分指标上均优于pix2pixHD[29]与EDN[4]方法。表2展示了模型中身体周围区域的平均图像相似度值，PSPVG模型的SSIM平均值可达0.897 92，LPIPS平均值为0.031 22。从表3可以看出，人体各个区域的平均漏检次数为2.321 132，均优于其他方法，经验证本文方法具有一定的有效性。

图6为8组由不同数据集训练的生成结果，包括正面、侧面、背面以及镜像等情况。在每组中，可随机选择5个视频帧，第1排为源人物，中间显示对应骨架姿势图，第3排为目标人物的模型输出。

图5 在不同数据集上的人物外观对比图

表2 输出图像的SSIM与LPIPS值

表3 每一视频帧的平均漏检次数

图6 不同情景下PSPVG模型的生成结果

3 结束语

本文针对现有的人物视频生成方法，难以提高姿态估计精度以及未考虑场景转换等问题进行了研究，提出了基于姿态引导的场景保留人物视频生成模型。PSPVG模型在基于GAN的人物视频生成基础上利用姿态引导的运动转换算法，通过替换源视频帧训练网络，使用分割后的人物前景视频帧训练，提高人体姿态估计精度。同时进行视频中人物间的运动转移和背景切换，将语义分割和图像融合加入到运动转移中去，实验证明了传统的泊松图像编辑边界环境对比度存在差异时具有融合人物平滑自然等优点。本文充分验证了该模型方法能够准确提取到有效的特征且具有较好的泛化能力，发展成熟后将在游戏或视频动画中进行人物动作迁移，并设置AR特效、3D场景切换功能，研发出更多有趣的平台应用程序等。如何更好地完善基于姿态引导的3D模型动作迁移以及背景自由切换将是未来的研究重点。

[1] YANG C, WANG Z, ZHU X, et al. Pose guided human video generation[C]//Proceedings of the European Conference on Computer Vision. New York: IEEE Press, 2018: 201-216.

[2] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems. Quebec: Curran Associate Inc, 2014: 2672-2680.

[3] SIAROHIN A, SANGINETO E, LATHUILIERE S, et al. Deformable GANs for pose-based human image generation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 3408-3416.

[4] CHAN C, GINOSAR S, ZHOU T, et al. Everybody dance now[EB/OL]. [2019-10-13]. https://arxiv.org/abs/ 1808.07371.

[5] WANG T C, LIU M Y, ZHU J Y, et al. Video-to-video synthesis[J]. Neural Information Processing Systems, 2018, 3(4): 1144-1156.

[6] NEVEROVA N, ALP GULER R, KOKKINOS I. Dense pose transfer[C]//Proceedings of the European Conference on Computer Vision (ECCV). New York: IEEE Press, 2018: 123-138.

[7] KINGMA D P, WELLING M. Auto-encoding variational bayes[EB/OL]. [2019-10-07]. https://arxiv.org/abs/1312. 6114.

[8] OORD A V D, KALCHBRENNER N, VINYALS O, et al. Conditional image generation with PixelCNN decoders[C]//2016 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 318-328.

[9] BANSAL A, MA S G, RAMANAN D, et al. Recycle-GAN: unsupervised video retargeting[C]// Proceedings of the European Conference on Computer Vision. New York: IEEE Press, 2018: 122-138.

[10] KIM T, CHA M, KIM H, et al. Learning to discover cross-domain relations with generative adversarial networks[EB/OL]. [2019-09-29]. https://arxiv.org/abs/ 1703.05192 .

[11] TULYAKOV S, LIU M Y, YANG X D, et al. MoCoGAN: decomposing motion and content for video generation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 1526-1535.

[12] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 3431-3440.

[13] ZHOU B L, ZHAO H, PUIG X, et al. Scene parsing through ADE20K dataset[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 633-641.

[14] CAESAR H, UIJLINGS J, FERRARI V. COCO-stuff: thing and stuff classes in context[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 1209-1218.

[15] ZHAO H S, SHI J P, QI X J, et al. Pyramid scene parsing network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 2881-2890.

[16] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 834-848.

[17] LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 2117-2125.

[18] LIN G S, MILAN A, SHEN C H, et al. RefineNet: multi-path refinement networks for high-resolution semantic segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 1925-1934.

[19] CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[M]//Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 833-851.

[20] RADFORD A, METZ L K, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL].[2019-10-05]. https://link.springer.com/chapter/10.1007/ 978-3-319-71589-6_9.

[21] 蔡青宏. 基于单张深度图的三维人体重建技术研究[D].长沙: 湖南大学, 2018. CAI Q H. Research on 3D human reconstruction technology based on single depth map[D]. Changsha: Hunan Universty, 2018 (in Chinese).

[22] ZHONG J Y, YANG B, LI Y H, et al. Image fusion and super-resolution with convolutional neural network[C]//Chinese Conference on Pattern Recognition. New York: IEEE Press, 2017: 78-88.

[23] DU C B, GAO S S. Image segmentation-based multi-focus image fusion through multi-scale convolutional neural network[J]. IEEE Access, 2017, 5: 15750-15761.

[24] LIU Y, LIU S P, WANG Z F. A general framework for image fusion based on multi-scale transform and sparse representation[J]. Information Fusion, 2015, 24: 147-164.

[25] CAO Z, SIMON T, WEI SHIH-EN, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 7291-7299.

[26] WEI SHIH-EN, RAMAKRISHNA V, KANADE T, et al. Convolutional pose machines[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 4724-4732.

[27] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.

[28] ZHANG R, ISOLA P, EFROS A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 586-595.

[29] WANG T C, LIU M Y, ZHU J Y, et al. High-resolution image synthesis and semantic manipulation with conditional GANs[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8798-8807.

Pose-guided scene-preserving person video generation algorithm

LI Gui, LI Teng

(School of Electrical Engineering and Automation, Anhui University, Hefei Anhui 230601, China)

The person video generation technology learns the feature representation of human body structure and motion, so as to realize the spatial generation mapping from the feature representation to the character video frame. In view of the existing person video generation algorithm lacking in the transformation of background environment and the low accuracy of human pose estimation, a pose-guided scene-preserving person video generation algorithm was proposed. First, the appropriate source video and target video were selected, and the video frame with the appearance of the segmented character served as the network input instead of the source video frame. Then, based on GAN, a motion transformation model was employed to replace characters in source videos with target characters and maintain the consistency of motion. Finally, the Poisson image editing was used to fuse the character appearance with the source background, enabling the flowed advantages: (a) removing border anomaly pixels; (b) realizing character blending naturally into the source scene; and (c) avoiding changing the background environment and overall image style. The proposed algorithm used the segmented foreground person image instead of the source video frame to reduce background interference and improve the accuracy of pose estimation, thus naturally realizing scene-preserving during the motion transfer process and producing artistic and authentic person videos.

person video generation; pose estimation; motion transfer; generative adversarial networks; image processing

TP 183

10.11996/JG.j.2095-302X.2020040539

2095-302X(2020)04-0539-09

2019-12-24；

2020-02-17

17 February, 2020

24 December, 2019;

国家自然科学基金项目(61572029)；安徽省杰出青年基金项目(1908085J25)

National Natural Science Foundation of China (61572029); Anhui Outstanding Youth Fund (1908085J25)

李桂(1995–)，女，安徽合肥人，硕士研究生。主要研究方向为计算机视觉、图像处理等。E-mail：1250501205@qq.com

LI Gui (1995–), female, master student. Her main research interests cover computer vision, image processing, etc.E-mail: 1250501205@qq.com