深度伪造检测技术发展现状研究

2022-12-07曹秀莲汤益华

网络安全技术与应用 2022年5期

◆曹秀莲汤益华

深度伪造检测技术发展现状研究

◆曹秀莲1汤益华2通讯作者

（1.国家计算机网络与信息安全管理中心湖南分中心湖南 410029；2.中移电子商务有限公司湖南 410221）

深度伪造可生成人类肉眼无法识别的虚假图像和视频，对个人隐私、网络安全、社会稳定和国家安全等造成了现实威胁，针对深度伪造的检测和治理成为各国各界热点关注的问题。近几年，政府层面出台了一系列深度伪造治理相关政策，研究人员则对深度伪造检测技术进行了多维度深入研究。本文从基于神经网络架构、基于时序特征、基于对抗生成网络指纹特征、基于生物特征、基于区块链技术等五个方面对深度伪造检测技术的发展现状进行了研究分析，并提出了关于未来研究方向的建议。

深度伪造检测；神经网络；GAN；生物特征；区块链

1 引言

深度伪造（Deepfake）是一种使用生成对抗网络等深度学习算法生成人类肉眼无法识别的虚假图像、视频的技术[1]。这项技术最早因2017年一个名为Deepfakes的用户发布了一则以电影明星人脸替换色情视频中人脸的视频而引起关注。随着深度伪造技术的不断发展，其引发的网络信息安全风险也随之凸显。2019 年 3 月，《华尔街日报》报道，有犯罪分子使用深度伪造技术成功模仿了英国某能源公司在德国母公司 CEO 的声音，诈骗了22万欧元；2019年6月，一款“一键脱衣”应用DeepNude受到追捧，上线几个小时下载量便突破50万，该应用只需上传一张照片便可伪造出逼真的裸照；2021年10月，安徽警方查获一起非法使用深度伪造技术伪造人脸动态视频以破解身份核验，为虚拟手机卡注册等黑灰产业提供技术支撑的案件。2022年3月，一段乌克兰总统泽连斯基对俄罗斯投降、俄罗斯总统普京宣布已实现和平的深度伪造视频在Twitter等社交媒体上广为流传，误导国际形势。可见，深度伪造的虚假信息可能导致个人名誉损害、财产损失，更严重者，可能操作社会舆论、冲击社会信任体系、危害公共安全、影响国际关系，对网络安全、个人乃至国家安全都可能造成威胁。

2 深度伪造检测技术

面对深度伪造技术带来的挑战与威胁，各国各界高度重视。政府监管层面，各国纷纷出台相关法律法规。我国2020起施行的《网络音视频信息服务管理规定》规定不得利用深度学习、虚拟现实等新技术新应用制作、发布、传播虚假信息；《网络信息内容生态治理规定》规定不得利用深度学习、虚拟现实等新技术新应用从事法律、行政法规禁止的活动；2021年起施行的《民法典》明确规定禁止任何组织或个人利用信息技术手段伪造等方式侵害他人的肖像权、声音权。美国《2018年恶意伪造禁令法案》对制作深度伪造内容而引发犯罪和侵权的个人，以及明知为深度伪造内容仍继续传播的社交媒体平台，进行罚款和监禁，如果伪造内容涉及煽动暴力、扰乱政府等，并造成严重后果的，监禁将长达10年。欧盟2019年发布《人工智能道德准则》，将隐私和数据管理作为人工智能可信赖须满足的七要素之一。技术研究层面，研究人员积极推进深度伪造检测技术手段的研究与应用并取得进展。本文从基于神经网络架构、基于时序特征、基于对抗生成网络指纹特征、基于生物特征、基于区块链技术等五个方向对最新的深度伪造检测方法进行研究分析。

2.1 基于神经网络架构的检测方法

深度伪造检测可以认为是一个二分类问题，基于神经网络的检测方法是深度伪造检测技术研究的重要方向。

Ivanov等人[2]重点研究了伪造内容的分类，提出了一种基于深度学习和超分辨率算法的检测方法，通过人脸不同区域和头部位置之间的不兼容性来识别深度伪造内容。El Rai等人[3]提出了一种通过CNN和残余噪声进行深度伪造检测的方法，方法在应用小波变换作为去噪滤波器后，计算残余噪声并将其用作InceptionResNetV2 CNN模型的输入，从而检测视频是否伪造。Malolan等人[4]专注于构建可解释且易于解释的使用深度学习方法检测深度伪造视频的模型，模型在人脸数据库中训练CNN，并应用两种可解释的人工智能技术来可视化图像的突出区域，即分层相关传播（LRP）和局部可解释模型不可知解释（LIME），此外，作者还提供了一组关于热图、图像切片和输入扰动的模型预测的可解释结果，表明了模型的旋转不变性和对深度伪造图像检测任务的鲁棒性。Wang等人[5]研究了3D ResNet、3D ResNeXt、I3D等三种不同的视频CNN模型在伪造视频方面的检测能力，实验结果表明，这些方法在测试集和训练集采用相同的伪造方法时效果较好，而在未知伪造方法的数据集上效果大打折扣。Wodajo等人[6]将CNN模型与视觉转换器（ViT）架构相结合，利用VGG-16 CNN模型从视频帧中提取特征，并在深度伪造检测数据集DFDC上训练，达到了91.5%的准确率、0.91的AUC（曲线下面积）值和0.32的损失值。Maksutov等人[7]使用编码器计算人脸特征，并使用解码器和CNN对这些特征进行分类，获得令人满意的AUC（曲线下面积）值和准确度。

2.2 基于时序特征的检测方法

深度伪造视频通常是逐帧伪造再合成的，各帧之间存在时序不一致性，研究人员以此为切入点开展研究，事实证明基于时序特征的深度伪造检测算法可行，且对伪造算法和数据集具有较强的泛化能力。

Shahroz等人[8]开发了一个基于卷积LSTM的残差网络（CLRNet），从视频中获取一系列连续图像作为输入，以学习有助于检测深度伪造视频各帧之间伪影的时序信息。另外，作者还提出了一种基于迁移学习的方法来概括不同的伪造算法。使用FaceForensics++[9]数据集实验表明，与当前先进的检测算法相比，该方法在使用相同模型检测不同伪造算法所生成的深度伪造视频时表现更好。Davide等人[10]通过将度量学习与对抗性训练策略相结合来学习时序面部特征、特别说话时相应的动作，优点是不需要任何伪造训练数据，只需在真实视频上进行训练。Zheng等人[11]提出了一个由两阶段组成的端到端框架，第一阶段是全时序卷积网络（FTCN），FTCN将空间卷积核大小减小到 1，并保持时序卷积核大小不变，这种设计有助于提取时序特征并提高模型泛化能力。第二阶段是时序自注意力网络，旨在探索长期的时序一致性。该方法无需任何预训练模型或外部数据集，具有通用性和灵活性。实验表明，该方法在检测从未知深度伪造算法生成的视频时依然有效，且能很好的泛化到训练数据集之外的数据集上。Sun等人[12]提出了一个通过对精确几何特征进行时间建模来检测深度伪造视频的框架LRNet。LRNet通过跟踪方式对人脸关键点进行校准以提高几何特征的精确度，并且构建了一个双流循环神经网络（RNN）以充分利用时序特征。与之前的方法相比，LRNet更轻量级、也更易训练，且在检测高压缩或者高噪声的视频方面表现出强鲁棒性。在 FaceForensics++ 数据集上，实验结果AUC达到0.999，同时，在高度压缩视频测试上，AUC仅下降0.042。

2.3 基于生成对抗网络指纹特征的检测方法

研究人员发现使用生成对抗网络（GAN）生成的图像会留下痕迹，且不同生成对抗网络对应的痕迹不同，此类痕迹可以理解为生成对抗网络的指纹特征。基于生成对抗网络指纹特征的检测方法可解释性较强，对已知伪造算法生成的图像检测效果表现较好，但未知伪造算法时检测效果不足。

Hsu等人[13]通过对比损失函数来检测深度伪造图像。首先采用DCGAN、WGAP、WGAN-GP、LSGAN、PGGAN等五种最先进的 GAN来生成真假图像对；然后优化DenseNet为双流网络结构以允许成对信息作为输入；之后使用成对学习来训练伪造特征网络以区分伪造图像和真实图像之间的特征；最后将分类层连接到伪造特征网络以检测输入图像是伪造的还是真的。实验结果表明该方法明显优于其他最先进的伪造图像检测器。Frank等人[14]分析证明了GAN生成的图像在频率空间会表现出易识别的严重伪影，这些伪影由GAN结构中的上采样操作导致，也就是说GAN图像生成过程中存在结构性和根本性问题。基于这些分析，作者研究了使用频率表示来识别深度伪造图像。Agarwal等人[15]描述了一种结合图像频谱和胶囊网络的、用于检测GANs伪造图像的神经模型。Giudice等人[16]检测标识不同生成架构的GAN特定频率（GSF），通过采用离散余弦变换（DCT）来检测到异常频率，作者还进行了鲁棒性测试，以证明该技术在JPEG 压缩、镜像、旋转、缩放、添加随机大小的矩形等不同攻击情况下图像检测的有效性。

2.4 基于生理特征的检测方法

目前深度伪造算法对血流、心率、眨眼等人体生理特征的同步伪造考虑较少，因此研究人员考虑使用生理特征作为检测深度伪造的指标。

Conotter等人[17]初步评估了面部血流变化区分计算机生成视频和真实视频的潜力，使用真假视频各6个进行实验，证明这个指标检测计算机生成视频是可能的。Ciftci等人[18]认为隐藏在肖像视频中的生物信号可以用作真实性的隐含描述符，通过rPPG技术提取稳健的生物学特征，并改进传统分类器，在深度伪造视频数据集FaceForensics++和Celeb DF[19]进行实验，准确率分别为94.9%和91.5%。Qi等人[20]也提出了一种基于rPPG技术提取的特征的伪造检测方法，该方法在FaceForensics++数据集上测试的准确率为100%，缺点是预处理阶段要求较高，需要精确检测81个面部标志点。Agarwal等人[21]介绍了一种基于生物特征的深度伪造检测取证技术，该技术结合了基于面部识别的静态生物特征与基于面部表情和头部运动的时序、行为生物特征，通过具有度量学习目标的 CNN 实现行为嵌入学习。Hernandez-Ortega等人[22]提出了一种基于生理测量的新型深度伪造检测框架DeepFakesON-Phys，使用基于颜色的rPPG技术分析视频序列，寻找人体皮肤中细微的颜色变化，揭示皮肤组织下人体血液的存在，以此进行心率估计，并基于心率估计视频是否伪造。Jung等人[23]认为可以通过跟踪视频中人员眨眼模式的重大变化来进行视频完整性验证，从而判断视频是否伪造。具体来说，根据在很短的时间内连续重复眨眼的周期、重复次数和眨眼时间来检测视频是否为伪造。实验表明，该方法在内部数据集中实现了87.5%的准确率。

2.5 基于区块链技术的检测方法

区块链技术通过智能合约和共识机制为数字内容提供安全可信通道，可保证数字内容的完整性和可追溯性。基于区块链技术的深度伪造检测方法有望在源头遏制深度伪造作品的传播。

Hasan等人[24]提供了一种使用区块链和智能合约打击深度伪造视频的解决方案和通用框架，每个视频都与一个以太坊智能合约相关联，即使视频被复制多次仍可通过智能合约对视频的出处进行溯源，如果内容可以可靠地追溯到可信来源，就认为视频是真实而非伪造的。实验证明该方案具有通用性，通用适用于视频之外的其他数据内容的伪造检测。Fraga-Lamas等人[25]探索了分布式账本技术和区块链在打击数字欺骗方面的潜力，调研当前举措，分析当前面临的挑战，给出了研究人员应对虚假新闻、虚假信息和深度伪造难题的建议。

3 总结与展望

深度伪造的快速发展和应用对个人隐私、网络安全、社会稳定和国家安全等造成了现实威胁，针对深度伪造的检测和治理成为各国各界的热点关注问题。近几年，政府层面出台了一系列深度伪造治理相关政策，研究人员则对深度伪造检测技术进行了多维度深入研究，取得了较大进展，但仍存在一些问题，比如文献[5]检测方法的泛化性不足，在伪造方法上交叉检测时结果不尽如人意；文献[24]检测方法面对海量互联网数据的可扩展性问题等，且深度伪造技术与深度伪造检测技术实为攻防博弈关系，深度伪造的发展随时可能对深度伪造检测带来挑战。基于前期对深度伪造检测技术发展现状的调研，我们提出三点建议，希望能为深度伪造检测的研究与应用提供参考。

（1）提升深度伪造检测方法性能，尤其是泛化性能。大部分检测方法都是基于相同伪造算法和数据集进行训练和测试，泛化性能不能保证，而实际应用场景中，通常是不知道待检测对象是由何种伪造算法生成的，针对某一特定伪造算法研究的检测方法可能会失效。因此在检测方法实验过程中，建议重点交叉伪造和交叉数据集场景下的性能指标，提升泛化能力。

（2）重点研究基于无监督学习的检测方法。清华大学人工智能研究院等五家单位联合发布的《深度合成十大趋势报告（2022）》显示，在国内外主流音视频网站、社交媒体平台上，2021年新发布的深度合成视频的数量较2017年已增长10倍以上。可见深度伪造内容数量正在呈爆发式增长，且互联网中数字内容是海量的，无监督学习无需对内容进行标记，应用更为方便。

（3）基于区块链技术的检测方法研究。当前区块链技术发展还不够成熟，可扩展性严重不足，目前难以应对互联网海量资源的深度伪造检测，但基于区块链技术的检测方法在泛化性方面优势明显，且区块链是我国“十四五”七大数字经济重点产业之一，政策利好之下，不失为基于区块链技术的检测方法研究与应用的好时机。

[1]Chesney R，Citron D. Deepfakes and the New Disinformation War[J]. Foreign affairs，2019，98（1）：147-155.

[2]N.S. Ivanov，A. V. Arzhskov，V. G. Ivanenko. Combining deep learning and super-resolution algorithms for deep fake detection， in： IEEE Confer- ence of Russian Young Researchers in Electrical and Electronic Engineering（EIConRus），2020，pp. 326-328.

[3]M. C. El Rai，H. Al Ahmad，O. Gouda，et al. Fighting Deepfake by Residual Noise Using Convolutional Neural Networks，in：3rd International Conference on Signal Processing and Information Se- curity （ICSPIS），IEEE，2020，pp. 1-4.

[4]B. Malolan，A. Parekh，F. Kazi. Explainable deep-fake detection using vi- sual interpretability methods，in：3rd International Conference on Informa-tion and Computer Technologies （ICICT），IEEExplore，2020，pp. 289-293.

[5]Y. Wang，A. Dantcheva. A video is worth more than 1000 lies. Comparing 3DCNN approaches for detecting deepfakes， in：15th IEEE International Conference on Automatic Face and Gesture Recognition（FG），IEEE，2020，pp. 515-519.

[6]D. Wodajo，S. Atnafu. Deepfake video detection using convolutional vision transformer，2021，arXiv：2102.11126.

[7]A. A. Maksutov，V. O. Morozov，A. A. Lavrenov，et al. Methods of deepfake detection based on machine learning，in： IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering （EIConRus），2020，pp. 408-411.

[8]Tariq S，Lee S，Woo S S . A Convolutional LSTM based Residual Network for Deepfake Video Detection，2020，. arXiv：2009.07480.

[9]A. Rossler，D. Cozzolino，L. Verdoliva，et al. Faceforensics++： Learning to detect manipulated facial images， in：Pro- ceedings of the IEEE/CVF International Conference on Computer Vision，2019，pp. 1-11.

[10]Davide Cozzolino，Andreas Rössler，Justus Thies，et al. ID-Reveal：Identity-aware DeepFake Video Detection，2020， arXiv：2012.02512.

[11]Zheng Y，Bao J，Chen D，et al. Exploring Temporal Coherence for More General Video Face Forgery Detection，2021，arXiv：2108.06693.

[12]Sun Z，Han Y，Hua Z，et al. Improving the Efficiency and Robustness of Deepfakes Detection through Precise Geometric Features，2021，arXiv：2104.04480.

[13]Hsu C C，Zhuang Y X，Lee C Y . Deep Fake Image Detection Based on Pairwise Learning[J]. Applied Sciences， 2020，10（1）：370.

[14]J. Frank，T. Eisenhofer，L. Schonherr，et al. Leveraging frequency analysis for deep fake image recognition，2020，arXiv：2003.08685.

[15]S. Agarwal，N. Girdhar，H. Raghav. A novel neural model based framework for detection of gan generated fake images，in：11th International Confer- ence on Cloud Computing， Data Science Engineering （Confluence），2021，pp. 46–51.

[16]Giudice O，Guarnera L ，Battiato S . Fighting deepfakes by detecting GAN DCT anomalies[J]. Journal Imaging ，2021，7（8），128.

[17]Conotter V，Bodnari E，Boato G，et al. Physiologically-based detection of computer generated faces in video[C]// 2014 IEEE International Conference on Image Processing （ICIP）. IEEE，2015.

[18]Ciftci U A，Demir I，Yin L . FakeCatcher： Detection of Synthetic Portrait Videos using Biological Signals[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2020，PP（99）：1-1.

[19]L. Yuezun，Y. Xin，S. Pu，et al. Celeb-df：A large- scale challenging dataset for deepfake forensics，in： Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition，2020，pp. 3207-3216.

[20]Qi H，Guo Q，Juefei-Xu F，et al. DeepRhythm： Exposing DeepFakes with Attentional Visual Heartbeat Rhythms[J]. ACM，2020.

[21]S. Agarwal，T. El-Gaaly，H. Farid，et al. Detecting deep-fake videos from appearance and behavior，in：IEEE Workshop on Image Forensics and Security，IEEExplore，2020，pp. 1-12.

[22]Hernandez-Ortega J，Tolosana R，Fierrez J，et al. DeepFakesON-Phys：DeepFakes Detection based on Heart Rate Estimation，2020，arXiv.2010.00400.

[23]Jung T H，Kim S，Kim K. DeepVision：Deepfakes Detection Using Human Eye Blinking Pattern[J]. IEEE Access， 2020，PP（99）：1-1.

[24]Hasan H R ，Salah K. Combating Deepfake Videos Using Blockchain and Smart Contracts[J]. IEEE Access，2019：1-1.

[25]Fraga-Lamas P ，Fernandez-Carames T M. Fake News， Disinformation， and Deepfakes： Leveraging Distributed Ledger Technologies and Blockchain to Combat Digital Deception and Counterfeit Reality[J]. IT Professional，2020，22（2）：53-59.