探究深度伪造技术的安全挑战与应对措施

2022-05-09路彩霞

中国新通信 2022年5期

路彩霞

【摘要】人工智能技术凭借自身的赋能效应对现代社会的生活和发展格局产生着重大的影响，使得现代社会的治理效率有了显著提升。人工智能提供的种种便利确实改善了人们的日常生活，但也伴随着使用风险。对此，本文将基于对深度伪造技术的探寻，就深度伪造技术面临的安全挑战展开论述，继而根据实际情况提出深度伪造技术的安全应对措施。

【关键词】深度伪造安全挑战人工智能

深度伪造技術就是一种利用人工智能等新兴技术对音视频、图像或者是文本内容进行操纵，对人产生误导效果的技术[1]。通常采用深度伪造技术生成的图像或者是视频能够将面部表情、动作和语音的音调、色调等信息高度模仿出来，让肉眼难以直观的辨识出来，真正达到“以假乱真”。一旦被有心人不怀好意的运用，将严重威胁个人的安全和隐私，甚至对社会乃至整个国家的安全均将造成严重影响。

一、深度伪造技术概述

（一）深度伪造的技术原理

深度伪造技术原理就是以对抗网络（GAN）的算法搭载着生成器和识别器两个神经网络。生成器和识别器在相互博弈学习的过程中将会出现大规模和高精确度的输出，所以便需要研究人员使用大量的人脸图像来对GAN网络进行训练，让人们能够很快速把握人脸图像中的眼睛、鼻子、嘴巴和表情等特征[2]。尤其是在新输入了图像与视频之后，GAN这个框架便能够很快速的捕获人脸特征，让面部图像的替换与操纵工作也能够随时完成。这样再充分利用计算机视频中的多个单帧以批量处理的形式自动生成深度伪造视频。

（二）深度伪造技术的发展态势

随着信息技术的不断发展，深度伪造技术也较之过往有了明显进步，如此前的伪造技术大多较为粗糙，而如今的伪造技术因神经网络图像伪造检测技术的加入，而使得所生成视频图像也更类似于现实生活中人的指纹一样的网络特征。不仅如此，随着该项技术的进一步发展，今后的“深度伪造”还可基于用户偏好，并通过对用户价值观及人生态度的揣摩来为其推送与之相契合的合成视频，以致用户逐步放弃追寻事实真相的意愿 [3]。

（三）深度伪造技术的特点

深度伪造技术具有隐匿性强、难检测、难追踪的特点。深度伪造的技术展示大致分为如下四类：换脸、唇形同步、面部复现、动作转移。

二、深度伪造技术的类型

（一）针对图像的深度伪造技术、应用案例及检测技术

针对图像的深度伪造技术主要采用的是生成对抗网络衍生出的虚拟图像。就该技术而言，其所对抗的网络对象主要有两种，分别为生成网络与识别网路;其中，生成网络最主要的特征便是其所生成的虚拟图像同样具有模拟对象的特性;而识别网络则能判断原图像是否为虚拟图像的原图。如图1所示：首先对图像进行编码，后以训练的方式分别置入人脸图像A与B，紧接着由系统根据A、B图像的各自特征来为其生成特定的解码器，再通过解码B图像与A图像进行互调，也便是B脸生成替换A脸。诸如此类的换脸技术还有许多，诸如Face2Face、Faceswap-GAN 、Faceswap等。

在这项技术中所生成的神经网络分别为生成网络与识别网络。其中，生成网络的主要作用便是结合现有的图像特征来生成具有同样特征的图像，而识别网络的作用则是能对图形的真实性予以辨别并协助判断何者为虚拟图像，何者为本来的图像。

通过对两个神经网络的训练并使用大量图像进行生成，最主要的目标便是要借助虚拟图像达到欺骗效果，而欺骗的具体目标则主要围绕着具有识别功能的网络。对此，识别网络要想避免被虚拟图像所欺骗，便需具备快速识别生成网络虚拟图像的能力。这无异于一项博弈，倘若识别网络无法对生成网络衍生图像予以快速识别，也便让虚拟图像有了更多的可乘之机，“以假乱真”将难免导致更严重的危害诞生。

检测技术：当前，在检测深度伪造图像方面，最常用的分析方法便是基于图像本身的成像特征，而后运用数据驱动的方式展开深度分析 [3]。然后，针对图像真实性的判别则主要围绕图像的差异性特征，分别包含了图像在成像设备上呈现出的传感器噪声差以及色差等方面，通过对以上痕迹的挖掘以及对人生理信号特征的对比，也能对图像真伪的判别提供一定的依据 [4]。针对这种特征的检测方法只能够对一些特定伪造类型的痕迹进行检测，通过肉眼都能够很轻易的进行识别和篡改，所以能够保证检测结果的解释性较好。

（二）针对视频的深度伪造技术、应用案例及检测技术

针对视频的深度伪造技术通常需要处理每一帧的视频图像，在将每一帧的人脸图像均替换为目标任务的脸部后，也便能生成出有着目标人脸的伪造视频 [5]。由此可见，此间主要运用了两项技术，分别为编码与解码。其中，编码的主要作用在重组此前从图像中提取出来的诸多特征，以便后续将原始图像以低纬度数据替换;至于解码器的作用则是能将压缩的数据还原，使其恢复原本的“面貌”及特征。

例如，一款名为ZAO的人工智能换脸APP只需要用户的一张正面照，再使用一键操作便能够很快速的将影视剧片段中的演员脸换成自己的。生成视频的过程主要依托的是一项AI技术。

检测技术：针对视频深度伪造技术的检测方法主要聚焦于“换脸”这项技术上。当视频在被压缩掉之后，每一帧的数据便会出现退化的情况，而视频的帧组之间的时序特征也会随之发生变化。因此，通常针对静态特征下的深度伪造图像检测技术则无法被应用于深度伪造视频的检测过程中。深度伪造模型可利用静态的面部图像集展开训练，而生成模型存在对人脸的轮廓建模不足的情况，这样便很难伪造出眨眼、呼吸、心跳等生理性的信息[6]。同时，研究者在不断研究的过程中，在准确把握生理信息的基础上采取深度伪造视频检测技术来眼见视频真伪，期间将主要围绕局部特征加以检测，包括观察眨眼动作是否自然、面部与头部朝向是否符合人体工学以及面部朝向不同区域时应该产生的视觉伪影等。

（三）针对音频的深度伪造技术、应用案例及检测技术

通过修改音频数据，还能对原始音频予以改造，使之成为另一端与原始音频有着完全不一样数据的伪造音频。例如将音频的音色改变，便可将男声转化为女声。这种语音翻译模型在诸多软件中均得到了较为广泛的运用，如QQ、微信等均有此项功能。这种技术在外语翻译方面尤为适用。通过将外域翻译成中文，同时也保留着外国人的声音特质，便好似该外国人本身会说中文一般，仅是语音语调仍保留着外国人说英语的特征。

检测技术：针对音频的深度伪造技术在检测的过程中主要是对音频的信号进行处理，再根据频谱的特征进行建模，而后的识别检测则主要运用了两种方法，分别为归一化余弦相位与修正群延迟。虽然上述方法再识别音频及音频处理方面有着较为优良的表现，但因其泛化性能尚有不足，故也限制了该方法的运用范围。而如今，随着深度学习技术的不断发展，广大研究者的关注点也纷纷转移到了以数据驱动为基础的深度学习检测方法之上。其中，Gomez-Alanis利用轻量级的卷积神经网络和循环神经网络提出光卷积门控递归神经网络来提取音频深度特征的一种检测方法。新加坡信息通信研究所网络安全小组的Monteiro在研究的过程中指出将声音表征作为视觉频谱图，其对声音特征的分析主要给予频谱图的清晰度，这样也能为音频辨别提供依据 [7]。虽然，当前的语音检测已从信号处理发展到了深度学习法，但由于该过程对攻击类型的针对性较强，故要想检测出未知类型的攻击，目前仍有较大的提升空间。

三、深度伪造技术面临的安全挑战

（一）威胁个人生活

当前深度伪造技术所生成的图像和音视频数据能够达到以假乱真的地步，严重威胁着广大人们的正常生活。例如，为达到自身不可告人的目的，有心人便会利用深度伪造技术来制作视频及图像，企图以此威胁。如在我国便不乏这样的真实案例，不法分子为勒索钱财而将明星照片与裸照结合，再将伪造的图片抛向公众网络，以致被害人声誉及财产均遭到严重威胁。

（二）威胁金融秩序

金融市场的发展过程本就容易遭受外界因素的影响，加之金融市场又与金钱密切相关，故也更容易成为深度伪造技术的针对目标。如利用深度伪造技术伪造公司管理者的不雅视频，使得公司声誉及形象遭受影响，继而导致公司的股票涨落而自身则从中获益。与此同时，对于经常在电视中见到的经济学家或某方面专家，通过伪造他们的视频及音频，让股民误认为此为指导自己购买或抛售股票的信息，以致股民在毫无根据的情况下，大量购入或抛售股票，以致整个股市陷入混乱。

（三）影响社会稳定

在以往人們的观念中是“眼见为实”，但在自媒体快速发展的社会背景下，深度伪造技术所生成的各种视频、图片等虚假信息颠覆了“眼见为实”这个观念，眼睛看到的和耳朵听见的都不一定是真实的，这便极易导致社会恐慌出现。严重者甚至还将对社会整体的稳定运行带来严重影响。不仅如此，针对以人工智能技术识别目标任务的智能识别系统，倘若不法分子同样利用深度伪造技术，将原本正常的数据替换为伪造的音视频数据，这对整个安防体系的安全性无疑是一项严重且极可能出现的威胁，而最终受影响者亦将是整个社会。

（四）威胁国家安全

深度伪造技术最主要的威胁还是可作为信息战的武器，从而危害到国家的安全。之所以会产生如此严重的危害，一方面是因该技术若被有心人利用，并将其与国家领导人发言捆绑再予以恶意的剪辑，将挑拨国家之间的关系，使得双方信任度降低。借助深度伪造技术，将各级领导发言歪曲为各种谣言并大肆传播于各大社交媒体，即便相信之人仅是极少数，但对政治系统的权威性仍将产生一定影响。倘若放之任之，最终势必会让国家法治的和法性遭受质疑，这样的局面无疑是极其严重的。

四、应对深度伪造技术的安全措施

（一）构建完善的法律法规

现如今，世界各国均对基于深度伪造技术可能引发的安全问题给予了极高的关注度，也为了积极防范安全问题的发生而出台了相应的政策。如美国参议院于2018年12月提出《2018年恶意伪造禁令法案》中便痛批了此等行为，并就其规范性提出了具体要求。我国深度伪造技术的防范重点则是在2019年11月时，由我国互联网信息办公室、文化旅游部以及国家广播电视总局联合楚天了有关《网络音视频信息服务管理规定》，该规定不仅明确了服务者与使用者均不能利用虚拟现实技术制作、发布及传播新闻信息，同时也对违法活动的具体类型予以了明确，包括人肉搜索、运用深度伪造技术等。从国家层面提出惩治的方法，虽是能起到一定的威慑作用，但也存在部分抱有侥幸心理的犯罪者，故人工智能技术要想更好地服务于现代社会，仍有较大的进步空间。

（二）强化技术支撑

为发挥深度伪造技术的积极作用并切实应对好该技术所带来的安全条件。需首先从数字呢绒体系建设入手，通过结合数字水印、区块链等技术，一方面确保能对数字媒体呢绒的全过程予以有效的追踪与溯源;另一方面则是要联系音素、频谱、声纹等一种技术，对深度伪造建设技术予以生化，使之能从更多角度获取伪造信息并对其真伪加以论证。同时，还需要对以后一些未知领域中的深度伪造的可泛化虚拟音视频检测方法进行研究，追踪不同深度伪造技术生成方法，不断去寻找一些伪造特征的差异，再利用多种网络模型将这些差异性的特征提取出来再进行检测。将对抗攻击技术引入到检测模型训练的过程中，这样便能够大幅度提高抵御对抗样本攻击的能力。

（三）加强行业自律

通过约束人工智能技术的适用范围，一方面能可对人工智能的行业自律起到一定的强化作用;一方面则是为了促进人工智能技术的规范化运用。倘若企业的主要业务便是内容生产，便更要对企业制作的音视频予以严格审核，避免因人工智能技术的滥用而损及其他行业或个人利益。与此同时，对于广大用户的音视频数据传输行为，相关网站亦当肩负起内容审核的责任及义务，一旦发现用户上传伪造音视频，便需给予严厉的惩罚。网络非是法外之地，任何挑衅法律的行为均将收到严厉惩处，继而杜绝出现不实信息的发布与传播。

（四）注重社会教育

要想让广大公众均具备良好的网络安全防患意识，首要途径当属社会教育。对此，我过曾连续举办了八届网络安全宣传周活动。该活动因重点围绕网络金融犯罪的频发领域，如金融、电子政务、电子商务、电信等与百姓之间亦有着较为密切关联的领域，故也营造出了良好的安全氛围。除了上述手段与途径，国家还可向公众公布一些恶意使用深度伪造技术的现实案例，以此警醒广大群众要始终保持警惕，使之在面对任何人工智能技术时均能秉持谨慎姿态，不要轻易相信人工智能技术给出的诸多信息，以此方能最大限度减少因伪造信息而导致了公民权益受损，继而切实维护人工技术的良性发展。

五、结束语

总之，在深度合成技术不断更新的背景下，各种虚假音视频、图像等在网络上的广泛传播对人们造成了不良影响，所以对深度伪造技术的检测提出了较大的挑战性。由于深度伪造技术生成方法的开源代码和工具较多，各种变种方法更容易进行修改，所以便需要采取更新技术、完善相关法律等方面来应对深度伪造技术的安全挑战，以此推动人工智能技术更好的服务现代社会发展。

参考文献：

[1]徐燕萍.“深度伪造”技术的伦理反思——以一键脱衣软件“Deepnude”为例[J].计算机时代，2021（11）：118-121.

[2]李明鲁.深度伪造技术滥用行为的刑法治理路径[J].法治社会，2021（06）：92-101.

[3]彭春蕾，高新波，王楠楠，李洁.可视身份深度伪造与检测[J].中国科学：信息科学，2021，51（09）：1451-1474.

[4]毛宁，杨会.深度伪造技术的监管困境及其法律应对[J].长白学刊，2021（05）：94-101.

[5]张爱军，王芳.人工智能视域下的深度伪造与政治舆论变异[J].河海大学学报（哲学社会科学版），2021，23（04）：29-36+106.

[6]赵建强，张辉极，杜新胜，张光斌.人工智能安全的隐忧：深度伪造技术的挑战与应对[J].中国安防，2021（06）：40-47.

[7]卫霞，白国柱，王蓓蓓，张文俊.“深度伪造”技术安全风险分析及政策建议[J].中国电信业，2020（11）：72-74.