机器学习的安全问题及隐私保护

2022-03-25崔玮杜二玲许青李海军范毅君

科技资讯 2022年4期

崔玮　杜二玲　许青　李海军　范毅君

伴随机器学习应用领域得到了广泛进展，对机器学习的安全性和隐私权的威胁，一直妨碍着机器学习技术和人工智能研究的进展，同时提高机器学习中的安全性和保护用户隐私权成为了未来研究的重要课题。该文首先给出了机器学习隐私的定义，其次分析了机器学习隐私威胁及隐私保护技术，最后总结了机器学习中常见的问题并提出了相应解决对策。

：机器学习安全問题隐私保护人工智能

中图分类号：G64 文献标识码：A 文章编号：1672-3791（2021）02（b）-0000-00

Security and Privacy Protection of Machine Learning

Abstract： With the extensive progress in the field of machine learning applications， threats to the security and privacy of machine learning have been hindering the progress of machine learning technology and artificial intelligence research. Improving the security of machine learning and protecting user privacy has become This is an important topic for future research. This article first gives the definition of machine learning privacy， then analyzes machine learning privacy threats and privacy protection technologies， and then summarizes the common problems in machine learning and proposes corresponding solutions.

Key Words： Machine learning; Security issues; Privacy protection; Artificial intelligence

机器学习也是人工智能的关键技术之一，近年来，由于其日益成熟与蓬勃发展，大量公司在机器学习应用领域中获得了突破性发展，比如：在医学、空间信息安全等应用领域均获得了应用。而伴随深度学习的出现，机器学习应用领域又迎来了全新的一波蓬勃发展大潮，将推动着新一代人工智能技术往前发展一大步。在机器学习技术火热发展的今天，其安全性和隐私权问题也受到了人们的重视，对机器学习的安全性和隐私权的威胁，一直妨碍着机器学习技术和人工智能研究的进展。在自动驾驶、财政系统、健康管理等复杂系统中，机器学习的安全性问题威胁人类的切身利益，甚至健康与生命。而对于云计算服务中的机器学习即服务质量（MLaaS）。因此，对于如何提高机器学习中的安全和怎样保护用户隐私权成为了机器学习未来发展的基石，并且相关研究者对此进行了深入的研究，尽管这项研究还只是开始阶段，但现已获得了一些成果。在机器学习中，安全就是确认使用者数据信息被恰当利用，从而保护了机器学习的使用和完善。由于安全与隐私权是两种完全不同且密切关联的范畴，所以安全也是保护用户隐私权的基石。隐私权是由1948年开始在联合国《世界人权宣言》中所包含的一种基础权利，隐私的基本法律含义是不愿告人或不便告人的事，与他人无关，而是关于自身权益的事。因此，隐私权也是一种缺乏公认规范界定的复杂范畴。在机器学习中，隐私权通常被界定为人类有权力确定自身的私人数据信息不被披露。

隐私权是一种相当复杂的法理学范畴，但目前还缺乏一种公认的法理学规范概念。1890年刊登于《哈佛法学评论》上的《论隐私权》将隐私权界定为“不受他人干涉搅扰的权力”。隐私权主要包括以下3个方面：（1）训练数据隐私权，训练数据隐私权，即机器教学中所使用数据的个性身份信息内容（personally identifable information，PI）和敏感信息内容。个性身份信息内容是指具有唯一性标记个性身份的信息内容，可分成标识符和准标识符，包含姓氏、身份卡号、来电号码、电子邮件地址等关键属性（key atributese），准标志（ausidnifer）指可能唯一性地标记个别身份的属性总和，如住址、性别、生活时间;敏感信息涉及个体的人口统计信息内容，如性别、薪水、犯罪记录等;个人财经信息内容，如银行卡号码、账户余额、股票交易笔录等;健康信息方面，如病历、疾病症状、医学影像、医生处方等;以及日常活动情况，如通话记录、活动轨迹、购物记录等。（2）模式隐私权，模式隐私权，即在机械教学中的模型训练计算、建模拓扑构造、建模权重参数、激活函数和超参数等与机器学习模型相关的秘密信息机器学习模型属于服务提供者的秘密信息，授权使用的只有使用权，可以对模型发动模型获取攻击（ModelExtractionAttack）。（3）预知结论隐私权。预知结论隐私权是指在机械教学模型中对使用者的预期输入或要求直接反馈来的、使用者不希望披露的敏感信息内容，模型预测结果可能是根据使用者的传染病检测个人信息，比如：得某些病的概率，此类个人信息对使用者而言，属于个人隐私信息，但是不可信任的服务提供商和第三方机构可以盗取使用者的此类个人信息，因此可以应用crypto-nets加密数据，或者直接在密文上进行预言，并传递的预言结论，为在线医疗诊断模型预测结论提供了秘密的保护训练数据隐私权、模式隐私权、模型预测结论隐私权都是在进行机械教学时，必须着重保障的信息内容。如若个人信息如果泄露，将会威胁到使用者对敏感数据的安全，或给服务提供商造成了很大的损失，这也是云计算发展中遇到的主要阻碍。因此，基于云计算技术的机器学习与服务系统需要在越来越关注信息安全方面，以进一步增强信息安全保护能力。

机器学习常见的隐私威胁机器学习模型会无意识记忆某些训练数据，但也有些训练数据包含了人类的秘密信息，如习惯、喜好、地理位置等。

2.1 训练阶段的隐私威胁

大型企业则多用集中训练方法，由于有一定多的应用易于获取大规模的数据进行分析。但目前，在面向企业采集使用者数据分析以保障使用者信息安全行业还缺乏某个统一的标准。在获取用户数据流程中，会透露部分使用者的秘密，因此Google和Apple企业必须通过差分隐私的方法保存用户数据，在实际使用数据流程中，即使单一的数据信息毫无意义，但数据分析信息仍有使用价值。为扩展训练数据集获得更准确的目标模型，某些数据提供方必须通过合作共享数据信息，共享培训目标模型。共享并不仅仅指通过对其他参加方开放数据信息，所有主要参加者可以单独在各种数据分析集上训练自已的模式，与其他参加方共用培训成果，从而间接共用了他们的培训数据信息。

2.2 数据提取攻击

数据提取进攻，亦称为培训模式的逆向进攻（Modelinversion Attack），由Fredrikson等人最早提出，是指培训利用访问模式API，并利用一系列的查询来提取模型培训数据里的秘密数据信息的一个攻击方法，利用数据提取进攻所导致的隐私数据泄漏可能会带来很大的生命危险，比如：针对培训的模式获取了患者的基因组信息，并且可能使药物错配，进而造成了生命危险，Fredrikson等人利用已经培训好的模式，并且成功地利用数据提取进攻重构了人脸画像;Ateniese等人，建立了一个分类器使其能够通过进攻一些分类器，从而获得了训练数据;Song等人还证实了练习好的模式将会记住大批秘密信息，因为一旦出现恶意ML算法的模式训练者，那么模式就能够泄漏训练数据集的所有个人信息;同时Carlini等人还介绍了一个能够获取大批秘密信息的算法，他们能够利用不断查询模式来收集如信用卡号、ID号码等大批秘密信息。

3.1 缺乏健全的评价制度

目前还缺乏统一的安全性评价规范，对秘密泄漏缺乏统一的衡量标准，构建完备的评价制度、规范隐私防护原则是维护机器学习安全性和隐私的重要一环。

3.2 不合理的对抗训练方法

对抗训练的非适应性，使在对抗练习中需要引入足够丰富的对抗样本才能有效预防未知的对抗威胁，这也是对抗练习的难题，亟需克服。

3.3 用户隐私问题

有效保护隐私权的方式就是使用密码科技，但是由于目前的同态密码科技算法开销过大，且无法进行计算机器学习中的某些非多项式算法。而且一般来说，维护用户隐私权都要以牺牲目标模式的精确度为付出代价。所以，研究有效的加密方式保护用户隐私权是一项重大的研究问题，面对信息安全威胁，人们还必须深入探究针对投毒威胁、对抗入侵等威胁手段的防护技术，以提升模型的鲁棒性，从而研发更强威胁的防护手段，而面对着信息安全威胁，全同态加密一直以来被人们看作是隐私保护机器学习的最主要技术手段，但也因为其中存在着大量数据膨胀、运算负荷、激活函数拟合误差等不利因素，从而导致了采用安全多方计算的隐私防护机器学习技术获得了快速进展。

現有的隐私保护机器学习方法，往往假定了云服务器为被动模式，并充分考虑了在云服务器互不合谋状况下数据信息的可靠性和机械教学的有效性;此外，将较高的安全等级推至更多重情景下，还需要同时兼顾遇到恶意攻击者情景时的公平性和一致性，所以，根据目前提出的方法，还必须再增加准确度、有效性，以减少误差，并兼顾更强的危险情景下，如恶意场景时等。所以，对未来的研发方向建议包括。

4.1 建立合理完整统一的安全评估规范

针对这些私密数据，可从根源上管理好这些数据的应用范围和获取流程，但鉴于中国目前没有合理完整的安全评估规范，且各种组织对私密数据的应用范围与获取过程均缺乏合理统一的管理规范，从而不可避免地会导致信息安全的巨大风险，因此建立合理完整统一的安全评估规范已势在必行、刻不容缓。

4.2 研发可以具备更强鲁棒性的隐私保障技术的机器学习模型

随着对抗入侵、投毒攻击等威胁技术手段的发展，普通模型早已不可以满足信息安全要求。模型的内容泄漏给组织、机构所造成的经济损失将不可估量，因此研发可以对抗更强威胁技术手段的高鲁棒性机器学习模型将是未来的重要工作。

4.3 提升现有方式的准确度、有效性

由于目前的大多数隐私权防护方式都是采用同态加密、安全多重运算和差分隐私的，而目前这几种技术手段的传输、运算等费用都相当大，这就降低了计算的有效性，也造成了无谓的资源浪费。同时这种方式也面临着精度逐渐丧失的问题，所以研发更为有效、准确度更高的隐私权防护方式将是下一项重大的研发方向。

综上所述，机器学习本身的脆弱性造成其安全性威胁产生的必然，同时易于暴露使用者秘密，近年来，机器学习的安全性问题受到了普遍重视。机器学习通常被视为黑盒模型，其决策算法也具有不解释性，这就为机器学习的安全防护与隐私保障造成了相当的障碍。在当前，机器学习安全防护和隐私保障技术的研发仍处在起步阶段，未来需要进一步加强研究。

[1] 段龙，鄢天荥，王江丽，等.结合高光谱成像和机器学习的棉种年份鉴别[J].光谱学与光谱分析，2021，41（12）：3857-3863.

[2] 赵健，陈昭昀，庄希宁，等.量子态制备及其在量子机器学习中的前景[J].物理学报，2021，70（14）：67-75.

[3] 张瑞鸿，魏鑫，卢占会，等.基于机器学习训练金属离子吸附能预测模型的研究[J].无机材料学报，2021，36（11）：1178-1184.

[4] 龚云洪，付皓斌，雍海林，等.基于机器学习的星地量子通信成码率预测及实验验证[J]. 红外与毫米波学报，2021，40（3）：420-425.

[5] 寇雯博，董灏，邹岷强，等.混杂复合材料等效热传导性能预测的小波-机器学习混合方法[J].物理学报，2021，70（3）：57-68.

[6] 张瑞，贾虎.基于多变量时间序列及向量自回归机器学习模型的水驱油藏产量预测方法[J].石油勘探与开发，2021，48（1）：175-184.

[7] 张宝一，李曼懿，李伟霞，等.基于机器学习的地球化学采样下伏基岩类型判别—以青海省察汗乌苏河地区为例[J].中南大学学报：英文版，2021，28（5）：1422-1447.

[8] 孟嫣然，王星尔，杨健，等.基于机器学习算法的夹层玻璃冲击破坏预测模型研究[J].无机材料学报，2021，36（1）：61-68.

作者简介：崔玮（1981— ），女，硕士，副教授，研究方向为机器学习。

杜二玲（1975—），女，硕士，副教授，研究方向为不确定统计学习理论。

许青（1989— ），女，硕士，讲师，研究方向为微分方程理论。