APP下载

联邦学习概述:技术、应用及未来

2022-08-11李少波李传江张安思罗瑞士

计算机集成制造系统 2022年7期
关键词:用户端联邦服务器

李少波,杨 磊,李传江,张安思,罗瑞士

(1.贵州大学 省部共建公共大数据国家重点实验室,贵州 贵阳 550025; 2.贵州大学 机械工程学院,贵州 贵阳 550025)

1 问题的描述

随着第四次工业革命的到来,新一代人工智能、大数据等技术为传统行业智能化转型发展带来了机遇,如制造行业已由传统制造模式升级为数据驱动下的智能制造[1-2],其中以铸造行业、船舶以及汽车等行业为典型;与此同时,在数据成为生产要素并发挥着愈加重要作用的今天,也对数据共享及隐私安全提出了新挑战。由于行业间的竞争、垄断以及不同企业之间业务的封闭性和阻塞性,使得企业之间数据信息交互困难重重。

机器学习(Machine Learning, ML)作为近年来大数据分析的主要方法之一[3-4],涵盖了支持向量机[5-6]、神经网络[7-8]、聚类算法[9-10]、回归算法[11-12]等多种智能算法,在诸多领域的应用效果已超过人类表现[13],成功应用于医疗卫生[14]、财务管理[15]以及工业制造[16]等领域。传统的机器学习方法是基于所有数据集中训练[17],但存在以下限制:①企业之间受限于某些商业因素[18],难以实现数据的充分共享[19],存在严重的数据孤岛现象;②在传统的机器学习过程中,数据传输至企业服务器的过程中存在隐私泄露风险,或者云端集中式训练数据模型可能会将其暴露给恶意攻击者;③集中式训练数据模型对企业服务器的计算和存储能力带来了巨大的挑战。

为解决以上问题,谷歌[20]于2016年首次提出联邦学习(Federated Learning, FL)理论。作为机器学习的新兴范式,联邦学习为用户数据共享提供了新颖的解决方案,使得用户原始数据在不出本地的基础上便能得到一个更优化的模型,做到“数据不动模型动”,在保证用户数据隐私安全的前提下,打破数据孤岛,充分挖掘数据中的潜在价值。目前,联邦学习已初步应用于医学成像[21]、智能终端[22]以及计算机视觉[23]等领域。

通过调研近3年的联邦学习综述文献,联邦学习的隐私安全、应用和其他(如通信开销、激励机制等)3个方面,各占文献总数的43.75%、31.25%、25%,如图1所示。表1列出了2019~2021年部分联邦学习综述文献,如MOTHUKURI等[24]全面介绍了当前联邦学习面临的安全威胁及应对策略;LI等[25]在介绍了联邦学习模型训练时可能受到相关攻击的基础上,介绍了其在移动设备、医疗、工业等方面的应用;KULKARNI等[26]从多任务学习、元学习等方面介绍了联邦学习中针对异构性问题的相关技术研究进展。可以看出,近年来,领域学者主要聚焦于联邦学习的隐私安全、通信、异构性或者激励机制等单方面的综述,缺少全面系统性的综述研究。为此,本文围绕联邦学习的技术、应用以及未来方向3个方面,进行了较为全面的分析和总结。

表1 2019~2021年部分综述文献

续表1

2 联邦学习基本概念

2.1 联邦学习的定义

联邦学习又称为联邦机器学习、联合学习或联盟学习,是一种新型的机器学习框架,包含对等网络结构[42]和用户—服务器[43]两种联邦学习架构,后者应用居多,其架构学习流程及模型训练步骤分别如图2和表2所示。由于在实际生活中,企业和用户数据大都以分散的形式存在,而联邦学习作为应对数据孤岛问题的有效解决方案,在满足用户数据隐私安全和政府相关法规的前提下,对多个数据拥有方进行联合建模,且不需要共享各用户的原始数据,即联邦学习面向的对象是分散式多用户的场景。设有N位用户参与{F1,F2,F3,…,FN},其本地数据集为{D1,D2,D3,…,DN},联邦学习允许参与者协同训练出一个共同的共享模型{MFED},而传统机器学习是将数据集中进行模型{MSUM}的训练,设{VFED}和{VSUM}分别表示{MFED},{MSUM}的模型精度,存在一个正数δ,满足:

表2 用户—服务器模型训练步骤

|VFED-VSUM|<δ。

(1)

则称其在联邦学习模型允许的性能损失范围内达到了δ-精度损失[19]。

2.2 联邦学习的分类

根据参与用户数据的样本及其特征之间的差异性,联邦学习可分为横向联邦学习(Horizontal Federated Learning, HFL)[44]、纵向联邦学习(Vertical Federated Learning, VFL)[45]和联邦迁移学习(Federated Transfer Learning, FTL)[46-47],如图3所示。因此,可根据数据孤岛的不同分布特点,提供不同的联邦学习方案。

横向联邦学习适用于用户数据的特征重叠较多而其样本重叠较少的情况,即按样本划分[48]。设有A、B两个用户,(Di,Dj)、(Xi,Xj)、(Li,Lj)分别为用户A和用户B的数据、特征空间、数据标签和样本ID空间,即:

Xi=Xj,Li=Lj,Ii≠Ij,∀Di,Dj,i≠j。

(2)

与横向联邦学习不同的是,纵向联邦学习适用于用户数据的特征重叠较少而其样本重叠较多的场景,即按特征划分[48]:

Xi=Xj,Li≠Lj,Ii=Ij,∀Di,Dj,i≠j。

(3)

联邦迁移学习则适用于用户数据的样本和特征都没有重叠或者重叠较少的情况,即某些用户可能只有数据而没有或者仅有很少的数据标签,即:

Xi≠Xj,Li≠Lj,Ii≠Ij,∀Di,Dj,i≠j。

(4)

3 联邦学习技术研究进展

联邦学习作为连接数据孤岛的桥梁,在满足数据隐私安全和监管要求的前提下,使各用户有效地利用其本地模型参数获得高质量的联邦学习模型。但随着联邦学习的发展,也暴露了其存在的诸多问题,如模型训练存在的潜在威胁、通信效率慢、用户数据可用性差、设备的不稳定性以及参与用户处于不公平地位等。因此,需权衡联邦学习中的隐私安全、通信效率、异构性以及公平性等多方面因素,如采用安全多方计算、模型压缩、知识蒸馏、博弈论等技术,来构建一个更加安全、有效、公平的联邦学习模型,如图4所示。为此,本章将从联邦学习的隐私保护、通信效率、异构性、激励机制4个方面,依次对其相关技术展开较为全面的综述。

3.1 隐私保护

隐私保护是指对个人或企业敏感信息进行保护的措施。因联邦学习是建立在分布式训练用户本地数据的基础上,利用边缘端或用户端设备协同构建一个共享的联邦学习模型。但其用户本地数据可能包含如企业的客户资料、业务数据等企业敏感信息,关乎着企业声誉、公众信任感、经济利益等重大问题,一旦泄露将造成不可挽回的巨大损失。尽管在联邦学习模型训练过程中,各用户本地原始数据并未公开,但其局限性在于,若存在“不诚实”、“诚实且好奇”的服务器或者恶意用户端,用户本地数据信息仍可能从更新后的模型参数中被反推出来,即推理攻击,以及投毒攻击、基于生成式对抗网络(Generative Adversarial Networks, GAN)的攻击等其他多种类型攻击,对联邦学习的隐私安全造成了巨大的潜在威胁,因而现阶段联邦学习尚未获得广泛信任。为此,本节主要介绍目前联邦学习中如安全多方计算、同态加密、差分隐私等主流的隐私保护技术及其相关研究进展。

(1)安全多方计算

1982年YAO[49]针对“百万富翁问题”提出安全多方计算并得到广泛应用,其原理是在仅展示用户输出信息的基础上,使参与者能够协同地从各参与方隐私输入数据中计算相关函数,并保证参与者输入信息不被泄露。设n个参与者共同分配某个私有数值x,每个参与者Pi根据其拥有的内容xi协同计算,得到相应的输出信息yi,即

y1,y2,…,yn=f(x1,x2,…,xn)。

(5)

(2)同态加密

同态加密是RIVEST等[50]于1978年提出,考虑到参与方存在“恶意”或“诚实且好奇”的情形,采用加密方法对数据传输过程进行保护,是防御隐私攻击的有效措施。其特性在于可对密文解密后得到明文结果,而不需要直接访问明文。设H为一个同态加密方法,则有

H={KeyGen,Enc,Dec,Eval}。

(6)

式中:KeyGen为密匙生成函数,Enc为加密函数,Dec为解密函数,Eval为评估函数。不同于安全多方计算,同态加密允许在加密内容上进行某些特定的代数运算,如加法和乘法[51],以加性同态加密为例,其定义如下:

Encpk(m1)=c1,Encpk(m2)=c2。

(7)

Decsk(c1c2)=m1+m2。

(8)

式中:pk、sk分别是公钥和私钥,c1、c2分别是对明文m1、m2的加密结果,是某种加法或乘法运算。

(3)差分隐私

差分隐私[52]则是将随机生成的噪声添加到基础数据库中,使数据库中的个体信息混淆,达到敌手无法从查询结果中获取个体敏感信息的目的。其安全性能被广泛认为是当前基于扰动的隐私保护技术中最高的[53]。设两个数据集D和D′且只有一个记录不同,M为随机保护机制,S为任意可能的输出,且S⊂Range(M),对于(∈,δ)有:

Pr[M(D)∈S]≤Pr[M(D′)∈S]×e∈+δ。

(9)

隐私保护技术是保证联邦学习模型安全可靠运行的基础,近年来国内外的相关研究已取得了明显的进步,如表3所示。

表3 隐私保护技术研究进展

续表3

可以看出,当前的隐私保护技术主要是通过加密或添加噪音的方法,如安全多方计算、同态加密以及差分隐私等,来保证用户端和中央服务器之间的安全通信,但无法有效权衡模型精度和计算成本[54-55,58-59,64,66-69],且无法保证用户端诚实与否[56,65-66,68-69],对整个联邦学习模型训练造成潜在的威胁。而模型复杂度的提高[60-63,66-67],也不利于其实际应用部署。其次是现有隐私保护技术的单一性在一定程度上限制了联邦学习效能的发挥,而文献[58]的方案不失为一个好的参考方向,即利用多种隐私保护技术融合,为用户提供更强大的隐私安全保证。

3.2 通信效率

通信从广义上指的是需要信息的双方或多方在不违背各自意愿的情况下采用任意方法、任意媒质,将信息从某方准确安全地传送到另一方。而在联邦学习模型的每一轮训练过程中,中央服务器都需聚合、发送每一个参与方的模型参数。因此,随着参与方数量和迭代轮次的增加,将导致巨大的通信开销。此外,联邦学习还因其节点之间的不确定性,导致服务器与各参与方节点之间的通信成本往往高于传统的分布式机器学习。目前,已有许多学者就如何降低其通信成本进行了研究。

(10)

联邦平均是建立在K个用户端参与的基础上,其算法的目标函数定义如下:

(11)

式(10)和式(11)中:Pk为第k个用户拥有的本地训练样本,K为设备总量,nk为样本数且nk=|Pk|,Fk(w)为第k个设备的本地目标函数,Pk是第k个客户端的本地数据集,n是所有用户端数据量总和,nk是第k个客户端数据量,fi(w)=l(xi,yi,wi)是具有参数w的模型对数据集Pk中的实例(xi,yi)产生的损失函数。

采用联邦平均训练后的模型,得到一个优于各用户端局部的损失函数,其算法流程如下。

联邦平均算法:设K个用户端,B为本地小批量数据集大小,E为以每一次训练完本地所有数据为单位的总次数,η为学习率。

服务器执行:

1 初始化模型参数w0

2 对于每一个全局模型更新轮次i=1,2,3,…,do

3 确定随机选取m←max(C·K,1)个参与方

4 m个客户端随机集合Si

5 对于每一个参与方k∈Si,并行do

参与方更新:

8 将数据集Pk分成批量大小为B子数据集

9 对每个本地训练集遍历的次数t从1到E do

10 对于每一个批次b∈B do

11 更新模型参数w←w-η∇ζ(ω;b)

将模型参数w返回服务器

为减少联邦平均给模型带来的不利影响,WANG等[70]提出了联邦匹配平均技术,其在模型收敛性方面明显优于联邦平均,能有效利用已训练好的局部模型,减少通信负担;PRANEETH等[71]提出了随机控制平均算法,用以纠正基于联邦平均在处理Non-IID数据时产生“客户漂移”的现象,并能降低用户因采样方差降低所带来的损失,利用参与者之间的相似性减少通信成本;YE等[72]提出了一种边缘联邦学习,通过对设备端输出信息进行量化,分离本地模型训练,提高计算效率,降低通信成本。文献[70-72]的方法虽可减轻通信负担,但无法保证模型精度。为此,DANIEL等[73]提出一种新算法——FetchSGD,用以克服用户端因其设备稀松参与面临的通信瓶颈和收敛问题,在保证模型精度的前提下,通过压缩梯度降低通信成本;类似的,KONEN等[74]通过结构化更新和草图更新两种方法,将完整的模型压缩更新后发送到服务器聚合,结果所用方法表明能有效降低通信开销;HAMER等[75]提出了FedBoost算法,训练一组预先训练好的机器学习模型参与到每一轮模型训练过程中,并在100个基础预测器中随机选取T个权重,更新后发送给服务器端用于更新这100个权重。与梯度压缩不同的是,该方法不仅降低了服务器与用户端之间的通信成本,还证明了其在标准检验风险以及不可知风险最小化任务中的最优性。文献[73-75]在模型精度以及通信方面具有明显优势,但因其模型复杂程度的增加,会给其实际部署带来不利影响。

3.3 异构性

异构是指由不同的元素或部分组成,不同领域对异构的解释也不尽相同。在机器学习领域,因联邦学习独特的模型训练方式,即通过分布式训练用户本地数据来获得一个高质量的全局模型,而无法捕捉到用户端本地设备信息,使得联邦学习面临异构性挑战:①用户端设备在不同分布式网络坏境下,生成和收集的往往是Non-IID数据,导致统计异构性;②用户端因其设备存储、硬件条件(CPU、内存)、电源的不同、网络连接(3G、4G、5G、WiFi)等方面的差异而导致的系统异构性(如设备异构性、模型异构性)。这在一定程度上导致推理或分类性能有所下降,不利于联邦学习整体策略的制定。为此,针对异构性问题,已有诸多学者就其应对技术方案展开了相关研究,如表4所示。

表4 异构性问题的应对技术方案

续表4

针对用户端的统计、设备、模型异构性问题,现有的一些技术能为其提供较好的解决方案,并取得了一定的成效,如平衡Non-IID数据偏差[78]、允许部分设备参与[84]、定制个性化联邦学习模型[89]等。但在通信成本和模型性能方面无法得到有效权衡[76,80-81,84,86,89-90],这使得其方案在实际部署中的有效性仍需进一步验证。而模型复杂度的增加[78,83,87-90]以及存储、计算等额外成本的增多[78,85,87-88],也给模型部署带来了极大的挑战。此外,在复杂的物联网环境下,当有大量用户端设备参与时,可能会出现某些用户端设备网络延迟或掉线等情况,而文献[79,81-82,88]等并未考虑用户端设备选择问题。因此,文献[77-78,84,87]更符合实际联邦环境设置。

3.4 激励机制

激励机制是指通过特定的方法与管理体系,将员工对组织及工作的承诺最大化。激励机制是所有经济活动的核心,无论对于个人决策还是在更大的制度结构内的合作和竞争[30]。由于联邦学习模型训练涉及多方参与,且参与方之间在数据质量方面的不平衡性,导致用户不愿参与或使其参与到联邦学习中处于不公平的地位。但目前的研究主要集中在改善联邦学习模型性能上,忽视了用户加入联邦学习的激励机制。因此,如何使用户持续参与到联邦学习中,在最大化联邦学习可持续经营的同时最小化用户之间的不公平性,是保证联邦学习被广泛推广与应用的关键。

利用博弈论设计激励机制已展开诸多研究,如KHAN等[91]提出一种Stackelberg博弈的方法,可使参与用户有策略的设置局部迭代次数,以最大化其效用,结果表明了该方法在模拟中心服务器和边缘设备端之间交互建模的有效性;HU等[92]采用两阶段Stackelberg博弈的方法,通过解决Stackelberg均衡,得到服务器和用户之间效用最大化策略;ZHAN等[93]分析了Stackelberg博弈中Stackelberg均衡和Nash均衡两个阶段的唯一性,有效解决了激励机制是如何影响中心服务器的效用问题,并提出了基于DRL的激励机制,来解决非共享信息面临的独特挑战和联邦学习中贡献评估困难等问题。此外,可根据驱动方式的不同,有如表5所示的一些联邦学习激励机制方案设计。

表5 不同驱动方式下的联邦学习激励机制方案设计

针对目前基于不同驱动方式的激励机制方案设计,如基于用户贡献驱动、基于用户声誉驱动以及基于用户资源配置驱动,虽能保证用户奖励合理分配[94,97,102],但未能有效权衡模型性能和计算成本[97,101-102],这在一定程度上降低了其方案的实用性;其次是激励机制方案设计缺乏隐私安全保证,如文献[94-96,98]。而文献[99-101]虽能更好地保证用户隐私安全,但其模型复杂度高,也给模型部署带来了一定的局限性。此外,如文献[99-100],其评分机制过于主观,缺乏质量评价方案,容易受到恶意评分者的影响,而文献[101]则是通过多权重主观逻辑模型生成其综合声誉价值,能较好地消除恶意用户的影响,从而提高模型的可靠性、公平性。

4 联邦学习的应用

近年来涌现的诸多联邦学习应用平台和框架,大大加快了联邦学习的落地应用进程。同时,随着联邦学习的兴起和成熟,其在各国政府重点关注的智能制造、医疗以及教育等数据敏感领域具有广泛的应用前景,并取得了可观的成效。

4.1 应用平台和框架

联邦学习经过几年的迅猛发展,技术和应用逐渐走向成熟,涌现了众多的平台和框架,如腾讯安全联邦学习应用服务平台(FLAS)、基于百度飞桨(PaddlePaddle)的开源联邦学习框架PaddleFL、微众银行的开源项目联邦学习框架(Federated AI Technology Enabler, FATE)、谷歌发布的Tensorflow Federated框架、富数科技旗下的安全计算产品—富数多方安全计算平台(FMPC),以及由人工智能平台OpenMind领导首次实现的隐私保护深度学习通用框架PySyft等,各平台和框架的优势与不足如表6所示。

表6 各联邦学习平台和框架优缺点

针对上述联邦学习应用平台和框架,如FLAS、PaddleFL、Tensorflow Federated、PySyft等,并不支持联邦迁移学习,导致其实际应用部署时的局限性,相比之下,FATE因其覆盖横向、纵向联邦学习以及联邦迁移学习,更符合企业数据信息资源共享的实际需求,但其版本之间的兼容性较差,且对实验环境配置有着严格的要求,不利于其框架的部署。其次,如PaddleFL系统复杂性高、FMPC并未开源、PySyft模型训练时间成本高以及Tensorflow Federated调试困难等缺点,不利于研究人员更好地使用和开发。而FATE因其扩展性强、支持多方部署等优点,更有利于研究人员开展实验,但其操作复杂程度还需进一步降低。

4.2 在智能制造领域中的应用

随着《中国智能制造2025》浪潮的推进,智能制造行业信息化进程大大加快,使得制造大数据呈现出爆炸式增长趋势[106-107]。近年来,各种新兴热点技术推动着智能制造行业的发展[108],如物联网技术[109-110]、大数据技术[111-112]、云计算技术[113-114]、人工智能算法[115]、区块链技术[116]等,虽有效解决了制造大数据中的信息提取、存储、传输以及计算问题,但无法完全保证数据共享过程中的安全性。此外,相关数据隐私技术因其技术本身的局限性、数据信息量的约束等因素,未能有效解决数据隐私保护问题。这在一定程度上阻碍了企业之间的数据共享,难以充分发挥数据潜在价值。

联邦学习在遵守规范框架的前提下,通过参与方协作构建模型而成为主流方案[25],在保证数据隐私安全的同时,实现多方数据共享,是一种创新的建模机制,随着联邦学习在隐私方面取得的成就,其在智能制造领域的应用是合乎逻辑的。只有当联邦学习被应用到智能制造领域,才能利用这些分散的数据获得无限的收益。

针对目前联邦学习在智能制造领域的研究鲜有开展,为此,结合联邦学习在数据共享方面具有明显的优势,本文构建出如图5所示的基于工业机器人、智能汽车和无人机等行业的联邦学习应用框架。首先对企业数据1、企业数据2和企业数据3(如制造数据、生产数据等)按其数据的特征/样本对齐划分,企业端从云端服务器下载全局初始模型进行本地模型训练;其次采用边缘计算技术,对各企业本地模型进行分割后,加密上传给边缘端进行模型训练;最后云端服务器聚合来自边缘端训练后加密上传的模型参数,用于新一轮的更新。在保证企业数据隐私安全的同时,进一步为企业的智能化升级提供技术支撑与智能决策。

4.3 在医疗领域中的应用

随着人工智能技术的发展,为减少人工成本和人为误差,诸多人工智能技术在医疗领域得到发展[117-118],但仍处于起步阶段。由于难以收集到全面描述患者的数据,从而无法准确诊断患者疾病。若采用传统的机器学习,数据和标签的不足将导致机器学习模型性能降低。联邦学习技术能够促进医疗机构之间的联合,如图6所示。首先,医院1、医院2、医院3从中央服务器下载初始化模型,进行本地模型加密(如同态加密)训练;其次医院1、医院2、医院3将其本地训练后的模型参数加密传输至中央服务器聚合,用于下一轮的更新。其中,在本地模型训练阶段,对医院1、医院2、医院3进行本地数据(如基因诊断数据、药物开发数据以及电子健康记录等)对齐,通过引入医院4作为协作者,用以分发公钥、加密汇总梯度损失等。因此,各医疗机构在不交换或公开其原始数据的基础上,大大提高了其数据共享的隐私安全性,同时使得各参与方可协作训练一个共同的共享模型,使得该模型性能优于单一医疗机构上训练的模型。此外,联邦迁移学习技术在各医疗机构因样本差异性而导致模型欠佳问题上具有明显优势,在智能医疗系统中发挥着重要作用。

现阶段联邦学习与医疗领域结合的相关研究已有开展,如BRISIMI等[119]利用聚类原始对偶分解算法,通过解决各种数据源/用户中的电子健康记录数据,来预测心脏病相关患者的未来住院治疗概率;FEKI等[120]提出一个协作式联邦学习框架,允许多个医疗机构使用深度学习从胸部X射线图像中筛选出COVID-19,而无需共享患者数据;YAN等[121]为解决医学图像数据中的跨客户端发生变异难题,首次提出了一种变异感知联邦学习(Variation-Aware Federated Learning, VAFL)框架,使用多源分散表观扩散系数(Apparent Diffusion Coefficient, ADC)图像数据对其进行评估,并取得了较好的稳定性。因此,随着联邦学习技术的发展,其在数据敏感性强的医疗领域显示出强大的应用潜力。

4.4 在教育领域中的应用

近年来,人工智能、大数据等技术在教育领域的研究已取得一定的进展,如ZHANG等[122]基于深度学习构建出一个适用于高等教育的智能教育系统框架,实现对学生的知识学习状况进行跟踪;LIU等[123]提出一种基于人工智能神经网络误差反向传播算法和压力测试的方法,来分析教师的教学态度、教学内容、教学方法等对大学生对知识的掌握和能力建设的影响;STANDEN等[124]采用多模式传感器数据与机器学习算法相结合的方法,来识别与学习相关的情感状态,继而确定学习内容的呈现方式,从而使学习者保持最佳的情感状态,并最大程度地提高其学习速度。这些技术虽加快了教育智能化进程,但长期以来,教育工作者更期望能够建立一套跨学科的综合课程教学系统,而STEM[125]、自适应电子学习[126]等系统缺少综合性学习体验,仅局限在单一或几个学科,不具全面性,无法针对学生学习能力和兴趣爱好等差异而实现定制化教育。

为此,联邦学习可实现教育资源的整合,构建一个覆盖性全面的初始模型,通过整合学习者模型、课程知识等,并拓展延伸以适应于其他学习者,实现定制化教育,如图7所示。针对学生A、学生B、学生C不同的兴趣爱好,教育机构利用联邦学习技术,基于学生端移动设备(如智能手机、Ipad以及笔记本电脑)所存储的数据,协同构建一个通用学习计划模型。其一般流程是由各学生端从教育机构下载初始化通用学习计划模型,用于本地模型训练,但因学生端不同设备而导致的设备异构性问题,可通过引入用户端—边缘端—云端分层联邦学习系统,允许多个边缘服务器执行部分模型聚合[82],用以减少模型训练时间、通信成本以及学生端设备的能量消耗,其架构如图7右下图所示。学生端将其模型参数发送给边缘服务器进行部分聚合后,由边缘服务器发送给云端服务器聚合;其次由云端服务器将聚合后的模型参数分发给边缘端;最后由边缘器发送给学生端用于其本地更新。因此,学生端可根据其自身特长、需求以及兴趣等进行本地模型更新,训练出定制化、个性化学习指导模型。

5 未来方向

综上所述,联邦学习旨在建立一个“数据隐私安全共同体”的训练模式,凭借其自身优势受到了许多研究人员的广泛关注并取得诸多成效。而联邦学习作为新兴的人工智能基础技术,在许多关键的开放性问题上仍还有待探索。因此,本章将对联邦学习的隐私保护、通信效率、异构性、激励机制以及应用等方面的未来研究方向和挑战进行简要的分析与总结。

(1)权衡隐私保护和联邦学习系统性能

联邦学习通过分布式进行本地模型的训练,但在其模型训练过程中,用户的敏感隐私数据仍可能泄露给对手或第三方[57,65-66,68],而现有的解决方案,是在牺牲联邦学习模型性能的基础上来保证其隐私安全,同时还给服务器增加了计算压力[59,64,67]。因此,隐私作为联邦学习的一个关键因素,在实现联邦学习系统时,需更好地权衡其系统性能与隐私保护之间的合理性、有效性,重点是增强隐私和标准化每个需求的方法,如采用通用应用程序编程接口(Application Programming Interfaces, APIs)的方法来实现这种增强[24]。

(2)建立多服务器安全交互模式

通信效率问题是当前众多学者热衷的研究热点,而现有的联邦学习模型训练都是基于一个服务器端和所有用户端进行模型参数交互,边缘计算的引入[82],虽在一定程度上缓解了中心服务器的通信及计算压力,但在大规模用户参与下,也会造成服务器端计算效率低下甚至瘫痪的情况。此外,为保证数据安全交互而采用加密或防御手段,给服务器增加巨大的通信负担,甚至会使训练节点通信延迟或失败。因此,可采取类似于对等网络结构联邦学习[42]模型训练方法,在多个服务器之间使用加密技术进行模型参数安全交互,其有效性虽有待验证,但仍值得深入研究。

(3)探索新的异步算法

联邦学习使得服务器在不接触用户原始数据的前提下,难以知晓用户数据是否混淆、标签是否正确、是否缺失类、特征和值[39]等异构程度,同时还可能出现掉队或容错的情形,这使得其模型性能出现较大的偏差。因此,异步联邦学习算法[83]可作为一种解决方案,更符合实际的联邦学习设置,也是使联邦学习具有可扩展性的一个重要因素。但为保证模型收敛性,同步联邦学习算法仍是当前常用的方法[81]。鉴于异步联邦学习的诸多优势,其算法创新仍是未来工作中应持续探索的方向,如考虑非凸损失函数在Non-IID环境中的收敛性[127]。

(4)保证激励机制方案设计的安全性

尽管目前已有许多学者在联邦学习的激励机制方案设计方面做了很多工作,并已取得一定成效[94,102],但他们并未考虑其中的一个关键问题,即激励机制设计方案的安全性[96,98]。若联邦学习模型训练过程中存在不诚实敌手或第三方,如用户利用较少的数据进行本地模型训练,造成本地模型训练提前中止,使得模型性能产生较大的偏差,增加用户数据隐私泄露风险。因此,有必要对恶意用户进行惩罚,从而降低他们作恶的概率,将是一个重要的方向[99]。

(5)提高模型可解释性

可解释性是指让人类理解或向人类解释的能力,而联邦学习独特的训练方式在一定程度上增加了模型的复杂度,不利于研究者更好地将数据、模型以及问题理解结合起来,无法对模型异常的产生原因进行定位和追踪,其内在暴露的安全隐患问题,对模型的可靠性和安全性造成一定的威胁[128]。因此,可利用局部可解释模型[129]、模型替代[130]等技术,从局部模型、全局模型等角度来提高模型可解释性,实现模型异常的可溯性,也是未来研究中的一大挑战。

(6)探索多技术融合方法

现有的诸多联邦学习技术在模型效果方面受限,即在模型精度、通信成本等单一或少数方面虽具有明显优势,却未能有效权衡联邦学习中隐私保护、异构性以及公平性等多方面因素,这使得诸多联邦学习模型方案缺乏实用性。因此,通过多技术融合,如区块链技术与安全多方计算结合[131]、安全多方计算与同态加密结合[58]等,来提高模型的泛化性、实用性。但就目前而言,由于技术之间的局限性,除算法创新难度大之外,保证多技术融合方法的可行性、有效性对研究者来说也是一个巨大的挑战。

(7)开发功能性完善的联邦学习应用平台和框架

当前已有的一些联邦学习应用平台和框架功能还不够完善,如FLAS、PaddleFL只支持横向和纵向联邦学习,而在实际应用中,大多企业因其数据之间的样本和特征并无交集,从而使得联邦迁移学习更具普适性;其次是TensorFlow Federated、FATE等联邦学习框架缺少隐私保护技术集成库或工具箱,如同态加密、差分隐私等。而PySyft虽集成了安全多方计算和差分隐私机制,但仅支持横向联邦学习,这在一定程度上使其实际应用部署受限,不利于联邦学习效能的充分发挥。尽管目前各联邦学习应用平台和框架具有一定的局限性,但利用其优势互补,开发出完善、高效的联邦学习应用平台和框架也是未来可践行的一个研究方向。

6 结束语

本文重点介绍了联邦学习的隐私保护、通信效率、异构性以及激励机制4个方面的相关技术研究进展,并分析了各技术的优势与不足;对现有的联邦学习框架进行了对比分析,并提出了联邦学习在智能制造、医疗以及教育等领域的应用框架;最后为研究学者在联邦学习领域提供了一些未来可参考的研究方向。随着各企业之间数据孤岛问题日益严重,迫切需要新技术在保证数据隐私安全的前提下实现数据共享,从而使得各行业健康可持续发展。为此,联邦学习应运而生,给各企业之间数据共享提供了新的解决思路和方案,随着联邦学习的应用与发展,势必能在各行各业发挥其更大的价值。

猜你喜欢

用户端联邦服务器
Android用户端东北地区秸秆焚烧点监测系统开发与应用
联邦学习在金融数据安全领域的研究与应用
服务器组功能的使用
一“炮”而红 音联邦SVSound 2000 Pro品鉴会完满举行
理解Horizon 连接服务器、安全服务器的配置
PowerTCP Server Tool
303A深圳市音联邦电气有限公司
基于三层结构下机房管理系统的实现分析
基于三层结构下机房管理系统的实现分析
一种太阳能户外自动花架电气系统简介