李少波,楊 磊,李傳江,張安思,羅瑞士
(1.貴州大學(xué) 省部共建公共大數(shù)據(jù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽(yáng) 550025; 2.貴州大學(xué) 機(jī)械工程學(xué)院,貴州 貴陽(yáng) 550025)
隨著第四次工業(yè)革命的到來(lái),新一代人工智能、大數(shù)據(jù)等技術(shù)為傳統(tǒng)行業(yè)智能化轉(zhuǎn)型發(fā)展帶來(lái)了機(jī)遇,如制造行業(yè)已由傳統(tǒng)制造模式升級(jí)為數(shù)據(jù)驅(qū)動(dòng)下的智能制造[1-2],其中以鑄造行業(yè)、船舶以及汽車等行業(yè)為典型;與此同時(shí),在數(shù)據(jù)成為生產(chǎn)要素并發(fā)揮著愈加重要作用的今天,也對(duì)數(shù)據(jù)共享及隱私安全提出了新挑戰(zhàn)。由于行業(yè)間的競(jìng)爭(zhēng)、壟斷以及不同企業(yè)之間業(yè)務(wù)的封閉性和阻塞性,使得企業(yè)之間數(shù)據(jù)信息交互困難重重。
機(jī)器學(xué)習(xí)(Machine Learning, ML)作為近年來(lái)大數(shù)據(jù)分析的主要方法之一[3-4],涵蓋了支持向量機(jī)[5-6]、神經(jīng)網(wǎng)絡(luò)[7-8]、聚類算法[9-10]、回歸算法[11-12]等多種智能算法,在諸多領(lǐng)域的應(yīng)用效果已超過人類表現(xiàn)[13],成功應(yīng)用于醫(yī)療衛(wèi)生[14]、財(cái)務(wù)管理[15]以及工業(yè)制造[16]等領(lǐng)域。傳統(tǒng)的機(jī)器學(xué)習(xí)方法是基于所有數(shù)據(jù)集中訓(xùn)練[17],但存在以下限制:①企業(yè)之間受限于某些商業(yè)因素[18],難以實(shí)現(xiàn)數(shù)據(jù)的充分共享[19],存在嚴(yán)重的數(shù)據(jù)孤島現(xiàn)象;②在傳統(tǒng)的機(jī)器學(xué)習(xí)過程中,數(shù)據(jù)傳輸至企業(yè)服務(wù)器的過程中存在隱私泄露風(fēng)險(xiǎn),或者云端集中式訓(xùn)練數(shù)據(jù)模型可能會(huì)將其暴露給惡意攻擊者;③集中式訓(xùn)練數(shù)據(jù)模型對(duì)企業(yè)服務(wù)器的計(jì)算和存儲(chǔ)能力帶來(lái)了巨大的挑戰(zhàn)。
為解決以上問題,谷歌[20]于2016年首次提出聯(lián)邦學(xué)習(xí)(Federated Learning, FL)理論。作為機(jī)器學(xué)習(xí)的新興范式,聯(lián)邦學(xué)習(xí)為用戶數(shù)據(jù)共享提供了新穎的解決方案,使得用戶原始數(shù)據(jù)在不出本地的基礎(chǔ)上便能得到一個(gè)更優(yōu)化的模型,做到“數(shù)據(jù)不動(dòng)模型動(dòng)”,在保證用戶數(shù)據(jù)隱私安全的前提下,打破數(shù)據(jù)孤島,充分挖掘數(shù)據(jù)中的潛在價(jià)值。目前,聯(lián)邦學(xué)習(xí)已初步應(yīng)用于醫(yī)學(xué)成像[21]、智能終端[22]以及計(jì)算機(jī)視覺[23]等領(lǐng)域。
通過調(diào)研近3年的聯(lián)邦學(xué)習(xí)綜述文獻(xiàn),聯(lián)邦學(xué)習(xí)的隱私安全、應(yīng)用和其他(如通信開銷、激勵(lì)機(jī)制等)3個(gè)方面,各占文獻(xiàn)總數(shù)的43.75%、31.25%、25%,如圖1所示。表1列出了2019~2021年部分聯(lián)邦學(xué)習(xí)綜述文獻(xiàn),如MOTHUKURI等[24]全面介紹了當(dāng)前聯(lián)邦學(xué)習(xí)面臨的安全威脅及應(yīng)對(duì)策略;LI等[25]在介紹了聯(lián)邦學(xué)習(xí)模型訓(xùn)練時(shí)可能受到相關(guān)攻擊的基礎(chǔ)上,介紹了其在移動(dòng)設(shè)備、醫(yī)療、工業(yè)等方面的應(yīng)用;KULKARNI等[26]從多任務(wù)學(xué)習(xí)、元學(xué)習(xí)等方面介紹了聯(lián)邦學(xué)習(xí)中針對(duì)異構(gòu)性問題的相關(guān)技術(shù)研究進(jìn)展??梢钥闯?,近年來(lái),領(lǐng)域?qū)W者主要聚焦于聯(lián)邦學(xué)習(xí)的隱私安全、通信、異構(gòu)性或者激勵(lì)機(jī)制等單方面的綜述,缺少全面系統(tǒng)性的綜述研究。為此,本文圍繞聯(lián)邦學(xué)習(xí)的技術(shù)、應(yīng)用以及未來(lái)方向3個(gè)方面,進(jìn)行了較為全面的分析和總結(jié)。
表1 2019~2021年部分綜述文獻(xiàn)
續(xù)表1
聯(lián)邦學(xué)習(xí)又稱為聯(lián)邦機(jī)器學(xué)習(xí)、聯(lián)合學(xué)習(xí)或聯(lián)盟學(xué)習(xí),是一種新型的機(jī)器學(xué)習(xí)框架,包含對(duì)等網(wǎng)絡(luò)結(jié)構(gòu)[42]和用戶—服務(wù)器[43]兩種聯(lián)邦學(xué)習(xí)架構(gòu),后者應(yīng)用居多,其架構(gòu)學(xué)習(xí)流程及模型訓(xùn)練步驟分別如圖2和表2所示。由于在實(shí)際生活中,企業(yè)和用戶數(shù)據(jù)大都以分散的形式存在,而聯(lián)邦學(xué)習(xí)作為應(yīng)對(duì)數(shù)據(jù)孤島問題的有效解決方案,在滿足用戶數(shù)據(jù)隱私安全和政府相關(guān)法規(guī)的前提下,對(duì)多個(gè)數(shù)據(jù)擁有方進(jìn)行聯(lián)合建模,且不需要共享各用戶的原始數(shù)據(jù),即聯(lián)邦學(xué)習(xí)面向的對(duì)象是分散式多用戶的場(chǎng)景。設(shè)有N位用戶參與{F1,F2,F3,…,FN},其本地?cái)?shù)據(jù)集為{D1,D2,D3,…,DN},聯(lián)邦學(xué)習(xí)允許參與者協(xié)同訓(xùn)練出一個(gè)共同的共享模型{MFED},而傳統(tǒng)機(jī)器學(xué)習(xí)是將數(shù)據(jù)集中進(jìn)行模型{MSUM}的訓(xùn)練,設(shè){VFED}和{VSUM}分別表示{MFED},{MSUM}的模型精度,存在一個(gè)正數(shù)δ,滿足:
表2 用戶—服務(wù)器模型訓(xùn)練步驟
|VFED-VSUM|<δ。
(1)
則稱其在聯(lián)邦學(xué)習(xí)模型允許的性能損失范圍內(nèi)達(dá)到了δ-精度損失[19]。
根據(jù)參與用戶數(shù)據(jù)的樣本及其特征之間的差異性,聯(lián)邦學(xué)習(xí)可分為橫向聯(lián)邦學(xué)習(xí)(Horizontal Federated Learning, HFL)[44]、縱向聯(lián)邦學(xué)習(xí)(Vertical Federated Learning, VFL)[45]和聯(lián)邦遷移學(xué)習(xí)(Federated Transfer Learning, FTL)[46-47],如圖3所示。因此,可根據(jù)數(shù)據(jù)孤島的不同分布特點(diǎn),提供不同的聯(lián)邦學(xué)習(xí)方案。
橫向聯(lián)邦學(xué)習(xí)適用于用戶數(shù)據(jù)的特征重疊較多而其樣本重疊較少的情況,即按樣本劃分[48]。設(shè)有A、B兩個(gè)用戶,(Di,Dj)、(Xi,Xj)、(Li,Lj)分別為用戶A和用戶B的數(shù)據(jù)、特征空間、數(shù)據(jù)標(biāo)簽和樣本ID空間,即:
Xi=Xj,Li=Lj,Ii≠Ij,?Di,Dj,i≠j。
(2)
與橫向聯(lián)邦學(xué)習(xí)不同的是,縱向聯(lián)邦學(xué)習(xí)適用于用戶數(shù)據(jù)的特征重疊較少而其樣本重疊較多的場(chǎng)景,即按特征劃分[48]:
Xi=Xj,Li≠Lj,Ii=Ij,?Di,Dj,i≠j。
(3)
聯(lián)邦遷移學(xué)習(xí)則適用于用戶數(shù)據(jù)的樣本和特征都沒有重疊或者重疊較少的情況,即某些用戶可能只有數(shù)據(jù)而沒有或者僅有很少的數(shù)據(jù)標(biāo)簽,即:
Xi≠Xj,Li≠Lj,Ii≠Ij,?Di,Dj,i≠j。
(4)
聯(lián)邦學(xué)習(xí)作為連接數(shù)據(jù)孤島的橋梁,在滿足數(shù)據(jù)隱私安全和監(jiān)管要求的前提下,使各用戶有效地利用其本地模型參數(shù)獲得高質(zhì)量的聯(lián)邦學(xué)習(xí)模型。但隨著聯(lián)邦學(xué)習(xí)的發(fā)展,也暴露了其存在的諸多問題,如模型訓(xùn)練存在的潛在威脅、通信效率慢、用戶數(shù)據(jù)可用性差、設(shè)備的不穩(wěn)定性以及參與用戶處于不公平地位等。因此,需權(quán)衡聯(lián)邦學(xué)習(xí)中的隱私安全、通信效率、異構(gòu)性以及公平性等多方面因素,如采用安全多方計(jì)算、模型壓縮、知識(shí)蒸餾、博弈論等技術(shù),來(lái)構(gòu)建一個(gè)更加安全、有效、公平的聯(lián)邦學(xué)習(xí)模型,如圖4所示。為此,本章將從聯(lián)邦學(xué)習(xí)的隱私保護(hù)、通信效率、異構(gòu)性、激勵(lì)機(jī)制4個(gè)方面,依次對(duì)其相關(guān)技術(shù)展開較為全面的綜述。
隱私保護(hù)是指對(duì)個(gè)人或企業(yè)敏感信息進(jìn)行保護(hù)的措施。因聯(lián)邦學(xué)習(xí)是建立在分布式訓(xùn)練用戶本地?cái)?shù)據(jù)的基礎(chǔ)上,利用邊緣端或用戶端設(shè)備協(xié)同構(gòu)建一個(gè)共享的聯(lián)邦學(xué)習(xí)模型。但其用戶本地?cái)?shù)據(jù)可能包含如企業(yè)的客戶資料、業(yè)務(wù)數(shù)據(jù)等企業(yè)敏感信息,關(guān)乎著企業(yè)聲譽(yù)、公眾信任感、經(jīng)濟(jì)利益等重大問題,一旦泄露將造成不可挽回的巨大損失。盡管在聯(lián)邦學(xué)習(xí)模型訓(xùn)練過程中,各用戶本地原始數(shù)據(jù)并未公開,但其局限性在于,若存在“不誠(chéng)實(shí)”、“誠(chéng)實(shí)且好奇”的服務(wù)器或者惡意用戶端,用戶本地?cái)?shù)據(jù)信息仍可能從更新后的模型參數(shù)中被反推出來(lái),即推理攻擊,以及投毒攻擊、基于生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)的攻擊等其他多種類型攻擊,對(duì)聯(lián)邦學(xué)習(xí)的隱私安全造成了巨大的潛在威脅,因而現(xiàn)階段聯(lián)邦學(xué)習(xí)尚未獲得廣泛信任。為此,本節(jié)主要介紹目前聯(lián)邦學(xué)習(xí)中如安全多方計(jì)算、同態(tài)加密、差分隱私等主流的隱私保護(hù)技術(shù)及其相關(guān)研究進(jìn)展。
(1)安全多方計(jì)算
1982年YAO[49]針對(duì)“百萬(wàn)富翁問題”提出安全多方計(jì)算并得到廣泛應(yīng)用,其原理是在僅展示用戶輸出信息的基礎(chǔ)上,使參與者能夠協(xié)同地從各參與方隱私輸入數(shù)據(jù)中計(jì)算相關(guān)函數(shù),并保證參與者輸入信息不被泄露。設(shè)n個(gè)參與者共同分配某個(gè)私有數(shù)值x,每個(gè)參與者Pi根據(jù)其擁有的內(nèi)容xi協(xié)同計(jì)算,得到相應(yīng)的輸出信息yi,即
y1,y2,…,yn=f(x1,x2,…,xn)。
(5)
(2)同態(tài)加密
同態(tài)加密是RIVEST等[50]于1978年提出,考慮到參與方存在“惡意”或“誠(chéng)實(shí)且好奇”的情形,采用加密方法對(duì)數(shù)據(jù)傳輸過程進(jìn)行保護(hù),是防御隱私攻擊的有效措施。其特性在于可對(duì)密文解密后得到明文結(jié)果,而不需要直接訪問明文。設(shè)H為一個(gè)同態(tài)加密方法,則有
H={KeyGen,Enc,Dec,Eval}。
(6)
式中:KeyGen為密匙生成函數(shù),Enc為加密函數(shù),Dec為解密函數(shù),Eval為評(píng)估函數(shù)。不同于安全多方計(jì)算,同態(tài)加密允許在加密內(nèi)容上進(jìn)行某些特定的代數(shù)運(yùn)算,如加法和乘法[51],以加性同態(tài)加密為例,其定義如下:
Encpk(m1)=c1,Encpk(m2)=c2。
(7)
Decsk(c1c2)=m1+m2。
(8)
式中:pk、sk分別是公鑰和私鑰,c1、c2分別是對(duì)明文m1、m2的加密結(jié)果,是某種加法或乘法運(yùn)算。
(3)差分隱私
差分隱私[52]則是將隨機(jī)生成的噪聲添加到基礎(chǔ)數(shù)據(jù)庫(kù)中,使數(shù)據(jù)庫(kù)中的個(gè)體信息混淆,達(dá)到敵手無(wú)法從查詢結(jié)果中獲取個(gè)體敏感信息的目的。其安全性能被廣泛認(rèn)為是當(dāng)前基于擾動(dòng)的隱私保護(hù)技術(shù)中最高的[53]。設(shè)兩個(gè)數(shù)據(jù)集D和D′且只有一個(gè)記錄不同,M為隨機(jī)保護(hù)機(jī)制,S為任意可能的輸出,且S?Range(M),對(duì)于(∈,δ)有:
Pr[M(D)∈S]≤Pr[M(D′)∈S]×e∈+δ。
(9)
隱私保護(hù)技術(shù)是保證聯(lián)邦學(xué)習(xí)模型安全可靠運(yùn)行的基礎(chǔ),近年來(lái)國(guó)內(nèi)外的相關(guān)研究已取得了明顯的進(jìn)步,如表3所示。
表3 隱私保護(hù)技術(shù)研究進(jìn)展
續(xù)表3
可以看出,當(dāng)前的隱私保護(hù)技術(shù)主要是通過加密或添加噪音的方法,如安全多方計(jì)算、同態(tài)加密以及差分隱私等,來(lái)保證用戶端和中央服務(wù)器之間的安全通信,但無(wú)法有效權(quán)衡模型精度和計(jì)算成本[54-55,58-59,64,66-69],且無(wú)法保證用戶端誠(chéng)實(shí)與否[56,65-66,68-69],對(duì)整個(gè)聯(lián)邦學(xué)習(xí)模型訓(xùn)練造成潛在的威脅。而模型復(fù)雜度的提高[60-63,66-67],也不利于其實(shí)際應(yīng)用部署。其次是現(xiàn)有隱私保護(hù)技術(shù)的單一性在一定程度上限制了聯(lián)邦學(xué)習(xí)效能的發(fā)揮,而文獻(xiàn)[58]的方案不失為一個(gè)好的參考方向,即利用多種隱私保護(hù)技術(shù)融合,為用戶提供更強(qiáng)大的隱私安全保證。
通信從廣義上指的是需要信息的雙方或多方在不違背各自意愿的情況下采用任意方法、任意媒質(zhì),將信息從某方準(zhǔn)確安全地傳送到另一方。而在聯(lián)邦學(xué)習(xí)模型的每一輪訓(xùn)練過程中,中央服務(wù)器都需聚合、發(fā)送每一個(gè)參與方的模型參數(shù)。因此,隨著參與方數(shù)量和迭代輪次的增加,將導(dǎo)致巨大的通信開銷。此外,聯(lián)邦學(xué)習(xí)還因其節(jié)點(diǎn)之間的不確定性,導(dǎo)致服務(wù)器與各參與方節(jié)點(diǎn)之間的通信成本往往高于傳統(tǒng)的分布式機(jī)器學(xué)習(xí)。目前,已有許多學(xué)者就如何降低其通信成本進(jìn)行了研究。
(10)
聯(lián)邦平均是建立在K個(gè)用戶端參與的基礎(chǔ)上,其算法的目標(biāo)函數(shù)定義如下:
(11)
式(10)和式(11)中:Pk為第k個(gè)用戶擁有的本地訓(xùn)練樣本,K為設(shè)備總量,nk為樣本數(shù)且nk=|Pk|,F(xiàn)k(w)為第k個(gè)設(shè)備的本地目標(biāo)函數(shù),Pk是第k個(gè)客戶端的本地?cái)?shù)據(jù)集,n是所有用戶端數(shù)據(jù)量總和,nk是第k個(gè)客戶端數(shù)據(jù)量,fi(w)=l(xi,yi,wi)是具有參數(shù)w的模型對(duì)數(shù)據(jù)集Pk中的實(shí)例(xi,yi)產(chǎn)生的損失函數(shù)。
采用聯(lián)邦平均訓(xùn)練后的模型,得到一個(gè)優(yōu)于各用戶端局部的損失函數(shù),其算法流程如下。
聯(lián)邦平均算法:設(shè)K個(gè)用戶端,B為本地小批量數(shù)據(jù)集大小,E為以每一次訓(xùn)練完本地所有數(shù)據(jù)為單位的總次數(shù),η為學(xué)習(xí)率。
服務(wù)器執(zhí)行:
1 初始化模型參數(shù)w0
2 對(duì)于每一個(gè)全局模型更新輪次i=1,2,3,…,do
3 確定隨機(jī)選取m←max(C·K,1)個(gè)參與方
4 m個(gè)客戶端隨機(jī)集合Si
5 對(duì)于每一個(gè)參與方k∈Si,并行do
參與方更新:
8 將數(shù)據(jù)集Pk分成批量大小為B子數(shù)據(jù)集
9 對(duì)每個(gè)本地訓(xùn)練集遍歷的次數(shù)t從1到E do
10 對(duì)于每一個(gè)批次b∈B do
11 更新模型參數(shù)w←w-η?ζ(ω;b)
將模型參數(shù)w返回服務(wù)器
為減少聯(lián)邦平均給模型帶來(lái)的不利影響,WANG等[70]提出了聯(lián)邦匹配平均技術(shù),其在模型收斂性方面明顯優(yōu)于聯(lián)邦平均,能有效利用已訓(xùn)練好的局部模型,減少通信負(fù)擔(dān);PRANEETH等[71]提出了隨機(jī)控制平均算法,用以糾正基于聯(lián)邦平均在處理Non-IID數(shù)據(jù)時(shí)產(chǎn)生“客戶漂移”的現(xiàn)象,并能降低用戶因采樣方差降低所帶來(lái)的損失,利用參與者之間的相似性減少通信成本;YE等[72]提出了一種邊緣聯(lián)邦學(xué)習(xí),通過對(duì)設(shè)備端輸出信息進(jìn)行量化,分離本地模型訓(xùn)練,提高計(jì)算效率,降低通信成本。文獻(xiàn)[70-72]的方法雖可減輕通信負(fù)擔(dān),但無(wú)法保證模型精度。為此,DANIEL等[73]提出一種新算法——FetchSGD,用以克服用戶端因其設(shè)備稀松參與面臨的通信瓶頸和收斂問題,在保證模型精度的前提下,通過壓縮梯度降低通信成本;類似的,KONEN等[74]通過結(jié)構(gòu)化更新和草圖更新兩種方法,將完整的模型壓縮更新后發(fā)送到服務(wù)器聚合,結(jié)果所用方法表明能有效降低通信開銷;HAMER等[75]提出了FedBoost算法,訓(xùn)練一組預(yù)先訓(xùn)練好的機(jī)器學(xué)習(xí)模型參與到每一輪模型訓(xùn)練過程中,并在100個(gè)基礎(chǔ)預(yù)測(cè)器中隨機(jī)選取T個(gè)權(quán)重,更新后發(fā)送給服務(wù)器端用于更新這100個(gè)權(quán)重。與梯度壓縮不同的是,該方法不僅降低了服務(wù)器與用戶端之間的通信成本,還證明了其在標(biāo)準(zhǔn)檢驗(yàn)風(fēng)險(xiǎn)以及不可知風(fēng)險(xiǎn)最小化任務(wù)中的最優(yōu)性。文獻(xiàn)[73-75]在模型精度以及通信方面具有明顯優(yōu)勢(shì),但因其模型復(fù)雜程度的增加,會(huì)給其實(shí)際部署帶來(lái)不利影響。
異構(gòu)是指由不同的元素或部分組成,不同領(lǐng)域?qū)Ξ悩?gòu)的解釋也不盡相同。在機(jī)器學(xué)習(xí)領(lǐng)域,因聯(lián)邦學(xué)習(xí)獨(dú)特的模型訓(xùn)練方式,即通過分布式訓(xùn)練用戶本地?cái)?shù)據(jù)來(lái)獲得一個(gè)高質(zhì)量的全局模型,而無(wú)法捕捉到用戶端本地設(shè)備信息,使得聯(lián)邦學(xué)習(xí)面臨異構(gòu)性挑戰(zhàn):①用戶端設(shè)備在不同分布式網(wǎng)絡(luò)壞境下,生成和收集的往往是Non-IID數(shù)據(jù),導(dǎo)致統(tǒng)計(jì)異構(gòu)性;②用戶端因其設(shè)備存儲(chǔ)、硬件條件(CPU、內(nèi)存)、電源的不同、網(wǎng)絡(luò)連接(3G、4G、5G、WiFi)等方面的差異而導(dǎo)致的系統(tǒng)異構(gòu)性(如設(shè)備異構(gòu)性、模型異構(gòu)性)。這在一定程度上導(dǎo)致推理或分類性能有所下降,不利于聯(lián)邦學(xué)習(xí)整體策略的制定。為此,針對(duì)異構(gòu)性問題,已有諸多學(xué)者就其應(yīng)對(duì)技術(shù)方案展開了相關(guān)研究,如表4所示。
表4 異構(gòu)性問題的應(yīng)對(duì)技術(shù)方案
續(xù)表4
針對(duì)用戶端的統(tǒng)計(jì)、設(shè)備、模型異構(gòu)性問題,現(xiàn)有的一些技術(shù)能為其提供較好的解決方案,并取得了一定的成效,如平衡Non-IID數(shù)據(jù)偏差[78]、允許部分設(shè)備參與[84]、定制個(gè)性化聯(lián)邦學(xué)習(xí)模型[89]等。但在通信成本和模型性能方面無(wú)法得到有效權(quán)衡[76,80-81,84,86,89-90],這使得其方案在實(shí)際部署中的有效性仍需進(jìn)一步驗(yàn)證。而模型復(fù)雜度的增加[78,83,87-90]以及存儲(chǔ)、計(jì)算等額外成本的增多[78,85,87-88],也給模型部署帶來(lái)了極大的挑戰(zhàn)。此外,在復(fù)雜的物聯(lián)網(wǎng)環(huán)境下,當(dāng)有大量用戶端設(shè)備參與時(shí),可能會(huì)出現(xiàn)某些用戶端設(shè)備網(wǎng)絡(luò)延遲或掉線等情況,而文獻(xiàn)[79,81-82,88]等并未考慮用戶端設(shè)備選擇問題。因此,文獻(xiàn)[77-78,84,87]更符合實(shí)際聯(lián)邦環(huán)境設(shè)置。
激勵(lì)機(jī)制是指通過特定的方法與管理體系,將員工對(duì)組織及工作的承諾最大化。激勵(lì)機(jī)制是所有經(jīng)濟(jì)活動(dòng)的核心,無(wú)論對(duì)于個(gè)人決策還是在更大的制度結(jié)構(gòu)內(nèi)的合作和競(jìng)爭(zhēng)[30]。由于聯(lián)邦學(xué)習(xí)模型訓(xùn)練涉及多方參與,且參與方之間在數(shù)據(jù)質(zhì)量方面的不平衡性,導(dǎo)致用戶不愿參與或使其參與到聯(lián)邦學(xué)習(xí)中處于不公平的地位。但目前的研究主要集中在改善聯(lián)邦學(xué)習(xí)模型性能上,忽視了用戶加入聯(lián)邦學(xué)習(xí)的激勵(lì)機(jī)制。因此,如何使用戶持續(xù)參與到聯(lián)邦學(xué)習(xí)中,在最大化聯(lián)邦學(xué)習(xí)可持續(xù)經(jīng)營(yíng)的同時(shí)最小化用戶之間的不公平性,是保證聯(lián)邦學(xué)習(xí)被廣泛推廣與應(yīng)用的關(guān)鍵。
利用博弈論設(shè)計(jì)激勵(lì)機(jī)制已展開諸多研究,如KHAN等[91]提出一種Stackelberg博弈的方法,可使參與用戶有策略的設(shè)置局部迭代次數(shù),以最大化其效用,結(jié)果表明了該方法在模擬中心服務(wù)器和邊緣設(shè)備端之間交互建模的有效性;HU等[92]采用兩階段Stackelberg博弈的方法,通過解決Stackelberg均衡,得到服務(wù)器和用戶之間效用最大化策略;ZHAN等[93]分析了Stackelberg博弈中Stackelberg均衡和Nash均衡兩個(gè)階段的唯一性,有效解決了激勵(lì)機(jī)制是如何影響中心服務(wù)器的效用問題,并提出了基于DRL的激勵(lì)機(jī)制,來(lái)解決非共享信息面臨的獨(dú)特挑戰(zhàn)和聯(lián)邦學(xué)習(xí)中貢獻(xiàn)評(píng)估困難等問題。此外,可根據(jù)驅(qū)動(dòng)方式的不同,有如表5所示的一些聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制方案設(shè)計(jì)。
表5 不同驅(qū)動(dòng)方式下的聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制方案設(shè)計(jì)
針對(duì)目前基于不同驅(qū)動(dòng)方式的激勵(lì)機(jī)制方案設(shè)計(jì),如基于用戶貢獻(xiàn)驅(qū)動(dòng)、基于用戶聲譽(yù)驅(qū)動(dòng)以及基于用戶資源配置驅(qū)動(dòng),雖能保證用戶獎(jiǎng)勵(lì)合理分配[94,97,102],但未能有效權(quán)衡模型性能和計(jì)算成本[97,101-102],這在一定程度上降低了其方案的實(shí)用性;其次是激勵(lì)機(jī)制方案設(shè)計(jì)缺乏隱私安全保證,如文獻(xiàn)[94-96,98]。而文獻(xiàn)[99-101]雖能更好地保證用戶隱私安全,但其模型復(fù)雜度高,也給模型部署帶來(lái)了一定的局限性。此外,如文獻(xiàn)[99-100],其評(píng)分機(jī)制過于主觀,缺乏質(zhì)量評(píng)價(jià)方案,容易受到惡意評(píng)分者的影響,而文獻(xiàn)[101]則是通過多權(quán)重主觀邏輯模型生成其綜合聲譽(yù)價(jià)值,能較好地消除惡意用戶的影響,從而提高模型的可靠性、公平性。
近年來(lái)涌現(xiàn)的諸多聯(lián)邦學(xué)習(xí)應(yīng)用平臺(tái)和框架,大大加快了聯(lián)邦學(xué)習(xí)的落地應(yīng)用進(jìn)程。同時(shí),隨著聯(lián)邦學(xué)習(xí)的興起和成熟,其在各國(guó)政府重點(diǎn)關(guān)注的智能制造、醫(yī)療以及教育等數(shù)據(jù)敏感領(lǐng)域具有廣泛的應(yīng)用前景,并取得了可觀的成效。
聯(lián)邦學(xué)習(xí)經(jīng)過幾年的迅猛發(fā)展,技術(shù)和應(yīng)用逐漸走向成熟,涌現(xiàn)了眾多的平臺(tái)和框架,如騰訊安全聯(lián)邦學(xué)習(xí)應(yīng)用服務(wù)平臺(tái)(FLAS)、基于百度飛槳(PaddlePaddle)的開源聯(lián)邦學(xué)習(xí)框架PaddleFL、微眾銀行的開源項(xiàng)目聯(lián)邦學(xué)習(xí)框架(Federated AI Technology Enabler, FATE)、谷歌發(fā)布的Tensorflow Federated框架、富數(shù)科技旗下的安全計(jì)算產(chǎn)品—富數(shù)多方安全計(jì)算平臺(tái)(FMPC),以及由人工智能平臺(tái)OpenMind領(lǐng)導(dǎo)首次實(shí)現(xiàn)的隱私保護(hù)深度學(xué)習(xí)通用框架PySyft等,各平臺(tái)和框架的優(yōu)勢(shì)與不足如表6所示。
表6 各聯(lián)邦學(xué)習(xí)平臺(tái)和框架優(yōu)缺點(diǎn)
針對(duì)上述聯(lián)邦學(xué)習(xí)應(yīng)用平臺(tái)和框架,如FLAS、PaddleFL、Tensorflow Federated、PySyft等,并不支持聯(lián)邦遷移學(xué)習(xí),導(dǎo)致其實(shí)際應(yīng)用部署時(shí)的局限性,相比之下,F(xiàn)ATE因其覆蓋橫向、縱向聯(lián)邦學(xué)習(xí)以及聯(lián)邦遷移學(xué)習(xí),更符合企業(yè)數(shù)據(jù)信息資源共享的實(shí)際需求,但其版本之間的兼容性較差,且對(duì)實(shí)驗(yàn)環(huán)境配置有著嚴(yán)格的要求,不利于其框架的部署。其次,如PaddleFL系統(tǒng)復(fù)雜性高、FMPC并未開源、PySyft模型訓(xùn)練時(shí)間成本高以及Tensorflow Federated調(diào)試?yán)щy等缺點(diǎn),不利于研究人員更好地使用和開發(fā)。而FATE因其擴(kuò)展性強(qiáng)、支持多方部署等優(yōu)點(diǎn),更有利于研究人員開展實(shí)驗(yàn),但其操作復(fù)雜程度還需進(jìn)一步降低。
隨著《中國(guó)智能制造2025》浪潮的推進(jìn),智能制造行業(yè)信息化進(jìn)程大大加快,使得制造大數(shù)據(jù)呈現(xiàn)出爆炸式增長(zhǎng)趨勢(shì)[106-107]。近年來(lái),各種新興熱點(diǎn)技術(shù)推動(dòng)著智能制造行業(yè)的發(fā)展[108],如物聯(lián)網(wǎng)技術(shù)[109-110]、大數(shù)據(jù)技術(shù)[111-112]、云計(jì)算技術(shù)[113-114]、人工智能算法[115]、區(qū)塊鏈技術(shù)[116]等,雖有效解決了制造大數(shù)據(jù)中的信息提取、存儲(chǔ)、傳輸以及計(jì)算問題,但無(wú)法完全保證數(shù)據(jù)共享過程中的安全性。此外,相關(guān)數(shù)據(jù)隱私技術(shù)因其技術(shù)本身的局限性、數(shù)據(jù)信息量的約束等因素,未能有效解決數(shù)據(jù)隱私保護(hù)問題。這在一定程度上阻礙了企業(yè)之間的數(shù)據(jù)共享,難以充分發(fā)揮數(shù)據(jù)潛在價(jià)值。
聯(lián)邦學(xué)習(xí)在遵守規(guī)范框架的前提下,通過參與方協(xié)作構(gòu)建模型而成為主流方案[25],在保證數(shù)據(jù)隱私安全的同時(shí),實(shí)現(xiàn)多方數(shù)據(jù)共享,是一種創(chuàng)新的建模機(jī)制,隨著聯(lián)邦學(xué)習(xí)在隱私方面取得的成就,其在智能制造領(lǐng)域的應(yīng)用是合乎邏輯的。只有當(dāng)聯(lián)邦學(xué)習(xí)被應(yīng)用到智能制造領(lǐng)域,才能利用這些分散的數(shù)據(jù)獲得無(wú)限的收益。
針對(duì)目前聯(lián)邦學(xué)習(xí)在智能制造領(lǐng)域的研究鮮有開展,為此,結(jié)合聯(lián)邦學(xué)習(xí)在數(shù)據(jù)共享方面具有明顯的優(yōu)勢(shì),本文構(gòu)建出如圖5所示的基于工業(yè)機(jī)器人、智能汽車和無(wú)人機(jī)等行業(yè)的聯(lián)邦學(xué)習(xí)應(yīng)用框架。首先對(duì)企業(yè)數(shù)據(jù)1、企業(yè)數(shù)據(jù)2和企業(yè)數(shù)據(jù)3(如制造數(shù)據(jù)、生產(chǎn)數(shù)據(jù)等)按其數(shù)據(jù)的特征/樣本對(duì)齊劃分,企業(yè)端從云端服務(wù)器下載全局初始模型進(jìn)行本地模型訓(xùn)練;其次采用邊緣計(jì)算技術(shù),對(duì)各企業(yè)本地模型進(jìn)行分割后,加密上傳給邊緣端進(jìn)行模型訓(xùn)練;最后云端服務(wù)器聚合來(lái)自邊緣端訓(xùn)練后加密上傳的模型參數(shù),用于新一輪的更新。在保證企業(yè)數(shù)據(jù)隱私安全的同時(shí),進(jìn)一步為企業(yè)的智能化升級(jí)提供技術(shù)支撐與智能決策。
隨著人工智能技術(shù)的發(fā)展,為減少人工成本和人為誤差,諸多人工智能技術(shù)在醫(yī)療領(lǐng)域得到發(fā)展[117-118],但仍處于起步階段。由于難以收集到全面描述患者的數(shù)據(jù),從而無(wú)法準(zhǔn)確診斷患者疾病。若采用傳統(tǒng)的機(jī)器學(xué)習(xí),數(shù)據(jù)和標(biāo)簽的不足將導(dǎo)致機(jī)器學(xué)習(xí)模型性能降低。聯(lián)邦學(xué)習(xí)技術(shù)能夠促進(jìn)醫(yī)療機(jī)構(gòu)之間的聯(lián)合,如圖6所示。首先,醫(yī)院1、醫(yī)院2、醫(yī)院3從中央服務(wù)器下載初始化模型,進(jìn)行本地模型加密(如同態(tài)加密)訓(xùn)練;其次醫(yī)院1、醫(yī)院2、醫(yī)院3將其本地訓(xùn)練后的模型參數(shù)加密傳輸至中央服務(wù)器聚合,用于下一輪的更新。其中,在本地模型訓(xùn)練階段,對(duì)醫(yī)院1、醫(yī)院2、醫(yī)院3進(jìn)行本地?cái)?shù)據(jù)(如基因診斷數(shù)據(jù)、藥物開發(fā)數(shù)據(jù)以及電子健康記錄等)對(duì)齊,通過引入醫(yī)院4作為協(xié)作者,用以分發(fā)公鑰、加密匯總梯度損失等。因此,各醫(yī)療機(jī)構(gòu)在不交換或公開其原始數(shù)據(jù)的基礎(chǔ)上,大大提高了其數(shù)據(jù)共享的隱私安全性,同時(shí)使得各參與方可協(xié)作訓(xùn)練一個(gè)共同的共享模型,使得該模型性能優(yōu)于單一醫(yī)療機(jī)構(gòu)上訓(xùn)練的模型。此外,聯(lián)邦遷移學(xué)習(xí)技術(shù)在各醫(yī)療機(jī)構(gòu)因樣本差異性而導(dǎo)致模型欠佳問題上具有明顯優(yōu)勢(shì),在智能醫(yī)療系統(tǒng)中發(fā)揮著重要作用。
現(xiàn)階段聯(lián)邦學(xué)習(xí)與醫(yī)療領(lǐng)域結(jié)合的相關(guān)研究已有開展,如BRISIMI等[119]利用聚類原始對(duì)偶分解算法,通過解決各種數(shù)據(jù)源/用戶中的電子健康記錄數(shù)據(jù),來(lái)預(yù)測(cè)心臟病相關(guān)患者的未來(lái)住院治療概率;FEKI等[120]提出一個(gè)協(xié)作式聯(lián)邦學(xué)習(xí)框架,允許多個(gè)醫(yī)療機(jī)構(gòu)使用深度學(xué)習(xí)從胸部X射線圖像中篩選出COVID-19,而無(wú)需共享患者數(shù)據(jù);YAN等[121]為解決醫(yī)學(xué)圖像數(shù)據(jù)中的跨客戶端發(fā)生變異難題,首次提出了一種變異感知聯(lián)邦學(xué)習(xí)(Variation-Aware Federated Learning, VAFL)框架,使用多源分散表觀擴(kuò)散系數(shù)(Apparent Diffusion Coefficient, ADC)圖像數(shù)據(jù)對(duì)其進(jìn)行評(píng)估,并取得了較好的穩(wěn)定性。因此,隨著聯(lián)邦學(xué)習(xí)技術(shù)的發(fā)展,其在數(shù)據(jù)敏感性強(qiáng)的醫(yī)療領(lǐng)域顯示出強(qiáng)大的應(yīng)用潛力。
近年來(lái),人工智能、大數(shù)據(jù)等技術(shù)在教育領(lǐng)域的研究已取得一定的進(jìn)展,如ZHANG等[122]基于深度學(xué)習(xí)構(gòu)建出一個(gè)適用于高等教育的智能教育系統(tǒng)框架,實(shí)現(xiàn)對(duì)學(xué)生的知識(shí)學(xué)習(xí)狀況進(jìn)行跟蹤;LIU等[123]提出一種基于人工智能神經(jīng)網(wǎng)絡(luò)誤差反向傳播算法和壓力測(cè)試的方法,來(lái)分析教師的教學(xué)態(tài)度、教學(xué)內(nèi)容、教學(xué)方法等對(duì)大學(xué)生對(duì)知識(shí)的掌握和能力建設(shè)的影響;STANDEN等[124]采用多模式傳感器數(shù)據(jù)與機(jī)器學(xué)習(xí)算法相結(jié)合的方法,來(lái)識(shí)別與學(xué)習(xí)相關(guān)的情感狀態(tài),繼而確定學(xué)習(xí)內(nèi)容的呈現(xiàn)方式,從而使學(xué)習(xí)者保持最佳的情感狀態(tài),并最大程度地提高其學(xué)習(xí)速度。這些技術(shù)雖加快了教育智能化進(jìn)程,但長(zhǎng)期以來(lái),教育工作者更期望能夠建立一套跨學(xué)科的綜合課程教學(xué)系統(tǒng),而STEM[125]、自適應(yīng)電子學(xué)習(xí)[126]等系統(tǒng)缺少綜合性學(xué)習(xí)體驗(yàn),僅局限在單一或幾個(gè)學(xué)科,不具全面性,無(wú)法針對(duì)學(xué)生學(xué)習(xí)能力和興趣愛好等差異而實(shí)現(xiàn)定制化教育。
為此,聯(lián)邦學(xué)習(xí)可實(shí)現(xiàn)教育資源的整合,構(gòu)建一個(gè)覆蓋性全面的初始模型,通過整合學(xué)習(xí)者模型、課程知識(shí)等,并拓展延伸以適應(yīng)于其他學(xué)習(xí)者,實(shí)現(xiàn)定制化教育,如圖7所示。針對(duì)學(xué)生A、學(xué)生B、學(xué)生C不同的興趣愛好,教育機(jī)構(gòu)利用聯(lián)邦學(xué)習(xí)技術(shù),基于學(xué)生端移動(dòng)設(shè)備(如智能手機(jī)、Ipad以及筆記本電腦)所存儲(chǔ)的數(shù)據(jù),協(xié)同構(gòu)建一個(gè)通用學(xué)習(xí)計(jì)劃模型。其一般流程是由各學(xué)生端從教育機(jī)構(gòu)下載初始化通用學(xué)習(xí)計(jì)劃模型,用于本地模型訓(xùn)練,但因?qū)W生端不同設(shè)備而導(dǎo)致的設(shè)備異構(gòu)性問題,可通過引入用戶端—邊緣端—云端分層聯(lián)邦學(xué)習(xí)系統(tǒng),允許多個(gè)邊緣服務(wù)器執(zhí)行部分模型聚合[82],用以減少模型訓(xùn)練時(shí)間、通信成本以及學(xué)生端設(shè)備的能量消耗,其架構(gòu)如圖7右下圖所示。學(xué)生端將其模型參數(shù)發(fā)送給邊緣服務(wù)器進(jìn)行部分聚合后,由邊緣服務(wù)器發(fā)送給云端服務(wù)器聚合;其次由云端服務(wù)器將聚合后的模型參數(shù)分發(fā)給邊緣端;最后由邊緣器發(fā)送給學(xué)生端用于其本地更新。因此,學(xué)生端可根據(jù)其自身特長(zhǎng)、需求以及興趣等進(jìn)行本地模型更新,訓(xùn)練出定制化、個(gè)性化學(xué)習(xí)指導(dǎo)模型。
綜上所述,聯(lián)邦學(xué)習(xí)旨在建立一個(gè)“數(shù)據(jù)隱私安全共同體”的訓(xùn)練模式,憑借其自身優(yōu)勢(shì)受到了許多研究人員的廣泛關(guān)注并取得諸多成效。而聯(lián)邦學(xué)習(xí)作為新興的人工智能基礎(chǔ)技術(shù),在許多關(guān)鍵的開放性問題上仍還有待探索。因此,本章將對(duì)聯(lián)邦學(xué)習(xí)的隱私保護(hù)、通信效率、異構(gòu)性、激勵(lì)機(jī)制以及應(yīng)用等方面的未來(lái)研究方向和挑戰(zhàn)進(jìn)行簡(jiǎn)要的分析與總結(jié)。
(1)權(quán)衡隱私保護(hù)和聯(lián)邦學(xué)習(xí)系統(tǒng)性能
聯(lián)邦學(xué)習(xí)通過分布式進(jìn)行本地模型的訓(xùn)練,但在其模型訓(xùn)練過程中,用戶的敏感隱私數(shù)據(jù)仍可能泄露給對(duì)手或第三方[57,65-66,68],而現(xiàn)有的解決方案,是在犧牲聯(lián)邦學(xué)習(xí)模型性能的基礎(chǔ)上來(lái)保證其隱私安全,同時(shí)還給服務(wù)器增加了計(jì)算壓力[59,64,67]。因此,隱私作為聯(lián)邦學(xué)習(xí)的一個(gè)關(guān)鍵因素,在實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)系統(tǒng)時(shí),需更好地權(quán)衡其系統(tǒng)性能與隱私保護(hù)之間的合理性、有效性,重點(diǎn)是增強(qiáng)隱私和標(biāo)準(zhǔn)化每個(gè)需求的方法,如采用通用應(yīng)用程序編程接口(Application Programming Interfaces, APIs)的方法來(lái)實(shí)現(xiàn)這種增強(qiáng)[24]。
(2)建立多服務(wù)器安全交互模式
通信效率問題是當(dāng)前眾多學(xué)者熱衷的研究熱點(diǎn),而現(xiàn)有的聯(lián)邦學(xué)習(xí)模型訓(xùn)練都是基于一個(gè)服務(wù)器端和所有用戶端進(jìn)行模型參數(shù)交互,邊緣計(jì)算的引入[82],雖在一定程度上緩解了中心服務(wù)器的通信及計(jì)算壓力,但在大規(guī)模用戶參與下,也會(huì)造成服務(wù)器端計(jì)算效率低下甚至癱瘓的情況。此外,為保證數(shù)據(jù)安全交互而采用加密或防御手段,給服務(wù)器增加巨大的通信負(fù)擔(dān),甚至?xí)褂?xùn)練節(jié)點(diǎn)通信延遲或失敗。因此,可采取類似于對(duì)等網(wǎng)絡(luò)結(jié)構(gòu)聯(lián)邦學(xué)習(xí)[42]模型訓(xùn)練方法,在多個(gè)服務(wù)器之間使用加密技術(shù)進(jìn)行模型參數(shù)安全交互,其有效性雖有待驗(yàn)證,但仍值得深入研究。
(3)探索新的異步算法
聯(lián)邦學(xué)習(xí)使得服務(wù)器在不接觸用戶原始數(shù)據(jù)的前提下,難以知曉用戶數(shù)據(jù)是否混淆、標(biāo)簽是否正確、是否缺失類、特征和值[39]等異構(gòu)程度,同時(shí)還可能出現(xiàn)掉隊(duì)或容錯(cuò)的情形,這使得其模型性能出現(xiàn)較大的偏差。因此,異步聯(lián)邦學(xué)習(xí)算法[83]可作為一種解決方案,更符合實(shí)際的聯(lián)邦學(xué)習(xí)設(shè)置,也是使聯(lián)邦學(xué)習(xí)具有可擴(kuò)展性的一個(gè)重要因素。但為保證模型收斂性,同步聯(lián)邦學(xué)習(xí)算法仍是當(dāng)前常用的方法[81]。鑒于異步聯(lián)邦學(xué)習(xí)的諸多優(yōu)勢(shì),其算法創(chuàng)新仍是未來(lái)工作中應(yīng)持續(xù)探索的方向,如考慮非凸損失函數(shù)在Non-IID環(huán)境中的收斂性[127]。
(4)保證激勵(lì)機(jī)制方案設(shè)計(jì)的安全性
盡管目前已有許多學(xué)者在聯(lián)邦學(xué)習(xí)的激勵(lì)機(jī)制方案設(shè)計(jì)方面做了很多工作,并已取得一定成效[94,102],但他們并未考慮其中的一個(gè)關(guān)鍵問題,即激勵(lì)機(jī)制設(shè)計(jì)方案的安全性[96,98]。若聯(lián)邦學(xué)習(xí)模型訓(xùn)練過程中存在不誠(chéng)實(shí)敵手或第三方,如用戶利用較少的數(shù)據(jù)進(jìn)行本地模型訓(xùn)練,造成本地模型訓(xùn)練提前中止,使得模型性能產(chǎn)生較大的偏差,增加用戶數(shù)據(jù)隱私泄露風(fēng)險(xiǎn)。因此,有必要對(duì)惡意用戶進(jìn)行懲罰,從而降低他們作惡的概率,將是一個(gè)重要的方向[99]。
(5)提高模型可解釋性
可解釋性是指讓人類理解或向人類解釋的能力,而聯(lián)邦學(xué)習(xí)獨(dú)特的訓(xùn)練方式在一定程度上增加了模型的復(fù)雜度,不利于研究者更好地將數(shù)據(jù)、模型以及問題理解結(jié)合起來(lái),無(wú)法對(duì)模型異常的產(chǎn)生原因進(jìn)行定位和追蹤,其內(nèi)在暴露的安全隱患問題,對(duì)模型的可靠性和安全性造成一定的威脅[128]。因此,可利用局部可解釋模型[129]、模型替代[130]等技術(shù),從局部模型、全局模型等角度來(lái)提高模型可解釋性,實(shí)現(xiàn)模型異常的可溯性,也是未來(lái)研究中的一大挑戰(zhàn)。
(6)探索多技術(shù)融合方法
現(xiàn)有的諸多聯(lián)邦學(xué)習(xí)技術(shù)在模型效果方面受限,即在模型精度、通信成本等單一或少數(shù)方面雖具有明顯優(yōu)勢(shì),卻未能有效權(quán)衡聯(lián)邦學(xué)習(xí)中隱私保護(hù)、異構(gòu)性以及公平性等多方面因素,這使得諸多聯(lián)邦學(xué)習(xí)模型方案缺乏實(shí)用性。因此,通過多技術(shù)融合,如區(qū)塊鏈技術(shù)與安全多方計(jì)算結(jié)合[131]、安全多方計(jì)算與同態(tài)加密結(jié)合[58]等,來(lái)提高模型的泛化性、實(shí)用性。但就目前而言,由于技術(shù)之間的局限性,除算法創(chuàng)新難度大之外,保證多技術(shù)融合方法的可行性、有效性對(duì)研究者來(lái)說也是一個(gè)巨大的挑戰(zhàn)。
(7)開發(fā)功能性完善的聯(lián)邦學(xué)習(xí)應(yīng)用平臺(tái)和框架
當(dāng)前已有的一些聯(lián)邦學(xué)習(xí)應(yīng)用平臺(tái)和框架功能還不夠完善,如FLAS、PaddleFL只支持橫向和縱向聯(lián)邦學(xué)習(xí),而在實(shí)際應(yīng)用中,大多企業(yè)因其數(shù)據(jù)之間的樣本和特征并無(wú)交集,從而使得聯(lián)邦遷移學(xué)習(xí)更具普適性;其次是TensorFlow Federated、FATE等聯(lián)邦學(xué)習(xí)框架缺少隱私保護(hù)技術(shù)集成庫(kù)或工具箱,如同態(tài)加密、差分隱私等。而PySyft雖集成了安全多方計(jì)算和差分隱私機(jī)制,但僅支持橫向聯(lián)邦學(xué)習(xí),這在一定程度上使其實(shí)際應(yīng)用部署受限,不利于聯(lián)邦學(xué)習(xí)效能的充分發(fā)揮。盡管目前各聯(lián)邦學(xué)習(xí)應(yīng)用平臺(tái)和框架具有一定的局限性,但利用其優(yōu)勢(shì)互補(bǔ),開發(fā)出完善、高效的聯(lián)邦學(xué)習(xí)應(yīng)用平臺(tái)和框架也是未來(lái)可踐行的一個(gè)研究方向。
本文重點(diǎn)介紹了聯(lián)邦學(xué)習(xí)的隱私保護(hù)、通信效率、異構(gòu)性以及激勵(lì)機(jī)制4個(gè)方面的相關(guān)技術(shù)研究進(jìn)展,并分析了各技術(shù)的優(yōu)勢(shì)與不足;對(duì)現(xiàn)有的聯(lián)邦學(xué)習(xí)框架進(jìn)行了對(duì)比分析,并提出了聯(lián)邦學(xué)習(xí)在智能制造、醫(yī)療以及教育等領(lǐng)域的應(yīng)用框架;最后為研究學(xué)者在聯(lián)邦學(xué)習(xí)領(lǐng)域提供了一些未來(lái)可參考的研究方向。隨著各企業(yè)之間數(shù)據(jù)孤島問題日益嚴(yán)重,迫切需要新技術(shù)在保證數(shù)據(jù)隱私安全的前提下實(shí)現(xiàn)數(shù)據(jù)共享,從而使得各行業(yè)健康可持續(xù)發(fā)展。為此,聯(lián)邦學(xué)習(xí)應(yīng)運(yùn)而生,給各企業(yè)之間數(shù)據(jù)共享提供了新的解決思路和方案,隨著聯(lián)邦學(xué)習(xí)的應(yīng)用與發(fā)展,勢(shì)必能在各行各業(yè)發(fā)揮其更大的價(jià)值。