周旭華, 叢 悅, 李鑒明, 仇計清
(1. 移動互聯(lián)網(wǎng)系統(tǒng)與應用安全國家工程實驗室,上海 201315; 2.廣州大學 網(wǎng)絡空間安全先進技術研究院,廣東 廣州 510006; 3.河北科技大學 理學院,河北 石家莊 050027)
當今時代,信息技術給人們工作和生活帶來極大便利的同時,日益滲透到人們生活的方方面面.個人信息一旦被泄露,人們的日常生活將會受到嚴重的干擾.據(jù)“中國網(wǎng)絡安全審查技術與認證中心”統(tǒng)計,2020上半年全球共發(fā)生20起重大數(shù)據(jù)泄露事件,其中8起發(fā)生在國內[1].與之相對應,公眾對個人隱私[2]的保護意識逐漸提高,法律法規(guī)對用戶隱私的監(jiān)管越來越嚴格[3-6],如《中華人民共和國民法典》、歐盟的《通用數(shù)據(jù)保護條例》[7]等.因此,數(shù)據(jù)的使用越來越受到限制.
與之矛盾的是,機器學習和人工智能技術能夠取得如今的成就,很大程度上得益于當今互聯(lián)網(wǎng)時代的海量數(shù)據(jù).然而法律監(jiān)管、商業(yè)競爭、隱私安全[8]等因素使得數(shù)據(jù)以孤島的形式存在[9-10],難以發(fā)揮其應有的價值.
因此,設計一種能解決數(shù)據(jù)孤島與數(shù)據(jù)利用矛盾、安全高效的機器學習框架具有重要的研究意義與價值.
聯(lián)邦學習是一種能解決數(shù)據(jù)孤島問題且滿足隱私保護和數(shù)據(jù)安全要求的可行方案.與現(xiàn)有機器學習方法一樣,聯(lián)邦學習要面臨的首先是數(shù)據(jù)問題.現(xiàn)有的機器學習任務默認訓練數(shù)據(jù)遵循獨立同分布(Identically Independently Distributions,IID),神經(jīng)網(wǎng)絡、深度學習等常見算法一般都將數(shù)據(jù)遵循IID 的假設作為其推導的一部分.然而真實世界中數(shù)據(jù)相關性無處不在,非同源數(shù)據(jù)常常具有不同的概率分布,而聯(lián)邦學習往往面臨著非獨立同分布(non-IID)[11-12]的數(shù)據(jù).在一些場景中,直接應用已有的機器學習算法基于non-IID數(shù)據(jù)進行模型訓練[13],由于算法本身的先進性,訓練結果仍然較好.但在很多情況下,利用現(xiàn)有的機器學習算法和框架,基于non-IID 數(shù)據(jù)訓練會出現(xiàn)意想不到的負面效果,比如模型準確度低[14]、模型無法收斂等[15].
聯(lián)邦平均算法(Federated Averaging,F(xiàn)edAvg)[13]是聯(lián)邦學習中第一個提出的解決non-IID問題的算法,使得聯(lián)邦學習中各參與方可以協(xié)同訓練卷積神經(jīng)網(wǎng)絡,其有效性在分類算法的典型數(shù)據(jù)集MNIST[16]、CIFAR-10[17]和莎士比亞文本數(shù)據(jù)集[18]均得到驗證.在FedAvg基礎上,Zhao等[14]提出數(shù)據(jù)共享策略,各參與方僅共享5%的數(shù)據(jù)作為可以公共使用的數(shù)據(jù)子集,就能使FedAvg算法在non-IID劃分的CIFAR-10上提升30%的準確率.本文在手寫數(shù)字集MNIST上進行實驗,計算non-IID劃分MNIST數(shù)據(jù)子集的EMD距離,并從小到大排序,以第三四分位數(shù)為分界線,去掉EMD值較大的后1/4的參與方,及時淘汰不良參與方[19-20],留下優(yōu)質參與方進行后續(xù)訓練,在解決數(shù)據(jù)量偏差與特征分布偏差上取得了較好的效果,100輪迭代后聯(lián)邦平均算法FedAvg在non-IID問題上的準確率提升了5%.主要表現(xiàn)在:
(1)準確率提升.針對non-IID的數(shù)據(jù)問題,F(xiàn)edAvg算法準確率一般在85%~86%之間.本文在FedAvg的基礎上結合了EMD距離,在權重更新的時候,及時去掉分布差異過大的參與方,最終使FedAvg在non-IID的數(shù)據(jù)準確率提高到了91%.
(2)通信成本降低.與Zhao等[14]不同,本文提出的方法沒有采用數(shù)據(jù)共享策略,減少了聯(lián)邦訓練過程的通信次數(shù)和數(shù)據(jù)通信量,節(jié)約了網(wǎng)絡通信成本,提高了聯(lián)邦訓練的效率.同時,不共享任何數(shù)據(jù)可以使各方數(shù)據(jù)隱私得到更好的保護.
(3)為各方貢獻提供度量參考.MNIST數(shù)據(jù)集經(jīng)過non-IID劃分后并不是所有的數(shù)據(jù)子集都適合加入到聯(lián)邦學習中來.實驗發(fā)現(xiàn),去掉數(shù)據(jù)分布差異過大,即EMD距離后1/4的數(shù)據(jù)子集,淘汰不良參與方,F(xiàn)edAvg的準確率有了明顯的提升.由此可以衡量各方貢獻的大小,從而建立一個更加有效的效果激勵機制.
為了打破數(shù)據(jù)孤島和行業(yè)壁壘,谷歌首先提出了聯(lián)邦學習的概念[13,21-23],并應用到了安卓手機輸入法的預測.中國計算機學會(China Computer Federation,CCF)把聯(lián)邦學習定義為一種加密的分布式機器學習,分布式的各參與方數(shù)據(jù)不出本地,利用加密的中間結果,如差分隱私[24-26]、同態(tài)加密[27-29]等進行協(xié)同訓練一個優(yōu)于各方獨自訓練的全局模型,且無法從中間結果反推各參與方的數(shù)據(jù).
聯(lián)邦學習讓每一個參與方利用己方數(shù)據(jù)在本地訓練同一個機器學習模型,訓練完成后,讓各參與方在各自訓練模型上利用參數(shù)進行交流溝通,最后通過模型聚合方法,經(jīng)過一系列迭代計算,獲得一個最終的全局模型.按照Yang等[30]的定義,設有N個參與方{F1,…FN},各參與方擁有的數(shù)據(jù)為{D1,…DN},傳統(tǒng)做法是把N個參與方擁有的數(shù)據(jù)收集起來得到一個整體的數(shù)據(jù)集D=D1∪…∪DN,并用D訓練得到一個整體的模型MSUM.聯(lián)邦學習是各參與方協(xié)同訓練得到一個全局最優(yōu)模型MFED.設MSUM的準確率為VSUM,MFED的準確率為VFED,δ為無窮小的非負實數(shù),聯(lián)邦學習追求的效果為
VFED-VSUM<δ,
即聯(lián)邦學習模型在準確率上無限接近傳統(tǒng)模型.聯(lián)邦學習架構如圖1所示.
圖1 聯(lián)邦學習架構Fig.1 Federated learning structure
聯(lián)邦學習在諸多領域擁有廣闊的研究價值和應用前景,眾多與金融[31]、醫(yī)療[32]、智慧城市[33-34]、物聯(lián)網(wǎng)[22]和區(qū)塊鏈[35]等領域結合的研究都取得了一定的進展與成就.
雖然IID的概念在現(xiàn)有機器學習方法中已經(jīng)比較明確[36],但現(xiàn)實生活中non-IID的數(shù)據(jù)更為普遍[37],以谷歌安卓手機輸入法預測GBoard[38]為例,不同個體、不同地理位置、不同時間(如晝夜)等因素,輸入法里常用詞頻率分布往往不同,甚至對于不同文化背景的人,同一個詞的含義也不一樣.因此,相比于傳統(tǒng)機器學習中單一場景的IID數(shù)據(jù)集,聯(lián)邦學習考慮的通常是各參與方之間非均勻、非獨立同分布的non-IID數(shù)據(jù)[39-40].
Kairouz等[41]把聯(lián)邦學習中非獨立同分布數(shù)據(jù)分為五種情況:①特征分布偏差,對于同一個特征其邊緣分布不同,如手寫同一個數(shù)字,不同的人書寫的筆跡寬度和力度一般不一樣;②標簽分布偏差,表現(xiàn)為特定的標簽和特定的群體綁定,如寫漢字的基本上是中國人;③同樣的標簽不同的特征,如都是好評但評價電影和評價食品的詞不一樣;④同樣的特征不同的標簽,如同一個詞對于不同文化背景的人感情色彩可能不同;⑤各參與方的數(shù)據(jù)量偏差.由此可見,尋找處理非均勻、非獨立同分布數(shù)據(jù)算法在聯(lián)邦學習的研究中至關重要.
現(xiàn)實世界中,聯(lián)邦學習數(shù)據(jù)集可能包含上述五種數(shù)據(jù)偏差的組合,然而如何處理參與方之間的數(shù)據(jù)偏差是一個重要的開放問題.大多數(shù)關于non-IID數(shù)據(jù)的工作主要關注標簽分布偏差,其non-IID數(shù)據(jù)集一般由標簽的扁平數(shù)據(jù)劃分而來.更準確地理解現(xiàn)實世界non-IID數(shù)據(jù)的本質,有利于構建可控且真實的non-IID數(shù)據(jù)集,以便測試算法性能,并評估它們對不同程度偏差異構數(shù)據(jù)的魯棒性.
此外,由于聯(lián)邦學習是加密的分布式訓練,不同于傳統(tǒng)的分布式機器學習,聯(lián)邦學習過程中網(wǎng)絡通信的消耗往往比計算消耗大.除了數(shù)據(jù)non-IID,聯(lián)邦學習還要考慮帶寬、參與方設備可用性,以及數(shù)據(jù)通信量等問題.
EMD距離是基于概率分布的度量距離[42],是一種評價特征空間中兩個多維分布之間相似度的方法,常用于圖像檢索中圖片相似度的度量.一般來說,圖像的特征很多,其分布可以用一組集群表示,其中每個集群均由其平均值以及屬于該集群的分布百分比,即權重來表示,這種表示稱為圖像特征分布的簽名(Signature).設s是一個簽名,m是某個特征,w是該特征的權重,則簽名可以寫作s=(m,w).不同簽名可以有大小不同,如表示簡單分布的簽名比表示復雜分布的簽名要短.
設P={(p1,wp1),…,(pm,wpm)}為具有m個集群的簽名,Q={(q1,wq1),…,(qn,wqn)}為具有n個集群的簽名,D=[dij]為單個特征之間的距離,每一項dij表示pi與qj的距離,因此,D是一個M*N的矩陣.對于P和Q,設流矩陣為F=[fij],其中每一項fij表示從pi到qj的流數(shù)目,則EMD距離可以進一步轉化為線性規(guī)劃問題,即找到矩陣F中的一個流,使得從P到Q的全局代價最小,公式如下:
且服從以下四個約束條件:
fij≥0,1≤i≤m,1≤j≤n
(1)
(2)
(3)
(4)
其中,式(1)約束流是從P流向Q而不是反過來.式(4)是盡可能地減少流動的距離.因此,兩個不同分布P與Q的EMD距離為
實際應用中使用EMD距離時,不同情況使用方式可能不同,所選取的特征只需符合以上四個約束條件即可.
本節(jié)主要介紹與本文相關的已有算法,主要是聯(lián)邦平均算法FedAvg、基于損失的自適應增強聯(lián)邦學習,以及聯(lián)邦效果激勵機制等.
fi(w)=l(xi,yi;w)為模型參數(shù)w對個例(xi,yi)進行預測的損失.對于第k個參與方
則聯(lián)邦模型總體損失函數(shù)為
第k個參與方的梯度為gk=▽Fk(wt),學習率為η,則第t輪迭代得到的新參數(shù)為
每個參與方的本地更新為
FedAvg的全部偽代碼如算法1所示.
算法1 FedAvg,K是參與者總數(shù)
服務器:
初始化w0
對每一輪t=1,2,…:
m=max(C*K, 1)
隨機選取參與者子集St
St全體并行計算:
客戶端:
把nk分成大小為B的塊
對本地1到E輪迭代:
對每一塊:
w←w-η▽l(w;b)
返回w到服務器
McMahan等[13]的實驗結果表明,該算法對IID數(shù)據(jù)和non-IID數(shù)據(jù)均具有良好的魯棒性.
在聯(lián)邦學習框架中,通過算法優(yōu)化可以提升各參與方之間參數(shù)更新的通信效率.在non-IID情況下,Woodworth等[43]通過設計一個間歇性通信模型,其中無狀態(tài)參與方參與全部T輪中的每一輪,在每一輪中,每個參與方可以計算其中部分樣本的梯度,再同步地將參數(shù)傳遞給所有其他參與方.在這種場景中,相對于通信成本,本地計算量很大.
在FedAvg算法的基礎上,Li等[44]設計了一種FedProx算法.該算法的關鍵思想是系統(tǒng)異質性和統(tǒng)計異質性之間存在相互作用.由于系統(tǒng)約束而簡單地刪除網(wǎng)絡中的離散者可能會隱式地增加統(tǒng)計異質性,因此,該算法在FedAvg的基礎上做了一個小修改,允許基于底層系統(tǒng)約束跨設備執(zhí)行部分工作,并安全地合并起來.理論上,F(xiàn)edProx使用不同度量來捕獲網(wǎng)絡中的統(tǒng)計異質性,并在有限設備不同假設下為凸函數(shù)和非凸函數(shù)提供收斂保證.收斂分析還包括每個設備在本地執(zhí)行可變數(shù)量工作的設置.
對于聯(lián)邦學習non-IID的情況,可以適當添加數(shù)據(jù)以使參與方之間的數(shù)據(jù)分布更加相似.一種可行方法是創(chuàng)建一個可以在全局共享的小型數(shù)據(jù)集,即數(shù)據(jù)共享.該數(shù)據(jù)集可能來源于一個公開可用的代理數(shù)據(jù)源,可能來源于一個不涉及隱私的客戶數(shù)據(jù)的單獨數(shù)據(jù)集,也可能來源于原始數(shù)據(jù)的精餾[45].
對于用高度不均勻的non-IID數(shù)據(jù)來訓練的神經(jīng)網(wǎng)絡,聯(lián)邦學習的準確性顯著降低,當每個參與方只訓練己方單一類的數(shù)據(jù)時,最高可降低約55%[14].這種精度降低可以用權重發(fā)散來解釋,而權重發(fā)散可以通過每個參與方數(shù)據(jù)分布的EMD距離來量化.當EMD超過一定閾值時,聯(lián)邦學習的精度會急劇下降.因此,對于高度不均勻的non-IID數(shù)據(jù),可以通過數(shù)據(jù)共享縮小各參與方數(shù)據(jù)集的EMD距離,以提高模型準確率.
FedAvg為處理聯(lián)邦學習提供了一個范例和解決方案,Zhao等[14]指出,由于non-IID的數(shù)據(jù)分布場景下SGD不再是數(shù)據(jù)全體的無偏估計,F(xiàn)edAvg在non-IID劃分的MNIST數(shù)據(jù)集上最大的精度損失達到了11.31%.為此,Zhao提出了數(shù)據(jù)共享策略以提高FedAvg在non-IID的準確率.為處理大規(guī)模、高敏感性的數(shù)據(jù),Huang等[46]結合數(shù)據(jù)共享策略,提出了自適應[47]數(shù)據(jù)增強的LoAdaBoost FedAvg算法,該算法迭代的參考指標主要是全局損失函數(shù)的中位數(shù).
不同于現(xiàn)有的機器學習方案,聯(lián)邦學習系統(tǒng)中各參與方有較大的自主權,聯(lián)邦建模需要各參與方的積極參與.因此,聯(lián)邦學習有必要建立一個兼顧公平與效率的效果激勵機制(Federated Learning Incentivizer, FLI)[48]才能維持聯(lián)邦學習的長期穩(wěn)定,從而吸引更多的個人或機構參與到聯(lián)邦學習中來.
參與方加入到聯(lián)邦學習,共同構建一個機器學習模型,模型帶來的收益可以用收益分享博弈[49]來劃分.收益分享博弈主要分為平均分配、邊際收益和邊際損失三類.通常,一輪聯(lián)邦迭代t會產(chǎn)生該輪迭代的收益,設一個參與方i在第t輪迭代從總預算B(t)中得到的分享收益為
其中,ui(t)表示參與方i對收益B(t)產(chǎn)生的效用,其數(shù)值要根據(jù)收益及分配方法計算.
此外,基于邊際收益的常用方法有工會博弈收益(The labour union game profit-sharing)[50]、沙普利博弈收益分享(The Shapley game profit-sharing)[51]等.設v(F)為評估聯(lián)邦集合體F效用的函數(shù),工會博弈收益分享方法以各參與方加入聯(lián)邦集合體F的相同順序計算其邊際收益:
ui(t)=v(F∪{i})-v(F),
不同于工會博弈收益分享,沙普利博弈收益分享排除了參與方加入順序不同的影響,從而更加公平地評估各參與方對聯(lián)邦集合體的邊際貢獻.該方法把聯(lián)邦集合體分為m個部分(P1,P2,…,Pm),每個參與方以不同順序加入聯(lián)邦所產(chǎn)生的平均邊際貢獻為
[v(P∪{i})-v(P)].
基于邊際損失的方法主要考慮參與方離開集合體時帶來的收益影響,公平價值博弈方法(The fair-value game)[43]是一種基于邊際損失的方法,其參與方收益計算如下:
ui(t)=v(F)-v(F{i}).
在本文提出的EMFedAvg算法中,ui(t)可以通過各參與方的EMD距離來定量計算,相比上述方法,EMFedAvg提供了準確計算參與方貢獻ui(t)的方案,使得聯(lián)邦建模的收益分配更加公平、客觀.
數(shù)據(jù)共享策略可以在一定程度上緩解non-IID的情況,但有泄露數(shù)據(jù)的風險,同時也增加了中央服務器和各參與方的通信負擔,現(xiàn)實情況也不存在數(shù)據(jù)共享這種理想情況,而FedAvg算法在non-IID數(shù)據(jù)上的效果還有待提升.為了解決這個問題,本文提出了基于EMD距離的聯(lián)邦平均算法EMFedAvg,針對non-IID的情況,在沒有數(shù)據(jù)共享的條件下,把FedAvg的準確率提高到了91%,首次把FedAvg在non-IID場景下的準確率提高到90%以上.
為模仿真實場景中non-IID的數(shù)據(jù)分布,實驗用標簽0~9按從小到大的順序對MNIST訓練集60 000張手寫數(shù)字圖片進行排序,排完序后,再把訓練集依次劃分為200片,每片包含300張圖片.經(jīng)過劃分,每一片里包含的圖像都是同一個數(shù)字.把200片訓練數(shù)據(jù)分發(fā)給100個參與方,每個參與方分到的訓練數(shù)據(jù)集只有兩種可能:只包含一個數(shù)字的600張圖片和包含兩個數(shù)字各300張圖片.訓練全程沒有數(shù)據(jù)共享,各參與方只能接觸到分配給己方的數(shù)據(jù),且最多只能接觸到兩個不同的數(shù)字.因此,各參與方的數(shù)據(jù)種類和對應種類的圖片數(shù)目都有不一樣的可能,是一種non-IID劃分的方法,如圖2所示.
圖2 200*300 non-IID劃分MNISTFig.2 200*300 non-IID split of MNIST
對比FedAvg算法,訓練開始的時候對權重w0進行隨機初始化.對于聯(lián)邦整體的每一輪迭代,迭代完都會用每個參與方樣本的權重分布與整體權重分布計算一個EMD值,并對EMD值由小到大排序,排在EMD值第三四分位數(shù)后面的參與方認為與總體分布差異過大,會降低聯(lián)邦模型效果而被淘汰.設第t輪被淘汰的參與方數(shù)目為qt,剩下來的參與方集合為Pk,則第t輪沒被淘汰的參與方k損失函數(shù)為
其中,fi(w)=l(xi,yi;w),與FedAvg算法里含義相同,為本地模型參數(shù)w對數(shù)據(jù)實例(xi,yi)的預測損失.由此得到第t輪聯(lián)邦模型總體損失為
同樣設第k個參與方的梯度為gk=▽Fk(wt),學習率為η,則第t輪迭代得到的新參數(shù)為
總結起來,EMFedAvg算法的偽代碼如算法2所示.
算法2 EMFedAvg
服務器:
隨機初始化w0
對每一輪t=1,2,…:
更新全局權重wt
計算參與迭代的參與方權重的EMD距離
淘汰EMD距離大于第三四分位點的參與方
Pk全體并行計算:
參與方:
對本地1到E輪迭代:
對每一片:
w←w-η▽l(w)
返回w到服務器
針對3.1中的數(shù)據(jù)集劃分,聯(lián)邦學習中各參與方的數(shù)據(jù)分布和總體數(shù)據(jù)分布的差異,即權重偏移可以用以下公式計算:
w_d=‖wFedAvg-wSGD‖/‖wSGD‖.
Zhao等[14]證明權重偏移可以通過EMD距離來進行度量,p(y=i)為樣本標簽總體的概率分布,pk(y=i)為第k個參與方的樣本標簽概率分布,則從參與方k到聯(lián)邦總體分布的EMD距離為
其示意圖如圖3所示.
圖3 EMD距離示意圖Fig.3 EMD sketch map
算出EMD距離后,各參與方對聯(lián)邦整體的貢獻值就可以借助EMD值來定量計算了.這里給出一個參考,即每個參與方在第t輪迭代產(chǎn)生的貢獻ui(t)為
其中,α為可調整的參數(shù),b為偏置項.
EMFedAvg采用的是經(jīng)典的聯(lián)邦學習架構,整體流程如圖4所示.
圖4 EMFedAvg整體流程圖Fig.4 Overall structure of EMFedAvg
第一步,中央服務器選取卷積神經(jīng)網(wǎng)絡作為要訓練的全局模型并隨機初始化權重,把模型和權重發(fā)送到各個參與方,同時把MNIST分成non-IID的200片,分發(fā)給各個參與方;第二步,各個參與方利用分發(fā)到的數(shù)據(jù)作為本地數(shù)據(jù),并行迭代訓練本地卷積神經(jīng)網(wǎng)絡,這里各參與方只知道己方得到的數(shù)據(jù)而無法獲知他方的數(shù)據(jù)情況;第三步,各參與方把本地更新的模型權重返回到服務器,服務器算出所有參與方的平均權重以及每個參與方的EMD距離,對EMD距離進行排序,淘汰EMD距離過大的異常值,與剩下的參與方進入下一輪聯(lián)邦迭代,直到模型收斂或達到最大迭代次數(shù)為止;第四步,服務器把得到的最終聯(lián)邦模型分發(fā)到各參與方,并應用到實際環(huán)境中.
根據(jù)以上設置,EMFedAvg在MNIST數(shù)據(jù)集的實驗結果印證了實驗設想.EMFedAvg與FedAvg在測試準確率與實驗迭代次數(shù)的對比如表1所示,其對應關系見圖5.
表1 EMFedAvg與FedAvg在non-IID劃分的MNIST上實驗結果對比Table 1 Comparison of EMFedAvg and FedAvg on non-IID split MNIST dataset
圖5 EMFedAvg與FedAvg的準確率對比Fig.5 Precision comparison of EMFedAvg and FedAvg
從表1以及圖5可以看出,雖然剛開始時EMFedAvg比FedAvg收斂要稍慢,但在第60輪迭代的時候,準確率已經(jīng)超過了FedAvg,在第80輪時超過FedAvg的最高準確率86.81%,且仍然有提升的趨勢.實驗最好的情況EMFedAvg比FedAvg測試準確率高了近5%,這是一個不小的提升,使得聯(lián)邦學習在non-IID數(shù)據(jù)上的準確率首次超過了90%.雖然在達到最終最好結果的時候,EMFedAvg比FedAvg的迭代次數(shù)要多,但EMFedAvg沒有任何數(shù)據(jù)共享,在每一輪聯(lián)邦整體的迭代中,EMFedAvg的通信次數(shù)和通信量是更少的.因此,EMFedAvg是一個高效、準確的算法,同時能夠使得各參與方數(shù)據(jù)不出本地,很好地保護了數(shù)據(jù)隱私與安全.
聯(lián)邦學習技術使數(shù)據(jù)不出本地的分布式模型訓練成為可能,是平衡數(shù)據(jù)隱私保護與人工智能發(fā)展的新興技術.FedAvg是聯(lián)邦學習的經(jīng)典算法,本文在FedAvg的基礎上結合樣本分布與總體分布偏差的EMD距離,并對超過第三四分位數(shù)的異常值進行處理,留下優(yōu)質參與方進行后續(xù)訓練,使得FedAvg在non-IID場景中的效果得到了很好的提升.EMD距離衡量了各參與方數(shù)據(jù)分布與聯(lián)邦整體分布的差異,可以用來衡量各方的貢獻度,為聯(lián)邦學習系統(tǒng)的效果激勵提供了度量參考.
為了更切實地模擬真實環(huán)境中的non-IID場景,后續(xù)可以嘗試在對數(shù)據(jù)進行non-IID分割的時候,發(fā)放給參與方不同數(shù)量的數(shù)據(jù)片,使各參與方在樣本數(shù)量上形成不均衡這一極端情況.
人工智能技術發(fā)展到現(xiàn)在,數(shù)據(jù)隱私保護是一個不得不重視的問題.當前人工智能技術在數(shù)據(jù)隱私保護問題上的研究是比較欠缺的,研究如何能保護數(shù)據(jù)隱私的同時又使得海量數(shù)據(jù)能夠得以發(fā)揮應有價值、解決數(shù)據(jù)孤島問題的人工智能技術意義重大.基于這些原因,聯(lián)邦學習近兩年得到了極大的關注,尋找一種安全、高效、符合法律監(jiān)管要求的算法是這一領域后續(xù)需要努力的方向.