梁天愷,黃康華,劉凱航,蘭 嵐,曾 碧
(1.廣州廣電運(yùn)通金融電子股份有限公司研究總院,廣東 廣州 510000;2.廣發(fā)銀行信用卡中心資產(chǎn)管理部,廣東 佛山 528253;3.廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣東 廣州 510006)
隨著智能化終端的普及和人工智能技術(shù)的發(fā)展,圖片分類算法得到了長(zhǎng)足的發(fā)展,應(yīng)用場(chǎng)景包括人臉識(shí)別和垃圾分類等[1-2]。然而,人們?cè)隗w驗(yàn)著人工智能算法帶來的便利的同時(shí),也產(chǎn)生了對(duì)隱私保護(hù)問題的擔(dān)憂,這促使人工智能算法從集中式學(xué)習(xí)到分布式現(xiàn)場(chǎng)學(xué)習(xí)再到聯(lián)邦學(xué)習(xí)的演變[3-4]。
集中式學(xué)習(xí)是目前最常見的學(xué)習(xí)模式,指的是將多個(gè)用戶的數(shù)據(jù)集中到主服務(wù)器上,并使用主服務(wù)器的資源執(zhí)行機(jī)器學(xué)習(xí)任務(wù),構(gòu)建人工智能模型[5-6]。特別是深度學(xué)習(xí)技術(shù)被廣泛應(yīng)用于圖片分類上。如最為簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)LeNet[7],但LeNet 不適用于大規(guī)模和復(fù)雜的圖片分類場(chǎng)景。因此有的學(xué)者提出通過加大神經(jīng)網(wǎng)絡(luò)的深度或?qū)挾葋硖岣呱窠?jīng)網(wǎng)絡(luò)在大規(guī)模和復(fù)雜的圖片分類場(chǎng)景下的準(zhǔn)確率,如VGG[8]和GoogLeNet[9]等;有學(xué)者引入殘差來提高圖片分類任務(wù)的可學(xué)習(xí)空間,如ResNet[10];也有學(xué)者從特征入手,提出密集連接的概念,實(shí)現(xiàn)特征重用和減少參數(shù)量,如DenseNet[11]。然而,上述算法都屬于集中式學(xué)習(xí)算法,此種“模型不動(dòng),數(shù)據(jù)動(dòng)”的學(xué)習(xí)模式使用戶數(shù)據(jù)暴露在主服務(wù)器上,無法保護(hù)用戶隱私,因此催生了分布式現(xiàn)場(chǎng)學(xué)習(xí)[12]。
分布式現(xiàn)場(chǎng)學(xué)習(xí)的特點(diǎn)是用戶數(shù)據(jù)在自身邊緣的局部范圍內(nèi)構(gòu)建小的本地模型,以此隔絕用戶隱私數(shù)據(jù)的交換,達(dá)到隱私保護(hù)的目的[13]。最經(jīng)典的實(shí)現(xiàn)方式是邊緣計(jì)算[14]。然而,分布式現(xiàn)場(chǎng)學(xué)習(xí)在隔絕用戶隱私數(shù)據(jù)交換的同時(shí)也隔絕了有利于圖片分類的特征知識(shí)的交換,導(dǎo)致數(shù)據(jù)孤島的現(xiàn)象,致使各本地模型的泛化能力較差。
近年來,聯(lián)邦學(xué)習(xí)的出現(xiàn)為解決機(jī)器學(xué)習(xí)所存在的隱私保護(hù)和數(shù)據(jù)孤島問題提供了新的思路。聯(lián)邦學(xué)習(xí)的特點(diǎn)是“數(shù)據(jù)不動(dòng),模型動(dòng)”[15]。聯(lián)邦學(xué)習(xí)可被分為橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)和聯(lián)邦遷移學(xué)習(xí)。其中橫向聯(lián)邦學(xué)習(xí)適用于參與方之間的特征空間差異較小而數(shù)據(jù)空間差異較大的情況,比如擁有不同類別圖片的不同公司用戶組成橫向聯(lián)邦學(xué)習(xí)系統(tǒng)來訓(xùn)練多類別的圖片分類模型。此學(xué)習(xí)模式下,一個(gè)用戶被視為一個(gè)參與方;而主服務(wù)器扮演著協(xié)調(diào)者的角色,不保存任何圖片數(shù)據(jù)。首先,參與方基于本地?cái)?shù)據(jù)構(gòu)建本地模型,再將本地模型信息傳送給協(xié)調(diào)方進(jìn)行安全聚合,然后參與方利用協(xié)調(diào)方下發(fā)的聚合模型信息更新本地模型,有效保證了用戶的隱私安全和解決了數(shù)據(jù)孤島的問題[13]。近年來也有學(xué)者陸續(xù)將聯(lián)邦學(xué)習(xí)應(yīng)用到圖片處理領(lǐng)域,如王生生等[16]將聯(lián)邦學(xué)習(xí)應(yīng)用于新冠肺炎胸部CT 圖片處理。但是,此類算法大多是傳統(tǒng)機(jī)器學(xué)習(xí)算法的聯(lián)邦實(shí)現(xiàn),因此和傳統(tǒng)的聯(lián)邦學(xué)習(xí)一樣在模型聚合過程中存在較大的通信阻滯風(fēng)險(xiǎn),即協(xié)調(diào)方需要等待所有參與方的本地模型信息返回后才進(jìn)行安全聚合[17],如出現(xiàn)通信不暢或某參與方中途掉線等阻滯現(xiàn)象,則會(huì)導(dǎo)致協(xié)調(diào)方陷入無限的等待中,嚴(yán)重影響聯(lián)邦學(xué)習(xí)的效率。其次,由于傳統(tǒng)的聯(lián)邦學(xué)習(xí)算法過程中的密鑰對(duì)是由協(xié)調(diào)方產(chǎn)生并將公鑰下發(fā)給參與方使用的,因此協(xié)調(diào)方可使用所擁有的秘鑰來解密模型信息的密文,進(jìn)而反推出參與方的模型或數(shù)據(jù)特性,存在一定的隱私保護(hù)問題。
為解決上述3 種學(xué)習(xí)模式所存在的問題,本文結(jié)合雙向同態(tài)加密和深度學(xué)習(xí)技術(shù),提出一種基于VGG 和雙向同態(tài)加密的聯(lián)邦圖片分類方法,英文名為Federated Image Classification Method Based on VGG and Bilateral Homomorphic Encryption,簡(jiǎn)稱AFL算法。
AFL 算法是深度網(wǎng)絡(luò)VGG16 的橫向聯(lián)邦實(shí)現(xiàn)。其次,針對(duì)傳統(tǒng)的VGG16 和聯(lián)邦學(xué)習(xí)所存在的隱私保護(hù)問題,基于Paillier 同態(tài)加密[18]算法提出一種雙向Paillier 同態(tài)加密機(jī)制,英文名為Bi-directional Paillier Homomorphic Encryption Mechanism,簡(jiǎn)稱Bi-HE 機(jī)制。同時(shí),針對(duì)傳統(tǒng)聯(lián)邦學(xué)習(xí)在模型聚合過程中存在的通信阻滯風(fēng)險(xiǎn),提出一種自適應(yīng)的模型聚合等待策略,有效提高了聯(lián)邦學(xué)習(xí)的通信阻滯應(yīng)對(duì)能力和自適應(yīng)能力,提高了聯(lián)邦學(xué)習(xí)效率。最后,使用CIFAR-10 數(shù)據(jù)集驗(yàn)證AFL 算法在大規(guī)模和復(fù)雜圖片分類場(chǎng)景的優(yōu)越性。
AFL 算法使用文獻(xiàn)[19]所提及的VGG16 作為深度基學(xué)習(xí)器。所使用的VGG16 包括1 個(gè)輸入層、13個(gè)卷積層、3 個(gè)全連接層、5 個(gè)最大池化層以及1 個(gè)輸出層。同時(shí),在VGG16 中,使用ReLU 函數(shù)作為激勵(lì)函數(shù)來對(duì)每個(gè)卷積層的輸出進(jìn)行非線性的映射。其次,在輸出層使用softmax 函數(shù)得到每個(gè)類別的概率分布。
另外,結(jié)合AFL 算法的橫向聯(lián)邦實(shí)現(xiàn)特點(diǎn),添加了dropout 操作來隨機(jī)刪除若干個(gè)神經(jīng)元,以提高基學(xué)習(xí)器的泛化能力。同時(shí),對(duì)傳統(tǒng)的VGG 訓(xùn)練過程的目標(biāo)函數(shù)進(jìn)行了更替,通過引入L2 正則化罰項(xiàng)來進(jìn)一步提高基學(xué)習(xí)器的泛化能力。最終,AFL算法的目標(biāo)函數(shù)如公式(1)所示,其中損失函數(shù)為交叉熵?fù)p失函數(shù),m表示類別數(shù),n代表樣本數(shù),yic表示樣本i是否屬于類別c,pic表示樣本i屬于類別c的預(yù)測(cè)概率,Ω為L(zhǎng)2正則化罰項(xiàng),λ為正則化系數(shù)。
在傳統(tǒng)的聯(lián)邦學(xué)習(xí)中,一般使用的是單向加密的方式,即協(xié)調(diào)方負(fù)責(zé)生成密鑰對(duì),并分別把公鑰發(fā)給參與方用于加密,但是此種加密方式下協(xié)調(diào)方可通過私鑰得知參與方模型的明文信息,存在一定的隱私泄露的風(fēng)險(xiǎn)[20]。為保證參與方模型信息的隱私性,防止通過破解模型信息的手段反推出參與方的模型或數(shù)據(jù)特點(diǎn),AFL 算法基于Paillier 同態(tài)加密算法,提出雙向Paillier 同態(tài)加密機(jī)制——Bi-HE 機(jī)制。Bi-HE機(jī)制使用Paillier 同態(tài)加密算法為基算法的原因是Paillier同態(tài)加密可直接使用密文進(jìn)行計(jì)算,且最終計(jì)算結(jié)果解密后與直接使用明文進(jìn)行計(jì)算得到的結(jié)果一致,因此在計(jì)算過程中不需要多次進(jìn)行加解密的操作,提高了聯(lián)邦學(xué)習(xí)的效率[21]。
在Bi-HE機(jī)制中,參與方的明文信息依次使用協(xié)調(diào)方和參與方的公鑰進(jìn)行正向與反向加密。因此當(dāng)AFL算法使用了Bi-HE機(jī)制后,算法中的參與方和協(xié)調(diào)方都只掌握密文信息的其中一把私鑰,均無法通過自身攜帶的秘鑰信息得到明文信息,有效保護(hù)了數(shù)據(jù)的隱私性。
基于Paillier 同態(tài)加密算法提出的Bi-HE 機(jī)制生成正向和反向密鑰對(duì)的方法的步驟如下:
步驟1協(xié)調(diào)方依據(jù)希爾伯特孿生素?cái)?shù)猜想[22]產(chǎn)生2 個(gè)大素?cái)?shù)對(duì)(x0,y0)和(x1,y1)用于生成正向和反向的密鑰對(duì),其中x0和y0、x1和y1均為滿足公式(2)約束的孿生素?cái)?shù),其次公式(2)的gcd表示求2個(gè)數(shù)的最大公約數(shù)的函數(shù)。最后協(xié)調(diào)方將(x1,y1)發(fā)給參與方A用以生成反向密鑰(詳見步驟3),而(x0,y0)則由協(xié)調(diào)方保留并生成正向密鑰(詳見步驟2)。其中參與方A為眾多參與方之一,本文選取第1 個(gè)加入到聯(lián)邦學(xué)習(xí)系統(tǒng)的參與方作為參與方A,但是現(xiàn)實(shí)中可由各參與方商議后推舉共同信任的其中一個(gè)參與方作為參與方A。
步驟2協(xié)調(diào)方隨機(jī)選擇一對(duì)滿足公式(3)與公式(4)的整數(shù)g0和λ0,其中n0=x0·y0,gcd 和公式(2)一樣表示求2 個(gè)數(shù)的最大公約數(shù)的函數(shù)。然后協(xié)調(diào)方依據(jù)n0、g0、λ0以及公式(5)得到正向密鑰對(duì)K0=(P0,S0),其中P0=(n0,g0)、S0=(λ0,μ0)。
步驟3參與方A在接收到協(xié)調(diào)方發(fā)來的孿生素?cái)?shù)對(duì)(x1,y1)后也隨機(jī)選擇一對(duì)滿足公式(3)與公式(4)的整數(shù)g1和λ1,然后和協(xié)調(diào)方一樣依據(jù)n1=x1·y1、g1、λ1以及公式(5)得到反向密鑰對(duì)K1=(P1,S1),其中P1=(n1,g1)、S1=(λ1,μ1)。最后參與方A將反向密鑰對(duì)廣播給其他參與方。
在協(xié)調(diào)方與參與方分別擁有了正向和反向密鑰對(duì)后便可進(jìn)行本文提出的融合Bi-HE 機(jī)制的橫向聯(lián)邦學(xué)習(xí)過程。其中融合Bi-HE 機(jī)制的橫向聯(lián)邦學(xué)習(xí)模式架構(gòu)如圖1所示,主要包括以下步驟:
圖1 AFL算法的橫向聯(lián)邦學(xué)習(xí)架構(gòu)圖
步驟1協(xié)調(diào)方下發(fā)VGG16模型結(jié)構(gòu)給參與方,統(tǒng)一本次聯(lián)邦學(xué)習(xí)所使用的統(tǒng)一模型的結(jié)構(gòu)。
步驟2參與方用本地?cái)?shù)據(jù)訓(xùn)練本地VGG16模型。
步驟3參與方將本次迭代得到的模型梯度G經(jīng)由正向密鑰對(duì)P0進(jìn)行正向加密后,再使用反向密鑰對(duì)P1進(jìn)行反向加密,得到密文信息C(P1,C(P0,G)),并將其發(fā)給協(xié)調(diào)方。此情況下,參與方只擁有S0而缺乏S1,無法推算出其他參與方的梯度信息。
步驟4依據(jù)公式(6),協(xié)調(diào)方對(duì)參與方的加密梯度信息進(jìn)行同態(tài)加權(quán)平均,得到聚合加密梯度c′G,其中cGi表示第i個(gè)參與方的VGG16模型的加密梯度,n表示參與方個(gè)數(shù)。因?yàn)閰f(xié)調(diào)方只擁有S1而缺乏S0,所以無法得到各參與方的明文梯度信息。
步驟5協(xié)調(diào)方將聚合加密梯度信息發(fā)給參與方,參與方利用聚合加密梯度信息更新本地模型。
重復(fù)步驟2~步驟5,直至達(dá)到最大迭代次數(shù)或模型收斂或達(dá)到early stopping條件為止。
在傳統(tǒng)的橫向聯(lián)邦學(xué)習(xí)中,協(xié)調(diào)方需要等待所有參與方的本地模型信息返回后才會(huì)進(jìn)行安全聚合。此策略下,如遇到通信阻滯情況,協(xié)調(diào)方將會(huì)進(jìn)入無限的等待過程,缺乏對(duì)突發(fā)情況的自適應(yīng)能力,嚴(yán)重影響聯(lián)邦學(xué)習(xí)的效率。因此,AFL算法提出一種自適應(yīng)的模型聚合等待策略。圖2 為該策略的流程圖,主要包括4個(gè)步驟。
圖2 自適應(yīng)的模型聚合等待策略流程圖
步驟1學(xué)習(xí)開始前,設(shè)定“每輪等待接收參與方模型信息的最大容忍時(shí)間”。
步驟2當(dāng)協(xié)調(diào)方發(fā)出上一輪的模型聚合信息后,會(huì)進(jìn)入輪循狀態(tài),監(jiān)聽最新的來自參與方的本地模型信息,并初始化delta_t為0。
步驟3當(dāng)協(xié)調(diào)方收到第1份來自參與方的模型信息,記錄當(dāng)前輪的接收開始時(shí)間,記為start_time。而當(dāng)協(xié)調(diào)方收到第份來自參與方的模型信息(記為λ),記錄當(dāng)前時(shí)間,記為mid_time,使用公式(7)更新delta_t:
步驟4協(xié)調(diào)方每隔1 min詢問是否繼續(xù)等待接受參與方的模型信息,滿足以下條件之一則停止等待,利用已收到的模型信息進(jìn)行安全聚合:
1)接收到所有參與方的模型信息數(shù)據(jù);
2)當(dāng)前的處理總時(shí)長(zhǎng)大于最大容忍時(shí)間;
3)delta_t>0且當(dāng)前的處理總時(shí)長(zhǎng)大于3×delta_t。
4.1.1 實(shí)驗(yàn)環(huán)境
為驗(yàn)證AFL 算法的優(yōu)越性,本文模擬一個(gè)包括1個(gè)協(xié)調(diào)方以及10 個(gè)參與方的橫向聯(lián)邦學(xué)習(xí)系統(tǒng),并且使用AFL 算法的基學(xué)習(xí)器(傳統(tǒng)的VGG16)、同樣使用VGG16 作為基學(xué)習(xí)器且和AFL 算法具有一樣聯(lián)邦系統(tǒng)結(jié)構(gòu)的傳統(tǒng)橫向聯(lián)邦學(xué)習(xí)算法(HFL 算法)以及目前比較主流的深度卷積神經(jīng)網(wǎng)絡(luò)DenseNet 作為對(duì)比算法,在CIFAR-10數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。
4.1.2 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)使用的數(shù)據(jù)是公開的圖片分類場(chǎng)景的CIFAR-10數(shù)據(jù)集。CIFAR-10數(shù)據(jù)集是由Krizhevsky和Sutskever 整理的一個(gè)具有10 種類別的彩色圖片集,該數(shù)據(jù)集中一共有5萬張訓(xùn)練圖和1萬張測(cè)試圖。由于橫向聯(lián)邦學(xué)習(xí)的數(shù)據(jù)特點(diǎn)是參與方之間的數(shù)據(jù)空間差異較大而特征空間差異較小,所以為模擬橫向聯(lián)邦學(xué)習(xí)的數(shù)據(jù)場(chǎng)景,需要將CIFAR-10 數(shù)據(jù)集劃分出多個(gè)非獨(dú)立同分布(non-IID)的子數(shù)據(jù)集,并將子數(shù)據(jù)集分別發(fā)給各參與方。因此,參照2021 年AAAI會(huì)議論文文獻(xiàn)[23]對(duì)CIFAR-10數(shù)據(jù)集做以下處理:
設(shè)定一個(gè)取值為0.7 的non-IID 程度化因子q,并以q的概率將第i類別的數(shù)據(jù)分配給第i個(gè)參與方,并以(1-q)/9 的概率將其分配給其余9 個(gè)參與方,如此便可使每個(gè)參與方的本地?cái)?shù)據(jù)集中具有某個(gè)標(biāo)簽的圖片數(shù)據(jù)占多數(shù),從而使得參與方之間特征空間類似而數(shù)據(jù)空間差異較大,實(shí)現(xiàn)橫向聯(lián)邦學(xué)習(xí)的數(shù)據(jù)場(chǎng)景的模擬。同時(shí)對(duì)每個(gè)參與方的本地?cái)?shù)據(jù)集按照3:1的比例劃分出訓(xùn)練集和參與方的“本地測(cè)試集”。所有參與方的本地測(cè)試集組成一個(gè)“多方測(cè)試集”。
圖3 示出了各算法在各參與方的本地測(cè)試集的平均測(cè)試準(zhǔn)確率。其中AFL 算法的曲線代表橫向聯(lián)邦模型在各參與方的本地測(cè)試集的平均準(zhǔn)確率;而VGG16 和DenseNet 的曲線代表各參與方的本地模型在各自的本地測(cè)試集的平均準(zhǔn)確率,類似于集中式學(xué)習(xí)模式??梢钥闯?,隨著迭代次數(shù)的增長(zhǎng),當(dāng)模型接近穩(wěn)定后,AFL 算法和傳統(tǒng)VGG16 的準(zhǔn)確率相當(dāng),而DenseNet 的準(zhǔn)確率略高。這說明AFL 算法中提出的針對(duì)VGG16 的橫向聯(lián)邦實(shí)現(xiàn)方式所產(chǎn)生的模型性能損耗是可接受的,但在集中式學(xué)習(xí)場(chǎng)景下性能差于DenseNet。
圖3 各算法的本地測(cè)試準(zhǔn)確率
然而,結(jié)合圖4 所示的各算法在多方測(cè)試集的測(cè)試準(zhǔn)確率的表現(xiàn)卻可以看出,傳統(tǒng)的集中式學(xué)習(xí)算法的準(zhǔn)確率相對(duì)于聯(lián)邦學(xué)習(xí)來說有著較大的差距,同時(shí)在與自身在本地測(cè)試集的表現(xiàn)相比也有較大幅度的性能降低。因此,綜合圖3 以及圖4 的實(shí)驗(yàn)結(jié)果可以說明:在需要實(shí)現(xiàn)各方隱私保護(hù)的場(chǎng)景下,因?yàn)閰⑴c方的本地模型的學(xué)習(xí)被局限在自身數(shù)據(jù)集上,所以無法習(xí)得其他參與方的數(shù)據(jù)知識(shí),僅能對(duì)自己所擁有的場(chǎng)景數(shù)據(jù)進(jìn)行特征學(xué)習(xí),而對(duì)其他場(chǎng)景數(shù)據(jù)缺乏泛化能力。而在AFL算法中,由于參與方在橫向聯(lián)邦學(xué)習(xí)過程中通過協(xié)調(diào)方的聚合模型信息間接獲得了其他參與方的知識(shí),這種“數(shù)據(jù)不動(dòng),模型動(dòng)”的知識(shí)交換方式使得AFL 算法在大規(guī)模和復(fù)雜的圖片分類場(chǎng)景下展現(xiàn)出了較好的泛化能力。
圖4 各算法的多方測(cè)試集準(zhǔn)確率對(duì)比
其次,為說明在通信阻滯的場(chǎng)景下,AFL 算法所提出的自適應(yīng)的模型聚合等待策略的有效性,每輪迭代隨機(jī)抽取2 個(gè)參與方進(jìn)行如下處理以模擬通信阻滯的場(chǎng)景:當(dāng)參與方完成本地模型的更新后,休眠3 min 再將模型信息發(fā)給協(xié)調(diào)方聚合。從圖5 可以看出,同樣使用VGG16 作為基學(xué)習(xí)器且和AFL 算法具有一樣聯(lián)邦系統(tǒng)結(jié)構(gòu)的HFL 算法因?yàn)閰f(xié)調(diào)方需要等待所有參與方的模型信息的返回,而AFL算法所使用的自適應(yīng)的模型聚合等待策略會(huì)依據(jù)delta_t 來動(dòng)態(tài)更改最大等待時(shí)長(zhǎng),所以在通信阻滯的情況下,AFL算法的學(xué)習(xí)效率高于傳統(tǒng)的橫向聯(lián)邦學(xué)習(xí)模式,具有一定的自適應(yīng)和通信阻滯應(yīng)對(duì)能力。
圖5 AFL和傳統(tǒng)HFL的多方測(cè)試集測(cè)試準(zhǔn)確率
最后,圖6展示出了AFL 算法和HFL 算法的多方測(cè)試集的準(zhǔn)確率對(duì)比??梢钥闯鲭m然自適應(yīng)的模型聚合等待策略使得協(xié)調(diào)方在每次迭代中都有可能會(huì)拋棄若干個(gè)訓(xùn)練超時(shí)的參與方的模型信息,但是當(dāng)拋棄的參與方的比例較低時(shí),此操作所導(dǎo)致的準(zhǔn)確率誤差是可接受的。換言之,在大規(guī)模和復(fù)雜的圖片分類場(chǎng)景下,隨著參與方的增加,此種效果換效率的方式是存在可行性的。
圖6 AFL和傳統(tǒng)聯(lián)邦學(xué)習(xí)的學(xué)習(xí)時(shí)長(zhǎng)對(duì)比
綜上可得,在大規(guī)模和復(fù)雜的圖片分類場(chǎng)景下,AFL算法能有效解決隱私保護(hù)和數(shù)據(jù)孤島問題,并且具有更好的泛化能力。同時(shí),相對(duì)于傳統(tǒng)橫向聯(lián)邦學(xué)習(xí)模式,AFL算法具有更好的自適應(yīng)能力和通信阻滯應(yīng)對(duì)能力。整體而言,AFL算法在大規(guī)模和復(fù)雜的圖片分類場(chǎng)景下具有一定的優(yōu)越性。
為解決隱私保護(hù)和數(shù)據(jù)孤島的問題,本文提出了一種基于雙向同態(tài)加密的深度聯(lián)邦圖片分類方法——AFL 算法。AFL 算法解決了集中式學(xué)習(xí)的隱私保護(hù)問題,同時(shí)也解決了分布式現(xiàn)場(chǎng)學(xué)習(xí)的數(shù)據(jù)孤島問題。其次,AFL 算法基于Paillier 同態(tài)加密算法提出一種雙向的Paillier 同態(tài)加密機(jī)制——Bi-HE 機(jī)制。相比于傳統(tǒng)聯(lián)邦學(xué)習(xí)中的單向加密,融合Bi-HE機(jī)制的AFL 算法能避免協(xié)調(diào)方得到參與方的明文模型信息,進(jìn)一步加強(qiáng)了對(duì)隱私數(shù)據(jù)的保護(hù)。同時(shí),AFL 算法優(yōu)化了傳統(tǒng)的聯(lián)邦學(xué)習(xí)的模型聚合等待過程,提出了一種自適應(yīng)的模型聚合等待策略,避免了協(xié)調(diào)方無限等待參與方的情況,提高了在通信阻滯情況下聯(lián)邦學(xué)習(xí)的效率。最后,使用CIFAR-10 的對(duì)比實(shí)驗(yàn)結(jié)果表明,在大規(guī)模和復(fù)雜的圖片分類場(chǎng)景下,AFL 算法能在參與方不交換原始圖片數(shù)據(jù)的前提下習(xí)得所有參與方的知識(shí),同時(shí)具有更好的自適應(yīng)能力和通信阻滯應(yīng)對(duì)能力,具有一定的優(yōu)越性和可行性。
然而,AFL 算法作為聯(lián)邦學(xué)習(xí)的實(shí)現(xiàn)案例,也面臨著聯(lián)邦學(xué)習(xí)的共同挑戰(zhàn),需要學(xué)者們進(jìn)行更深入的研究[24-26],比如:
1)如何能夠吸引更多的參與方自愿加入聯(lián)邦學(xué)習(xí)中,如何建立和完善一套公平的激勵(lì)體制。
2)如何在聯(lián)邦學(xué)習(xí)系統(tǒng)中識(shí)別出惡意的參與方,防止其傳輸負(fù)面的模型更新信息,保證系統(tǒng)的安全與性能。
3)如何在參與方與協(xié)調(diào)方之間建立一個(gè)可靠且高效的通信環(huán)境。
4)如何讓聯(lián)邦學(xué)習(xí)系統(tǒng)兼容更多的機(jī)器學(xué)習(xí)算法,完成更多機(jī)器學(xué)習(xí)算法的聯(lián)邦實(shí)現(xiàn)。
5)如何提出一種更快速且更有效的協(xié)調(diào)方聚合方法。
6)隨著攻擊手段的發(fā)展,隱私保護(hù)面臨著巨大的挑戰(zhàn),一個(gè)方案往往無法堵住所有的攻擊漏洞。同時(shí)隨著量子物理的發(fā)展,量子密碼學(xué)也許會(huì)成為未來的重要研究方向之一。