摘 要:用戶的異質(zhì)性對聯(lián)邦學(xué)習(xí)(FL)構(gòu)成了顯著挑戰(zhàn),這可能導(dǎo)致全局模型偏移和收斂速度緩慢。針對此問題,提出一種結(jié)合知識蒸餾和潛在空間生成器的聯(lián)邦學(xué)習(xí)方法(FedLSG)。該方法通過中央服務(wù)器學(xué)習(xí)一個搭載潛在空間生成器的生成模型,該模型能夠提取并模擬不同用戶端樣本標簽的概率分布,從而生成更加豐富和多樣的偽樣本來指導(dǎo)用戶端模型的訓(xùn)練。這種方法旨在有效解決FL中的用戶異質(zhì)性問題。通過理論分析和實驗驗證,展示了與現(xiàn)有FedGen方法相比,F(xiàn)edLSG普遍比FedGen的測試精度高出1%左右,前20輪的通信效率優(yōu)于FedGen,同時還能提供一定程度的用戶隱私保護。
關(guān)鍵詞:用戶異質(zhì)性;聯(lián)邦學(xué)習(xí);知識蒸餾;潛在空間生成器;概率分布
中圖分類號:TP181 文獻標志碼:A 文章編號:1001-3695(2024)11-011-3281-07
doi:10.19734/j.issn.1001-3695.2024.03.0084
Knowledge distillation in federated learning based on latent space generator
Wang Hua, Wang Xiaofenga, b?, Li Kea
(a.School of Computer Science amp; Engineering, b.The Key Laboratory of Images amp; Graphics Intelligent Processing of State Ethnic Affairs Commission, North Minzu University, Yinchuan 750021, China)
Abstract:User heterogeneity poses significant challenges to federated learning (FL), leading to global model bias and slow convergence. To address this problem, this paper proposed a method combining knowledge distillation and a latent space ge-nerator, called FedLSG. This method employed a central server to learn a generative model with a latent space generator that extracted and simulated the probability distribution of sample labels from different user devices, then generated richer and more diverse pseudo-samples to guide the training of user models. This approach aimed to effectively address the problem of user heterogeneity in FL. Theoretical analysis and experimental results show that FedLSG generally achieves about 1% higher test accuracy than the existing FedGen method, improves communication efficiency in the first 20 rounds, and provides a degree of user privacy protection.
Key words:user heterogeneity; federated learning; knowledge distillation; latent space generator; probability distribution
0 引言
隨著現(xiàn)代信息化社會的飛速發(fā)展,用戶之間在特性、偏好,以及行為模式等眾多方面表現(xiàn)出了顯著的差異性,這種差異性被稱為用戶異質(zhì)性[1]。在傳統(tǒng)的聯(lián)邦學(xué)習(xí)框架中,用戶異質(zhì)性構(gòu)成了一大挑戰(zhàn),經(jīng)常導(dǎo)致全局模型出現(xiàn)偏移[2]和收斂速度變慢的問題。同時,保護用戶隱私與提升模型的泛化能力之間的平衡,也極大地制約了聯(lián)邦學(xué)習(xí)性能的發(fā)揮。因此,為了克服這些問題,迫切需要研發(fā)一種創(chuàng)新的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法。
聯(lián)邦學(xué)習(xí)作為解決數(shù)據(jù)孤島問題的分布式機器學(xué)習(xí)新范式,面臨著非獨立同分布(Non-IID)數(shù)據(jù)的挑戰(zhàn)。此要求深度分析數(shù)據(jù)分布及樣本相關(guān)性,以精確選用模型與算法。然而,以往大多數(shù)現(xiàn)有聯(lián)邦學(xué)習(xí)方法中并沒有產(chǎn)生理想的全局模型和泛化性能。用戶異質(zhì)性主要體現(xiàn)在以下三個方面:a)不同用戶的數(shù)據(jù)可能具有不同的特征分布,這種異質(zhì)性體現(xiàn)在數(shù)據(jù)特征的維度、分布、稀疏等方面;b)不同用戶的標簽數(shù)據(jù)可能存在差異,包括標簽的類別、數(shù)量、分布等方面;c)不同用戶的數(shù)據(jù)規(guī)??赡懿町愝^大,有些用戶可能擁有大量的數(shù)據(jù),而有些用戶可能只有少量的數(shù)據(jù)[3]。因此,通過研究數(shù)據(jù)特征、標簽、規(guī)模等方面的差異來探討用戶異質(zhì)性對聯(lián)邦學(xué)習(xí)的影響,并提出相應(yīng)的解決方案和算法。例如McMahan等人[4]提出了一種匹配平均的聯(lián)邦學(xué)習(xí)算法,以解決不同用戶數(shù)據(jù)特征分布不同的問題,并探討了在不同標簽分布的情況下,如何設(shè)計有效的聯(lián)邦學(xué)習(xí)算法來實現(xiàn)模型聚合。而Konen等人[5]著重討論了如何在面對大規(guī)模和小規(guī)模數(shù)據(jù)集時,設(shè)計和優(yōu)化聯(lián)邦學(xué)習(xí)系統(tǒng),以支持高效的參數(shù)更新和模型聚合。
面對用戶異質(zhì)性帶來的復(fù)雜挑戰(zhàn),本文提出了一種融合知識蒸餾與潛在空間生成器的先進聯(lián)邦學(xué)習(xí)(FL)策略。此方法通過在中央服務(wù)器學(xué)習(xí)潛在空間生成器的生成模型,實現(xiàn)了一種無須直接用戶數(shù)據(jù)訪問的信息整合方法。該方法生成的偽樣本既在中央服務(wù)器上聚合知識,也通過廣播至用戶端豐富本地訓(xùn)練環(huán)境,優(yōu)化模型表現(xiàn)。此外,為了進一步提升偽樣本的真實性,本文在該生成器模型中引入了條件多頭自注意力機制,顯著增強了模型對樣本數(shù)據(jù)概率分布特征的捕獲能力。本文所提FedLSG的主要貢獻如下:
a)提出在一個生成器模型中的潛在空間中增加一個生成器所構(gòu)成的雙生成器模型,實現(xiàn)對用戶端樣本數(shù)據(jù)的偽樣本生成;
b)提出將條件多頭自注意力機制應(yīng)用到雙生成器中,提高偽樣本數(shù)據(jù)生成的逼真度;
c)中央服務(wù)器學(xué)習(xí)的雙生成器生成模型以無數(shù)據(jù)的方式集成用戶端樣本知識,然后廣播給用戶端;
d)在MNIST、EMNIST和CelebA數(shù)據(jù)集上展開實驗,其中MNIST和EMNIST通過變化迪利克雷分布參數(shù),CelebA則通過模擬人為行為實現(xiàn)Non-IID數(shù)據(jù)劃分,以此驗證所提方法與常規(guī)聯(lián)邦學(xué)習(xí)技術(shù)相比的性能優(yōu)勢。
1 相關(guān)研究
McMahan等人[4]提出的FedAvg算法旨在解決分布式數(shù)據(jù)的聯(lián)合訓(xùn)練問題,其中每個設(shè)備(例如移動設(shè)備或邊緣設(shè)備)都維護自己的本地模型,并在本地數(shù)據(jù)上進行訓(xùn)練。在訓(xùn)練的每個輪次之后,這些本地模型的參數(shù)將被聚合到一個全局模型中,以更新全局模型的參數(shù)。然而,F(xiàn)edAvg算法通常不直接使用知識蒸餾技術(shù)。因此,無法有效地利用不同用戶端之間不同的知識進行聯(lián)邦學(xué)習(xí)的訓(xùn)練。Jeong等人[6]提出了一種通信高效的基于設(shè)備的機器學(xué)習(xí)方法,稱為聯(lián)邦蒸餾和增強,研究的重點是在非獨立同分布和隱私數(shù)據(jù)環(huán)境下有效利用聯(lián)邦學(xué)習(xí)進行模型訓(xùn)練。聯(lián)邦蒸餾旨在通過模型蒸餾的方式在設(shè)備端利用聯(lián)邦學(xué)習(xí)進行訓(xùn)練。這種方法在設(shè)備上進行模型蒸餾,從而減少了在聯(lián)邦學(xué)習(xí)過程中傳輸大量參數(shù)的需求,從而實現(xiàn)通信高效性。另一方面,增強方案使用GAN進行數(shù)據(jù)增強,每個用戶端都將自己視為學(xué)生,通過數(shù)據(jù)增強從而改善了模型的泛化性能。雖然在通信效率和隱私保護方面有一定的優(yōu)勢,但可能會犧牲一定的模型性能。
鑒于知識蒸餾技術(shù)的逐漸流行,Itahara等人[7]提出的基于蒸餾的半監(jiān)督聯(lián)邦學(xué)習(xí)框架在聯(lián)邦學(xué)習(xí)領(lǐng)域有了極大進展,旨在實現(xiàn)通信高效的協(xié)作訓(xùn)練,并應(yīng)對非獨立同分布的私有數(shù)據(jù)。結(jié)合了蒸餾技術(shù)和半監(jiān)督學(xué)習(xí)方法,以實現(xiàn)在設(shè)備端對模型進行高效訓(xùn)練的同時,利用未標記的數(shù)據(jù)來提高模型性能。Chen等人[8]提出MetaFed框架用于解決個性化醫(yī)療領(lǐng)域中的聯(lián)邦學(xué)習(xí)問題。該框架通過提出的循環(huán)知識蒸餾,無須中央服務(wù)器就能夠?qū)崿F(xiàn)不同聯(lián)邦之間的可信FL。然而MetaFed框架涉及元學(xué)習(xí)、知識蒸餾和聯(lián)邦學(xué)習(xí)等多種技術(shù),其算法較為復(fù)雜,且應(yīng)用場景是否能夠在不同醫(yī)療場景中穩(wěn)健地適用,還需要更多的實驗和研究支持。Mora等人[9]提供了一份關(guān)于介紹知識蒸餾在聯(lián)邦學(xué)習(xí)中的應(yīng)用指南,深入探討了將知識蒸餾技術(shù)應(yīng)用于聯(lián)邦學(xué)習(xí)的方法和技巧,包括如何設(shè)計合適的教師模型和學(xué)生模型,以及如何選擇適當?shù)恼麴s損失函數(shù)。Zhang等人[10]提出了一種名為FedDTG的方法,該方法通過引入三方生成對抗網(wǎng)絡(luò)(GAN)來實現(xiàn)客戶端之間的數(shù)據(jù)自由共蒸餾,其中包括一個生成器、一個教師模型和一個學(xué)生模型。由GAN生成的偽樣本并且結(jié)合教師模型的知識,可以傳遞給學(xué)生模型進行訓(xùn)練,從而使聯(lián)邦蒸餾更加高效和穩(wěn)健。然而該方法需要進一步探討在計算資源消耗和通信成本。
近兩年出現(xiàn)了一些創(chuàng)新的方法強調(diào)了異構(gòu)數(shù)據(jù)在聯(lián)邦學(xué)習(xí)中的潛在應(yīng)用。Passerat-Palmbach等人[11]提出了一種名為FedGDKD的方法,用于聯(lián)邦學(xué)習(xí)中異構(gòu)模型之間的知識蒸餾。該方法利用生成對抗網(wǎng)絡(luò)實現(xiàn)了無須共享原始數(shù)據(jù)即可進行知識蒸餾的目的。其中介紹了在聯(lián)邦學(xué)習(xí)場景中,針對異構(gòu)模型之間進行知識蒸餾,以實現(xiàn)模型性能的提升和參數(shù)的壓縮。利用生成對抗網(wǎng)絡(luò)來實現(xiàn)數(shù)據(jù)無關(guān)的知識蒸餾,通過生成數(shù)據(jù)樣本來進行模型之間的知識傳遞。然而,F(xiàn)edGDKD方法在不同數(shù)據(jù)集和異構(gòu)模型組合上的泛化能力有待驗證,此外可能還需要更多的工作來優(yōu)化通信效率。張紅艷等人[12]將聚類和數(shù)據(jù)共享技術(shù)應(yīng)用于聯(lián)邦學(xué)習(xí)過程中,這有效地降低了數(shù)據(jù)異構(gòu)性的影響,并加速了本地模型的收斂速度。Tran等人[13]利用標簽文本嵌入(LTE)作為錨點,結(jié)合bounding loss約束樣本嵌入,從而在聯(lián)邦學(xué)習(xí)的類增量學(xué)習(xí)中有效解決數(shù)據(jù)隱私和遺忘問題。Zhang等人[14]利用了預(yù)訓(xùn)練生成器中的知識,提出了一種上傳高效的知識傳輸方案,在異質(zhì)聯(lián)邦學(xué)習(xí)中實現(xiàn)了高性能,可適用于僅有一個邊緣客戶端的場景。Chen等人[15]探討了數(shù)據(jù)分布在客戶端之間的異質(zhì)性如何限制通過聯(lián)邦學(xué)習(xí)訓(xùn)練全局模型的性能,特別是在類分布高度不平衡的設(shè)置中,提出了一種稱為“超知識蒸餾”的技術(shù),以獲得更全面和準確的知識表示,并聯(lián)合訓(xùn)練一個全局模型和多個個性化模型來平衡全局性能和個性化性能。全局性能代表整個數(shù)據(jù)集的總體特征,而個性化模型則針對特定用戶或設(shè)備的數(shù)據(jù)進行定制。然而所提“超知識蒸餾”涉及從多個教師模型中提取知識,并將其融合到學(xué)生模型中,可能會增加方法的復(fù)雜性和計算成本,未充分討論“超知識蒸餾”技術(shù)的實施和計算效率,并且也存在對非獨立同分布數(shù)據(jù)的適應(yīng)性不足,未充分考慮非獨立同分布數(shù)據(jù)的情況,這可能導(dǎo)致方法在處理非獨立同分布數(shù)據(jù)時性能下降。
本文綜合考慮在非獨立同分布數(shù)據(jù)下,使用潛在空間生成器以及條件多頭自注意力機制解決聯(lián)邦學(xué)習(xí)中用戶異質(zhì)性、全局模型的準確性、通信效率,同時使用知識蒸餾技術(shù)可以對不同的用戶端模型產(chǎn)生良好的泛化性。
2 背景知識
2.1 聯(lián)邦學(xué)習(xí)
聯(lián)邦學(xué)習(xí)是一種分布式機器學(xué)習(xí)范式,用于訓(xùn)練全局模型而無須集中數(shù)據(jù)。在此方法中,數(shù)據(jù)分布在多個本地設(shè)備上,并在這些設(shè)備上訓(xùn)練模型,而不傳輸原始數(shù)據(jù)到中央服務(wù)器。模型在本地訓(xùn)練后,只將更新的子模型發(fā)送至中央服務(wù)器,中央服務(wù)器再聚合這些子模型以生成全局模型。這種方法既保護了數(shù)據(jù)隱私,又能最小化全局損失函數(shù)。
minω F(ω)=∑Kk=1NkNFk(ω)(1)
其中:FK(ω)=1NK∑i∈Dkfi(ω),是第ω個參與方的損失函數(shù);Nk是參與方k的數(shù)據(jù)集Dk的大小;N為K個參與方的總數(shù)據(jù)樣本大??;fi(ω)是數(shù)據(jù)樣本i上的損失函數(shù)。
聯(lián)邦學(xué)習(xí)的迭代過程分四步,如圖1所示。a)本地用戶從中央服務(wù)器下載初始全局模型;b)使用此模型在本地進行模型訓(xùn)練;c)訓(xùn)練后的子模型上傳至中央服務(wù)器;d)服務(wù)器通過聯(lián)邦平均算法(FedAvg)聚合這些子模型,為下一輪更新做準備。
2.2 知識蒸餾
知識蒸餾[16]是一種模型壓縮技術(shù),旨在將復(fù)雜的教師模型知識轉(zhuǎn)移到簡化的學(xué)生模型中,以減少參數(shù)、加速推理和節(jié)約存儲空間。此技術(shù)中,教師模型的軟目標用作額外監(jiān)督信號,幫助學(xué)生模型學(xué)習(xí)教師的決策邊界。與標準模型訓(xùn)練直接匹配真值標簽不同,知識蒸餾通過匹配學(xué)生模型輸出與教師模型的軟目標來豐富訓(xùn)練信息,從而加快學(xué)習(xí)速度。
受知識蒸餾啟發(fā),Seo等人[17]結(jié)合聯(lián)邦學(xué)習(xí)提出了federated distillation。在此方法中,教師模型的知識不僅包括輸出概率分布和中間表示,還包括未經(jīng)softmax處理的logit vector。他們提出將分布在各用戶端的logit vector按類別平均,改為概率分布處理,可以提高模型輸出的直觀性和解釋性,同時減少過擬合,更符合實際應(yīng)用中的需求。相關(guān)偽代碼在算法1中展示。
上述偽代碼描述了在每個設(shè)備上執(zhí)行本地訓(xùn)練的過程,并在服務(wù)器上進行全局集成的過程。在使用概率分布處理的聯(lián)邦蒸餾(FD-PDP)中,在第8、16行使用了softmax函數(shù)來轉(zhuǎn)換logits為概率分布,并在第16行使用加權(quán)平均來更新每個類別的概率分布。本地訓(xùn)練階段涉及到使用預(yù)測函數(shù)F、損失函數(shù)?,以及softmax函數(shù)進行本地模型更新。全局集成階段則涉及到將每個設(shè)備上的模型輸出的softmax概率分布進行加權(quán)平均,以及將更新的概率分布返回給各個設(shè)備。這個過程反復(fù)執(zhí)行,直到全局模型收斂。
2.3 潛在空間生成器
潛在空間生成器(latent space generator)是一種機器學(xué)習(xí)中的輔助生成器[18],用于處理數(shù)據(jù)的高維表示空間[19]。在多種實現(xiàn)方式中,自編碼器(autoencoder)和變分自編碼器(variational autoencoder)[20]尤為常用。自編碼器通過編碼器將輸入數(shù)據(jù)轉(zhuǎn)換為潛在空間表征,再通過解碼器恢復(fù)原始數(shù)據(jù)。變分自編碼器增加了概率分布約束,生成更具表現(xiàn)力和多樣性的潛在表征。
在聯(lián)邦學(xué)習(xí)中,編碼器主要提取樣本的概率分布特征表征。而潛在空間生成器基于這些特征,進一步處理并生成中間特征表征,以傳遞給主生成器。此過程旨在創(chuàng)建更豐富和多樣性的偽樣本,有助于模型深入學(xué)習(xí)數(shù)據(jù)分布和特征,從而提高性能和泛化能力。
假設(shè)樣本的概率分布特征表示為P(x),其中x是輸入樣本。編碼器E用于提取樣本概率分布的特征表示,其輸出為潛在空間中的特征表示z,表示為
z=E(x)(2)
潛在空間生成器G根據(jù)樣本的概率分布特征表示P(x)進行進一步的特征提取,其輸出為生成的偽樣本x′,表示為
x′=G(P(x))(3)
在這個過程中,G將樣本的概率分布特征表示P(x)轉(zhuǎn)換為更加豐富的偽樣本x′。
2.4 條件多頭自注意力機制
自注意力機制(self-attention mechanism)是一種序列元素相互關(guān)系的捕捉機制,廣泛應(yīng)用于自然語言處理和序列建模。在圖像領(lǐng)域,自注意力也顯示出提高性能的潛力。如vision Transformer(ViT)[21]通過替代傳統(tǒng)卷積操作,展示了出色的圖像分類性能。這種機制通過調(diào)整像素間的特征權(quán)重,幫助模型更好地理解圖像結(jié)構(gòu)和內(nèi)容。多頭自注意力機制進一步增強了這一功能,而條件多頭自注意力機制結(jié)合了多頭和條件注意力機制,使模型能根據(jù)特定條件調(diào)整不同圖像區(qū)域間的關(guān)系,以生成條件相關(guān)的注意力權(quán)重。條件多頭自注意力機制的主要步驟如下:
a)特征提取與表示轉(zhuǎn)換。圖像通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取特征圖,再將特征圖轉(zhuǎn)換為二維矩陣,每個像素點作為一個特征向量。
b)條件信息嵌入。將條件信息(如任務(wù)標簽或圖像屬性)通過嵌入層轉(zhuǎn)換為特征向量,并與原始特征圖融合。
c)注意力權(quán)重計算。計算每個像素點與其他像素點的相關(guān)性或相似度,并根據(jù)條件信息調(diào)整注意力權(quán)重。
d)多頭注意力匯聚。應(yīng)用多頭注意力機制,將注意力權(quán)重應(yīng)用于不同的頭上,得到多個注意力匯總結(jié)果。
e)多頭特征融合。將各頭的結(jié)果進行特征融合,得到最終的特征表示,可以通過加權(quán)平均或拼接等方式。
f)更新特征表示。將融合后的特征表示送入后續(xù)網(wǎng)絡(luò)層,以提取更高級的語義信息或執(zhí)行特定任務(wù)。
這個過程使得機制能夠根據(jù)不同條件動態(tài)學(xué)習(xí)圖像內(nèi)部關(guān)系,適應(yīng)多樣的任務(wù)需求。
3 方法設(shè)計
因此,根據(jù)聯(lián)邦學(xué)習(xí)的目標,在學(xué)習(xí)一個由θ參數(shù)化的全局模型中,要最大限度降低其對每個用戶端上任務(wù)Tu的損失:
minθ ΕTu∈T[Lu(θ)](5)
其中:T={Tu}Uu=1為用戶端任務(wù)的集合。本文考慮的是所有用戶端任務(wù)共享相同的真實標簽函數(shù)hφ和損失函數(shù)l,即Tu=(Du,hφ)。在具體實踐中,通過式(5)最小化
min1U∑Uu=1L^u(θ)(6)
其中:L^u(θ):=1|D^u|∑Xi;Yi∈D^u[l(k(f(c(Xi;θt);θf);θp),hφ(Xi))]是在可觀測數(shù)據(jù)集Du上的經(jīng)驗損失來進行經(jīng)驗優(yōu)化。聯(lián)邦學(xué)習(xí)的一個隱含假設(shè)是全局數(shù)據(jù)D^被分配到每個用戶端領(lǐng)域,其中D^=∪{D^u}Uu=1。
3.2 知識提取
知識蒸餾(KD)也被稱為教師-學(xué)生范式,其主要目的是學(xué)習(xí)一個輕量級學(xué)生模型,目標是從一個或多個強大的教師模型中蒸餾出來知識。依賴一個代理數(shù)據(jù)集Dp,以最小化教師模型和學(xué)生模型輸出之間的差異,通常一個典型且有效的選擇是使用Kullback-Leibler散度來衡量這兩個分布情況,即
minθSΕX~D^p[DKL[σ(g(f(c(X;θtT);θfT);θpT)‖
σ(g(f(c(X;θtS);θfS);θpS)]](7)
其中:g(·)是預(yù)測器k的logits輸出;σ(·)是應(yīng)用于這些logits的非線性激活函數(shù),即k(W;θp)=σ(g(W;θp))。
然而,上述傳統(tǒng)知識蒸餾需要依賴代理數(shù)據(jù)集,為加強保護用戶端之間的隱私,采用一種無數(shù)據(jù)的方式進行聯(lián)邦知識蒸餾知識的抽取。核心思想是提取關(guān)于數(shù)據(jù)分布全局視圖的知識,并將這些由中央服務(wù)器通過含有潛在空間生成模型的生成器所學(xué)習(xí)到的知識提取到用戶端模型中,以指導(dǎo)用戶端模型的學(xué)習(xí)。
首先,考慮一個條件分布Q*:Y→X表示這類知識的特征,與真值數(shù)據(jù)分布是一致的。
Q*=arg maxQ:Y→XΕY~P(Y)ΕX~Q(X|Y)[log p(Y|X)](8)
其中:P(Y)和P(Y|X)分別是目標標簽真值的先驗分布和后驗分布。為了使式(8)優(yōu)化,可將P(Y)和P(Y|X)替換為經(jīng)驗近似。因此,P(Y)為
P^(Y)∝∑uΕX~D^u[I(hφ(X)=Y)](9)
其中:I(·)為指數(shù)函數(shù);D^u為Tu域上的可觀測樣本數(shù)據(jù)。在聯(lián)邦學(xué)習(xí)中,P^(Y)通過在模型的上傳階段使用用戶端的訓(xùn)練標簽計數(shù)來獲取目標標簽真值的先驗分布的經(jīng)驗近似。而P(Y|X)的后驗分布的經(jīng)驗近似可以使用來自所有用戶端模型的集成知識,即
logP^(Y|X)∝1U∑Uu=1log P(Y|X;θu)(10)
然而,雖然有了上面的先驗分布和后驗分布的經(jīng)驗近似,但是直接在輸入空間X上優(yōu)化方程式(8)卻仍然有可能是不行的,因為引入后會有特征表示z,尤其當z的維數(shù)很高時會產(chǎn)生過大的計算負擔,加劇了聯(lián)邦學(xué)習(xí)的通信效率問題。此外,用戶端的隱私數(shù)據(jù)配置文件也可能會泄露,這并不符合聯(lián)邦學(xué)習(xí)中隱私保護的需求。因此,一個更切實際的想法是恢復(fù)一個引導(dǎo)分布G*:Y→W→Z,它定義在一個主潛在空間Z上,其中主潛在空間Z包含一個副潛在空間W,定義的雙潛在空間結(jié)構(gòu)比原始樣本數(shù)據(jù)空間更為緊湊,并且可以緩解用戶端之間相關(guān)隱私的潛在威脅,即
G*=arg maxG:Y→W→ZΕY~P^(Y)[ΕW~G(W|Y)[ΕZ~G(Z|W)[∑Uu=1log P(Y|Z;θPu)]]](11)
根據(jù)上述推理,本文方法使用編碼器生成模型中的生成器部分,通過學(xué)習(xí)一個含有潛在空間生成器的條件生成器G來進行知識的提取,參數(shù)化為m以優(yōu)化以下目標:
minm J(m):=ΕY~P^(Y)
[ΕW~Gm(W|Y)[ΕZ~Gm(Z|W)[l(σ(1U∑Uu=1g(Z;θPu)),Y)]]](12)
其中:g(·)和σ(·)是對數(shù)輸出和激活函數(shù)。給定任意的樣本Y,優(yōu)化方程式(12)只需要訪問用戶端模型的預(yù)測層模塊θPu。具體來說,為了實現(xiàn)G(·|Y)的多樣性輸出,采用再參數(shù)化技術(shù),引入了高斯噪聲向量ε~N(0,1)到主潛在空間生成模型中的主生成器中,即
Z~Gm(·|W)≡Gm(W,ε|ε~N(0,1))(13)
其次,再把主生成器所產(chǎn)生的潛在空間數(shù)據(jù)樣本標簽分布下的特征表示傳輸?shù)礁鄙善髦?,?/p>
W~Gm(·|Y)≡Gm(Y,ε|ε~N(0,1))(14)
由副生成器處理中間表示,主生成器生成多樣化的偽樣本數(shù)據(jù)。
給定任意目標標簽Y,所提含有潛在空間的副生成模型生成器可以產(chǎn)生Z~Gm(·|W)的副潛在空間特征表示,集成用戶端模型的知識誘導(dǎo)出理想的預(yù)測。換句話說,生成器誘導(dǎo)出的分布圖像和來自用戶端所組成的全局樣本數(shù)據(jù)是一致的。
3.3 知識蒸餾
將中央服務(wù)器所學(xué)習(xí)到的條件生成器Gm廣播給用戶端,以便每個用戶端模型可以從Gm中采樣,以獲得到潛在特征空間上的數(shù)據(jù)增強表示Z~Gm(·|W)。因此,用戶端模型θu的目標被改變,以最大限度地提高它對增強的數(shù)據(jù)樣本產(chǎn)生理想預(yù)測的概率:
minθu J(θu):=L^u(θu)+E^Y~P^(Y),Z~Gm(Z|W),W~Gm(W|Y)[l(k(Z;θPu);Y)](15)
其中:L^u(θu):=1|D^u|∑Xi∈D^u[l(k(f(c(Xi;θt);θf);θp),hφ(Xi))]是給定的用戶端模型上局部數(shù)據(jù)D^u的經(jīng)驗損失。為提高對潛在空間標簽數(shù)據(jù)分布特征的提取,對含有潛在空間生成模型的主生成器,在主生成器的全連接層之后、表示層之前,應(yīng)用條件多頭自注意力機制。此機制可以根據(jù)特定的融合策略條件來自適應(yīng)地學(xué)習(xí)標簽數(shù)據(jù)分布內(nèi)部不同區(qū)域之間的關(guān)系,并生成對應(yīng)于不同條件的特定的注意力權(quán)重。
3.4 方法總結(jié)與算法流程
本文靈活地融合了編碼器架構(gòu),并設(shè)計了一種由主生成器和嵌入其中的副生成器構(gòu)成的雙重生成模型。通過該模型,中央服務(wù)器能夠有效聚集本地用戶數(shù)據(jù)的分布特征,并將這種共識知識反饋給各本地用戶端。為了更準確地捕捉潛在空間中標簽數(shù)據(jù)的分布特性,本文采用了一種條件化的多頭自注意力機制,這不僅增強了模型對偽樣本數(shù)據(jù)多樣性的理解能力,還促進了知識蒸餾過程的高效進行。以下是FedLSG算法的偽代碼。
4 實驗分析
為綜合評估本文提出的含有潛在空間生成器的雙生成器模型,本章在人為仿真劃分的數(shù)據(jù)場景下進行了充分的實驗。
4.1 實驗設(shè)置
1)實驗數(shù)據(jù)
在MNIST[22]、EMNIST[23]和CelebA[24]三個主要的圖像數(shù)據(jù)集上進行了詳細的實驗分析。MNIST數(shù)據(jù)集包含了28像素×28像素的單通道手寫數(shù)字圖像,涵蓋了0~9共10個類別,總共包括60 000張訓(xùn)練圖像和10 000張測試圖像,每個類別的訓(xùn)練圖像數(shù)量大約為6 000張。EMNIST數(shù)據(jù)集是MNIST的擴展版本,不僅包含了手寫數(shù)字,還增加了手寫字母圖像。實驗使用的EMNIST子集為EMNIST Letters,該子集中的圖像同樣為28像素×28像素的灰度圖像,包含1~26共26個字母類別的標簽,代表字母A~Z。該子集共有145 600個樣本,每個字母類別大約有5 600張訓(xùn)練圖像和800張測試圖像。CelebA是一個大型名人面部圖像數(shù)據(jù)集,含有超過200 000張圖像,每張圖像都有40個屬性注解。本文依據(jù)LEAF FL基準建議,使用CelebA數(shù)據(jù)集中的smiling屬性執(zhí)行二分類任務(wù),即預(yù)測圖像中的名人是否正在微笑。MNIST和EMNIST數(shù)據(jù)集用于進行數(shù)字和字符的分類任務(wù),以評估所提模型的性能。
2)對比算法
將FedAvg、FedProx[25]、FedDistill、Fed-ensemble[26]和FedGen[27]五種經(jīng)典算法與本文FedLSG進行對比實驗。FedAvg作為聯(lián)邦學(xué)習(xí)領(lǐng)域的一個標準基線,其核心是直接利用客戶端訓(xùn)練數(shù)據(jù)計算經(jīng)驗損失,以此作為局部優(yōu)化目標。FedProx在每個客戶端的局部優(yōu)化目標中引入了一個近端項,該項通過限制待訓(xùn)練的局部模型與初始全局模型之間的歐氏距離,幫助減少客戶端學(xué)習(xí)目標與全局學(xué)習(xí)目標之間的偏差。FedDistill采用了一種不需要數(shù)據(jù)的知識蒸餾(KD)方法,在客戶端之間通過共享對數(shù)向量的標簽平均來進行學(xué)習(xí)。Fed-ensemble通過整合所有客戶端模型的預(yù)測輸出,對FedAvg進行了拓展。而FedGen則引入了一個輕量級的生成器,以集成用戶信息并將其廣播給所有客戶端。為確保實驗的公平性,所有算法均采用相同的數(shù)據(jù)分配方法、通用神經(jīng)網(wǎng)絡(luò)模型以及部分實驗參數(shù)進行比較。
3)實驗細節(jié)
所有實驗均使用Python 3.7作為編程開發(fā)語言,開發(fā)環(huán)境為PyCharm,硬件配置為12th Gen Intel CoreTM i7-1260p 2.10 GHz,48 GB內(nèi)存,使用CPU訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,操作系統(tǒng)為Windows 11,在PyTorch 1.12.1框架下實現(xiàn)。
將MNIST和EMNIST數(shù)據(jù)集按照不同的迪利克雷分布進行劃分。MNIST數(shù)據(jù)集中采用總共有20個用戶端的用戶數(shù)據(jù),其中α采用不同的值,分別為0.05、0.1和1,使用總訓(xùn)練樣本的50%作為訓(xùn)練比例,訓(xùn)練時隨機選擇10個用戶端參與模型的訓(xùn)練。EMNIST與MNIST數(shù)據(jù)處理方法不同的是,它使用總訓(xùn)練樣本的10%作為訓(xùn)練比例。CelebA劃分設(shè)置為25個用戶端數(shù)量,在25個用戶端數(shù)量中隨機選擇5、10和15個用戶端作為參與方的訓(xùn)練。在三個不同的數(shù)據(jù)集上,分別報告不同算法的全局平均測試準確率。
實驗中提出的基于潛在空間生成器模型的詳細介紹如下:
SecondaryGenerator該生成器用于處理中間表示,是一個多層全連接神經(jīng)網(wǎng)絡(luò)模型,輸入維度為input_dim,輸出維度也為input_dim。它包含多個隱藏層,每個隱藏層都是線性變換、批量歸一化、LeakyReLU激活函數(shù)和dropout層的組合。最后一層是線性變換層,將隱藏層的輸出映射回原始輸入維度。MainGenerator生成器是一個包含全連接層、條件多頭注意力機制、表示層和SecondaryGenerator生成器的混合模型。如果embedding為true,則使用嵌入層,否則使用獨熱編碼。該生成器使用全連接層將嵌入層或獨熱編碼與隨機高斯噪聲連接,連接多個全連接層,每個全連接層包括線性變換、批量歸一化和ReLU激活函數(shù)。在全連接層后添加額外的隱藏層,在全連接層之后表示層之前插入了條件多頭注意力機制層,最后使用表示層將全連接層的輸出映射到潛在空間中,期間使用SecondaryGenerator處理潛在空間的中間表示。
表1展示了實驗中的通用參數(shù)的默認值。為了確保所有算法達到經(jīng)驗性的收斂,全局平均測試準確率的實驗中,默認將每輪的全局通信次數(shù)設(shè)定為200次,一共進行三輪實驗。這樣做是因為在充分的實驗下,算法的精度會比較準確且不會產(chǎn)生精度增益的事實。
為了公平比較不同算法在各個參與方上的性能,本文的local model模型統(tǒng)一采用了標準的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)。這一架構(gòu)包含卷積層、批量歸一化層、ReLU激活函數(shù)和全連接層,旨在輸出分類結(jié)果或logit特征向量。針對不同數(shù)據(jù)集(如EMNIST)的特性,實驗中會相應(yīng)調(diào)整網(wǎng)絡(luò)參數(shù),以確保模型能夠適應(yīng)各種數(shù)據(jù)環(huán)境。
4.2 結(jié)果分析
1)準確性比較
表2、3分別展示了FedLSG與其他競爭算法在不同迪利克雷分布場景下,在三個不同數(shù)據(jù)集上所達到的全局平均測試準確率。實驗結(jié)果表明,無論在哪種數(shù)據(jù)集中,F(xiàn)edLSG普遍優(yōu)于其他聯(lián)邦學(xué)習(xí)算法。這一發(fā)現(xiàn)強有力地證明了雙生成器模型,其中包含潛在空間生成器在聯(lián)邦學(xué)習(xí)應(yīng)用中的有效性。
由表2、3可知,在不同的迪利克雷分布數(shù)據(jù)場景下,隨著α和γ的逐漸增大,六種算法表現(xiàn)出的性能差異有所不同。在MNIST和EMNIST中,六種算法的準確度都有所提升,但是FedDistill卻在EMNIST下準確率保持在一個相對穩(wěn)定的狀態(tài)。其中FedLSG在α=0.05和α=0.1參數(shù)設(shè)置下保持最高的準確率,F(xiàn)edGen在α=1.0參數(shù)設(shè)置下保持最高的精度。不過,值得注意的是,F(xiàn)edLSG在α=1.0參數(shù)設(shè)置下與FedGen的準確率相差不大。在CelebA中,隨著γ參數(shù)設(shè)置的不同,F(xiàn)edLSG都保持最高的準確率。分析以上結(jié)果,推測出現(xiàn)這種情況的原因是:當α=1.0時處于均勻迪利克雷分布中,用戶的異質(zhì)性差異較小,所以FedLSG的中間表征處理沒有充分發(fā)揮作用,導(dǎo)致其準確率略低于FedGen。然而,當用戶的異質(zhì)性差異較大時,F(xiàn)edLSG始終保持著最高的準確率,這表明FedLSG在處理用戶異質(zhì)性問題上優(yōu)于對比算法。
2)通信輪次性能比較
為了探究在相同的通信輪次下,六種算法對全局平均測試準確率的影響及其性能提升速度的差異,本實驗選擇了MNIST中α=0.1和CelebA中γ=5/25數(shù)據(jù)集作為實驗對象,并將通信輪次設(shè)定為100輪。通過對比這六種算法之間的性能提升速度,實驗旨在深入理解各算法在不同應(yīng)用場景下的效果。實驗結(jié)果詳見圖3、4。
從圖3、4的數(shù)據(jù)分析結(jié)果來看,在相同的100輪通信周期內(nèi),F(xiàn)edLSG表現(xiàn)出相對于其他算法在快速達到高準確率方面的顯著優(yōu)勢,并展現(xiàn)出更好的穩(wěn)定性。特別是在前20輪通信周期內(nèi),F(xiàn)edLSG的準確率提升速度超過了其他五種算法。這一結(jié)果證明了FedLSG能夠在較少的通信輪次中實現(xiàn)較高的全局平均測試準確率,從而突顯其在效率和性能上的優(yōu)越性。
3)超參數(shù)分析
為了探究條件多頭自注意力機制中注意力頭數(shù)對提取圖像特征的影響,實驗選擇CelebA中γ=10/25數(shù)據(jù)集作為實驗對象。在實驗中,設(shè)置了注意力頭數(shù)分別為16、32、64和128作為實驗超參數(shù),對數(shù)據(jù)集進行了200次訓(xùn)練,共訓(xùn)練1輪,并觀察實驗結(jié)果,結(jié)果如圖5所示。
從圖5的實驗結(jié)果來看,在保持訓(xùn)練輪次不變的情況下,提升注意力機制的頭數(shù)可以提高模型在全局平均測試準確率上的表現(xiàn)。這一現(xiàn)象可以歸因于更多的注意力頭使得模型能夠并行地聚焦于圖像的多個關(guān)鍵區(qū)域,進而對圖像的語義內(nèi)容、局部細節(jié)及全局信息進行更為全面的理解和捕捉。此外,通過擴增多頭注意力機制,模型在處理輸入數(shù)據(jù)中的變異和噪聲時展現(xiàn)出更高的魯棒性。因此,這一實驗結(jié)果明確地展示了條件多頭注意力機制中頭數(shù)的設(shè)置對模型性能具有顯著影響。
4)消融實驗
為了深入了解潛在空間生成器對FedLSG性能的影響,本實驗采用了一種消融實驗方法對其進行了評估。在這個實驗設(shè)置中,未集成潛在空間生成器的模型被命名為FedLSG*。通過這種對比,旨在揭示潛在空間生成器的具體貢獻。實驗的結(jié)果匯總?cè)绫?所示。
根據(jù)表4的實驗數(shù)據(jù),搭載了潛在空間生成器的FedLSG在多數(shù)場合下的性能超越了未搭載潛在空間生成器的FedLSG*,特別是在CelebA上,F(xiàn)edLSG的表現(xiàn)明顯優(yōu)于FedLSG*。這些結(jié)果充分證明了潛在空間生成器對于提升FedLSG性能起著關(guān)鍵作用。
5 結(jié)束語
針對用戶數(shù)據(jù)異質(zhì)性這一挑戰(zhàn),本文提出了一個創(chuàng)新的聯(lián)邦學(xué)習(xí)范式,它結(jié)合了潛在空間生成器、知識蒸餾和條件多頭注意力機制。這一范式有效地解決了用戶數(shù)據(jù)異質(zhì)性問題,同時在較少的通信輪次中實現(xiàn)了更快的精度提升。值得一提的是,通過生成的偽樣本既保持了數(shù)據(jù)標簽的分布,又增強了隱私保護的能力。
通過在多個數(shù)據(jù)集上的精確度對比、通信效率的評估、超參數(shù)的深入分析和詳細的消融實驗,證實了集成潛在空間生成器的FedLSG在可行性和性能優(yōu)勢方面的顯著優(yōu)勢。鑒于擴散模型在近兩年的快速進展,下一步計劃將研究重點轉(zhuǎn)向結(jié)合擴散模型的生成模型,進一步設(shè)計和優(yōu)化下一代的聯(lián)邦學(xué)習(xí)范式。
參考文獻:
[1]Smith J, Johnson A. Understanding user heterogeneity in the era of modern information society[J]. Journal of Information Science, 2020, 42(3): 415-430.
[2]Jothimurugesan E, Hsieh K, Wang Jianyu, et al. Federated learning under distributed concept drift[C]// Proc of International Conference on Artificial Intelligence and Statistics. [S.l.]: PMLR, 2023: 5834-5853.
[3]Chen J, Lin X, Wang Z. Label heterogeneity regularization for imba-lanced learning[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2020, 42(9): 2288-2302.
[4]McMahan B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data[C]// Proc of Artificial Intelligence and Statistics. [S.l.]: PMLR, 2017: 1273-1282.
[5]Konen J, Mcmahan H B, Yu F X, et al. Federated learning: strate-gies for improving communication efficiency[EB/OL]. (2017-10-30). https://arxiv.org/abs/1610.05492.
[6]Jeong E, Oh S, Kim H, et al. Communication-efficient on-device machine learning: federated distillation and augmentation under Non-IID private data [EB/OL]. (2023-10-19). https://arxiv.org/abs/1811.11479.
[7]Itahara S, Nishio T, Koda Y, et al. Distillation-based semi-supervised federated learning for communication-efficient collaborative training with Non-IID private data [J]. IEEE Trans on Mobile Computing, 2023, 22(1): 191-205.
[8]Chen Yiqiang, Lu Wang, Qin Xin, et al. MetaFed: federated lear-ning among federations with cyclic knowledge distillation for persona-lized healthcare[J/OL]. IEEE Trans on Neural Networks and Learning Systems. (2023-07-28). https://doi.org/10.1109/TNNLS.2023.3297103.
[9]Mora A, Tenison I, Bellavista P, et al. Knowledge distillation for federated learning: a practical guide [EB/OL]. (2022-11-09). https://arxiv.org/abs/2211.04742.
[10]Zhang Zhenyuan. FedDTG: federated data-free knowledge distillation via three-player generative adversarial networks[EB/OL]. (2022-10-14). https://arxiv.org/abs/2201.03169.
[11]Passerat-Palmbach J. FedGDKD: federated GAN-based data-free knowledge distillation for heterogeneous models[EB/OL]. (2022-06-20). https://api.semanticscholar.org/CorpusID:254198729.
[12]張紅艷, 張玉, 曹燦明. 一種解決數(shù)據(jù)異構(gòu)問題的聯(lián)邦學(xué)習(xí)方法[J]. 計算機應(yīng)用研究, 2024, 41(3): 713-720. (Zhang Hongyan, Zhang Yu, Cao Canming. Effective method to solve problem of data heterogeneity in federated learning [J]. Application Research of Computers, 2024, 41(3): 713-720.)
[13]Tran M T, Le T, Le X M, et al. Text-enhanced data-free approach for federated class-incremental learning [EB/OL]. (2024-03-21). https://arxiv.org/abs/2403.14101.
[14]Zhang Jianqing, Liu Yang, Hua Yang, et al. An upload-efficient scheme for transferring knowledge from a server-side pre-trained generator to clients in heterogeneous federated learning [EB/OL]. (2024-03-23). https://arxiv.org/abs/2403.15760.
[15]Chen Huancheng, Wang J, Vikalo H, et al. The best of both worlds: accurate global and personalized models through federated learning with data-free hyper-knowledge distillation [EB/OL]. (2023-04-09). https://arxiv.org/abs/2301.08968.
[16]Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[EB/OL]. (2015-03-09). https://arxiv.org/abs/1503.02531.
[17]Seo H, Park J, Oh S, et al. Federated knowledge distillation[EB/OL]. (2020-11-04). https://arxiv.org/abs/2011.02367.
[18]Maal?e L, S?nderby C K, S?nderby S K, et al. Auxiliary deep generative models [EB/OL]. (2016-06-16). https://arxiv.org/abs/1602.05473.
[19]Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.
[20]Pinheiro C L, Araújo M M, Barros Da Silva E A, et al. Variational autoencoder[M]// Variational Methods for Machine Learning with Applications to Deep Networks. Cham: Springer, 2021: 111-149.
[21]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[22]Deng Li. The MNIST database of handwritten digit images for machine learning research [best of the Web] [J]. IEEE Signal Processing Magazine, 2012, 29(6): 141-142.
[23]Cohen G, Afshar S, Tapson J, et al. EMNIST: extending MNIST to handwritten letters[C]// Proc of International Joint Conference on Neural Networks. Piscataway, NJ: IEEE Press, 2017: 2921-2926.
[24]Liu Ziwei, Luo Ping, Wang Xiaogang, et al. Large-scale celebfaces attributes(CelebA) dataset[EB/OL]. (2016-07-29). https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html.
[25]Li Tian, Sahu A K, Zaheer M, et al. Federated optimization in hetero-geneous networks[C] // Proc of the 3rd Conference on Machine Learning and Systems. 2020: 429-450.
[26]Shi Naichen, Lai Fan, Kontar R A, et al. Fed-ensemble: improving generalization through model ensembling in federated learning[J]. IEEE Trans on Automation Science and Engineering, 2023, 21(3): 2792-2803.
[27]Zhu Zhuangdi, Hong Junyuan, Zhou Jiayu. Data-free knowledge distillation for heterogeneous federated learning[C]// Proc of the 38th International Conference on Machine Learning. [S.l.]: PMLR, 2021: 12878-12889.
[28]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: transformers for image recognition at scale [EB/OL]. (2021-06-03). https://arxiv.org/abs/2010.11929.
[29]Song C H, Hwang T, Yoon J, et al. Conditional cross attention network for multi-space embedding without entanglement in only a single network[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2023: 11078-11087.