摘 要:提出了一種名為注意力機制驅(qū)動的個性化聯(lián)邦學(xué)習(xí)特征分離方法(attention-driven feature separation method for personalized federated learning,F(xiàn)edAM),旨在解決傳統(tǒng)聯(lián)邦學(xué)習(xí)在高度異構(gòu)數(shù)據(jù)環(huán)境下模型收斂性差和缺乏個性化解決方案的問題。FedAM通過將模型分解為特征提取層和模型頭部,加入注意力模塊以分別提取全局和個性化信息,從而實現(xiàn)全局與個性化特征的自適應(yīng)動態(tài)分離。此外,F(xiàn)edAM 引入相關(guān)性對齊損失來平衡個性化與泛化能力。實驗結(jié)果表明,F(xiàn)edAM 展現(xiàn)出卓越的性能,不僅在客戶端頻繁掉線的情況下保持穩(wěn)健表現(xiàn),還通過靈活應(yīng)對異構(gòu)數(shù)據(jù)環(huán)境,顯著提升了個性化和泛化效果。FedAM 有效提升了聯(lián)邦學(xué)習(xí)模型的整體性能和適應(yīng)性,為復(fù)雜的聯(lián)邦學(xué)習(xí)場景提供了有力支持。
關(guān)鍵詞:數(shù)據(jù)異構(gòu);注意力機制;參數(shù)分離;個性化聯(lián)邦學(xué)習(xí)
中圖分類號:TP181"" 文獻標志碼:A""" 文章編號:1001-3695(2025)04-018-1102-06
doi: 10.19734/j.issn.1001-3695.2024.09.0325
Attention-driven feature separation method for personalized federated learning
Zhang Xiaoqin1,2, Jin Xixing1, Lu Yanjun1, Cao Zeyu1
(1. School of Computer Science amp; Engineering, Chongqing University of Technology, Chongqing 400054, China; 2. Chongqing Communication Design Institute Co., Ltd., Chongqing 400041, China)
Abstract:This paper proposed an FedAM to address the challenges of poor model convergence and the lack of personalized solutions in highly heterogeneous data environments faced by traditional federated learning. FedAM achieved adaptive, dyna-mic separation of global and personalized features by decomposing the model into a feature extraction layer and a model head, with an added attention module to extract global and personalized information separately. Additionally, FedAM incorporated correlation alignment loss to balance personalization and generalization capabilities. Experimental results demonstrate that FedAM exhibits outstanding performance, maintaining robust results even with frequent client dropouts, and flexibly adapting to heterogeneous data environments, thereby significantly enhancing both personalization and generalization. FedAM effectively improves the overall performance and adaptability of federated learning models, providing strong support for complex federated learning scenarios.
Key words:data heterogeneity; attention mechanism; parameter separation; personalized federated learning
0 引言
在當(dāng)今競爭激烈且隱私敏感的環(huán)境中,數(shù)據(jù)共享帶來了顯著的安全風(fēng)險,為了解決各個機構(gòu)或企業(yè)數(shù)據(jù)不能進行共享而引發(fā)的“數(shù)據(jù)孤島”問題,聯(lián)邦學(xué)習(xí)被提出。聯(lián)邦學(xué)習(xí)利用各個客戶端的本地資源(計算能力和數(shù)據(jù))來協(xié)調(diào)構(gòu)建高效模型,并且無須共享客戶端的隱私信息,文獻[1]提出的聯(lián)邦學(xué)習(xí)優(yōu)化算法,可以調(diào)整數(shù)據(jù)可用性與隱私保護之間的關(guān)系,實現(xiàn)聯(lián)邦學(xué)習(xí)全局模型有效性、通信成本和隱私性的均衡。該過程由中央服務(wù)器協(xié)調(diào),通過聚合來自客戶端的本地模型參數(shù),生成新的全局參數(shù),然后重新廣播至各個客戶端,并且不涉及客戶端數(shù)據(jù)傳輸。文獻[2~4]指出,數(shù)據(jù)的稀疏性使得傳統(tǒng)的聯(lián)邦學(xué)習(xí)方法難以為每個分布式客戶端的任務(wù)獨立訓(xùn)練出有效的模型。
在實際應(yīng)用中,如在醫(yī)療診斷中,各個醫(yī)療機構(gòu)的數(shù)據(jù)通常是非獨立同分布的(non-independent identically distributed, Non-IID),不同的醫(yī)院有不同的患者群體和醫(yī)療設(shè)備,因此每個機構(gòu)的數(shù)據(jù)特征都存在異構(gòu)性。通過聯(lián)邦學(xué)習(xí)技術(shù),多個醫(yī)療機構(gòu)可以在不共享患者數(shù)據(jù)的情況下協(xié)同訓(xùn)練診斷模型,從而保證患者隱私不被泄露。然而,傳統(tǒng)的聯(lián)邦學(xué)習(xí)方法通常采用單一的全局模型,難以適應(yīng)各醫(yī)院的特定診斷需求,且不平衡。在處理高度異質(zhì)數(shù)據(jù)時,傳統(tǒng)的聯(lián)邦學(xué)習(xí)方法難以充分適應(yīng)每個客戶端的本地數(shù)據(jù)并取得高性能[5,6]。當(dāng)前聯(lián)邦學(xué)習(xí)方法面臨著重大挑戰(zhàn),包括在處理高度異質(zhì)數(shù)據(jù)時收斂性差和缺乏個性化解決方案兩個主要問題[7]。
為了解決這些問題并滿足客戶端的個性化需求,個性化聯(lián)邦學(xué)習(xí)(personalized federated learning, PFL)[8]被提出。與傳統(tǒng)方法不同,PFL專注于為每個客戶端創(chuàng)建定制的模型,而不是單一的全局模型。大多數(shù)PFL技術(shù)通過將客戶端數(shù)據(jù)上訓(xùn)練的本地個性化模型與全局模型進行聚合,來增強其本地個性化能力,即利用全局模型的全局信息來豐富客戶端本地的個性化模型。一般個性化聯(lián)邦學(xué)習(xí)的處理方法像這樣停留在一個完整的模型層面上。也有個性化聯(lián)邦學(xué)習(xí)方法對模型進行更加深層次的研究處理,將一個完整的模型分為全局和個性化兩部分,即將聯(lián)邦模型進行解耦,例如,F(xiàn)edPer[8]、FedRoD[9]和FedRep[10]等方法通過對模型解耦,將模型分為個性化模型和全局模型兩部分,通過服務(wù)器共享全局模型,保留個性化模型在客戶端本地的方法,使聯(lián)邦學(xué)習(xí)模型同時具有個性化能力和全局泛化能力。然而,這些只對模型進行分離的方法在處理客戶端的全局信息和個性化信息方面仍然存在不足。盡管模型參數(shù)是基于數(shù)據(jù)生成的,但由于模型參數(shù)是對原始數(shù)據(jù)的高度概括和壓縮,所以它們難以完整地保留和反映數(shù)據(jù)中的具體信息。這導(dǎo)致了全局信息和個性化信息在客戶端數(shù)據(jù)中的嵌入性無法被充分利用,在分離這些信息時存在局限性。
為了分離數(shù)據(jù)中的全局信息和個性化信息,本文提出一種注意力機制驅(qū)動的個性化聯(lián)邦學(xué)習(xí)特征分離方法(FedAM)。FedAM在對模型進行解耦的基礎(chǔ)上,同時對客戶端的數(shù)據(jù)特征進行全局信息和個性化信息的分離。由于客戶端中的原始數(shù)據(jù)維度較高,為提高處理效率,F(xiàn)edAM不直接對原始數(shù)據(jù)進行信息分離,而是對原始數(shù)據(jù)進行降維處理。具體而言,在每個客戶端中,利用本地模型的特征提取器對原始數(shù)據(jù)進行特征提取,并生成特征向量,從而將高維數(shù)據(jù)轉(zhuǎn)換為低維特征向量。之后,每個客戶端利用注意力模塊對特征向量進行處理,根據(jù)數(shù)據(jù)特征生成兩個不同的特征分離權(quán)重矩陣,通過這兩個不同的特征分離權(quán)重矩陣達到分離全局信息和個性化信息的效果。FedAM的詳細過程將在第2章中進行描述。
本文在廣泛使用的Non-IID場景[11]下對FedAM進行了全面實驗評估。在這些實驗中,F(xiàn)edAM持續(xù)優(yōu)于先前研究者提出的算法。本文主要的貢獻包括:
a)提出了將聯(lián)邦學(xué)習(xí)模型參數(shù)解耦,并利用注意力機制驅(qū)動的個性化聯(lián)邦學(xué)習(xí)特征分離方法。在聯(lián)邦學(xué)習(xí)中利用注意力機制實現(xiàn)動態(tài)樣本特定特征信息的個性化分離,與現(xiàn)有聯(lián)邦學(xué)習(xí)方法中的模型參數(shù)解耦方法相比,該方法提供了更細粒度的處理。
b)為了平衡個性化聯(lián)邦學(xué)習(xí)模型的個性化和泛化能力,創(chuàng)新性地引入了相關(guān)性對齊損失用于特征對齊。
c)在計算機視覺領(lǐng)域進行了廣泛的實驗,展示了FedAM的有效性。FedAM顯著增強了跨客戶端的聯(lián)邦學(xué)習(xí)模型的個性化能力,同時不降低模型的全局泛化性能。
1 相關(guān)研究
1.1 個性化聯(lián)邦學(xué)習(xí)
聯(lián)邦學(xué)習(xí)(FL)能夠在分散的數(shù)據(jù)孤島中進行協(xié)作模型訓(xùn)練,保護數(shù)據(jù)隱私。然而,在Non-IID場景下,傳統(tǒng)的聯(lián)邦學(xué)習(xí)算法,如FedAvg[12],容易出現(xiàn)客戶端偏移(client drift)的現(xiàn)象[13]。如圖1所示,設(shè)x*為f(x)的全局最優(yōu)解,x*i為每個客戶端的損失函數(shù)fi(x)的最優(yōu)解,即使所有客戶端都從同一個點x出發(fā),每個yi仍會朝著其對應(yīng)的最優(yōu)解x*i移動。由于每個客戶端最優(yōu)解更新的方向不一樣,唯一的全局最優(yōu)解無法有效地在每個客戶端上收斂。
為了解決傳統(tǒng)聯(lián)邦學(xué)習(xí)中在處理高度異質(zhì)數(shù)據(jù)時的收斂性差和每個客戶端缺乏個性化解決方案兩個主要問題,現(xiàn)如今已經(jīng)有大量關(guān)于個性化聯(lián)邦學(xué)習(xí)的研究?;谠獙W(xué)習(xí)的方法,例如Per-FedAvg[14],從共享模型出發(fā),該模型作為全局模型,適應(yīng)每個客戶端的學(xué)習(xí)模式。基于正則化的方法,如pFedMe[15],通過Moreau包絡(luò)在本地為每個客戶端開發(fā)個性化模型。FedCL[16]則從持續(xù)學(xué)習(xí)中引入彈性權(quán)重鞏固(EWC)[17],在本地損失函數(shù)中突出參數(shù)的重要性。Li等人[18]提出了Ditto,通過一個可學(xué)習(xí)的全局模型來正則化本地模型。李可等人[19]提出FedMTO,在本地更新時結(jié)合正則化多任務(wù)學(xué)習(xí)策略,關(guān)注任務(wù)之間的相關(guān)性,減小不同本地任務(wù)間的差異,從而保證聯(lián)邦學(xué)習(xí)過程的公平性,同時也使用模型參數(shù)解耦的思想實現(xiàn)個性化聯(lián)邦學(xué)習(xí)?;谀P徒怦畹姆椒?,F(xiàn)edPer[8]訓(xùn)練了一個全局特征提取器和客戶端特定的頭部,并使用提取器在本地微調(diào)頭部。FedRep[10]將骨干網(wǎng)絡(luò)分為全局模型和客戶端特定的頭部,并在本地微調(diào)頭部以實現(xiàn)個性化。Chen等人[20]引入了結(jié)構(gòu)化聯(lián)邦學(xué)習(xí)(SFL)框架,通過客戶端之間基于圖的結(jié)構(gòu)信息來增強PFL中的知識共享。Yi等人[21]提出FedGH,通過在聯(lián)邦學(xué)習(xí)服務(wù)器上使用異構(gòu)模型的提取器訓(xùn)練一個共享的全局預(yù)測頭,從而提高了通信和計算效率,并將學(xué)習(xí)到的全局知識傳遞給客戶端替換其本地預(yù)測頭部。
以上這些PFL方法主要關(guān)注從模型結(jié)構(gòu)中提取全局和個性化信息,而不是在根本層面上研究客戶端數(shù)據(jù)的內(nèi)在差異。最近也有研究者從客戶端數(shù)據(jù)層面進行全局信息和個性化信息的分離研究,例如FedCP[22]通過為每個客戶端數(shù)據(jù)樣本生成一個條件策略,利用條件策略將全局信息和個性化信息分離,然后利用全局頭和個性化頭分別處理這些信息。文獻指出,從數(shù)據(jù)層面對客戶端個性化信息和全局信息處理相比在模型層面進行處理能夠達到更好的個性化聯(lián)邦學(xué)習(xí)效果,但是FedCP在全局信息和個性化信息的分離和平衡方面仍然有缺陷。
本文提出FedAM算法,通過注意力機制模塊分離全局信息和個性化信息,并利用相關(guān)性對齊損失對全局信息和個性化信息進行平衡,在相關(guān)實驗中,F(xiàn)edAM能夠達到更好的個性化聯(lián)邦學(xué)習(xí)效果。
1.2 注意力機制的應(yīng)用
注意力機制是現(xiàn)代深度學(xué)習(xí)模型中的關(guān)鍵組件,在計算機視覺任務(wù)中,注意力機制被用于區(qū)分和提取圖像中的全局特征和個性化特征,進而提高模型的精度和適應(yīng)性。在自然語言處理領(lǐng)域,注意力機制則幫助模型在處理分布差異較大的文本數(shù)據(jù)時,兼顧全局信息傳遞和個性化需求。它已廣泛應(yīng)用于計算機視覺、自然語言處理等多個領(lǐng)域。這些應(yīng)用為本文提出的注意力機制驅(qū)動的個性化聯(lián)邦學(xué)習(xí)特征分離方法(Fed AM)奠定了理論基礎(chǔ)。
傳統(tǒng)的聯(lián)邦學(xué)習(xí)方法在處理非獨立同分布(Non-IID)數(shù)據(jù)時,往往難以兼顧全局模型的泛化能力和每個客戶端模型的個性化需求,注意力機制為解決客戶端模型的個性化需求提供了有效途徑。注意力機制通過對輸入數(shù)據(jù)中的不同部分賦予不同權(quán)重,使模型能夠動態(tài)調(diào)整對全局信息和個性化信息的關(guān)注度,從而有效地分離這些信息,提升模型在不同客戶端之間的協(xié)同能力。
本文提出FedAM,將注意力模塊整合到聯(lián)邦學(xué)習(xí)方法中,并利用注意力模塊對客戶端全局和個性化特征信息進行分離,在MNIST、CIFAR-10、CIFER-100、Tiny-ImageNet數(shù)據(jù)集上進行的實驗顯示,F(xiàn)edAM相比于先前提出的聯(lián)邦學(xué)習(xí)方法的性能有顯著提升。
2 本文方法
2.1 聯(lián)邦學(xué)習(xí)概述
聯(lián)邦學(xué)習(xí)通常涉及多個不同的客戶端協(xié)作構(gòu)建模型,而無須共享彼此的數(shù)據(jù)。設(shè)每個客戶端用于訓(xùn)練模型的權(quán)重為w, Dk表示每個客戶端擁有的數(shù)據(jù),其中包含樣本集合(xi,yi),L(xi,yi;w)表示模型的損失值,每個客戶端的本地優(yōu)化函數(shù)為
fk(w)=1Dk∑iL(xi,yi;w)
(1)
則全局優(yōu)化問題可由式(2)表示。
min F(w)=∑Kk=1DkDfk(w)
(2)
其中:D=∪kDk是所有客戶端數(shù)據(jù)的總和。
2.2 FedAM 概述
本文FedAM是一種注意力機制驅(qū)動的個性化聯(lián)邦學(xué)習(xí)特征分離方法,模型解耦處理方法,類似于FedPer、FedRep和FedRoD等采用模型參數(shù)分解的方法,同樣將骨干網(wǎng)絡(luò)最后一個全連接層(FC)指定為頭部(head),其余層則作為特征提取器(feature extractor)。其中特征提取器負責(zé)將輸入樣本映射到低維特征空間,即將數(shù)據(jù)轉(zhuǎn)換為特征向量;頭部則負責(zé)將低維特征空間映射到標簽空間,得到圖片分類結(jié)果。但是FedAM方法在模型參數(shù)解耦和處理全局與個性化信息方面相比之前的方法都具有更細粒度的處理。首先是在模型參數(shù)解耦方面,F(xiàn)edAM將模型解耦為全局特征提取器(Wfe)、全局頭部(Whd)、個性化特征提取器(Wfei)、個性化頭部(Whdi)以及注意力機制模塊(Att(Θi))五部分,如圖2(a)所示,相比之前的模型,解耦方法更加細致;其次還通過注意力機制對從客戶端數(shù)據(jù)中提取的特征向量進行處理,從數(shù)據(jù)層面對個性化信息和全局信息進行分離,而先前的模型只停留在對模型層的處理方面。
在每次迭代開始,服務(wù)器將下發(fā)全局模型參數(shù)(包括特征提取器、頭部和注意力機制模塊)至客戶端,如圖2(b)所示,使用服務(wù)器端Wfe和Whd分別初始化客戶端的Wfe、Wfei和Whd,同時凍結(jié)Wfe和Whd參數(shù),保持全局模型參數(shù)不受影響,即在本地訓(xùn)練過程中,這部分模型參數(shù)不會改變,達到保留全局泛化性信息的目的。而在客戶端的本地學(xué)習(xí)過程中,Wfei和Whdi參數(shù)會隨著模型在本地數(shù)據(jù)上的訓(xùn)練而更新,是為了從客戶端原始數(shù)得到更符合客戶端特性的個性化信息。然而,通過Wfei生成的個性化特征即使在經(jīng)過Att(Θi)處理,進行特征分離之后,仍然與凍結(jié)的Whd預(yù)期的特征分布差異過大,影響模型在最終分類任務(wù)中的性能。因此,通過相關(guān)性對齊損失(corral loss)[23]將Wfei輸出的特征hi與全局Wfe生成的特征h′i進行特征對齊,以平衡聯(lián)邦學(xué)習(xí)模型處理個性化信息和全局信息的能力。經(jīng)過客戶端本地的多輪訓(xùn)練迭代,Wfei、Whdi以及Att(Θi)得到更新,各個客戶端的Wfei,Att(Θi)直接上傳至中心服務(wù)器分別進行聚合,初始化下一周期訓(xùn)練的Wfe和Att(Θi),Whdi則與Whd進行加權(quán)平均后上傳至服務(wù)器進行聚合,初始化下一周期訓(xùn)練的Whd,全局模型參數(shù)經(jīng)過中心服務(wù)器聚合得到更新。每次全局模型的更新都是基于客戶端的個性化學(xué)習(xí)反饋,這樣可以確保全局模型在不同客戶端的數(shù)據(jù)上能夠表現(xiàn)穩(wěn)定。
圖2中的實線表示用于推理的個性化模型,包括個性化特征提取器Wfei、全局頭部Whd、個性化頭部Whdi和注意力機制模塊Att(Θi)。在模型測試過程中,凍結(jié)的特征提取器Wfe保持不活躍,僅在訓(xùn)練期間用于本地學(xué)習(xí)。
2.3 FedAM 算法
FedAM通過將模型解耦為全局特征提取器和個性化特征提取器,結(jié)合注意力機制,實現(xiàn)全局信息與個性化信息的動態(tài)分離。全局特征提取器的參數(shù)在訓(xùn)練過程中保持凍結(jié),確保其在所有客戶端上提供一致的全局知識,避免在個別客戶端數(shù)據(jù)上過擬合。個性化特征提取器和頭部則根據(jù)本地數(shù)據(jù)進行動態(tài)優(yōu)化,以確保每個客戶端的個性化需求得到滿足。通過相關(guān)性對齊損失,F(xiàn)edAM能夠在全局信息和個性化信息之間找到平衡,使得各客戶端的個性化模型既能充分利用全局知識,又能滿足本地優(yōu)化需求。具體來說,客戶端數(shù)據(jù)首先通過特征提取器生成包含個性化和全局特征的特征向量。然后,本文引入了注意力機制模塊,動態(tài)關(guān)注與當(dāng)前任務(wù)最相關(guān)的輸入部分,從特征向量中分離出個性化信息和全局信息。在分離過程中,通過相關(guān)性分析來平衡損失,以實現(xiàn)個性化與全局泛化能力的調(diào)和。最終得到具有個性化能力的聯(lián)邦學(xué)習(xí)模型。FedAM算法的偽代碼如算法1所示。
算法1 FedAM算法
輸入:客戶端數(shù)量N;初始化的全局特征提取器Wfe,0;初始化的全局頭部Whd,0;初始化全局注意力模塊Θ0;客戶端本地模型學(xué)習(xí)率η;客戶端參與率ρ;總迭代訓(xùn)練次數(shù)T。
輸出:客戶端個性化學(xué)習(xí)模型W1,…,WN,全局模型WT。
//服務(wù)器執(zhí)行
服務(wù)器下發(fā)Wfe,0、Whd,0、Θ0,初始化客戶端全局特征提取器Wfe,個性化特征提取器Wfei,客戶端全局頭部Whd,注意力模塊Θi,i∈[N]。
for iteration t = 0,…,T do
服務(wù)器根據(jù)ρ隨機選取It個參與訓(xùn)練的客戶端
服務(wù)器下發(fā)Wfe,t、Whd,t和Θt至選取的客戶端
for client i∈It in parallel do
/*客戶端i初始化模型:使用Wfe,t覆蓋Wfe、Wfei,同時凍結(jié)Wfe;使用Whd,t覆蓋Whd,同時凍結(jié)Whd;使用Θt覆蓋Θi;生成新的具有客戶端樣本特征的向量vi。*/
//客戶端訓(xùn)練,客戶端,同時更新Wfei、Whdi、Θi
Wfei←Wfei-ηSymbolQC@Wfeifloss;
Whdi←Whdi-ηSymbolQC@Whdfloss
Θi←Θi-ηSymbolQC@Θifloss
客戶端i由式(7)獲得hdi
客戶端i上傳Wfei、hdi、Θi至服務(wù)器
end for
//服務(wù)器聚合
服務(wù)器計算nt=∑i∈Itni,并且得到:
Wfe,t+1=1nt∑i∈ItniWfei;
Whd,t+1=1nt∑i∈Itnihdi;
Θt+1=1nt∑i∈ItniΘi;
Wt+1←{Wfe,t+1,Whd,t+1,Θt+1}
end for
return W1,…,WN(客戶端個性化學(xué)習(xí)模型),WT(全局模型)
2.3.1 注意力驅(qū)動的特征信息分離方法
本文在聯(lián)邦學(xué)習(xí)模型設(shè)計中增加Att(Θi)模塊,該模塊由兩個線性層、ReLU層和softmax層組成。在每個參與聯(lián)邦學(xué)習(xí)的客戶端中,使用式(3)生成樣本特定的特征信息分離矩陣:
{ri,si}=Att(Ci;Θi)
(3)
表示通過注意力機制處理上下文信息Ci,獲得用于分離個性化信息和全局信息的兩個不同的權(quán)重矩陣ri和si,并且rki+ski=1,k∈[K],其中Ci由特征向量hi經(jīng)過處理后得到。Att(Θi)模塊輸入Ci和輸出(ri,si)的具體獲取細節(jié)如下:
Ci是從數(shù)據(jù)樣本的特征hi中引入了客戶端特定的個性化信息的上下文信息。接下來主要描述如何引入客戶端特定的個性化信息。首先,個性化頭部Whdi中的權(quán)重參數(shù)自然蘊涵客戶端的特定信息,并且Whdi為模型的最后一層全連接層,那么Whdi的第k列對應(yīng)著hi中的第k個特征。在本文中,將Whdi矩陣向量化,通過式(4)縮減Whdi維度轉(zhuǎn)換為向量vi,方便與hi進行操作。
vi=∑Cc=1wTc
(4)
其中:wc是Whdi的第c行,通過這種變換,得到一個與hi具有相同形狀和相同特征語義的客戶端特定向量vi,然后通過式(5)結(jié)合樣本特定的hi得到上下文參數(shù)矩陣:
Ci=(vi/‖vi‖2)⊙hi
(5)
其中:‖vi‖2表示vi的L2范數(shù);⊙表示Hadamard積。在每次客戶端本地迭代訓(xùn)練前獲取vi,在迭代訓(xùn)練過程中vi不更新參數(shù),在推理的過程中獲取最新的vi。
通過將注意力權(quán)重矩陣ri、si分別與hi相乘,得到全局特征信息ri⊙hi和個性化特征信息si⊙hi,其中rki∈(0,1)和ski∈(0,1)。利用注意力機制聚焦于客戶端更重要的特征,使用該注意力機制處理Ci生成權(quán)重矩陣si,并且在FedAM算法中,Att(Θi)模塊最后一層為softmax,則令ri=1-si。因此,對于所有k∈[K], rki∈(0,1), ski∈(0,1), rki+ski=1。
在得到全局信息ri⊙hi 和個性化si⊙hi 后,分別將其投入Whd和Whdi進行處理,得到全局頭輸出outri=g(ri⊙hi;Whd)和個性化頭的輸出outsi=g(si⊙hi;Whdi)。模型的最終輸出在本文定義為 outi:=outri+outsi。接著,客戶端模型損失表示為
FedAM算法中對于每個客戶端樣本,上傳服務(wù)器的特征提取器(hdi)由參數(shù)Whd和Whdi進行加權(quán)求和得到,如式(7)所示。
hdi=λWhdi+(1-λ)Whd
(7)
其中:0≤λ≤1,在本文實驗中λ=0.6,在每次迭代后,系統(tǒng)將 {Wfei,hdi,Θi} 上傳到服務(wù)器,如圖2(b)所示。
2.3.2 相關(guān)性對齊損失
個性化特征提取器輸出的特征hi最終要經(jīng)過凍結(jié)的全局頭部,然而,由于個性化特征提取器在不斷利用客戶端數(shù)據(jù)進行訓(xùn)練和參數(shù)更新,這可能導(dǎo)致其輸出的特征與全局頭部預(yù)期的特征產(chǎn)生較大偏差。本文提出利用相關(guān)性對齊損失,用于將個性化特征提取器輸出的特征hi與全局特征提取器輸出的特征h′i對齊,從而平衡全局特征信息與客戶端個性化特征信息之間的差異。具體的相關(guān)性對齊損失定義如式(8)所示。
(8)
其中:f(xi;Whdi)和f(xi;Whd)分別是輸入xi在模型 Whdi和Whd下的特征輸出;cov(f(xi;Whdi),f(xi;Whd))是特征f(xi;Whdi)和f(xi;Whd)的協(xié)方差;σ(f(xi;Whdi))、σ(f(xi;Whd))是特征f(xi;Whdi)和f(xi;Whd)的標準差;N是樣本數(shù)量;M是特征數(shù)量。最終可以得到客戶端本地損失為floss=εi+εcor。
3 實驗分析
3.1 實驗設(shè)定
本文通過多個圖像分類任務(wù)評估了FedAM的性能,所使用的數(shù)據(jù)集包括四個廣為人知的基準數(shù)據(jù)集MNIST[24]、CIFAR-10[25]、CIFAR-100[26]和Tiny-ImageNet[27],其中Tiny-ImageNet包含100 000張圖像,涵蓋200個類別。在這些實驗中,模型采用了4層卷積神經(jīng)網(wǎng)絡(luò)(CNN)[28]。此外,本文還在Tiny-ImageNet上測試了ResNet-18,以評估FedAM在更復(fù)雜的骨干網(wǎng)絡(luò)上的表現(xiàn)。在實驗中,對于4層CNN模型,客戶端的本地學(xué)習(xí)率設(shè)定為η=0.005,而對于ResNet-18模型,學(xué)習(xí)率設(shè)定為η=0.1。為了模擬現(xiàn)實世界中的Non-IID數(shù)據(jù)分布[29],本文采用了狄利克雷分布Dir(β)來控制數(shù)據(jù)集的分布,通過調(diào)整參數(shù) β來控制數(shù)據(jù)的Non-IID特性,從而模擬不同客戶端之間的數(shù)據(jù)分布差異。具體而言,根據(jù)Dir(β)將數(shù)據(jù)樣本分配給各個客戶端。在默認情況下,β設(shè)為0.1,圖3展示了在這一設(shè)定下20個客戶端上,MNIST數(shù)據(jù)集的分布情況。
每個客戶端的數(shù)據(jù)被分為訓(xùn)練數(shù)據(jù)集(75%)和測試數(shù)據(jù)集(25%),初始默認設(shè)置本地批次大小為10,本地學(xué)習(xí)周期為1,所有任務(wù)均進行2 000次迭代直至收斂,客戶端數(shù)量設(shè)置為20,并將客戶端聯(lián)邦學(xué)習(xí)參與率設(shè)定為ρ=1,即全部正常參與聯(lián)邦學(xué)習(xí)。
3.2 主要實驗結(jié)果與分析
表1顯示了FedAM在使用4層CNN基礎(chǔ)模型對MNIST、CIFAR-10、CIFAR-100和Tiny-ImageNet數(shù)據(jù)集進行訓(xùn)練時的表現(xiàn),以及在使用ResNet-18基礎(chǔ)模型對Tiny-ImageNet數(shù)據(jù)集進行訓(xùn)練時的結(jié)果。從表1可以看出,F(xiàn)edAM在所有任務(wù)中的表現(xiàn)均優(yōu)于其他基線方法。產(chǎn)生更優(yōu)實驗結(jié)果的分析如下:FedAvg算法的表現(xiàn)較差,這是因為它僅訓(xùn)練了一個單一的全局模型,無法充分適應(yīng)各客戶端的本地數(shù)據(jù)。FedAvg直接將各客戶端的特征傳遞到中心服務(wù)器進行加權(quán)平均,而未考慮個性化信息,這限制了它的性能。相較之下,F(xiàn)edAM能夠有效區(qū)分并分別處理全局信息和個性化信息,從而顯著提升了模型的表現(xiàn)。雖然FedPer和FedRep對模型進行了部分解耦,僅共享特征提取器,但由于它們忽略了處理模型頭部參數(shù)的信息,導(dǎo)致在性能上不如FedAM。FedRoD試圖通過學(xué)習(xí)兩個具有不同目標的頭部來彌合傳統(tǒng)聯(lián)邦學(xué)習(xí)(FL)和個性化聯(lián)邦學(xué)習(xí)(PFL)之間的差距。然而,由于這兩個頭部的目標相互競爭,F(xiàn)edRoD未能有效解決這個問題,所以其表現(xiàn)遜于FedAM。盡管FedCP和FedAM都關(guān)注特征提取器和頭部信息,F(xiàn)edAM在個性化信息的分離和全局與個性化信息的平衡方面,方法更為先進,因此在性能上表現(xiàn)更優(yōu)。
3.3 計算通信開銷對比
在本次實驗中,對每種方法在訓(xùn)練過程中達到收斂所需的總時間和迭代次數(shù)進行了統(tǒng)計,并計算了每次迭代的平均時間消耗,結(jié)果如表2 所示。盡管 FedRep、FedCP和FedAM 方法由于個性化模型的額外訓(xùn)練,整體計算開銷有所增加,但實驗結(jié)果表明,F(xiàn)edAM 每次迭代的時間消耗低于最新的基線方法 FedRep 和 FedCP。尤其是在使用 ResNet-18 進行訓(xùn)練時,F(xiàn)edAM 的通信開銷僅增加了 1.35%,而其準確率卻顯著提高了 16.21%。這一結(jié)果表明,F(xiàn)edAM 能在提升模型精度的同時,保持較低的時間開銷,展現(xiàn)了其在個性化聯(lián)邦學(xué)習(xí)中的高效性與優(yōu)越性。
3.4 客戶數(shù)量的可擴展性
在其他條件不變的非獨立同分布(Non-IID)場景下,本文額外進行了四組實驗(N=10,N=30,N=50,N=100),以研究FedAM的可擴展性。由于 CIFAR-100 數(shù)據(jù)集的總量固定,隨著客戶端數(shù)量的增加,單個客戶端的本地數(shù)據(jù)量平均減少,導(dǎo)致部分客戶端的數(shù)據(jù)變得稀疏,使得模型擬合變得更加困難,增加了訓(xùn)練的復(fù)雜性。
在這種情況下,一些PFL(如 FedPer 和 FedRoD)的性能在客戶端數(shù)量 N=100 時,較 N=10時顯著下降,因為數(shù)據(jù)的高度分散阻礙了模型的有效訓(xùn)練。然而,正如表3 所示,盡管客戶端數(shù)量的增加導(dǎo)致了數(shù)據(jù)稀疏,F(xiàn)edAM 仍然在所有基線方法中表現(xiàn)最佳,相對于先前最先進的算法,在N=10、N=30、N=50和N=100的四種情況下分別提升了3.30%、4.16%、6.85%和3.32%,展示了其出色的擴展性。這表明,F(xiàn)edAM 能夠在應(yīng)對數(shù)據(jù)不均衡和稀疏性時,保持優(yōu)異的性能,并適應(yīng)大規(guī)??蛻舳谁h(huán)境下的個性化需求。
為模擬現(xiàn)實世界場景,在聯(lián)邦學(xué)習(xí)訓(xùn)練過程中可能出現(xiàn)客戶端丟失的情況。本文基于CIFAR-100(β=0.1,ρ=1,N=50|50)設(shè)置,進行了三組實驗:分別從現(xiàn)有的50個客戶端中隨機選擇10個或30個客戶端,形成CIFAR-100(β=0.1,ρ=1,N=10|50)和CIFAR-100(β=0.1,ρ=1,N=30|50)的兩組實驗數(shù)據(jù)。從表4 中可以看出,隨著客戶端數(shù)量的增加,更多的數(shù)據(jù)被用于訓(xùn)練全局共享模型,這有助于加強客戶端之間的信息傳遞,從而提升整體模型的性能。具體而言,F(xiàn)edAM 的準確率隨著客戶端數(shù)量的增加呈現(xiàn)穩(wěn)步提升,從 48.35% 增長至 58.02%,并最終達到 62.49%。這一結(jié)果表明,更多客戶端的參與使得全局模型能夠更好地捕捉跨客戶端的共享信息,從而提高了個性化聯(lián)邦學(xué)習(xí)的整體表現(xiàn)。
當(dāng)僅從50個客戶端中隨機選取10個客戶端參與訓(xùn)練時,雖然FedAM的性能略遜于FedCP,但仍明顯優(yōu)于其他基線方法。在其他兩個場景下,F(xiàn)edAM表現(xiàn)最佳,展示了其在處理客戶端數(shù)據(jù)分散問題上的優(yōu)越性。
3.5 較大的本地訓(xùn)練周期
通過增加每輪本地訓(xùn)練的次數(shù),可以減少通信迭代的總次數(shù)。在本次實驗中,在本地訓(xùn)練次數(shù)分別為5、10、20和40次的情況下,對各個算法在 CIFAR-10 上的分類性能進行了對比,結(jié)果如表5 所示。即使在本地訓(xùn)練次數(shù)為5和10的情況下,F(xiàn)edAM仍然保持了其顯著的優(yōu)勢。大多數(shù)方法在更大本地訓(xùn)練次數(shù)下表現(xiàn)不佳,主要原因是大量的本地訓(xùn)練加劇了客戶端模型之間的差異,從而影響了服務(wù)器的聚合效果。例如,當(dāng)本地訓(xùn)練次數(shù)從5增加到40時,F(xiàn)edRoD 的準確率下降了2.2百分點,F(xiàn)edAM 的準確率下降了4.14百分點,但是FedAM 的準確率仍然高于大多數(shù)算法。實驗結(jié)論表明,F(xiàn)edAM 在較少的本地訓(xùn)練次數(shù)時能夠更好地發(fā)揮其性能優(yōu)勢,證明了其在增加本地訓(xùn)練周期的情況下,仍能保持優(yōu)異的分類效果。
4 結(jié)束語
為了解決聯(lián)邦學(xué)習(xí)中由于數(shù)據(jù)異構(gòu)性導(dǎo)致的收斂性差以及缺乏有效的個性化聯(lián)邦學(xué)習(xí)(PFL)解決方案的問題,本文提出了一種基于注意力機制驅(qū)動的個性化聯(lián)邦學(xué)習(xí)特征分離方法(FedAM)。通過利用注意力機制聚焦于重要的客戶特征,F(xiàn)edAM將這些特征分為全局特征信息和個性化特征信息,并分別由全局頭部和個性化頭部進行處理。此方法實現(xiàn)了聯(lián)邦學(xué)習(xí)模型的個性化處理,同時平衡了全局信息與個性化信息之間的關(guān)系,并通過相關(guān)性對齊損失進行優(yōu)化。因此,F(xiàn)edAM在數(shù)據(jù)分布差異較大的非獨立同分布(Non-IID)場景中表現(xiàn)出色。在MNIST、CIFAR-10、CIFAR-100和Tiny數(shù)據(jù)集上的大量實驗表明,F(xiàn)edAM在大多數(shù)情況下優(yōu)于現(xiàn)有的PFL方法。個性化聯(lián)邦學(xué)習(xí)的一個重要應(yīng)用領(lǐng)域是醫(yī)療診斷系統(tǒng)。FedAM通過將全局信息與個性化信息分離,使得各醫(yī)院可以共享全局診斷知識,同時針對本地數(shù)據(jù)進行個性化優(yōu)化,提升醫(yī)療系統(tǒng)的整體診斷準確率和各醫(yī)院的個性化診斷能力。然而,本文的工作仍然存在一些不足。首先,本文僅在客戶端模型和數(shù)據(jù)方向上考慮了個性化處理,而未在服務(wù)器端處理各個客戶端模型之間的差異,這可能會限制模型在高度異構(gòu)的數(shù)據(jù)環(huán)境下的適應(yīng)性。其次,F(xiàn)edAM雖然在本地訓(xùn)練次數(shù)較少時表現(xiàn)優(yōu)異,但在增加本地訓(xùn)練次數(shù)后,其性能可能會有所下降,如何在不同本地訓(xùn)練次數(shù)下保持穩(wěn)定的性能仍需進一步研究。因此,未來的改進方向可以考慮在服務(wù)器端實現(xiàn)對各個客戶端模型之間差異信息的處理和聚合,以進一步提高FedAM在更廣泛場景下的適用性和魯棒性。此外,還可以探索如何在不同的本地訓(xùn)練設(shè)置下保持算法的穩(wěn)定性,以提升模型的整體表現(xiàn)。
參考文獻:
[1]胡智勇, 于千城, 王之賜, 等. 基于多目標優(yōu)化的聯(lián)邦學(xué)習(xí)進化算法 [J]. 計算機應(yīng)用研究, 2024, 41(2): 415-420, 437. (Hu Zhiyong, Yu Qiancheng, Wang Zhici, et al. Federated learning evolutionary algorithm based on multi-objective optimization [J]. Application Research of Computers, 2024, 41(2): 415-420, 437.)
[2]Kairouz P, McMahan H B, Avent B,et al. Advances and open problems in federated learning [J]. Foundations and Trends in Machine Learning, 2021, 14(1-2): 1-210.
[3]Li Tian, Sahu A K, Talwalkar A, et al. Federated learning: challenges, methods, and future directions [J]. IEEE Signal Processing Magazine, 2020, 37(3): 50-60.
[4]Tan A Z, Yu Han, Cui Lizhen,et al. Towards personalized federated learning [J]. IEEE Trans on Neural Networks and Learning Systems, 2023, 34(12): 9587-9603.
[5]Huang Yutao, Chu Lingyang, Zhou Zirui,et al. Personalized cross-silo federated learning on non-IID data[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press, 2021: 7865-7873.
[6]Dinh C T, Tran N H, Nguyen T D. Personalized federated learning with Moreau envelopes [EB/OL]. (2020-06-16). https://arxiv.org/abs/2006.08848.
[7]Li Xinchun, Zhan Dechuan, ShaoYunfeng, et al. FedPHP: federated personalization with inherited private models[C]// Proc of Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Cham: Springer, 2021: 587-602.
[8]Arivazhagan M G, Aggarwal V, Singh A K, et al. Federated learning with personalization layers [EB/OL]. (2019-12-02). https://arxiv.org/abs/1912.00818.
[9]Collins L, Hassani H, Mokhtari A, et al. Exploiting shared representations for personalized federated learning[C]// Proc of International Conference on Machine Learning.[S.l.]: PMLR, 2021: 2089-2099.
[10]Chen Hongyou, Chao Weilun. On bridging generic and personalized federated learning for image classification[C]//Proc of International Conference on Learning Representations. 2022.
[11]Li Qinbin, He Bingsheng, Song D. Model-contrastive federated lear-ning[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2021: 10708-10717.
[12]McMahan H B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data [EB/OL]. (2016-02-17). https://arxiv.org/abs/1602.05629.
[13]Karimireddy S P, Kale S, Mohri M,et al. SCAFFOLD: stochastic controlled averaging for federated learning [EB/OL]. (2019-10-14). https://arxiv.org/abs/1910.06378.
[14]Martínez Beltrán E T, Pérez M Q, Sánchez P M S, et al. Decentra-lized federated learning: fundamentals, state of the art, frameworks, trends, and challenges [J]. IEEE Communications Surveys amp; Tutorials, 2023, 25(4): 2983-3013.
[15]Fallah A, Mokhtari A, Ozdaglar A, et al. Personalized federated learning with theoretical guarantees[C]//Proc of the 34th International Conference on Neural Information Processing Systems. New York: ACM Press, 2020: 3557-3568.
[16]Yao Xin, Sun Lifeng. Continual local training for better initialization of federated models[C]//Proc of IEEE International Conference on Image Processing. Piscataway,NJ: IEEE Press, 2020: 1736-1740.
[17]Kirkpatrick J, Pascanu R, Rabinowitz N,et al. Overcoming catastrophic forgetting in neural networks [J]. Proceedings of the National Academy of Sciences of the United States of America, 2017, 114(13): 3521-3526.
[18]Li Tian, Hu Shengyuan, Beirami A,et al. Ditto: fair and robust fe-derated learning through personalization [EB/OL]. (2020-12-08). https://arxiv.org/abs/2012.04221.
[19]李可, 王曉峰, 王虎. 面向異構(gòu)數(shù)據(jù)的個性化聯(lián)邦多任務(wù)學(xué)習(xí)優(yōu)化方法 [J]. 計算機應(yīng)用研究, 2024, 41(9): 2641-2648. (Li Ke, Wang Xiaofeng, Wang Hu. Personalized federated multi-task learning optimization method for heterogeneous data [J]. Application Research of Computers, 2024, 41(9): 2641-2648. )
[20]Chen Fengwen, Long Guodong, Wu Zonghan,et al. Personalized fe-derated learning with graph [EB/OL]. (2022-04-30). https://arxiv.org/abs/2203.00829.
[21]Yi Liping, Wang Gang, Liu Xiaoguang,et al. FedGH: heterogeneous federated learning with generalized global header[C]//Proc of the 31st ACM International Conference on Multimedia. New York: ACM Press, 2023: 8686-8696.
[22]Zhang Jianqing, Hua Yang, Wang Hao,et al. FedCP: separating feature information for personalized federated learning via conditional po-licy[C]//Proc of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2023: 3249-3261.
[23]SunBaochen, Saenko K. Deep CORAL: correlation alignment for deep domain adaptation[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2016: 443-450.
[24]LeCun Y, Bottou L, Bengio Y,et al. Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE, 2002, 86(11): 2278-2324.
[25]Krizhevsky A. Learning multiple layers of features from tiny images [EB/OL].(2024-12-02). https://doi.org/10.57702/zp44cu3g.
[26]Chrabaszcz P, Loshchilov I, Hutter F. A downsampled variant of ImageNet as an alternative to the CIFAR datasets [EB/OL]. (2017-07-27). https://arxiv.org/abs/1707.08819.
[27]Geiping J, Bauermeister H, Drge H,et al. Inverting gradients- how easy is it to break privacy in federated learning?[C]//Proc of the 34th International Conference on Neural Information Processing Systems. New York: ACM Press, 2020: 16937-16947.
[28]Luo Mi, Chen Fei, Hu Dapeng,et al. No fear of heterogeneity: classifier calibration for federated learning with non-IID data [EB/OL]. (2021-06-09). https://arxiv.org/abs/2106.05001.
[29]Lin Tao, Kong Lingjing, Stich S U,et al. Ensemble distillation for robust model fusion in federated learning[C]//Proc of the 34th International Conference on Neural Information Processing Systems. New York: ACM Press, 2020: 2351-2363.