摘 要:傳統(tǒng)聯(lián)邦學(xué)習(xí)中經(jīng)過加權(quán)聚合得到的全局模型無法應(yīng)對(duì)跨客戶端的數(shù)據(jù)異構(gòu)的問題?,F(xiàn)有研究通過形成個(gè)性化模型應(yīng)對(duì),但個(gè)性化模型如何平衡全局的共性信息和本地的個(gè)性信息是一個(gè)挑戰(zhàn)。針對(duì)上述問題,提出了一種個(gè)性化聯(lián)邦學(xué)習(xí)模型聚合框架FedPG(federated learning with personalized global model)。FedPG基于客戶端模型的相似性,將歸一化后的模型參數(shù)變化量的余弦相似度作為模型聚合的個(gè)性化權(quán)重,從而實(shí)現(xiàn)面向客戶端的全局模型個(gè)性化聚合。通過引入平滑系數(shù),該框架可以靈活地調(diào)整模型中共性信息和個(gè)性信息的比重。為了降低平滑系數(shù)的選擇成本,進(jìn)一步提出調(diào)度平滑系數(shù)的個(gè)性化聯(lián)邦學(xué)習(xí)模型聚合框架FedPGS(federated learning with personalized global model and scheduled personalization) 。在實(shí)驗(yàn)中,F(xiàn)edPG和FedPGS兩個(gè)框架使得FedAvg、FedProto、FedProx算法在特征分布偏移的數(shù)據(jù)集上的準(zhǔn)確率平均提升1.20~11.50百分點(diǎn),且使得模型的準(zhǔn)確率受惡意設(shè)備的影響更小。結(jié)果表明,F(xiàn)edPG和FedPGS框架在數(shù)據(jù)異構(gòu)和存在惡意設(shè)備干擾的情況下能有效提升模型的準(zhǔn)確率和魯棒性。
關(guān)鍵詞:個(gè)性化聯(lián)邦學(xué)習(xí);余弦相似度;數(shù)據(jù)異構(gòu);模型聚合;惡意設(shè)備
中圖分類號(hào):TP181"" 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2025)01-018-0125-08
doi: 10.19734/j.issn.1001-3695.2024.06.0205
Similarity-based personalized federated learning model aggregation framework
Abstract:In traditional federated learning, global model obtained through weighted aggregation cannot address the issue of cross-client data heterogeneity. Existing research addresses the problem by forming personalized models, but balancing the global common information and local personality information remains a challenge. In response to the above problems, this paper proposed FedPG, a personalized federated learning model aggregation framework. Based on the similarity of the client models, FedPG used the cosine similarity of the normalized model parameter changes as the personalized weight of model aggregation, thereby realizing personalized client-oriented global model aggregation. By introducing a smoothing coefficient, this framework could flexibly adjust the proportion of common and personalized information in the model. To reduce the cost of selecting the smoothing coefficient, this paper further proposed the FedPGS framework, which scheduled the smoothing coefficient. In the experiments, the FedPG and FedPGS frameworks improve the accuracy of the FedAvg, FedProto, and FedProx algorithms on datasets with feature distribution shift by an average of 1.20 to 11.50 percentage points, and reduce the impact of malicious devices on model accuracy. The results indicate that the FedPG and FedPGS frameworks can effectively enhance model accuracy and robustness in scenarios with data heterogeneity and malicious device interference.
Key words:personalized federated learning; cosine similarity; data heterogeneity; model aggregation; malicious device
0 引言
聯(lián)邦學(xué)習(xí)(federated learning,F(xiàn)L)是一種分布式機(jī)器學(xué)習(xí)框架,在聯(lián)邦學(xué)習(xí)中,各客戶端不需要將本地?cái)?shù)據(jù)上傳到服務(wù)器端,只需要傳輸模型參數(shù)或訓(xùn)練信息就可以完成協(xié)作訓(xùn)練,最終得到高性能模型。聯(lián)邦學(xué)習(xí)為數(shù)據(jù)共享和隱私保護(hù)提供了新的方案[1],從而廣泛應(yīng)用到了醫(yī)療健康、金融、物聯(lián)網(wǎng)等領(lǐng)域[2~4]。
隨著聯(lián)邦學(xué)習(xí)應(yīng)用場(chǎng)景增多,聯(lián)邦學(xué)習(xí)也面臨更多挑戰(zhàn),其中一個(gè)挑戰(zhàn)就是數(shù)據(jù)異構(gòu)[5]。當(dāng)各客戶端本地?cái)?shù)據(jù)集在數(shù)據(jù)來源、數(shù)據(jù)規(guī)模、數(shù)據(jù)類別分布、數(shù)據(jù)特征分布等方面有較大差異時(shí)[6],就會(huì)導(dǎo)致客戶端的數(shù)據(jù)異構(gòu)。在數(shù)據(jù)異構(gòu)的情況下對(duì)各客戶端的模型參數(shù)直接進(jìn)行聚合反而會(huì)導(dǎo)致全局模型偏離全局最優(yōu)方向[7],使得模型收斂速度緩慢,性能嚴(yán)重受損。
特征分布偏移是數(shù)據(jù)異構(gòu)的一個(gè)類型,是指相同標(biāo)簽數(shù)據(jù)的特征分布不同,例如不同人寫出的手寫數(shù)字由于書寫風(fēng)格不同,形成的圖像分布不同。數(shù)據(jù)采集的時(shí)間、地點(diǎn)、采集人員等不一致,以及不同批次的傳感器和設(shè)備等因素都會(huì)導(dǎo)致特征分布偏移[8]。在聯(lián)邦學(xué)習(xí)應(yīng)用的各個(gè)領(lǐng)域中,特征分布偏移是一個(gè)普遍存在的問題。例如,在搜索查詢中,用戶的搜索內(nèi)容和表達(dá)方式高度個(gè)性化,這種個(gè)性化特征會(huì)引發(fā)訓(xùn)練樣本的特征分布偏移,若僅依賴于多數(shù)人的搜索行為進(jìn)行推薦,可能會(huì)損害用戶體驗(yàn)。在車聯(lián)網(wǎng)中,車輛所處的道路幾何形狀、交通流量和天氣條件等因素的差異,加劇了樣本的特征分布偏移,若模型未能充分考慮車輛所處的具體環(huán)境,則可能導(dǎo)致嚴(yán)重后果。此外,在醫(yī)療領(lǐng)域,參與聯(lián)邦學(xué)習(xí)的不同醫(yī)院之間,由于患者群體的多樣性和藥物測(cè)試的差異,不同患者的病癥及其對(duì)藥物的反應(yīng)具有顯著的個(gè)性化特征,導(dǎo)致特征分布偏移。如果在治療診斷中忽視了患者的特殊情況,可能會(huì)對(duì)其健康產(chǎn)生不利影響[9]。
FedAvg(federated averaging)[10]是聯(lián)邦學(xué)習(xí)中一個(gè)典型的算法,它通過在設(shè)備端訓(xùn)練模型,將更新的模型參數(shù)傳輸?shù)街醒敕?wù)器進(jìn)行聚合,從而實(shí)現(xiàn)模型的全局更新。FedAvg的權(quán)重設(shè)置基于客戶端數(shù)據(jù)量,數(shù)據(jù)量越大則賦予對(duì)應(yīng)模型參數(shù)更大的權(quán)重。許多研究都在FedAvg的基礎(chǔ)上進(jìn)行改進(jìn),以提高聯(lián)邦學(xué)習(xí)中的通信效率和收斂速率、改善客戶端公平性[11~14]。這些改進(jìn)算法仍是對(duì)一個(gè)全局模型的優(yōu)化,不能滿足存在數(shù)據(jù)異構(gòu)情況下的不同客戶端個(gè)性化需求。
為了應(yīng)對(duì)數(shù)據(jù)異構(gòu)的挑戰(zhàn),很多研究者不再局限于全局模型的優(yōu)化,而是提出了個(gè)性化聯(lián)邦學(xué)習(xí)[15]。個(gè)性化聯(lián)邦學(xué)習(xí)指各客戶端在訓(xùn)練過程中有更適應(yīng)本地?cái)?shù)據(jù)集的模型,從而避免單一全局模型不能同時(shí)適應(yīng)不同客戶端的數(shù)據(jù)分布的問題[16,17]。該方法可分為兩種方式:a)將各客戶端模型聚合生成全局模型,再下發(fā)到各客戶端進(jìn)行微調(diào),從而生成適合本地?cái)?shù)據(jù)的個(gè)性化模型;b)根據(jù)某些聚合策略,直接為各客戶端生成個(gè)性化模型[13]。
個(gè)性化聯(lián)邦學(xué)習(xí)的引入為解決傳統(tǒng)聯(lián)邦學(xué)習(xí)中的泛化能力不足問題提供了新的思路。常用的技術(shù)有元學(xué)習(xí)、遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)、聚類、參數(shù)分解、知識(shí)蒸餾等[18~23]。通過為客戶端定制個(gè)性化模型,可以更好地平衡數(shù)據(jù)隱私和模型性能之間的關(guān)系,從而提高模型的泛化能力和個(gè)性化效果。這種方法在各種領(lǐng)域,如個(gè)性化推薦系統(tǒng)、個(gè)性化醫(yī)療等方面,具有廣泛的應(yīng)用前景[24]。
在聯(lián)邦學(xué)習(xí)中,惡意設(shè)備可能會(huì)上傳經(jīng)過竄改的模型參數(shù),并干擾模型聚合過程,從而影響全局模型的性能,導(dǎo)致模型性能下降甚至失效。惡意設(shè)備是指在分布式系統(tǒng)中故意提供虛假或有害數(shù)據(jù)的參與節(jié)點(diǎn)[25]。這些設(shè)備通常在惡意攻擊者控制下,通過上傳錯(cuò)誤的模型更新、偽造數(shù)據(jù)或其他方式對(duì)聚合得到的全局模型產(chǎn)生影響,進(jìn)而破壞系統(tǒng)的正常運(yùn)行。如何最低成本地避免惡意設(shè)備提交竄改的模型參數(shù)影響全部模型的聚合更新成為一個(gè)挑戰(zhàn)。Multi-KRUM[26]通過計(jì)算每輪每個(gè)客戶端梯度的歐氏距離,舍棄離群度較大的客戶端模型,然后加權(quán)平均得到聚合后的模型。這個(gè)過程不斷重復(fù),直至模型收斂。通過這種方式,Multi-KRUM有效地減少了惡意設(shè)備對(duì)模型聚合過程的干擾。但是Multi-KRUM需要提前設(shè)定惡意設(shè)備的數(shù)量。設(shè)定惡意設(shè)備的數(shù)量過多或過少都會(huì)對(duì)實(shí)驗(yàn)效果產(chǎn)生不利影響:過多會(huì)額外排除一些好的設(shè)備,過少則不能有效地排除所有的惡意設(shè)備。
本文提出了一種針對(duì)特征分布偏移的聯(lián)邦學(xué)習(xí)模型聚合框架。該框架不需獲取客戶端的本地?cái)?shù)據(jù)類型分布和特征分布等信息,僅需獲取客戶端模型并對(duì)其進(jìn)行聚合。它能夠在保護(hù)本地?cái)?shù)據(jù)隱私的前提下為每個(gè)客戶端定制個(gè)性化模型。具體地,該框架計(jì)算客戶端模型間的余弦相似度,以反映模型對(duì)應(yīng)的客戶端數(shù)據(jù)集的特征分布的相似程度。之后對(duì)計(jì)算出來的余弦相似度進(jìn)行歸一化,通過調(diào)試歸一化中的平滑系數(shù),可以靈活控制全局模型的個(gè)性化程度,以適配不同數(shù)據(jù)集下的特征分布偏移程度。此外,本文還提出了一種自動(dòng)調(diào)度平滑系數(shù)的模型聚合框架。這種方法確保了模型聚合的前期權(quán)重分布差異較小,有利于獲取更多的全局信息。隨后,權(quán)重分布變得更加尖銳,從而更好地適應(yīng)本地?cái)?shù)據(jù)的細(xì)微差異。這種調(diào)度策略不需要人工確定最優(yōu)的平滑系數(shù)且能夠適應(yīng)具有不同特征分布偏移程度的數(shù)據(jù)集。
本文采用區(qū)塊鏈和星際文件系統(tǒng),記錄客戶端訓(xùn)練后的本地模型和服務(wù)器端聚合后的全局模型。使用星際文件系統(tǒng)實(shí)現(xiàn)模型文件鏈下存儲(chǔ),減小區(qū)塊鏈存儲(chǔ)壓力。利用區(qū)塊鏈的分布式存儲(chǔ)防止單個(gè)節(jié)點(diǎn)故障對(duì)聯(lián)邦學(xué)習(xí)的影響。利用區(qū)塊鏈的可追溯性可以追蹤惡意設(shè)備的身份,有效應(yīng)對(duì)惡意設(shè)備的威脅。
本文工作總結(jié)如下:a) 提出了一種基于歸一化后的客戶端模型余弦相似度的模型聚合框架,有效緩解了由客戶端數(shù)據(jù)分布類型不可知導(dǎo)致的特征分布偏移問題對(duì)聯(lián)邦學(xué)習(xí)的不利影響;b) 在基于余弦相似度的模型聚合框架中引入了平滑系數(shù),以調(diào)整模型中共性信息與個(gè)性信息的比重,可為不同的場(chǎng)景定制最佳的平滑系數(shù),從而獲得最佳的個(gè)性化模型;c) 提出了平滑系數(shù)調(diào)度方法,在多數(shù)場(chǎng)景下無須事先進(jìn)行實(shí)驗(yàn)確定最優(yōu)的平滑系數(shù),也能取得較好的實(shí)驗(yàn)效果;d) 本文框架在有惡意設(shè)備的情況下,可以有效緩解被惡意竄改的模型對(duì)整體模型性能的破壞,保證了大部分設(shè)備模型更新的有效性。
1 背景知識(shí)
1.1 聯(lián)邦學(xué)習(xí)
聯(lián)邦學(xué)習(xí)是一種分布式學(xué)習(xí),以經(jīng)典的聯(lián)邦學(xué)習(xí)FedAvg算法為例:在FedAvg框架中,在每輪通信中每個(gè)客戶端要在各自數(shù)據(jù)集上訓(xùn)練出一個(gè)模型,并將本地模型上傳到服務(wù)器,由服務(wù)器根據(jù)客戶端本地?cái)?shù)據(jù)集大小進(jìn)行加權(quán)聚合得到一個(gè)全局模型,并將全局模型下發(fā)給各客戶端,重復(fù)這個(gè)過程,直到全局模型收斂。設(shè)ωrG是第r輪的全局模型,ωri是第r輪第i個(gè)客戶端的本地模型,N是客戶端總數(shù)據(jù)量,Di是第i個(gè)客戶端的本地?cái)?shù)據(jù)集,Ni是第i個(gè)客戶端本地?cái)?shù)據(jù)量。FedAvg算法的全局模型的優(yōu)化目標(biāo)是
FedAvg的本地模型的優(yōu)化目標(biāo)是
其中:l(x,y,ω)是損失函數(shù)。服務(wù)器端將模型下發(fā)給各客戶端,各客戶端將模型在本地?cái)?shù)據(jù)集上更新:
其中:S是一個(gè)批次的數(shù)據(jù)集。計(jì)算客戶端i在第r輪本地訓(xùn)練后的模型參數(shù)ωri相對(duì)第r-1輪全局模型參數(shù)ωr-1G的變化量:
Δωri=ωri-ωr-1G(4)
再將模型參數(shù)變化量發(fā)送到服務(wù)器端,之后服務(wù)器端對(duì)模型參數(shù)變化量按本地客戶端數(shù)據(jù)量大小加權(quán)聚合:
可以看到,模型首先將模型參數(shù)變化量進(jìn)行了加權(quán)平均,然后再將平均量加在模型上,如果數(shù)據(jù)分布相似,那么客戶端的優(yōu)化方向基本一致,性能損失很小,本地更新的模型和聚合后的模型波動(dòng)均不顯著。但當(dāng)各客戶端數(shù)據(jù)集分布差異大時(shí),某些客戶端參數(shù)波動(dòng)比較大,而另一些客戶端的參數(shù)波動(dòng)較小,最后得到的全局模型會(huì)偏向一些客戶端,導(dǎo)致全局模型有偏;另一方面,數(shù)據(jù)分布差異大的客戶端之間的模型更新方向不同,可能會(huì)導(dǎo)致這些客戶端的模型參數(shù)變化量相互抵消,導(dǎo)致全局模型會(huì)偏離全局最優(yōu)方向,使得模型收斂速度緩慢,性能嚴(yán)重受損。所以當(dāng)客戶端數(shù)據(jù)分布差異大時(shí),為不同數(shù)據(jù)分布的客戶端定制個(gè)性化模型是有必要的。
1.2 個(gè)性化聯(lián)邦學(xué)習(xí)
傳統(tǒng)的聯(lián)邦學(xué)習(xí)模式中,各參與方共享模型更新而不共享原始數(shù)據(jù),以維護(hù)數(shù)據(jù)隱私。然而按照客戶端總數(shù)據(jù)量為權(quán)重聚合后的全局模型可能無法充分考慮各參與方本地?cái)?shù)據(jù)的特點(diǎn),導(dǎo)致泛化能力不足,甚至偏離全局最優(yōu)方向。當(dāng)每個(gè)參與方的數(shù)據(jù)分布不同時(shí),這種情況尤為突出。
個(gè)性化聯(lián)邦學(xué)習(xí)是一種結(jié)合了聯(lián)邦學(xué)習(xí)和個(gè)性化建模技術(shù)的方法,充分考慮到每個(gè)客戶端本地?cái)?shù)據(jù)的特征分布,為每個(gè)客戶端構(gòu)建更適配本地?cái)?shù)據(jù)集的個(gè)性化模型。個(gè)性化聯(lián)邦學(xué)習(xí)的全局模型優(yōu)化目標(biāo)是
個(gè)性化聯(lián)邦學(xué)習(xí)的本地模型的優(yōu)化目標(biāo)是
個(gè)性化聯(lián)邦學(xué)習(xí)分為兩種策略:a)在服務(wù)器端將所有模型聚合為全局模型后,各客戶端在本地采用一些策略得到適配本地?cái)?shù)據(jù)集的個(gè)性化模型;b)各客戶端將本地模型傳入服務(wù)器端后,根據(jù)一些模型聚合策略直接聚合成個(gè)性化的模型。第一種策略中使用的聯(lián)邦學(xué)習(xí)算法應(yīng)盡可能地減小數(shù)據(jù)異構(gòu)對(duì)全局聚合的影響,得到相對(duì)較好的全局模型,再進(jìn)行個(gè)性化的學(xué)習(xí)。處理數(shù)據(jù)異構(gòu)問題的典型算法包括FedProx[27]和MOON[28]。FedProx在FedAvg的基礎(chǔ)上加入了正則項(xiàng),約束了客戶端更新的模型參數(shù)變化;MOON在FedAvg的基礎(chǔ)上加入了對(duì)比損失,使得各客戶端本輪訓(xùn)練的模型靠近全局模型并且遠(yuǎn)離上一輪的本地模型。第一種策略的特點(diǎn)是在得到了相對(duì)較好的全局模型后,在最后一輪適配本地?cái)?shù)據(jù)集再得到適配本地?cái)?shù)據(jù)集的個(gè)性化模型。第二種算法包括模型同構(gòu)和模型異構(gòu)兩種情況。模型同構(gòu)的經(jīng)典算法有FedPer[29]和LG-FedAvg[30]。FedPer的模型為兩層,基礎(chǔ)層傳入服務(wù)器端進(jìn)行模型聚合,個(gè)性化層留在本地作為個(gè)性化的部分;而LG-FedAvg則相反,其特征提取層留在本地作為個(gè)性化部分,分類層則作為共享部分傳入服務(wù)器端進(jìn)行模型聚合。模型異構(gòu)的經(jīng)典算法包括RHFL[31]、FCCL[32]和FedProto[33]。RHFL在公共數(shù)據(jù)上使用知識(shí)蒸餾,約束各客戶端的概率輸出靠近,得到的模型更適配客戶端本地的數(shù)據(jù)集;FCCL通過對(duì)齊不同客戶端在公共數(shù)據(jù)上的logits輸出,同時(shí)約束模型不能與在私有數(shù)據(jù)上訓(xùn)練完的模型以及上一個(gè)通信輪數(shù)更新后的本地模型相差太遠(yuǎn),使得每個(gè)客戶端都得到較好的個(gè)性化模型;FedProto使用中間層特征來對(duì)齊模型,計(jì)算全局原型(中間層輸出的平均),在訓(xùn)練時(shí),讓樣本特征靠近對(duì)應(yīng)類別的全局原型,從而得到各客戶端的個(gè)性化模型。
1.3 區(qū)塊鏈和星際文件系統(tǒng)
區(qū)塊鏈[34]是一個(gè)去中心化的數(shù)據(jù)庫,具有不可竄改的安全性、透明性和完整性。星際文件系統(tǒng)(interplanetary file system,IPFS)[35]是一種基于點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò)結(jié)構(gòu)的分布式儲(chǔ)存系統(tǒng)。由于模型參數(shù)量通常會(huì)超過區(qū)塊的存儲(chǔ)限制,無法直接存儲(chǔ)在區(qū)塊中。所以本文將區(qū)塊鏈與IPFS結(jié)合(如圖1所示),將模型參數(shù)存儲(chǔ)在IPFS文件中,并將文件的地址存儲(chǔ)在區(qū)塊鏈上,服務(wù)器端和各客戶端通過區(qū)塊鏈獲取模型文件地址,并根據(jù)地址下載模型參數(shù),從而實(shí)現(xiàn)模型的鏈下存儲(chǔ)。各參與方通過區(qū)塊鏈和IPFS技術(shù)獲取模型文件地址并下載參數(shù),確保聯(lián)邦學(xué)習(xí)過程的可追溯性、安全性和效率,同時(shí)降低通信成本。
2 個(gè)性化全局模型聚合框架
2.1 基于相似性的模型聚合框架
由于聯(lián)邦學(xué)習(xí)的隱私保護(hù)要求,服務(wù)器并不了解各客戶端本地的數(shù)據(jù)分布。所以無法直接按照各客戶端數(shù)據(jù)類型的相似程度對(duì)各客戶端模型進(jìn)行加權(quán)聚合。傳統(tǒng)聚合方式是以客戶端總數(shù)據(jù)量為權(quán)重進(jìn)行模型聚合。然而在特征分布存在偏移的情況下,這樣的聚合策略得到的全局模型表現(xiàn)會(huì)變差,所以對(duì)每個(gè)客戶端更新一個(gè)個(gè)性化的全局模型是非常必要的。如何讓每個(gè)客戶端在充分學(xué)習(xí)到本地?cái)?shù)據(jù)的基礎(chǔ)上又能汲取到全局其他客戶端的信息,并且得到各自個(gè)性化的全局模型是一個(gè)挑戰(zhàn)。
針對(duì)服務(wù)器端模型聚合方面的挑戰(zhàn),本文提出了創(chuàng)新性的解決方案,通過對(duì)模型更新聚合時(shí)的權(quán)重進(jìn)行改進(jìn),使得模型能根據(jù)各客戶端模型的相似程度生成不同的權(quán)重,并且最后為各客戶端打造個(gè)性化的全局模型。模型聚合中的權(quán)重與各客戶端模型之間的相似度正相關(guān),每輪的權(quán)重會(huì)隨著模型參數(shù)的更新而變化,更能滿足個(gè)性化全局模型的需求。
具體地,服務(wù)器端收集各客戶端訓(xùn)練后的模型參數(shù),同時(shí)計(jì)算模型參數(shù)在訓(xùn)練前后的變化量:
Δωri=ωri-ωr-1G,i(8)
下一步計(jì)算模型參數(shù)變化量之間的余弦相似度:
再將計(jì)算得到的余弦相似度歸一化:
并將歸一化后的結(jié)果作為權(quán)重用于模型聚合:
本文通過計(jì)算每個(gè)客戶端與其他客戶端模型參數(shù)變化量之間的余弦相似度,并將相似度值通過softmax函數(shù)進(jìn)行歸一化處理,從而得到用于模型聚合的權(quán)重。
2.2 加入平滑系數(shù)的模型聚合框架
在對(duì)模型聚合的權(quán)重進(jìn)行歸一化時(shí),需要根據(jù)實(shí)際情況對(duì)模型權(quán)重的平滑程度進(jìn)行調(diào)整,將控制這個(gè)平滑程度的參數(shù)稱為平滑系數(shù),通過調(diào)整平滑系數(shù)可以改變?nèi)帜P偷膫€(gè)性化程度,從而提高個(gè)性化模型聚合的適應(yīng)性和有效性。
這里提出本文的最優(yōu)平滑系數(shù)模型聚合框架FedPG(fede-rated learning with personalized global model)。FedPG的系統(tǒng)架構(gòu)如圖1所示。該框架在模型聚合歸一化中引入了平滑系數(shù),用于調(diào)控權(quán)重參數(shù)分布的平滑程度。具體公式為
當(dāng)平滑系數(shù)τ取值越小時(shí),權(quán)重系數(shù)分布越尖銳,模型聚合時(shí)將使用更多的局部信息;當(dāng)平滑系數(shù)τ取值越大時(shí),權(quán)重系數(shù)分布越平滑,模型聚合時(shí)將使用更多的全局信息。特別地,當(dāng)平滑系數(shù)τ接近10時(shí),每個(gè)客戶端的權(quán)重系數(shù)近似相同,這時(shí)所有的個(gè)性化全局模型都接近于使用平均權(quán)重得出的統(tǒng)一全局模型。因此可以根據(jù)實(shí)際情況定制不同的平滑系數(shù),從而更好地平衡模型的個(gè)性和共性。
2.3 調(diào)度平滑系數(shù)的模型聚合框架
在2.2節(jié)中,需要通過多次實(shí)驗(yàn)找到最適合實(shí)際情況的平滑系數(shù)τ。然而,這一過程需要耗費(fèi)大量時(shí)間和資源。為了降低資源消耗,可以先嘗試找到在一般數(shù)據(jù)集上表現(xiàn)得比較好的τ的范圍。在這個(gè)范圍內(nèi),對(duì)平滑系數(shù)τ進(jìn)行調(diào)度,令其隨通信輪數(shù)增加而減小,使得模型在訓(xùn)練開始時(shí)更多地提取共性信息,提升模型的泛化能力,之后再進(jìn)一步提取個(gè)性信息,使其更適用于本地的數(shù)據(jù)分布。這個(gè)策略以犧牲少量準(zhǔn)確性為代價(jià)降低了大量的時(shí)間成本和計(jì)算成本。
這里提出本文的調(diào)度平滑系數(shù)模型聚合框架FedPGS(federated learning with personalized global model and scheduled personalization)。在初始階段,采用較大的τ值,使得各客戶端在模型聚合時(shí)的權(quán)重近似相等,這有助于更多地側(cè)重于學(xué)習(xí)客戶端間的數(shù)據(jù)信息。隨著訓(xùn)練的進(jìn)行,逐漸減小τ值使得聚合時(shí)的權(quán)重逐漸變得尖銳,增強(qiáng)了與本地模型相近模型的權(quán)重,從而更加關(guān)注與本地?cái)?shù)據(jù)集特征分布相近客戶端數(shù)據(jù)信息。在訓(xùn)練的后期階段,則保持較小的τ值,聚合時(shí)本地模型的權(quán)重最大,專注于本地?cái)?shù)據(jù)集的特征分布的相關(guān)信息。這個(gè)框架的關(guān)鍵在于在模型聚合的過程中動(dòng)態(tài)調(diào)整平滑系數(shù)τ,以逐步優(yōu)化全局模型的權(quán)重分布,從而實(shí)現(xiàn)對(duì)不同客戶端數(shù)據(jù)的更精細(xì)學(xué)習(xí)和權(quán)衡。該框架可以有效平衡全局模型的整體性能和個(gè)性化特征的表達(dá),提高了模型的泛化能力和適應(yīng)性。
本文通過實(shí)驗(yàn)證明了該框架對(duì)特定算法的適用性。進(jìn)行實(shí)驗(yàn)時(shí)需要先給定τinit(較大)和τfinal(較?。?,在前期訓(xùn)練中,使得實(shí)驗(yàn)中的τ值逐漸從τinit變換到τfinal,并在后期訓(xùn)練中保持為τfinal。具體的τ調(diào)度函數(shù)為
其中:R為通信輪數(shù)。
本文還進(jìn)行了無特征分布偏移的對(duì)比實(shí)驗(yàn),以MNIST數(shù)據(jù)集為例,驗(yàn)證了FedPGS框架結(jié)合FedAvg算法在無特征分布偏移的數(shù)據(jù)集下與基礎(chǔ)算法的準(zhǔn)確率一致,說明當(dāng)聯(lián)邦學(xué)習(xí)任務(wù)中不確定數(shù)據(jù)集是否有特征分布偏移時(shí),仍可以直接應(yīng)用FedPGS框架。
2.4 FedPG與FedPGS面對(duì)惡意設(shè)備的魯棒性
本文方法可以有效抵抗惡意設(shè)備對(duì)系統(tǒng)的影響。惡意設(shè)備可能會(huì)通過發(fā)送錯(cuò)誤或有害的模型更新來干擾全局模型,降低模型的性能或使模型作出錯(cuò)誤預(yù)測(cè)。Multi-KRUM需要在聯(lián)邦學(xué)習(xí)開始前設(shè)定惡意設(shè)備數(shù)量,在真實(shí)的聯(lián)邦學(xué)習(xí)場(chǎng)景中,這個(gè)數(shù)字并不可知,無論這個(gè)惡意設(shè)備數(shù)量設(shè)置的過高或者過低,都不利于Multi-KRUM對(duì)惡意設(shè)備的篩選。
本文方法對(duì)上述類型惡意設(shè)備的攻擊具有天然的屏蔽能力,通過使用相似度加權(quán)機(jī)制,可以在個(gè)性化全局模型聚合階段自動(dòng)賦予惡意設(shè)備的模型參數(shù)非常低的個(gè)性化權(quán)重,從而保證了大部分設(shè)備的有效更新,減少惡意設(shè)備上傳的模型對(duì)全局模型的負(fù)面影響。
由于惡意設(shè)備自身的模型參數(shù)變化量與其他設(shè)備的相似度很低,無法通過基于相似度的模型聚合獲得適合自身數(shù)據(jù)的有效模型,所以該框架可以有效避免惡意設(shè)備的搭便車行為。
另外,本文與區(qū)塊鏈和IPFS結(jié)合,在聯(lián)邦學(xué)習(xí)結(jié)束之后,可以通過每輪聚合更新時(shí)的個(gè)性化權(quán)重確定惡意設(shè)備的具體信息,有利于篩查和排除惡意設(shè)備。
2.5 模型聚合框架流程
算法 FedPG與FedPGS
3 實(shí)驗(yàn)驗(yàn)證
3.1 實(shí)驗(yàn)設(shè)置
本文所有實(shí)驗(yàn)在Kaggle平臺(tái)上完成,該平臺(tái)的操作系統(tǒng)為Linux-5.15.133+-x86_64-with-glibc 2.31,搭配Tesla P100-PCIE-16 GB顯卡。此外,本文使用Python 3.10.13語言在PyTorch 2.1.2編程框架下完成實(shí)驗(yàn)。
3.1.1 數(shù)據(jù)集和模型
Digits數(shù)據(jù)集由MNIST、USPS、SVHN和Synthetic Digits(后面簡寫為SYN)四個(gè)數(shù)據(jù)集構(gòu)成,其中MNIST和USPS是灰度圖像數(shù)據(jù)集,SVHN和SYN是彩色數(shù)據(jù)集。Digits數(shù)據(jù)集包括從0~9共10個(gè)類別。圖2是Digits數(shù)據(jù)集的部分圖像。
Office Caltech-10是由Office-31和Caltech-256數(shù)據(jù)集中重疊的10個(gè)類別合并而成,是彩色圖像數(shù)據(jù)集。Office Caltech-10包括Amazon、Caltech、DSLR和Webcam四個(gè)域,Office Caltech-10的四個(gè)域里都包括10個(gè)類別,分別是背包(backpack)、計(jì)算器(calculator)、頭戴式耳機(jī)(headphones)、鍵盤(keyboard)、筆記本電腦(laptop computer)、顯示器(monitor)、鼠標(biāo)(mouse)、馬克杯(mug)、投影儀(projector)和手機(jī)(smartphone)。圖3以部分類別為例展示了Office Caltech-10的四個(gè)域上的圖像特點(diǎn)。
Digits數(shù)據(jù)集任務(wù)采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),這個(gè)神經(jīng)網(wǎng)絡(luò)包含了兩個(gè)卷積層和三個(gè)全連接層。兩個(gè)卷積層的輸出通道數(shù)分別為4和8,采用了大小為3×3、步長為1的卷積核,并利用了池化技術(shù)幫助網(wǎng)絡(luò)更好地學(xué)習(xí)和泛化。三個(gè)全連接層分別有128、50和10個(gè)神經(jīng)元。
Office Caltech-10數(shù)據(jù)集任務(wù)使用了ResNet10殘差神經(jīng)網(wǎng)絡(luò)。ResNet(residual network)殘差神經(jīng)網(wǎng)絡(luò)包括了卷積層、池化層、全連接層,ResNet10網(wǎng)絡(luò)有十層(包括卷積層和全連接層在內(nèi)),層數(shù)可以代表網(wǎng)絡(luò)的復(fù)雜度和深度。
3.1.2 其余設(shè)置
在本文聯(lián)邦學(xué)習(xí)訓(xùn)練過程中,所有客戶端模型的優(yōu)化器均采用SGD(stochastic gradient descent)優(yōu)化器,學(xué)習(xí)率是0.01,動(dòng)量0.9,權(quán)重衰減是10-5。每個(gè)客戶端的本地更新輪數(shù)是10,全局通信輪數(shù)是100。合適的batch size可以在提高模型訓(xùn)練的速度和穩(wěn)定性的同時(shí)加快本地模型的收斂速度,根據(jù)Digits和Office Caltech-10數(shù)據(jù)集的不同的學(xué)習(xí)難度,Digits和Office Caltech-10數(shù)據(jù)集的batch size分別取128和64。
本文討論的數(shù)據(jù)異構(gòu)主要體現(xiàn)為各客戶端之間數(shù)據(jù)特征分布偏移,但各客戶端數(shù)據(jù)量大小近似相同。在Digits的分類任務(wù)中,對(duì)每個(gè)域,隨機(jī)選出4 000 個(gè)樣本,按照α=100的狄利克雷分布分給4個(gè)客戶端,共計(jì)16 個(gè)客戶端,在每個(gè)客戶端內(nèi)按照1∶1的比例劃分訓(xùn)練集與測(cè)試集。在Office Caltech-10的分類任務(wù)中,按照各域數(shù)據(jù)集大小分別將Amazon、Caltech、DSLR和Webcam四個(gè)域的數(shù)據(jù)集按照α=100的狄利克雷分布分給了5、5、1、2個(gè)客戶端,共計(jì)13 個(gè)客戶端,在每個(gè)客戶端內(nèi)按照4∶1的比例劃分訓(xùn)練集與測(cè)試集。在MNIST數(shù)據(jù)集的分類任務(wù)中,隨機(jī)選出10 000個(gè)樣本,按照α=100的狄利克雷分布分給10個(gè)客戶端,在每個(gè)客戶端內(nèi)按照1∶1的比例劃分訓(xùn)練集與測(cè)試集。各客戶端具體訓(xùn)練集與測(cè)試集數(shù)量如表1所示。
3.2 基礎(chǔ)方法及其參數(shù)選擇
3.2.1 基礎(chǔ)方法
FedAvg是一個(gè)聯(lián)邦學(xué)習(xí)的經(jīng)典算法。FedProx是在FedAvg的基礎(chǔ)上加入正則項(xiàng)以使本地模型與全局模型接近。FedProto平均模型的每個(gè)類別的中間層輸出作為原型,各客戶端之間傳遞的信息是全部類別的原型。為了與本文框架結(jié)合,對(duì)FedProto進(jìn)行改動(dòng),本文將FedAvg中的模型聚合部分與FedProto結(jié)合,稱為FedProtoAvg。
3.2.2 基礎(chǔ)方法的參數(shù)選擇
實(shí)驗(yàn)將結(jié)合了本文框架的FedAvg、FedProx、FedProtoAvg與未結(jié)合本文框架的原算法進(jìn)行對(duì)比。FedProtoAvg的原型維度是128。首先要確定FedProx、FedProtoAvg在兩個(gè)分類任務(wù)中的最優(yōu)超參數(shù)。參考這兩個(gè)方法對(duì)應(yīng)的論文給出的實(shí)驗(yàn)范圍,設(shè)置FedProx中μ的范圍是{1,0.1,0.01,0.001},F(xiàn)edProtoAvg中λ的范圍是{0.1,0.25,0.5,1,2,4}。實(shí)驗(yàn)選取使得最后一輪全局準(zhǔn)確率最高的超參數(shù)為最優(yōu)超參數(shù)。通過實(shí)驗(yàn)得到FedProtoAvg在Digits和Office Caltech-10數(shù)據(jù)集上的最優(yōu)λ分別是1和0.1;FedProx在Digits和Office Caltech-10數(shù)據(jù)集上的最優(yōu)μ分別是0.001和0.1。具體準(zhǔn)確率數(shù)值如表2所示。
3.2.3 本文框架的參數(shù)選擇
本文模型聚合框架有一個(gè)平滑系數(shù)τ,本文將τ的選取范圍設(shè)置為{0.1,0.2,0.5,0.8,1,10},對(duì)不同數(shù)據(jù)集的不同方法按照最高的全局準(zhǔn)確率選取τ。自動(dòng)調(diào)度的平滑系數(shù)τ則從10到0.1變化。
在τ的選取范圍中分別找到了不同算法在不同數(shù)據(jù)集上的最優(yōu)數(shù)值,F(xiàn)edAvg-PG和FedProtoAvg-PG的平滑系數(shù)最優(yōu)數(shù)值是0.2,F(xiàn)edProx-PG的平滑系數(shù)最優(yōu)數(shù)值是0.1,圖4、5中的曲線是最優(yōu)系數(shù)下的準(zhǔn)確率。
3.3 實(shí)驗(yàn)結(jié)果
3.3.1 在有特征分布偏移的數(shù)據(jù)集上的結(jié)果
本文分別在Digits和Office Caltech-10上進(jìn)行有特征分布偏移的實(shí)驗(yàn)。實(shí)驗(yàn)通過使用具有特征分布偏移的數(shù)據(jù)集,模擬現(xiàn)實(shí)場(chǎng)景中不同客戶端間的特征分布差異,從而驗(yàn)證該框架在處理與實(shí)際應(yīng)用相似的數(shù)據(jù)異構(gòu)問題上的有效性。
在本地輪數(shù)為10、全局通信輪數(shù)是100的實(shí)驗(yàn)設(shè)置下,不同算法訓(xùn)練的過程中準(zhǔn)確率會(huì)出現(xiàn)波動(dòng),但在50輪左右準(zhǔn)確率都趨于穩(wěn)定。圖4、5是基礎(chǔ)算法和結(jié)合本文框架下的算法在Digits上的具體表現(xiàn),可以看到本文最優(yōu)平滑系數(shù)和調(diào)度平滑系數(shù)兩個(gè)框架的準(zhǔn)確率都超過了基礎(chǔ)算法。在多數(shù)情況下,最優(yōu)平滑系數(shù)的結(jié)果比調(diào)度平滑系數(shù)要好,但是在Office Caltech-10上的FedAvg和FedProx上調(diào)度平滑系數(shù)的實(shí)驗(yàn)的準(zhǔn)確率則超過了最優(yōu)平滑系數(shù)的準(zhǔn)確率。
調(diào)度平滑系數(shù)從10均勻減少,到第50輪時(shí)減小為0.1,并在后50輪保持0.1。因此在調(diào)度平滑系數(shù)的前期,模型聚合時(shí)本地模型的權(quán)重與其他客戶端的權(quán)重近似相同,本地模型可以更好地學(xué)習(xí)不同客戶端之間的信息,在后期本地模型的權(quán)重逐步增大,進(jìn)而訓(xùn)練出更符合本地?cái)?shù)據(jù)集特點(diǎn)的本地模型。調(diào)度平滑系數(shù)的優(yōu)勢(shì)是結(jié)合每個(gè)算法在兩個(gè)數(shù)據(jù)集上的結(jié)果都較基礎(chǔ)算法有提升,而且不需要在前期尋找平滑系數(shù)的最優(yōu)取值,但在大多情境下比不過最優(yōu)平滑系數(shù)的結(jié)果。當(dāng)計(jì)算成本和時(shí)間成本有限時(shí),調(diào)度平滑系數(shù)是很合適的選擇。
表3展示了各算法在各數(shù)據(jù)集上每個(gè)域的表現(xiàn),可以看到在Digits上,結(jié)合了本文框架后準(zhǔn)確率提升最多的是FedProtoAvg;在Office Caltech-10上,結(jié)合了本文框架后準(zhǔn)確率提升最多的是FedAvg。
3.3.2 超參數(shù)τ對(duì)實(shí)驗(yàn)結(jié)果的影響
本文對(duì)平滑系數(shù)τ擇優(yōu)的必要性進(jìn)行實(shí)驗(yàn)。在圖4、5中,可以看到?jīng)]有加入平滑系數(shù)τ(等價(jià)于τ=1)和加入了合適的τ之后的準(zhǔn)確率變化。加入了合適的平滑系數(shù)后的準(zhǔn)確率有很明顯的提升。通過表3的具體數(shù)值對(duì)比可以看到,沒有加入平滑系數(shù)的個(gè)性化聚合框架與FedProx結(jié)合后在Digits上的表現(xiàn)相比于基礎(chǔ)算法甚至更差,與FedProtoAvg結(jié)合后在Office Caltech-10上的表現(xiàn)也沒有超過基礎(chǔ)算法,實(shí)驗(yàn)結(jié)果足以證明平滑系數(shù)τ選取的必要性。
3.3.3 在有惡意設(shè)備的情況下的結(jié)果
本文對(duì)在有惡意設(shè)備的情景下對(duì)本文框架的有效性進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)分別在無特征分布偏移的MNIST數(shù)據(jù)集和有特征分布偏移的Digits上進(jìn)行,以驗(yàn)證不同場(chǎng)景下算法的有效性。實(shí)驗(yàn)中分別設(shè)置了30%(MNIST)和25%(Digits)的惡意設(shè)備,這些惡意設(shè)備接收服務(wù)器下發(fā)的初始模型后不會(huì)根據(jù)本地?cái)?shù)據(jù)集進(jìn)行更新,而是將模型參數(shù)進(jìn)行打亂,之后再上傳給服務(wù)器端。
如圖6所示,在有惡意設(shè)備的情況下,F(xiàn)edAvg結(jié)合了本文框架后受到惡意設(shè)備的影響更少。最優(yōu)平滑系數(shù)框架(Fed-Avg-PG)在整個(gè)通信輪中都表現(xiàn)出良好的效果,其中準(zhǔn)確率的損失更多來自于缺失的惡意設(shè)備上的數(shù)據(jù)集;由于調(diào)度平滑系數(shù)框架(FedAvg-PGS)在前期更多地學(xué)習(xí)其他客戶端模型的信息,在前40輪中不可避免地受到了惡意設(shè)備的影響,不過在后60輪中由于逐漸減小了平滑系數(shù)的大小,使得在后期模型更多參考本地的數(shù)據(jù)集,從而逐漸擺脫了惡意設(shè)備的影響。MNIST的聯(lián)邦學(xué)習(xí)任務(wù)相對(duì)Digits更簡單,在圖6也可看到,MNIST下的聯(lián)邦學(xué)習(xí)任務(wù)中,調(diào)度平滑系數(shù)與最優(yōu)平滑系數(shù)在最后的準(zhǔn)確率差距不大;但是在更復(fù)雜一點(diǎn)的Digits上,調(diào)度平滑系數(shù)即使在后期逐漸提高了準(zhǔn)確率,但相較最優(yōu)平滑系數(shù)仍有差距。在有惡意設(shè)備的情況下,最優(yōu)的平滑系數(shù)的策略優(yōu)于調(diào)度平滑系數(shù)。與結(jié)合了本文框架的FedAvg類似,結(jié)合了本文框架的FedProx和FedProtoAvg也有相似的實(shí)驗(yàn)結(jié)果。
圖7以在Digits數(shù)據(jù)集分類任務(wù)上的調(diào)度平滑系數(shù)框架為例,展示第1個(gè)客戶端和第6個(gè)客戶端在第1輪和第99輪模型聚合的個(gè)性化權(quán)重,在Digits數(shù)據(jù)集中惡意設(shè)備分別是客戶端4、8、12、16??梢钥吹?,在第一輪中所有客戶端的聚合權(quán)重比較平均,但是在最后一輪時(shí)特征分布相似的客戶端的權(quán)重更高,同時(shí)惡意設(shè)備權(quán)重接近0。因此個(gè)性化全局模型聚合框架可以成功識(shí)別出惡意設(shè)備并避免其對(duì)聚合過程產(chǎn)生影響。
實(shí)驗(yàn)結(jié)果表明,當(dāng)在惡意設(shè)備存在且數(shù)量未知的情況下,本文框架有很好的魯棒性,可以抵抗惡意設(shè)備的影響。本文框架確保了在存在惡意設(shè)備的復(fù)雜環(huán)境中,聯(lián)邦學(xué)習(xí)系統(tǒng)仍然能夠維持較高水平的準(zhǔn)確性和穩(wěn)定性。
3.3.4 在沒有特征分布偏移的數(shù)據(jù)集上的結(jié)果
圖8是在MNIST上,10個(gè)客戶端,每個(gè)客戶端1 000個(gè)數(shù)據(jù)樣本的基礎(chǔ)設(shè)置下得到的實(shí)驗(yàn)結(jié)果。可以看到在沒有特征分布偏移的情況下,基礎(chǔ)算法結(jié)合FedPGS框架前后的準(zhǔn)確率一致。即當(dāng)沒有特征分布偏移時(shí),結(jié)合FedPGS框架不會(huì)使基礎(chǔ)算法效果變差。也就是說,對(duì)于特征分布未知的聯(lián)邦學(xué)習(xí)場(chǎng)景,若沒有特征分布偏移,那么結(jié)合FedPGS框架不會(huì)降低模型的準(zhǔn)確率,若有特征分布偏移,那么結(jié)合FedPGS框架還可以提升模型的準(zhǔn)確率。因此即使不知道是否存在特征分布偏移,均可以使用FedPGS框架。
4 結(jié)束語
本文提出了基于相似性的個(gè)性化聯(lián)邦學(xué)習(xí)模型聚合框架:最優(yōu)平滑系數(shù)模型聚合框架FedPG和調(diào)度平滑系數(shù)模型聚合框架FedPGS。兩種模型聚合框架實(shí)現(xiàn)了一種有效的個(gè)性化聯(lián)邦學(xué)習(xí),可以應(yīng)對(duì)特征分布偏移的數(shù)據(jù)集上聯(lián)邦學(xué)習(xí)聚合得到一個(gè)全局模型無法滿足所有客戶端需求的挑戰(zhàn)。具體地,本文框架根據(jù)各客戶端模型參數(shù)變化量的相似性為每一個(gè)客戶端定制一個(gè)個(gè)性化全局模型,同時(shí)引入平滑系數(shù),跟據(jù)實(shí)際情況選擇最優(yōu)平滑系數(shù)模型聚合框架或調(diào)度平滑系數(shù)模型聚合框架。本文在兩個(gè)開放數(shù)據(jù)集上評(píng)估了這兩個(gè)框架,并且驗(yàn)證了它們的優(yōu)越性。此外,即使存在惡意設(shè)備時(shí),本文框架也可以通過模型參數(shù)變化量的相似性降低惡意設(shè)備對(duì)系統(tǒng)的影響。
一般情況下,最優(yōu)平滑系數(shù)模型聚合框架FedPG效果優(yōu)于調(diào)度平滑系數(shù)模型聚合框架FedPGS,但最優(yōu)平滑系數(shù)的確定需要多次實(shí)驗(yàn),成本更高。FedPGS無須嘗試不同的平滑系數(shù),在不同數(shù)據(jù)集上與不同的聯(lián)邦學(xué)習(xí)算法結(jié)合都能提升相應(yīng)算法的準(zhǔn)確率,且無論數(shù)據(jù)集是否存在特征分布偏移,該框架都具有有效性。
本文框架只考慮了客戶端之間數(shù)據(jù)特征分布的差異性,并未考慮數(shù)據(jù)樣本量的差異,未來將進(jìn)一步研究在數(shù)據(jù)特征分布和樣本量同時(shí)存在差異的情況下,如何提升聯(lián)邦學(xué)習(xí)的訓(xùn)練效率和準(zhǔn)確率。同時(shí),未來還將進(jìn)一步探索如何將本文框架推廣到模型異構(gòu)的場(chǎng)景中,以擴(kuò)大其應(yīng)用范圍。
參考文獻(xiàn):
[1]Zhang Chen, Xie Yu, Bai Hang, et al. A survey on federated lear-ning[J]. Knowledge-Based Systems, 2021, 216: 106775.
[2]陳依貝. 基于區(qū)塊鏈和聯(lián)邦學(xué)習(xí)的安全醫(yī)療數(shù)據(jù)建模[D]. 杭州: 浙江師范大學(xué), 2023. (Chen Yibei. Blockchain-based federated learning for secure medical data modeling[D]. Hangzhou: Zhejiang Normal University, 2023.)
[3]林宏崢, 金維國, 宋國英, 等. 基于金融場(chǎng)景數(shù)據(jù)流通的安全技術(shù)研究[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用, 2024(3): 105-107. (Lin Hongzheng, Jin Weiguo, Song Guoying, et al. Research on security technologies for data circulation in financial scenarios[J]. Network Security Technology and Application, 2024(3): 105-107.)
[4]林峰斌, 王燦, 吳秋新, 等. 基于區(qū)塊鏈的工業(yè)物聯(lián)網(wǎng)隱私保護(hù)協(xié)作學(xué)習(xí)系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(8): 2270-2276. (Lin Fengbin, Wang Can, Wu Qiuxin, et al. Blockchain based Industrial Internet of Things privacy protection collaborative learning system [J]. Application Research of Computers, 2024, 41(8): 2270-2276.)
[5]Parascandolo G, Neitz A, Orvieto A, et al. Learning explanations that are hard to vary[EB/OL]. (2020-10-24). https://arxiv.org/abs/2009.00329.
[6]張紅艷, 張玉, 曹燦明. 一種解決數(shù)據(jù)異構(gòu)問題的聯(lián)邦學(xué)習(xí)方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(3): 713-720. (Zhang Hong-yan, Zhang Yu, Cao Canming. Effective method to solve problem of data heterogeneity in federated learning[J]. Application Research of Computers, 2024, 41(3): 713-720.)
[7]劉天. 面向數(shù)據(jù)異構(gòu)的聯(lián)邦學(xué)習(xí)的性能優(yōu)化研究[D]. 上海: 華東師范大學(xué), 2022. (Liu Tian. Research on performance optimization of federated learning for data heterogeneity[D]. Shanghai: East China Normal University, 2022.)
[8]Tan A Z, Yu Han, Cui Lizhen, et al. Towards personalized federated learning[J]. IEEE Trans on Neural Networks and Learning Systems, 2022, 34(12): 9587-9603.
[9]Ammad-Ud-Din M, Ivannikova E, Khan S A, et al. Federated collaborative filtering for privacy-preserving personalized recommendation system [EB/OL]. (2019-01-29). https://arxiv.org/abs/1901.09888.
[10]McMahan B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data [C]// Proc of the 20th International Conference on Artificial Intelligence and Statistics. New York: PMLR, 2017: 1273-1282.
[11]張淑芬, 張宏揚(yáng), 任志強(qiáng), 等. 聯(lián)邦學(xué)習(xí)的公平性研究綜述[J/OL]. 計(jì)算機(jī)應(yīng)用. (2024-03-30). https://link.cnki.net/urlid/51.1307.TP.20240328.1222.002. (Zhang Shufen, Zhang Hongyang, Ren Zhiqiang, et al. Survey of fairness research in federated learning [J/OL]. Journal of Computer Applications. (2024-03-30). https://link.cnki.net/urlid/51.1307.TP.20240328.1222.002.)
[12]王鑫, 黃偉口, 孫凌云. 跨機(jī)構(gòu)聯(lián)邦學(xué)習(xí)的激勵(lì)機(jī)制綜述[J]. 計(jì)算機(jī)科學(xué), 2024,51(3): 20-29. (Wang Xin, Huang Weikou, Sun Lingyun. A survey of incentive mechanisms for cross-silo federated learning[J]. Computer Science, 2024, 51(3): 20-29.)
[13]李敏, 肖迪, 陳律君. 兼顧通信效率與效用的自適應(yīng)高斯差分隱私個(gè)性化聯(lián)邦學(xué)習(xí)[J]. 計(jì)算機(jī)學(xué)報(bào), 2024, 47(4): 924-946. (Li Min, Xiao Di, Chen Lyujun. Communication-efficient and utilityaware adaptive Gaussian differential privacy for personalized federated lear-ning[J]. Chinese Journal of Computers, 2024, 47(4): 924-946.)
[14]朱夢(mèng)君. 面向個(gè)性化聯(lián)邦學(xué)習(xí)的網(wǎng)絡(luò)模型壓縮方法[D]. 北京: 北京交通大學(xué), 2023. (Zhu Mengjun. Network model compression methods for personalized federated learning[D]. Beijing: Beijing Jiaotong University, 2023.)
[15]黃聿辰, 趙彥超, 郝江山,等. 面向數(shù)據(jù)異構(gòu)的聯(lián)邦學(xué)習(xí)性能優(yōu)化研究[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2024, 45(4): 777-783. (Huang Yuchen, Zhao Yanchao, Hao Jiangshan, et al. Research on performance optimization of federated learning for data heterogeneity[J]. Journal of Chinese Computer Systems, 2024, 45(4): 777-783.)
[16]沈哲遠(yuǎn), 楊珂珂, 李京. 基于雙流神經(jīng)網(wǎng)絡(luò)的個(gè)性化聯(lián)邦學(xué)習(xí)方法[J]. 計(jì)算機(jī)應(yīng)用, 2024, 44(8): 2319-2325. (Shen Zheyuan, Yang Keke, Li Jing. Personalized federated learning method based on dual stream neural network[J]. Journal of Computer Applications, 2024, 44(8): 2319-2325.)
[17]劉炳奇. 面向數(shù)據(jù)分布不一致場(chǎng)景的聯(lián)邦學(xué)習(xí)性能優(yōu)化算法研究[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2021. (Liu Bingqi. Research on federated learning performance optimization algorithms for inconsistent data distribution scenarios[D]. Harbin: Harbin Institute of Technology, 2021.)
[18]Jiang Yihan, Konecˇny' J, Rush K, et al. Improving federated learning personalization via model agnostic meta learning [EB/OL]. (2023-01-18). https://arxiv.org/abs/1909.12488.
[19]Chen Yiqiang, Qin Xin, Wang Jindong, et al. FedHealth: a federated transfer learning framework for wearable healthcare[J]. IEEE Intelligent Systems, 2020, 35(4): 83-93.
[20]Li Tian, Hu Shengyuan, Beirami A, et al. Ditto: fair and robust fe-derated learning through personalization[C]// Proc of the 38th International Conference on Machine Learning. New York: PMLR, 2021: 6357-6368.
[21]Ruan Yichen, Joe-Wong C. FedSoft: soft clustered federated learning with proximal local updating[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2022: 8124-8131.
[22]Collins L, Hassani H, Mokhtari A, et al. Exploiting shared representations for personalized federated learning[C]// Proc of the 38th International Conference on Machine Learning. New York: PMLR, 2021: 2089-2099.
[23]He Chaoyang, Annavaram M, Avestimehr S. Group knowledge transfer: federated learning of large CNNs at the edge[C]// Proc of the 34th Conference on Neural Information Processing Systems. Cambridge,MA:MIT Press,2020: 14068-14080.
[24]Ye Mang, Fang Xiuwen, Du Bo, et al. Heterogeneous federated learning: state-of-the-art and research challenges[J]. ACM Computing Surveys, 2023, 56(3): 1-44.
[25]Mothukuri V, Parizi R M, Pouriyeh S, et al. A survey on security and privacy of federated learning[J]. Future Generation Computer Systems, 2021, 115: 619-640.
[26]Blanchard P, El Mhamdi E M, Guerraoui R, et al. Machine learning with adversaries: Byzantine tolerant gradient descent[C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 118-128.
[27]Li Tian, Sahu A K, Zaheer M, et al. Federated optimization in hete-rogeneous networks[C]// Proc of Machine Learning and Systems. 2020: 429-450.
[28]Li Qinbin, He Bingsheng, Dawn S. Model-contrastive federated learning[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 10713-10722.
[29]Arivazhagan M G, Aggarwal V, Singh A K, et al. Federated learning with personalization layers [EB/OL]. (2019-12-02). https://arxiv.org/abs/1912.00818.
[30]Liang P P, Liu T, Liu Ziyin, et al. Think locally, act globally: fe-derated learning with local and global representations[EB/OL]. (2020-07-14). https://arxiv.org/abs/2001.01523.
[31]Fang Xiuwen, Ye Mang. Robust federated learning with noisy and heterogeneous clients[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 10062-10071.
[32]Huang Wenke, Ye Mang, Du Bo. Learn from others and be yourself in heterogeneous federated learning[C]// Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 10143-10153.
[33]Tan Yue, Long Guodong, Liu Lu, et al. FedProto: federated prototype learning across heterogeneous clients[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2022: 8432-8440.
[34]Yli-Huumo J, Ko D, Choi S, et al. Where is current research on blockchain technology in public sector? — A systematic review[J]. PLOS ONE, 2020, 11(10): e0163477.
[35]Benet J. IPFS-content addressed, versioned: P2P file system [EB/OL]. (2014-07-14). https://arxiv.org/abs/1407.3561.