Robust and privacy-preserving federated learning scheme based on user selection
Wang Xiaoming1.2,Huang Binrui2+ (1.Colegeflelcge;ofo gy ,Jinan University,Guangzhou 510632,China)
Abstract:Tocounterthevulnerabilitiesofmodelparameters toinferenceandByzantineattcksduringfederatedlearning,this paperproposed arobustand privacy-preserving federated learning scheme basedonuserselection,enhancing thesecurityand reliabilityofmodel training.Itfirstlydesignedauserselectionalgorithmbasedontheconceptof groups constructedonfog servers.Thepurposeofthisalgorithmwastoselectuserswithhighcreditscores tocontribute tothetrainingof theglobal model.Next,itconstructedamethodforfiltering local modelparametersandupdatinguserscoresusingthetestsetfromthe cloudserver,efectivelymitigatingtheinterference frommalicious usersinthemodel training processandprogresivelyexcludingthemfromtraining,therebyenhancingtherobustnessoftheglobalmodel.Finally,itdesignedalightweightencryption algorithmbasedoncloud-fogcollaboration,whichnotonlyefectivelyprotectedtheprivacyofuserlocalmodelparametersbut alsoensuredtheirsecurityduringtheagregationprocess,whilemaintaining highcomputationalandcommunicationeffciency. Buildinguponthecomputationalchallngeof theDifie-Hellman(CDH)problem,itdemonstratedthesecurityof thisscheme, whichresistedvarious atacks,ensuring theglobal model’srobustness whilesafeguarding userdata privacy.Bycomparing with existing schemes andthrough performance analysisand experimental results,the proposal exceled in eficiency.When facing maliciousattackers,the accuracy rates of directly aggregated global models dropped to about 65% ,whereas this scheme maintainedanaccuracyrateclosetothatofasenariowithoutatacks,ffctivelymtigatingtheimpactofatacks.Tus,thissolution offersapractical and efective strategy for federated learning systems todeal with inference and Byzantineattcks.
Keywords:federated learning;robustness;privacy preservation;selecting user
0 引言
隨著機器學(xué)習(xí)技術(shù)的快速發(fā)展,人工智能在各個領(lǐng)域的應(yīng)用得到廣泛發(fā)展。然而,隨之而來的數(shù)據(jù)隱私問題也日益凸顯,成為制約其發(fā)展的一個重要因素。為了解決這一問題,聯(lián)邦學(xué)習(xí)作為一種新興的分布式學(xué)習(xí)框架應(yīng)運而生。這種分布式學(xué)習(xí)方式不需要用戶上傳本地模型參數(shù)便能參與全局訓(xùn)練,從而保護(hù)了用戶的數(shù)據(jù)隱私,減少了通信費用的開銷。目前,聯(lián)邦學(xué)習(xí)已經(jīng)被廣泛應(yīng)用到很多領(lǐng)域和場景中,例如醫(yī)療診斷、金融等。
盡管聯(lián)邦學(xué)習(xí)能夠解決數(shù)據(jù)孤島的問題,但其仍然面臨著諸多挑戰(zhàn)。最新研究顯示,保護(hù)模型參數(shù)的隱私安全以及防范推理攻擊,已成為技術(shù)探索的核心焦點。為了應(yīng)對這一挑戰(zhàn),研究者們已經(jīng)提出了多種解決方案。例如文獻(xiàn)[1,2]采用差分隱私技術(shù),通過在模型參數(shù)的更新過程中引入隨機噪聲,有效阻撓了攻擊者通過分析加密后的數(shù)據(jù)來揭示原始數(shù)據(jù)間的關(guān)聯(lián)。然而,差分隱私的引入可能會對模型的準(zhǔn)確性和收斂性產(chǎn)生一定的影響。與此同時,為了在模型精度與隱私保障之間尋求更優(yōu)的均衡點,同態(tài)加密技術(shù)為數(shù)據(jù)隱私的維護(hù)開辟了新的視野,使得在數(shù)據(jù)保持加密狀態(tài)的同時進(jìn)行計算成為現(xiàn)實。
例如文獻(xiàn)[3\~5]探討了如何利用同態(tài)加密技術(shù),在聯(lián)邦學(xué)習(xí)框架下確保各參與方在共享模型參數(shù)時,能夠避免暴露各自的敏感數(shù)據(jù),從而確保用戶的數(shù)據(jù)隱私。盡管同態(tài)加密技術(shù)能夠保護(hù)用戶的數(shù)據(jù)隱私,但其計算效率相對較低,尤其是在處理復(fù)雜計算任務(wù)時,效率的下降尤為明顯。為了解決這一問題,文獻(xiàn)[6\~8]提出了基于安全多方計算的安全聚合協(xié)議。這些協(xié)議不依賴第三方可信中心,同時實現(xiàn)了當(dāng)部分用戶掉線時,服務(wù)器仍能夠完成全局聚合的功能。然而,這些方案的通信費用較高,尤其是在參與者跨越不同地理位置時,這一開銷尤為突出。因此,在保護(hù)模型參數(shù)安全的同時,需要探索更加高效的加密方法,以平衡隱私保護(hù)和計算效率。
在聯(lián)邦學(xué)習(xí)領(lǐng)域,另一個至關(guān)重要的安全問題便是模型參數(shù)極易遭受拜占庭攻擊的侵害。惡意參與者可能會傳播錯誤信息或執(zhí)行破壞性操作,旨在擾亂系統(tǒng)的正常運作。此外,他們還可能通過竄改訓(xùn)練數(shù)據(jù)集,引入錯誤或有害的數(shù)據(jù)樣本,進(jìn)而影響模型更新的準(zhǔn)確性,并最終損害全局模型的性能。為了抵抗拜占庭攻擊,眾多防御策略已被提出,如文獻(xiàn)[9\~11]。這些策略包括在全局模型參數(shù)聚合過程中,剔除偏離歐氏距離標(biāo)準(zhǔn)的模型參數(shù),以及通過選取所有梯度參數(shù)的中值來排除異常梯度,從而提升全局模型的魯棒性。還有一些方法通過計算和比較每個用戶的局部梯度與其他用戶梯度的距離,來過濾掉那些差異顯著的惡意梯度參數(shù)。然而,這些方法中的用戶局部梯度是以明文形式傳輸?shù)?,這就存在數(shù)據(jù)隱私泄露的風(fēng)險。
盡管現(xiàn)有眾多策略致力于在聯(lián)邦學(xué)習(xí)中檢測惡意數(shù)據(jù)并實施用戶模型的加密,但能夠在不侵犯用戶隱私的前提下同時兼顧這兩大目標(biāo)的技術(shù)研究仍顯不足。此外,加密算法效率亟需優(yōu)化。因此,如何在維護(hù)用戶數(shù)據(jù)隱私的同時,保障全局模型的魯棒性并提升加密效率,已成為亟待解決的核心問題。
針對上述問題,提出了一個基于用戶選擇和數(shù)據(jù)隱私保護(hù)的聯(lián)邦學(xué)習(xí)方案-UCRPFL,實現(xiàn)了保護(hù)用戶數(shù)據(jù)隱私的同時,抵抗推理攻擊和拜占庭攻擊,提高全局模型的魯棒性。主要貢獻(xiàn)如下:
a)基于霧服務(wù)器構(gòu)建組的概念,設(shè)計了一種基于二項分布的選擇用戶算法。該算法旨在挑選出信用分?jǐn)?shù)較高的用戶,參與全局模型的訓(xùn)練過程。同時,借助云服務(wù)器的測試集,構(gòu)建了一個局部梯度過濾與用戶評分更新的方法,有效地減少了惡意用戶對模型訓(xùn)練過程的影響,并逐步將這些惡意用戶從訓(xùn)練過程中移除,從而增強了全局模型的魯棒性。
b)為了降低網(wǎng)絡(luò)延遲并能保護(hù)用戶數(shù)據(jù)隱私,基于云霧協(xié)作設(shè)計了一個輕量級的加密算法。該算法不僅有效保護(hù)了用戶局部模型參數(shù)的隱私,還確保了這些參數(shù)在聚合過程中的安全性,同時還具有較高的計算效率和通信效率。
c)基于計算Diffie-Hellman(CDH)問題的困難性,提出的方案被證明是安全的,并能有效抵抗推理攻擊、拜占庭攻擊和合謀攻擊等,從而確保了全局模型具備良好的魯棒性。此外,通過對所提出方案的性能分析以及在MNIST數(shù)據(jù)集上開展的一系列相關(guān)實驗,實驗結(jié)果顯示提出的方案在模型準(zhǔn)確率和效率方面比現(xiàn)有的方案表現(xiàn)更為優(yōu)異。
1相關(guān)工作
為防范用戶數(shù)據(jù)隱私泄露,眾多加密技術(shù)在聯(lián)邦學(xué)習(xí)領(lǐng)域得到了提出和應(yīng)用。其中,差分隱私技術(shù)尤為常用。例如文獻(xiàn)[12]提出了一種客戶端差分隱私保護(hù)的聯(lián)邦學(xué)習(xí)方案,該方案能夠在訓(xùn)練過程中隱藏客戶的貢獻(xiàn),有效地平衡了隱私泄露與模型性能之間的權(quán)衡,并能夠動態(tài)自適應(yīng)地調(diào)整差分隱私的參數(shù)。與文獻(xiàn)[12]相比,文獻(xiàn)[13]提出的方案利用了高斯噪聲來保護(hù)用戶的局部差分隱私,并且具有較低的計算和通信費用。隨后,文獻(xiàn)[14,15]在確保為用戶提供充分隱私保護(hù)的同時降低計算負(fù)擔(dān)。然而,必須指出的是,盡管差分隱私機制能有效守護(hù)數(shù)據(jù)隱私,但引入的噪聲也不可避免地對全局模型的收斂速度和精確度造成影響。
為了更好地平衡模型準(zhǔn)確性與隱私保護(hù)之間的權(quán)衡,提出了基于同態(tài)加密的解決方案。例如文獻(xiàn)[16]使用加法同態(tài)加密梯度,云服務(wù)器可以在不解密的情況進(jìn)行梯度聚合,保護(hù)數(shù)據(jù)隱私。與文獻(xiàn)[16]相比,文獻(xiàn)[17]提出一個改進(jìn)全同態(tài)加密方案。該方案不僅實現(xiàn)云服務(wù)器在不解密的情況進(jìn)行梯度聚合,還能實現(xiàn)同態(tài)比較和機器學(xué)習(xí)分類。隨后,文獻(xiàn)[18]提出了改進(jìn)的Paillier加密算法,并基于改進(jìn)的加密算法構(gòu)建一個聯(lián)邦學(xué)習(xí)的隱私保護(hù)方案。文獻(xiàn)[19]提出了一種基于全同態(tài)加密的聯(lián)邦學(xué)習(xí)隱私保護(hù)方案,通過加密防止模型泄露,并設(shè)計了考慮時間變量和約束系數(shù)的魯棒模型聚合算法,以應(yīng)對性能差異和節(jié)點異常,保障模型預(yù)測準(zhǔn)確。文獻(xiàn)[20]設(shè)計了一種同態(tài)簽密機制,并基于該簽密構(gòu)建一個可驗證的聯(lián)邦學(xué)習(xí)隱私保護(hù)框架。同時采用盲化技術(shù)來抵抗客戶端與服務(wù)器之間的勾結(jié)攻擊,利用批處理方法進(jìn)一步減少其計算和通信開銷。此外,還有一些方法結(jié)合了差分隱私和同態(tài)加密,以實現(xiàn)更好的性能,如文獻(xiàn)[14,21]。然而,這些方案在加密和解密過程通常涉及較高的計算費用和通信費用,尤其是在處理大規(guī)模數(shù)據(jù)時,而且同態(tài)加密適用于單一服務(wù)器場景。
為了進(jìn)一步降低計算費用和通信費用,一些面向聯(lián)邦學(xué)習(xí)的高效隱私保護(hù)方案被提出,例如文獻(xiàn)[6,22,23]。文獻(xiàn)[22]提出了一種高效的聯(lián)邦安全聚合方案。該方案通過添加雙屏蔽值來保護(hù)上傳的模型參數(shù)的安全,使用秘密共享來確保聚合的成功,并能解決用戶掉線的問題。文獻(xiàn)[9]基于文獻(xiàn)[22],提出一個高效和快速驗證聯(lián)邦學(xué)習(xí)方案。該方案能實現(xiàn)當(dāng)部分用戶掉線時,服務(wù)器仍能夠完成全局聚合的功能。文獻(xiàn)[23]運用四元數(shù)旋轉(zhuǎn)技術(shù)巧妙遮蔽了梯度向量中的敏感數(shù)據(jù),從而保障了梯度信息的安全。研究設(shè)計了一種結(jié)合鏈?zhǔn)搅愎蚕砼c單一掩碼策略的雙重保障措施。同時,通過閾值秘密共享技術(shù),提升了系統(tǒng)對用戶離線狀態(tài)的容忍度,加強了整體的魯棒性。然而,四元數(shù)旋轉(zhuǎn)技術(shù)并非普適,可能加重訓(xùn)練和計算的負(fù)擔(dān)。該方案對于惡意用戶的拜占庭攻擊缺乏有效的防御策略,且一旦惡意用戶數(shù)量超出閾值,就可能面臨合謀攻擊的風(fēng)險。鏈?zhǔn)搅愎蚕硭惴ㄖ行枰褂昧溯^多的隨機數(shù)生成器,因此在用戶端和服務(wù)端的計算開銷都最高。雖然加密隨機種子交換和簽名驗證保護(hù)了用戶隱私,但在用戶眾多或網(wǎng)絡(luò)狀況不佳時,會導(dǎo)致通信和計算成本顯著增加。隨著用戶數(shù)量增加,鏈?zhǔn)浇Y(jié)構(gòu)的維護(hù)和隨機數(shù)生成變得更加復(fù)雜,這對算法的可擴展性構(gòu)成了限制。
針對聯(lián)邦學(xué)習(xí)中的拜占庭攻擊,一些方案相繼被提出。例如文獻(xiàn)[24]提出了一種基于均值的幾何中值的魯棒方法,從而削弱拜占庭攻擊。文獻(xiàn)[25\~27]通過比較不同用戶的局部模型梯度的距離,移除差異較大的異常梯度,抵抗惡意用戶的攻擊,以此提升全局模型的準(zhǔn)確率。然而,所有這些方案都需要訪問用戶的明文數(shù)據(jù),即不能保護(hù)用戶的數(shù)據(jù)隱私。在現(xiàn)實應(yīng)用中,特別是在聯(lián)邦學(xué)習(xí)和分布式計算領(lǐng)域,迫切需要構(gòu)建一種既能夠有效保護(hù)數(shù)據(jù)隱私,又能抵抗拜占庭攻擊的魯棒性解決方案。
為了在保護(hù)用戶數(shù)據(jù)隱私的同時,抵御拜占庭式攻擊,文獻(xiàn)[28]提出了一種用于抵抗拜占庭攻擊的安全聚合框架,從而實現(xiàn)訓(xùn)練模型對拜占庭故障具有魯棒性,同時保護(hù)用戶的數(shù)據(jù)隱私。然而,文獻(xiàn)[29]指出,在文獻(xiàn)[28]中,用戶和服務(wù)器之間需要多次相互傳遞信息以完成局部模型參數(shù)的聚合,這將導(dǎo)致通信費用高。文獻(xiàn)[29]提出了一種既保護(hù)隱私又具有拜占庭魯棒性的高效聯(lián)邦學(xué)習(xí)方案。該方案沒有使用復(fù)雜的加密算法,通過添加噪聲,利用雙服務(wù)器來實現(xiàn)局部梯度的聚合。盡管文獻(xiàn)[29]中提出的方案在效率上表現(xiàn)出色,但在服務(wù)器合謀攻擊的情況下,用戶的梯度信息存在泄露的風(fēng)險。此外,文獻(xiàn)[30]分別提出了能夠容忍拜占庭錯誤和實現(xiàn)可驗證聚合的方案。文獻(xiàn)[31]提供了關(guān)于聯(lián)邦學(xué)習(xí)中的安全威脅及其防御措施的全面綜述。
這些研究表明,在聯(lián)邦學(xué)習(xí)和分布式計算領(lǐng)域,保護(hù)數(shù)據(jù)隱私和確保系統(tǒng)的魯棒性是兩個相互交織的挑戰(zhàn)。未來的研究需要在提高方案效率的同時,加強對用戶隱私的保護(hù),并設(shè)計出能夠有效抵御各種攻擊的魯棒性方案。
2 提出的方案
提出的方案基于由云服務(wù)器與霧服務(wù)器協(xié)同工作的網(wǎng)絡(luò)架構(gòu),包括系統(tǒng)模型、霧服務(wù)器對用戶的選擇、局部模型訓(xùn)練、模型參數(shù)的加密、局部聚合、全局聚合,以及更新用戶信用分?jǐn)?shù)等多個環(huán)節(jié)。下面將詳細(xì)描述整個方案的每個過程。
2.1 系統(tǒng)模型及定義
2.1.1 系統(tǒng)模型
本方案主要由五個實體組成,分別為可信機構(gòu)TA、云服務(wù)器、霧服務(wù)器、用戶和區(qū)塊鏈。系統(tǒng)模型如圖1所示。
a)可信機構(gòu)TA:TA是完全可信的機構(gòu),負(fù)責(zé)生成系統(tǒng)參數(shù),協(xié)助服務(wù)器和用戶生成共享密鑰。
b)云服務(wù)器cloud:擁有很強的計算和存儲能力,并能支撐全局模型的聚合和檢測。除此之外,云服務(wù)器擁有聯(lián)邦學(xué)習(xí)任務(wù)的測試集,用于測試霧服務(wù)器上傳的局部聚合參數(shù)的準(zhǔn)確率,以排除準(zhǔn)確率較低的局部聚合模型。
c)霧服務(wù)器fog:霧服務(wù)器同樣也具有強大的計算和存儲能力,并且能夠與附近用戶的設(shè)備建立通信連接,同時管理這些連接,以保證數(shù)據(jù)傳輸?shù)母咝c安全。假設(shè)在特定區(qū)域內(nèi),有個霧服務(wù)器 Fj (其中 j=1,2,…,v) 分散在不同的地方,并且這些霧服務(wù)器都由該地區(qū)的云服務(wù)器進(jìn)行集中管理。霧服務(wù)器 Fj 直接向用戶 uji 提供服務(wù), v 代表霧服務(wù)器的個數(shù)。
d)用戶群group:用戶作為參與者,在提出的方案中并非所有用戶都能夠參加全局的聯(lián)邦學(xué)習(xí)訓(xùn)練。在每一輪全局模型更新中,只有被選中的用戶才能參加下一輪的本地模型訓(xùn)練。
e)區(qū)塊鏈blockchain:由于用戶選擇算法依賴于用戶的信用分?jǐn)?shù),而用戶的信用分?jǐn)?shù)在每一輪全局訓(xùn)練完成后,會根據(jù)提供模型參數(shù)的質(zhì)量而動態(tài)改變。為了保證用戶分?jǐn)?shù)的不可竄改性,將所有用戶的分?jǐn)?shù)記錄在區(qū)塊鏈上,用戶、霧服務(wù)器和云服務(wù)器都可以在授權(quán)范圍內(nèi)查詢信用分?jǐn)?shù),但查詢行為受到區(qū)塊鏈的監(jiān)管,以確保隱私保護(hù)和數(shù)據(jù)安全。
2.1.2 形式化定義
提出的方案包含8個多項式算法,具體如下:
a) Setup(1λ) :由可信機構(gòu) T 運行。輸入安全參數(shù) λ ,輸出私鑰和公共參數(shù),初始全局模型參數(shù)。
b ?)LTraining(wgρ-1,Di) :輸入 ρ-1 輪的全局模型參數(shù) wgρ-1 和本地數(shù)據(jù)集 Di ,輸出第 ρ 輪的局部梯度。
c) sUser(U) :輸入用戶集合 U ,輸出選擇的用戶集合 SID 。
d)EModel (wiρ,pp) :輸人第 ρ 輪的局部梯度 wiρ 和公共參數(shù)pp ,輸出第 ρ 輪的局部梯度密文。
e ?PAggregat(idji,Ci) :輸人第 ρ 輪霧服務(wù)器選擇的用戶身份標(biāo)識 及相應(yīng)的局部梯度密文 Ci ,輸出聚合后的局部梯度密文和驗證信息。
f) GAggregat (idj,Cj) :輸入第 ρ 輪的云服務(wù)器選擇的霧服務(wù)器身份標(biāo)識 idj 及相應(yīng)的局部梯度聚合密文 Cj ,輸出聚合后的全局模型參數(shù)和驗證信息。
g)CUpdate( (δjiρ) :輸入第 ρ 輪的用戶信用分?jǐn)?shù) δjiρ ,輸出更新后的用戶信用分?jǐn)?shù)。
h) VAggregat ( (Wgp,Vgp) :輸人第 ρ 輪的全局模型參數(shù) Wgρ 和驗證信息 Vgp ,若 ,則輸出1,否則輸出0。
2.1.3安全定義
通過定義敵手A和挑戰(zhàn)者C之間的游戲,來證明提出方案的安全性。假設(shè)敵手A可以完全控制公開通信信道,即敵手A可以在公開信道上竊聽,甚至注入信息。此外,敵手A可以執(zhí)行以下查詢。
a)Execute-查詢:敵手A可以竊聽所有參與者在公開信道上的傳輸信息。
b) -查詢:在該查詢中,敵手A發(fā)送消息 ∣m ,則挑戰(zhàn)者C需返回一個隨機值 ? 給敵手A,并在列表中記錄該項 (m,?) 。
c)Send-查詢:敵手A發(fā)送消息 ∣m ,則挑戰(zhàn)者C需按照特定步驟執(zhí)行方案,并將結(jié)果返回給敵手A。
d)Test-查詢:該查詢驗證參與者間的共享密鑰 ski1ki2 的語義安全性。挑戰(zhàn)者C選擇 c∈{0,1} ,若 c=1 ,則將密鑰( ?ski1 ski2 )返回給敵手A;若 c=0 ,則挑戰(zhàn)者C返回兩個隨機數(shù)給敵手A,且隨機數(shù)的長度與密鑰 (ski1,ski2) 的長度保持一致。
敵手A收到Test-詢問的回復(fù)后,猜測 的值,若猜測正確,則A贏得游戲。設(shè)敵手在游戲中的優(yōu)勢為
Adv=|Pr[b=b′]-1/21
定義1當(dāng)敵手A在游戲中的優(yōu)勢是可忽略的,則提出的方案是安全的。
2.2 方案的構(gòu)造
提出的方案主要由霧服務(wù)器構(gòu)建群組、系統(tǒng)初始化、霧服務(wù)器選擇用戶、局部模型訓(xùn)練、加密局部梯度、局部梯度密文聚合、全局梯度聚合、信用分?jǐn)?shù)更新,全局梯度聚合結(jié)果驗證,其中系統(tǒng)初始化只需要在任務(wù)最開始執(zhí)行一次。
2.2.1霧服務(wù)器構(gòu)建群組
霧服務(wù)器 Fj 將地理上靠近它的用戶組成一個用戶群組,用戶 uji 表示屬于霧服務(wù)器 Fj 所在的群組。霧服務(wù)器與組內(nèi)的設(shè)備建立通信鏈接,并管理這些鏈接,確保數(shù)據(jù)傳輸?shù)男屎桶踩?。霧服務(wù)器相對于云服務(wù)器,在地理上更靠近用戶,用戶在上傳/下載參數(shù)時能夠降低時延。在每一輪全局模型訓(xùn)練過程中,霧服務(wù)器采用選擇用戶算法,優(yōu)先挑選信用分?jǐn)?shù)較高的用戶參與訓(xùn)練。用戶的信用分?jǐn)?shù)與其上傳的模型參數(shù)質(zhì)量緊密相關(guān):若用戶持續(xù)提供高質(zhì)量的模型參數(shù),其信用分?jǐn)?shù)將相應(yīng)提升;反之,若上傳的模型參數(shù)質(zhì)量不佳,其分?jǐn)?shù)則會逐漸下降。因此,用戶的信用分?jǐn)?shù)越高,其在訓(xùn)練中被選中的幾率也越大。此外,霧服務(wù)器還負(fù)責(zé)將其管理的用戶群組上傳的本地模型參數(shù)進(jìn)行聚合,以此生成局部聚合參數(shù)。
2.2.2 系統(tǒng)初始化
在聯(lián)邦學(xué)習(xí)訓(xùn)練開始前,可信機構(gòu)TA首先執(zhí)行系統(tǒng)初始化Setup(I),生成相關(guān)的系統(tǒng)參數(shù)和私鑰,初始全局模型參數(shù)等。具體過程如下:
a)可信機構(gòu)TA首先選取一個大素數(shù) p,GF(p) 為有限域,Zp 為乘法群,它是一個 p-1 階循環(huán)群 G ,其生成元為 g ;選擇具有單向和抗碰撞的哈希函數(shù) ,單向和抗碰撞的同態(tài)哈希函數(shù)
(204號
b)TA首先選擇一個 t-1 階多項式
其中: q(0)=k2,k2∈Zp* ξi∈Zp* ( i=1,2,…,t-1) 為隨機數(shù)。
c)TA選擇隨機數(shù) rc,rj,rji∈Zp* ,計算云服務(wù)器身份標(biāo)識 ,霧服務(wù)器身份標(biāo)識
,用戶身份標(biāo)識
。其中 i=1,2,…,n,j=1,2,…,v,v 為霧服務(wù)器的個數(shù), n 為霧服務(wù)器 Fj 管理的用戶數(shù)。
d)TA設(shè)定一個公開的隨機種子 τ 作為初始值。在每一輪的全局模型訓(xùn)練中,隨機種子 τ 將通過哈希函數(shù)更新,即 τ= H(τ-1) ,這里的 τ-1 代表全局訓(xùn)練第 ρ-1 輪的隨機種子,也就是第 ρ 輪訓(xùn)練的前一輪所使用的隨機種子。
e)TA選擇隨機數(shù) k1 ,通過安全通道送 (k1,k2,rc) 給云服務(wù)器, rj 給霧服務(wù)器 Fj,(q(idji),k1,rji) 給用戶 uji 。最后公布(idc,idj,idji) ,其中 i=1,2,…,n,j=1,2,…,vc
2.2.3霧服務(wù)器選擇用戶
霧服務(wù)器依據(jù)用戶的信用評分,篩選出符合條件的用戶參與下一輪的聯(lián)邦學(xué)習(xí)過程。如一個用戶持續(xù)上傳質(zhì)量好的模型參數(shù),則其信用分?jǐn)?shù)會升高。反之,則分?jǐn)?shù)會逐漸降低。每個用戶 uji 都有一個信用分?jǐn)?shù) ,且這些分?jǐn)?shù)連同用戶ID一同被記錄在區(qū)塊鏈上。區(qū)塊鏈的不可竄改性確保了用戶的信用分?jǐn)?shù)不能被修改或被其他用戶盜用。
在霧服務(wù)器選擇用戶算法中,采用了文獻(xiàn)[32]中的二項分布構(gòu)造抽簽概率分布,基于二項概率分布提出了用戶選擇算法SUser(U)。選擇用戶過程如下:
a)霧服務(wù)器 Fj 設(shè)置一個值 pi(pi∈(0,1) ),表示每一個分?jǐn)?shù)被選中的概率。若一個霧服務(wù)器管理的用戶組內(nèi)聚合后的模型準(zhǔn)確率均很高,則 pi 可以設(shè)置為較大的值,反之群組內(nèi)局部聚合的模型準(zhǔn)確率始終較差,即認(rèn)為群組內(nèi)惡意用戶較多,則可以調(diào)整 pi 為較小的值。
b)霧服務(wù)器根據(jù)區(qū)塊鏈上記載的每個用戶信用分?jǐn)?shù),計算二項分布 B(0,δji,pi) 。二項分布遵循以下表達(dá)式:
其中: κ=0,1,2,…,δji 。當(dāng)用 uji 擁有的信用分?jǐn)?shù) δji 越高,則 B (2 (0,δji,pi) 的值就越小。霧服務(wù)器計算 hji/2|hj| ,其中 (2號
, ∣hij I表示哈希值的長度。如果 hji/2|hji|gt;B(0,δji ,pi ),則表示用戶 uji 可以參與本輪的全局模型訓(xùn)練,并將該用戶的身份標(biāo)識添加進(jìn)集合 SID′∪{idji} ,其中 SΔID′ 初始為空集合。反之不能參與本輪的訓(xùn)練。
c)如集合 SΔID′ 中的用戶數(shù)量超過多項式的階數(shù) (Ωt-1) ,霧服務(wù)器從 SID′ 隨機選擇 χt 個用戶參與當(dāng)前輪次的全局模型訓(xùn)練,并由此形成集合 SID={idj1,idj2,…,idjt} ;相反,如果集合SID′ 中的用戶數(shù)小于多項式的階數(shù) Ξ(t-1) ,則霧服務(wù)器會選取尚未被選中且信用分?jǐn)?shù) δi 較高的用戶添加到集合 SID 中,直至SID 中的總用戶總數(shù)達(dá)到 t
d)霧服務(wù)器公布集合 SID={idj1,idj2,…,idjt} ,并向集合中的用戶發(fā)送信息,確認(rèn)這些用戶當(dāng)前是否在線。對于那些未在線的用戶,霧服務(wù)器將會從備用用戶集合 SID′ 挑選新的用戶來替代他們,以便這些新選中的用戶可以參與到當(dāng)前這一輪的全局模型訓(xùn)練中。通過這樣的方式,形成了一個新的用戶集合
SID ,以確保訓(xùn)練過程的順利進(jìn)行。
2.2.4局部模型訓(xùn)練
在第 ρ 輪的局部模型訓(xùn)練階段,每個被選中參與聯(lián)邦學(xué)習(xí)的用戶會接收到霧服務(wù)器發(fā)送的上一輪的全局模型 wgρ-1 ,并通過本地數(shù)據(jù)集 Di ,執(zhí)行局部梯度訓(xùn)練算法LTraining( wgρ-1 ,Di )來訓(xùn)練本地模型。訓(xùn)練完成后,用戶將使用FedAVG[33]算法計算本輪的局部梯度 wiρ 0
wiρ=wgρ-1-η?F(Di,wgρ-1)
其中: η 表示學(xué)習(xí)率; F 表示損失函數(shù)。
2.2.5加密局部梯度
每個參與聯(lián)邦學(xué)習(xí)的用戶執(zhí)行加密算法 EModel(wiρ,pp) 生成密文 Ci 和驗證信息 Vi 。
每個參與聯(lián)邦學(xué)習(xí)的用戶選擇一個隨機數(shù) βi∈Zp* ,計算
送 Ci=(idji,Ci1,Ci2,Vi) 給霧服務(wù)器 Fj 。
2.2.6局部梯度密文聚合
霧服務(wù)器收到集合 SID={idj1,idj2,…,idjt} 中所有用戶上傳的加密的局部模型參數(shù) Ci 后,霧服務(wù)器執(zhí)行局部聚合算法PAggregat (idji,Ci) ,完成局部聚合。
霧服務(wù)器計算
最后,送 Cj=(SID,idj,Cj1,Cj2,Vj) 給云服務(wù)器,同時,將(SID,Vi={Vi|i∈SID} )公布。
2.2.7 全局梯度聚合
云服務(wù)器收到所有從霧服務(wù)器送來的聚合局部梯度后,對局部聚合梯度執(zhí)行 GAggregat(idj,Cj) 算法,得到聚合的全局模型參數(shù)。
云服務(wù)器計算
為了防止惡意用戶的拜占庭攻擊對全局模型的影響,云服務(wù)器用自己的測試集測試 Wjp 的準(zhǔn)確率。若局部梯度 Wjρ 的準(zhǔn)確率大于上一輪全局模型的準(zhǔn)確率減去一個預(yù)設(shè)閾值(例如3% ),則通過測試。經(jīng)過測試的局部聚合梯度將被整合到全局模型中,并且對應(yīng)的霧服務(wù)器的 將被添加到集合 Y 里。集合 Y 用于記錄那些成功上傳了局部聚合梯度并順利通過了云服務(wù)器測試的霧服務(wù)器的身份標(biāo)識集合。初始時,集合 Y 為空集。反之,測試不通過,則認(rèn)為 Wjp 存在惡意用戶注入拜占庭攻擊的情況,局部聚合梯度不會被聚合到全局模型中。在實際應(yīng)用中,這個預(yù)設(shè)閾值是根據(jù)具體的應(yīng)用場景和性能要求來設(shè)定的。
云服務(wù)器公布集合 Y; ,并聚合通過測試的局部聚合梯度參數(shù) Wjp ,得到全局聚合梯度:
云服務(wù)器計算全局聚合梯度驗證信息:
2.2.8更新用戶信用分?jǐn)?shù)
為了保證全局模型的正常收斂,并防止惡意用戶持續(xù)參與全局模型訓(xùn)練,云服務(wù)器執(zhí)行算法CUpdate (δjiρ) 更新用戶信用分?jǐn)?shù)。這一機制使得那些惡意用戶被選中的概率逐漸降低,從而提高全局模型的準(zhǔn)確率。更新分?jǐn)?shù)的規(guī)則如下:
最終云服務(wù)器將 發(fā)送給對應(yīng)的霧服務(wù)器 Fj 。
霧服務(wù)器收到云服務(wù)器發(fā)送的 (δjiρ,Wgρ,Vgρ) 后,基于Algo-rand[32] 協(xié)議開始選舉產(chǎn)生委員會,被選為領(lǐng)導(dǎo)者的節(jié)點將負(fù)責(zé)發(fā)布一個新區(qū)塊。該區(qū)塊詳細(xì)記錄了用戶的最新信用分?jǐn)?shù),這一分?jǐn)?shù)將直接影響用戶在下一輪迭代中被選中的概率。當(dāng)超過三分之二的委員會成員對新區(qū)塊的結(jié)果進(jìn)行驗證并認(rèn)可,并且云服務(wù)器也確認(rèn)該分?jǐn)?shù)未遭竄改,該區(qū)塊便會被正式添加至區(qū)塊鏈之中。最終,霧服務(wù)器發(fā)送最新的全局模型參數(shù)和驗證信息( |Vgp,Vgp) 給用戶,準(zhǔn)備下一輪的迭代。
2.2.9 聚合結(jié)果驗證
用戶收到 (Wgp,Vgp) 后,執(zhí)行驗證算法 VAggregat(?Wgp,Vgp) ,對聚合全局模型參數(shù)的正確性進(jìn)行驗證。計算 H(Wgp) ,并驗證式(19)是否成立:
若式(19)成立,則證明云服務(wù)器所聚合的全局梯度 Wgp 是正確的,用戶會把 Wgp 作為本輪的全局模型參數(shù),然后繼續(xù)下一輪的迭代訓(xùn)練。反之,丟棄該聚合結(jié)果。
用戶也可以通過霧服務(wù)器公布的參與本輪訓(xùn)練的用戶集合 SID 的驗證信息 (SID,{Vi|i∈SID},Y) 計算
然后再驗證式(19)是否成立。
3安全性分析
假定可信機構(gòu)TA是完全可信的,云服務(wù)器和霧服務(wù)器均是誠實但好奇的,即云服務(wù)器和霧服務(wù)器會誠實地執(zhí)行協(xié)議規(guī)定好的算法,但對用戶的隱私會感到好奇并嘗試獲取相關(guān)信息。云服務(wù)器、霧服務(wù)器與某些惡意用戶之間可能會進(jìn)行合謀,竊取其他用戶的模型參數(shù)。
定理1 如果計算Diffie-Hellman(CDH)問題是困難的,則提出的方案是自適應(yīng)安全的。
證明假設(shè)敵手A從集合 U 中選擇一個 作為目標(biāo)用戶,從霧服務(wù)器集合 F 中選擇一個霧服務(wù)器 Fj 作為目標(biāo)霧服務(wù)器。通過定義敵手A和挑戰(zhàn)者C之間的游戲,來證明提出方案的安全性。
游戲 G0 :敵手 A 執(zhí)行Test-查詢,當(dāng) c=1 時,敵手A可獲得密鑰 ski1σ1ski2 ;否則,敵手A只能獲得兩個隨機值。則在該游戲中,密鑰 ski1σiski2 的語義安全性表示如下:
Adv(A)=|2Pr[G0=1]-1|
游戲 G1 :在該游戲中,敵手A實施竊聽攻擊。假設(shè)敵手A執(zhí)行Execute-查詢,獲得用戶與霧服務(wù)器、霧服務(wù)器與云服務(wù)器之間交互的所有信息 Ci=(idji,Ci1,Ci2,Vi) 。然而,由于敵手A無法獲得用戶與霧服務(wù)器的共享密鑰 sk⊥ 、用戶與云服務(wù)器共享的密鑰 ski1 和用戶的密鑰 q(idji) ,所以敵手A無法從Ci1?Ci2?Vi 中計算出隨機數(shù) βi 及 !
,進(jìn)一步無法獲取用戶的模型參數(shù),從而實現(xiàn)了模型參數(shù)在開放的通信信道中傳輸時,攻擊者無法獲得模型參數(shù),保證了模型參數(shù)的安全 0 由于 ?H 是單向、抗碰撞的同態(tài)哈希函數(shù),敵手A也無法通過 H(wiρ) 計算出 wiρ 。所以,即便敵手A攔截了信息 Ci= (idji,Ci1,Ci2,Vi) ,也對其得到 wiρ 沒有任何的幫助。因此,敵手A通過竊聽攻擊無法使其在贏得 G0 的概率上有所提高,即
游戲 G2 :敵手A執(zhí)行 查詢。當(dāng)敵手A用
發(fā)起詢問時,挑戰(zhàn)者C先檢查集合 L1 中是否存在對應(yīng)的項。若存在,則將 (idji,wi,di) 返回給A;否則C隨機選擇 di∈Zp* ,并將(idji,wi,di) 添加到集合 L1 中。隨后將 (idj,di) 發(fā)給A。 L1 初始為空。由于同態(tài)哈希函數(shù)與真正的隨機函數(shù)之間是無法區(qū)分的,所以 G2 與 G1 是不可區(qū)分的。由此可知:
|Pr[G2=1]-Pr[G1=1]|≤negl(1λ)
游戲 G3 :敵手A可以執(zhí)行Send-查詢。挑戰(zhàn)者C收到詢問信息 (idji,idj,idc,wiρ) 后,先檢查列表 L2 中是否存在對應(yīng)的項。若存在,將列表 L2 中對應(yīng) (Ci1,Ci2,Vi) 返回敵手A;否則,挑戰(zhàn)者C選擇隨機數(shù) ,計算
Vi=di
將 (idji,idj,idc,Ci1,Ci2,Vi,ski1,ski2,di,σi) 插入到列表 L2 中,并返回 (Ci1,Ci2,Vi) 。如果敵手可以區(qū)分給定的 (Ci1,Ci2,Vi) 和隨機數(shù),那么挑戰(zhàn)者報告失敗并終止。初始時,列表 L2 為空。
由于密文含有隨機數(shù) σi ,密文與隨機函數(shù)之間是無法區(qū)分的,所以 G3 與 G2 是不可區(qū)分的。由此可知:
游戲 G4 :在該游戲中,假設(shè)敵手A攔截了信息
),并企圖計算用戶與霧服務(wù)器之間的密鑰 ski1 、用戶與云服務(wù)器之間的密鑰 sk?2 。由于
,敵手A必須通過 (idji,idj,idc) 計算出 rc,rj,rji ,進(jìn)一步計算出 ski1σ?1ski2 。這意味著敵手A需在一個多項式時間 χt 內(nèi)解決CDH困難性問題。因此,可得:
|Pr[G4=1]-Pr[G3]=1|≤AdvAcon(1λ)
最后,敵手 A 猜測到 c=1 的概率為
|Pr[G4=1]|=1/2+?
由式(21)(30)可得
由式(23)(28)(29)和(31)可得 (204號 ∣AdvACDH(1λ)+negl(1λ)∣ (204號 (33
ε和 都是不可忽略的,因此敵手A成功得到密鑰ski1σski2 的優(yōu)勢 AdvACDH(1λ) 是不可忽略的,則意味著敵手A可以從
中計算出
和
,從而能以不可忽略的概率解決CDH困難問題。這與本文的假設(shè)相矛盾,因此,提出的方案是自適應(yīng)安全的,能抵抗推理攻擊,保護(hù)用戶的數(shù)據(jù)隱私。
定理2如果合謀的用戶數(shù)量小于 t(t 表示每輪訓(xùn)練中被選中的用戶數(shù)量),則提出的方案可以有效抵抗多個惡意用戶與霧服務(wù)器及云服務(wù)器之間的合謀攻擊,保護(hù)了用戶的模型參數(shù)隱私。
證明 下面分幾種情況證明:
a)多個惡意用戶之間的合謀。
在第 ρ 輪的聯(lián)邦學(xué)習(xí)訓(xùn)練中,假設(shè)超過 Ψt 個惡意用戶進(jìn)行合謀,貢獻(xiàn)自己秘密 ,他們能計算出隨機數(shù) (βi,k2) ,但不知道云服務(wù)器和霧服務(wù)器的私鑰,從而無法獲得用戶的模型參數(shù)。因此,提出的方案能夠抵抗惡意用戶的合謀攻擊。
b)霧服務(wù)器與云服務(wù)器的合謀。
如霧服務(wù)器和云服務(wù)器互相分享自己的密鑰 ski1 和 sk?2 企圖獲得用戶的模型參數(shù),那么它們就可以計算 和
,但它們不知道隨機數(shù) βi ,從而無法從 Ci1 求出用戶的梯度參數(shù)。如果它們企圖從 Ci2 求隨機數(shù) βi ,但不知道用戶的秘密參數(shù) q(idji) ,所以無法從 Ci2 求隨機數(shù) βi 。因此提出的方案能夠抵抗霧服務(wù)器與云服務(wù)器的合謀攻擊。
c)霧服務(wù)器與惡意用戶合謀。
如果霧服務(wù)器與惡意用戶勾結(jié),能夠計算出 ,并且如果有超過 Ξtt 個惡意用戶貢獻(xiàn)他們的秘密參數(shù) q(idji) ,則可能重構(gòu)出 q(x) ,進(jìn)而得到秘密 k2 和 βi 。然而,由于他們無法獲取其他用戶與云服務(wù)器之間的共享密鑰 ski1 ,也就無法計算
,所以無法從 Ci1 中解密出其他用戶的模型參數(shù)。因此,所提出的方案能夠有效地抵御霧服務(wù)器與惡意用戶勾結(jié)攻擊,確保了用戶模型參數(shù)的隱私安全。
d)云服務(wù)器與惡意用戶合謀。
如云服務(wù)器和惡意用戶合謀,可以計算出 ,并且如果有超過 Φt 的惡意用戶貢獻(xiàn)他們的秘密參數(shù) q(idji) ,就可以重構(gòu) q(x) ,進(jìn)而得到秘密 k2 及 βi 。然而,他們無法獲其他用戶與霧服務(wù)器的共享密鑰 ski2 ,也就無法計算
。所以,無法從 Ci1 獲得其他用戶的模型參數(shù)。因此,提出的方案能夠抵抗云服務(wù)器與惡意用戶的合謀攻擊,確保了用戶模型參數(shù)的隱私安全。
e)多個惡意用戶與霧服務(wù)器及與云服務(wù)器的合謀。
盡管霧服務(wù)器和云服務(wù)器可能共謀,從而能夠計算出 和
,并且有多個惡意用戶貢獻(xiàn)他們的秘密參數(shù) q(idfi) ,但只要這些惡意用戶的數(shù)量未達(dá)到閾值 χt ,就無法重構(gòu)出 q(x) 以獲取秘密 k2 和 βi 。由于無法獲得 k2 和 βi ,他們也就無法獲取用戶的模型參數(shù)。因此,所提出的方案能夠有效地抵御霧服務(wù)器與云服務(wù)器以及數(shù)量小于 χt 的惡意用戶共謀攻擊,確保了用戶模型參數(shù)的隱私安全。
綜上所述,所提出的方案能夠有效抵御多個惡意用戶與霧服務(wù)器及云服務(wù)器之間的共謀攻擊,從而確保了用戶模型參數(shù)的隱私安全。
定理3如果云服務(wù)器和霧服務(wù)器會誠實地執(zhí)行協(xié)議規(guī)定好的算法,提出的方案能抵抗拜占庭攻擊,使得全局模型具有魯棒性。
證明為了抵御惡意用戶的拜占庭攻擊,通過霧服務(wù)器執(zhí)行選擇用戶算法SUser(U),以挑選出參與聯(lián)邦學(xué)習(xí)的用戶。用戶的信用評分越高,表示該用戶持續(xù)上傳質(zhì)量好的模型參數(shù),被選中參加下一輪訓(xùn)練的概率越大,從而有效篩除了質(zhì)量較低的模型參數(shù),減少了它們對局部聚合模型參數(shù)可能產(chǎn)生的不良影響。同時,云服務(wù)器在聚合全局模型參數(shù)時,會對局部聚合參數(shù)進(jìn)行質(zhì)量測試。只有那些質(zhì)量較高的局部聚合參數(shù)才會被納入全局模型,以此避免低質(zhì)量的局部聚合參數(shù)對全局模型的污染。此外,用戶的信用評分會根據(jù)測試結(jié)果進(jìn)行更新。如果霧服務(wù)器上傳的局部聚合參數(shù)的準(zhǔn)確率低于上一輪全局模型準(zhǔn)確率減去一個預(yù)設(shè)閾值,則參與該局部聚合參數(shù)的用戶的信用評分都會減1;反之,如果準(zhǔn)確率達(dá)標(biāo),信用評分則加1,這樣能夠降低惡意用戶參與聯(lián)邦學(xué)習(xí)的幾率。因此,所提出的方案能夠有效抵抗拜占庭攻擊,阻止惡意用戶對全局模型的污染,并確保全局模型的魯棒性。
定理4如果同態(tài)哈希函數(shù)是單向且抗碰撞,則提出的方案能保證聚合全局模型的完整性。
證明若云服務(wù)器在聚合全局模型時出現(xiàn)錯誤或試圖偽造 Wgp 。由于同態(tài)哈希函數(shù)的單向且抗碰撞性質(zhì),則 Wgp 不能通過驗證式(3)(21)的驗證,即 ;如果云服務(wù)器同時偽造 Wgp 和 Vgp ,并使 Vgp=H(?Wgp) ,則 Wgp 能通過驗證式(2)(21)的驗證。然而,由于霧服務(wù)器已經(jīng)公布了參與本輪訓(xùn)練的用戶集合 SID 的驗證信息 (SID,{Vi|i∈SID} ),用戶可以通過 Vi ,計算
然后驗證等式 是否成立。由于同態(tài)哈希函數(shù)單向和抗碰撞的性質(zhì),則 Wgp 不能通過 Vgp=H(Wgp) 驗證。所以,提出的方案能夠確保全局模型在聚合過程中的完整性和可信度。
定理5基于區(qū)塊鏈的不可竄改性質(zhì),提出的方案確保了用戶信用分?jǐn)?shù)的完整性與真實性,有效防止了任何竄改和盜用的可能性。
證明由于用戶的信用分?jǐn)?shù)及其對應(yīng)的ID信息均被記錄在區(qū)塊鏈上,提出的方案采用了Algorand區(qū)塊鏈[32],該區(qū)塊鏈?zhǔn)且环N基于ProofofStake共識機制的公有區(qū)塊鏈。Algorand協(xié)議在區(qū)塊更新過程中實行區(qū)塊生產(chǎn)者的輪換機制,且在委員會成員的選舉過程中,只有被選中的參與者本人知曉其成員身份。此外,Algorand能夠抵御攻擊者通過發(fā)送無效交易來干擾網(wǎng)絡(luò)的企圖,從而確保攻擊者無法完全控制網(wǎng)絡(luò),也無法操縱參與者的通信時間和內(nèi)容,這進(jìn)一步增強了分?jǐn)?shù)記錄的安全性。區(qū)塊鏈的去中心化特性和分布式賬本結(jié)構(gòu)確保了用戶分?jǐn)?shù)的不可竄改性,從而保證了選擇算法的公正性和不可偽造性。
4性能分析
下面將提出的方案與現(xiàn)有相近的方案進(jìn)行比較,包括功能分析、計算開銷、通信開銷以及全局模型的準(zhǔn)確率等。
4.1功能比較
表1給出了提出的方案(UCRPFL)與相近文獻(xiàn)的功能比較。
表1清晰地展示了UCRPFL與文獻(xiàn)[29]在確保用戶模型參數(shù)隱私安全的同時,對拜占庭惡意攻擊也表現(xiàn)出了魯棒性。然而,文獻(xiàn)[29]在面對兩個服務(wù)器的合謀攻擊時顯得無力,并且缺乏對全局聚合模型參數(shù)進(jìn)行驗證的能力。相比之下,UCRPFL不僅能夠抵御合謀攻擊,還具備了驗證全局聚合模型參數(shù)的功能。另一方面,文獻(xiàn)[6]雖然提供了保護(hù)用戶模型參數(shù)隱私和對全局聚合模型參數(shù)進(jìn)行驗證的功能,但卻無法抵御拜占庭惡意攻擊和合謀攻擊。
4.2計算費用
假設(shè)生成與模型參數(shù)相同數(shù)量的隨機數(shù)所需要的時間為Tr ,對模型的所有參數(shù)做乘法所需要的時間為 Tmul ,計算一次摸指數(shù)計算時為 T?m ,計算一次Shamir秘密共享所需要的時間為 Ts ,用戶參與數(shù)量為 n ,Shamir秘密共享的門限 t
表2展示了UCRPFL與文獻(xiàn)[5,6,29]在計算開銷方面的比較。需要注意的是,表2中的計算費用并未包括模型訓(xùn)練的成本。
根據(jù)表2可以看出文獻(xiàn)[6」計算費用最高。在文獻(xiàn)[6]中,使用了較多的隨機數(shù)生成器,因此在用戶端和服務(wù)端的計算開銷都最高。文獻(xiàn)[29]中通過較高的通信開銷,實現(xiàn)了只需要用戶端生成隨機數(shù),服務(wù)端不再需要使用隨機數(shù)生成器,因此用戶端和服務(wù)器端的計算開銷最低。而在聯(lián)邦學(xué)習(xí)中主要受限于用戶端的計算和通信能力。文獻(xiàn)[5]需要在模型參數(shù)解密時通過秘密共享來獲取解密密鑰。因此UCRPFL在客戶端計算費用最低,平衡了用戶端的計算和通信開銷,更適用于聯(lián)邦學(xué)習(xí)。
4.3 通信費用
假設(shè)假設(shè)用戶參與數(shù)量為 n , 表示模型參數(shù)的通信費用,
表示加密前與其他實體傳遞的單個秘密參數(shù)開銷,
表示解密前與其他實體傳遞的單個秘密參數(shù)開銷。下面主要分析了一輪全局訓(xùn)練過程中,用戶和服務(wù)器產(chǎn)生的通信費用。
表3展示了通信費用的對比結(jié)果。UCRPFL的通信費用是最低的,這是因為在系統(tǒng)初始化時只需傳遞一次秘密參數(shù),而在后續(xù)的全局訓(xùn)練迭代中不再需要交換任何信息。相比之下,文獻(xiàn)[6]在每一輪全局訓(xùn)練開始前和聚合后都需要協(xié)助完成加密解密操作,因此通信開銷相對較高。文獻(xiàn)[5」在解密前需要從密鑰服務(wù)器獲得其他用戶的秘密份額,而文獻(xiàn)[29]則需要分別向兩個服務(wù)器上傳模型參數(shù)以完成加密解密。由于模型參數(shù)數(shù)量龐大,這占用了較多的帶寬,導(dǎo)致通信費用最高。因此,UCRPFL在用戶端計算成本方面具有顯著優(yōu)勢,在服務(wù)器端計算成本方面也具有優(yōu)勢,尤其是在參與者數(shù)量較多的情況下。
5 實驗分析
對提出的方案(UCRPFL)進(jìn)行了實驗分析。實驗主要采用Python編程語言,并在配置了Inteli5-12400F處理器,16GB內(nèi)存 ,2.5GHz 主頻的Windows11系統(tǒng)臺式機上進(jìn)行了測試。首先,分析了惡意用戶與誠實用戶的信用分?jǐn)?shù)分布情況,然后評估了在惡意攻擊者參與下全局模型的準(zhǔn)確率,并將該結(jié)果與其他在惡意攻擊者參與時仍保持魯棒性的方案進(jìn)行了對比,以衡量全局模型準(zhǔn)確率的變化情況。
5.1 選擇用戶
為了探究用戶群組中不同比例的惡意用戶對用戶被選中概率的影響,實驗被分為兩個對照組,每組總共有20名用戶。第一組中,惡意用戶占 30% ,即有6名惡意攻擊者和14名誠實用戶;第二組中,惡意用戶的比例為 5% ,包括1名惡意攻擊者和19名誠實用戶。通過這樣的設(shè)置,實驗旨在比較兩組中惡意用戶占比的差異對用戶被選中參與訓(xùn)練的影響。
在模型訓(xùn)練的初始階段,群組內(nèi)所有用戶的信用分?jǐn)?shù)均被初始化為5,每個用戶被選中的概率為 p=0.1 。假設(shè)在選中的用戶中若存在惡意用戶,則云服務(wù)器能夠檢測出來,并相應(yīng)地更新該群組內(nèi)用戶的信用分?jǐn)?shù),即 δ′=δ-1 ;如果選中的用戶中均為誠實用戶,則更新信用分?jǐn)?shù)為 δ′=δ+1 。為了評估這一機制對減少惡意用戶被選中概率的效果,對比了在每一輪訓(xùn)練迭代過程中用戶信用分?jǐn)?shù)的變化。實驗結(jié)果分別展示在圖2和3中。
圖2展示了群組內(nèi)惡意用戶占比為 5% 時,誠實用戶的平均分?jǐn)?shù)隨著迭代輪數(shù)的增加而迅速上升,與此同時,惡意用戶的分?jǐn)?shù)則迅速下降。在群組內(nèi)惡意用戶占比達(dá)到 30% 的情況下,隨著迭代輪數(shù)的增加,誠實用戶的平均分?jǐn)?shù)逐漸上升,而惡意攻擊者的平均分?jǐn)?shù)則逐漸下降,在大約25輪迭代后幾乎降至零。由于用戶的分?jǐn)?shù)越低,其被選中參與全局聯(lián)邦學(xué)習(xí)的概率就越低,所以UCRPFL通過這種動態(tài)評分機制,有效地使得誠實用戶被選中的概率隨著模型迭代逐漸高于惡意用戶,從而顯著降低了惡意用戶對全局模型準(zhǔn)確率的不利影響。
與此同時,圖3清晰地展示了迭代過程中用戶參與數(shù)量的變化情況。無論是哪一組數(shù)據(jù),都清晰地展示了隨著迭代輪數(shù)的增加,每一輪中誠實用戶被選中的數(shù)量逐漸上升,而惡意用戶被選中參與聯(lián)邦學(xué)習(xí)的次數(shù)則隨之下降,直至最終降至零。
5.2 模型準(zhǔn)確率
為了模擬完整的聯(lián)邦學(xué)習(xí)流程,實驗選擇了服裝圖像分類任務(wù),并采用FashionMNIST[34]作為訓(xùn)練數(shù)據(jù)集。該數(shù)據(jù)集包含60000張圖片,涵蓋T恤、褲子、套衫、裙子、外套、涼鞋、汗衫、運動鞋、包和踝靴等類別。實驗基于FedAVG聯(lián)邦學(xué)習(xí)聚合算法,實現(xiàn)了全局聯(lián)邦學(xué)習(xí)訓(xùn)練。實驗中,用戶總數(shù)設(shè)定為100,霧服務(wù)器節(jié)點數(shù)量為10,惡意用戶總數(shù)為20。本地批處理大小設(shè)為64,本地迭代次數(shù)為10,全局迭代次數(shù)為50。此外,誠實用戶的數(shù)據(jù)集大小為600,而惡意用戶的數(shù)據(jù)集大小為3000。
在實驗中,數(shù)據(jù)集被隨機打亂并分配給各個不同的用戶,所有用戶的初始信用分?jǐn)?shù)均設(shè)置為5。為了評估UCRPFL在有惡意攻擊者參與全局訓(xùn)練時的表現(xiàn),實驗設(shè)計了一個場景,其中 20% 的用戶被指定為惡意攻擊者。這些攻擊者在本地訓(xùn)練過程中故意交換T恤和踝靴的標(biāo)簽,導(dǎo)致本地模型將T恤識別為踝靴,而將踝靴識別為T恤。通過霧服務(wù)器節(jié)點分隔的10個群組,用戶總數(shù)分別為:[11,9,8,12,10,10,13,7,11,9],每個群組中均包含兩個惡意用戶。
圖4展示了在無攻擊和存在攻擊條件下的全局模型準(zhǔn)確率變化情況。在沒有攻擊者的情況下,UCRPFL與直接聚合方式的全局模型準(zhǔn)確率幾乎相同;而在用戶群中存在惡意攻擊者時,直接聚合方式的全局模型準(zhǔn)確率下降至大約 65% ,而UCRPFL能夠保持全局模型準(zhǔn)確率與無惡意攻擊者時幾乎一致。這表明,UCRPFL能夠有效降低惡意攻擊者對全局模型準(zhǔn)確率的影響。
5.3 方案對比及分析
在存在惡意攻擊者的情況下,還將UCRPFL與相近的Yin等人[35]提出的經(jīng)典剪枝平均(trim-mean)和中位數(shù)(median)兩種算法以及最近Zhang等人[29]提出的方案進(jìn)行了攻擊成功概率和準(zhǔn)確性的實驗對比。在實驗中,用戶總數(shù)設(shè)定為100,霧服務(wù)器邊緣節(jié)點數(shù)量為10,本地批處理大小為64,惡意用戶總數(shù)為20,本地迭代次數(shù)為10,全局迭代次數(shù)為50,誠實用戶數(shù)據(jù)集大小為600,惡意用戶數(shù)據(jù)集大小為3000。實驗中,20個惡意用戶被平均分配至各個群組,共同實施攻擊。這些惡意用戶在本地訓(xùn)練過程中執(zhí)行了標(biāo)簽翻轉(zhuǎn)攻擊,具體操作為將運動鞋和踝靴的標(biāo)簽進(jìn)行互換,而其他參數(shù)保持不變。攻擊成功率的結(jié)果如圖5所示。
在實驗的初始階段,惡意攻擊者對UCRPFL和直接聚合方式的攻擊成功率超過了 80% ,這一比例高于Zhang等人提出的方案和Yin等人提出的剪枝平均(trim-mean)和中位數(shù)(median)兩種算法的攻擊成功率。這一現(xiàn)象可以解釋為,在UCRPFL中,每個用戶的初始信用分?jǐn)?shù)都設(shè)定為相同,這使得惡意用戶在開始階段攻擊成功概率比較高。然而,隨著迭代輪數(shù)的增加,惡意攻擊者對UCRPFL的攻擊成功率迅速下降,與Zhang等人提出的方案中的攻擊成功率相似,略低于Yin等人提出剪枝平均(trim-mean)和中位數(shù)(median)兩種算法中的攻擊成功率。
圖6的實驗結(jié)果清晰地表明,隨著持續(xù)剔除惡意用戶的參與,UCRPFL的模型準(zhǔn)確率明顯高于剪枝平均和中位數(shù)算法。雖然在迭代50輪后,UCRPFL與Zhang等人提出的方案中的全局模型準(zhǔn)確率相近,但UCRPFL在收斂速度和峰值方面表現(xiàn)更優(yōu)。這表明,在面對惡意用戶攻擊時,UCRPFL不僅保證了收斂速度,還確保了全局模型的準(zhǔn)確率。
6結(jié)束語
本文提出了一種基于用戶選擇與隱私保護(hù)聯(lián)邦學(xué)習(xí)方案。該方案采用了用戶-霧服務(wù)器-云服務(wù)器三層架構(gòu)模型,有效降低了用戶通信時延。通過選擇性用戶算法,并結(jié)合云服務(wù)器檢測和更新用戶分?jǐn)?shù)方法,逐步降低了惡意用戶的參與率,提升全局模型的準(zhǔn)確率。此外,方案還設(shè)計了一個輕量級加密算法,既降低了用戶計算開銷,又保障了用戶數(shù)據(jù)隱私安全,同時具備抵抗合謀攻擊和抵抗拜占庭攻擊的能力。通過安全分析和實驗分析,證明了所提方案的可行性和有效性。在未來的研究中,將進(jìn)一步深入探討聯(lián)邦學(xué)習(xí)面臨的各種安全威脅,包括病毒攻擊和女巫攻擊等。為了保障全局模型的收斂速度和準(zhǔn)確率,將設(shè)計有效的防御策略,以增強聯(lián)邦學(xué)習(xí)系統(tǒng)的健壯性和可靠性。
參考文獻(xiàn):
[1]WeiKang,LiJun,DingMing,etal.Federatedlearningwithdifferential privacy:algorithmsand performance analysis[J]. IEEE Trans on InformationForensicsandSecurity,2020,15(4):3454-3469.
[2]Gutirz N,OteroB,Rodrguez G,et al.Adifferential privacy protectionbasedfederated deeplearningframeworkto fog-embedded architectures[J].EngineeringApplicationsofArtificial Intelligence,2024, 130(8) :107689-107699.
[3]Ma Jing,Na SA,Sigg S,et al.Privacy-preserving federated learning basedon multi-key homomorphic encryption[J]. International Journalof IntelligentSystems,2022,37(9) :5880-5901.
[4]Shi Zhaosen,Yang Zeyu,Hassn A,et al.A privacy preserving federated learning scheme using homomorphic encryption and secret sharing [J].Telecommunication Systems,2023,82(3):419-433.
[5]Shen Cong,Zang Wei,Zhou Tanping,et al.A security-enhanced federated learning schemebased onhomomorphic encryption and secret sharing[J].Mathematics,2024,12(13):1993-1993
[6].Guo Xiaojie,Liu Zheli,Li Jin,etal.VeriFL:communication-efficient andfast verifiableaggregation for federated learning[J].IEEE Transon Information Forensics and Security,2021,16(9): 1736-1751.
[7]Hosseini SM,Sikaroudi M,Babaei M,et al.Cluster based secure multi-party computation in federated learning for histopathology images [C]//ProcofDistributed,Collaborative,and FederatedLearning,and AffordableAIandHealthcareforResourceDiverseGlobal Health:the 3rd MICCAI Workshop. Cham:Springer,2022:110-118.
[8]MuazuT,Mao Yingchi,MuhammadA,etal.A federatedlearningsystemwith data fusion for healthcare using multi-party computation and additive secret sharing[J].Computer Communications,2024,26 (2):168-182.
[9]Xie Chulin,HuangKeli,Chen Pinyu,et al.DBA:distributed backdoor attacks against federated learning[C]//Proc of International Conference on LearningRepresentations.2020:1-15.
[10]Yang Zheng,Gu Ke,Zuo Yiming. Byzantine robust federated learning scheme based onbackdoor triggers[J].Computers,Materialsand Continua,2024,79(2) :2813-2831
[11]Colosimo F,Rango F,Dynamic gradient filtering in federated learning with Byzantine failure robustness[J].Future Generation Computer Systems,2024,160(11) :784-797
[12]Kim M,Gunlu O,Scharefer RF.Federated learning with local differential privacy:trade-offsbetweenprivacy,utility,and communication [C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2021:2650-2654.
[13]Wu Xiang,Zhang Yongting,Shi Minyu,et al.An adaptive federated learning scheme with differential privacy preserving[J]. Future GenerationComputerSystems,2022,127(2):362-372.
[14]Jiang Bin,Li Jianqiang,Wang Huihui,et al.Privacy-preserving federatedlearningfor industrial edgecomputing viahybriddifferential privacy and adaptive compression[J].IEEE Trans on Industrial Informatics,2023,19(2):1136-1144.
[15]孫敏,丁希,寧成倩,基于差分隱私的聯(lián)邦學(xué)習(xí)方案[J].計算機 科學(xué),2024,51(S1):912-917.(Sun Min,Ding Xi,Ning Chengqian. A differential privacy-based federated learning scheme[J]. ComputerScience,2024,51(S1):912-917.)
[16]Sun Xaioqiang,ZhangPeng,Liu JosephK,etal.Private machine learning classification based on fully homomorphicencryption[J]. IEEE Trans on Emerging Topics in Computing,2020,8(2): 352-364.
[17]Fang Haokun,Qian Quan.Privacy preserving machine learning with homomorphic encryption and federated learning[J].Future Internet, 2021,13(4) :94-114.
[18]余晟興,陳鐘.基于同態(tài)加密的高效安全聯(lián)邦學(xué)習(xí)聚合框架[J]. 通信學(xué)報,2023,44(1):14-28.(Yu ShengXing,Chen Zhong.Efficient secure federated learning aggregation framework based on homomorphic encryption[J]. Journal on Communications,2023,44 (1):14-28.)
[19]Sun Hao,Chen Xiubo,Yuang Kaiguo.FL-EASGD:federated learning privacy security method based on homomorphic encryption[J].Computers,Materialsand Continua,2024,79(2):2361-2373.
[20]Wang Tian,Cao Zhihan,WangShuo,etal.Privacy-enhanced datacollectionbased ondeep learning for internet ofvehicles[J].IEEE Transon Industrial Informatics,2020,16(10) :6663-6672.
[21]Fang Chen,Guo Yuanbo,Hu Yongjin,et al.Privacy-preserving and communication efficient federated learningin Internet of Things[J]. Computers amp; Security,2021,103(4):102199-102209.
[22]Bonawitz K,Vanov V,Kreuter B,et al.Practical secure aggregation for privacy-preserving machine learning[ C]//Proc of ACM SIGSAC Conference on Computer and Communications Security. New York :ACM Press,2017:1175-1191.
[23]李功麗,馬婧雯,范云.梯度隱藏的安全聚類與隱私保護(hù)聯(lián)邦學(xué)習(xí) [J].計算機應(yīng)用研究,2024,41(6):1851-1861.(LiGongli,Ma Jingwen,F(xiàn)an Yun. Gradient-hiding secure clustering and privacypreserving federated learning lJ].Application Hesearch ot Computers,2024,41(6) :1851-1861)
[24]Chen Yudong,Su Lili,Xu Jiaming.Distributed statistical machine learning inadversarial settings:Byzantine gradient descent[C]//Proc of ACM on Measurement and Analysis of Computing Systems.New York:ACM Press,2017:1-25.
[25]Wu Zhaoxian,Ling Qing,Chen Tianyi,et al. Federated variance-reduced stochastic gradient descent with robustness to Byzantine attacks [J].IEEE Trans on Signal Processing,2020,68(7): 4583-4596.
[26]Jiang Yifeng, Zhang Weiwen, Chen Yanxi. Data quality detection mechanismagainst label flipping attacksin federatedlearning[J]. IEEETrans on Information Forensics and Security,2023,18 (2) :1625-1637.
[27]Gao Xinwen,F(xiàn)u Shaojing,Liu Lin.et al.BVDFed: Byzantine-resilient and verifiable aggregationfordiffrentiallyprivate federatedlearning [J].Frontiers ofComputerScience,2024,18(12):185810- 185819
[28]So Jinhyun,Guler B,Averstiehr A S. Byzantine-resilient secure federated learning[J].IEEE Journal on Selected Areas in Communications,2020,39(7) :2168-2181.
[29]Zang Zhuangzhuang,Wu Libing,Ma Chuanggo,et al. LSFL:a lightweight and secure federated learning scheme for edge computing[ J]. IEEETrans on Information Forensics and Security,2022,18: 365-379.
[30]Masuda H,Kita K,Koizumi Y,et al.Byzantine-resilientsecure federated learming on low-bandwidth networks[J]. IEEE Access,2023,11 (5):51754-51766.
[31]陳學(xué)斌,任志,張宏揚.聯(lián)邦學(xué)習(xí)中的安全威脅與防御措施綜述. 計算機應(yīng)用,2024,44(6):1663-1672.(Chen Xuebin,Ren Zhi, Zhang Hongyang. Review on security threats and defense measures in federated leaning[J]. Journal of Computer Applications,2024,44 (6):1663-1672.)
[32]Gilad Y,Hemo R,Micali S,et al.Algorand;scaling Byzantine agreements for cryptocurrencies[C]//Proc of the 26th ACM SIGOPS Symposium on Operating Systems Principles. New York: ACM Press, 2017:51-68.
[33]Mcmahan B,Mppre E,Ramage D,et al. Communication-efficient learning of deep networksfrom decentralized data[C]//Proc of the 20th International Conference on Artificial Intelligence and Statistics. 2017:1273-1282.
[34]Xiao Han,Rasul K,Vollgraf R.Fashion-mnist:a novel image dataset for benchmarking machine learning algorithms[EB/OL].(2017-09- 15). https://doi.org/10.48550/arXiv.1708.07747.
[35]Yin Dong,Chen Yudong,Kannan,et al. Byzantine-robust distributed learning:towards optimal statistical rates[C]//Proc of the 35th International Conference on Machine Learning.New York:ACM Press, 2018:5650-5659.