中圖分類(lèi)號(hào):TP309.2 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1000-2367(2025)04-0058-08
聯(lián)邦學(xué)習(xí)(federated learning,F(xiàn)L)[1]作為一個(gè)分布式學(xué)習(xí)框架允許客戶(hù)在保護(hù)數(shù)據(jù)隱私的情況下合作訓(xùn)練聚合模型,雖然避免了直接共享用戶(hù)本地隱私數(shù)據(jù),但仍面臨諸多挑戰(zhàn).即使參與者只上傳模型參數(shù),敵手仍然能夠從中推理出隱私數(shù)據(jù)[2.此外,惡意參與方通過(guò)操縱本地?cái)?shù)據(jù)集或局部模型更新向聚合器上傳虛假的模型參數(shù),這種行為可能導(dǎo)致聚合模型的錯(cuò)誤預(yù)測(cè)和不準(zhǔn)確性[3-4].基于統(tǒng)計(jì)學(xué)方法或基于距離的拜占庭魯棒性判別方案無(wú)法抗惡意參與者大多數(shù)的情況,服務(wù)器端利用干凈小型驗(yàn)證數(shù)據(jù)集判別方案違反了聯(lián)邦學(xué)習(xí)的隱私保護(hù)原則(即剩余的數(shù)據(jù)本地化原則).另一方面,聚合模型也具有數(shù)據(jù)價(jià)值,代表著一種重要的知識(shí)產(chǎn)權(quán)[5],一些工作通過(guò)驗(yàn)證模型水印以判斷它們是否被未被授權(quán)的第三方竊取[6].安全聚合與模型產(chǎn)權(quán)保護(hù)研究已成為聯(lián)邦學(xué)習(xí)中研究者關(guān)注的熱點(diǎn).
文獻(xiàn)[7—9]均假定服務(wù)器維護(hù)一個(gè)公共干凈的驗(yàn)證數(shù)據(jù)集,服務(wù)器使用此數(shù)據(jù)集評(píng)估局部模型更新的準(zhǔn)確性或相似度,將性能較差的模型判定為有毒模型.GUERRAOUI等[10]提出 Bulyan,通過(guò)將 Krum 和修剪平均值相結(jié)合,確保聚合梯度的每個(gè)維度上的多數(shù)一致.SHAYAN等[1]提出了Biscotti,該方案在區(qū)塊鏈上應(yīng)用Krum算法檢測(cè)局部模型并結(jié)合秘密共享聚合全局模型.TAO等[12]提出了一種拜占庭彈性分布式梯度下降算法,該算法可以處理重尾數(shù)據(jù)并在標(biāo)準(zhǔn)假設(shè)下收斂.LI等[13]使用核密度估計(jì)方法測(cè)量相鄰局部模型之間的相對(duì)分布以區(qū)分惡意和干凈的更新.但是,當(dāng)拜占庭客戶(hù)占多數(shù)時(shí),這些方案無(wú)法保證模型的魯棒性.ZHOU等[14]結(jié)合范數(shù)檢測(cè)與準(zhǔn)確率檢測(cè)生成了混合檢測(cè)策略,通過(guò)調(diào)整范數(shù)檢測(cè)和準(zhǔn)確率檢測(cè)的比重以適應(yīng)不同比例惡意參與者的情景,但是在進(jìn)行聯(lián)邦學(xué)習(xí)時(shí),通常很難確定惡意參與者的數(shù)量.MA 等[15]結(jié)合Pailliar同態(tài)加密和零知識(shí)證明,以保證局部模型隱私并過(guò)濾出惡意參與者的異常模型,但是對(duì)于參數(shù)通常高達(dá)數(shù)百萬(wàn)的機(jī)器學(xué)習(xí)模型來(lái)說(shuō),同態(tài)加密的開(kāi)銷(xiāo)較大并難以有效實(shí)現(xiàn).LIM等[16提出了兩種不同的遞歸神經(jīng)網(wǎng)絡(luò)下的水印嵌入方案,以保護(hù)圖像字幕模型.李璇等[17]利用深度學(xué)習(xí)后門(mén)技術(shù)在不影響主任務(wù)準(zhǔn)確率的情況下僅對(duì)少量觸發(fā)集樣本造成誤分類(lèi)實(shí)現(xiàn)模型的產(chǎn)權(quán)保護(hù).但這些方法是在模型版權(quán)被盜取出現(xiàn)爭(zhēng)議之后,利用水印為版權(quán)歸屬提供有力的證據(jù).XU等[18]引入兩個(gè)非共謀服務(wù)器并通過(guò)高度集成加性同態(tài)加密和混淆電路從而保護(hù)了所有用戶(hù)相關(guān)信息的隱私性,但在現(xiàn)實(shí)情況下很難保證兩個(gè)服務(wù)器不會(huì)合謀.
針對(duì)以上問(wèn)題,本文提出了適用于惡意參與者多數(shù)情景下的聚合模型保護(hù)算法,實(shí)驗(yàn)結(jié)果表明本方案在惡意參與者占大多數(shù)的情況下仍能夠發(fā)揮良好的檢測(cè)作用,并且聚合模型精度與數(shù)據(jù)集質(zhì)量成正比,從而保證貢獻(xiàn)度越高的參與者得到的聚合模型性能也越好.
1基礎(chǔ)知識(shí)
1.1 聯(lián)邦學(xué)習(xí)
根據(jù)各參與方數(shù)據(jù)分布的情況不同,聯(lián)邦學(xué)習(xí)被分為橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)和聯(lián)邦遷移學(xué)習(xí)[19].橫向聯(lián)邦學(xué)習(xí)的本質(zhì)是樣本的聯(lián)合,適用于參與者間業(yè)務(wù)相同但接觸客戶(hù)不同,即特征重疊多,用戶(hù)重疊少的場(chǎng)景.縱向聯(lián)邦學(xué)習(xí)的本質(zhì)是特征的聯(lián)合,適用于用戶(hù)重疊多,特征重疊少的場(chǎng)景.當(dāng)參與者間特征和樣本重疊都很少時(shí)可以考慮使用聯(lián)邦遷移學(xué)習(xí).
本文主要關(guān)注橫向聯(lián)邦學(xué)習(xí)的場(chǎng)景.給定具有W個(gè)樣本的數(shù)據(jù)集 D={(uw,vw)} ,其中 uw 是第 w 個(gè)樣本的特征向量, vw 是標(biāo)簽.神經(jīng)網(wǎng)絡(luò)函數(shù)的輸出可以表示為 f(u,x)=v′ ,其中 x 為模型參數(shù).數(shù)據(jù)集 D 的損失函數(shù)表示為: (20
聯(lián)邦學(xué)習(xí)的訓(xùn)練目標(biāo)是通過(guò)改變 x 來(lái)最小化損失函數(shù),其每輪迭代的計(jì)算公式為: xt+1=xt- λ?Lf(D,x′) 其中, λ 是學(xué)習(xí)率,它代表了每次迭代中模型調(diào)整的步長(zhǎng).服務(wù)器使用算術(shù)平均算法或加權(quán)平均算法將 N 個(gè)參與者提交的所有局部模型聚合為一個(gè)全局模型.全局模型的計(jì)算方法為: (204號(hào)
(20
1.2 同態(tài)哈希
同態(tài)哈希[20]是一種具有同態(tài)特性的抗碰撞哈希函數(shù),可以將任意大小的數(shù)據(jù)映射為固定大小的數(shù)據(jù)而且滿(mǎn)足同態(tài)映射.簡(jiǎn)單地說(shuō),給定一個(gè)消息 mi∈Zq ,一個(gè)抗碰撞的同態(tài)哈希函數(shù) HH1ZqG1×G2 可表示為: ,其中, ξ 和 ψ 都是在有限域 Zq 中隨機(jī)選擇的密鑰,HHξ,ψ(ξ) 是一個(gè)單向同態(tài)哈希函數(shù),單向哈希函數(shù) HHξ,ψ(ξ) 的安全性保證了從 HHf,ψ(m) 反轉(zhuǎn)來(lái)恢復(fù) m 是不可行的.給定
和
),同態(tài)哈希函數(shù)有以下性質(zhì):1)可加性(在指數(shù)中)可以表示為
"乘以一個(gè)常數(shù) α 可以表示為
:
1.3 不經(jīng)意傳輸
不經(jīng)意傳輸(oblivious transfer,OT)是密碼學(xué)中經(jīng)常用到的一個(gè)安全的兩方通信協(xié)議,被廣泛應(yīng)用于隱私集合交集、安全多方計(jì)算等領(lǐng)域[21].不經(jīng)意傳輸協(xié)議理想函數(shù):參數(shù),消息的長(zhǎng)度為 L ;輸入,接收方輸入一個(gè)選擇比特 b∈{0,1} ,發(fā)送方輸入一對(duì)消息 m0,m1←{0,1}L ;輸出,發(fā)送 mb 給接收方.在這個(gè)協(xié)議中,發(fā)送方有一對(duì)消息 m0,mi ,接收方有一個(gè)選擇比特 b ,協(xié)議執(zhí)行結(jié)束后,接收方可以獲得 mb ,而不能獲得關(guān)于m1-b 的任何信息,發(fā)送方也無(wú)法知道接收方獲得了哪一條消息.
2 系統(tǒng)概述
2.1 網(wǎng)絡(luò)模型
本文系統(tǒng)模型由3種實(shí)體構(gòu)成.密鑰生成中心(key generation center,KGC):KGC 的作用是生成公私鑰對(duì)和同態(tài)哈希所用參數(shù),并且
為每個(gè)參與者生成 T 個(gè)隨機(jī)數(shù)(即在聯(lián)邦學(xué)習(xí)的每一輪中為每一個(gè)參與者生成一個(gè)隨機(jī)數(shù)).隨后KGC 離線(xiàn),不再參與學(xué)習(xí)進(jìn)程.在密碼學(xué)領(lǐng)域,KGC是一種極為常見(jiàn)的存在.
服務(wù)器(S):S的主要職責(zé)是協(xié)調(diào)參與者的信息通信,包括初始化全局模型的狀態(tài),以及有效地轉(zhuǎn)發(fā)和處理參與者之間的通信消息.參與者( Pi ):假設(shè)共有 n 個(gè)參與者,每個(gè) Pi 擁有本地?cái)?shù)據(jù)集 Di ,在本文方案中,由于隱私保護(hù)的要求, Pi 訓(xùn)練局部模型之后會(huì)將其用兩種方式加密,并由服務(wù)器轉(zhuǎn)發(fā)給各個(gè)參與者 .Di 也將作為測(cè)試集驗(yàn)證其余參與者的模型準(zhǔn)確率,然后 Pi 與 S 執(zhí)行OT協(xié)議得到干凈的局部模型并聚合為全局模型
2.2 安全模型
本文方案中,KGC作為可信實(shí)體,為系統(tǒng)生成必要的公私鑰對(duì)與算法參數(shù), s 和小部分 Pi 都是半誠(chéng)實(shí)的實(shí)體,雖然他們嚴(yán)格遵守安全聚合協(xié)議,也希望獲悉或收集其余參與者的隱私信息.同時(shí),本文還考慮到大部分 Pi 可能通過(guò)上傳惡意梯度信息來(lái)破壞模型的訓(xùn)練.基于以上存在的安全隱患,本文引人敵手 A* ,其擁有的能力如下:1) A* 可以監(jiān)聽(tīng)通信信道或攻擊 S ,獲取模型訓(xùn)練過(guò)程中 Pi 上傳的本地梯度信息.通過(guò)分析這些梯度信息, A* 可能能夠進(jìn)行模型反推,進(jìn)而推理出參與者 Pi 的本地敏感訓(xùn)練數(shù)據(jù). 2)A? 可以攻擊一個(gè)或多個(gè)拜占庭節(jié)點(diǎn)來(lái)構(gòu)造并上傳惡意的梯度信息實(shí)現(xiàn)對(duì)模型訓(xùn)練的干擾,達(dá)到投毒的目的.
在攻擊模型中,敵手 A* 不能同時(shí)攻破多個(gè)參與者和服務(wù)器(即 Pi 與 不能共謀, Pi 與 S 不能共謀)該項(xiàng)限制條件普遍存在于安全計(jì)算協(xié)議中,而且在現(xiàn)實(shí)應(yīng)用中也很難實(shí)現(xiàn)該項(xiàng)限制.
3方案設(shè)計(jì)
本節(jié)介紹了方案的具體流程,下面給出了本文中使用的符號(hào)及其含義.
Pi :第 i 個(gè)聯(lián)邦學(xué)習(xí)參與者; uit:Pi 在第 t 輪添加了隨機(jī)數(shù)的模型; S :服務(wù)器; zit :在第 Ψt 輪時(shí)的投毒檢測(cè)向量; Di:Pi 的本地?cái)?shù)據(jù)集; zit[j]:zti 的第 j 位; xit:Pi 在第 Ψt 輪的局部模型; ρ :準(zhǔn)確率閾值; 在第 t 輪添加的差分隱私噪聲; e :本地訓(xùn)練迭代次數(shù); yit:Pi 在第 Ψt 輪添加了噪聲的局部模型; αi,jt : yit 在 Di 上的測(cè)試準(zhǔn)確率; rit:Pi 在第 t 輪的隨機(jī)數(shù); η :學(xué)習(xí)率.
3.1 初始化
KGC將安全參數(shù) κ 作為輸入為每個(gè)參與者生成一對(duì)公私鑰對(duì) {pki,ski} 并產(chǎn)生本文算法所需要的參數(shù),如同態(tài)哈希和OT協(xié)議的參數(shù).
同時(shí) KGC 每一輪都為每個(gè) Pi 生成一個(gè)隨機(jī)數(shù) rit ,即共生成 nT 個(gè)隨機(jī)數(shù),在第 Ψt 輪訓(xùn)練中的隨機(jī)數(shù)滿(mǎn)足以下性質(zhì): 并將這些信息以安全的方式發(fā)送給各個(gè)參與者,同時(shí)公開(kāi)這些隨機(jī)值的同態(tài)哈希值HH(rit) .服務(wù)器 S 初始化全局模型 x0 并定義聯(lián)邦學(xué)習(xí)的迭代輪數(shù) T :
3.2 局部模型訓(xùn)練與加密
參與者 Pi 使用 Di 訓(xùn)練出局部模型 xit 后在 xit 分別加上兩個(gè)不同的值來(lái)加密 xit ,即差分隱私噪聲 和隨機(jī)數(shù) rit.Pi 的局部模型訓(xùn)練與加密過(guò)程如算法1所示.
算法1 局部模型訓(xùn)練與加密
輸入:本地?cái)?shù)據(jù)集 Di ,本地訓(xùn)練次數(shù) Ψe
輸出: yit,HH(yit),HH(xit),HH(?it),mi,jt,HH(uit). (20
1:for i←1 to e do 7:公開(kāi) yit,HH(yit),HH(xit),HH(δit),HH(uit)
2: xit←xit-1-?l(Di,xit-1) (204號(hào) 8:將 mi,jt 發(fā)送給 s (20
3:end for
4:生成差分隱私噪聲 δit
由于局部模型參數(shù)將共享給所有參與者,本文使用了差分隱私噪聲來(lái)保護(hù)局部模型參數(shù) xit 得到 yit=xit+δit 聯(lián)邦學(xué)習(xí)迭代總數(shù)為 T ,根據(jù)序列組合性,為了滿(mǎn)足全局 ε 差分隱私要求,第 Ψt 次迭代滿(mǎn)足 ε?t 差分隱私要求,需要保證 .本文平均分配隱私預(yù)算,所以每次迭代的隱私預(yù)算是
.如果使用 yit 進(jìn)行模型聚合的話(huà),則全局模型為;
此時(shí)的全局模型包含了大量的噪聲 ,這將對(duì)全局模型的性能造成消極影響,因此 yit 的作用是使其余參與者方便檢測(cè)出 xit 是否是干凈的,而不參與模型聚合.最終參與模型聚合的是 uit ,從而得到不帶噪聲的聚合模型.
惡意的參與者可以上傳無(wú)毒的 yit 通過(guò)其余參與者的投毒檢測(cè),同時(shí)上傳有毒的 uit 參與模型聚合從而達(dá)到投毒的目的.為了避免這種行為即 yit 與 uit 是由不同的 xit 加密而來(lái)的,本文要求 Pi 同時(shí)向服務(wù)器發(fā)送xit,δit 和 uit 的同態(tài)哈希值,服務(wù)器再將這些信息轉(zhuǎn)發(fā)給其余參與者,以便 Pj 能夠驗(yàn)證 Pi 是否在后續(xù)通信中更改了輸人.
3.3 全局模型檢測(cè)
得到其余參與者的信息之后, Pi 首先驗(yàn)證 HH(yjt)=HH(xjt)HH(δjt) 是否成立,如果成立,則使用自己的本地?cái)?shù)據(jù)集作為測(cè)試集,驗(yàn)證 yjt 的精確度,如果精確度 αi,jt 大于等于閾值 ρ ,則認(rèn)為是干凈的.如果不成立或者精確度 αi,jt 小于 ρ 則認(rèn)為是有毒的, Pi 準(zhǔn)備一個(gè) n 位的二進(jìn)制向量 zit ,將無(wú)毒的 yjt 對(duì)應(yīng)位置設(shè)置為1,即如果 αi,jt≥ρ ,則 zit[j]=1 ,否則,等于 0.zit 的第 j 位指示了第 j 個(gè)參與者的局部模型是干凈的還是有毒的,從這里可以看到,由于每個(gè)參與者的數(shù)據(jù)集的質(zhì)量是不同的,因此他們的檢測(cè)能力也不同,則向量 zit 也不同.算法2給出了參與者進(jìn)行投毒檢測(cè)的步驟.
算法2 抗大多數(shù)惡意參與者的投毒檢測(cè)算法輸入:本地?cái)?shù)據(jù)集 Di ,差分隱私模型 yit ,準(zhǔn)確率閾值 ρ 5: 證 αi,jt≥ρ then輸出: zit : 6: x[j]=11:設(shè)置一個(gè) n 位的二進(jìn)制向量 zit 并初始化為全0 7: end if2:for j1 to n do 8: end if3:if HH(yjt)=HH(xjt)HH(δjt) then 9:end for4: (20 αi,jt←yjt 在 Di 上的測(cè)試準(zhǔn)確率 10:return zit
3.4 局部模型聚合
(20 Pi 使用自己的向量 zit 作為不經(jīng)意傳輸協(xié)議的輸入,而服務(wù)器則將 mj,it={Encpki(uit),Encpki(rit)} 作為輸入, Pi 作為接收者解密得到 βit .其中,如果 zit[j]=1 則 βit[j]=ujt ,否則 βit[j]=rjt .算法3給出了保護(hù)全局模型的聚合算法的詳細(xì)步驟.
算法3 保護(hù)全局模型的聚合算法
輸入: 5: end if
輸出: xit+1 . 6:end for
1:for j1 to n do
2:if HH(ujt)=HH(xjt)HH(rjt) then
3: Encpki(βi′[j])←OT(zit,mj,it)
為了防止 Pj 發(fā)送有毒的 ujt ,即 Pj 篡改了自己的輸入, Pi 驗(yàn)證自己的選擇向量 zit 對(duì)應(yīng)位為1的加密模型是否滿(mǎn)足 HH(ujt)=HH(xjt)HH(rjt) ,如果成立則將其聚合得到全局模型 由于OT協(xié)議的性質(zhì), Pi 只能拿到 EncPki(ujt),EncPki(rjt) 中的一個(gè),因此 Pi 無(wú)法重構(gòu)出 Pj 的本地模型.同時(shí)由于服務(wù)器不知道 Pi 的輸入 zit ,因此服務(wù)器無(wú)法獲得協(xié)議的輸出結(jié)果,即服務(wù)器不知道 Pi 的聚合模型,所以該方案有效保護(hù)了每個(gè)參與者的聚合模型不泄漏.
4安全分析
4.1 正確性分析
定理1正確性.如果參與者和服務(wù)器按照上述流程執(zhí)行協(xié)議,最終可以得到正確的聚合結(jié)果.證明假設(shè)對(duì)于 Pi 來(lái)說(shuō),誠(chéng)實(shí)的參與者集合為 Gi ,惡意的參與者集合為 Bi ,則:
4.2 安全性分析
定理2局部與聚合模型隱私性.本文算法在聯(lián)邦學(xué)習(xí)過(guò)程中,可以保證用戶(hù)局部與聚合模型不泄漏給敵手.
證明服務(wù)器方拿到的關(guān)于 Pi 的消息有 以及一些同態(tài)哈希值 HH(yit) ,HH(xit),HH(δit),HH(uit). (202
首先,根據(jù)差分隱私的性質(zhì),滿(mǎn)足( maxei) 差分隱私,其中 εi 是每個(gè)參與者 Pi 的隱私預(yù)算.在 yit 發(fā)布后,攻擊者就無(wú)法從 yit 中推斷出敏感數(shù)據(jù)信息.
其次,根據(jù)同態(tài)哈希函數(shù)的單向性,服務(wù)器不能從 HH(yit),HH(xit),HH(δit),HH(uit) 中求逆恢復(fù)出 yit,xit,δit,uit ,所以服務(wù)器無(wú)法從這些同態(tài)哈希值中得到 Pi 的隱私信息.
最后,證明服務(wù)器無(wú)法從 中得到 uit 和 rit .構(gòu)造模擬器 S1 模擬服務(wù)器的視圖.模擬器 SΩ+ 選擇兩個(gè)均勻分布的隨機(jī)值 R1 和 R2 ,并用
的公鑰加密得到 EncPkj(R1) 和 EncPkj(R2) .根據(jù)公鑰加密的隨機(jī)性,服務(wù)器無(wú)法區(qū)分模擬器 SΩ1 隨機(jī)生成的 EncPkj(R1),EncPkj(R2) 和真實(shí)執(zhí)行過(guò)程中 Pi 發(fā)送的
,二者在計(jì)算上是不可區(qū)分的,即:{S1(R1,R2)}={view(u′,)}.
接下來(lái)證明服務(wù)器無(wú)法得到 Pi 的聚合模型.構(gòu)造模擬器 S2 模擬服務(wù)器的視圖,模擬器 S2 隨機(jī)采樣一個(gè)n 位的二進(jìn)制向量 z2 ,并與服務(wù)器交互執(zhí)行OT協(xié)議.根據(jù)OT協(xié)議的安全性,服務(wù)器無(wú)法區(qū)分交互方的輸入是 z2 還是 zit ,二者在計(jì)算上是不可區(qū)分的,即服務(wù)器的視圖在理想世界和真實(shí)世界中是不可區(qū)分的.
綜上,本文方案能夠保證用戶(hù)局部模型與聚合模型的隱私性.
5 實(shí)驗(yàn)分析
本節(jié)通過(guò)在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)來(lái)評(píng)估所提方案的性能.在本研究中,本文利用一臺(tái)配備AMD銳龍74800UCPU、1.8GHz和16.0GBRAM的筆記本微型計(jì)算機(jī)對(duì)所提出的方案進(jìn)行了評(píng)估.使用Python 語(yǔ)言進(jìn)行了模型加密和聚合,并在模型訓(xùn)練中使用了廣泛使用的MNIST數(shù)據(jù)集.該數(shù)據(jù)集包含6萬(wàn)張訓(xùn)練圖像和10000張測(cè)試圖像,每個(gè)樣本都是一個(gè)從0到9的灰度手寫(xiě)數(shù)字,分辨率大小為 28×28. 此外,訓(xùn)練數(shù)據(jù)集在參與者之間平均分布.使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)模型進(jìn)行訓(xùn)練,其體系結(jié)構(gòu)包括兩個(gè)卷積層,一個(gè)全連接層和一個(gè) softmax輸出層.在整個(gè)實(shí)驗(yàn)過(guò)程中,設(shè)置的批處理大小為10,學(xué)習(xí)率為0.01.利用標(biāo)簽翻轉(zhuǎn)攻擊22模擬投毒攻擊,修改訓(xùn)練數(shù)據(jù)的標(biāo)簽,同時(shí)保持樣本特征不變.
5.1 準(zhǔn)確率與損失
本文假設(shè)存在100 個(gè)參與者,其中有 70% 是惡意參與者,對(duì)比了準(zhǔn)確率閾值分別在 70%.80% 和 90% 時(shí)聚合模型的準(zhǔn)確率與損失.根據(jù)圖1和圖2可以看到在MINIST數(shù)據(jù)集上,閾值大小與聚合模型的準(zhǔn)確率成正比,與損失成反比,閾值設(shè)定越大則模型的準(zhǔn)確率越高,模型損失值越小即模型性能越好.
為了模擬擁有不同質(zhì)量的數(shù)據(jù)集,使用[0,1]范圍內(nèi)的隨機(jī)噪聲替換原本數(shù)據(jù)集的 Pa 部分.通過(guò)改變Pa 的值來(lái)模擬不同質(zhì)量的數(shù)據(jù)集.表1顯示了當(dāng)準(zhǔn)確度閾值 ρ 為 70% 時(shí), Pa 分別在 0%,10%,30% 和 50% 時(shí)不同迭代輪數(shù)的模型準(zhǔn)確度.實(shí)驗(yàn)表明隨著迭代輪數(shù)的增加數(shù)據(jù)質(zhì)量越高的參與者得到的聚合模型準(zhǔn)確度越高,反之亦然.這說(shuō)明該方案能夠保證參與者的公平性,從而提升參與者參與聯(lián)邦學(xué)習(xí)的意愿.
5.2 方案對(duì)比
表2將本文方案與文獻(xiàn)[23—25]進(jìn)行了對(duì)比.文獻(xiàn)[23]提供了隱私保護(hù),使用干凈驗(yàn)證集保證惡意客戶(hù)端占多數(shù)時(shí)仍能夠保護(hù)模型的魯棒性,但是沒(méi)有考慮到保護(hù)模型產(chǎn)權(quán);文獻(xiàn)[24]提供了隱私保護(hù),使用Krum算法只保證在惡意客戶(hù)端占少數(shù)時(shí)模型的魯棒性,此外,該文獻(xiàn)也未考慮模型產(chǎn)權(quán)的保護(hù);文獻(xiàn)[25]使用同態(tài)加密保護(hù)局部模型的隱私,
但是該框架未考慮模型魯棒性與產(chǎn)權(quán)保護(hù);相比較而言,本文保護(hù)了模型的隱私性、惡意客戶(hù)端占多數(shù)時(shí)模型的魯棒性以及聚合結(jié)果.
由于文獻(xiàn)[25]不能保證模型的魯棒性,因此將本文所提算法與服務(wù)器端干凈驗(yàn)證集[23]、 Krum[24] 和裁剪均值算法[3]防御投毒攻擊的能力進(jìn)行了對(duì)比.這里將準(zhǔn)確率閾值設(shè)置為 90% ,分別比較了惡意參與者比例為 10%30%.50% 和 70% 情況下4種方案的聚合模型性能.
由圖3和圖4可以看到,當(dāng)惡意參與者比例較小時(shí),4種檢測(cè)方案的差距不大,模型準(zhǔn)確率均保持 90% 左右.當(dāng)惡意參與者比例達(dá)到 50% 時(shí),Krum和裁剪均值算法的準(zhǔn)確率開(kāi)始出現(xiàn)了下降,同時(shí)損失也相應(yīng)地快速增長(zhǎng).當(dāng)客戶(hù)端的數(shù)據(jù)集質(zhì)量良好,則所提方案與干凈驗(yàn)證集防御投毒攻擊的能力近乎相等,且惡意客戶(hù)端的數(shù)量變化對(duì)聚合模型性能影響較小.
由于服務(wù)器可以與參與者并行計(jì)算,所以通過(guò)統(tǒng)計(jì)單個(gè)實(shí)體在單次迭代中所需的時(shí)間進(jìn)行測(cè)試.如圖 5所示,將本文算法與文獻(xiàn)[23—25]所提算法的單次迭代時(shí)間進(jìn)行了對(duì)比.文獻(xiàn)[23—24]算法單次迭代的時(shí)間開(kāi)銷(xiāo)分別約為本文算法的7倍和5倍.本文算法在保護(hù)模型隱私性、魯棒性以及模型知識(shí)產(chǎn)權(quán)的情況下,單次迭代時(shí)間略高于文獻(xiàn)[25」.
6結(jié)論
本文設(shè)計(jì)了一個(gè)抗惡意參與者大多數(shù)且保護(hù)聚合模型不泄露的安全聯(lián)邦學(xué)習(xí)算法.在參與者上傳局部模型時(shí)分別使用差分隱私和隨機(jī)數(shù)保護(hù)了局部模型不泄露;在模型檢測(cè)階段通過(guò)使用本地?cái)?shù)據(jù)集作為驗(yàn)證集從而實(shí)現(xiàn)了抗惡意參與者大多數(shù),同時(shí)在聚合階段保護(hù)聚合模型不泄露給服務(wù)器.實(shí)驗(yàn)結(jié)果表明,本文算法準(zhǔn)確率閾值設(shè)置越大模型性能越好.此外,本文算法即使在惡意參與者占多數(shù)時(shí)仍然能夠檢測(cè)出有毒模型.作為未來(lái)的發(fā)展方向,本文計(jì)劃探索更高效的模型檢測(cè)方案,并研究減少聯(lián)邦學(xué)習(xí)計(jì)算和通信開(kāi)銷(xiāo)的方法.
參考文獻(xiàn)
[1]MCMAHANB,MOREE,RAMAGED,etalCommunication-eficientlearningofdpnetworksfromdecentralizeddataC//Procedings of the 2Oth International Conference on Artificial Intelligence and Statistics.[s.l.]:PMLR,2017.
[2]YANG HM,GE MY,XIANG K L,etal.Using highlycompresed gradients infederated learningfordatareconstructionattcks[J]. IEEE Transactions on Information Forensics and Security,2O22,18:818-830.
[3]SHEJWALKARVHOUMANSADRA.Manipulatingthe Byzantine:ptimizing modelpoisoningatacksanddefensesforfederatedlearning[C]//Proceedings 2021 Network and Distributed System Security Symposium.S.1.]:Internet Society,2021.
[4]范海菊,馬錦程,李名.基于深度神經(jīng)網(wǎng)絡(luò)的遺傳算法對(duì)抗攻擊[J].河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2025,53(2):82-90. FANHJ,MAJC,LIMGeneticalgorithmbasedondepneuralnetworkforcounteringtacksJ]JouralofHenanNormalUnivesity (Natural Science Edition),2025,53(2):82-90.
[5]張?zhí)N萍,翟妙如.數(shù)據(jù)要素的價(jià)值釋放及反壟斷治理[J].河南師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2022,49(6):59-65. ZHANGYP,ZHAIMR.ValuereleaseofdataelementsandantimonopolygoveranceJJournalofHnaNormalUniversityPhiloso phy and Social Sciences Edition),2022,49(6) :59-65.
[6]LIYM,ZHUMY,YANGX,etal.Black-BoxDatasetOwnershipVerificationviaBackdorWatermarking[J].EEETrans.InfForesics Secur,2023,18:2318-2332.
[7]MAZR,MAJF,MIAOYB,etalPocketdiagnosis:securefederatedlearnigagainstpoisoningattckintheloudJ]IEEETransactions on Services Computing,2022,15(6):3429-3442.
[8]CAO XYFANGMH,LIUJ,etal.FLTrust:ByzantinerobustfederatedlearningviatrustbotstrapingC]/Procedings2Net work and Distributed System Security Symposium.[S.l.]:Internet Society,2021.
[9]XIE C,KOYEJO S,GUPTA 1.Zeno ++ :Robust fully asynchronous SGD[C]// Proceedings of the 37th International Conference on Machine Learning.[S.1.]:PMLR,2020.
[10]GUERRAOUIR,ROUAULTS.ThehddenvulnerabilityofdistrbutedlearnnginbyzantiumC]/Procedingsofthe35thInteatioal Conference on Machine Learning.[S.l.]:PMLR,2018.
[11]SHAYANM,F(xiàn)UNGC,YOONCJM,etal.Biscoti:alockchainsystemforprivate andseurefederatedaringJ].EEETrasactions onParallel and Distributed Systems,2021,32(7):1513-1525.
[12]TOYCUSJXULetalantieslientfederatedlearngatedg]EEasactisuters964.
[13]LIXYQUZ,HAOSQ,etalLMaralocaldefenseagainstpoisoingatackonfederatedlearingJ]IEEETransactiosoDepend ble and Secure Computing,2023,20(1) :437-450.
[14]ZHOUJWUNWAGYSetalAdiferentiallprivatefederatedaingmoelagainstpoisoningattcksinedgecomputiEEE Transactions on Dependable and Secure Computing,2023,20(3) :1941-1958.
[15]MAXUetreegtiseaeduedamp;tef6
[16]LIMJH,CHANCSNGKW,etal.Protect,showatendandtellempoweringimagecaptioningmodelswithwnershiprotectio]. Pattern Recognition,2022,122:108285.
[17]李璇,鄧天鵬,熊金波,等.基于模型后門(mén)的聯(lián)邦學(xué)習(xí)水印[J].軟件學(xué)報(bào),2024,35(7):3454-3468. LI X,DENGPXONGJB,etalFederatedearingwaterarkbasednodelbackdorJ]JoualofSftware,224357)3454-3468.
[18]XUGW,LIHW,ZHANGY,etalPrvacy-preservingfederateddeeplarningithregularusers[J]IEEETransactiosonepedable and Secure Computing,2022,19(2):1364-1381.
[19]高瑩,陳曉峰,張一余,等.聯(lián)邦學(xué)習(xí)系統(tǒng)攻擊與防御技術(shù)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2023,46(9):1781-1805. GAO Y,CHENXF,ZHANGYY,etal.Asurveyof ttackanddefense techiquesforfederated learingsystemsJ].ChineseJouralof Computers,2023,46(9):1781-1805.
[20]BELLARE M,GOLDREICHO,GOLDWASSERS.Incrementalcryptography:thecaseof hashing andsigning[C]//Advancesin Cryptology— CRYPTO94.Berlin,Heidelberg:Springer Berlin Heidelberg,1994:216-233.
[21]張恩,秦磊勇,楊刃林,等.基于彈性秘密共享的多方門(mén)限隱私集合交集協(xié)議[J].軟件學(xué)報(bào),2023,34(11):5424-5441. ZHANGE,QINLY,YANGRLetalMulti-partythreshold private setintersectionprotocolbasedonrobustsecretsharingJoural of Software,2023,34(11):5424-5441.
[22]HUANGL,JOSEPHAD,NELSONB,etalAdversarialmachinelearing[C]/Procedingsofthe4thACMWorkshoponSecurityand Artificial Intelligence.Chicago: ACM,201l:43-58.
[23]LIUH,ZHAGSP,ZHANGPF,etalBlockchainandfederatedaringforcolborativeintrusiodetectioninvicularedgeopu ting[J].IEEE Transactions on Vehicular Technology,2021,70(6) :6073-6084.
[24]方晨,郭淵博,王一豐,等.基于區(qū)塊鏈和聯(lián)邦學(xué)習(xí)的邊緣計(jì)算隱私保護(hù)方法[J].通信學(xué)報(bào),2021,42(11):28-40. FANG C,GUOYB,WANGYF,etal.dgecomputingprivacyprotection methodbasedonblockchainandfederatedlearingJ]Jounal on Communications,2021,42(1l):28-40.
[25]KUHCSUSIOW,ZHNGYD,etalPrivacy-PreservingfederatedlearninginmedicaldiagnosiswithomomorphicreEcrtionJ]. Computer Standards amp; Interfaces,2022,80:103583.
The aggregation model protection algorithm in scenarios with majority of malicious participant
Zhang Ena'b,Gao Tinga,Huang Yuchena (a. College of Computer and Information Engineering;b. Engineering Lab of Intelligence Business and Internet of Things of Henan Province,Henan Normal University,Xinxiang 453o07,China)
Abstract:Privacy-preserving federated learning can help multiple participants builda machine learning model. However, this methodisdificulttodefendagainstpoisoningattackswhenmalicious participantsareithemajority.Additionalyusers orservers may privatelyselltheaggregated model.Toaddress these issues,asecure aggegationschemeisproposed toresist most malcious participants while protecting the privacyoftheaggegatedresult.Inthe training phase,participants usediffer ential privacynoiseandrandom numbers toprotecttheirlocalmodels.Then,participants testtheaccuracyofdiferentialprivacy models of other participants and record the results in a vector.Finaly,participantsand the server execute the oblivious transfer protocol to obtain the aggregated model.Thesecurityand correctness are proved through a security analysis.The experimentalresults show thatthe algorithm can maintain good detection abilityeven when malicious participants arein he majority and ensure the fairness of the participants to some extent.
Keywords: federated learning;privacy-preserving;oblivious transfer; homomorphic Hash
[責(zé)任編校 陳留院 楊浦]
河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2025年4期