摘 要:針對(duì)目前聯(lián)邦學(xué)習(xí)可驗(yàn)證聚合方案存在用戶通信開銷過(guò)大、無(wú)法容忍用戶退出以及用戶退出導(dǎo)致驗(yàn)證效率降低的問(wèn)題,提出了一種基于線性同態(tài)hash和秘密分享的高效可驗(yàn)證聚合方案(LHSSEVA)。首先,采用線性同態(tài)hash和同態(tài)承諾實(shí)現(xiàn)聚合結(jié)果的可驗(yàn)證性,保證驗(yàn)證信息通信開銷與模型維度無(wú)關(guān),同時(shí)防止服務(wù)器通過(guò)偽造聚合hash欺騙用戶接受錯(cuò)誤聚合結(jié)果;然后基于橢圓曲線離散對(duì)數(shù)問(wèn)題及其同態(tài)性保護(hù)輸入的隱私,同時(shí)保證驗(yàn)證的正確性;接著通過(guò)融入秘密分享使驗(yàn)證過(guò)程可以容忍用戶隨時(shí)退出,并確保用戶退出不會(huì)導(dǎo)致驗(yàn)證效率降低;最后理論分析證明了方案的正確性、可靠性和隱私性。仿真實(shí)驗(yàn)結(jié)果表明了方案的可行性和高效性,與VeriFL方案相比,具有更低的計(jì)算和通信開銷,特別是存在用戶退出時(shí),顯著提高了驗(yàn)證效率,具有更強(qiáng)的退出容忍性。
關(guān)鍵詞: 聯(lián)邦學(xué)習(xí); 隱私保護(hù); 可驗(yàn)證; 線性同態(tài)hash; 秘密分享; 容忍退出
中圖分類號(hào): TP309.2 文獻(xiàn)標(biāo)志碼: A 文章編號(hào): 1001-3695(2025)02-038-0599-07
doi:10.19734/j.issn.1001-3695.2024.03.0213
Efficient verifiable aggregation scheme based on linear
homomorphic hash and secret sharing
Gao Qi, Sun Yi’, Wang Youhe, Li Yujie
(School of Cryptography Engineering, Information Engineering University, Zhengzhou 450001, China)
Abstract:To address the problems that the current federated learning verifiable aggregation scheme has excessive user communication overhead,cannot tolerate user dropout,and user dropout results in lower verification efficiency,this paper proposed an efficient verifiable aggregation scheme based on linear homomorphic hash and secret sharing(EVA-LHHSS).Firstly,EVA-LHHSS utilised linear homomorphic hash and homomorphic commitment to achieve verifiability of the aggregation results,and ensured that the verification information communication overhead was independent of the model dimensions,while preventing the server from deceiving the user into accepting incorrect aggregation results by forging the aggregation hash.Then,based on the elliptic curve discrete logarithm problem and its homomorphism,it protected the privacy of the inputs,and ensured that the verification was correct.Then,by incorporating secret sharing it made the verification process tolerant of user dropout at any time and ensured that user dropout did not result in a reduction of verification efficiency.Finally,theoretical analysis proved the correctness,reliability and privacy of the scheme.Simulation experiments show the feasibility and efficiency of the scheme,with lower computation and communication overheads compared to the VeriFL scheme,especially in the presence of user dropout,which significantly improves the verification efficiency and has a stronger dropout tolerance.
Key words:federated learning; privacy protection; verifiable; linear homomorphic hash; secret sharing; tolerate dropout
0 引言
隨著各種數(shù)據(jù)隱私保護(hù)政策的出臺(tái),聯(lián)邦學(xué)習(xí)[1]作為一種分布式機(jī)器學(xué)習(xí)框架,由于其數(shù)據(jù)不出本地的優(yōu)點(diǎn),在各個(gè)領(lǐng)域被廣泛研究。聯(lián)邦學(xué)習(xí)通過(guò)一個(gè)中心服務(wù)器協(xié)調(diào)各個(gè)參與方以交換模型參數(shù)的方式共同訓(xùn)練一個(gè)模型,相比于集中數(shù)據(jù)式機(jī)器學(xué)習(xí),大大降低了數(shù)據(jù)隱私泄露的風(fēng)險(xiǎn)。
然而已有研究[2~4]發(fā)現(xiàn),雖然模型參數(shù)不包含原始訓(xùn)練數(shù)據(jù),但其包含了訓(xùn)練數(shù)據(jù)的特征,這表明一旦敵手獲取到用戶的明文模型參數(shù),就能夠通過(guò)分析模型參數(shù)來(lái)竊取用戶的隱私信息。為此,不少研究[5~8]基于差分隱私、安全多方計(jì)算以及同態(tài)加密等技術(shù)提出了聯(lián)邦學(xué)習(xí)模型隱私保護(hù)聚合方法,實(shí)現(xiàn)在不向聚合服務(wù)器暴露本地模型明文參數(shù)的同時(shí)還能夠正確地聚合出全局模型。上述研究中大多假設(shè)聚合服務(wù)器會(huì)向用戶返回正確的聚合結(jié)果,用戶無(wú)法對(duì)聚合結(jié)果的正確性進(jìn)行驗(yàn)證,只能被動(dòng)接受。然而在實(shí)際應(yīng)用中,云服務(wù)商提供的云服務(wù)器并不完全可信[9],其不需要為模型性能負(fù)責(zé),在受到利益驅(qū)使的情況下,服務(wù)器可能會(huì)選擇忽略模型聚合過(guò)程,通過(guò)執(zhí)行一些快速但不正確的計(jì)算生成錯(cuò)誤的聚合結(jié)果返回給用戶,從而節(jié)省計(jì)算資源用于其他盈利任務(wù),這將導(dǎo)致無(wú)法聚合出有效的全局模型,用戶的貢獻(xiàn)被忽略,對(duì)聯(lián)邦學(xué)習(xí)系統(tǒng)的信任度也會(huì)下降,進(jìn)而不愿再貢獻(xiàn)本地模型。此外,聚合服務(wù)器還可能被惡意入侵,通過(guò)返回精心構(gòu)造的聚合結(jié)果來(lái)竊取用戶隱私。文獻(xiàn)[10]提出了一種梯度抑制攻擊,即便采用了隱私保護(hù)聚合策略來(lái)聚合全局模型,不可信的聚合服務(wù)器利用梯度抑制攻擊,通過(guò)給不同用戶返回精心構(gòu)造的模型參數(shù)仍能夠獲取到目標(biāo)用戶的本地模型,進(jìn)而通過(guò)梯度反轉(zhuǎn)攻擊[3]侵犯用戶數(shù)據(jù)隱私。
為了解決上述問(wèn)題,一些研究[11~14]提出了可驗(yàn)證隱私保護(hù)聯(lián)邦學(xué)習(xí),使用戶能夠?qū)酆辖Y(jié)果的正確性進(jìn)行驗(yàn)證,但仍存在用戶通信開銷過(guò)大[11]、無(wú)法容忍用戶退出[12]或者用戶退出降低驗(yàn)證效率[13,14]等問(wèn)題。目前的聯(lián)邦學(xué)習(xí)很多部署在資源受限的設(shè)備上,例如移動(dòng)手機(jī)和智能家居設(shè)備,它們大多擁有有限的計(jì)算資源和通信帶寬,并且由于電源、網(wǎng)絡(luò)等原因可能隨時(shí)退出訓(xùn)練[15],所以上述方案無(wú)法很好地適用于這些場(chǎng)景。
綜上,針對(duì)聯(lián)邦學(xué)習(xí)隱私保護(hù)聚合中聚合結(jié)果缺乏正確性驗(yàn)證導(dǎo)致無(wú)法聚合出有效全局模型,以及目前聚合可驗(yàn)證方案存在的用戶通信開銷大和無(wú)法較好地處理用戶退出的問(wèn)題,本文提出了一種基于線性同態(tài)hash和秘密分享的高效可驗(yàn)證聚合(efficient verifiable aggregation based on linear homomorphic hash and secret sharing,EVA-LHHSS)方案。具體來(lái)說(shuō),本文基于線性同態(tài)hash實(shí)現(xiàn)用戶對(duì)聚合結(jié)果的正確性驗(yàn)證,并保證驗(yàn)證信息的通信開銷與模型維度無(wú)關(guān),同時(shí)基于Pedersen承諾防止服務(wù)器偽造聚合hash欺騙用戶接受錯(cuò)誤聚合結(jié)果,增強(qiáng)驗(yàn)證的可靠性;然后基于橢圓曲線離散對(duì)數(shù)問(wèn)題保護(hù)用戶輸入的隱私,同時(shí)確保驗(yàn)證的正確性;最后基于Shamir秘密分享及其同態(tài)性,使方案能夠容忍用戶隨時(shí)退出并確保不會(huì)降低驗(yàn)證效率。
本文主要貢獻(xiàn)如下:
a)提出了一種基于線性同態(tài)hash和秘密分享的高效可驗(yàn)證聚合方案,保證輸入的隱私性和驗(yàn)證的可靠性,實(shí)現(xiàn)與模型維度無(wú)關(guān)的通信開銷,可以容忍用戶退出。
b)利用Shamir秘密分享的加法同態(tài)性增強(qiáng)用戶退出容忍性,保證用戶退出不會(huì)降低方案性能。
c)對(duì)EVA-LHHSS的正確性、可靠性和隱私性進(jìn)行了分析,實(shí)驗(yàn)結(jié)果表明EVA-LHHSS的可行性和高效性,驗(yàn)證開銷優(yōu)于VeriFL方案,且用戶退出不會(huì)降低驗(yàn)證效率。
1 相關(guān)工作
聯(lián)邦學(xué)習(xí)雖然能夠降低數(shù)據(jù)隱私泄露風(fēng)險(xiǎn),但通過(guò)對(duì)本地模型參數(shù)進(jìn)行分析仍能夠推斷出用戶隱私信息,例如成員推理攻擊[2]、梯度反轉(zhuǎn)攻擊[3,4],因此,不少研究[5~8]提出了面向聯(lián)邦學(xué)習(xí)的隱私保護(hù)聚合方案來(lái)保護(hù)用戶本地模型的隱私。然而,上述研究都假設(shè)服務(wù)器會(huì)返回正確的聚合結(jié)果?,F(xiàn)實(shí)應(yīng)用中,聚合服務(wù)器可能出于利益考慮,不選擇正確的聚合本地模型,而是執(zhí)行一些快速但不正確的計(jì)算來(lái)產(chǎn)生錯(cuò)誤的全局模型,節(jié)省計(jì)算資源,這導(dǎo)致最終無(wú)法訓(xùn)練出有效的全局模型,用戶的貢獻(xiàn)被全部否定。此外,如果聚合服務(wù)器被惡意入侵,即便采用了隱私保護(hù)聚合策略來(lái)保護(hù)本地模型,入侵者通過(guò)構(gòu)造惡意的模型參數(shù)并返回給用戶,仍能夠竊取用戶隱私信息[10]。
為了解決由不可信服務(wù)器導(dǎo)致聚合失敗以及隱私泄露的問(wèn)題,一些研究提出了可驗(yàn)證聯(lián)邦學(xué)習(xí)。文獻(xiàn)[11]基于同態(tài)hash函數(shù)和偽隨機(jī)數(shù)生成器提出了第一個(gè)面向聯(lián)邦學(xué)習(xí)的可驗(yàn)證隱私保護(hù)聚合方案VerifyNet,但由于其采用的同態(tài)hash函數(shù)依賴雙線性映射[16],驗(yàn)證信息的大小和模型維度相關(guān),當(dāng)模型維度過(guò)高時(shí)驗(yàn)證信息會(huì)給用戶引入大量通信開銷。文獻(xiàn)[12]則是基于拉格朗日插值法實(shí)現(xiàn)模型隱私保護(hù)和聚合結(jié)果正確性驗(yàn)證,拉格朗日插值法同樣會(huì)帶來(lái)通信開銷問(wèn)題。此外,該方案不能支持用戶的隨時(shí)退出。為了降低通信開銷,文獻(xiàn)[13]基于線性同態(tài)hash提出了VeriFL方案,由于線性同態(tài)hash函數(shù)輸出長(zhǎng)度固定的性質(zhì),VeriFL實(shí)現(xiàn)了與模型維度無(wú)關(guān)的通信開銷,同時(shí)提出了一種分?jǐn)傭?yàn)證機(jī)制來(lái)降低驗(yàn)證過(guò)程中的計(jì)算開銷,但當(dāng)存在用戶退出時(shí),為了能夠正確地驗(yàn)證聚合結(jié)果,服務(wù)器需要逐個(gè)恢復(fù)退出用戶的hash值等信息,這導(dǎo)致驗(yàn)證效率會(huì)隨著用戶退出顯著下降。此外,分?jǐn)倷C(jī)制雖然可以降低用戶的計(jì)算開銷并保證一個(gè)階段內(nèi)聚合結(jié)果的正確性,但由于每一輪沒(méi)有及時(shí)驗(yàn)證聚合結(jié)果,仍可能帶來(lái)隱私泄露問(wèn)題[10]。文獻(xiàn)[14]分析了VeriFL存在的安全問(wèn)題,然后提出了基于同態(tài)hash和數(shù)字簽名的可驗(yàn)證聚合方案,實(shí)現(xiàn)了驗(yàn)證的可追溯性和與模型大小無(wú)關(guān)的通信開銷,但同樣遭受用戶退出導(dǎo)致驗(yàn)證效率下降的問(wèn)題。此外,該方案和VeriFL都沒(méi)有對(duì)hash值進(jìn)行保護(hù),由于同態(tài)hash函數(shù)的性質(zhì),當(dāng)模型參數(shù)稀疏時(shí),暴露的hash值可能會(huì)遭受暴力猜解攻擊,從而泄露用戶的輸入,帶來(lái)隱私泄露風(fēng)險(xiǎn)[10]。文獻(xiàn)[17]提出利用雙重聚合的方式對(duì)聚合結(jié)果進(jìn)行驗(yàn)證。其核心思想是所有用戶之間共享兩個(gè)隨機(jī)數(shù)a、b,a、b對(duì)服務(wù)器保密,針對(duì)模型x,用戶計(jì)算證明=a⊙x+b,然后利用文獻(xiàn)[5]中的方案分別聚合x和,最后通過(guò)驗(yàn)證兩個(gè)聚合值∑i∈ni、∑i∈nxi是否滿足∑i∈ni=a⊙∑i∈nxi+|n|b來(lái)確認(rèn)聚合結(jié)果的正確性。由于依賴文獻(xiàn)[5]中的方案聚合,用戶需要進(jìn)行大量密鑰協(xié)商和秘密分享計(jì)算,此外,當(dāng)存在大量用戶退出時(shí),驗(yàn)證效率會(huì)顯著下降。還有一些研究通過(guò)引入輔助設(shè)備實(shí)現(xiàn)聚合結(jié)果的完整性驗(yàn)證,文獻(xiàn)[18]提出了一種基于雙服務(wù)器架構(gòu)的可驗(yàn)證隱私保護(hù)聚合方案,用戶通過(guò)比較兩個(gè)不共謀服務(wù)器返回的聚合結(jié)果的hash來(lái)驗(yàn)證模型的正確性。文獻(xiàn)[19]通過(guò)引入輔助節(jié)點(diǎn)實(shí)現(xiàn)用戶和聚合服務(wù)器之間進(jìn)行隱私保護(hù)聚合并通過(guò)雙重聚合使用戶可以驗(yàn)證聚合結(jié)果的正確性。上述兩種方案都需要引入額外的輔助服務(wù)器實(shí)現(xiàn)聚合結(jié)果的可驗(yàn)證性。文獻(xiàn)[20]則是利用基于硬件輔助的可信執(zhí)行環(huán)境來(lái)防止聚合服務(wù)器偽造和竄改聚合結(jié)果,從而確保聚合結(jié)果的正確性。
2 前置知識(shí)
本章主要描述方案中使用的密碼學(xué)算法和定義,包括同態(tài)hash算法、秘密分享和Pedersen承諾。
2.1 同態(tài)hash
線性同態(tài)hash[21]是具有同態(tài)性質(zhì)的hash函數(shù),基于橢圓曲線的同態(tài)hash算法構(gòu)造如下:
顯然,上述hash函數(shù)是滿足加法同態(tài)性的,對(duì)于相同維度的向量x1、x2,Hash(x1)+Hash(x2)=Hash(x1+x2)。因此,用戶通過(guò)同態(tài)hash函數(shù)對(duì)本地模型進(jìn)行hash,通過(guò)聚合本地模型hash值并與聚合模型hash值進(jìn)行對(duì)比,可以驗(yàn)證聚合模型的正確性。
2.2 秘密分享
(t,n)-秘密共享(secret sharing,SS)[22]是1979年由Shamir提出的。秘密s被分成n個(gè)秘密份額,每個(gè)秘密份額由一個(gè)用戶持有,大于等于t個(gè)用戶貢獻(xiàn)秘密份額可以重構(gòu)秘密s,而少于t個(gè)用戶則無(wú)法獲得關(guān)于秘密的任何信息。對(duì)于秘密s,對(duì)其進(jìn)行(t,n)-秘密分享:
a)初始化:秘密持有者從Z*p中隨機(jī)選取t-1個(gè)正整數(shù)a1,…,at-1,使a0=s。基于上述值構(gòu)造一個(gè)最高次為t-1次的多項(xiàng)式:f(x)s=a0+a1x+a2x2+…+at-1xt-1mod p。
b)秘密分享:秘密持有者隨機(jī)選取多項(xiàng)式f(x)上的n個(gè)點(diǎn)x1,…,xn,然后計(jì)算出各個(gè)點(diǎn)對(duì)應(yīng)的函數(shù)值f(x1),…,f(xn),最后將(x1,f(x1)),…,(xn,f(xn))作為秘密份額分享給其他用戶,表示為(xi,f(xi)s)i∈n←SS.share(s,t,n)。
c)秘密重構(gòu):給定任意t個(gè)秘密份額,通過(guò)拉格朗日插值可以確定多項(xiàng)式f(x)s。當(dāng)時(shí)x=0,計(jì)算出秘密s=a0,表示為s←SS.recon((xi,f(xi)s)i∈n,t)。
d)同態(tài)性:對(duì)于給定的s1、s2,分別進(jìn)行秘密分享,并將秘密份額分發(fā)給其他用戶,秘密份額的持有者可以在本地計(jì)算出(f(xi)s1+f(xi)s2)i∈n。給定任意t個(gè)秘密份額(f(xi)s1+f(xi)s2)i∈n時(shí),可以計(jì)算f(x)=f(x)s1+f(x)s2,當(dāng)時(shí)x=0,得到s1+s2=f(0)s1+f(0)s2。
2.3 Pedersen承諾
Pedersen承諾[23]具有計(jì)算綁定、完美隱藏和加法同態(tài)的性質(zhì)。基于橢圓曲線的Pedersen承諾[24]的構(gòu)造如下:
a)COM.Setup(1k):選擇一條橢圓曲線E,選擇E上的兩個(gè)階為p的基點(diǎn)G和Q,其中Q=αG,α保密。
b)COM.Comm(x,r):待承諾值為x,x∈Zp,承諾方隨機(jī)選擇一個(gè)整數(shù)r,r∈Z*p作為盲因子,然后計(jì)算承諾值c=xG+rQ,并公開承諾c。
c)COM.Open(c,x,r):承諾方通過(guò)公開r和x,驗(yàn)證者根據(jù)r、x計(jì)算c′,如果c′=c,則接受承諾,否則拒絕。
d)同態(tài)性:對(duì)于待承諾值x1、x2,選擇兩個(gè)隨機(jī)數(shù)r1、r2,對(duì)x1和x2分別進(jìn)行承諾:c1=x1G+r1Q,c2=x2G+r2Q??梢缘贸鯿1+c2=(x1+x2)G+(r1+r2)Q=COM.Comm(x1+x2,r1+r2)。
3 問(wèn)題描述
3.1 方案描述
本文方案主要包含三個(gè)實(shí)體,分別是可信機(jī)構(gòu)(trusted authority,TA)、用戶和聚合服務(wù)器。
a)可信機(jī)構(gòu):TA主要負(fù)責(zé)聯(lián)邦學(xué)習(xí)初始化工作。在聯(lián)邦學(xué)習(xí)開始前,TA對(duì)需要使用的密碼算法進(jìn)行初始化,生成必要的公共參數(shù)以及密鑰等信息,然后將公共參數(shù)和密鑰根據(jù)需要發(fā)送給用戶或者聚合服務(wù)器。
b)用戶:用戶是擁有一定數(shù)量數(shù)據(jù)的節(jié)點(diǎn)或者實(shí)體,例如移動(dòng)手機(jī)、電腦終端或者醫(yī)療機(jī)構(gòu)等,用戶通過(guò)在本地?cái)?shù)據(jù)集訓(xùn)練得到本地模型,通過(guò)服務(wù)器聚合來(lái)共同訓(xùn)練出高質(zhì)量模型。為了能夠?qū)酆辖Y(jié)果進(jìn)行驗(yàn)證,用戶還需要生成驗(yàn)證信息,聚合完成后用戶根據(jù)其他用戶提供的驗(yàn)證信息對(duì)聚合結(jié)果進(jìn)行驗(yàn)證。用戶集合用Euclid Math OneUAp表示,用戶數(shù)量為n。
c)聚合服務(wù)器:聚合服務(wù)器是具有一定計(jì)算和存儲(chǔ)能力的第三方實(shí)體,可以由云服務(wù)商提供,負(fù)責(zé)將用戶提交的本地模型聚合成全局模型,同時(shí)還需要生成全局模型驗(yàn)證信息。此外,聚合服務(wù)器還需要負(fù)責(zé)用戶之間消息的轉(zhuǎn)發(fā)以及其他必要的計(jì)算工作。
3.2 威脅模型和目標(biāo)
本文考慮的威脅模型是半誠(chéng)實(shí)的,即用戶和服務(wù)器都是半誠(chéng)實(shí)且好奇的。對(duì)于用戶來(lái)說(shuō),他們會(huì)遵守訓(xùn)練規(guī)則進(jìn)行訓(xùn)練并正確提交本地的計(jì)算結(jié)果,但對(duì)其他用戶的隱私感到好奇。同樣,聚合服務(wù)器會(huì)按照規(guī)則參與聯(lián)邦學(xué)習(xí),但企圖通過(guò)分析接收到的數(shù)據(jù)和中間計(jì)算結(jié)果來(lái)推斷用戶的隱私信息,同時(shí)服務(wù)器還可能和部分用戶共謀來(lái)竊取其他用戶的隱私信息。此外,本文假設(shè)聚合服務(wù)器具有額外的能力,可能會(huì)返回錯(cuò)誤的聚合結(jié)果并偽造驗(yàn)證信息來(lái)欺騙用戶接受錯(cuò)誤聚合結(jié)果。
因此,本方案的目標(biāo)是使用戶能夠?qū)酆戏?wù)器返回的聚合結(jié)果的正確性進(jìn)行驗(yàn)證,防止聚合服務(wù)器通過(guò)偽造證明等方式來(lái)欺騙用戶接受錯(cuò)誤的聚合結(jié)果,同時(shí),在整個(gè)驗(yàn)證過(guò)程中還需要保證用戶隱私不被泄露。此外,考慮到用戶可能是資源受限的設(shè)備,例如移動(dòng)手機(jī)、智能家居設(shè)備等,它們擁有有限的計(jì)算資源和通信帶寬,并且因?yàn)榫W(wǎng)絡(luò)狀態(tài)、電源等因素可能隨時(shí)退出訓(xùn)練,所以,還需要考慮驗(yàn)證開銷以及用戶可能中途退出的問(wèn)題。
4 方案設(shè)計(jì)
4.1 總體描述
本文主要工作是使用戶能夠?qū)β?lián)邦學(xué)習(xí)聚合結(jié)果的正確性進(jìn)行驗(yàn)證,從而防止服務(wù)器返回錯(cuò)誤的聚合結(jié)果,導(dǎo)致無(wú)法訓(xùn)練出有效全局模型或者繞過(guò)模型隱私保護(hù)聚合竊取用戶數(shù)據(jù)隱私,可以用于增強(qiáng)現(xiàn)有的聯(lián)邦學(xué)習(xí)隱私保護(hù)聚合方法,提高隱私保護(hù)能力。因此,本文省略了對(duì)模型隱私保護(hù)聚合過(guò)程的描述。方案設(shè)計(jì)如圖1所示,主要包含兩個(gè)階段:
a)證明生成:用戶通過(guò)本地?cái)?shù)據(jù)集訓(xùn)練得到本地模型之后,首先利用線性同態(tài)hash計(jì)算本地模型的hash值并生成一個(gè)隨機(jī)數(shù)來(lái)盲化hash值,線性同態(tài)hash保證了模型驗(yàn)證信息帶來(lái)的通信開銷與模型維度無(wú)關(guān);然后用戶對(duì)hash進(jìn)行承諾;接著為了防止驗(yàn)證過(guò)程中用戶退出導(dǎo)致驗(yàn)證失敗,用戶將盲化和承諾時(shí)使用的隨機(jī)數(shù)通過(guò)秘密分享和其他用戶共享;最后通過(guò)服務(wù)器將加密后的秘密份額和承諾值轉(zhuǎn)發(fā)給其他用戶,同時(shí)用戶將被盲化的hash值發(fā)送給服務(wù)器,用于生成聚合結(jié)果的證明。
之后服務(wù)器和用戶通過(guò)隱私保護(hù)聚合方法聚合出全局模型。服務(wù)器將全局模型發(fā)送給每個(gè)用戶。
圖1 方案設(shè)計(jì)Fig.1 Scheme design
b)聚合驗(yàn)證:收到全局模型后,用戶將其他用戶分享的秘密份額進(jìn)行累加,并發(fā)送給服務(wù)器;然后服務(wù)器利用秘密份額分別重構(gòu)出兩個(gè)隨機(jī)數(shù)的聚合值,利用重構(gòu)的隨機(jī)數(shù)計(jì)算對(duì)聚合結(jié)果的證明并發(fā)送給用戶;最后用戶先利用承諾值驗(yàn)證聚合結(jié)果證明的正確性,再通過(guò)計(jì)算全局模型的hash值來(lái)驗(yàn)證全局模型的正確性,如果任何一步驗(yàn)證失敗,則中止聯(lián)邦學(xué)習(xí)。
4.2 基于同態(tài)hash和秘密分享的可驗(yàn)證聚合
4.2.1 初始化
在聯(lián)邦學(xué)習(xí)開始之前,TA為每個(gè)用戶生成公私鑰并初始化需要使用的密碼算法,生成公共參數(shù)。然后TA將用戶的私鑰、所有用戶公鑰pki,i∈和公共參數(shù)發(fā)送給每個(gè)用戶,公共參數(shù)包含但不限于:秘密分享閾值t、橢圓曲線群、階p、基點(diǎn)G,G1,…,Gd,Q∈,完成上述工作之后TA離線。
4.2.2 證明生成
在一輪訓(xùn)練中,假設(shè)用戶i利用本地?cái)?shù)據(jù)訓(xùn)練得到的本地模型為xi,使用2.1節(jié)中線性同態(tài)hash算法計(jì)算xi的hash值:
hi=HH.hash(xi)(2)
為了防止模型參數(shù)稀疏時(shí)服務(wù)器利用暴露的hash值hi猜解模型參數(shù),侵犯用戶隱私[10],用戶i選擇一個(gè)隨機(jī)數(shù)ki,然后盲化同態(tài)hash值hi:h^i=h1+kiG。
同時(shí)為了防止聚合服務(wù)器在聚合驗(yàn)證階段偽造聚合hash來(lái)欺騙用戶,用戶i對(duì)hi進(jìn)行承諾,隨機(jī)選擇整數(shù)ri,然后計(jì)算承諾值:
ci=hi+riQ(3)
這里可以看作是Pedersen多值承諾[24]。為了實(shí)現(xiàn)在聚合驗(yàn)證階段即使存在用戶退出仍能夠保證存活用戶可以正確驗(yàn)證聚合結(jié)果,每個(gè)用戶將隨機(jī)數(shù)k和r通過(guò)秘密分享的方式和其他用戶共享:
4.2.3 聚合驗(yàn)證
在聯(lián)邦學(xué)習(xí)過(guò)程中,即使只有t個(gè)用戶存活,聚合服務(wù)器與t-2個(gè)用戶共謀,最終計(jì)算出K和R至少包含兩個(gè)非共謀用戶的k和r,因此,聚合服務(wù)器和半誠(chéng)實(shí)用戶無(wú)法準(zhǔn)確地計(jì)算出單個(gè)用戶的hash值。
綜上,證明了即使t-2個(gè)用戶和聚合服務(wù)器共謀,它們也無(wú)法獲得用戶本地模型的同態(tài)hash值。
6 實(shí)驗(yàn)和分析
6.1 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)原型采用Python 3.7.4及其一些標(biāo)準(zhǔn)庫(kù)來(lái)實(shí)現(xiàn),例如Gmpy2、Cryptography等,運(yùn)行在Ubuntu 18.04操作系統(tǒng),CPU為Intel?Xeon?Gold 5218 CPU @ 2.30 GHz,內(nèi)存為256 GB的環(huán)境上。用戶和服務(wù)器之間采用socket通信。線性同態(tài)hash和Pedersen承諾采用NIST P-256橢圓曲線實(shí)現(xiàn),密鑰協(xié)商采用NIST P-256曲線上的橢圓曲線Diffie-Hellman和SHA-256實(shí)現(xiàn),對(duì)稱加密采用128位密鑰的AES加密算法。秘密分享采用標(biāo)準(zhǔn)的Shamir閾值秘密分享,閾值t設(shè)置為n/2。
6.2 實(shí)驗(yàn)結(jié)果和分析
在實(shí)驗(yàn)部分,本文主要關(guān)注驗(yàn)證過(guò)程給用戶和服務(wù)器引入的計(jì)算和通信開銷,因此,省略了聯(lián)邦學(xué)習(xí)本地訓(xùn)練以及模型隱私保護(hù)聚合的過(guò)程,通過(guò)生成不同維度的向量來(lái)模擬用戶本地模型作為隱私輸入。和其他工作一樣,本文使用驗(yàn)證過(guò)程中的計(jì)算時(shí)間以及接收和發(fā)送的數(shù)據(jù)總量來(lái)分別衡量計(jì)算和通信開銷[26]。此外,本文將VeriFL作為基準(zhǔn)進(jìn)行比較來(lái)評(píng)估本文方案性能,分別考慮用戶數(shù)量、退出率和向量大小三個(gè)方面對(duì)驗(yàn)證效率的影響,相比于其他方案,VeriFL不僅實(shí)現(xiàn)了與模型維度無(wú)關(guān)的通信開銷,同時(shí)還能夠支持用戶隨時(shí)退出,此外,還不需要引入額外的服務(wù)器或者硬件實(shí)現(xiàn)聚合結(jié)果的驗(yàn)證。
首先,本文考慮用戶數(shù)量和退出率對(duì)方案的影響,分別在不同用戶數(shù)量和退出率的設(shè)置下進(jìn)行實(shí)驗(yàn),向量大小固定為10 000。圖2表示了在不同用戶數(shù)量和退出率時(shí)的用戶的通信開銷。通過(guò)觀察可以看到,在VeriFL和本文方案中,用戶通信開銷都是隨著用戶數(shù)量增加呈線性增長(zhǎng),這是因?yàn)橛脩粜枰?jì)算的秘密份額和用戶數(shù)量呈線性相關(guān)。但在相同情況下,本文方案的通信開銷是顯著小于VeriFL的,主要是因?yàn)樵隍?yàn)證階段,本文方案中存活用戶只需要發(fā)送所有存活用戶秘密份額的和,然后接收一個(gè)聚合hash值H和R,而VeriFL方案中,用戶需要先發(fā)送自己的hash值并接收所有存活用戶的hash值,然后發(fā)送每個(gè)退出用戶的秘密份額并接收所有退出用戶的hash值,從而產(chǎn)生了較大的通信開銷。此外可以看出,在用戶數(shù)量相同時(shí),退出率對(duì)本文方案中用戶的通信開銷基本沒(méi)有影響,這是因?yàn)樵隍?yàn)證時(shí),無(wú)論多少用戶退出,存活用戶需要發(fā)送和接收的數(shù)據(jù)大小是不變的。而VeriFL方案中,用戶的通信開銷會(huì)隨著退出用戶數(shù)量增加而增加,這是因?yàn)樗麄円蚍?wù)器發(fā)送所有退出用戶分享給他們的秘密份額。表1展示了本文方案和VeriFL方案不同階段的通信開銷,可以看到退出率對(duì)用戶通信開銷基本沒(méi)有影響。VeriFL中,如果存在用戶退出,則需要增加一輪通信來(lái)保證驗(yàn)證的正確性,用戶總的通信開銷隨著退出率增加而增加。
在不同用戶數(shù)量和退出率下的用戶計(jì)算開銷如圖3所示。通過(guò)實(shí)驗(yàn)結(jié)果可以看到,本文方案和VeriFL方案中用戶的計(jì)算開銷基本不受退出用戶數(shù)量的影響,而是主要受到用戶數(shù)量的影響,這是因?yàn)殡S著用戶數(shù)量增加,需要計(jì)算的秘密份額增加。但在用戶數(shù)量相同且退出率相同時(shí),本文方案中用戶的計(jì)算時(shí)間是顯著小于VeriFL的,并且隨著用戶數(shù)量增加,本文方案優(yōu)勢(shì)逐漸增大,這主要是因?yàn)楸疚姆桨钢杏脩羰菍?duì)大整數(shù)進(jìn)行秘密分享,而VeriFL中則是在橢圓曲線群上計(jì)算秘密份額,點(diǎn)之間的計(jì)算相比整數(shù)需要消耗更多的時(shí)間。不同階段用戶計(jì)算開銷如表2所示。本文方案中用戶是通過(guò)聚合服務(wù)器來(lái)轉(zhuǎn)發(fā)消息給其他用戶,因此聚合服務(wù)器的通信開銷通常是用戶通信開銷的n倍,這里不再對(duì)聚合服務(wù)器的通信開銷進(jìn)行分析,而主要對(duì)其計(jì)算開銷進(jìn)行分析。不同用戶數(shù)量和退出率下聚合服務(wù)器的計(jì)算開銷如圖4所示。首先分析在用戶數(shù)量相同而退出率不同時(shí)的情況。退出率為0時(shí),由于VeriFL方案中服務(wù)器不需要進(jìn)行秘密重構(gòu),而本文方案中服務(wù)器需要進(jìn)行兩次秘密重構(gòu),所以,VeriFL方案中聚合服務(wù)器計(jì)算開銷是小于本文方案的。但隨著退出率增加,VeriFL方案中聚合服務(wù)器計(jì)算開銷會(huì)顯著增加并顯著高于本文方案,這是因?yàn)閂eriFL方案中服務(wù)器需要逐個(gè)恢復(fù)每個(gè)退出用戶的hash值以及承諾時(shí)選取的隨機(jī)數(shù),用戶數(shù)量為200,不同掉線率下不同階段服務(wù)器計(jì)算時(shí)間如表3所示。可以看到驗(yàn)證階段,VeriFL中服務(wù)器需要花費(fèi)大量時(shí)間進(jìn)行秘密重構(gòu)計(jì)算。聚合服務(wù)器計(jì)算時(shí)間增加將導(dǎo)致用戶需要更長(zhǎng)的等待時(shí)間,這可能會(huì)帶來(lái)更高的退出率(例如電量不足)。而本文方案中,服務(wù)器計(jì)算開銷基本不受用戶退出的影響,無(wú)論多少用戶退出,服務(wù)器也只需要執(zhí)行兩次秘密重構(gòu),不會(huì)顯著降低驗(yàn)證效率,本文方案具有更強(qiáng)的退出容忍性。
在退出率不變的情況下,本文方案中聚合服務(wù)器計(jì)算開銷隨著用戶數(shù)量增加呈線性增長(zhǎng),且顯著低于VeriFL。首先本文方案中計(jì)算開銷增加是由于在聚合驗(yàn)證階段,用戶數(shù)量影響了聚合服務(wù)器計(jì)算聚合hash的時(shí)間,更多的用戶意味著聚合服務(wù)器需要聚合更多用戶的h^i。從實(shí)驗(yàn)結(jié)果可以看出,這不會(huì)引入太多的計(jì)算開銷。而VeriFL方案則因?yàn)橥顺鲇脩舻臄?shù)量增加導(dǎo)致聚合服務(wù)器需要進(jìn)行更多次的秘密重構(gòu)計(jì)算,從而導(dǎo)致聚合服務(wù)器計(jì)算開銷顯著增加。
接著,本文考慮了向量大小對(duì)方案的影響,實(shí)驗(yàn)結(jié)果如圖5所示。其中圖5(a)(b)分別表示了在不同向量大小下用戶的通信開銷和計(jì)算開銷。通過(guò)觀察可以看出,用戶的計(jì)算開銷主要受到向量大小的影響,受用戶數(shù)量的影響較小,這是因?yàn)橛脩敉ㄟ^(guò)線性同態(tài)hash算法計(jì)算hash的時(shí)間隨著輸入向量大小增加而線性增長(zhǎng)。而用戶的通信開銷則基本不受向量大小的影響,這是因?yàn)榫€性同態(tài)hash算法輸出長(zhǎng)度固定,所以,實(shí)現(xiàn)了與維度無(wú)關(guān)的通信開銷。
7 結(jié)束語(yǔ)
為了解決聯(lián)邦學(xué)習(xí)中由不可信服務(wù)器導(dǎo)致的無(wú)法聚合出有效全局模型的問(wèn)題,本文提出了一種基于線性同態(tài)hash和秘密分享的高效可驗(yàn)證聚合方案。通過(guò)采用具有恒定輸出長(zhǎng)度的線性同態(tài)hash,實(shí)現(xiàn)了聚合結(jié)果的可驗(yàn)證以及與模型維度無(wú)關(guān)的通信開銷;基于Pedersen承諾確保聚合結(jié)果驗(yàn)證的可靠性,防止服務(wù)器通過(guò)偽造聚合hash;欺騙用戶接受錯(cuò)誤聚合結(jié)果;同時(shí)基于橢圓曲線離散對(duì)數(shù)問(wèn)題保護(hù)輸入的隱私;利用Shamir秘密分享及其同態(tài)性保證用戶可以隨時(shí)退出,并且不影響方案性能。實(shí)驗(yàn)結(jié)果表明,與VeriFL方案相比,本文方案實(shí)現(xiàn)了更低的計(jì)算和通信開銷,具有更強(qiáng)的退出容忍性,適用于參與訓(xùn)練的客戶端多為資源受限設(shè)備,且隨時(shí)退出的聯(lián)邦學(xué)習(xí)場(chǎng)景。在接下來(lái)的工作中,將考慮在訓(xùn)練時(shí),惡意用戶可能實(shí)施投毒攻擊的情況。
參考文獻(xiàn):
[1]McMahan B,Moore E,Ramage D,et al.Communication-efficient learning of deep networks from decentralized data[C]//Proc of the 20th International Conference on Artificial Intelligence and Statistics.2017:1273-1282.
[2]Nasr M,Shokri R,Houmansadr A.Comprehensive privacy analysis of deep learning:passive and active white-box inference attacks against centralized and federated learning[C]//Proc of the 40th IEEE Symposium on Security and Privacy.Washington DC:IEEE Computer Society,2019:739-753.
[3]Zhu Ligeng,Liu Zhijian,Han Song.Deep leakage from gradients[C]//Proc of International Conference on Neural Information Proces-sing Systems Cambridge,MA:MIT Press,2019:1323-1334.
[4]Zhao Bo,Mopuri K R,Bilen H.IDLG:improved deep leakage from gradients[EB/OL].(2020-01-08).https://arxiv.org/abs/2001.02610.
[5]Bonawitz K,Ivanov V,Kreuter B,et al.Practical secure aggregation for privacy-preserving machine learning[C]//Proc of ACM SIGSAC Conference on Computer and Communications Security.New York:ACM Press,2017:1175-1191.
[6]Zhang Chengliang,Li Suyi,Xia Junzhe,et al.Batchcrypt:efficient homomorphic encryption for cross-silo federated learning[C]//Proc of USENIX Annual Technical Conference.Berkeley,CA:USENIX Association,2020:493-506.
[7]Stevens T,Skalka C,Vincent C,et al.Efficient differentially private secure aggregation for federated learning via hardness of learning with errors[C]//Proc of USENIX Security Symposium.Berkeley,CA:USENIX Association,2022:1379-1395.
[8]Liu Ziyao,Guo Jiale,Lam K Y,et al.Efficient dropout-resilient aggregation for privacy-preserving machine learning[J].IEEE Trans on Information Forensics and Security,2023,18:1839-1854.
[9]王美玲,吳長(zhǎng)澤.格上基于身份的授權(quán)函數(shù)線性同態(tài)簽名方案[J].計(jì)算機(jī)應(yīng)用研究,2021,38(11):3417-3422.(Wang Meiling,Wu Changze.Identity-based authorized function linearly homomorphic signature schemes on lattices[J].Application Research of Computers,2021,38(11):3417-3422.)
[10]Pasquini D,F(xiàn)rancati D,Ateniese G.Eluding secure aggregation in fe-derated learning via model inconsistency[C]//Proc of ACM SIGSAC Conference on Computer and Communications Security.New York:ACM Press,2022:2429-2443.
[11]Xu Guowen,Li Hongwei,Liu Sen,et al.VerifyNet:secure and verifiable federated learning[J].IEEE Trans on Information Forensics and Security,2020,15:911-926.
[12]Fu Anmin,Zhang Xianglong,Xiong Naixue,et al.VFL:a verifiable federated learning with privacy-preserving for big data in industrial IoT[J].IEEE Trans on Industrial Informatics,2022,18(5):3316-3326.
[13]Guo Xiaojie,Liu Zheli,Li Jin,et al.VeriFL:communication-efficient and fast verifiable aggregation for federated learning[J].IEEE Trans on Information Forensics and Security,2021,16:1736-1751.
[14]Ren Yanli,Li Yerong,F(xiàn)eng Guorui,et al.Privacy-enhanced and verification-traceable aggregation for federated learning[J].IEEE Internet of Things Journal,2022,9(24):24933-24948.
[15]Li Tian,Sahu A K,Talwalkar A,et al.Federated learning:challenges,methods,and future directions[J].IEEE Signal Processing Magazine,2020,37(3):50-60.
[16]徐智宇,王亮亮.車聯(lián)網(wǎng)中支持直接撤銷的外包屬性簽名方案[J].計(jì)算機(jī)應(yīng)用研究,2024,41(2):569-575,581.(Xu Zhiyu,Wang Liangliang.Outsourced attribute-based signature scheme with direct revocation support for vehicular Ad hoc network[J].Application Research of Computers,2024,41(2):569-575,581.)
[17]Hahn C,Kim H,Kim M,et al.VerSA:verifiable secure aggregation for cross-device federated learning[J].IEEE Trans on Dependable and Secure Computing,2021,20(1):36-52.
[18]Xu Yi,Peng Changgen,Tan Weijie,et al.Non-interactive verifiable privacy-preserving federated learning[J].Future Generation Computer Systems,2022,128:365-380.
[19]Eltaras T,Sabry F,Labda W,et al.Efficient verifiable protocol for privacy-preserving aggregation in federated learning[J].IEEE Trans on Information Forensics and Security,2023,18:2977-2990.
[20]Zheng Yifeng,Lai Shanqi,Liu Yi,et al.Aggregation service for federated learning:an efficient,secure,and more resilient realization[J].IEEE Trans on Dependable and Secure Computing,2022,20(2):988-1001.
[21]Bellare M,Goldreich O,Goldwasser S.Incremental cryptography:the case of hashing and signing[C]//Proc of Annual International Cryptology Conference.Berlin:Springer,2001:216-233.
[22]Shamir A.How to share a secret[J].Communications of the ACM,1979,22(11):612-613.
[23]Pedersen T P.Non-interactive and information-theoretic secure verifiable secret sharing[C]//Proc of Annual International Cryptology Conference.Berlin:Springer,1991:129-140.
[24]Franck C,Groβsch?dl J.Efficient implementation of pedersen commitments using twisted Edwards curves[C]//Mobile Secure,and Programmable Networking.Cham:Springer,2017:1-17.
[25]Chen A C H.Using elliptic curve cryptography for homomorphic hashing[C]//Proc of International Conference on Smart Systems for Applications in Electrical Sciences.Piscataway,NJ:IEEE Press,2023:1-5.
[26]Zhang Yanci,Yu Han.Towards verifiable federated learning[C]//Proc of the 21st International Joint Conference on Artificial Intelligence.San Francisco,CA:Morgan Kaufmann Publishers,2022:5686-5693.