摘" 要:隨著數(shù)據(jù)隱私保護需求的不斷增加,聯(lián)邦學(xué)習(xí)作為一種分布式機器學(xué)習(xí)方法,能夠在不集中數(shù)據(jù)的情況下進行模型訓(xùn)練。而聯(lián)邦學(xué)習(xí)仍面臨參與方數(shù)據(jù)在模型訓(xùn)練過程中泄露的風(fēng)險。為解決這一問題,文章提出了一種基于全同態(tài)加密的聯(lián)邦學(xué)習(xí)隱私保護技術(shù)。通過在聯(lián)邦學(xué)習(xí)的模型參數(shù)聚合階段引入全同態(tài)加密技術(shù),使得參數(shù)計算和更新均在加密態(tài)下完成,從而確保了參與方數(shù)據(jù)的隱私安全。同時設(shè)計了一個高效的隱私保護框架,并在多個公開數(shù)據(jù)集上進行了實驗驗證。實驗結(jié)果表明,所提出的聯(lián)邦學(xué)習(xí)框架不僅保證了模型準(zhǔn)確性,也提高了數(shù)據(jù)隱私保護的安全性和計算效率。
關(guān)鍵詞:聯(lián)邦學(xué)習(xí);全同態(tài)加密;隱私保護;分布式機器學(xué)習(xí);數(shù)據(jù)安全
中圖分類號:TP309" 文獻標(biāo)識碼:A" 文章編號:2096-4706(2024)23-0170-05
Research on Privacy Protection Technology for Federated Learning Based on Fully Homomorphic Encryption
LI Qiuxian, ZHOU Quanxing
(Kaili University, Kaili" 556011, China)
Abstract: With the increasing demand for data privacy protection, Federated Learning could conduct the model training without centralizing data as a Distributed Machine Learning method. However, Federated Learning still faces the risk of participant data leakage in the process of model training. To address this issue, this paper proposes a privacy protection technique for Federated Learning based on Fully Homomorphic Encryption. By introducing FHE technology into the model parameter aggregation phase of Federated Learning, the parameter computation and updates are performed in an encrypted state, so as to ensure the privacy security of the participant data. At the same time, this paper designs an efficient privacy protection framework and conducts experimental validation on multiple public datasets. The experimental results show that the proposed Federated Learning framework not only ensures the accuracy of the model, but also improves the security and computing efficiency of data privacy protection.
Keywords: Federated Learning; Fully Homomorphic Encryption; privacy protection; Distributed Machine Learning; data security
0" 引" 言
隨著信息技術(shù)的迅猛發(fā)展和數(shù)據(jù)應(yīng)用的日益普及,數(shù)據(jù)隱私保護問題逐漸成為學(xué)術(shù)界和工業(yè)界關(guān)注的焦點[1]。傳統(tǒng)的集中式機器學(xué)習(xí)方法需要將數(shù)據(jù)集中存儲和處理,這不僅增加了數(shù)據(jù)泄露的風(fēng)險,還在一定程度上違背了隱私保護的基本原則[2]。為了解決這一問題,谷歌首次提出了聯(lián)邦學(xué)習(xí)(Federated Learning, FL)的概念[3]。聯(lián)邦學(xué)習(xí)是一種分布式機器學(xué)習(xí)方法,通過在各參與方本地數(shù)據(jù)上訓(xùn)練模型,并將本地訓(xùn)練的模型參數(shù)發(fā)送至中央服務(wù)器進行聚合更新,從而實現(xiàn)全局模型的訓(xùn)練[4-5]。這樣,數(shù)據(jù)無須離開本地,從而在一定程度上保護了數(shù)據(jù)隱私[6]。
盡管聯(lián)邦學(xué)習(xí)有效地降低了數(shù)據(jù)集中存儲的隱私風(fēng)險,但在模型參數(shù)交換過程中,參與方的數(shù)據(jù)仍可能被惡意攻擊者竊取或推斷[7]?,F(xiàn)有的隱私保護技術(shù)如差分隱私[8](Differential Privacy, DP)和多方安全計算[9](Secure Multi-Party Computation, SMPC),雖然在一定程度上提高了數(shù)據(jù)安全性,但在應(yīng)用于聯(lián)邦學(xué)習(xí)時,往往面臨計算復(fù)雜度高、通信開銷大以及模型精度降低等問題[10]。因此,探索高效且安全的隱私保護技術(shù)以保障聯(lián)邦學(xué)習(xí)過程中的數(shù)據(jù)隱私顯得尤為重要[11]。
全同態(tài)加密[12](Fully Homomorphic Encryption, FHE)作為一種新興的加密技術(shù),具有在加密態(tài)下直接執(zhí)行計算的獨特優(yōu)勢。全同態(tài)加密允許在不解密數(shù)據(jù)的情況下進行各種算術(shù)操作,從而在確保數(shù)據(jù)隱私的前提下完成計算任務(wù)[13]。OU等人[14]針對貝葉斯機器學(xué)習(xí),設(shè)計了一個基于同態(tài)加密的垂直聯(lián)邦學(xué)習(xí)系統(tǒng),該系統(tǒng)訓(xùn)練出的模型與單個聯(lián)合服務(wù)器訓(xùn)練出的模型相當(dāng)。MADI等人[15]通過結(jié)合同態(tài)加密 和可驗證計算技術(shù)來實現(xiàn)聚合模型的安全性,以便直接在加密域中執(zhí)行聯(lián)邦平均運算符并生成正確應(yīng)用運算符的正式證明。MA等人[16]提出了MK-CKKS多密鑰同態(tài)加密協(xié)議的改進版本,設(shè)計了一種新穎的隱私保護聯(lián)邦學(xué)習(xí)方案,在該方案中,模型更新在與服務(wù)器共享以進行聚合之前通過聚合公鑰加密。HIJAZI等人[17]提出了四種不同的基于聯(lián)邦學(xué)習(xí)的全同態(tài)加密方法,其中數(shù)據(jù)被加密并通過安全介質(zhì)傳輸。所提出的方法除了提供強大的隱私和安全保障外,還實現(xiàn)了高準(zhǔn)確率、召回率、精確率和F值。將全同態(tài)加密技術(shù)引入聯(lián)邦學(xué)習(xí),能夠在不泄露參與方數(shù)據(jù)的情況下,完成模型參數(shù)的計算和更新,從而提供了一種有效的數(shù)據(jù)隱私保護方案[18]。
綜上所述,本研究旨在探討基于全同態(tài)加密的聯(lián)邦學(xué)習(xí)隱私保護技術(shù),通過在聯(lián)邦學(xué)習(xí)的模型參數(shù)聚合階段引入全同態(tài)加密極速,使得參數(shù)計算和模型更新均在加密態(tài)下進行,從而確保參與方數(shù)據(jù)的隱私安全。本文設(shè)計并實現(xiàn)了一個高效的隱私保護框架,并在多個公開數(shù)據(jù)集上進行了實驗驗證。實驗結(jié)果表明,所提出的方法在保證模型準(zhǔn)確性的同時,顯著提高了數(shù)據(jù)隱私保護的安全性和計算效率。
1" 預(yù)備知識
1.1" 全同態(tài)加密
全同態(tài)加密是一種密碼學(xué)技術(shù),允許在不解密數(shù)據(jù)的情況下直接對加密數(shù)據(jù)進行算術(shù)操作。全同態(tài)加密的基本思想是對加密數(shù)據(jù)進行操作,其結(jié)果與對明文數(shù)據(jù)進行相同操作后再加密的結(jié)果相同,從而在確保數(shù)據(jù)隱私的前提下完成計算任務(wù)。形式化定義如下:
設(shè)E(m)表示消息m的加密形式,⊕和?分別表示加密態(tài)下的加法和乘法運算。全同態(tài)加密滿足以下性質(zhì):
加法同態(tài)性:E(m1)⊕E(m2) = E(m1+m2)
乘法同態(tài)性:E(m1)?E(m2) = E(m1×m2)
其中,m1和m2為明文數(shù)據(jù)。
1.2" 聯(lián)邦學(xué)習(xí)
聯(lián)邦學(xué)習(xí)是一種新興的分布式機器學(xué)習(xí)方法,其思想是通過在各參與方本地數(shù)據(jù)上獨立訓(xùn)練模型,然后將本地模型參數(shù)發(fā)送至中央服務(wù)器進行聚合更新,從而在不需要共享數(shù)據(jù)的情況下構(gòu)建全局模型。形式化定義如下:
假設(shè)有K個參與方,每個參與方k持有本地數(shù)據(jù)集Dk,全局模型的目標(biāo)是最小化全局損失函數(shù):
其中,w為模型參數(shù),F(xiàn)k(w)為參與方k的本地?fù)p失函數(shù),|Dk|為參與方k的數(shù)據(jù)集大小,|D|為所有參與方數(shù)據(jù)集的總大小。
在每一輪迭代中,聯(lián)邦學(xué)習(xí)的具體過程如下:
本地訓(xùn)練:每個參與方k使用本地數(shù)據(jù)集Dk訓(xùn)練模型,并且更新本地模型參數(shù)wk:
其中,η為學(xué)習(xí)率,?Fk(w(t))為本地?fù)p失函數(shù)的梯度。
參數(shù)上傳:每個參與方將更新后的本地模型參數(shù) 上傳至中央服務(wù)器。
全局聚合:中央服務(wù)器接收所有參與方上傳的本地模型參數(shù),并進行加權(quán)平均以更新全局模型參數(shù)w:
模型下發(fā):中央服務(wù)器將更新后的全局模型參數(shù)w(t+1)發(fā)送回各參與方,開始新一輪的本地訓(xùn)練。
2" 聯(lián)邦學(xué)習(xí)隱私保護框架
為了確保在聯(lián)邦學(xué)習(xí)過程中參與方的數(shù)據(jù)隱私安全,本文提出了一種基于全同態(tài)加密的隱私保護框架。該框架包括三個主要階段:初始化階段、聚合階段和解密階段。
2.1" 初始化階段
在初始化階段,聯(lián)邦學(xué)習(xí)的參與方和中央服務(wù)器需要生成公鑰和私鑰,并分發(fā)公鑰。每個參與方對其本地模型參數(shù)進行加密,然后將加密后的參數(shù)上傳到中央服務(wù)器。
密鑰生成:中央服務(wù)器運行密鑰生成算法生成全同態(tài)加密方案的公鑰pk和私鑰sk,并將公鑰pk分發(fā)給所有參與方??尚问交癁椋╬k,sk)?KeyGen(1λ),其中λ為安全參數(shù),用于增加加密的安全強度。
本地模型訓(xùn)練與加密:每個參與方k在本地數(shù)據(jù)集Dk上訓(xùn)練模型,得到本地模型參數(shù)wk。然后,使用公鑰pk對本地模型參數(shù)wk進行加密:E(wk)=Encpk(wk),其中Encpk(wk)為使用公鑰pk進行加密的操作。
參數(shù)上傳:每個參與方將加密后的本地模型參數(shù)E(wk)上傳至中央服務(wù)器:Send(E(wk))?Central Server。
2.2" 聚合階段
在聚合階段,中央服務(wù)器接收所有參與方上傳的加密模型參數(shù),并在加密態(tài)下對這些參數(shù)進行聚合計算,生成全局模型參數(shù)。
加密參數(shù)接收:中央服務(wù)器接收所有參與方上傳的加密模型參數(shù)E(wk),即。
加權(quán)平均聚合:中央服務(wù)器使用全同態(tài)加密算法對加密參數(shù)進行加權(quán)平均聚合。假設(shè)|Dk|為參與方k的數(shù)據(jù)集大小,|D|為所有參與方數(shù)據(jù)集的總大小,則全局模型參數(shù)E(wg)的計算為:
由于全同態(tài)加密的加法同態(tài)性,可以直接在加密態(tài)下進行加權(quán)求和:
參數(shù)加密結(jié)果:聚合后的加密全局模型參數(shù)E(wg)由中央服務(wù)器存儲,以供解密階段使用。
2.3" 解密階段
在解密階段,中央服務(wù)器將聚合后的加密模型參數(shù)發(fā)送給各參與方,各參與方使用私鑰對其進行解密,獲得更新后的全局模型參數(shù)。
參數(shù)分發(fā):中央服務(wù)器將聚合后的全局模型參數(shù)E(wg)發(fā)送給各參與方:
參數(shù)解密:每個參與方使用私鑰sk對接收到的加密全局模型參數(shù)E(wg)進行解密,獲得更新后的全局模型參數(shù)wg = Decsk(E(wg)),其中Decsk為使用私鑰sk進行解密的操作。
本地模型更新:每個參與方使用解密后的全局模型參數(shù)wg更新其本地模型參數(shù),并開始新一輪的本地訓(xùn)練:。
3" 安全性證明
為保證本文提出的基于全同態(tài)加密的聯(lián)邦學(xué)習(xí)隱私保護框架的安全性,本節(jié)將從兩個方面進行詳細(xì)的安全性證明,包括參與方數(shù)據(jù)的隱私性和中央服務(wù)器的安全性。
3.1" 參與方數(shù)據(jù)隱私性
本文提出的基于全同態(tài)加密的聯(lián)邦學(xué)習(xí)隱私保護框架參與方數(shù)據(jù)具有隱私性。
在聯(lián)邦學(xué)習(xí)過程中,參與方的數(shù)據(jù)隱私性主要體現(xiàn)在本地模型參數(shù)的加密和傳輸過程中。通過全同態(tài)加密技術(shù),確保本地模型參數(shù)wk在傳輸過程中始終保持加密態(tài)E(wk),即使在傳輸過程中被截獲,攻擊者也無法獲取明文數(shù)據(jù)。
假設(shè)存在惡意攻擊者能夠截獲加密后的本地模型參數(shù)E(wk),由于全同態(tài)加密方案的安全性,惡意攻擊者無法在多項式時間內(nèi)從E(wk)中恢復(fù)出明文wk。對于任何多項式時間存在惡意攻擊者,其成功概率Pr[(E(wk))=wk]是可忽略的,即:Pr[(Ewk))=wk]≤?(λ),其中?(λ)為隨安全參數(shù)λ增長的可忽略函數(shù)。因此,本文提出的基于全同態(tài)加密的聯(lián)邦學(xué)習(xí)隱私保護框架中的參與方數(shù)據(jù)具有隱私性。
3.2" 中央服務(wù)器的安全性
本文提出的基于全同態(tài)加密的聯(lián)邦學(xué)習(xí)隱私保護框架的中央服務(wù)器具有安全性。
中央服務(wù)器在接收到所有參與方上傳的加密模型參數(shù)后,進行加密態(tài)下的加權(quán)平均聚合,生成全局模型參數(shù)E(wg),由于整個計算過程在加密態(tài)下進行,中央服務(wù)器無法獲取參與方的明文數(shù)據(jù)。
在加密態(tài)下進行加權(quán)平均聚合計算,確保中央服務(wù)器無法解密和訪問明文模型參數(shù)。中央服務(wù)器對加密模型參數(shù)進行加權(quán)平均聚合計算,得到E(wg),即:
由于全同態(tài)加密的加法同態(tài)性,中央服務(wù)器無法從E(wg)中恢復(fù)出明文模型參數(shù)。因此,本文提出的基于全同態(tài)加密的聯(lián)邦學(xué)習(xí)隱私保護框架的中央服務(wù)器也具有安全性。
4" 實驗
4.1" 實驗設(shè)置
本實驗選擇了MNIST手寫數(shù)字識別數(shù)據(jù)集和CIFAR-10圖像分類數(shù)據(jù)集進行實驗,這些數(shù)據(jù)集廣泛用于機器學(xué)習(xí)和深度學(xué)習(xí)的研究,具有代表性。實驗在具備高性能計算能力的服務(wù)器上進行,配置包括Intel Xeon E5-2680 v4處理器、256 GB內(nèi)存和Ubuntu 20.04操作系統(tǒng),并使用HElib庫實現(xiàn)全同態(tài)加密。模型架構(gòu)采用經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)(CNN),對于MNIST數(shù)據(jù)集,使用兩層卷積層和兩層全連接層的模型;對于CIFAR-10數(shù)據(jù)集,使用三層卷積層和兩層全連接層的模型。實驗參數(shù)包括學(xué)習(xí)率0.01、批次大小64、訓(xùn)練輪數(shù)10輪,加密參數(shù)選擇安全參數(shù)λ = 80,密鑰大小為1 024位。評估指標(biāo)采用準(zhǔn)確率、加密和解密時間、通信開銷和計算開銷。
4.2" 實驗結(jié)果分析
首先,在不同數(shù)據(jù)集上,比較了使用全同態(tài)加密和不使用全同態(tài)加密的模型準(zhǔn)確率,實驗結(jié)果如圖1所示。
圖1展示了在MNIST和CIFAR-10數(shù)據(jù)集上,不使用加密和使用全同態(tài)加密的模型準(zhǔn)確率。實驗結(jié)果表明,盡管使用全同態(tài)加密會略微降低模型訓(xùn)練的準(zhǔn)確率,但整體影響不大,模型仍能保持較高的準(zhǔn)確率。這驗證了全同態(tài)加密在不顯著影響模型性能的前提下,有效保護了數(shù)據(jù)隱私。
接著,通過模擬實驗評估在全同態(tài)加密下聯(lián)邦學(xué)習(xí)各節(jié)點訓(xùn)練模型任務(wù)的平均通信開銷,分析不同節(jié)點的平均通信開銷,比較在不同數(shù)據(jù)批大小下的通信開銷變化,實驗結(jié)果如圖2所示。
圖2展示了在不同數(shù)據(jù)批大小下,不使用加密和使用全同態(tài)加密的節(jié)點的平均通信開銷。由圖可知,隨著數(shù)據(jù)批大小的增加,各節(jié)點的平均通信開銷也逐漸增多。然而,使用全同態(tài)加密的節(jié)點在整個實驗中的平均通信開銷略高于不使用加密的節(jié)點。盡管如此,這種增加的通信開銷在可接受范圍內(nèi),能夠為隱私保護提供有效保障。
最后,對本框架在MNIST和CIFAR-10數(shù)據(jù)集上,每輪訓(xùn)練的加密和解密時間進行實驗分析對比,實驗結(jié)果如圖3所示。
由圖3可知,隨著數(shù)據(jù)集的復(fù)雜性增加,加密和解密時間也有所增加。具體而言,MNIST數(shù)據(jù)集的加密時間為0.25 s,解密時間為0.20 s;CIFAR-10數(shù)據(jù)集的加密時間為0.40 s,解密時間為0.35 s。結(jié)果表明基于全同態(tài)加密的聯(lián)邦學(xué)習(xí)框架在保證數(shù)據(jù)隱私的前提下,具有較好的計算效率和可行性。
5" 結(jié)" 論
本文提出了一種基于全同態(tài)加密的聯(lián)邦學(xué)習(xí)隱私保護技術(shù),通過在聯(lián)邦學(xué)習(xí)的模型參數(shù)聚合階段引入全同態(tài)加密技術(shù),實現(xiàn)了參數(shù)計算和更新均在加密態(tài)下完成,從而確保了參與方數(shù)據(jù)的隱私安全。通過實驗分析,所提出的隱私保護框架在保證模型準(zhǔn)確性的同時,顯著提高了數(shù)據(jù)隱私保護的安全性和計算效率。在MNIST和CIFAR-10數(shù)據(jù)集上的實驗驗證了該框架的有效性和可行性,盡管在通信開銷和計算開銷上有所增加,但這些開銷在可接受范圍內(nèi)。下一步的工作將集中在進一步優(yōu)化全同態(tài)加密算法,以減少計算和通信開銷,同時保持模型框架的安全性和準(zhǔn)確性。
參考文獻:
[1] BINJUBEIR M,AHMED A A,ISMAIL M A B,et al. Comprehensive Survey on Big Data Privacy Protection [J].IEEE Access,2019,8:20067-20079.
[2] YANG P,XIONG N X,REN J L. Data Security and Privacy Protection for Cloud Storage: A Survey [J].IEEE Access,2020,8:131723-131740.
[3] KAIROUZ P,MCMAHAN H B,AVENT B,et al. Advances and Open Problems in Federated Learning [J].Foundations and trends? in machine learning,2021,14(1-2):1-210.
[4] ZHANG C,XIE Y,BAI H,et al. A Survey on Federated Learning [J].Knowledge-Based Systems,2021,216:1-11.
[5] 方晨,郭淵博,王一豐,等.基于區(qū)塊鏈和聯(lián)邦學(xué)習(xí)的邊緣計算隱私保護方法 [J].通信學(xué)報,2021,42(11):28-40.
[6] 李榮昌,劉濤,鄭海斌,等.基于最大最小策略的縱向聯(lián)邦學(xué)習(xí)隱私保護方法 [J].自動化學(xué)報,2024,50(7):1373-1388.
[7] YIN X F,ZHU Y M,HU J K. A Comprehensive Survey of Privacy-Preserving Federated Learning: A Taxonomy Review and Future Directions [J].ACM Computing Surveys,2022,54(6):1-36.
[8] WEI K,LI J,DING M,et al. Federated Learning With Differential Privacy: Algorithms and Performance Analysis [J].IEEE transactions on information forensics and security,2020,15:3454-3469.
[9] KNOTT B,VENKATARAMAN S,HANNUN A,et al. Crypten: Secure Multi-Party Computation Meets Machine Learning [J/OL].arXiv:2109.00984[cs.LG].[2024-05-08].https://arxiv.org/abs/2109.00984?context=cs.CR.
[10] LI Q L,WEN Z Y,WU Z M,et al. A Survey on Federated Learning Systems: Vision Hype and Reality for Data Privacy and Protection [J].IEEE Transactions on Knowledge and Data Engineering,2023,35(4):3347-3366.
[11] LYU L J,YU H,MA X J,et al. Privacy and Robustness in Federated Learning: Attacks and Defenses [J].IEEE transactions on neural networks and learning systems,2024,35(7):8726-8746.
[12] YOUSUF H,LAHZI M,SALLOUM S A,et al. Systematic Review on Fully Homomorphic Encryption Scheme and Its Application [J].Recent Advances in Intelligent Systems and Smart Applications,2020:537-551.
[13] 戴怡然,張江,向斌武,等.全同態(tài)加密技術(shù)的研究現(xiàn)狀及發(fā)展路線綜述 [J].電子與信息學(xué)報,2024,46(5):1774-1789.
[14] OU W,ZENG J H,GUO Z J,et al. A Homomorphic-Encryption-Based Vertical Federated Learning Scheme for Rick Management [J].Computer Science and Information Systems,2020,17(3):819-834.
[15] MADI A,STAN O,MAYOUE A,et al. A Secure Federated Learning Framework Using Homomorphic Encryption and Verifiable Computing [C]//2021 Reconciling Data Analytics Automation Privacy and Security:A Big Data Challenge (RDAAPS).Hamilton:IEEE,2021:1-8.
[16] MA J,NAAS S A,SIGG S,et al. Privacy‐Preserving Federated Learning Based on Multi-Key Homomorphic Encryption [J].International Journal of Intelligent Systems,2022,37(9):5880-5901.
[17] HIJAZI N M,ALOQAILY M,GUIZANI M,et al. Secure Federated Learning With Fully Homomorphic Encryption for IoT Communications [J].IEEE Internet of Things Journal,2024,11(3):4289-4300.
[18] ZHANG L,XU J B,VIJAYAKUMAR P,et al. Homomorphic Encryption-Based Privacy-Preserving Federated Learning in IoT-Enabled Healthcare System [J].IEEE Transactions on Network Science and Engineering,2022,10(5):2864-2880.
作者簡介:李秋賢(1992—),女,漢族,河南焦作人,講師,碩士,主要研究方向:信息安全、博弈論;周全興(1987—),男,漢族,貴州遵義人,副教授,學(xué)士,主要研究方向:區(qū)塊鏈、聯(lián)邦學(xué)習(xí)。