張攀峰,吳丹華,董明剛
(1.桂林理工大學(xué) 信息科學(xué)與工程學(xué)院,廣西 桂林 541006;2.廣西嵌入式技術(shù)與智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541006)
人工智能與大數(shù)據(jù)的聯(lián)合應(yīng)用模式近年來(lái)得到研究人員廣泛關(guān)注,然而在人工智能與大數(shù)據(jù)技術(shù)快速迭代的同時(shí),相關(guān)數(shù)據(jù)的隱私安全問(wèn)題也日益嚴(yán)重。由于隱私泄露引發(fā)的社會(huì)風(fēng)險(xiǎn)層出不窮,在既保證數(shù)據(jù)的持續(xù)有效性又保護(hù)用戶隱私不被披露的前提下,從海量數(shù)據(jù)共享問(wèn)題中找到一種通用的交互方案尤為重要。差分隱私(Differential Privacy,DP)作為一種具有理論安全基礎(chǔ)的數(shù)學(xué)模型,不僅可以直接應(yīng)用于數(shù)據(jù)隱私保護(hù),而且還能在人工智能深度學(xué)習(xí)領(lǐng)域提高模型的安全性,保護(hù)訓(xùn)練數(shù)據(jù)的隱私安全。
差分隱私可以被應(yīng)用于推薦系統(tǒng)[1]、網(wǎng)絡(luò)蹤跡分析、運(yùn)輸信息保護(hù)[2]、搜索日志保護(hù)等領(lǐng)域。蘋(píng)果公司使用本地化差分隱私手段來(lái)保護(hù)iOS 和MacOS 系統(tǒng)的用戶隱私,并將該技術(shù)應(yīng)用于Emoji、QuickType 輸入建議、查找提示等領(lǐng)域,如使用CMS算法幫助其獲得最受歡迎的Emoji 表情用來(lái)進(jìn)一步提升Emoji 使用的用戶體驗(yàn)。蘋(píng)果公司要求應(yīng)用商店中上線的應(yīng)用都必須增加“隱私標(biāo)簽”,以符合“應(yīng)用跟蹤透明度”功能的要求。谷歌公司運(yùn)用該項(xiàng)技術(shù)開(kāi)發(fā)出隱私沙盒,允許廣告客戶展示有針對(duì)性的廣告,但不會(huì)直接訪問(wèn)用戶個(gè)人的詳細(xì)信息。
此外,區(qū)塊鏈技術(shù)、聯(lián)邦學(xué)習(xí)等也可與該隱私手段相結(jié)合。例如,隨著區(qū)塊鏈的不斷應(yīng)用,環(huán)簽名可以隱藏交易發(fā)起方,但不能保護(hù)區(qū)塊鏈存儲(chǔ)的數(shù)據(jù),因此區(qū)塊鏈的數(shù)據(jù)保護(hù)也可通過(guò)滿足差分隱私得以保護(hù)[3]。聯(lián)邦學(xué)習(xí)技術(shù)將來(lái)自不同隔離狀態(tài)的數(shù)據(jù)盡可能統(tǒng)一,打破了數(shù)據(jù)孤島障礙。同時(shí),用戶可以在不暴露原始數(shù)據(jù)的情況下參與深度學(xué)習(xí),既能實(shí)現(xiàn)高質(zhì)量模型的訓(xùn)練,又能保護(hù)隱私[4],因此差分隱私聯(lián)邦學(xué)習(xí)能進(jìn)一步預(yù)防攻擊者從共享參數(shù)中推理出敏感信息。建設(shè)理想的人工智能世界需要數(shù)據(jù)、模型學(xué)習(xí)模式和智能算法,在這些需求下用戶的隱私保護(hù)非常重要,基于差分隱私的保護(hù)技術(shù)已逐漸滲透到各個(gè)行業(yè),成為除匿名、聚類、圖修改[5-6]外的又一重要的隱私保護(hù)手段。
然而,在算法模型中引入差分隱私機(jī)制后數(shù)據(jù)的可用性可能會(huì)下降,權(quán)衡算法高效性和隱私保護(hù)程度仍然是研究該領(lǐng)域的難題。為此,本文結(jié)合算法模型在訓(xùn)練過(guò)程中的特點(diǎn),對(duì)擾動(dòng)后的參數(shù)進(jìn)行優(yōu)化,提出一種基于粒子群優(yōu)化(Particle Swarm Optimization,PSO)算法的差分隱私模型訓(xùn)練方案,對(duì)網(wǎng)絡(luò)中的梯度進(jìn)行隱私保護(hù),防止模型攻擊中竊取的參數(shù)造成用戶數(shù)據(jù)泄露。最后在集中式和聯(lián)邦學(xué)習(xí)架構(gòu)上進(jìn)行訓(xùn)練和驗(yàn)證,防止數(shù)據(jù)的效用缺失。
ABADI 等[7]將深度學(xué)習(xí)方法與差分隱私機(jī)制相結(jié)合,針對(duì)非凸優(yōu)化且包含大量參數(shù)的復(fù)雜神經(jīng)網(wǎng)絡(luò)中隱私損失較大的問(wèn)題,提出運(yùn)用DP-SGD 算法計(jì)算訓(xùn)練模型。此外,通過(guò)高階矩追蹤隱私損失的詳細(xì)信息,分析差分隱私框架下的隱私成本,提高隱私計(jì)算效率。該算法的提出為差分隱私深度模型訓(xùn)練在收斂性[8-9]、隱私分析、剪裁閾值[10-12]、超參數(shù)選擇[13-15]等研究奠定了基礎(chǔ)。然而,隨著模型的加深和迭代次數(shù)的積累,噪聲也會(huì)相應(yīng)變大。為解決上述問(wèn)題,YU 等[16]提出一種GEP 算法,將模型梯度映射到一個(gè)低維的錨子空間后再做擾動(dòng),繞開(kāi)了維度依賴,并用輔助數(shù)據(jù)估計(jì)一個(gè)錨子空間,將敏感梯度映射到錨子空間中,得到一個(gè)低維的嵌入梯度和一個(gè)滿足最小范數(shù)的殘差梯度,分別在嵌入的梯度及殘差梯度中添加噪聲進(jìn)行干擾,保證一定的差分隱私預(yù)算,由此實(shí)現(xiàn)比原來(lái)的梯度干擾低得多的擾動(dòng),且能保證相同的隱私水平。隨后文獻(xiàn)[17]提出一種基于重參數(shù)化的RGP 算法,通過(guò)兩個(gè)低維的梯度載流子矩陣和一個(gè)殘差權(quán)重矩陣對(duì)每個(gè)參數(shù)矩陣進(jìn)行參數(shù)化,以近似的方式將投影梯度逼近原始梯度,對(duì)梯度-載波矩陣上的梯度進(jìn)行擾動(dòng),并從有噪聲的梯度中更新原始權(quán)重,但該方法在每一輪網(wǎng)絡(luò)訓(xùn)練中都需要兩個(gè)參數(shù)矩陣的參與,提高了網(wǎng)絡(luò)計(jì)算的復(fù)雜度,對(duì)算力的需求較高,且投影梯度的方法忽略了參數(shù)結(jié)構(gòu)的內(nèi)在幾何,阻礙經(jīng)驗(yàn)風(fēng)險(xiǎn)的最小化。
許多主流差分隱私深度學(xué)習(xí)算法都是對(duì)計(jì)算過(guò)程擾動(dòng)的優(yōu)化,文獻(xiàn)[18]通過(guò)對(duì)梯度進(jìn)行編碼,將其映射到更小的梯度空間進(jìn)行擾動(dòng),并把梯度編碼到一個(gè)有限的向量空間,使用數(shù)值技術(shù)來(lái)獲得給定噪聲分布的差分隱私邊界以確定更好的效用-隱私權(quán)衡。DPTTAE 算法[19]使用一個(gè)更精確的近似張量打破高維參數(shù)矩陣約束,并利用差分隱私提供一個(gè)有保證的隱私和張量序列來(lái)壓縮權(quán)重張量。YANG等[20]在DP-SGD 算法中對(duì)每個(gè)樣本進(jìn)行剪裁和歸一化后,再添加噪聲來(lái)模糊原始梯度信息,在DPNSGD 中引入一個(gè)正則因子以控制加速收斂,相應(yīng)地實(shí)現(xiàn)了偏差和噪聲權(quán)衡。文獻(xiàn)[21]通過(guò)黎曼流提出一個(gè)黎曼優(yōu)化框架,向遵循黎曼度量的切線空間黎曼梯度添加噪聲,實(shí)現(xiàn)了經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化函數(shù)的差分隱私。梯度包含了數(shù)據(jù)集的相關(guān)信息,在進(jìn)行參數(shù)更新之前的梯度中添加噪聲,即對(duì)用戶的數(shù)據(jù)進(jìn)行擾動(dòng),可以保證最終的輸出是被擾動(dòng)過(guò)的。梯度擾動(dòng)依賴期望曲率使之成為差分隱私深度學(xué)習(xí)的有效算法[8],在梯度擾動(dòng)算法中加入的噪聲和優(yōu)化算法會(huì)相互影響,噪聲會(huì)使優(yōu)化算法避開(kāi)最優(yōu)曲率方向,而優(yōu)化算法的收縮性則可以弱化之前步驟所添加的噪聲。
噪聲對(duì)模型依賴性較小,而添加的噪聲會(huì)與模型規(guī)模成正比,從而影響算法性能,因此在前沿深度網(wǎng)絡(luò)中仍存在巨大挑戰(zhàn)。本文算法是對(duì)計(jì)算過(guò)程進(jìn)行擾動(dòng),與梯度空間分析轉(zhuǎn)換不同,根據(jù)模型訓(xùn)練的特有傳播屬性,使其自學(xué)習(xí)出每一輪滿足隱私的最優(yōu)權(quán)重,減少了權(quán)重參數(shù)化后對(duì)幾何空間表述能力的依賴,且在保護(hù)隱私的同時(shí)仍具有較好的效用。
由于上述工作均采用模型訓(xùn)練時(shí)擾動(dòng)的方式滿足差分隱私,本文在多個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),并在實(shí)驗(yàn)過(guò)程中選擇較為典型的算法進(jìn)行對(duì)比,對(duì)簡(jiǎn)單的單通道數(shù)據(jù)集Mnist 和Fashion Mnist 采用2 種對(duì)比算法,對(duì)更為復(fù)雜的數(shù)據(jù)集Cifar-10 采用4 種算法進(jìn)行對(duì)比。最后,將本文算法在聯(lián)邦學(xué)習(xí)模式下進(jìn)行驗(yàn)證和評(píng)估。
本文主要貢獻(xiàn)如下:
1)提出一種基于PSO 的噪聲參數(shù)優(yōu)化方法,通過(guò)隨機(jī)尋優(yōu)或自適應(yīng)尋優(yōu)方案決定每一輪網(wǎng)絡(luò)的初始權(quán)重,利用網(wǎng)絡(luò)模型中參數(shù)的前向和反向傳播特點(diǎn),找到每一輪引入隨機(jī)化后的最優(yōu)參數(shù),以提高模型的最終輸出性能。
2)將網(wǎng)絡(luò)每一輪訓(xùn)練時(shí)的初始化參數(shù)設(shè)為當(dāng)前帶擾動(dòng)的最優(yōu)參數(shù),且在聯(lián)邦學(xué)習(xí)客戶端中使用同樣的參數(shù)優(yōu)化策略,使每個(gè)參與訓(xùn)練的客戶端最終返回帶擾動(dòng)的本地最優(yōu)參數(shù),中心服務(wù)器聚合的參數(shù)也為當(dāng)前最優(yōu)。
3)相較其他復(fù)雜的參數(shù)提取、分解和重構(gòu)等方案,基于PSO 的參數(shù)優(yōu)化方式更加便捷,處理速度更快。
差分隱私作為一種模糊查詢工具,使得個(gè)人用戶在數(shù)據(jù)集中對(duì)結(jié)果影響非常微小。在需要預(yù)防泄露的查詢上添加噪聲,并將其查詢操作返回的實(shí)際結(jié)果隱藏起來(lái)或者模糊化,直至無(wú)法區(qū)分,從而實(shí)現(xiàn)私人數(shù)據(jù)的保護(hù)。差分隱私定義如下[22]:
對(duì)于差別為一條記錄的數(shù)據(jù)集D和D',通過(guò)隨機(jī)算法M 的輸出結(jié)果為S子集的概率來(lái)滿足差分隱私。隱私保護(hù)開(kāi)銷ε反映了隱私保護(hù)水平,ε越小,隱私保護(hù)水平越高,映射出關(guān)于數(shù)據(jù)集的有用的信息程度越深,但在相同情況下,ε越小,數(shù)據(jù)可用性越低。
差分隱私保護(hù)可以通過(guò)在查詢函數(shù)的返回值中注入噪聲來(lái)實(shí)現(xiàn),但是噪聲的大小相應(yīng)地會(huì)影響數(shù)據(jù)的安全性和可用性。通常使用敏感性作為噪聲大小的參數(shù),表示刪除數(shù)據(jù)集中某一記錄對(duì)查詢結(jié)果造成的影響。常用擾動(dòng)通過(guò)拉普拉斯、高斯和指數(shù)機(jī)制來(lái)實(shí)現(xiàn)差分隱私保護(hù)。其中,拉普拉斯和高斯機(jī)制用于數(shù)值型結(jié)果的保護(hù),指數(shù)機(jī)制用于離散型結(jié)果的保護(hù)。
在相同或不同數(shù)據(jù)庫(kù)上可以重復(fù)使用差分隱私算法,其滿足組合理論[23]。
定理1假設(shè)有n個(gè)隨機(jī)算法M,當(dāng)其中任意兩個(gè)Mi的隨機(jī)過(guò)程相互獨(dú)立且滿足εi-差分隱私,則{Mi}(1 ≤i≤n)組合后的算法滿足εi-差分隱私。
定理2假設(shè)有n個(gè)隨機(jī)算法M,當(dāng)其中任意兩個(gè)Mi的隨機(jī)過(guò)程相互獨(dú)立且滿足εi-差分隱私,則{Mi}(1 ≤i≤n)組合后的算法也滿足max(εi) -差分隱私。
神經(jīng)網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)表示一個(gè)感知器,模擬生物細(xì)胞網(wǎng)絡(luò)中的電信號(hào)通過(guò)突觸傳遞給神經(jīng)元,當(dāng)神經(jīng)元收到的信號(hào)總和超過(guò)一定閾值后,細(xì)胞被激活,通過(guò)軸突向下一個(gè)神經(jīng)元細(xì)胞發(fā)送電信號(hào)以加工完成外界傳遞的信息。常見(jiàn)的多層感知機(jī)包含一個(gè)輸入輸出層和多個(gè)隱藏層,所有層都采用全連接方式。卷積神經(jīng)網(wǎng)絡(luò)由可以處理多維數(shù)據(jù)的輸入層、隱藏層和輸出層構(gòu)成,其中隱藏層一般包含卷積層、池化層和全連接層三類架構(gòu)。卷積層的反向傳播使用交叉相關(guān)計(jì)算,如式(2)所示:
其中:L 為風(fēng)險(xiǎn)管理誤差;f′為激活函數(shù)導(dǎo)數(shù);η為學(xué)習(xí)率。
ResNet[7]克服了訓(xùn)練深度增加導(dǎo)致的網(wǎng)絡(luò)退化問(wèn)題,并通過(guò)殘差學(xué)習(xí)向上堆疊新層來(lái)建立更新網(wǎng)絡(luò),相比普通網(wǎng)絡(luò)在卷積層之間增加了短路機(jī)制,使得對(duì)特征向量的學(xué)習(xí)發(fā)生改變。假設(shè)對(duì)輸入x學(xué)習(xí)到的特征是H(x),殘差是H(x)-x,原始的學(xué)習(xí)特征就變?yōu)镕(x)+x,使得殘差學(xué)習(xí)相比原始特征學(xué)習(xí)變得更容易。
粒子群優(yōu)化算法[24-25]的目標(biāo)是使所有粒子在搜索空間中找到最優(yōu)值。在初始化時(shí),給空間中所有粒子分配初始隨機(jī)位置和初始隨機(jī)速度,根據(jù)每個(gè)粒子的速度、問(wèn)題空間中已知的全局最優(yōu)位置和粒子已知的個(gè)體位置依次迭代推進(jìn)每個(gè)粒子的位置。隨著計(jì)算的推移,通過(guò)探索和利用空間中已知的有利位置,粒子圍繞一個(gè)或多個(gè)最優(yōu)點(diǎn)聚合。在搜索過(guò)程中,保留全局最優(yōu)位置和個(gè)體歷史最優(yōu)位置信息,有利于加快收斂速度,避免過(guò)早陷入局部最優(yōu)解。
在深度學(xué)習(xí)中,模型通常需要基于觀察數(shù)據(jù)x,x可以是輸入數(shù)據(jù)或特征值,對(duì)應(yīng)輸出一個(gè)概率分布p(x;θ)。常見(jiàn)的優(yōu)化算法是基于梯度的,模型訓(xùn)練的基本任務(wù)是優(yōu)化如下的目標(biāo)函數(shù):
梯度擾動(dòng)間接參與了參數(shù)的更新過(guò)程,保持既定方法會(huì)很大程度上影響參數(shù)收斂,使其在距離最優(yōu)參數(shù)較遠(yuǎn)的位置來(lái)回振蕩。隨著參數(shù)權(quán)重的不斷迭代,權(quán)重值會(huì)減小,而噪聲規(guī)模占比增大,概率分布的方差也隨之增大,最終導(dǎo)致模型過(guò)度擬合訓(xùn)練數(shù)據(jù)中的噪聲。
考慮到差分隱私梯度擾動(dòng)機(jī)制是在反向傳播的梯度信息中加入隨機(jī)噪聲,這一過(guò)程會(huì)影響輸出概率的期望,擴(kuò)大神經(jīng)網(wǎng)絡(luò)最大似然估計(jì)參數(shù)的后驗(yàn)分布輸出概率偏差和方差。本文提出一種基于粒子群優(yōu)化(PSO)算法的參數(shù)尋優(yōu)策略,目的是彌補(bǔ)因梯度脫敏造成的模型可用性下降的缺陷。如圖 1 所示,在N個(gè)樣本參數(shù)空間為?p×d的搜索空間中,假設(shè)N是粒子總數(shù),每一個(gè)粒子都對(duì)應(yīng)一個(gè)由目標(biāo)函數(shù)決定的適應(yīng)值。通過(guò)適應(yīng)值找到當(dāng)前情況下的最優(yōu)解,即參數(shù)θi,將當(dāng)前參數(shù)進(jìn)行位置更新后作為每一輪網(wǎng)絡(luò)前向傳播的初始參數(shù),根據(jù)更新后的目標(biāo)函數(shù)反向求位置參數(shù)的梯度。為保證數(shù)據(jù)隱私安全,在梯度上進(jìn)行剪裁并用噪聲機(jī)制進(jìn)行干擾,返回更新后的參數(shù)。每個(gè)粒子適應(yīng)度值將用于判斷該輪更新后的樣本參數(shù)是否參與下一輪的訓(xùn)練,若該粒子適應(yīng)度是當(dāng)前最優(yōu),則更新參數(shù)樣本空間,否則保留歷史最優(yōu)粒子樣本空間。在迭代結(jié)束后,粒子群優(yōu)化得到的參數(shù)為全局最優(yōu),且神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程滿足差分隱私。
鑒于上述思路,基于PSO 參數(shù)優(yōu)化的差分隱私架構(gòu)如算法1 所示,用粒子的位置表示網(wǎng)絡(luò)中各神經(jīng)元優(yōu)化后的權(quán)重參數(shù),目標(biāo)是在有限迭代中找到粒子最優(yōu)位置,即在隱私保護(hù)的前提下找到神經(jīng)網(wǎng)絡(luò)的最優(yōu)參數(shù)。將網(wǎng)絡(luò)的損失函數(shù)作為衡量粒子位置是否為最優(yōu)的適應(yīng)度函數(shù)。在網(wǎng)絡(luò)訓(xùn)練過(guò)程中引入粒子群優(yōu)化算法,在梯度下降的基礎(chǔ)上,每一次粒子速度和粒子位置的更新,就是神經(jīng)網(wǎng)絡(luò)經(jīng)歷的一個(gè)訓(xùn)練輪次。
算法1基于PSO 的差分隱私網(wǎng)絡(luò)
在迭代開(kāi)始前,首先隨機(jī)初始化粒子群中的位置p和速度v,然后初始化相應(yīng)的個(gè)體歷史最好位置Pp和群體最優(yōu)位置Pa、個(gè)體歷史最優(yōu)值Vp和種群歷史最優(yōu)值Va,初始適應(yīng)度值為零。在每一輪迭代中,首先確定速度變化vt和位置變化pt,一般情況下的速度成分由慣性項(xiàng)w×v、量化過(guò)去表現(xiàn)的認(rèn)知部分c1×rand()×(perbest(pt) -pt)和量化鄰居信息的社會(huì)部分c2×rand()×(allbest(pt) -pt)組成,速度vt決定了新位置的方向和大小,所以兩者都為矢量。在分批訓(xùn)練中,將N個(gè)粒子的位置參數(shù)作為網(wǎng)絡(luò)參數(shù)θt依次在網(wǎng)絡(luò)中執(zhí)行計(jì)算。計(jì)算過(guò)程使用隨機(jī)梯度下降來(lái)最小化經(jīng)驗(yàn)損失函數(shù)L(θ),即對(duì)每一批采樣數(shù)據(jù)計(jì)算當(dāng)前梯度?θtL(θt,xi),對(duì)所得梯度進(jìn)行剪裁防止梯度爆炸或消失,剪裁后的梯度表示為,每個(gè)樣本梯度添加服從N(0,σ2C2I)的噪聲來(lái)更新參數(shù)。梯度下降的步驟與傳統(tǒng)的方法相同,但區(qū)別在于參加運(yùn)算的參數(shù)已經(jīng)是基于PSO 的當(dāng)前最優(yōu),梯度也是基于當(dāng)前參數(shù)得到的,更新過(guò)程能一直保證梯度隱私。根據(jù)得到的適應(yīng)度值V,遍歷N個(gè)粒子,若某粒子適應(yīng)度分?jǐn)?shù)小于個(gè)體歷史最優(yōu)值,則記下當(dāng)前參數(shù)perbest(pt+1),更新出的個(gè)體最優(yōu)粒子流入到下一輪繼續(xù)更新。根據(jù)該輪種群最優(yōu)位置選出最小得分的粒子,其對(duì)應(yīng)的參數(shù)為當(dāng)下全局最優(yōu)粒子位置allbest(pt+1),即一輪結(jié)束后的網(wǎng)絡(luò)新參數(shù)。
在新一輪訓(xùn)練開(kāi)始前,采用慣性權(quán)重w、粒子位置p和粒子速度v等自定義參數(shù)更新每個(gè)粒子的速度和位置,本文中稱為隨機(jī)優(yōu)化。若將每一次網(wǎng)絡(luò)迭代后的參數(shù)作為調(diào)整方向和速度后的粒子矢量,稱為自適應(yīng)優(yōu)化,則該情況下的w、p、v每一輪訓(xùn)練前都會(huì)動(dòng)態(tài)改變,但實(shí)驗(yàn)中只需粒子矢量位置,無(wú)須對(duì)這些值做進(jìn)一步定量研究。如此循環(huán),達(dá)到停止條件時(shí)可得到一個(gè)滿足差分隱私的模型和擾動(dòng)后的最優(yōu)參數(shù),根據(jù)(ε,δ)可知隱私保護(hù)水平。
上述基于粒子群優(yōu)化后的差分隱私網(wǎng)絡(luò),其目標(biāo)函數(shù)如式(6)所示:
每一輪訓(xùn)練后,當(dāng)前網(wǎng)絡(luò)最優(yōu)參數(shù)allbest(θi)的梯度為:
其中:allbest(θi)=PSO(θi),i?(0,N),這里的函數(shù)表達(dá)式為顯性連續(xù)函數(shù),可直接微分得到梯度。
本文主要觀察參數(shù)變化,故在梯度下降算法中,記ya fa(p(x;θ)) 為fa(θ),ya fa[p(x;allbest(θi))] 為fa(best(θ)),在不添加噪聲的情況下,一般神經(jīng)網(wǎng)絡(luò)訓(xùn)練目標(biāo)記為:
在實(shí)際應(yīng)用中需要采用分批訓(xùn)練的方式,因?yàn)閿?shù)據(jù)集樣本數(shù)A?B,每一次從訓(xùn)練集中隨機(jī)抽樣,然后進(jìn)行梯度估計(jì),即隨機(jī)梯度下降(SGD)算法。本文假設(shè)批大小B=1,即每次取一個(gè)樣本參數(shù)更新方程,表示如下:
應(yīng)用粒子群優(yōu)化策略后,隨機(jī)梯度下降更新過(guò)程可以表示為:
記(best(θt)-θt)+η[?f(best(θt))-?f(θt)] 為ΔV(θt),則下降過(guò)程可表示為如下形式:
其中:{γt}為取值 在{1,2,…,A/B}上的獨(dú) 立同分 布(Independent Identically Distribution,IID)隨機(jī)變量。式(13)是對(duì)式(10)的修正結(jié)果,滿足隨機(jī)微分方程的弱近似。ΔV(θt)可以看作是在?p×d空間中的隨機(jī)矢量,ΔV(θt)+f(θt) -fγt(θt)也為該d維空間中的隨機(jī)矢量,最 終f(best(θt)) -fγt(best(θt))記為Vt,為d維隨機(jī)矢量,顯然Vt依賴于當(dāng)前的best(θt)。由此可假設(shè)一個(gè)擴(kuò)散過(guò)程來(lái)近似,考慮ΔV(θt)的均值和方差,顯然均值為0,擴(kuò)散系數(shù)為:
隨機(jī)微分方程表達(dá)式為:
將式(15)連續(xù)過(guò)程離散化,迭代過(guò)程可以變體為如下形式:
其中:Zt~N(0,I),對(duì)照式(13),設(shè)置Δt=η,b~?f,σ=,就可以得到式(15)這一連續(xù)過(guò)程的弱近似。
為使離散逼近連續(xù),弱近似的定義如下:
定義1令0<η<1,A>0,且,G為多項(xiàng)式增長(zhǎng)函數(shù)的集合,g?G,即存在常數(shù)T,當(dāng)t>0時(shí),滿足|g(θ)|
則稱隨機(jī)方程W是隨機(jī)梯度下降的α階近似。
若隨機(jī)過(guò)程為Θt,對(duì)于t?[0,T]滿足:
則式(18)是隨機(jī)梯度下降的一階近似。
若隨機(jī)過(guò)程為Θt,對(duì)于t?[0,T]滿足:
則式(19)是隨機(jī)梯度下降的二階近似。
因?yàn)槭剑?1)是在原始參數(shù)θt上進(jìn)行優(yōu)化的,根據(jù)梯度修正后的連續(xù)函數(shù),顯然函數(shù)的期望和方差會(huì)更小,所以證實(shí)該隱私參數(shù)更新方法在理論上具有可行性。
神經(jīng)網(wǎng)絡(luò)經(jīng)由一輪采樣、梯度計(jì)算、梯度剪裁和添加高斯噪聲組成的訓(xùn)練后,會(huì)得到一組滿足(ε,δ) -DP 的參數(shù)θt,不同的是本文中的參數(shù)在粒子群算法優(yōu)化后,best(θt)的值作為新的參數(shù)出現(xiàn)在下一輪的計(jì)算,這里傳入的參數(shù)優(yōu)于常規(guī)的梯度擾動(dòng)更新方法,但不影響滿足差分隱私。經(jīng)過(guò)T輪訓(xùn)練后,模型收斂。
根據(jù)矩會(huì)計(jì)法[7]可以計(jì)算訓(xùn)練系統(tǒng)的總體隱私損失,其基本思想是將每一輪訓(xùn)練的隱私損失等價(jià)于隨機(jī)變量,而將總隱私損失等價(jià)于各輪隨機(jī)變量的和進(jìn)行分布,通過(guò)計(jì)算隨機(jī)變量的矩生成函數(shù)得到更精準(zhǔn)的隱私上界。對(duì)于t時(shí)刻的訓(xùn)練機(jī)制Mt,差分隱私目標(biāo)是讓其在相鄰數(shù)據(jù)集上得到的參數(shù)θt的分布盡量相似,即對(duì)所有的數(shù)據(jù)集d,d'?D,滿足:
可知t時(shí)刻的位置由t-1 時(shí)刻變化得到,采用隨機(jī)梯度下降法在數(shù)據(jù)集上訓(xùn)練時(shí),可定義隨機(jī)變量如下:
其中:θi~Mt(PSO(θti-1),d),i?(0,N),取每一輪得到的最優(yōu)隨機(jī)變量記為c(θi,Mti)。由組合定理[7,26]可知,對(duì)于T個(gè)差分隱私機(jī)制組成的訓(xùn)練系統(tǒng),在不同t時(shí)刻輸出的參數(shù)獨(dú)立同分布,訓(xùn)練體系的總體機(jī)制M1:T的隨機(jī)變量可由多個(gè)時(shí)刻的隱私隨機(jī)變量的和組成,即考慮到相鄰數(shù)據(jù)集的分布需要盡可能一致,則隨機(jī)變量c(θi,Mti)的α階矩估計(jì)應(yīng)盡可能地逼近0。c(θi,Mti)的對(duì)數(shù)矩生成函數(shù)為:
故訓(xùn)練時(shí)整個(gè)模型滿足差分隱私,隱私預(yù)算ε為T(mén)M(α)。
聯(lián)邦學(xué)習(xí)差分隱私模型采用局部噪聲機(jī)制,對(duì)于每輪訓(xùn)練而言,當(dāng)客戶端更新完本地模型后,都需要將模型權(quán)重或者更新的梯度上傳至中心服務(wù)器進(jìn)行匯聚。實(shí)驗(yàn)中為滿足本地差分隱私,采用剪裁操作和噪聲干擾來(lái)對(duì)模型權(quán)重或梯度進(jìn)行處理,然后上傳至中心服務(wù)器。
本文方法采用聚合方式進(jìn)行訓(xùn)練,客戶端和服務(wù)器計(jì)算包含如下流程:在本地計(jì)算時(shí),首先初始化尋優(yōu)所需的粒子位置參數(shù)p0、速度參數(shù)v0、個(gè)體歷史最優(yōu)位置pp、全局最優(yōu)位置pa、適應(yīng)度值V、個(gè)體歷史最優(yōu)值Vp和當(dāng)前所有粒子中的最優(yōu)值Va??蛻舳薻根據(jù)本地?cái)?shù)據(jù)庫(kù)Xk,將全局服務(wù)器模型授予的θt作為本地參數(shù),即θ=θt,進(jìn)行梯度剪裁和下降策略,采用粒子群最優(yōu)算法更新參數(shù)。在客戶端的每一輪訓(xùn)練過(guò)程中,根據(jù)適應(yīng)度函數(shù)值V更新該輪的歷史個(gè)體最優(yōu)參數(shù)為perbest(pt),全局歷史最優(yōu)參數(shù)為allbest(pt)。該輪更新結(jié)束后,網(wǎng)絡(luò)參數(shù)θt為當(dāng)前最優(yōu),繼續(xù)進(jìn)入下一輪??蛻舳擞?xùn)練結(jié)束后,模型訓(xùn)練會(huì)將得到的參數(shù)Δθt+1←θ-θt、ξ←‖Δθt+1‖n傳給服務(wù)器,其中n表示范數(shù),此時(shí)上傳的客戶端參數(shù)是基于多輪PSO 優(yōu)化后的最優(yōu)參數(shù)。在模型擾動(dòng)時(shí),每個(gè)客戶端產(chǎn)生一個(gè)符合高斯分布的隨機(jī)噪聲N(0,σ2C2I)。因此,經(jīng)過(guò)擾 動(dòng)的本 地參數(shù)為服務(wù)器使用FedAVG 算法[27]聚合從客戶端收到的Δθ′t+1,得到新的全局模型參數(shù)θt+1,此時(shí)模型參數(shù)是擾動(dòng)后的,符合差分隱私。然后當(dāng)有客戶端需要訓(xùn)練時(shí)會(huì)進(jìn)行模型廣播,服務(wù)器將新的模型參數(shù)廣播給每個(gè)客戶端。客戶端接收新的模型參數(shù)重新進(jìn)行本地計(jì)算,更新本地參數(shù)再擾動(dòng)后回傳到聚合中心。
算法2基于PSO 的差分聯(lián)合策略
實(shí)驗(yàn)基于Python3.8 解析器和PyTorch 框架,在3.30 GHz 3.29 GHz 雙核CPU,128 GB RAM 的win10系統(tǒng)下,使用NVIDIA GeForce RTX 3090 GPU 實(shí)現(xiàn)加速。實(shí)驗(yàn)數(shù)據(jù)集使用Mnist、Fashion-Mnist 和Cifar-10,其中,Mnist 是標(biāo)注為0~9 的手寫(xiě)數(shù)字圖片數(shù) 據(jù),F(xiàn)ashion-Mnist 由10 種衣物 類別組 成,2 個(gè)數(shù)據(jù)集的圖片均為單通道,包含60 000 張訓(xùn)練圖片和10 000 張測(cè)試圖片。Cifar-10 由10 類真實(shí)物體的三通道彩色圖組成,包含50 000 張訓(xùn)練圖片和10 000 張測(cè)試圖片。
訓(xùn)練模型包括自定義的MLP、CNN 和ResNet20網(wǎng)絡(luò)。MLP 網(wǎng)絡(luò)由包含300 個(gè)和100 個(gè)神經(jīng)元的隱藏層構(gòu)成,自定義CNN 網(wǎng)絡(luò)包含兩個(gè)通道數(shù)為32 和64 的卷積模塊,卷積核大小都為3,步長(zhǎng)設(shè)置為2,每個(gè)卷積層之后都使用ReLU 作為激活函數(shù),輸出采用10 分類的全連接層實(shí)現(xiàn)。ResNet20 由包含19 個(gè)核大小為3、步長(zhǎng)為[1,2]、通道數(shù)為[16,32,64]的卷積層以及1 個(gè)全連接層構(gòu)成。其中聯(lián)邦學(xué)習(xí)差分隱私的測(cè)試分析在自定義CNN 網(wǎng)絡(luò)上完成。
粒子群優(yōu)化算法中各參數(shù)的選取對(duì)模型的表現(xiàn)至關(guān)重要,故在無(wú)隱私情況下討論確定各PSO 超參數(shù)對(duì)模型的增益。由于粒子位置p、粒子速度v等參數(shù)與神經(jīng)網(wǎng)絡(luò)權(quán)重相輔相成,因此只討論超參數(shù)粒子群數(shù)N、慣性權(quán)重w和最大迭代次數(shù)T對(duì)模型的影響。
當(dāng)取不同粒子數(shù)N時(shí),模型的準(zhǔn)確率和訓(xùn)練時(shí)間如表1 所示,可知當(dāng)粒子數(shù)為3 時(shí),模型已經(jīng)具有較好的表現(xiàn),當(dāng)粒子數(shù)為10 時(shí),準(zhǔn)確率提升很小,但時(shí)間卻增加了4 倍,當(dāng)粒子數(shù)取到20 時(shí),耗時(shí)相對(duì)N=3 更長(zhǎng),但準(zhǔn)確率提升較小。在進(jìn)行不同粒子數(shù)下的模型訓(xùn)練時(shí),迭代輪次都為100,慣性權(quán)重都設(shè)為0.1。
表1 本文模型在不同粒子數(shù)下的性能Table 1 Performance of the proposed model under different particle numbers
當(dāng)慣性權(quán)重w變化時(shí),模型的準(zhǔn)確率如圖2 所示,其中,訓(xùn)練迭代100 輪次,粒子數(shù)為3。在w=0.7時(shí),模型準(zhǔn)確率在15 輪左右開(kāi)始驟降,猜測(cè)是在該權(quán)重下訓(xùn)練陷入局部最小導(dǎo)致。當(dāng)權(quán)重為0.1~0.5時(shí),模型收斂的速度增快,但最終都會(huì)收斂到相差不多的值域內(nèi)。當(dāng)w=0.9 時(shí),在前10 輪的學(xué)習(xí)能力較強(qiáng),但會(huì)因粒子速度更新跨度過(guò)大而提前進(jìn)入局部最小,使得準(zhǔn)確率相對(duì)較低。圖3 所示為在不同最大迭代次數(shù)T下模型訓(xùn)練損失、準(zhǔn)確率、測(cè)試損失和準(zhǔn)確率的變化情況,其中,慣性權(quán)重為0.1,粒子數(shù)為3。隨著最大迭代輪次的增加,訓(xùn)練和測(cè)試集的損失都有所降低,準(zhǔn)確率都有所增加。當(dāng)T超過(guò)200 輪后,損失逼近0,訓(xùn)練集完全收斂。測(cè)試集在100 輪后,損失收斂至0.1 附近,準(zhǔn)確率也幾乎不再變化。
本文將基于粒子群優(yōu)化的差分隱私模型訓(xùn)練方法在多個(gè)數(shù)據(jù)集和網(wǎng)絡(luò)中進(jìn)行實(shí)驗(yàn),并與其他算法進(jìn)行對(duì)比。實(shí)驗(yàn)中粒子種群數(shù)量設(shè)置為3,主要是根據(jù)實(shí)際訓(xùn)練經(jīng)驗(yàn)、顯存和時(shí)耗綜合考量得到的。對(duì)比實(shí)驗(yàn)和結(jié)論均在控制變量的情況下得到,例如為了比較和探究隱私保護(hù)程度時(shí)保證隱私預(yù)算一致,對(duì)算法準(zhǔn)確率和損失進(jìn)行驗(yàn)證。根據(jù)DP-SGD[7]和RG-params[17]算法,實(shí)驗(yàn)中選取隱私預(yù)算ε為2、4、6、8 和10 進(jìn)行討論和對(duì)比。
為了觀察PSO 的收斂特征和可行性,首先采用隨機(jī)優(yōu)化的方式對(duì)隱私參數(shù)進(jìn)行訓(xùn)練,將訓(xùn)練過(guò)程中隨迭代累計(jì)的測(cè)試集分類準(zhǔn)確率與DP-SGD[7]、DPparams[28]算法對(duì)比。圖4 所示為Mnist數(shù)據(jù)集在MLP模型上的實(shí)驗(yàn)結(jié)果。從曲率總體變化上可知,隨著迭代次數(shù)的增加,基準(zhǔn)的梯度擾動(dòng)算法準(zhǔn)確率會(huì)先增加后降低,隨著隱私預(yù)算的收縮,降低幅度會(huì)越大,而本文方法的訓(xùn)練效果受隱私預(yù)算干擾較小,訓(xùn)練過(guò)程較平穩(wěn)。圖4(a)~圖4(e)中的預(yù)算ε為10、8、6、4 和2,最終DP-SGD 測(cè)試準(zhǔn)確率為84.43%、82.94%、80.71%、77.06% 和71.25%,本文算法最終測(cè)試集準(zhǔn)確率為90.67%、90.33%、90.28%、90.78%和90.66%,而在基于輸出擾動(dòng)的DP-params[28]訓(xùn)練集損失一直都在較高水平,準(zhǔn)確率也始終只有10%左右。
圖5 所示為在簡(jiǎn)單CNN 網(wǎng)絡(luò)上各算法測(cè)試結(jié)果與隱私水平的變化趨勢(shì),在圖5(a)~圖5(e)中,當(dāng)ε為10、8、6、4 和2 時(shí),DP-SGD[7]最終測(cè) 試準(zhǔn)確率為84.58%、82.68%、79.87%、75.28%和67.52%,本文算法的損失最終收斂于0.55 附近,準(zhǔn)確率可達(dá)87.81%、87.57%、88.19%、88.24% 和88.26%,而DP-params[28]的訓(xùn)練損失在該卷積網(wǎng)絡(luò)中有所下降,準(zhǔn)確率相較MLP 網(wǎng)絡(luò)中有所提升,分別為66.63%、70.25%、64.30%、68.21%和69.63%。顯然,本文算法在收斂和準(zhǔn)確率上仍具有較大優(yōu)勢(shì),但Mnist 數(shù)據(jù)集在兩種網(wǎng)絡(luò)框架中,當(dāng)隱私預(yù)算ε為4 時(shí),收斂前訓(xùn)練損失和測(cè)試分類準(zhǔn)確率會(huì)出現(xiàn)較大波動(dòng),可能是在隨機(jī)尋優(yōu)時(shí)不能直接確定最優(yōu)初始參數(shù),當(dāng)隱私政策緊縮時(shí)無(wú)法快速靠近最優(yōu)位置造成的。
為驗(yàn)證算法的普適性,進(jìn)一步對(duì)Fashion-Mnist數(shù)據(jù)集的損失值和測(cè)試準(zhǔn)確率進(jìn)行實(shí)驗(yàn)。圖6(a)~圖6(e)展示出Fashion-Mnist在MLP 網(wǎng)絡(luò)結(jié)構(gòu)中,當(dāng)ε為10、8、6、4 和2 時(shí)的收斂情況和模型效果評(píng)估。算法DP-SGD[7]的最終訓(xùn)練集損失隨隱私預(yù)算緊縮而急劇增大,在測(cè)試集上準(zhǔn)確率為76.17%、74.92%、73.47%、71.40%和67.80%。相比之下,本文算法的損失值較為穩(wěn)定,最終能收斂到1 左右的較小范圍,準(zhǔn)確率可達(dá)83.10%、83.31%、83.38%、83.49%和83.99%,而DP-params[28]損失函數(shù)值始終處于較高水平,最終測(cè)試準(zhǔn)確率只有10%左右。從曲線變化趨勢(shì)可知,DPSGD[7]在收斂到最優(yōu)狀態(tài)后,隱私預(yù)算越小,最終的模型效用越差。而在本文算法中,隨著噪聲的增加,從Fashion-Mnist 在MLP 模型上的表現(xiàn)可知,訓(xùn)練損失始終向風(fēng)險(xiǎn)最小趨勢(shì)靠近,測(cè)試準(zhǔn)確率偏差不大。
圖7 所示為Fashion-Mnist 數(shù)據(jù)集在CNN 中的損失值和測(cè)試準(zhǔn)確率表現(xiàn)。在圖7(a)~圖7(e)中,當(dāng)隱私預(yù)算ε為10、8、6、4 和2 時(shí),隨著隱私預(yù)算的縮減,最終DP-SGD[7]的訓(xùn)練損失值漲幅較大,測(cè)試準(zhǔn)確率為75.25%、75.00%、72.50%、69.37% 和64.13%。在Fashion-Mnist 數(shù)據(jù)集上,本文算法的最終損失函數(shù)值的表現(xiàn)最優(yōu),在測(cè)試集上準(zhǔn)確率為80.44%、80.45%、80.41%、80.76%和81.40%。而DP-params[28]的損失一直徘徊在2.3 附近,測(cè)試準(zhǔn)確率也始終在較低水平閾值內(nèi)振蕩。由圖7(a)可知,當(dāng)ε為10 時(shí),本文算法的收斂速度、最終收斂程度和測(cè)試效果始終領(lǐng)先。當(dāng)隱私保護(hù)程度越大時(shí),其最終結(jié)果的優(yōu)勢(shì)越明顯。
本文算法在Mnist 和Fashion-Mnist 上均能較好收斂,且在相同隱私預(yù)算下受噪聲疊加擾動(dòng)的影響較小。在不同的隱私預(yù)算下也有較優(yōu)表現(xiàn),能在不同數(shù)據(jù)集和不同神經(jīng)網(wǎng)絡(luò)架構(gòu)上使模型都具有較好的魯棒性。但考慮到隨機(jī)尋優(yōu)的方式收斂較慢,且對(duì)粒子參數(shù)的初始位置、尋優(yōu)方向和速度的調(diào)整較為繁瑣,在后續(xù)ResNet 架構(gòu)中考慮采用網(wǎng)絡(luò)自適應(yīng)尋優(yōu)的方式調(diào)整每一輪的方向和速度。
當(dāng)采用更復(fù)雜的ResNet深度模型時(shí),無(wú)差分隱私訓(xùn)練的Mnist 測(cè)試集準(zhǔn)確率為99.43%,F(xiàn)ashion-Mnist數(shù)據(jù)集準(zhǔn)確率為91.19%,彩色圖像數(shù)據(jù)集Cifar-10 的準(zhǔn)確率為79.64%。各數(shù)據(jù)集在不同隱私水平下的測(cè)試集準(zhǔn)確率如表2 所示,其中,每列的隱私保護(hù)水平均一致,所有準(zhǔn)確率由訓(xùn)練最佳的模型獲得,每個(gè)結(jié)果為3 次模型訓(xùn)練的均值,Δ表示與基準(zhǔn)測(cè)試準(zhǔn)確率的偏差。將DP-SGD[7]算法作為擾動(dòng)算法的基準(zhǔn)線,可知梯度擾動(dòng)后本文算法在3 個(gè)數(shù)據(jù)集的上的結(jié)果均為最優(yōu)。Mnist 數(shù)據(jù)集在隱私損失為8 時(shí),準(zhǔn)確率可達(dá)98.44%,比基準(zhǔn)線提升了5.03%。Fashion-Mnist在隱私損失為10 時(shí),擾動(dòng)后最高準(zhǔn)確率為87.46%,比基準(zhǔn)線提升了9.23%。在Cifar-10 數(shù)據(jù)集上,當(dāng)隱私損失為8 時(shí),最高準(zhǔn)確率為66.7%,比DP-SGD 算法提升了22.77%。因此,本文算法在隱私預(yù)算和準(zhǔn)確率指標(biāo)上均優(yōu)于其他訓(xùn)練方案。
表2 不同隱私水平下的測(cè)試集準(zhǔn)確率 Table 2 Testset accuracy at different privacy levels %
根據(jù)RDP[29]隱私計(jì)算方法,采用更小的隱私預(yù)算,在Cifar-10 上基于ResNet 模型進(jìn)行對(duì)比,最大迭代數(shù)為50 輪。表3 為較小隱私開(kāi)銷下各算法的測(cè)試集準(zhǔn)確率,與文獻(xiàn)[7,17]相同,設(shè)置DP-SGD 為基準(zhǔn)線。RGP-W4 明顯不具優(yōu)勢(shì),甚至在隱私預(yù)算為1.0和0.1 時(shí)的表現(xiàn)低于基準(zhǔn)線。GEP 和RGP-W10 仍優(yōu)于DP-SGD,但顯然本文算法對(duì)準(zhǔn)確率的提升更穩(wěn)定,在隱私預(yù)算為0.1 時(shí),測(cè)試準(zhǔn)確率有13.39%的提升。綜合來(lái)看,無(wú)論在何種隱私水平下,本文算法均可更好地提升模型可用性。
表3 較小隱私水平下的測(cè)試集準(zhǔn)確率 Table 3 Testset accuracy at smaller privacy levels %
此外,本文算法在算力需求和訓(xùn)練時(shí)間上也具有一定優(yōu)勢(shì)。由表4 可知,本文算法的每一輪訓(xùn)練需 要72 s,趨 近RGP[17]時(shí)耗的1/3,相 比RGP[17]和GEP[16]的高維參數(shù)或梯度的處理計(jì)算,本文算法則是利用自啟發(fā)式尋優(yōu),避免過(guò)量運(yùn)算。在本文實(shí)驗(yàn)環(huán)境下對(duì)GPU 的顯存需求是8.2 GiB,優(yōu)于前兩者。
表4 不同算法的訓(xùn)練耗時(shí)和顯存大小 Table 4 Training time and video memory size of different algorithms
考慮到多源海量數(shù)據(jù)整合問(wèn)題,下面研究本文算法在聯(lián)邦學(xué)習(xí)中的表現(xiàn)。不同于分布式機(jī)器學(xué)習(xí)將獨(dú)立同分布(IID)的數(shù)據(jù)或模型參數(shù)存儲(chǔ)在各個(gè)分布式節(jié)點(diǎn)上,本文方案由中心服務(wù)器調(diào)動(dòng)數(shù)據(jù)和計(jì)算資源聯(lián)合訓(xùn)練模型。因客戶端的地理、時(shí)間等分布差異,聯(lián)邦學(xué)習(xí)經(jīng)常要處理非獨(dú)立同分布(non-IID)的數(shù)據(jù)。因此,實(shí)驗(yàn)在不同數(shù)據(jù)集上采用IID 和non-IID 的方式分別進(jìn)行訓(xùn)練,并觀察算法在收斂性和隱私保護(hù)中的性能映射。
圖8 所示為Mnist 在不同隱私水平下采用獨(dú)立同分布訓(xùn)練的測(cè)試準(zhǔn)確率變化過(guò)程,本文算法在隱私預(yù)算為10 時(shí)的準(zhǔn)確率最高可達(dá)98.29%,隱私預(yù)算為2 時(shí)的準(zhǔn)確率達(dá)到96.2%。圖9 所示為該數(shù)據(jù)集在非獨(dú)立同分布形式下的測(cè)試集收斂曲線,本文算法在隱私損失為10 時(shí)的準(zhǔn)確率可達(dá)96.49%,損失預(yù)算為2 時(shí)的準(zhǔn)確率為89.28%??梢钥闯雒總€(gè)參與訓(xùn)練的客戶端數(shù)據(jù)相互獨(dú)立時(shí)的準(zhǔn)確率較高,從全局角度而言,本文算法的收斂速度均優(yōu)于傳統(tǒng)的直接差分隱私擾動(dòng)算法。在相同隱私水平下,本文算法模型效用更佳,在隱私保護(hù)水平越高時(shí)優(yōu)勢(shì)越明顯。
圖10 所示為不同隱私預(yù)算下獨(dú)立同分布形式的Fashion-Mnist 數(shù)據(jù)集在網(wǎng)絡(luò)訓(xùn)練中的測(cè)試準(zhǔn)確率,隱私損失為10 時(shí)的準(zhǔn)確率為89.31%,隱私損失減小到2 時(shí)的最高準(zhǔn)確率為86.19%。圖11 所示為非獨(dú)立同分布Fashion-Mnist 數(shù)據(jù)集在網(wǎng)絡(luò)訓(xùn)練中的測(cè)試準(zhǔn)確率,當(dāng)隱私損失為10 時(shí),本文算法最高準(zhǔn)確率為83.76%,隱私損失為2 時(shí)的準(zhǔn)確率為75.93%。由綜合數(shù)據(jù)和曲線可知,在Fashion-Mnist 數(shù)據(jù)集中,IID 數(shù)據(jù)的訓(xùn)練效果仍然優(yōu)于non-IID,且本文算法的收斂速度仍然較快,在獨(dú)立同分布的數(shù)據(jù)中訓(xùn)練優(yōu)勢(shì)依舊明顯,即使在non-IID 數(shù)據(jù)中的優(yōu)勢(shì)相比Mnist 有所下降,但仍然優(yōu)于傳統(tǒng)的噪聲擾動(dòng)方式。
圖1 本文方案的參數(shù)優(yōu)化策略Fig.1 Parameter optimization strategy of the proposed scheme
圖2 本文模型在不同慣性權(quán)重下的準(zhǔn)確率Fig.2 Accuracy of the proposed model under different inertia weights
圖3 本文模型在不同迭代數(shù)下的準(zhǔn)確率Fig.3 Accuracy of the proposed model under different iterations
圖4 Mnist 數(shù)據(jù)集在MLP 網(wǎng)絡(luò)中不同隱私水平下訓(xùn)練的測(cè)試準(zhǔn)確率變化曲線Fig.4 Test accuracy variation curve of Mnist dataset trained under different privacy levels on the MLP network
圖5 Mnist 數(shù)據(jù)集在CNN 網(wǎng)絡(luò)中不同隱私水平下訓(xùn)練的測(cè)試準(zhǔn)確率變化曲線Fig.5 Test accuracy variation curve of Mnist dataset trained under different privacy levels on the CNN network
圖6 Fashion-Mnist 數(shù)據(jù)集在MLP 網(wǎng)絡(luò)中不同隱私水平下訓(xùn)練的測(cè)試準(zhǔn)確率變化曲線Fig.6 Test accuracy variation curve of Fashion-Mnist dataset trained under different privacy levels on the MLP network
圖7 Fashion-Mnist 數(shù)據(jù)集在CNN 網(wǎng)絡(luò)中不同隱私水平下訓(xùn)練的測(cè)試準(zhǔn)確率變化曲線Fig.7 Test accuracy variation of Fashion-Mnist dataset trained under different privacy levels on the CNN network
圖8 不同算法在Mnist 數(shù)據(jù)集上的IID 測(cè)試準(zhǔn)確率Fig.8 IID test accuracy of different algorithms on Mnist dataset
圖9 不同算法在Mnist 數(shù)據(jù)集上的non-IID 測(cè)試準(zhǔn)確率Fig.9 non-IID test accuracy of different algorithms on Mnist dataset
圖10 不同算法在Fashion-Mnist 數(shù)據(jù)集上的IID 測(cè)試準(zhǔn)確率Fig.10 IID test accuracy of different algorithms on Fashion-Mnist dataset
圖11 不同算法在Fashion-Mnist 數(shù)據(jù)集上的non-IID 測(cè)試準(zhǔn)確率Fig.11 non-IID test accuracy of different algorithms on Fashion-Mnist dataset
本文優(yōu)化算法在聯(lián)邦學(xué)習(xí)中具有較強(qiáng)的兼容性,收斂速度較快,并具有較好的隱私性和安全性,且在面對(duì)用戶群體較大與不均衡的用戶數(shù)據(jù)時(shí),仍然具有較好的兼容效果。
本文構(gòu)建一個(gè)基于粒子群優(yōu)化的差分隱私深度學(xué)習(xí)模型。根據(jù)網(wǎng)絡(luò)前向傳播和反向傳播中每輪參數(shù)的方向和速度變化特征,配合噪聲擾動(dòng)對(duì)期望曲率的依賴關(guān)系,解決噪聲參數(shù)尋優(yōu)問(wèn)題。在訓(xùn)練過(guò)程中,基于每輪梯度擾動(dòng)后的最優(yōu)參數(shù)得到經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化函數(shù),解決網(wǎng)絡(luò)參數(shù)更新的逼近問(wèn)題。在Mnist、Fashion-Mnist 兩個(gè)單通道數(shù)據(jù)集和Cifar-10彩色多通道數(shù)據(jù)集上,利用自定義的MLP、CNN 和ResNet20 網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并通過(guò)不同隱私預(yù)算下的多組實(shí)驗(yàn)和對(duì)比。實(shí)驗(yàn)結(jié)果表明,本文算法在滿足差分隱私的條件下具有較好的可用性。由于本文提出的帶擾動(dòng)參數(shù)優(yōu)化方案只在橫向聯(lián)邦協(xié)作和客戶-服務(wù)器架構(gòu)下進(jìn)行驗(yàn)證,下一步將在縱向聯(lián)邦學(xué)習(xí)和對(duì)等架構(gòu)下驗(yàn)證方案的有效性。另外,將繼續(xù)研究使用數(shù)據(jù)非獨(dú)立同分布時(shí)模型準(zhǔn)確率的優(yōu)化問(wèn)題。