牛翠翠,潘正芝,劉 海
(1.貴州輕工職業(yè)技術(shù)學(xué)院 文化與旅游系,貴州 貴陽(yáng) 550025;2.貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽(yáng) 550025)
數(shù)據(jù)共享可以打破數(shù)據(jù)壁壘,使得數(shù)據(jù)便于流通、交換和融合,有利于科學(xué)研究、數(shù)據(jù)建模和應(yīng)用數(shù)據(jù)模型,以及挖掘數(shù)據(jù)的潛在價(jià)值。不過(guò),通常個(gè)體數(shù)據(jù)包含身份、位置和社會(huì)關(guān)系等重要的隱私信息,特別是人類(lèi)基因組數(shù)據(jù)包含遺傳、表型、易感疾病和血緣關(guān)系等敏感信息[1],如果直接開(kāi)放共享個(gè)體數(shù)據(jù)必然會(huì)存在隱私泄露的風(fēng)險(xiǎn),例如,2019年9月4日Facebook證實(shí)超4.19億條與Facebook賬戶(hù)關(guān)聯(lián)的電話(huà)號(hào)碼數(shù)據(jù)庫(kù)被曝光,部分記錄還包含用戶(hù)姓名、性別和地理位置等敏感信息。因此,實(shí)現(xiàn)開(kāi)放共享數(shù)據(jù)的隱私保護(hù)是迫切需要解決的問(wèn)題。
通過(guò)產(chǎn)生逼近真實(shí)樣本的生成數(shù)據(jù),共享生成數(shù)據(jù)代替真實(shí)數(shù)據(jù)共享可以避免隱私泄露的風(fēng)險(xiǎn),并且可以擴(kuò)充小規(guī)模數(shù)據(jù)[2]。生成數(shù)據(jù)共享有利于訓(xùn)練更好的模型、發(fā)展新的技術(shù)和推進(jìn)第三方聚集生成數(shù)據(jù),以及提供生成數(shù)據(jù)便于科學(xué)發(fā)現(xiàn)的可重復(fù)性研究[3]。目前,生成數(shù)據(jù)的主要方法之一是生成式對(duì)抗網(wǎng)絡(luò)(Generative adversarial networks,GAN)[4]。GAN由2個(gè)神經(jīng)網(wǎng)絡(luò)組成,分別是生成器G(Generator)和判別器D(Discriminator),生成器產(chǎn)生假樣本,而判別器區(qū)分樣本來(lái)自真實(shí)樣本集還是假樣本集,通過(guò)反復(fù)對(duì)抗迭代訓(xùn)練生成器和判別器,最終使得判別器無(wú)法區(qū)分生成數(shù)據(jù)與真實(shí)數(shù)據(jù)。因此,GAN可用于生成時(shí)間序列、連續(xù)和離散數(shù)據(jù)[5]。但是,在GAN的對(duì)抗博弈過(guò)程中,需要使用真實(shí)樣本反復(fù)訓(xùn)練判別器,進(jìn)而迭代訓(xùn)練生成器,還是會(huì)存在敏感信息泄露的風(fēng)險(xiǎn)[6],于是如何實(shí)現(xiàn)GAN訓(xùn)練過(guò)程中的隱私保護(hù)是關(guān)鍵的挑戰(zhàn)。
具有嚴(yán)格數(shù)學(xué)定義的可證明差分隱私已成為流行的數(shù)據(jù)隱私保護(hù)方法[7]。因此,目前的工作主要使用差分隱私實(shí)現(xiàn)GAN迭代訓(xùn)練過(guò)程中的隱私保護(hù),并且取得了具有突破性的研究成果。文獻(xiàn)[8]綜述了8種差分隱私GAN的方法,同時(shí)總結(jié)了這些方法的隱私和效用評(píng)價(jià)指標(biāo);文獻(xiàn)[9]綜述了GAN面臨的隱私攻擊,并總結(jié)了目前差分隱私GAN的研究成果。本綜述不同于已有的綜述工作,詳盡和系統(tǒng)地從以下三方面綜述現(xiàn)有的差分隱私GAN的框架與方法。
1)概述和分析用于重復(fù)使用差分隱私過(guò)程中累積隱私預(yù)算估計(jì)的組合定理,以及介紹GAN及其常見(jiàn)變式。
2)總結(jié)和分析GAN面臨的隱私威脅模型,主要包括成員推理攻擊和模型提取攻擊,并對(duì)其攻擊數(shù)學(xué)模型和評(píng)價(jià)指標(biāo)進(jìn)行比較分析。
3)歸納和分析差分隱私GAN的框架,并對(duì)比分析隨機(jī)擾動(dòng)方法和擾動(dòng)機(jī)制,以及對(duì)比分析差分隱私GAN的隱私和效用評(píng)價(jià)指標(biāo)。
4)概括和分析差分隱私聯(lián)邦GAN的框架,并比較分析隨機(jī)擾動(dòng)方法、擾動(dòng)機(jī)制和訓(xùn)練方法,以及比較分析差分隱私聯(lián)邦GAN的隱私和效用評(píng)價(jià)指標(biāo)。
最后,通過(guò)分析已有差分隱私GAN的框架與方法、差分隱私聯(lián)邦GAN的框架與方法存在的問(wèn)題,對(duì)未來(lái)的研究進(jìn)行展望。
盡管文獻(xiàn)[10]已對(duì)目前差分隱私GAN生成數(shù)據(jù)和差分隱私聯(lián)邦GAN生成數(shù)據(jù)的工作進(jìn)行了綜述研究,不過(guò)該工作的綜述較粗略,不夠系統(tǒng),也不夠全面細(xì)致。因此,本綜述區(qū)別于文獻(xiàn)[10],更加系統(tǒng)地和全面地綜述了差分隱私GAN的框架與方法。
統(tǒng)計(jì)推斷攻擊易導(dǎo)致隱私泄露,例如,攻擊者通過(guò)查詢(xún)統(tǒng)計(jì)所有患者的疾病狀態(tài)之和,以及查詢(xún)統(tǒng)計(jì)除了某個(gè)患者以外其他患者的疾病狀態(tài)之和,再將這兩個(gè)疾病狀態(tài)統(tǒng)計(jì)值作比較便可獲得該患者是否患有疾病的敏感信息。針對(duì)這樣的差分統(tǒng)計(jì)推斷攻擊,Dwork等[7]提出差分隱私隨機(jī)擾動(dòng)查詢(xún)統(tǒng)計(jì)值實(shí)現(xiàn)個(gè)體的隱私保護(hù)。除單個(gè)數(shù)據(jù)記錄以外考慮所有背景知識(shí),差分隱私具有嚴(yán)格的數(shù)學(xué)定義和堅(jiān)實(shí)的理論基礎(chǔ),使差分隱私的性質(zhì)和機(jī)制得到廣泛研究和應(yīng)用[11-12]。
數(shù)據(jù)庫(kù)x和x′的元素?cái)?shù)量相同,除了至多一條記錄外其他都相同,那么數(shù)據(jù)庫(kù)x和x′是鄰近數(shù)據(jù)庫(kù),其Hamming距離滿(mǎn)足h(x,x′)≤1。后續(xù)部分,隨機(jī)機(jī)制M的輸出空間表示為Range(M),符號(hào)R表示實(shí)數(shù)集合。
定義1(差分隱私)對(duì)于所有S?Range(M),x,x′∈Xk,且h(x,x′)≤1,使得
p(M(x)∈S)≤eεp(M(x′)∈S)+δ
那么隨機(jī)機(jī)制M是(ε,δ)-差分隱私。如果δ=0,則M是ε-差分隱私。
根據(jù)上述形式化定義,獨(dú)立于任何單個(gè)記錄是否屬于數(shù)據(jù)庫(kù)中,差分隱私保證任何查詢(xún)函數(shù)的響應(yīng)是等可能的。對(duì)于鄰近數(shù)據(jù)庫(kù)x和x′,由(ε,δ)-差分隱私的定義可知,差分隱私機(jī)制M至少以概率1-δ滿(mǎn)足ε-差分隱私。
對(duì)于數(shù)值數(shù)據(jù)的差分隱私保護(hù),可以使用流行的Laplace機(jī)制和Gaussian機(jī)制實(shí)現(xiàn)差分隱私。
Δ1f=maxx,x′∈Xk,h(x,x′)≤1||f(x)-f(x′)||1
定義3(Laplace機(jī)制)對(duì)于數(shù)值查詢(xún)函數(shù)f:Xk→Rk,Laplace機(jī)制是
LM(x,f(·),ε)=f(x)+(Y1,Y2,…,Yk)
其中Yi~Lap(Δ1f/ε)(i∈{1,2,…,k})是獨(dú)立同分布隨機(jī)變量。
Δ2f=maxx,x′∈Xk,h(x,x′)≤1||f(x)-f(x′)||2
定義5(Gaussian機(jī)制)對(duì)于數(shù)值查詢(xún)函數(shù)f:Xk→Rk,Gaussian機(jī)制是
GM(x,f(·),ε)=f(x)+(Y1,Y2,…,Yk)
對(duì)于數(shù)據(jù)庫(kù)x∈Xk和輸出r∈,定義效用函數(shù)u:Xk×→R,其敏感度為
Δu=maxr∈maxx,x′∈Xk,h(x,x′)≤1|u(x,r)-u(x′,r)|
定義6(指數(shù)機(jī)制)指數(shù)機(jī)制EM(x,u,)選擇輸出元素r∈的概率正比于eεu(x,r)/(2Δu)。
差分隱私具有后處理(Post-processing)、序列組合(Sequential composition)、高級(jí)組合(Advanced composition)、并行組合(Parallel composition)[13]和隱私-效用單調(diào)性[14]的性質(zhì)。
定理1(后處理)如果M:Xk→R是(ε,δ)-差分隱私,且f:R→R′是任意隨機(jī)映射,則f°M:Xk→R′是(ε,δ)-差分隱私。
定理3(并行組合)如果Mi是εi-差分隱私,xi是屬于數(shù)據(jù)庫(kù)x的任意子集,且xi∩xj=?(i≠j),則組合(M1(x1),M2(x2),…,Mk(xk))是max{εi}-差分隱私。
對(duì)相同數(shù)據(jù)庫(kù)或不同數(shù)據(jù)庫(kù)重復(fù)使用差分隱私算法時(shí),高級(jí)組合定理表明可以根據(jù)先前差分隱私機(jī)制的輸出自適應(yīng)地選擇數(shù)據(jù)庫(kù)、差分隱私機(jī)制和參數(shù)。
定理5(隱私-效用單調(diào)性)在差分隱私中,隨著隱私預(yù)算ε增加,隱私保護(hù)效果遞減,而數(shù)據(jù)效用遞增,反之亦然。
因此,定理5的隱私-效用單調(diào)性表明差分隱私機(jī)制可以實(shí)現(xiàn)隱私保護(hù)與數(shù)據(jù)效用之間的權(quán)衡。
在重復(fù)使用差分隱私時(shí),為了獲得比序列組合定理更嚴(yán)格的累積隱私預(yù)算損失,Abadi等[15]提出累積隱私預(yù)算損失的矩估計(jì)(Moments accountant,MA)方法,以此更精確地估計(jì)隱私預(yù)算損失。根據(jù)差分隱私定義,考慮輔助輸入aux和輸出s∈S,可形式化描述隱私預(yù)算損失隨機(jī)變量為
對(duì)于差分隱私機(jī)制M,則可定義隱私預(yù)算損失隨機(jī)變量的λ階矩為
φM(λ;aux,x,x′)=logEs~M(aux,x)[eλc(s;M,aux,x,x′)]
考慮所有可能的aux和所有鄰近數(shù)據(jù)庫(kù)x和x′,為了表明M保證差分隱私,定義
φM(λ)=maxaux,x,x′φM(λ;aux,x,x′)
因此,φM(λ)具有組合和尾界(Tail bound)的性質(zhì)。
定理7(φM(λ)尾界)如果M滿(mǎn)足(ε,δ)-差分隱私,那么δ=minλeφM(λ)-λε。
根據(jù)定理6和定理7,基于矩估計(jì)的累積隱私預(yù)算損失計(jì)算方法推廣了定理2的序列組合方法,可以為重復(fù)使用差分隱私機(jī)制時(shí)提供更嚴(yán)格的隱私參數(shù)(ε,δ)估計(jì)。
相較于差分隱私的序列組合定理和矩估計(jì)組合定理,Mironov[16]提出Rényi 差分隱私(Rényi differential privacy,RDP),并給出隱私預(yù)算損失的RDP組合定理,以此為重復(fù)使用差分隱私機(jī)制的累積隱私預(yù)算損失計(jì)算提供了方便。
定義7(RDP)對(duì)于x,x′∈Xk,任意階數(shù)α,且h(x,x′)≤1,使得
Dα(M(x)‖M(x′))≤ε
那么關(guān)于輸入空間Xk的隨機(jī)機(jī)制M是(α,ε)-差分隱私,其中
是Rényi散度(Rényi divergence)。
此外,Mironov已表明(α,ε)-RDP機(jī)制滿(mǎn)足(ε+log(1/δ)/(α-1),δ)-差分隱私。例如,Gaussian機(jī)制滿(mǎn)足(α,α(Δ2f)2/(2σ2))-RDP。因此,結(jié)合定理8可知,隱私預(yù)算損失的RDP組合相比于序列組合更嚴(yán)格。
GAN的基本網(wǎng)絡(luò)關(guān)系如圖1所示,GAN由生成器G和判別器D組成,G和D都是全連接神經(jīng)網(wǎng)絡(luò),判別器D用于判斷輸入數(shù)據(jù)是真實(shí)數(shù)據(jù)還是生成數(shù)據(jù),而生成器G用于產(chǎn)生逼近真實(shí)數(shù)據(jù)的生成數(shù)據(jù),使判別器D不能區(qū)分輸入的數(shù)據(jù)是真實(shí)數(shù)據(jù)還是生成數(shù)據(jù)[4]。
圖1 GAN的基本網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Basic network structure of GAN
使用Gaussian分布隨機(jī)初始化生成器和判別器的權(quán)重和偏置值參數(shù),輸入服從Gaussian分布或均勻分布pz(z)的隨機(jī)噪聲z到生成器G并產(chǎn)生數(shù)據(jù)G(z),將生成數(shù)據(jù)G(z)與真實(shí)數(shù)據(jù)x隨機(jī)混合后并輸入到判別器D,反復(fù)訓(xùn)練更新判別器D的參數(shù)得到判別概率D(x);共享判別器D的參數(shù),再次隨機(jī)輸入噪聲z到生成器G并產(chǎn)生數(shù)據(jù)G(z),此時(shí)將G(z)當(dāng)作真實(shí)數(shù)據(jù)輸入到判別器D中更新生成器G的參數(shù),而判別器的參數(shù)保持不變,依上述過(guò)程循環(huán)迭代訓(xùn)練并更新生成器G和判別器D的參數(shù),直到判別器不能區(qū)分真假數(shù)據(jù),也就是區(qū)分真假數(shù)據(jù)的概率為D(x)=1/2,使得GAN的數(shù)學(xué)模型
minGmaxDV(D,G)
=Ex~pdata(x)[logD(x)]+Ez~pz(z)[log(1-D(G(z)))]
達(dá)到極大極小值,其中pdata(x)表示真實(shí)數(shù)據(jù)x概率分布。當(dāng)達(dá)到極大極小值V(D,G)=-log4時(shí),GAN的最終目標(biāo)就是使生成數(shù)據(jù)的概率分布pg(x)收斂到真實(shí)數(shù)據(jù)的概率分布pdata(x)。
在GAN中,根據(jù)其數(shù)學(xué)模型,可知判別器D的數(shù)學(xué)模型為
maxDV(D,G)
=Ex~pdata(x)[logD(x)]+Ez~pz(z)[log(1-D(G(z)))]
而生成器G的數(shù)學(xué)模型為
minGV(D,G)=Ez~pz(z)[log(1-D(G(z)))]
綜上可知,GAN具有堅(jiān)實(shí)的理論基礎(chǔ),可以訓(xùn)練任何一種生成器網(wǎng)絡(luò),生成器和判別器的網(wǎng)絡(luò)結(jié)構(gòu)靈活,而且可以生成高質(zhì)量的數(shù)據(jù)。不過(guò),GAN存在訓(xùn)練不穩(wěn)定、生成數(shù)據(jù)質(zhì)量差和多樣性不足,以及模型自由不可控等問(wèn)題。
使用Wassertein距離度量真實(shí)數(shù)據(jù)與生成數(shù)據(jù)分布之間的距離,Arjovsky等[17]提出WGAN(Wasserstein GAN)解決GAN訓(xùn)練不穩(wěn)定、生成數(shù)據(jù)質(zhì)量差和多樣性不足的問(wèn)題,其數(shù)學(xué)模型為
minGmaxDV(D,G)
=Ex~pdata(x)[D(x)]-Ez~pz(z)[D(G(z))]
可知判別器D的數(shù)學(xué)模型為
maxDV(D,G)
=Ex~pdata(x)[D(x)]-Ez~pz(z)[D(G(z))]
其中判別器D滿(mǎn)足1-Lipschitz條件‖f‖L≤1,而生成器G的數(shù)學(xué)模型為
minGV(D,G)=-Ez~pz(z)[D(G(z))]
基于梯度懲罰實(shí)現(xiàn)判別器D的1-Lipschitz連續(xù)性條件,Gulrajani等[18]提出WGAN-GP(WGAN with gradient penalty)解決WGAN的梯度消失問(wèn)題,其數(shù)學(xué)模型為
minGmaxDV(D,G)
=Ex~pdata(x)[D(x)]-Ez~pz(z)[D(G(z))]+λEz~pz(z)[(‖▽D(γx+(1-γ)G(z))‖2-1)2]
其中λ是梯度懲罰系數(shù),γ∈[0,1]是隨機(jī)數(shù),通過(guò)對(duì)真實(shí)數(shù)據(jù)x與生成數(shù)據(jù)G(x)進(jìn)行隨機(jī)采樣可得γx+(1-γ)G(z),以此可以避免在整個(gè)樣本空間上采樣。因此,判別器D的數(shù)學(xué)模型為
maxDV(D,G)
=Ex~pdata(x)[D(x)]-Ez~pz(z)[D(G(z))]+λEz~pz(z)[(‖▽D(γx+(1-γ)G(z))‖2-1)2]
而WGAN-GP生成器的數(shù)學(xué)模型與WGAN生成器的數(shù)學(xué)模型相同。
通過(guò)引入條件變量y,Mirza和Osindero[19]提出可控的CGAN(Conditional generative adversarial networks),其數(shù)學(xué)模型為
minGmaxDV(D,G)=Ex~pdata(x)[logD(x|y)]+Ez~pz(z)[log(1-D(G(z|y)))]
使用CGAN可以指導(dǎo)性地生成數(shù)據(jù),解決GAN面對(duì)復(fù)雜數(shù)據(jù)自由不可控的問(wèn)題。根據(jù)CGAN的數(shù)學(xué)模型,可知其判別器D的數(shù)學(xué)模型為
maxDV(D,G)=Ex~pdata(x)[logD(x|y)]+Ez~pz(z)[log(1-D(G(z|y)))]
而生成器G的數(shù)學(xué)模型為
minGV(D,G)=Ez~pz(z)[log(1-D(G(z|y)))]
因使用真實(shí)數(shù)據(jù)訓(xùn)練判別器,易帶來(lái)隱私泄露的風(fēng)險(xiǎn)[6]。因此,目前的工作主要研究了GAN面臨成員推理和模型提取兩種隱私攻擊,如表1所示,本節(jié)主要從攻擊對(duì)象、攻擊類(lèi)型、攻擊特點(diǎn)、攻擊效果和評(píng)價(jià)指標(biāo)等方面總結(jié)和分析GAN所面臨的這2種隱私攻擊。
表1 GAN的隱私攻擊Tab.1 Privacy attacks of GAN
其具體方法是攻擊者將xi分類(lèi)為真實(shí)樣本或假樣本,以此最大化成員推理的效用分?jǐn)?shù)Φ(xi)期望值,其中正確識(shí)別成員時(shí)Φ(xi)=1,否則Φ(xi)=-1,pi=D(xi∈x),qi=D(xi∈G(z)),p(xi∈x)=|x|/(|x|+|G(z)|)。
總的來(lái)說(shuō),GAN目前面臨成員推理和模型提取兩種主要的隱私攻擊,而且使用的隱私攻擊數(shù)學(xué)模型和攻擊方法不同也不統(tǒng)一,相應(yīng)的隱私攻擊評(píng)價(jià)指標(biāo)不同也不統(tǒng)一,主要包括攻擊的準(zhǔn)確率、歐氏距離、ROC-AUC(Area under the receiver operating characteristic curve)[26]、TVD(Total variantion distance)和FID等。針對(duì)這些隱私攻擊,已有的研究工作中主要是基于差分隱私實(shí)現(xiàn)GAN的隱私保護(hù)。在后續(xù)部分,主要針對(duì)目前差分隱私GAN的框架與方法、差分隱私聯(lián)邦GAN的框架與方法進(jìn)行總結(jié)與比較分析。
續(xù)表1
本節(jié)歸納差分隱私GAN的框架,并分析其合理性。同時(shí),總結(jié)和對(duì)比分析目前的差分隱私GAN方法,以及用于對(duì)其隱私和效用分析的評(píng)價(jià)指標(biāo)。
如圖2所示,目前主要基于數(shù)據(jù)擾動(dòng)、梯度擾動(dòng)和目標(biāo)函數(shù)擾動(dòng)方法實(shí)現(xiàn)GAN的差分隱私保護(hù)。在數(shù)據(jù)擾動(dòng)中,使用差分隱私噪聲直接隨機(jī)擾動(dòng)訓(xùn)練數(shù)據(jù),可以避免GAN面臨的隱私攻擊,不過(guò)數(shù)據(jù)擾動(dòng)因直接對(duì)數(shù)據(jù)添加噪聲,會(huì)破壞數(shù)據(jù)之間的關(guān)聯(lián)性,必然會(huì)導(dǎo)致訓(xùn)練數(shù)據(jù)的效用損失,以此訓(xùn)練GAN獲得的網(wǎng)絡(luò)模型質(zhì)量低,進(jìn)而影響生成數(shù)據(jù)的質(zhì)量。因此,可以使用差分隱私噪聲隨機(jī)擾動(dòng)目標(biāo)函數(shù)系數(shù)實(shí)現(xiàn)GAN的隱私保護(hù),以此避免對(duì)數(shù)據(jù)擾動(dòng)而導(dǎo)致訓(xùn)練模型質(zhì)量差的問(wèn)題,但是因?qū)δ繕?biāo)函數(shù)的系數(shù)進(jìn)行隨機(jī)擾動(dòng),可能會(huì)產(chǎn)生差分隱私GAN的收斂慢、訓(xùn)練不穩(wěn)定和訓(xùn)練模型質(zhì)量差等問(wèn)題。因此,梯度擾動(dòng)是目前實(shí)現(xiàn)差分隱私GAN的主要方法,首先通過(guò)對(duì)梯度進(jìn)行裁剪,然后使用精心設(shè)計(jì)的噪聲添加到裁剪梯度實(shí)現(xiàn)GAN的差分隱私保護(hù)。在梯度擾動(dòng)中,僅僅使用差分隱私噪聲隨機(jī)擾動(dòng)判別器的梯度,而不破壞訓(xùn)練樣本數(shù)據(jù)及其關(guān)聯(lián)性,也不會(huì)破壞訓(xùn)練的目標(biāo)函數(shù)。通過(guò)對(duì)判別器進(jìn)行梯度擾動(dòng)后,根據(jù)迭代訓(xùn)練的累積隱私預(yù)算損失估計(jì),判別器滿(mǎn)足差分隱私,基于差分隱私的后處理性質(zhì),生成器也滿(mǎn)足差分隱私,從而保證生成數(shù)據(jù)的差分隱私。只不過(guò)在基于梯度擾動(dòng)的差分隱私GAN框架中,因?qū)μ荻冗M(jìn)行了隨機(jī)擾動(dòng),相比于數(shù)據(jù)擾動(dòng)和目標(biāo)函數(shù)擾動(dòng)可能需要迭代更多次才能使差分隱私GAN的目標(biāo)函數(shù)收斂且趨于穩(wěn)定,而且還需要計(jì)算差分隱私GAN框架迭代訓(xùn)練的累積隱私預(yù)算損失估計(jì),以此保證在累積隱私預(yù)算損失估計(jì)完全消耗后,差分隱私GAN框架的訓(xùn)練終止。
圖2 差分隱私GAN框架Fig.2 Differentially private GAN framework
針對(duì)使用敏感數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)存在隱私泄露風(fēng)險(xiǎn)的問(wèn)題,現(xiàn)有的工作主要是基于差分隱私實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)模型的隱私保護(hù)。接下來(lái),如表2所示,主要從梯度擾動(dòng)、數(shù)據(jù)擾動(dòng)、目標(biāo)函數(shù)擾動(dòng)和標(biāo)簽擾動(dòng)等策略綜述差分隱私GAN的方法。
1)基于梯度擾動(dòng)的差分隱私GAN方法
其中,度量方法IS(Inception score)也是評(píng)價(jià)生成數(shù)據(jù)質(zhì)量的一種方法,具體形式化為IS=eEx~pg[KL(p(y|x)||p(y))],其中p(y|x)是生成數(shù)據(jù)x屬于類(lèi)別y的條件概率分布,KL散度(Kullback-Leibler divergence)KL(p(y|x)||p(y))度量概率分布p(y|x)與p(y)之間的距離。因此,IS越大,生成數(shù)據(jù)質(zhì)量越高。陳竑毓[31]通過(guò)設(shè)計(jì)自適應(yīng)裁剪梯度策略,并結(jié)合梯度擾動(dòng)策略提出差分隱私多生成器WGAN,以此實(shí)現(xiàn)差分隱私保護(hù)的同時(shí)生成較好的圖像數(shù)據(jù)?;赪GAN生成數(shù)據(jù)與真實(shí)數(shù)據(jù)相似的最優(yōu)結(jié)果,對(duì)比生成數(shù)據(jù)與原始數(shù)據(jù)的差異進(jìn)行反饋調(diào)參,Tao等[32]提出差分隱私WGAN有效保護(hù)敏感數(shù)據(jù),而且保證較好的數(shù)據(jù)效用。方晨等[33]基于GAN提出差分隱私數(shù)據(jù)發(fā)布方法,通過(guò)設(shè)計(jì)動(dòng)態(tài)隱私預(yù)算分配、自適應(yīng)裁剪閾值選取和權(quán)重參數(shù)聚類(lèi)等優(yōu)化策略來(lái)靈活調(diào)整隱私預(yù)算分配并減小總體噪聲規(guī)模,以此生成符合真實(shí)數(shù)據(jù)統(tǒng)計(jì)特性且不泄露隱私的高質(zhì)量數(shù)據(jù),而在動(dòng)態(tài)隱私預(yù)算分配過(guò)程中,使用衰減函數(shù)逐漸減小每次迭代訓(xùn)練的差分隱私噪聲尺度大小,通過(guò)指數(shù)機(jī)制選擇衰減函數(shù)的超參數(shù),最終選取生成數(shù)據(jù)質(zhì)量最佳的超參數(shù)。Ha和Dang[34]提出本地化差分隱私GAN框架,用于噪聲數(shù)據(jù)生成。Chen等[35]提出梯度凈化(Gradient-sanitized)的WGAN,允許在嚴(yán)格的隱私保證下發(fā)布經(jīng)過(guò)脫敏的數(shù)據(jù),并能更準(zhǔn)確地扭曲梯度信息,從而訓(xùn)練更深層次的模型并生成更多的信息樣本。于雅娜等[36]提出差分隱私WGAN-GP方法,該方法可以有效實(shí)現(xiàn)敏感信息的隱私保護(hù),且可以生成具有較好質(zhì)量的數(shù)據(jù)。Yang等[37]提出差分隱私WGAN-GP來(lái)訓(xùn)練具有隱私保護(hù)功能的生成模型,為敏感數(shù)據(jù)提供強(qiáng)大的隱私保護(hù),并生成高質(zhì)量的數(shù)據(jù)。Fan和Pokkunuru[38]提出差分隱私解決方案,用于生成高質(zhì)量的網(wǎng)絡(luò)流數(shù)據(jù),并通過(guò)訓(xùn)練具有差分隱私的GAN框架來(lái)保護(hù)敏感訓(xùn)練數(shù)據(jù)的隱私。Zhang等[39]提出基于GAN的圖數(shù)據(jù)隱私發(fā)布模型,該模型可以使度分布保持較高的可用性,并滿(mǎn)足(ε,δ)-差分隱私。
2)基于數(shù)據(jù)擾動(dòng)的差分隱私GAN方法
當(dāng)使用GAN生成數(shù)據(jù)時(shí),數(shù)據(jù)擾動(dòng)方法通過(guò)添加差分隱私噪聲到訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)GAN隱私保護(hù)。Li等[40]提出圖數(shù)據(jù)隱私保護(hù)方法,使用GAN對(duì)圖數(shù)據(jù)執(zhí)行匿名化操作,使得在不指定特定特征的情況下充分了解圖的特征成為可能,并通過(guò)在圖生成過(guò)程中向概率鄰接矩陣添加差分隱私噪聲來(lái)保護(hù)匿名圖的隱私。Neunhoeffer等[41]提出差分隱私Post-GAN增強(qiáng),結(jié)合GAN訓(xùn)練期間獲得的生成器序列產(chǎn)生的樣本,以創(chuàng)建高質(zhì)量的數(shù)據(jù)集,并使用差分隱私乘法權(quán)重方法對(duì)生成的樣本重新加權(quán)[42]。Indhumathi和Devi[43]提出醫(yī)療保健Cramér GAN,該算法只在已識(shí)別的準(zhǔn)標(biāo)識(shí)符中添加差分隱私噪聲,將最終結(jié)果與敏感屬性相結(jié)合,其中匿名醫(yī)療數(shù)據(jù)被用作訓(xùn)練Cramér GAN的真實(shí)數(shù)據(jù),Cramér距離用于提高模型的效率,而由醫(yī)療保健機(jī)構(gòu)生成的數(shù)據(jù)可以實(shí)現(xiàn)隱私保護(hù),并抵抗各種攻擊。Imtiaz等[44]提出結(jié)合差分隱私機(jī)制的GAN,通過(guò)直接向聚合數(shù)據(jù)記錄添加噪聲來(lái)生成逼真的隱私醫(yī)療數(shù)據(jù)集,可以生成高質(zhì)量的差分隱私數(shù)據(jù)集,并保留原始數(shù)據(jù)集的統(tǒng)計(jì)特征。
3)基于目標(biāo)函數(shù)擾動(dòng)的差分隱私GAN方法
在目標(biāo)函數(shù)擾動(dòng)中,已有的工作將Laplace噪聲注入到系數(shù)中,以構(gòu)造GAN訓(xùn)練中的差分隱私損失函數(shù)。Zhang等[45]提出新的隱私保護(hù)GAN,基于函數(shù)機(jī)制,通過(guò)向潛在空間注入Laplace噪聲來(lái)擾動(dòng)目標(biāo)函數(shù)的系數(shù),以確保訓(xùn)練數(shù)據(jù)的差分隱私,并且可以生成高質(zhì)量的和逼真的數(shù)據(jù)樣本,也不會(huì)泄露訓(xùn)練數(shù)據(jù)集中的敏感信息。
4)基于標(biāo)簽擾動(dòng)的差分隱私GAN方法
Papernot等[46]利用差分隱私噪聲的標(biāo)簽擾動(dòng)構(gòu)建PATE(Private aggregation of teacher ensembles)模型,為訓(xùn)練數(shù)據(jù)提供了強(qiáng)大的隱私保障,該機(jī)制以黑盒方式將不相交數(shù)據(jù)集訓(xùn)練的多個(gè)模型相結(jié)合,由于這些模型直接依賴(lài)于敏感數(shù)據(jù),所以它們不會(huì)被發(fā)布,而是用作“Student”模型的“Teacher”。因?yàn)長(zhǎng)aplace噪聲僅僅添加到“Teacher”的輸出,因此“Student”可以學(xué)習(xí)預(yù)測(cè)由Laplace噪聲擾動(dòng)所有“Teacher”中選擇的輸出,并且不能直接訪(fǎng)問(wèn)單個(gè)“Teacher”、基礎(chǔ)數(shù)據(jù)或參數(shù)。在GAN和PATE框架的基礎(chǔ)上,Jordon等[47]用PATE機(jī)制代替GAN的判別器。因此,判別器滿(mǎn)足差分隱私。不過(guò),該機(jī)制的缺點(diǎn)是需要使用公共數(shù)據(jù)來(lái)學(xué)習(xí)訓(xùn)練模型。
此外,目前的研究主要集中在以統(tǒng)計(jì)方式發(fā)布隱私保護(hù)的數(shù)據(jù),而未考慮上下文的動(dòng)態(tài)性和相關(guān)性。為此,Ho等[48]在GAN中引入差分隱私標(biāo)識(shí)符(Differential privacy identifier)作為第三方,生成器同時(shí)與判別器和標(biāo)識(shí)符博弈,該標(biāo)識(shí)符基于差分隱私和用戶(hù)級(jí)隱私(User-level privacy)建立隱私約束,根據(jù)差分隱私預(yù)算的序列組合為連續(xù)數(shù)據(jù)發(fā)布提供隱私保障。并使用軌跡數(shù)據(jù)對(duì)隱私保護(hù)與數(shù)據(jù)效用進(jìn)行實(shí)驗(yàn)分析,其隱私分析的評(píng)價(jià)指標(biāo)是可視化生成軌跡與真實(shí)軌跡之間的偏差距離,而效用分析的評(píng)價(jià)指標(biāo)是均方根誤差(Root mean square error,RMSE)和Pearson相關(guān)性。
綜上,并結(jié)合表2中的差分隱私擾動(dòng)策略及評(píng)價(jià)指標(biāo),針對(duì)不同類(lèi)型的數(shù)據(jù),基于各種擾動(dòng)策略的差分隱私GAN方法的總體思想是一致的。對(duì)于差分隱私GAN方法,目前主要使用隱私預(yù)算、距離或誤差度量和成員推理攻擊的準(zhǔn)確率等評(píng)價(jià)指標(biāo)對(duì)隱私保護(hù)進(jìn)行分析,對(duì)數(shù)據(jù)效用分析主要使用機(jī)器學(xué)習(xí)任務(wù)的分類(lèi)準(zhǔn)確率,以及距離或誤差、關(guān)聯(lián)矩陣、Kernel密度估計(jì)、生成分?jǐn)?shù)、ROC-AUC、PRC-AUC(Area under the precision recall curve)[26]、IS、FID、JS散度、直方圖分布和圖效用度量等作為評(píng)價(jià)指標(biāo)。
表2 差分隱私GAN的擾動(dòng)方法及評(píng)價(jià)指標(biāo)Tab.2 Perturbation approaches and evaluation metrics of differentially private GAN
本節(jié)首先概述聯(lián)邦學(xué)習(xí)(Federated learning,FL)的框架及其訓(xùn)練方法,然后概括差分隱私聯(lián)邦GAN的框架,并分析其合理性。同時(shí),總結(jié)和比較分析目前的差分隱私聯(lián)邦GAN方法,以及用于對(duì)其隱私和效用分析的評(píng)價(jià)指標(biāo)。
聯(lián)邦學(xué)習(xí)適合于訓(xùn)練大規(guī)模分布、不平衡和非獨(dú)立同分布(Non-independently and identically distributed,Non-IID)的多源本地?cái)?shù)據(jù),并向服務(wù)器共享模型更新(Model update),以此使個(gè)體對(duì)自己的數(shù)據(jù)具有自主本地隱私控制權(quán),并通過(guò)模型聚合和平均的訓(xùn)練算法(FedAvg)產(chǎn)生更好的全局模型[51]。每個(gè)本地用戶(hù)的損失函數(shù)為
其中ni是本地用戶(hù)i的樣本量,f(xj)是期望輸出,oj是實(shí)際輸出,則聯(lián)邦學(xué)習(xí)的損失函數(shù)為
其中n=n1+n2+…+nK是總樣本量。
在分布式環(huán)境中,聚集大規(guī)模數(shù)據(jù)便于更好地訓(xùn)練數(shù)據(jù)模型和應(yīng)用分析,然而本地用戶(hù)希望對(duì)自己的數(shù)據(jù)具有本地的隱私控制權(quán),不愿將真實(shí)數(shù)據(jù)共享給服務(wù)器。因此,結(jié)合聯(lián)邦學(xué)習(xí)框架,目前主要基于差分隱私GAN實(shí)現(xiàn)分布式生成數(shù)據(jù)的聚集,以此避免共享真實(shí)數(shù)據(jù)導(dǎo)致隱私泄露的風(fēng)險(xiǎn)。總結(jié)現(xiàn)有的差分隱私聯(lián)邦GAN框架,通過(guò)使用梯度擾動(dòng)策略,目前主要有兩種模型訓(xùn)練方式基于差分隱私實(shí)現(xiàn)聯(lián)邦GAN的隱私保護(hù),包括基于FedAvg算法的差分隱私聯(lián)邦GAN框架和基于串行訓(xùn)練(Serialized training)的差分隱私聯(lián)邦GAN框架。
基于聯(lián)邦學(xué)習(xí)模型聚合與平均的FedAvg算法建立差分隱私聯(lián)邦GAN框架,如圖3所示,每個(gè)本地用戶(hù)使用梯度擾動(dòng)策略添加差分隱私噪聲到判別器的梯度,以此訓(xùn)練生成器并更新其本地參數(shù),根據(jù)迭代訓(xùn)練的累積隱私預(yù)算損失估計(jì)使得判別器實(shí)現(xiàn)差分隱私保護(hù),基于差分隱私的后處理性質(zhì)可以使生成器也滿(mǎn)足差分隱私。服務(wù)器聚集本地差分隱私生成器模型,基于差分隱私的并行組合性質(zhì)使聚合的生成器模型滿(mǎn)足差分隱私,再由差分隱私的后處理性質(zhì),對(duì)聚合的生成器模型進(jìn)行平均獲得的全局模型也滿(mǎn)足差分隱私。重復(fù)此過(guò)程,每個(gè)用戶(hù)再根據(jù)差分隱私生成器全局模型更新本地生成器模型,最終消耗完隱私預(yù)算損失估計(jì),終止模型訓(xùn)練。不過(guò),在使用FedAvg算法的差分隱私聯(lián)邦GAN框架中,因?yàn)槊總€(gè)本地用戶(hù)都要上傳本地模型和下載全局模型來(lái)進(jìn)行訓(xùn)練和模型更新,勢(shì)必帶來(lái)很大的通信開(kāi)銷(xiāo)。因此,需要新型的聯(lián)邦學(xué)習(xí)訓(xùn)練方法構(gòu)建差分隱私聯(lián)邦GAN框架,以此有效地實(shí)現(xiàn)聯(lián)邦GAN的隱私保護(hù)。
圖3 使用FedAvg訓(xùn)練方法的差分隱私聯(lián)邦GAN框架Fig.3 Differentially private federated GAN framework using FedAvg training approach
如圖4所示,基于新的串行訓(xùn)練范式構(gòu)建差分隱私聯(lián)邦GAN框架。根據(jù)當(dāng)前GAN的全局模型,第一個(gè)本地用戶(hù)使用梯度擾動(dòng)策略隨機(jī)添加噪聲到判別器的模型,然后迭代訓(xùn)練更新其生成器的模型,并將更新后GAN的本地模型發(fā)送到第二個(gè)本地用戶(hù)進(jìn)行GAN的本地模型更新,直到第n個(gè)本地用戶(hù)完成GAN的本地模型更新,并上傳到服務(wù)器,使得服務(wù)器獲得最終更新后GAN的全局模型。因?yàn)槊總€(gè)本地用戶(hù)通過(guò)差分隱私噪聲隨機(jī)擾動(dòng)判別器的模型,依據(jù)迭代訓(xùn)練的累積隱私預(yù)算損失估計(jì)使得判別器滿(mǎn)足差分隱私,根據(jù)差分隱私的后處理性質(zhì)保證生成器模型也滿(mǎn)足差分隱私,進(jìn)一步使用差分隱私的后處理性質(zhì)使得最終獲取的生成器和判別器的全局模型也滿(mǎn)足差分隱私,以此使用最終全局模型可以有效地實(shí)現(xiàn)GAN的差分隱私保護(hù)。
圖4 使用串行訓(xùn)練方法的差分隱私聯(lián)邦GAN框架Fig.4 Differentially private federated GAN framework using serialized training approach
為了實(shí)現(xiàn)分布式協(xié)同數(shù)據(jù)分析,收集大規(guī)模數(shù)據(jù)是一項(xiàng)重要任務(wù)。然而,由于敏感數(shù)據(jù)的隱私性,很難收集充足的樣本。因此,可以使用GAN生成數(shù)據(jù)并可共享用于數(shù)據(jù)分析。然而,在分布式環(huán)境中,訓(xùn)練GAN面臨著數(shù)據(jù)隱私泄露的新挑戰(zhàn)。因此,現(xiàn)有的工作通過(guò)在分布式環(huán)境中結(jié)合GAN和聯(lián)邦學(xué)習(xí),為差分隱私生成數(shù)據(jù)收集提供了解決方法。如表3所示,本節(jié)主要從擾動(dòng)策略、擾動(dòng)機(jī)制和訓(xùn)練方法等方面總結(jié)和比較分析差分隱私聯(lián)邦GAN的方法。
1)基于FedAvg的差分隱私聯(lián)邦GAN方法
梯度擾動(dòng)也可用于在聯(lián)邦學(xué)習(xí)的GAN訓(xùn)練中確保訓(xùn)練數(shù)據(jù)的隱私保護(hù)。Augenstein等[52]提出差分隱私的聯(lián)邦生成模型代表隱私數(shù)據(jù)的示例。Chen等[35]將梯度凈化的WGAN擴(kuò)展到聯(lián)邦環(huán)境中訓(xùn)練具有差分隱私的GAN,并且表明該方法與文獻(xiàn)[52]的方法之間的細(xì)微差異。不同醫(yī)院通過(guò)數(shù)據(jù)共享聯(lián)合訓(xùn)練模型以診斷COVID-19肺炎,但存在隱私泄露風(fēng)險(xiǎn),Zhang等[53]為此提出用于檢測(cè)COVID-19肺炎的差分隱私聯(lián)邦GAN,可以有效診斷COVID-19,而不會(huì)影響IID和Non-IID環(huán)境下的隱私。數(shù)據(jù)的分布式存儲(chǔ)以及由于隱私原因無(wú)法共享數(shù)據(jù)的事實(shí),為聯(lián)邦學(xué)習(xí)環(huán)境帶來(lái)了新的挑戰(zhàn)。因此,Nguyen等[54]提出新的聯(lián)邦學(xué)習(xí)方案,以生成逼真的COVID-19圖像,以便于在邊云計(jì)算中使用GAN增強(qiáng)COVID-19檢測(cè),該方案在每個(gè)醫(yī)院機(jī)構(gòu)集成了差分隱私解決方案,以增強(qiáng)聯(lián)邦COVID-19數(shù)據(jù)分析中的隱私。
2)基于串行訓(xùn)練的差分隱私聯(lián)邦GAN方法
Xin等[55]通過(guò)在判別器的梯度更新過(guò)程中加入高斯噪聲,策略性地結(jié)合Lipschitz條件和差分隱私敏感度,提出了基于聯(lián)邦學(xué)習(xí)的差分隱私GAN,并使用串行訓(xùn)練范式,顯著降低了通信成本??紤]現(xiàn)實(shí)中分布式數(shù)據(jù)往往是Non-IID的,這給建模帶來(lái)了挑戰(zhàn),Xin等[55]進(jìn)一步提出了通用隱私FL-GAN來(lái)解決這個(gè)問(wèn)題,可以使用差分隱私提供嚴(yán)格的隱私保證,即使這些數(shù)據(jù)是Non-IID,也可以生成令人滿(mǎn)意的數(shù)據(jù)。
此外,考慮到差分平均案例隱私(Differential average-case privacy)[56]增強(qiáng)了聯(lián)邦學(xué)習(xí)的隱私保護(hù),Triastcyn等[57]在聯(lián)邦學(xué)習(xí)環(huán)境中使用GAN提出了隱私保護(hù)數(shù)據(jù)發(fā)布框架,通過(guò)FedAvg算法對(duì)生成器進(jìn)行訓(xùn)練,以生成隱私人工數(shù)據(jù)樣本,并通過(guò)實(shí)驗(yàn)評(píng)估信息泄露的風(fēng)險(xiǎn),結(jié)果表明可以生成高質(zhì)量的標(biāo)簽數(shù)據(jù),用以成功地訓(xùn)練和驗(yàn)證機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)高的準(zhǔn)確率,而且通過(guò)估計(jì)期望的隱私預(yù)算損失,表明可以顯著降低此類(lèi)模型對(duì)模型逆向攻擊的脆弱性。
對(duì)于差分隱私聯(lián)邦GAN方法,主要通過(guò)裁剪梯度,并使用差分隱私噪聲隨機(jī)擾動(dòng)裁剪梯度實(shí)現(xiàn)聯(lián)邦GAN的隱私保護(hù)。在差分隱私GAN的聯(lián)邦學(xué)習(xí)模型訓(xùn)練中,目前使用的是模型聚合與平均訓(xùn)練方法,以及串行訓(xùn)練方法,相較而言串行訓(xùn)練方法具有更低的通信開(kāi)銷(xiāo)。此外,根據(jù)表3可知,差分隱私聯(lián)邦GAN方法的隱私評(píng)價(jià)指標(biāo)主要是隱私預(yù)算和成員推理攻擊的準(zhǔn)確率,而對(duì)效用分析主要使用機(jī)器學(xué)習(xí)任務(wù)的分類(lèi)準(zhǔn)確率,以及誤差、IS和FID等作為評(píng)價(jià)指標(biāo)。
表3 差分隱私聯(lián)邦GAN的擾動(dòng)方法及評(píng)價(jià)指標(biāo)Tab.3 Perturbation approaches and evaluation metrics of differentially private federated GAN
根據(jù)前面GAN的隱私威脅模型、差分隱私GAN的框架與方法,以及差分隱私聯(lián)邦GAN的框架與方法的綜述,本節(jié)分析目前工作中存在的問(wèn)題,并對(duì)未來(lái)的研究進(jìn)行展望。
1)GAN的新型隱私攻擊及其評(píng)價(jià)指標(biāo)
在目前的工作中,主要研究了成員推理攻擊和模型提取攻擊。但是,在面對(duì)更復(fù)雜的實(shí)際數(shù)據(jù)使用場(chǎng)景時(shí),需要分析和提出GAN與聯(lián)邦GAN的新型隱私攻擊方法。進(jìn)一步,因?yàn)槟壳把芯恐胁⑽磳?duì)GAN與聯(lián)邦GAN的隱私攻擊評(píng)價(jià)提供統(tǒng)一的指標(biāo),所以需要研究GAN面臨各種新型隱私攻擊時(shí)的統(tǒng)一評(píng)價(jià)指標(biāo),用以判定各種隱私威脅模型的優(yōu)勢(shì),以便于為保護(hù)GAN和聯(lián)邦GAN面臨的新型隱私威脅提供方法設(shè)計(jì)指導(dǎo)。
2)新型差分隱私GAN及其隱私與效用評(píng)價(jià)指標(biāo)
基于GAN的變式,擴(kuò)展差分隱私GAN和差分隱私聯(lián)邦GAN框架,并根據(jù)不同的數(shù)據(jù)類(lèi)型,使用相應(yīng)的Laplace機(jī)制、Gaussian機(jī)制和隨機(jī)響應(yīng)機(jī)制,實(shí)現(xiàn)不同數(shù)據(jù)類(lèi)型和應(yīng)用場(chǎng)景下的差分隱私數(shù)據(jù)生成。考慮到目前工作中并未統(tǒng)一給出差分隱私GAN和差分隱私聯(lián)邦GAN的隱私與效用評(píng)價(jià)指標(biāo),可以從多方面給出其統(tǒng)一的評(píng)價(jià)指標(biāo),例如從機(jī)器學(xué)習(xí)任務(wù)的準(zhǔn)確性、異常檢測(cè)的性能對(duì)生成數(shù)據(jù)的效用進(jìn)行評(píng)價(jià)。
3)差分隱私GAN更嚴(yán)格的累積隱私預(yù)算損失估計(jì)方法
在使用梯度擾動(dòng)策略的差分隱私GAN和差分隱私聯(lián)邦GAN中,目前判別器迭代訓(xùn)練中主要通過(guò)累積隱私預(yù)算損失矩估計(jì)或RDP組合方法獲得更嚴(yán)格的差分隱私保證。不過(guò),Chaudhuri等[58]提出容量受限差分隱私(Capacity bounded differential privacy,CBDP)可以獲得相較于RDP組合更嚴(yán)格的累積隱私預(yù)算損失成本。因此,需要研究不同的裁剪策略,通過(guò)使用CBDP的組合定理嚴(yán)格估計(jì)累積隱私預(yù)算損失成本,以此使得差分隱私GAN框架的隱私-效用權(quán)衡更佳。
4)差分隱私GAN的超參數(shù)自適應(yīng)調(diào)節(jié)和神經(jīng)網(wǎng)絡(luò)模型優(yōu)化
在差分隱私GAN和差分隱私聯(lián)邦GAN框架中,不合適的學(xué)習(xí)率和判別器訓(xùn)練代數(shù)等超參數(shù)會(huì)導(dǎo)致生成同一樣本的模型崩塌(Model collapse)和不收斂等問(wèn)題,微調(diào)超參數(shù),如學(xué)習(xí)率和判別器代數(shù),以此避免模型崩塌和不收斂等問(wèn)題,因此需要研究和探索有效的超參數(shù)自適應(yīng)調(diào)節(jié)的方法。此外,對(duì)于復(fù)雜的數(shù)據(jù),通過(guò)使用深層次和更復(fù)雜的網(wǎng)絡(luò)模型,使用LSTM解決模型梯度消失和不收斂的問(wèn)題,以及使用模型的遷移學(xué)習(xí)方法,以此準(zhǔn)確訓(xùn)練模型,提高生成數(shù)據(jù)的質(zhì)量,保持?jǐn)?shù)據(jù)的高相關(guān)性。
5)Non-IID數(shù)據(jù)的差分隱私聯(lián)邦GAN及其新型訓(xùn)練方法
在實(shí)際的分布式應(yīng)用環(huán)境中,多源數(shù)據(jù)具有大規(guī)模分布、不平衡和非獨(dú)立同分布的特點(diǎn),通過(guò)聯(lián)邦學(xué)習(xí)的FedAvg或串行模型訓(xùn)練方法,直接使用目前的差分隱私聯(lián)邦GAN框架,會(huì)使得生成數(shù)據(jù)的質(zhì)量不佳。因此,需要提供新型的聯(lián)邦學(xué)習(xí)訓(xùn)練方法,例如基于選擇性隨機(jī)梯度下降的分布式訓(xùn)練技術(shù)[59],以此解決傳統(tǒng)聯(lián)邦學(xué)習(xí)訓(xùn)練方法的通信開(kāi)銷(xiāo)瓶頸問(wèn)題,并構(gòu)建適合于Non-IID數(shù)據(jù)的有效差分隱私聯(lián)邦GAN框架。
本工作首先概述和分析用于累積隱私預(yù)算估計(jì)的差分隱私組合定理,以及GAN及其常見(jiàn)變式。其次,總結(jié)和比較分析了GAN面臨的隱私威脅模型及其評(píng)價(jià)指標(biāo)。然后,歸納和對(duì)比分析差分隱私GAN的框架與方法,以及其評(píng)價(jià)指標(biāo)。同時(shí),概括和比較分析差分隱私聯(lián)邦GAN的框架與方法,以及其評(píng)價(jià)指標(biāo)。最后,分析目前GAN的隱私攻擊和差分隱私保護(hù)研究工作中存在的問(wèn)題,并討論未來(lái)的研究展望。本工作為對(duì)GAN的隱私攻擊及其評(píng)價(jià),以及GAN的差分隱私保護(hù)及其評(píng)價(jià)的研究提供參考,進(jìn)而激勵(lì)對(duì)GAN的隱私攻擊及其評(píng)價(jià)到差分隱私保護(hù)及其評(píng)價(jià)進(jìn)行系統(tǒng)性的研究。