文/陶陶 柏建樹
(安徽工業(yè)大學(xué) 安徽省馬鞍山市 243000)
定義1給定2個最多相差一條記錄的近鄰數(shù)據(jù)集D和D',對于一個隨機(jī)算法M,算法M的取值范圍為Mange(M),若算法M在數(shù)據(jù)集D和D'上的任意輸出結(jié)果都滿足:
則隨機(jī)算法M提供(ε,δ)-差分隱私,ε為隱私預(yù)算,表明隱私保護(hù)的程度。δ為誤差值,表明隱私泄露的概率。
其中,D和D'為最多相差一條記錄的近鄰數(shù)據(jù)集。高斯機(jī)制用于給f的真實輸出值添加高斯噪聲:
生成式對抗網(wǎng)絡(luò)模型用于估計數(shù)據(jù)集的底層分布,并根據(jù)其估計分布隨機(jī)生成實際樣本,其基本思想是通過使用兩個相互“博弈”的模型:一個生成模型G和一個判別模型D。生成模型G的訓(xùn)練目標(biāo)是盡可能去生成與真實數(shù)據(jù)相類似的結(jié)果,通過這個生成結(jié)果去最大化判別器判斷錯誤的概率,使判別器誤認(rèn)為生成結(jié)果即數(shù)據(jù)的真實結(jié)果。判別模型D的訓(xùn)練目標(biāo)則是盡可能去最大化自己對生成結(jié)果和真實結(jié)果的判別準(zhǔn)確率。在訓(xùn)練過程中,G和D的相互“博弈”使得兩個模型性能同時得到增強(qiáng)。GAN的目標(biāo)函數(shù)為:
算法1實現(xiàn)了深度學(xué)習(xí)過程中使用最小化經(jīng)驗損失函數(shù)L(θ)訓(xùn)練相關(guān)參數(shù)模型并在此過程中結(jié)合差分隱私技術(shù)的基本方法。具體算法實現(xiàn)的過程為:計算每個隨機(jī)樣本的梯度值g(x);為了避免某一單個數(shù)據(jù)對整體造成影響進(jìn)行梯度調(diào)整,對每個梯度的L2范數(shù)進(jìn)行裁剪并計算梯度的平均值,使其滿足閾值條件C的范圍,得到新梯度值為了實現(xiàn)隱私保護(hù),我們在新梯度值中添加噪聲用于對梯度的輸出進(jìn)行擾動;最后根據(jù)梯度下降法將添加噪聲后的梯度按相反的方向前進(jìn),更新參數(shù)θ,計算隱私損失。
為了合理評估深度學(xué)習(xí)差分隱私保護(hù)模型的隱私保護(hù)性能,需要對訓(xùn)練過程中的隱私損失進(jìn)行統(tǒng)計。隱私損失作為隨機(jī)變量,值的大小取決于添加到算法中的噪聲的規(guī)模。通過計算隱私損失隨機(jī)變量Z的對數(shù)矩,并且使用時間限制以及標(biāo)準(zhǔn)馬爾可夫不等式獲取尾部界限,得到隱私損失。則隨機(jī)變量Z的隱私損失定義為:
算法1:深度學(xué)習(xí)差分隱私算法
其中,M是隨機(jī)算法,D,D'是相鄰的兩個數(shù)據(jù)集,aux用于對輸入的輔助,s表示輸出。
原始GAN存在訓(xùn)練不穩(wěn)定與模式坍塌導(dǎo)致缺乏生成多樣性的問題。GAN采用交替優(yōu)化方式訓(xùn)練G和D,兩者之間的優(yōu)化必須達(dá)到一個較好的同步。但是在實際訓(xùn)練過程中,通常對D進(jìn)行多次更新后,才會對G進(jìn)行一次更新,這就容易造成G坍縮至一個鞍點。Arjovsky等人提出Wasserstein GAN來改進(jìn)原始GAN的不足。WGAN使用Wassertein距離作為優(yōu)化方式替代交叉熵來衡量真實分布和生成分布之間的距離,使收斂趨于穩(wěn)定,訓(xùn)練的穩(wěn)定性得到很大的提升。相比部分學(xué)者使用的DCGAN模型,WGAN不會受到批量標(biāo)準(zhǔn)化的限制,且可以使用特殊的網(wǎng)絡(luò)來實現(xiàn)G和D,從而得到更加多樣性的生成效果。因此,本文選用WGAN代替原始GAN,通過在深度學(xué)習(xí)訓(xùn)練過程中向梯度添加合適的噪聲以實現(xiàn)WGAN下的隱私保護(hù)。
3.1.1 改變ε對實驗的影響
差分隱私的定義表明,隱私預(yù)算ε的取值越小,則隱私保護(hù)的程度越好。為了驗證ε取值變化對實驗測試準(zhǔn)確率的影響,本組實驗固定δ=1e-5和σ=6,隱私預(yù)算參數(shù)ε由0.5變化至8,選擇MNIST手寫數(shù)字?jǐn)?shù)據(jù)集作為實驗數(shù)據(jù)集。實驗結(jié)果表明,隨著ε的逐漸增大,測試準(zhǔn)確率逐漸提升。但是,ε的選取不應(yīng)過高,否則會因添加噪聲過少而影響隱私保護(hù)的效果。
圖1:改變σ和δ的影響
圖2:改變σ和ε的影響
圖3:改變δ和ε的影響
圖4:ε=0.5,δ=1e-5,σ=6
3.1.2 改變σ對實驗的影響
第二組實驗固定ε=0.5和δ=1e-5,驗證改變噪聲規(guī)模σ對實驗測試準(zhǔn)確率的影響。噪聲規(guī)模σ取值變化為1至9。實驗結(jié)果表明,σ值的增加對模型準(zhǔn)確率的影響呈現(xiàn)出交替性先增后減的趨勢,當(dāng)σ的值取6時,模型的測試準(zhǔn)確率為89.91%,相對較高。
3.1.3 改變δ對實驗的影響
第三組實驗固定ε=0.5和σ=6,隱私泄露的誤差δ取值變化為1e-5至1e-2。實驗結(jié)果表明,隨著隱私泄露誤差δ的減小,模型的測試準(zhǔn)確率略微提高。在δ取值為1e-5時,隱私泄露誤差與模型測試準(zhǔn)確率達(dá)到平衡的狀態(tài),此時測試準(zhǔn)確率為90.19%,相對較高。
3.2.1 改變σ和δ對實驗的影響
第四組實驗固定ε=0.5,改變σ和δ取值,其中σ取值變化為2,4,6,8,δ取值1e-5至1e-2。實驗結(jié)果如圖1所示。
3.2.2 改變σ和ε對實驗的影響第五組實驗固定δ=1e-5,改變σ和ε取值,其中σ取值依次為2,4,6,8,ε取值0.5,1,2,4。實驗結(jié)果如圖2所示。
3.2.3 改變δ和ε對實驗的影響第六組實驗固定σ=6,改變δ和ε取值,其中δ取值1e-5至1e-2,ε取值0.5,1,2,4。實驗結(jié)果如圖3所示。
通過進(jìn)行多組控制參數(shù)變量的實驗,我們驗證了單個相關(guān)參數(shù)的改變對實驗測試準(zhǔn)確率的單獨影響以及不同相關(guān)參數(shù)同時改變對實驗測試準(zhǔn)確率的相互影響,發(fā)現(xiàn)當(dāng)ε取值0.5,δ取值1e-5,σ取值6時,實驗得到深度學(xué)習(xí)差分隱私保護(hù)模型的測試準(zhǔn)確率為90.52%,使用時刻會計法計算得到的隱私預(yù)算可以保證對隱私的保護(hù)。相比于使用其他GAN,使用WGAN的訓(xùn)練過程更加穩(wěn)定且準(zhǔn)確率有一定的提升,基本實現(xiàn)了隱私保護(hù)程度和數(shù)據(jù)集可用性之間的平衡。