張宇,蔡英,崔劍陽,張猛,范艷芳
卷積神經(jīng)網(wǎng)絡(luò)中基于差分隱私的動(dòng)量梯度下降算法
張宇,蔡英*,崔劍陽,張猛,范艷芳
(北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,北京 100101)(?通信作者電子郵箱ycai@bistu.edu.cn)
針對卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型的訓(xùn)練過程中,模型參數(shù)記憶數(shù)據(jù)部分特征導(dǎo)致的隱私泄露問題,提出一種CNN中基于差分隱私的動(dòng)量梯度下降算法(DPGDM)。首先,在模型優(yōu)化的反向傳播過程中對梯度添加滿足差分隱私的高斯噪聲,并用加噪后的梯度值參與模型參數(shù)的更新過程,從而實(shí)現(xiàn)對模型整體的差分隱私保護(hù);其次,為了減少引入差分隱私噪聲對模型收斂速度的影響,設(shè)計(jì)學(xué)習(xí)率衰減策略,改進(jìn)動(dòng)量梯度下降算法;最后,為了降低噪聲對模型準(zhǔn)確率的影響,在模型優(yōu)化過程中動(dòng)態(tài)地調(diào)整噪聲尺度的值,從而改變在每一輪迭代中需要對梯度加入的噪聲量。實(shí)驗(yàn)結(jié)果表明,與DP-SGD (Differentially Private Stochastic Gradient Descent)相比,所提算法可以在隱私預(yù)算為0.3和0.5時(shí),模型準(zhǔn)確率分別提高約5和4個(gè)百分點(diǎn)。可見,所提算法提高了模型的可用性,并實(shí)現(xiàn)了對模型的隱私保護(hù)。
卷積神經(jīng)網(wǎng)絡(luò);差分隱私;動(dòng)量梯度下降算法;深度學(xué)習(xí);隱私保護(hù)
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[1]憑借自動(dòng)提取特征、局部權(quán)值共享和準(zhǔn)確率較高的優(yōu)點(diǎn)受到了廣泛關(guān)注和研究,成功應(yīng)用在圖像分類[2]、特征提?。?]和圖像檢索[4]等多個(gè)領(lǐng)域,為挖掘一些復(fù)雜數(shù)據(jù)的信息提供了解決方法。大量的數(shù)據(jù)被收集為數(shù)據(jù)集訓(xùn)練CNN模型,然而這些數(shù)據(jù)中可能包含用戶的一些敏感信息,例如在腫瘤識別的醫(yī)學(xué)圖像中含有患者的隱私信息,若這些隱私信息在訓(xùn)練模型的過程中被模型學(xué)習(xí)記憶,編碼為模型的參數(shù),會導(dǎo)致隱私存在泄露的風(fēng)險(xiǎn)。目前已有研究表明,攻擊者可以通過竊取模型參數(shù)的手段,根據(jù)參數(shù)還原部分原始數(shù)據(jù)的特征,進(jìn)一步推斷訓(xùn)練數(shù)據(jù)集中的一些敏感信息[5]。
針對上述存在的隱私泄露問題,已有的解決方法可以分為數(shù)據(jù)加密、數(shù)據(jù)匿名和數(shù)據(jù)擾動(dòng)這3種:數(shù)據(jù)加密主要通過同態(tài)加密[6]、安全多方計(jì)算[7]等加密算法保護(hù)原始數(shù)據(jù),但是加密算法涉及大量運(yùn)算,針對復(fù)雜問題的開銷較大,實(shí)際中難以部署;數(shù)據(jù)匿名常用的方法是-匿名算法[8]以及一些拓展模型,需要假設(shè)攻擊者的背景知識,這也使得數(shù)據(jù)匿名無法抵御不斷變化的攻擊方式,需要隨著攻擊方式的改變而更新;數(shù)據(jù)擾動(dòng)主要應(yīng)用差分隱私[9]實(shí)現(xiàn)對數(shù)據(jù)的保護(hù),與數(shù)據(jù)加密和數(shù)據(jù)匿名相比,差分隱私擁有嚴(yán)格的數(shù)學(xué)證明過程,可以量化隱私保護(hù)水平,從而通過比較選取最優(yōu)的解決方法,此外差分隱私開銷較小,同時(shí)假設(shè)攻擊者擁有盡可能多的背景知識,可以抵御背景知識攻擊[10-12]。因此,本文采用差分隱私技術(shù)提供CNN模型訓(xùn)練過程中的隱私保護(hù)。
然而,將差分隱私技術(shù)應(yīng)用于CNN模型時(shí),由于在模型訓(xùn)練過程中引入了噪聲,較大影響了模型的可用性,因此平衡隱私保護(hù)和模型可用性一直是該領(lǐng)域的一個(gè)重點(diǎn)研究問題。為了在使用優(yōu)化算法優(yōu)化模型的過程中實(shí)現(xiàn)差分隱私保護(hù),同時(shí)降低噪聲對模型收斂和模型準(zhǔn)確率的影響,提高模型的可用性,本文提出了一種CNN中基于差分隱私的動(dòng)量梯度下降算法(Gradient Descent with Momentum algorithm based on Differential Privacy in CNN, DPGDM)。
本文的主要工作內(nèi)容有:
1)設(shè)計(jì)學(xué)習(xí)率衰減策略結(jié)合動(dòng)量梯度下降算法優(yōu)化模型。利用指數(shù)加權(quán)平均計(jì)算參數(shù)更新所需的梯度值,保留更多的梯度信息,降低噪聲對模型收斂的影響,使模型能夠在減少震蕩的同時(shí)沿著正確的方向快速收斂。
2)在模型優(yōu)化過程中,動(dòng)態(tài)調(diào)整噪聲尺度的值控制對梯度加入噪聲量的大小,解決模型最終震蕩無法收斂和準(zhǔn)確率較低的問題,為模型提供隱私保護(hù)的同時(shí)提高模型的可用性。
3)在真實(shí)數(shù)據(jù)集上進(jìn)行了大量對比實(shí)驗(yàn),從準(zhǔn)確率、隱私損失和參數(shù)設(shè)置等多方面進(jìn)行了分析,充分驗(yàn)證了本文算法能夠提高模型的可用性。
深度學(xué)習(xí)領(lǐng)域中的隱私保護(hù)概念由Shokri等[13]首次引入,Shokri等[13]設(shè)計(jì)了一個(gè)系統(tǒng)使得多個(gè)參與者能夠針對相同的目標(biāo)共同訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,且無須共享自己使用的全部訓(xùn)練數(shù)據(jù)集,從而保護(hù)本地訓(xùn)練數(shù)據(jù)集中的隱私信息。Abadi等[14]改進(jìn)了Shokri等[13]的方案,首次將差分隱私應(yīng)用于深度學(xué)習(xí)模型的訓(xùn)練過程中并提出了DP-SGD(Differentially Private Stochastic Gradient Descent)算法。此后許多學(xué)者基于DP-SGD算法,研究如何應(yīng)用差分隱私技術(shù)為深度學(xué)習(xí)模型提供隱私保護(hù)。
Yuan等[15]針對協(xié)作深度學(xué)習(xí)中共享本地CNN模型的參數(shù)導(dǎo)致的隱私泄露問題,提出對需要共享的參數(shù)上添加高斯噪聲的方法提供隱私保護(hù);但是對所有共享參數(shù)添加的都是相同大小的高斯噪聲,對模型的準(zhǔn)確率會產(chǎn)生較大的影響。Arachchige等[16]利用本地差分隱私技術(shù),在CNN的結(jié)構(gòu)中引入一個(gè)隨機(jī)層,通過隨機(jī)響應(yīng)機(jī)制實(shí)現(xiàn)數(shù)據(jù)輸入階段的差分隱私保護(hù)。Gong等[17]根據(jù)模型輸出和不同特征之間的相關(guān)性對梯度加入不同大小的拉普拉斯噪聲;雖然對梯度加入拉普拉斯噪聲能夠滿足-差分隱私,可以提供更高的隱私保護(hù)水平,但是-差分隱私的定義要求非常嚴(yán)格,實(shí)際中難以滿足。在深度學(xué)習(xí)模型中,為了保持模型的可用性和高性能更常采用松弛差分隱私定義。Yu等[18]分析了訓(xùn)練過程中每批次樣本數(shù)據(jù)的選取方式對DP-SGD算法中隱私損失的影響,將集中式差分隱私(Concentrated Differential Privacy, CDP)引入對DP-SGD算法的隱私損失度量中,更好地計(jì)算模型累積隱私損失。Ziller等[19]為了以高效的內(nèi)存和并行的方式實(shí)現(xiàn)DP-SGD算法,設(shè)計(jì)了一個(gè)差分隱私深度學(xué)習(xí)框架,同時(shí)使得DP-SGD算法可以兼容多種神經(jīng)網(wǎng)絡(luò)。Papernot等[20]針對DP-SGD算法在優(yōu)化模型過程中可能存在梯度爆炸導(dǎo)致丟失過多梯度信息的問題,從激活函數(shù)的角度分析并提出了一種新的激活函數(shù),保證在應(yīng)用DP-SGD算法提供隱私保護(hù)的同時(shí)模型具有較高的準(zhǔn)確率。
綜上,目前大部分應(yīng)用于CNN模型中的差分隱私保護(hù)算法仍然基于DP-SGD算法,平衡模型的可用性和隱私保護(hù)水平依舊是一個(gè)關(guān)鍵性問題。模型的收斂和準(zhǔn)確率與選擇的模型優(yōu)化算法以及對模型加入的噪聲量有關(guān),而目前與差分隱私技術(shù)結(jié)合的優(yōu)化算法常選擇隨機(jī)梯度下降算法,但隨機(jī)梯度下降算法本身存在較大的局限性,在模型收斂過程中仍然存在著較大的震蕩,并且加入噪聲后會更影響梯度的下降方向。針對該問題,李敏等[21]和余方超等[22]提出將Adam(Adaptive moment estimation)優(yōu)化算法與差分隱私理論相結(jié)合,利用Adam優(yōu)化算法自適應(yīng)的優(yōu)點(diǎn)加快模型收斂,促使模型獲得一個(gè)較高的準(zhǔn)確率。但是Adam算法中的二階動(dòng)量并不是單調(diào)變化的,在模型訓(xùn)練后期可能會導(dǎo)致學(xué)習(xí)率的震蕩,致使最終無法收斂,并且有研究發(fā)現(xiàn)Adam優(yōu)化算法雖然可以加快模型收斂但是最終的收斂效果較差。
針對以上將差分隱私應(yīng)用于CNN模型存在的不足,本文提出基于差分隱私的動(dòng)量梯度下降算法。通過在優(yōu)化模型的過程中改變噪聲尺度的值,對梯度加入不同大小的高斯噪聲,用加噪后的梯度進(jìn)行參數(shù)更新為模型整體提供隱私保護(hù),同時(shí)保證模型擁有一個(gè)較高的準(zhǔn)確率。此外,動(dòng)量梯度下降算法相較于隨機(jī)梯度下降算法,引入了“慣性”的概念,可以抑制隨機(jī)梯度下降算法的震蕩,結(jié)合學(xué)習(xí)率衰減策略可以降低噪聲對模型收斂的影響,也解決了直接用Adam自適應(yīng)學(xué)習(xí)率優(yōu)化算法出現(xiàn)后期難以調(diào)整前期過擬合效果的問題。
差分隱私有詳細(xì)完整的數(shù)學(xué)證明過程,可以通過數(shù)學(xué)表達(dá)式對隱私保護(hù)水平進(jìn)行量化表示,主要實(shí)現(xiàn)機(jī)制是對原始數(shù)據(jù)加入滿足特定分布的噪聲,且此后修改任何一條數(shù)據(jù)都不會對整體數(shù)據(jù)的統(tǒng)計(jì)結(jié)果產(chǎn)生較大的影響,從而實(shí)現(xiàn)對數(shù)據(jù)的隱私保護(hù),相關(guān)定義如下。
局部敏感度的定義和全局敏感度的定義是相似的,全局敏感度是局部敏感度的最大值,同時(shí)會影響加入噪聲的大小。
定義3 高斯機(jī)制[18]。對任意一個(gè)函數(shù)加入滿足(,)-差分隱私的高斯噪聲,如式(3)所示:
CNN的結(jié)構(gòu)可以按照傳統(tǒng)的分層結(jié)構(gòu)分為3層:輸入層、隱藏層和輸出層[23]。
輸入層 在應(yīng)用CNN時(shí)一般會對輸入數(shù)據(jù)進(jìn)行歸一化,以提升模型的學(xué)習(xí)效率使它擁有更好的表現(xiàn)。
隱藏層 CNN的隱藏層是核心部分,分為卷積層、池化層和全連接層這3部分:卷積層通過許多個(gè)卷積核對輸入的數(shù)據(jù)進(jìn)行特征提取,自動(dòng)提取特征降低了其他神經(jīng)網(wǎng)絡(luò)需要人工提取特征的工作量,同時(shí)還具有權(quán)值共享的特點(diǎn);池化層可以通過選取池化函數(shù)對卷積層輸出的特征圖進(jìn)行進(jìn)一步的特征選擇,保留更加重要的信息,能夠再次降低計(jì)算量;全連接層通過選用的激活函數(shù)對提取后的特征進(jìn)行非線性組合,以獲得最后的輸出結(jié)果[24-25]。
輸出層 與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)的輸出層相同,輸出CNN模型的最終結(jié)果。
CNN模型對參數(shù)的變化非常敏感,如果在訓(xùn)練好的模型參數(shù)上加入差分隱私噪聲會使得整個(gè)模型失去可用性;因此,需要在訓(xùn)練的過程中對模型采用差分隱私機(jī)制。本文結(jié)合優(yōu)化算法和差分隱私,通過在模型訓(xùn)練過程中對梯度加入滿足差分隱私的高斯噪聲,用加噪后的梯度參與后續(xù)參數(shù)更新,間接實(shí)現(xiàn)對整個(gè)模型訓(xùn)練過程的擾動(dòng)。此外,為了降低噪聲對模型收斂和模型準(zhǔn)確率的影響,提高模型的可用性,本文采用動(dòng)量梯度下降算法優(yōu)化模型,加強(qiáng)梯度之間的關(guān)聯(lián),保留更多的梯度信息;同時(shí)設(shè)計(jì)學(xué)習(xí)率衰減策略和噪聲尺度動(dòng)態(tài)調(diào)整策略,保證模型能夠減少震蕩并沿著正確方向快速收斂。
動(dòng)量梯度下降算法在整個(gè)模型參數(shù)優(yōu)化過程中采用固定大小的學(xué)習(xí)率,學(xué)習(xí)率表示參數(shù)更新時(shí)移動(dòng)的步長,過大或過小都會導(dǎo)致模型無法正常收斂或者收斂緩慢,因此本文考慮在應(yīng)用動(dòng)量梯度下降算法的同時(shí)不斷調(diào)整學(xué)習(xí)率的大小。
其中表示當(dāng)前訓(xùn)練處于的輪次數(shù)。
差分隱私最初的定義要求過于嚴(yán)格,本文采用差分隱私的松弛定義(,)-差分隱私,為了滿足該差分隱私定義通常選擇高斯噪聲機(jī)制。目前對參數(shù)梯度加入的噪聲量通常在整個(gè)訓(xùn)練階段都保持不變,但是加入固定大小的噪聲對模型的訓(xùn)練會產(chǎn)生較大的影響,因?yàn)樵谀P陀?xùn)練后期,較大的噪聲會導(dǎo)致?lián)p失函數(shù)存在較多震蕩狀態(tài)而無法盡快收斂,最終獲得的模型預(yù)測準(zhǔn)確率也偏低。
根據(jù)定義3可知,噪聲尺度實(shí)際決定每一次對梯度平均值加入噪聲的大小。因此,本文考慮隨著模型訓(xùn)練輪次數(shù)的增加,逐漸減小噪聲尺度,則可以在后期加入較小的噪聲;但是為了提供隱私保護(hù)不能無限減小,因此需要設(shè)置一個(gè)最小值對噪聲尺度進(jìn)行限制,具體實(shí)現(xiàn)過程如算法1所示。
算法1 動(dòng)態(tài)調(diào)整噪聲尺度算法。
輸入 噪聲尺度初始值0,最小值min,CNN模型的訓(xùn)練輪次數(shù)的值;
輸出 當(dāng)前訓(xùn)練階段的σ。
4) else
6) returnσ
CNN模型的訓(xùn)練主要是在反向傳播過程中,通過優(yōu)化算法不斷更新模型參數(shù),從而使模型收斂。目前模型的訓(xùn)練主要采用基于梯度下降的優(yōu)化算法最小化給定的損失函數(shù),如果在梯度上加入噪聲,相當(dāng)于間接對參數(shù)的更新過程進(jìn)行了擾動(dòng),可以為模型整體提供隱私保護(hù)。
基于以上兩個(gè)優(yōu)化策略和動(dòng)量梯度下降算法,本文提出了DPGDM,具體實(shí)現(xiàn)如算法2所示。首先通過噪聲尺度動(dòng)態(tài)調(diào)整策略計(jì)算該輪訓(xùn)練需要加入的噪聲量,在訓(xùn)練前后期對梯度加入不同大小的噪聲,解決因加入固定大小噪聲導(dǎo)致模型在快收斂時(shí)一直震蕩而無法收斂的問題;其次采用動(dòng)量梯度下降算法優(yōu)化模型參數(shù),同時(shí)結(jié)合學(xué)習(xí)率衰減策略,應(yīng)用指數(shù)加權(quán)平均估計(jì)每一次的梯度值,保留了更多的梯度信息,提高模型的準(zhǔn)確率和收斂速度。
算法2主要分為五部分。
第一部分首先初始化參數(shù),其次在每開始一輪新的訓(xùn)練時(shí),動(dòng)態(tài)更新學(xué)習(xí)率和噪聲尺度的大小,在一輪訓(xùn)練中的每次迭代中,學(xué)習(xí)率和噪聲尺度的大小都不會改變,如算法2中1)~ 4)所示。
第二部分需要從訓(xùn)練數(shù)據(jù)集中隨機(jī)獲得批量樣本數(shù)據(jù),根據(jù)給定的損失函數(shù)計(jì)算每一個(gè)樣本數(shù)據(jù),求解對應(yīng)的梯度值,如算法2中的5)~6)所示。
第三部分對求出的每一個(gè)樣本數(shù)據(jù)的梯度值進(jìn)行裁剪,如果梯度值的二范數(shù)超出設(shè)定的閾值,梯度值的大小將被更新為閾值;如果在閾值范圍內(nèi),梯度值保留原有結(jié)果,如算法2中7)所示。
第四部分是根據(jù)當(dāng)前噪聲尺度的值,對裁剪后的梯度加入滿足差分隱私定義的高斯噪聲,加入噪聲后的梯度平均值參與之后的參數(shù)更新過程,從而為模型整體提供隱私保護(hù),如算法2中8)所示。
第五部分是依據(jù)動(dòng)量梯度下降算法的執(zhí)行過程,利用噪聲梯度平均值計(jì)算當(dāng)前梯度值對應(yīng)的動(dòng)量值,根據(jù)當(dāng)前動(dòng)量更新參數(shù),如算法2中9)~11)所示。
算法2 DPGDM算法。
2) for epoch in range (1,):
//表示epoch當(dāng)前的值,為模型訓(xùn)練的輪次總數(shù)
5) 隨機(jī)獲取批處理數(shù)據(jù)D,其中包含樣本數(shù)為
DPGDM算法中針對每一次迭代過程中的梯度值都加入了滿足(,)-差分隱私定義的高斯噪聲,由于差分隱私具有后處理免疫[9]的性質(zhì),后續(xù)根據(jù)加噪后的梯度值計(jì)算動(dòng)量也不會影響滿足差分隱私。
將差分隱私應(yīng)用于CNN,由于對梯度值加入噪聲使得在模型訓(xùn)練過程中的每一次迭代都會產(chǎn)生一部分隱私損失,因此需要在訓(xùn)練過程中一直追蹤DPGDM算法產(chǎn)生的隱私損失的累積結(jié)果。其中,隱私損失并不是一個(gè)具體的數(shù)值,而是一個(gè)隨機(jī)變量,具體的含義如定義4所示。
Abadi等[14]提出的矩會計(jì)方法可以計(jì)算模型整體的累計(jì)隱私損失,矩會計(jì)方法的思想就是將總的隱私損失看成每一次迭代產(chǎn)生的隱私損失的加和分布,該方法的計(jì)算最終可以和Rényi差分隱私[26-28]進(jìn)行直接聯(lián)系,并且Rényi差分隱私在計(jì)算隱私損失時(shí)具有更強(qiáng)的優(yōu)越性,因此本文將結(jié)合它計(jì)算在訓(xùn)練過程中DPGDM算法產(chǎn)生的累積隱私損失,利用Rényi差分隱私確定矩會計(jì)方法中的階的值。
根據(jù)矩會計(jì)方法,假設(shè)采用DPGDM算法優(yōu)化CNN模型的訓(xùn)練機(jī)制表示為,時(shí)刻在相鄰數(shù)據(jù)庫1和2上模型的隱私損失可以表示如下:
假設(shè)模型訓(xùn)練輪次為,由于每一輪的訓(xùn)練都是獨(dú)立的,根據(jù)差分隱私的組合定理[9]可知模型整體的隱私損失變量可以表示為每一時(shí)刻隱私損失變量的求和,如式(9)所示:
本文實(shí)驗(yàn)過程中用到的數(shù)據(jù)集為MNIST[14]、Fashion-MNIST[29]和CIFAR-10[14]這3個(gè)公開的真實(shí)數(shù)據(jù)集。MNIST數(shù)據(jù)集由美國國家標(biāo)準(zhǔn)與技術(shù)研究所收集,包含了250個(gè)不同的人對數(shù)字0~9的手寫體灰度圖像,其中圖像大小為28×28,分為6萬張訓(xùn)練數(shù)據(jù),1萬張測試數(shù)據(jù)。Fashion-MNIST數(shù)據(jù)集由德國一家時(shí)尚公司提供的包含10個(gè)類別的灰色衣服圖像組成,共有7萬張圖片,分為6萬張訓(xùn)練數(shù)據(jù),1萬張測試數(shù)據(jù)。CIFAR-10是一個(gè)彩色圖像數(shù)據(jù)集,分為10個(gè)類別的物體,其中圖像大小為32×32,包含了5萬張訓(xùn)練數(shù)據(jù),1萬張測試數(shù)據(jù)。
實(shí)驗(yàn)采用的CNN結(jié)構(gòu)根據(jù)數(shù)據(jù)集的不同有所變動(dòng)。針對MNIST數(shù)據(jù)集和Fashion-MNIST數(shù)據(jù)集,網(wǎng)絡(luò)的輸入為28×28的原始灰度圖像,之后經(jīng)過第1個(gè)卷積層,該層使用16個(gè)8×8的卷積核,再連接一個(gè)池化層,采用的池化函數(shù)為求最大值的函數(shù),卷積核大小為2×2;然后連接第2個(gè)卷積層,該層使用32個(gè)4×4的卷積核,每1個(gè)卷積層之后都連接1個(gè)池化層,便于對卷積層提取的特征進(jìn)行再次選擇,因此第2個(gè)卷積層之后也連接了1個(gè)卷積核為2×2的最大池化層。接著有2個(gè)全連接層,網(wǎng)絡(luò)中使用的激活函數(shù)為ReLU(Rectified Linear Unit)函數(shù),最后通過softmax函數(shù)輸出分類結(jié)果。針對CIFAR-10數(shù)據(jù)集,CNN的結(jié)構(gòu)共有3個(gè)卷積層,每一個(gè)卷積層都使用5×5的卷積核,卷積層之后連接最大池化層,池化層采用2×2的卷積核。之后的網(wǎng)絡(luò)結(jié)構(gòu)分為扁平層和2個(gè)全連接層這3個(gè)部分,網(wǎng)絡(luò)中采用的激活函數(shù)仍為ReLU函數(shù),分類結(jié)果應(yīng)用softmax函數(shù)輸出。
實(shí)驗(yàn)中在3個(gè)數(shù)據(jù)集上所采用的參數(shù)設(shè)置如表1所示。
表1 實(shí)驗(yàn)參數(shù)
在實(shí)驗(yàn)中將DPGDM在多個(gè)數(shù)據(jù)集上進(jìn)行了多組實(shí)驗(yàn),并與其他多種算法進(jìn)行對比,通過觀察模型的預(yù)測準(zhǔn)確率和隱私保護(hù)水平評估算法的優(yōu)劣,此外還設(shè)置不同大小的參數(shù),觀察參數(shù)取值對模型產(chǎn)生的影響。
4.2.1MNIST數(shù)據(jù)集
在MNIST數(shù)據(jù)集上將DPGDM與DP-SGD算法[14]、DP-Adam算法[21]和DPADAM(ADAptive Moment estimation with Differential Privacy)算法[22]進(jìn)行對比,為了查看各算法在提供差分隱私保護(hù)時(shí)對模型準(zhǔn)確率造成的損失情況,同時(shí)與在沒有隱私保護(hù)下訓(xùn)練模型(NO-PRIVACY)的準(zhǔn)確率進(jìn)行了對比,如圖1所示。
圖1 不同算法在MNIST數(shù)據(jù)集上的準(zhǔn)確率對比
由圖1可知,DPGDM算法訓(xùn)練模型的效果優(yōu)于其他對比算法,經(jīng)過100輪訓(xùn)練后可以達(dá)到97.64%的準(zhǔn)確率,比其他差分隱私保護(hù)算法的準(zhǔn)確率高2~4個(gè)百分點(diǎn)。在沒有隱私保護(hù)情況下訓(xùn)練模型的準(zhǔn)確率可以達(dá)到99.11%,相較于有隱私保護(hù)的DPGDM算法、DP-SGD算法、DP-Adam算法[21]和DPADAM算法[22]準(zhǔn)確率分別降低了1.47%、4.57%、4.11%和3.51%。實(shí)驗(yàn)結(jié)果表明,DPGDM可以在提供差分隱私保護(hù)的前提下保證模型仍然擁有一個(gè)較高的準(zhǔn)確率。
圖2給出了DPGDM、DP-SGD算法和DP-Adam算法在不同隱私預(yù)算值下,對MNIST數(shù)據(jù)集進(jìn)行訓(xùn)練后的模型準(zhǔn)確率。由圖2可知,在不同的隱私預(yù)算值下,DPGDM的模型準(zhǔn)確率始終處于一個(gè)較高水平。隱私預(yù)算的值越小說明可以提供的隱私保護(hù)水平越高。從圖2中可以看到,當(dāng)隱私預(yù)算較小時(shí),例如取值為0.3,采用DPGDM的準(zhǔn)確率高于采用DP-SGD算法約5個(gè)百分點(diǎn),準(zhǔn)確率能夠達(dá)到89.32%;當(dāng)取值為0.5時(shí),采用DPGDM的準(zhǔn)確率可以達(dá)到92.92%,相較于DP-SGD算法提高了約4個(gè)百分點(diǎn)。說明DPGDM在為模型整體提供更高隱私保護(hù)水平的前提下,能夠保證模型仍然擁有較好的性能。
圖3給出了DPGDM、DP-SGD算法和DPADAM算法在設(shè)置不同噪聲尺度初始值時(shí),針對MNIST數(shù)據(jù)集訓(xùn)練50輪次后的模型準(zhǔn)確率。噪聲尺度直接影響了在每一輪訓(xùn)練過程中對梯度加入高斯噪聲的大小。從圖3中可以看到,隨著噪聲尺度的增加,對模型引入的噪聲量變多,所有算法的模型準(zhǔn)確率整體呈下降趨勢,但是采用DPGDM算法的模型準(zhǔn)確率下降緩慢,且依舊可以維持一個(gè)較高的準(zhǔn)確率。這是因?yàn)镈PGDM算法隨著模型的訓(xùn)練會衰減加入模型的噪聲量,而其他兩種算法在優(yōu)化模型的過程中始終對梯度加入固定大小的噪聲。
圖3 不同噪聲尺度下不同算法的模型準(zhǔn)確率對比
圖2 不同隱私預(yù)算下不同算法在MNIST數(shù)據(jù)集上的準(zhǔn)確率對比
學(xué)習(xí)率的取值對模型最終訓(xùn)練的效果會產(chǎn)生較大的影響,過大過小都會使得模型收斂較慢,不能在較少的訓(xùn)練輪次數(shù)中達(dá)到一個(gè)較高的準(zhǔn)確率。圖4給出了當(dāng)設(shè)置不同大小的學(xué)習(xí)率初始值時(shí),DPGDM算法在MNIST數(shù)據(jù)集上訓(xùn)練50輪次后的模型準(zhǔn)確率,可以看到當(dāng)學(xué)習(xí)率初始值為0.04時(shí),模型的訓(xùn)練效果較好,因此在MNIST數(shù)據(jù)集上的實(shí)驗(yàn)過程中,學(xué)習(xí)率的初始值設(shè)置為0.04。
圖4 不同學(xué)習(xí)率下的模型準(zhǔn)確率對比
4.2.2Fashion-MNIST數(shù)據(jù)集
在Fashion-MNIST數(shù)據(jù)集上將DPGDM與DP-SGD算法和基于PSO的差分隱私算法(Differential Privacy algorithm based on PSO, DP-PSO)[29]進(jìn)行對比,如表2所示。
由表2可知,DPGDM算法在準(zhǔn)確率上優(yōu)于對比算法,與未使用隱私保護(hù)的模型訓(xùn)練結(jié)果相比,損失的準(zhǔn)確率也最低。實(shí)驗(yàn)結(jié)果進(jìn)一步說明了本文提出的DPGDM算法可以更好地提升模型可用性。
表2不同算法在Fashion-MNIST數(shù)據(jù)集上的準(zhǔn)確率對比 單位:%
Tab.2 Accuracy comparison of different algorithms on Fashion-MNIST dataset unit:%
為了更好地驗(yàn)證本文算法的適用性,在不同的隱私預(yù)算下,給出了幾種算法在Fashion-MNIST數(shù)據(jù)集上訓(xùn)練模型的準(zhǔn)確率結(jié)果,如圖5所示。
由圖5可知,與其他算法相比,DPGDM在隱私預(yù)算取值為4、6、8、10時(shí),都能夠較好地收斂,并獲得較高的模型準(zhǔn)確率。在隱私預(yù)算設(shè)置為10時(shí),DPGDM算法最終的收斂效果遠(yuǎn)領(lǐng)先于其他兩種算法,比DP-SGD算法和DP-PSO算法的準(zhǔn)確率分別高出了7個(gè)和2個(gè)百分點(diǎn),并且隨著隱私預(yù)算的降低,DPGDM的準(zhǔn)確率受到的影響較小。
圖5 不同隱私預(yù)算下不同算法在 Fashion-MNIST數(shù)據(jù)集上的模型準(zhǔn)確率對比
4.2.3CIFAR-10數(shù)據(jù)集
為了進(jìn)一步地驗(yàn)證DPGDM的普適性,在更為復(fù)雜的CIFAR-10數(shù)據(jù)集上將DPGDM算法與DP-SGD算法和文獻(xiàn)[20]所提的改進(jìn)激活函數(shù)提升模型性能的方法進(jìn)行了對比,如表3所示。由表3可知,DPGDM算法損失的準(zhǔn)確率與其他算法相比最低,說明DPGDM算法可以在提供差分隱私保護(hù)的前提下提高模型的可用性。
表3 不同算法在CIFAR-10數(shù)據(jù)集上的準(zhǔn)確率對比 單位:%
在實(shí)驗(yàn)過程中發(fā)現(xiàn),當(dāng)一些超參數(shù)的初始值設(shè)置不合理時(shí),DP-SGD算法的性能會受到較大的影響,而DPGDM算法受到的影響較小,依舊能夠穩(wěn)定收斂,如圖6、7所示。
圖6給出了當(dāng)參數(shù)初始值設(shè)置不合理情況下,DPGDM算法和DP-SGD算法在CIFAR-10數(shù)據(jù)集上優(yōu)化模型的準(zhǔn)確率結(jié)果,圖7給出了訓(xùn)練過程中損失函數(shù)的變化情況。DP-SGD算法在該參數(shù)設(shè)置下,由于初始設(shè)定的不合理的學(xué)習(xí)率和噪聲尺度值在訓(xùn)練過程中一直保持不變,損失函數(shù)在訓(xùn)練中后期出現(xiàn)波動(dòng),模型最終無法正常收斂;而DPGDM算法在訓(xùn)練期間會不斷調(diào)整學(xué)習(xí)率和噪聲尺度的值,損失函數(shù)雖然出現(xiàn)小幅波動(dòng)但整體呈下降趨勢,最終在300輪訓(xùn)練后達(dá)到了69.90%的準(zhǔn)確率。
圖6 CIFAR-10數(shù)據(jù)集上的模型準(zhǔn)確率對比
圖7 CIFAR-10數(shù)據(jù)集上的損失函數(shù)變化情況
本文提出了一種CNN中基于差分隱私的動(dòng)量梯度下降算法(DPGDM)。用指數(shù)加權(quán)平均方法計(jì)算梯度,從而保留梯度更多的信息;同時(shí)在模型訓(xùn)練過程中動(dòng)態(tài)調(diào)整學(xué)習(xí)率的大小,改變噪聲尺度的值,使得在訓(xùn)練的前后期對梯度加入不同水平的高斯噪聲,保證模型能夠減少震蕩的同時(shí)沿著正確的方向快速收斂,降低噪聲對模型準(zhǔn)確率的影響。實(shí)驗(yàn)結(jié)果表明DPGDM可以更好地平衡差分隱私保護(hù)和模型可用性之間的關(guān)系。由于梯度裁剪閾值的選擇會影響梯度的裁剪過程和差分隱私中的靈敏度大小,未來會繼續(xù)研究對梯度進(jìn)行分類,對不同類別的梯度分組進(jìn)行裁剪和加入噪聲。
[1] ALZUBAIDI L, ZHANG J, HUMAIDI A J, et al. Review of deep learning: concepts, CNN architectures, challenges, applications, future directions[J]. Journal of Big Data, 2021, 8: Article No. 53.
[2] SUN Y, XUE B, ZHANG M, et al. Automatically designing CNN architectures using the genetic algorithm for image classification[J]. IEEE Transactions on Cybernetics, 2020, 50(9): 3840-3854.
[3] 季長清,高志勇,秦靜,等.基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類算法綜述[J].計(jì)算機(jī)應(yīng)用,2022,42(4):1044-1049.(JI C Q, GAO Z Y, QIN J, et al. Review of image classification algorithms based on convolutional neural network[J]. Journal of Computer Applications, 2022,42(4):1044-1049.)
[4] HUSAIN S S, BOBER M. REMAP: multi-layer entropy-guided pooling of dense CNN features for image retrieval[J]. IEEE Transactions on Image Processing, 2019, 28(10): 5201-5213.
[5] FREDRIKSON M, JHA S, RISTENPART T. Model inversion attacks that exploit confidence information and basic countermeasures[C]// Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security. New York: ACM, 2015: 1322-1333.
[6] HERNANDEZ MARCANO N J, MOLLER M, HANSEN S, et al. On fully homomorphic encryption for privacy-preserving deep learning [C]// Proceedings of the 2019 IEEE Globecom Workshops. Piscataway: IEEE, 2019: 1-6.
[7] TRAN A-T, LUONG T-D, KARNJANA J, et al. An efficient approach for privacy preserving decentralized deep learning models based on secure multi-party computation[J]. Neurocomputing, 2021, 422: 245-262.
[8] MEDEN B, EMER?I? ?, ?TRUC V, et al.-Same-Net:-anonymity with generative deep neural networks for face deidentification [J]. Entropy, 2018, 20(1): 60.
[9] DWORK C. Differential privacy[C]// Proceedings of the 33rd International Colloquium on Automata, Languages and Programming. Berlin: Springer, 2006: 1-12.
[10] CAI Y, ZHANG Y, QU J, et al. Differential privacy preserving dynamic data release scheme based on Jensen-Shannon divergence[J]. China Communications, 2022,19(6):11-21.
[11] 屈晶晶,蔡英,范艷芳,等. 基于-prototype聚類的差分隱私混合數(shù)據(jù)發(fā)布算法[J]. 計(jì)算機(jī)科學(xué)與探索, 2021, 15(1):109-118.(QU J J, CAI Y, FAN Y F, et al. Differentially private mixed data release algorithm based on-prototype clustering[J]. Journal of Frontiers of Computer Science and Technology, 2021,15(1):109-118.)
[12] ZHANG Y, CAI Y, ZHANG M, et al. A survey on privacy-preserving deep learning with differential privacy [C]// Proceedings of the 2021 International Conference on Big Data and Security. Singapore: Springer, 2022: 18-30.
[13] SHOKRI R, SHMATIKOV V. Privacy-preserving deep learning [C]// Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security. New York: ACM, 2015: 1310-1321.
[14] ABADI M,CHU A, GOODFELLOW I, et al. Deep learning with differential privacy[C]// Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security. New York: ACM, 2016: 308-318.
[15] YUAN D, ZHU X, WEI M, et al. Collaborative deep learning for medical image analysis with differential privacy [C]// Proceedings of the 2019 IEEE Global Communications Conference. Piscataway: IEEE, 2019: 1-6.
[16] ARACHCHIGE P C M, BERTOK P, KHALIL I, et al. Local differential privacy for deep learning [J]. IEEE Internet of Things Journal, 2019, 7(7): 5827-5842.
[17] GONG M, PAN K, XIE Y, et al. Preserving differential privacy in deep neural networks with relevance-based adaptive noise imposition[J]. Neural Networks, 2020, 125: 131-141.
[18] YU L, LIU L, PU C, et al. Differentially private model publishing for deep learning [C]// Proceedings of the 2019 IEEE Symposium on Security and Privacy. Piscataway: IEEE, 2019: 332-349.
[19] ZILLER A, USYNIN D, BRAREN R, et al. Medical imaging deep learning with differential privacy[J]. Scientific Reports, 2021, 11: Article No. 13524.
[20] PAPERNOT N, THAKURTA A, SONG S, et al. Tempered sigmoid activations for deep learning with differential privacy[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(10): 9312-9321.
[21] 李敏,李紅嬌,陳杰.差分隱私保護(hù)下的Adam優(yōu)化算法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2020,37(6):253-258,296.(LI M, LI H J, CHEN J. Adam optimization algorithm based on differential privacy protection[J]. Computer Applications and Software, 2020,37(6):253-258,296.)
[22] 余方超,方賢進(jìn),張又文,等.增強(qiáng)深度學(xué)習(xí)中的差分隱私防御機(jī)制[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)),2021,57(1):10-20.(YU F C, FANG X J, ZHANG Y W, et al. Enhanced differential privacy defense mechanism in deep learning[J]. Journal of Nanjing University (Natural Science), 2021,57(1):10-20.)
[23] YAMASHITA R, NISHIO M, DO R K G, et al. Convolutional neural networks: an overview and application in radiology[J]. Insights into Imaging, 2018, 9(4): 611-629.
[24] KATTENBORN T, LEITLOFF J, SCHIEFER F, et al. Review on Convolutional Neural Networks (CNN) in vegetation remote sensing[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2021, 173: 24-49.
[25] KIRANYAZ S, AVCI O, ABDELJABER O, et al. 1D convolutional neural networks and applications: a survey[J]. Mechanical Systems and Signal Processing, 2021, 151: 107398.
[26] MIRONOV I. Rényi differential privacy[C]// Proceedings of the 2017 IEEE 30th Computer Security Foundations Symposium. Piscataway: IEEE, 2017: 263-275.
[27] 譚作文,張連福.機(jī)器學(xué)習(xí)隱私保護(hù)研究綜述[J].軟件學(xué)報(bào),2020,31(7):2127-2156.(TAN Z W, ZHANG L F. Survey on privacy preserving techniques for machine learning [J]. Journal of Software, 2020,31(7):2127-2156.)
[28] YOUSEFPOUR A, SHILOV I, SABLAYROLLES A, et al. Opacus: user-friendly differential privacy library in PyTorch [EB/OL]. [2022-08-22].https://arxiv.org/pdf/2109.12298.pdf.
[29] 張攀峰,吳丹華,董明剛. 基于粒子群優(yōu)化的差分隱私深度學(xué)習(xí)模型[J]. 計(jì)算機(jī)工程, 2023,49(9): 144-157.(ZHANG P F, WU D H, DONG M G. Differential privacy deep learning model based on particle swarm optimization [J]. Computer Engineering, 2023,49(9): 144-157.)
Gradient descent with momentum algorithm based on differential privacy in convolutional neural network
ZHANG Yu, CAI Ying*, CUI Jianyang, ZHANG Meng, FAN Yanfang
(,,100101,)
To address the privacy leakage problem caused by the model parameters memorizing some features of the data during the training process of the Convolutional Neural Network (CNN) models, a Gradient Descent with Momentum algorithm based on Differential Privacy in CNN (DPGDM) was proposed. Firstly, the Gaussian noise meeting differential privacy was added to the gradient in the backpropagation process of model optimization, and the noise-added gradient value was used to participate in the model parameter update process, so as to achieve differential privacy protection for the overall model. Secondly, to reduce the impact of the introduction of differential privacy noise on convergence speed of the model,a learning rate decay strategy was designed and then the gradient descent with momentum algorithm was improved. Finally, to reduce the influence of noise on the accuracy of the model, the value of the noise scale was adjusted dynamically during model optimization, thereby changing the amount of noise that needs to be added to the gradient in each round of iteration. Experimental results show that compared with DP-SGD (Differentially Private Stochastic Gradient Descent) algorithm, the proposed algorithm can improve the accuracy of the model by about 5 and 4 percentage points at privacy budget of 0.3 and 0.5, respectively, proving that by using the proposed algorithm, the model usability is improved and privacy protection of the model is achieved.
Convolutional Neural Network (CNN); differential privacy; gradient descent with momentum algorithm; deep learning; privacy protection
This work is partially supported by Natural Science Foundation of Beijing-Haidian Original Innovation Joint Fund (L192023).
ZHANG Yu, born in 1997, M. S. candidate. Her research interests include deep learning, differential privacy.
CAI Ying, born in 1966, Ph. D, professor. Her research interests include internet of vehicles, edge computing, privacy protection, computer security.
CUI Jianyang, born in 1996, M. S. candidate. His research interests include vehicular ad hoc network, privacy protection.
ZHANG Meng,born in 1996, M. S. candidate. His research interests include image retrieval, privacy protection.
FAN Yanfang, born in 1979, Ph. D, associate professor. Her research interests include information security, internet of vehicles, edge computing.
TP309
A
1001-9081(2023)12-3647-07
10.11772/j.issn.1001-9081.2022121881
2022?12?26;
2023?03?19;
2023?03?24。
北京市自然科學(xué)基金-海淀原始創(chuàng)新聯(lián)合基金資助項(xiàng)目(L192023)。
張宇(1997—),女,河北石家莊人,碩士研究生,主要研究方向:深度學(xué)習(xí)、差分隱私;蔡英(1966—),女,四川綿陽人,教授,博士,CCF會員,主要研究方向:車聯(lián)網(wǎng)、邊緣計(jì)算、隱私保護(hù)、計(jì)算機(jī)安全;崔劍陽(1996—),男(滿族),河北承德人,碩士研究生,主要研究方向:車載自組織網(wǎng)絡(luò)、隱私保護(hù);張猛(1996—),男,河北定州人,碩士研究生,主要研究方向:圖像檢索、隱私保護(hù);范艷芳(1979—),女,山西運(yùn)城人,副教授,博士,主要研究方向:信息安全、車聯(lián)網(wǎng)、邊緣計(jì)算。