朱素霞 王 蕾 孫廣路
(哈爾濱理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 哈爾濱 150080) (哈爾濱理工大學(xué)信息安全與智能技術(shù)研究中心 哈爾濱 150080)
隨著云計(jì)算和大數(shù)據(jù)技術(shù)的發(fā)展,用戶端產(chǎn)生的海量數(shù)據(jù)被服務(wù)器收集起來進(jìn)行各種數(shù)據(jù)分析任務(wù).雖然對(duì)這些數(shù)據(jù)進(jìn)行分析可以為人們帶來可觀的效益,但是卻造成了用戶隱私暴露的問題.差分隱私由于其強(qiáng)大的隱私保障已經(jīng)成為了一種標(biāo)準(zhǔn)的隱私保護(hù)模型.隨著差分隱私的廣泛使用,服務(wù)器變得越來越重要.然而,在真實(shí)世界中保證所有服務(wù)器都是可信的是不實(shí)際的,而不可信的服務(wù)器可能會(huì)因?yàn)槟承┰蛐孤队脩舻碾[私.為了解決這一問題,本地差分隱私作為一種新的隱私保護(hù)技術(shù)被提出用來保護(hù)用戶的隱私,其最典型的擾動(dòng)機(jī)制是隨機(jī)響應(yīng)機(jī)制.在本地差分隱私中,服務(wù)器假設(shè)是不可信的,每個(gè)用戶端對(duì)本地?cái)?shù)據(jù)進(jìn)行擾動(dòng)使其滿足本地差分隱私,然后再將擾動(dòng)后的數(shù)據(jù)發(fā)送給服務(wù)器.服務(wù)器對(duì)收集的噪聲數(shù)據(jù)進(jìn)行計(jì)算,得到所需的統(tǒng)計(jì)信息.本地差分隱私方法可以在獲得較為準(zhǔn)確的統(tǒng)計(jì)信息的同時(shí)有效地對(duì)用戶的數(shù)據(jù)進(jìn)行保護(hù),從而避免了用戶隱私泄露的問題.
本地差分隱私由于其強(qiáng)大的隱私保證,已經(jīng)被運(yùn)用到很多實(shí)際的工作任務(wù)中.例如谷歌的Chrome瀏覽器使用的RAPPOR(randomized aggregatable privacy-preserving ordinal response)方法以及微軟的遙測(cè)數(shù)據(jù)采集.這些方法使得在保護(hù)用戶隱私的同時(shí),可以利用用戶的數(shù)據(jù)進(jìn)行分析得到有效的統(tǒng)計(jì)結(jié)果.人們針對(duì)不同的數(shù)據(jù)類型提出了適用于不同計(jì)算任務(wù)的本地差分隱私框架,目前主要研究的統(tǒng)計(jì)任務(wù)有均值估計(jì)和頻率估計(jì).例如,谷歌Chrome使用的RAPPOR方法是針對(duì)分類型數(shù)據(jù)的頻率估計(jì),Nguyên等人提出了針對(duì)離散型數(shù)據(jù)的均值估計(jì)的擾動(dòng)方法Harmony. Ye等人針對(duì)鍵值數(shù)據(jù)類型提出了PrivKVM方法,可以在滿足本地差分隱私的同時(shí)估計(jì)鍵的頻率以及鍵對(duì)應(yīng)的所有值的均值.針對(duì)連續(xù)型數(shù)值數(shù)據(jù)的均值估計(jì),Duchi等人的方法對(duì)數(shù)據(jù)進(jìn)行擾動(dòng)之后一共有2種可能得到的擾動(dòng)值.由于這2種擾動(dòng)值的絕對(duì)值都大于1,即不管隱私預(yù)算如何變化,其方差始終大于1.所以當(dāng)隱私預(yù)算比較大時(shí),該方法得到的均值估計(jì)的準(zhǔn)確性相比于拉普拉斯方法要更差.隨后,Wang等人針對(duì)Duchi方法的缺點(diǎn),提出了分段機(jī)制(piecewise mechanism, PM).該機(jī)制不同的是,其擾動(dòng)輸出為一段連續(xù)值,且這段連續(xù)值的中間部分有更高的概率輸出.雖然分段機(jī)制改善了Duchi方法中存在的問題,但是當(dāng)隱私預(yù)算較小時(shí),該方法并沒有很好地提高均值估計(jì)的準(zhǔn)確性,其最壞情況下噪聲方差仍與Duchi方法接近.
除此之外,機(jī)器學(xué)習(xí)作為當(dāng)前比較熱門的學(xué)習(xí)領(lǐng)域,其中也涉及了大量用戶的隱私保護(hù)問題.為了更好地保護(hù)用戶的隱私,可以將其與本地差分隱私的相關(guān)擾動(dòng)機(jī)制結(jié)合使用.目前,機(jī)器學(xué)習(xí)中較常使用的隱私保護(hù)方式是在模型訓(xùn)練時(shí)對(duì)用戶梯度進(jìn)行擾動(dòng),服務(wù)器收集擾動(dòng)后的梯度進(jìn)行更新.例如,Nguyên等人將Harmony運(yùn)用到了隨機(jī)梯度下降中,對(duì)每次迭代的梯度進(jìn)行擾動(dòng),并且證明了本地差分隱私下的小批量梯度下降要優(yōu)于隨機(jī)梯度下降.Wang等人則利用多維數(shù)據(jù)擾動(dòng)的方式,將分段機(jī)制用于迭代中的梯度擾動(dòng).這些方法雖然在機(jī)器學(xué)習(xí)訓(xùn)練過程中保護(hù)了用戶的隱私,但由于機(jī)制本身的缺點(diǎn),其訓(xùn)練結(jié)果的準(zhǔn)確性仍然具有提升空間.
為了改善已有擾動(dòng)方法引入的準(zhǔn)確性問題,論文針對(duì)連續(xù)型數(shù)值數(shù)據(jù),提出了一種滿足本地差分隱私的分類變換擾動(dòng)機(jī)制(differential classified transformation, DCT).跟已有的方法直接對(duì)所屬數(shù)據(jù)類型使用對(duì)應(yīng)的擾動(dòng)方法進(jìn)行擾動(dòng)不同,本文提出的方法首先對(duì)數(shù)據(jù)類型進(jìn)行了轉(zhuǎn)換,將數(shù)值型數(shù)據(jù)轉(zhuǎn)換為了1維二元分類數(shù)據(jù),再對(duì)分類數(shù)據(jù)進(jìn)行擾動(dòng).在真實(shí)數(shù)據(jù)以及合成數(shù)據(jù)中使用該方法進(jìn)行均值估計(jì),與已有的方法進(jìn)行對(duì)比,可以得到一個(gè)更為準(zhǔn)確的估計(jì)結(jié)果.在機(jī)器學(xué)習(xí)的隱私保護(hù)中,考慮到本地差分隱私中隱私預(yù)算的分配問題,為了在訓(xùn)練中得到更為準(zhǔn)確的結(jié)果,論文將提出的分類變換機(jī)制用于構(gòu)建滿足本地差分隱私的小批量梯度下降,并在該框架下進(jìn)行線性回歸的學(xué)習(xí)任務(wù).
總的來說,本文主要貢獻(xiàn)如下:
1) 提出了一種數(shù)據(jù)變換擾動(dòng)方法,并且得到了較好的結(jié)果,這給本地差分隱私的擾動(dòng)提供了一個(gè)新方向,可以通過變換數(shù)據(jù),使其在提高數(shù)據(jù)的可用性的同時(shí)又保障了用戶的隱私;
2) 提出的分類變換機(jī)制具有良好的性能,在滿足本地差分隱私保證的同時(shí),在均值估計(jì)方面可以得到更為準(zhǔn)確的結(jié)果;
3) 將提出的方法用于構(gòu)建小批量梯度下降算法,并用該算法完成線性回歸的學(xué)習(xí)任務(wù),使得參與用戶的數(shù)據(jù)受到良好保護(hù)的同時(shí),可以得到一個(gè)較為準(zhǔn)確的模型結(jié)果;
4) 在真實(shí)的數(shù)據(jù)集以及合成的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),以對(duì)提出的機(jī)制進(jìn)行評(píng)估.實(shí)驗(yàn)結(jié)果表明,不管是在均值估計(jì)還是在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化任務(wù)中,使用分類變換擾動(dòng)機(jī)制得到的結(jié)果誤差要小于已有的方法.
在本地差分隱私中,服務(wù)器收集各個(gè)用戶的數(shù)據(jù),并利用數(shù)據(jù)計(jì)算得到所需的統(tǒng)計(jì)信息.用戶在將數(shù)據(jù)發(fā)送給服務(wù)器前,先對(duì)本地的數(shù)據(jù)進(jìn)行擾動(dòng),再將擾動(dòng)后的數(shù)據(jù)發(fā)送給服務(wù)器.服務(wù)器無法根據(jù)收集的噪聲數(shù)據(jù)來獲得用戶的隱私信息.隱私預(yù)算的大小代表了用戶隱私保護(hù)程度的強(qiáng)弱,其控制了隱私和效用之間的平衡,一個(gè)更小的隱私預(yù)算代表了更強(qiáng)的隱私保護(hù)程度.本地差分隱私的定義如下:
定義1.
ε
-本地差分隱私.
隨機(jī)函數(shù)M
滿足ε
-本地差分隱私當(dāng)且僅當(dāng)域M
中的任意2個(gè)輸入t
,t
′以及對(duì)于M
中的任意可能的輸出t
,有:Pr
(M
(t
)=t
)≤e×Pr
(M
(t
′)=t
),(1)
其中Pr
(·)代表概率.
本地差分隱私作為差分隱私的分支,提供了比差分隱私還要強(qiáng)大的隱私保障.
根據(jù)上面的隱私定義,服務(wù)器無論具備怎樣的背景知識(shí),都無法以高概率從接收到的用戶的擾動(dòng)元組t
來判斷用戶的真實(shí)值是t
還是t
′.
本地差分隱私中最經(jīng)典的方法是隨機(jī)響應(yīng)機(jī)制,該方法主要用來收集用戶的敏感數(shù)據(jù)以獲得準(zhǔn)確的統(tǒng)計(jì)信息,下面舉例來介紹這個(gè)機(jī)制.
假設(shè)服務(wù)器想知道有多少個(gè)用戶是抽煙的,它會(huì)向每個(gè)用戶發(fā)送問題“你抽煙嗎?”用戶接受到問題后采用拋硬幣的方法來決定它的答案.
假如硬幣的正面朝上,那么用戶將真實(shí)答案告訴服務(wù)器,否則的話它將告訴服務(wù)器一個(gè)相反的答案.
使用該方法,服務(wù)器可以根據(jù)所有用戶的回答得到一個(gè)無偏估計(jì).
假設(shè)每個(gè)用戶拋硬幣正面朝上的概率為p
,即用戶正確回答服務(wù)器的概率為p
,則其提供錯(cuò)誤答案的概率為1-p.
為了使該方法滿足ε
-本地差分隱私,概率p
應(yīng)滿足式(2):(2)
u
都有1個(gè)數(shù)值型數(shù)據(jù)v
,本文所有使用到的符號(hào)如表1所示:Table 1 Symbol Definition表1 符號(hào)定義
在本地差分隱私中,不同用戶可以根據(jù)需求使用不同的隱私預(yù)算ε
來保護(hù)自己的隱私.
在本文中,為了便于分析,假設(shè)了一個(gè)統(tǒng)一的隱私預(yù)算參數(shù)值ε
,目標(biāo)是在滿足ε
-本地差分隱私的條件下完成下列2種類型的分析任務(wù):.
論文中主要將線性回歸及小批量梯度下降結(jié)合使用,并計(jì)算模型訓(xùn)練結(jié)果的均方誤差來評(píng)估方法性能.
ε
-本地差分隱私的條件下收集用戶的數(shù)據(jù)進(jìn)行數(shù)值屬性均值估計(jì)的問題,對(duì)2種已有的方法進(jìn)行介紹.1) Duchi方法
Duchi等人提出了在本地差分隱私下用來擾動(dòng)1維數(shù)值型數(shù)據(jù)的方法,如算法1所示:
算法1.
Duchi等人的1維數(shù)值數(shù)據(jù)擾動(dòng)方法.輸入:v
∈[-1,1]、隱私預(yù)算ε
;u
=1④ else
⑥ endif
2) PM
Wang等人提出的分段機(jī)制PM是另一種在本地差分隱私下進(jìn)行均值估計(jì)的擾動(dòng)方法.與Duchi方法不同,PM分段抽取輸入數(shù)值的擾動(dòng)值.算法2描述了PM方法:
算法2.
PM數(shù)值擾動(dòng)方法.輸入:v
∈[-1,1]、隱私預(yù)算ε
;x
;④ else
⑥ endif
(3)
其中
Wang等人證明了分段方法得到的擾動(dòng)輸出值為輸入的無偏估計(jì),并且將該方法用于均值估計(jì)能夠得到比其他現(xiàn)有方法更為準(zhǔn)確的結(jié)果.分段機(jī)制雖然改善了Duchi方法的缺點(diǎn),當(dāng)隱私預(yù)算較大時(shí)可以得到更為準(zhǔn)確的結(jié)果.但是當(dāng)隱私預(yù)算較小時(shí),其最壞情況下的方差與Duchi方法的相近,準(zhǔn)確性沒有得到很好的提高.
雖然這2種方法對(duì)已有的方法進(jìn)行了改善,一定程度上提高了連續(xù)數(shù)值型數(shù)據(jù)均值估計(jì)的準(zhǔn)確性,但是仍然存在缺點(diǎn),準(zhǔn)確性仍具有較大的改善空間.如Duchi方法由于輸出的擾動(dòng)值的絕對(duì)值都大于1,所以在隱私預(yù)算較大時(shí)性能較差;而分段機(jī)制雖然對(duì)Duchi方法進(jìn)行了改良,但是由于提出的分段機(jī)制在隱私預(yù)算較小時(shí)的最壞情況下方差與Duchi方法的接近,所以準(zhǔn)確性在隱私預(yù)算較小時(shí)沒有得到提升.
v
∈[-1,1],擾動(dòng)值的輸出范圍為[-A
,A
],其中A
=1+d.
該機(jī)制主要分成3個(gè)階段,分別是分類變換、分類擾動(dòng)以及分類逆變換.
.
為了減少實(shí)驗(yàn)時(shí)的計(jì)算開銷,方便后續(xù)的數(shù)據(jù)分析,將用戶數(shù)據(jù)v
標(biāo)準(zhǔn)化到[-1,1].
一般情況下,假設(shè)該屬性的值域?yàn)閇L
,U
],式(4)給出了用戶計(jì)算方式:(4)
(5)
其中
l
=v
′-d
,l
=v
′-m
,R
=v
′+m
,R
=v
′+d.
由于該數(shù)值位于擾動(dòng)范圍中心,所以在對(duì)數(shù)值型數(shù)據(jù)進(jìn)行二值化時(shí)采用隨機(jī)抽取的方式取值,即該數(shù)值對(duì)應(yīng)的分類數(shù)值可能為1也可能為0.
u
的數(shù)據(jù)v
已經(jīng)轉(zhuǎn)換為了1維二元分類數(shù)據(jù),可以在本地直接使用隨機(jī)擾動(dòng)機(jī)制來對(duì)數(shù)據(jù)進(jìn)行擾動(dòng).
這里采用Xia等人提出的對(duì)單個(gè)位進(jìn)行擾動(dòng)的方法,式(6)給出了具體的擾動(dòng)規(guī)則:(6)
(7)
證明.
根據(jù)式(6),可以推得(8)
(9)
(10)
(11)
(12)
.
.
轉(zhuǎn)換規(guī)則為(13)
如果擾動(dòng)后分類數(shù)據(jù)為1,則將其轉(zhuǎn)換回?cái)?shù)值數(shù)據(jù)時(shí)從中間的2段距離中隨機(jī)均勻抽取1個(gè)值作為其轉(zhuǎn)換后的值,如果分類數(shù)據(jù)為0則從兩端的2段數(shù)據(jù)中進(jìn)行均勻抽取.
算法3.
分類變換擾動(dòng)機(jī)制.
輸入:v
∈[-1,1]、隱私預(yù)算ε
;u
;② ifu
<0.
5④ else
⑥ endif
⑦ 從[0,1]中隨機(jī)均勻抽取x
;⑩ else
引理1.
算法3滿足ε
-本地差分隱私.
(14)
.
ε
-本地差分隱私下的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的機(jī)器學(xué)習(xí)模型,使用梯度下降法實(shí)現(xiàn).
參照Nguyên等人的對(duì)比實(shí)驗(yàn)結(jié)果,使用小批量梯度下降可以得到比隨機(jī)梯度下降法更為準(zhǔn)確的結(jié)果,所以論文使用小批量梯度下降法實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化.
構(gòu)建了滿足本地差分隱私的小批量梯度下降法之后,使用其完成線性回歸任務(wù)來驗(yàn)證該框架性能.
(15)
其中λ
為正則化因子.
在本文中,主要考慮線性回歸的損失函數(shù),損失函數(shù)如式(16)所示:(16)
在機(jī)器學(xué)習(xí)中,獲得的最普遍的計(jì)算方式是使用隨機(jī)梯度下降法.
使用該方法時(shí),首先初始化一組向量,然后進(jìn)行迭代更新,得到新的向量,,…,使用式(17)實(shí)現(xiàn)迭代更新:+1=-γ
×?(;,),(17)
.
基于這個(gè)原因,已有的工作提出聚合器可以在每次迭代中收集用戶加噪之后的?.
因?yàn)槊看蔚械奶荻榷际菙?shù)值型數(shù)據(jù),所以可以使用針對(duì)數(shù)值型數(shù)據(jù)的本地差分隱私擾動(dòng)方法來對(duì)梯度進(jìn)行擾動(dòng),本文使用算法3對(duì)梯度進(jìn)行擾動(dòng).
考慮到本地差分隱私中的隱私分配問題,如果使用隨機(jī)梯度下降進(jìn)行計(jì)算的話會(huì)導(dǎo)致加入的噪聲過多,從而導(dǎo)致結(jié)果偏差較大,準(zhǔn)確性較低.
所以,這里使用的是小批量梯度下降法.
也就是說,在每一次迭代中,隨機(jī)選取一組用戶G
,G
中每一個(gè)用戶都提交擾動(dòng)后的梯度給服務(wù)器,服務(wù)器再將梯度更新為這組用戶提交的梯度的均值,式(18)給出了梯度更新的公式:(18)
為了更好地評(píng)估論文中提出的方法的性能,論文使用了多種真實(shí)數(shù)據(jù)以及合成數(shù)據(jù)對(duì)該方法進(jìn)行實(shí)驗(yàn).
對(duì)于真實(shí)數(shù)據(jù),使用了:1)從Integrated Public Use Microdata Series抽取的2個(gè)公共數(shù)據(jù)集,BR和MX,它們分別是巴西和墨西哥的人口普查記錄.BR包含了16種屬性,其中6種為數(shù)值型屬性,10種為分類型屬性.MX則包含19種屬性,分別為5種數(shù)值型屬性以及14種分類型屬性.2)人類活動(dòng)識(shí)別數(shù)據(jù)集WISDM,這是來自35名參與者在安卓手機(jī)上的加速度計(jì)數(shù)數(shù)據(jù),將其中的時(shí)間戳一列數(shù)據(jù)刪除,剩下包含3種數(shù)值型數(shù)據(jù)以及2種分類型屬性在內(nèi)的5種屬性.3)抽取了ADULT數(shù)據(jù)集中屬性Age一列.將這4種真實(shí)數(shù)據(jù)集的數(shù)值型屬性域都規(guī)范到[-1,1].
除了真實(shí)數(shù)據(jù)集之外,論文還使用了合成數(shù)據(jù)集,分別是:1)服從高斯分布的GAUSS數(shù)據(jù)集,其中設(shè)置數(shù)據(jù)均值為0,標(biāo)準(zhǔn)差為0.25. 2)服從指數(shù)分布的EXP數(shù)據(jù)集,將標(biāo)準(zhǔn)差設(shè)置為0.5. 3)服從均勻分布的UNIFORM數(shù)據(jù)集.在均值估計(jì)實(shí)驗(yàn)中,為了消除誤差影響,每種方法重復(fù)運(yùn)行了100次取其平均值.
(19)
其中,T
代表運(yùn)行的次數(shù),m
代表真實(shí)的均值,m
*代表均值的估計(jì)值.
Fig. 1 The influence of different α on the mean estimation圖1 不同α值對(duì)均值估計(jì)的影響
為評(píng)估分類變換擾動(dòng)機(jī)制的性能,論文計(jì)算不同機(jī)制擾動(dòng)后均值估計(jì)的絕對(duì)誤差進(jìn)行對(duì)比.每個(gè)用戶對(duì)本地?cái)?shù)據(jù)進(jìn)行擾動(dòng),服務(wù)器收集用戶擾動(dòng)后的數(shù)據(jù)之后計(jì)算數(shù)值屬性的均值.除了使用論文中提出的機(jī)制,還使用了已有的較新的擾動(dòng)方法來進(jìn)行比較,包括Wang等人提出的方法PM(如算法2所示)和Duchi等人的方法(如算法1所示),這也是目前連續(xù)數(shù)值型數(shù)據(jù)擾動(dòng)比較有代表性的方法.為了使結(jié)果更加的真實(shí)可靠,論文在1個(gè)真實(shí)數(shù)據(jù)ADULT和3個(gè)合成數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn).
由圖2中不同類型數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果可看出,絕對(duì)誤差隨著隱私預(yù)算的增大而減少.由于Duchi方法的最壞情況下誤差方差在隱私預(yù)算較小時(shí)與PM接近,所以當(dāng)隱私預(yù)算小于1時(shí),Duchi和PM方法的結(jié)果較為接近.而論文中提出的分類變換擾動(dòng)機(jī)制的絕對(duì)誤差則要比這2種方法的誤差小的多,不管隱私預(yù)算如何變換,該機(jī)制的絕對(duì)誤差比其他2種方法要小幾乎1個(gè)數(shù)量級(jí).也就是說,論文中提出的方法在均值估計(jì)中的準(zhǔn)確性得到了明顯的改善.
Fig. 2 The mean estimate of different datasets圖2 不同數(shù)據(jù)集的均值估計(jì)
在統(tǒng)計(jì)任務(wù)分析中,數(shù)據(jù)量的大小通常會(huì)影響最終結(jié)果的準(zhǔn)確性,這里將論文中提出的機(jī)制與現(xiàn)有機(jī)制的性能受數(shù)據(jù)集大小影響進(jìn)行對(duì)比.為更好地對(duì)比數(shù)據(jù)量變化對(duì)算法性能影響,使用不同大小的高斯數(shù)據(jù)集進(jìn)行均值估計(jì),最后比較其絕對(duì)誤差的值.從圖3的實(shí)驗(yàn)結(jié)果可以看出,絕對(duì)誤差隨著數(shù)據(jù)集的增大呈下降趨勢(shì),也就是說數(shù)據(jù)量越大結(jié)果往往越準(zhǔn)確.PM方法的絕對(duì)誤差和Duchi方法的比較接近,而分類變換擾動(dòng)機(jī)制的誤差始終要比PM方法以及Duchi方法的要更小.在不同的數(shù)據(jù)集大小中,分類變換擾動(dòng)機(jī)制均體現(xiàn)出更好的性能,這主要是因?yàn)樵摍C(jī)制使用了數(shù)據(jù)變換的方法,使得擾動(dòng)滿足本地差分隱私的同時(shí)數(shù)據(jù)能獲得更高的準(zhǔn)確性.
Fig. 3 The impact of dataset size圖3 數(shù)據(jù)集大小的影響
k
種值的分類型屬性A
轉(zhuǎn)換成k
-1元屬性,每一個(gè)屬性的值域?yàn)閧0,1},使得:1)A
中的值如為第i
個(gè)值(i
<k
)則第i
元屬性會(huì)被設(shè)置為1,其余的k
-2個(gè)屬性會(huì)被設(shè)置為0.
2)A
中的值如為第k
個(gè)值則其轉(zhuǎn)換的屬性所有的值都為0.
轉(zhuǎn)換之后,BR的維度為90,MX的維度為94,WISDM的維度為43.論文中使用的是小批量梯度下降算法,每一次迭代中抽取1組用戶,該組中的用戶對(duì)梯度進(jìn)行擾動(dòng).用戶將擾動(dòng)后的梯度發(fā)送給服務(wù)器,服務(wù)器根據(jù)接收到的用戶的梯度進(jìn)行梯度更新后返回給用戶.該實(shí)驗(yàn)包含了3種方法:DCT,PM,Duchi.對(duì)于所有的方法,都將正則化因子設(shè)置為λ
=10.對(duì)于每一個(gè)數(shù)據(jù)集,使用5折交叉驗(yàn)證5次來評(píng)估每種方法的性能.使用均方誤差(mean square error,MSE
)比較使用不同擾動(dòng)機(jī)制構(gòu)建的小批量梯度下降算法的優(yōu)劣.Fig. 4 Linear regression using different perturbation mechanisms圖4 使用不同擾動(dòng)機(jī)制的線性回歸
圖4描述了在不同的隱私預(yù)算下,每一種機(jī)制在不同數(shù)據(jù)下的線性回歸模型的均方誤差.可從實(shí)驗(yàn)結(jié)果看出,PM方法和Duchi方法構(gòu)建的滿足本地差分隱私的小批量梯度下降模型的訓(xùn)練效果更為接近,論文中提出的分類變換擾動(dòng)機(jī)制計(jì)算出的均方誤差要小于這2種機(jī)制,獲得的模型準(zhǔn)確度更高,性能要更優(yōu).總的來說,所有實(shí)驗(yàn)結(jié)果表明,不管是在均值估計(jì)中還是在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的任務(wù)中,分類擾動(dòng)機(jī)制的性能都要優(yōu)于現(xiàn)有的本地差分隱私的解決方法,其在簡單和復(fù)雜的數(shù)據(jù)分析任務(wù)中均能獲得較高的準(zhǔn)確性.
為了防止用戶隱私泄露,論文提出了滿足本地差分隱私的分類變換擾動(dòng)機(jī)制.該機(jī)制將數(shù)值型數(shù)據(jù)的擾動(dòng)與分類型數(shù)據(jù)的擾動(dòng)進(jìn)行結(jié)合,提高了均值估計(jì)的準(zhǔn)確性.同時(shí),將該機(jī)制用于梯度下降中的每次迭代的梯度擾動(dòng),保護(hù)了訓(xùn)練過程中用戶隱私的同時(shí)得到了一個(gè)較為準(zhǔn)確的模型.而且,本文也從本地差分隱私定義的角度,理論證明了提出的方法滿足ε-本地差分隱私.最后通過多組真實(shí)數(shù)據(jù)集以及合成數(shù)據(jù)集驗(yàn)證了分類變換擾動(dòng)機(jī)制的性能,證明了其在相同條件下要優(yōu)于現(xiàn)有的同類方法.下一步工作將研究如何在更為復(fù)雜的數(shù)據(jù)分析中實(shí)現(xiàn)隱私保護(hù)并提高準(zhǔn)確性.
作者貢獻(xiàn)聲明
:朱素霞對(duì)研究思路提供指導(dǎo)意見,協(xié)助設(shè)計(jì)論文框架,并對(duì)論文初稿、修改稿等提供審閱意見;王蕾提出研究思路,設(shè)計(jì)研究方案,進(jìn)行實(shí)驗(yàn)和數(shù)據(jù)分析,并撰寫論文;孫廣路對(duì)研究思路提供指導(dǎo)意見,并對(duì)論文初稿、修改稿等提供審閱意見.