謝 榮, 溫 蜜
(上海電力大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 上海 200090)
數(shù)據(jù)挖掘是一種從大量含有潛在知識(shí)的數(shù)據(jù)中發(fā)現(xiàn)有用信息的技術(shù)。但大量的數(shù)據(jù)包含隱私敏感信息,數(shù)據(jù)挖掘可能導(dǎo)致隱私信息的泄露。在不影響數(shù)據(jù)挖掘準(zhǔn)確性的前提下,保護(hù)數(shù)據(jù)隱私是一個(gè)關(guān)鍵的挑戰(zhàn)。近年來(lái),敏感數(shù)據(jù)的保護(hù)引起了社會(huì)的廣泛關(guān)注[1],其主要研究方向?yàn)殡[私保護(hù)數(shù)據(jù)挖掘(Privacy-preserving Data Mining,PPDM)。PPDM既能提供數(shù)據(jù)挖掘技術(shù),又能保護(hù)數(shù)據(jù)庫(kù)中用戶的隱私。然而,PPDM的主要挑戰(zhàn)是抵抗熟練敵手的攻擊[2-3]。為了克服這一挑戰(zhàn),PPDM使用數(shù)據(jù)擾動(dòng)[4]和加密技術(shù)[5]進(jìn)行敏感數(shù)據(jù)的保護(hù)?;诩用艿碾[私保護(hù)數(shù)據(jù)挖掘技術(shù)提供了良好的安全性和準(zhǔn)確性,但因其具有較高的計(jì)算復(fù)雜度,使得加密技術(shù)不適合大規(guī)模的數(shù)據(jù)挖掘[6]。與加密技術(shù)相比,數(shù)據(jù)擾動(dòng)擁有較低的計(jì)算復(fù)雜度,使得它對(duì)大數(shù)據(jù)挖掘更有效[7]。噪聲添加、幾何變換、隨機(jī)化、數(shù)據(jù)壓縮、混合擾動(dòng)是數(shù)據(jù)擾動(dòng)的相關(guān)技術(shù)[8]。一個(gè)隱私模型定義了特定擾動(dòng)機(jī)制的隱私信息保護(hù)和泄漏的限制[9],其中早期的隱私模型包括k-匿名,l-多樣性,t-closeness[10-11]等。研究表明,這些模型容易受到不同的攻擊,如最小攻擊[12]、基于合成的攻擊[13]和背景知識(shí)攻擊[14],而這些攻擊能利用擾動(dòng)后的數(shù)據(jù)來(lái)重建隱私信息。差分隱私(Differential Privacy,DP)是一種強(qiáng)大的隱私模型,與以前的隱私模型相比,可以為PPDM提供更好的隱私保護(hù)[15-16]。
近年來(lái),差分隱私技術(shù)大致可分為兩種:中心化差分隱私(Centralized Differential Privacy,CDP)和本地化差分隱私(Local Differential Privacy,LDP)[17-18],主要區(qū)別在于是否具有可信的第三方。中心化差分隱私應(yīng)用的前提是聚合器是可信的,即第三方不會(huì)泄露用戶隱私。本地化差分隱私不需要可信的第三方,仍然能保護(hù)用戶的隱私數(shù)據(jù),因而更加實(shí)用。雖然本地化差分隱私是最近才流行的,但已在工業(yè)界得到了應(yīng)用,例如微軟公司將其用于個(gè)人地理位置保護(hù);蘋果公司在用戶的設(shè)備上也采用了本地化差分隱私來(lái)保護(hù)用戶隱私;谷歌也在瀏覽器中加入了該技術(shù)來(lái)保護(hù)用戶的瀏覽行為[19]。
1.1.1 中心化差分隱私模型
定義1(ε-DP) 擾動(dòng)機(jī)制K,其中D為機(jī)制K輸出的集合。對(duì)于任意的一對(duì)相鄰數(shù)據(jù)集A和A′,如果機(jī)制K滿足:
Pr[K(A)∈D]≤eεPr[K(A′)∈D]
(1)
則稱K滿足ε-DP,其中參數(shù)ε為隱私預(yù)算。
當(dāng)參數(shù)ε越小時(shí),K對(duì)數(shù)據(jù)的保護(hù)程度就越高,即擾動(dòng)后和擾動(dòng)前的數(shù)據(jù)概率分布情況接近,這樣攻擊者就很難分辨了。相反,隱私預(yù)算越高,保護(hù)程度就越低。中心化差分隱私保護(hù)模型如圖1所示。
圖1 中心化差分隱私模型
1.1.2 中心化差分隱私框架
中心化差分隱私有交互式和非交互式兩種數(shù)據(jù)保護(hù)框架[20]。在交互式保護(hù)模型下,數(shù)據(jù)管理者會(huì)根據(jù)數(shù)據(jù)應(yīng)用需求設(shè)計(jì)出相應(yīng)的差分隱私算法K,當(dāng)用戶對(duì)數(shù)據(jù)服務(wù)器發(fā)出查詢時(shí),返回的結(jié)果將經(jīng)過(guò)中心化差分隱私的處理才返回給用戶。這一框架下存在的最大問(wèn)題是隱私預(yù)算耗盡,然而解決這個(gè)問(wèn)題的現(xiàn)有方法是限制查詢數(shù)目,這也使得其在應(yīng)用中具有一定的局限性。交互式保護(hù)模型如圖2所示。
圖2 交互式保護(hù)模型
在非交互式保護(hù)模型下,數(shù)據(jù)的管理者會(huì)根據(jù)數(shù)據(jù)信息的特點(diǎn)來(lái)設(shè)計(jì)要發(fā)布哪些統(tǒng)計(jì)信息,并設(shè)計(jì)出隱私算法來(lái)進(jìn)行處理發(fā)布。此時(shí),用戶只能對(duì)發(fā)布后的合成數(shù)據(jù)庫(kù)進(jìn)行查詢或者挖掘任務(wù)來(lái)獲得近似的結(jié)果。如何合理分配隱私預(yù)算,并盡可能地提高發(fā)布數(shù)據(jù)的可用性,是此框架下的研究重點(diǎn)。非交互式保護(hù)模型如圖3所示。
圖3 非交互式保護(hù)模型
1.2.1 本地化差分隱私模型
近年來(lái),許多研究都投入到本地化差分隱私中。本地化差分隱私與中心化差分隱私的功能一樣,最大的區(qū)別在于其在用戶端對(duì)數(shù)據(jù)進(jìn)行隨機(jī)擾動(dòng),而非在數(shù)據(jù)庫(kù)中。本地化保護(hù)模型如圖4所示。
圖4 本地化差分隱私保護(hù)模型
定義2(ε-LDP) 對(duì)于一組用戶,每個(gè)用戶擁有一條數(shù)據(jù),若隨機(jī)機(jī)制K在任意兩條數(shù)據(jù)x和x′上得到結(jié)果z滿足式(2),則稱機(jī)制K滿足ε-LDP。
Pr[K(x)=z]≤eεPr[K(x′)=z]
(2)
1.2.2 本地化差分隱私框架
本地化差分隱私保護(hù)數(shù)據(jù)的框架[17]也有交互式和非交互式兩種,如圖5和圖6所示。
圖5 交互式框架
圖6 非交互式框架
其最大特點(diǎn)是針對(duì)單個(gè)用戶而言,充分考慮了數(shù)據(jù)間的關(guān)聯(lián)關(guān)系。圖5和圖6中,當(dāng)X1,X2,X3,…,Xn為輸入序列,Z1,Z2,Z3,…,Zn為輸出序列,箭頭表示依賴關(guān)系,則整個(gè)框架表示為:Q(Zj|Xj),Q表示查詢。
在交互式框架中,第j個(gè)輸出Zj依賴于第j個(gè)輸入Xj以及前j-1個(gè)輸出Z1,Z2,Z3,…,Zj-1,但與前j-1個(gè)輸入無(wú)依賴關(guān)系。因此,本地化差分隱私的形式定義為:對(duì)任意的x和x′,給定隱私預(yù)算ε,若查詢Q滿足式(3),則認(rèn)為Zj是Xj的一個(gè)滿足ε-LDP保護(hù)的表示,即
(3)
在非交互式框架中,第j個(gè)輸出Zj僅依賴于第j個(gè)輸入Xj。因此,非交互式框架下的本地化差分隱私可以表示為:對(duì)任意的x和x′,給定隱私預(yù)算ε,若查詢Q滿足式(4),則認(rèn)為Zj是Xj的一個(gè)滿足ε-LDP保護(hù)的表示,即
(4)
差分隱私在敏感數(shù)據(jù)挖掘中的應(yīng)用大致可分為頻繁項(xiàng)挖掘、回歸與分類以及深度學(xué)習(xí)3大類。在中心化差分隱私下的敏感數(shù)據(jù)挖掘任務(wù)已得到了廣泛研究,但在本地化差分隱私環(huán)境下的應(yīng)用還非常有限,并且模型也很簡(jiǎn)單。
頻繁項(xiàng)挖掘是一項(xiàng)核心的數(shù)據(jù)挖掘任務(wù),同時(shí)具有重要的經(jīng)濟(jì)和研究意義。然而,發(fā)布頻繁項(xiàng)集會(huì)帶來(lái)隱私方面的挑戰(zhàn)。
文獻(xiàn)[21]提出了兩種有效的算法來(lái)挖掘敏感數(shù)據(jù)集中的k個(gè)最頻繁模式:第1個(gè)算法基于指數(shù)機(jī)制;第2個(gè)算法基于拉普拉斯機(jī)制,通過(guò)返回與數(shù)據(jù)中k個(gè)最常見(jiàn)模式的實(shí)際列表接近的噪聲模式列表來(lái)解決敏感數(shù)據(jù)挖掘。文獻(xiàn)[22]提出了Privbasis的方法——一個(gè)稱為基集的概念,并用其來(lái)尋找最頻繁的項(xiàng)集。文獻(xiàn)[23]提出了一種在高隱私度下效果更好的方法,首先識(shí)別Top-k頻繁項(xiàng)集,然后用它們構(gòu)造一個(gè)差分隱私的FP樹。文獻(xiàn)[24]為ROPPOR機(jī)制提出了一種新疑的解碼算法,該算法能夠估算“未知數(shù)”,即我們不知道的字符串,并且該算法不是ROPPOR特有的,可以推廣到其他本地化差分隱私機(jī)制中,以學(xué)習(xí)字符串中隨機(jī)變量的分布。文獻(xiàn)[25]從高維數(shù)據(jù)隱私出發(fā),提出了一種基于本地化差分隱私的多維聯(lián)合分布估計(jì)算法,實(shí)現(xiàn)了多屬性間的相關(guān)性識(shí)別。文獻(xiàn)[26]提出了一種實(shí)用、準(zhǔn)確和高效的Harmony系統(tǒng),用于在滿足本地化差分隱私的前提下收集和分析來(lái)自智能設(shè)備的數(shù)據(jù),其適用于包含數(shù)值和分類屬性的多維數(shù)據(jù),并支持基本的統(tǒng)計(jì)數(shù)據(jù),尤其是均值估計(jì)。
隱私和安全問(wèn)題通常會(huì)阻止用戶數(shù)據(jù)的共享,甚至?xí)柚箯闹蝎@得知識(shí)的共享,從而阻止有價(jià)值的信息被利用。隱私保護(hù)數(shù)據(jù)挖掘,如果正確使用,可以緩解這一問(wèn)題?;貧w與分類是數(shù)據(jù)挖掘中最重要、應(yīng)用最廣泛的技術(shù)之一。
文獻(xiàn)[27]提出了一種基于隨機(jī)決策樹方法的差分隱私?jīng)Q策樹集成算法,用差分隱私的查詢來(lái)構(gòu)造保護(hù)隱私的ID3決策樹,則能在數(shù)據(jù)集較小的情況下獲得良好的預(yù)測(cè)精度。文獻(xiàn)[28]提出了一種基于多類高斯混合模型分類器的學(xué)習(xí)算法,可利用帶擾動(dòng)正則項(xiàng)的大邊緣損失函數(shù)來(lái)保持?jǐn)?shù)據(jù)的差分隱私。文獻(xiàn)[29]考慮到在分布式多方環(huán)境中開發(fā)保護(hù)隱私的機(jī)器學(xué)習(xí)算法問(wèn)題,提出了一種新的針對(duì)多方設(shè)置的差分隱私算法,使用基于隨機(jī)梯度下降的過(guò)程直接優(yōu)化整個(gè)多方對(duì)象,而不是從優(yōu)化局部目標(biāo)中學(xué)到的分類器的組合。文獻(xiàn)[30]在差分隱私模型的基礎(chǔ)上開發(fā)了一個(gè)樸素貝葉斯分類器,可以允許一個(gè)提供者集中訪問(wèn)一個(gè)數(shù)據(jù)集。最近文獻(xiàn)[31]在本地化差分隱私模型的基礎(chǔ)上開發(fā)了樸素貝葉斯分類器,首先個(gè)人發(fā)送他們的擾動(dòng)輸入,以保持要素值與類標(biāo)簽之間的關(guān)系,然后數(shù)據(jù)聚合器估計(jì)樸素貝葉斯分類器所需的所有概率,最后基于估計(jì)的概率對(duì)新實(shí)例進(jìn)行分類。文獻(xiàn)[32]首次使非交互式本地化差分隱私模型下的學(xué)習(xí)任務(wù)成為可能,并從多個(gè)方面擴(kuò)展了非交互式本地化差分隱私的學(xué)習(xí)領(lǐng)域。
基于深度學(xué)習(xí)的技術(shù)在許多領(lǐng)域都取得了顯著效果。通常,模型的訓(xùn)練需要大量具有代表性的數(shù)據(jù)集,這些數(shù)據(jù)集可能是由眾包獲得的,并且包含敏感信息,模型不應(yīng)該在這些數(shù)據(jù)集中公開隱私信息,所以需要設(shè)計(jì)滿足隱私保護(hù)的深度學(xué)習(xí)算法。
文獻(xiàn)[33]專注于深度學(xué)習(xí)中的自動(dòng)編碼器,并提出了具有隱私保護(hù)的深度自動(dòng)編碼器。其主要思想是通過(guò)干擾傳統(tǒng)深度自動(dòng)編碼器的目標(biāo)功能來(lái)實(shí)施數(shù)據(jù)的差分隱私,并將其用于社區(qū)網(wǎng)絡(luò)中人類行為預(yù)測(cè),具有良好的性能。文獻(xiàn)[34]提出了一種用于語(yǔ)義豐富數(shù)據(jù)的通用隱私發(fā)布框架,其中數(shù)據(jù)管理員沒(méi)有對(duì)數(shù)據(jù)進(jìn)行清理后發(fā)布,而是發(fā)布了一個(gè)深度生成模型。該模型使用原始數(shù)據(jù)以差分隱私的方式進(jìn)行訓(xùn)練,利用生成的模型,分析人員能夠分析任務(wù)生成的合成數(shù)據(jù)。文獻(xiàn)[35]提出了一種差分隱私生成對(duì)抗網(wǎng)絡(luò)模型,其主要思想是在學(xué)習(xí)過(guò)程中為梯度添加經(jīng)過(guò)精心設(shè)計(jì)的噪聲來(lái)實(shí)現(xiàn)生成對(duì)抗網(wǎng)絡(luò)中數(shù)據(jù)的差分隱私。文獻(xiàn)[36]首次提出了一種在本地化差分隱私模型下的卷積神經(jīng)網(wǎng)絡(luò)。該算法分為3層,即卷積模塊、隨機(jī)化模塊和全連接模塊,與以往的模型相比,其將隱私保護(hù)的功能量化為隱私預(yù)算系數(shù)而非隱私預(yù)算,就導(dǎo)致即使在較低的隱私預(yù)算下也可以實(shí)現(xiàn)較高的準(zhǔn)確性。該模型在MNIST和CIFAR-10上的測(cè)試精度均優(yōu)于以往算法。
本文選擇了數(shù)據(jù)挖掘中幾個(gè)經(jīng)典的方案進(jìn)行性能分析。具體分析結(jié)果如表1所示。
目前,中心化差分隱私發(fā)展比較成熟,在敏感數(shù)據(jù)挖掘中的應(yīng)用也比較廣泛。本文主要分析了本地化差分隱私在回歸與分類中的應(yīng)用。具體分析結(jié)果如表2所示。
表1 差分隱私在敏感數(shù)據(jù)頻繁項(xiàng)挖掘中方案比較
表2 差分隱私在敏感數(shù)據(jù)的回歸與分類中方案比較
文獻(xiàn)[43]為不共享輸入數(shù)據(jù)集的神經(jīng)網(wǎng)絡(luò)開發(fā)了一種分布式多方學(xué)習(xí)機(jī)制,稱為[SS15]。該方法基于隨機(jī)梯度下降優(yōu)化算法,其隱私損失根據(jù)模型的參數(shù)計(jì)算。由于存在許多模型參數(shù),通常會(huì)有數(shù)千個(gè)這樣的模型參數(shù),因此,該方法可能會(huì)導(dǎo)致大量的隱私損失。文獻(xiàn)[44]引入了一種基于中心差分隱私的高效差分隱私機(jī)制,稱為[ACG+16]。該模型運(yùn)行在用于機(jī)器學(xué)習(xí)的TensorFlow軟件庫(kù)上,能夠在適度的隱私預(yù)算下實(shí)現(xiàn)較高的效率和性能。其算法是基于隨機(jī)梯度下降的差分隱私保護(hù)。此外,他們還引入了一種跟蹤隱私損失的機(jī)制,即隱私會(huì)計(jì),允許對(duì)隱私損失進(jìn)行嚴(yán)密的自動(dòng)化分析。但當(dāng)該方法用于更大的數(shù)據(jù)集時(shí),其差分隱私機(jī)制的錯(cuò)誤率可能會(huì)導(dǎo)致不穩(wěn)定的隱私泄漏。文獻(xiàn)[36]提出了一種基于本地差分隱私的一元編碼機(jī)制,稱為L(zhǎng)ATENT。他們將優(yōu)化的一元編碼進(jìn)行改進(jìn),引入上界定理,并提出了隱私預(yù)算系數(shù)的概念,將隱私保護(hù)程度轉(zhuǎn)移到了隱私預(yù)算系數(shù)上。該模型在本地進(jìn)行數(shù)據(jù)的擾動(dòng),并在云端進(jìn)行模型的訓(xùn)練,可以既安全又高效地實(shí)現(xiàn)數(shù)據(jù)的處理任務(wù)。[SS15]、[ACG+16]、LATENT 3種方法的性能對(duì)比如圖7所示。
圖7 3種方法在敏感數(shù)據(jù)深度學(xué)習(xí)中的性能比較
由圖7可知,LATENT即使是在擾動(dòng)較大的情況下仍能保持較高的精度;而[SS15]和[ACG+16]只有在擾動(dòng)較小的情況下才能體現(xiàn)出令人滿意的精度。此外,[SS15]和[ACG+16]的另一個(gè)缺點(diǎn)是需要可信的第三方。因此,在對(duì)安全性要求較高的場(chǎng)景下,可使用LATENT方法;在對(duì)安全性要求較低的場(chǎng)景,推薦使用[SS15]方法。
近年來(lái),雖然PPDM得到了廣泛研究,但面對(duì)各種分布數(shù)據(jù)如何設(shè)計(jì)出一種安全和實(shí)用的技術(shù)仍然面臨很大的挑戰(zhàn)。
(1) 在分布式環(huán)境下,敏感數(shù)據(jù)類型較多,面對(duì)離散與連續(xù)、低維與高維以及鍵值對(duì)數(shù)據(jù),如何有效地并行處理難度較大。
(2) 在本地化差分隱私環(huán)境下比在差分隱私環(huán)境下設(shè)計(jì)的算法安全性更高,但擾動(dòng)誤差更大,如何設(shè)計(jì)合理的擾動(dòng)機(jī)制具有一定的難度。
(3) 在物聯(lián)網(wǎng)環(huán)境中,大多的隱私保護(hù)需要輕量級(jí)方案,如何設(shè)計(jì)出通信代價(jià)低的算法也較為困難。
(4) 近年來(lái),聯(lián)邦學(xué)習(xí)作為一種新型的分布式機(jī)器學(xué)習(xí)被廣泛研究。該模型雖然解決了用戶數(shù)據(jù)的隱私問(wèn)題,但其模型參數(shù)仍能受到攻擊,而且該模型最大的阻礙就是通信代價(jià)。針對(duì)差分隱私保護(hù)技術(shù),如何設(shè)計(jì)出既能保護(hù)模型參數(shù)和減小通信代價(jià),又能保證模型精度的機(jī)制也存在困難。
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘技術(shù)不斷發(fā)展,個(gè)人隱私數(shù)據(jù)的保護(hù)顯得尤其重要,數(shù)據(jù)挖掘技術(shù)的隱私問(wèn)題是阻礙其發(fā)展的重要因素。差分隱私作為一種成熟的隱私保護(hù)技術(shù),憑借其隱私性好、計(jì)算開銷低等特點(diǎn)被廣泛研究。近些年,國(guó)內(nèi)外學(xué)者對(duì)隱私保護(hù)數(shù)據(jù)挖掘技術(shù)進(jìn)行了廣泛和深入的研究,然而在本地設(shè)置中的研究還非常有限,究其原因主要是本地化差分隱私的擾動(dòng)在本地進(jìn)行,算法設(shè)計(jì)不當(dāng)會(huì)產(chǎn)生較大誤差。因此,目前最大的挑戰(zhàn)就是在本地設(shè)計(jì)出一種誤差小、開銷低的算法,從而使敏感數(shù)據(jù)挖掘技術(shù)更加可靠。