安徽理工大學計算機學院 劉文龍 方賢進
?
差分隱私合成數(shù)據(jù)集發(fā)布研究
安徽理工大學計算機學院 劉文龍 方賢進
【摘要】差分隱私保護模型框架中,合成數(shù)據(jù)集發(fā)布是差分隱私保護的一個重要應用,也是一個重要研究熱點。本文主要研究和分析了差分隱私保護在合成數(shù)據(jù)集發(fā)布中的應用,重點介紹該領域的研究進展,并展望未來的研究方向。
【關鍵詞】差分隱私;數(shù)據(jù)合成;數(shù)據(jù)發(fā)布
差分隱私保護技術是2006年由來自微軟研究院的德沃柯(Dwork)等人提出的針對統(tǒng)計數(shù)據(jù)庫的保護模型。差分隱私保護模型作為一個嚴格定義的、可證明的隱私保護模型,近年來受到各學術界越來越多的重視和研究。
合成數(shù)據(jù)集的發(fā)布是差分隱私保護研究中的難點。研究主要集中于對數(shù)據(jù)集統(tǒng)計特征的發(fā)布機制,如直方圖發(fā)布。由于這些發(fā)布機制僅能描述數(shù)據(jù)集的一部分特征,因此在應用場景上存在很大的局限性?,F(xiàn)實的需求促進了研究者對凈化數(shù)據(jù)集發(fā)布的研究。
最早出現(xiàn)的k-匿名隱私保護技術要求對數(shù)據(jù)表中的每一條記錄不能區(qū)分于其它k-1條記錄,即對數(shù)據(jù)中的所有元組進行泛化處理,使得其不能再與其他任何人相對應,如表1數(shù)據(jù)匿名化前后對比可以看出泛化后的數(shù)據(jù)不再像原數(shù)據(jù)一樣準確,泛化對數(shù)據(jù)進行了更為概括的描述,并保留了有用信息,從而使得數(shù)據(jù)依然具有可用性。
k-匿名和l-多樣技術不足之處都在于沒有嚴格定義攻擊模型,沒有對攻擊者的背景知識作出定量化定義。這樣使得從k-匿名剛開始的工作就陷入一個“新隱私保護模型不斷被提出但又不斷被攻破”的循環(huán)之中。直到Dwork等人提出差分隱私保護模型,類似問題才得到有效解決。
表1 數(shù)據(jù)匿名化前后對比
2.1差分隱私定義
差分隱私嚴格定義了攻擊者的背景知識:除了某一條記錄,假定攻擊者知曉原數(shù)據(jù)集中的所有信息,這樣的攻擊者幾乎是最強大的,而差分隱私依然能夠在這種情況下有效保護個人隱私信息。差分隱私保護模型擁有嚴謹?shù)慕y(tǒng)計學模型,方便了數(shù)學工具的使用以及定量分析和證明。正是由于差分隱私的諸多優(yōu)勢,使其一出現(xiàn)便迅速取代了之前的隱私模型,成為隱私研究的核心。
2.2差分隱私統(tǒng)計學模型
差分隱私保護的數(shù)學表達為:對于任意一對相鄰數(shù)據(jù)庫D1和D1,任意一個可能的帶噪中間件S,一個提供ε-差分隱私保護的算法A 必須滿足:
也就是說,由于對于輸入D1和D2,算法A 輸出S 的概率是相近的,所有即使攻擊者已經知道了原數(shù)據(jù)中的絕大部分元組,他依然無法對剩余的元組做出準確的推斷。對于任意一個可能的帶噪中間件S,Pr[A(D1)=S] 和Pr[A(D2)=S] 的比率總是被約束在[exp(-ε),exp(ε)] 之間,即:
差分隱私保護模型的參數(shù)描述了上述兩個概率分布的相似性ε越小,概率的相似性越高,也就越難區(qū)分D1和D2,從而達到更高程度的隱私保護。
2.3差分隱私核心算法
德沃柯等人最先提出了差分隱私的通用隨機算法:拉普拉斯機制,其核心思想是通過向中間件加入拉普拉斯噪音來滿足定義一中的約束條件。對于一個數(shù)據(jù)查詢F,拉普拉斯機制首先生成真實結果F (D) 作為中間件,然后通過發(fā)布帶噪結果F(D)+η 來回答查詢,其中噪音η服從拉普拉斯分布。
德沃柯等人證明了當λ≥ ΔF/ε時,拉普拉斯機制就能滿足ε- 差分隱私。
McSherry 和Tulwar所提出的指數(shù)機制也是差分隱私的經典通用算法。該機制與拉普拉斯機制最大的不同在于,后者適用于當數(shù)據(jù)查詢的返回值為實數(shù)值的場合,而前者則適用于數(shù)據(jù)查詢的范圍值域為離散值域的場合?,F(xiàn)有的許多差分隱私算法在很大程度上都可以認為是拉普拉斯機制與指數(shù)機制的組合與應用。
最早的數(shù)據(jù)合成算法的思路是首先從數(shù)據(jù)庫生成列聯(lián)表,然后通過拉普拉斯機制隨機加噪生成帶噪列聯(lián)表,最后還原出一個帶噪的合成數(shù)據(jù)庫。但是,這一思路在面向高維數(shù)據(jù)時會產生嚴重的問題:(1)列聯(lián)表的大小是數(shù)據(jù)維度的指數(shù)倍,這導致高維帶噪列聯(lián)表很難被計算出來;(2)由于列聯(lián)表的大小遠大于數(shù)據(jù)庫,因此信息在列聯(lián)表中的分布極其稀疏,在加入噪音后,列聯(lián)表的信噪比將變得非常低,使得其無法反映原數(shù)據(jù)庫的有用信息。PrivBayes算法通過建立一個貝葉斯網絡找到一系列低維邊界圖來較好地逼近高維列聯(lián)表,然后將所有計算和加噪都在低維空間中進行,從而有效解決高維列聯(lián)表帶來的計算復雜度高和信噪比低的問題。
正是由于差分隱私的諸多優(yōu)勢,使得其一出現(xiàn)便很快取代了之前的隱私保護模型,成為隱私研究的核心,并在計數(shù)查詢、數(shù)據(jù)挖掘和機器學習等多個領域得到了廣泛應用。然而,當前仍有很多需要深入開展研究工作,如攻擊模型的進一步優(yōu)化、隱私保護與數(shù)據(jù)可用性的權衡等。
參考文獻
[1]陳德誠,丘平珠,唐炳莉.廣西氣象數(shù)據(jù)集設計與制作[J].氣象研究與應用,2007(04).
[2]趙鳳英,王崇駿,陳世福.用于不均衡數(shù)據(jù)集的挖掘方法[J].計算機科學,2007(09).
[3]孟小峰,張嘯劍.大數(shù)據(jù)隱私管理[J].計算機研究與發(fā)展,2015(02).