梁曉兵,許 斌,翟 峰,沈 博
1.中國電力科學(xué)研究院有限公司,北京100192
2.中國科學(xué)院 信息工程研究所 信息安全國家重點實驗室,北京100093
3.中國科學(xué)院大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,北京100049
隨著云計算、物聯(lián)網(wǎng)等信息技術(shù)的快速發(fā)展,智能電網(wǎng)變得越來越智能化、高效化[1]。電網(wǎng)企業(yè)的信息系統(tǒng)中已經(jīng)積累了海量用電數(shù)據(jù)。使用數(shù)據(jù)挖掘與分析[2]技術(shù)對海量用電數(shù)據(jù)得到的分析結(jié)果,一方面,可以幫助電網(wǎng)企業(yè)為用戶提供個性化的用電服務(wù),為電網(wǎng)企業(yè)建設(shè)起到?jīng)Q策與預(yù)測作用。另一方面,可以推測出用電客戶的家庭人員情況、生活作息規(guī)律等信息,從而造成個人隱私泄露。
目前,基于智能電表與用電數(shù)據(jù)是兩種常見防止用電用戶隱私泄露的方法[3]。其中,基于智能電表的隱私保護技術(shù),通常采用增加硬件設(shè)計開銷實現(xiàn)對智能電表的隱私保護,但這種方式往往會引起較差的用戶體驗。而基于用電數(shù)據(jù)的隱私保護技術(shù),通過對用電數(shù)據(jù)進行隱私保護,在對用戶的隱私實現(xiàn)合理保護的同時,保證隱私保護后數(shù)據(jù)的可用性。因此,在精準分析用戶用電數(shù)據(jù)的同時,如何防止用戶隱私泄露成為現(xiàn)階段隱私保護領(lǐng)域的研究熱點。
隱私保護數(shù)據(jù)發(fā)布包括兩類常用的方法,一類是以k-anonymity[4]、l-diversity[5]、t-closeness[6]為代表的聚類方法,這些方法根據(jù)屬性分布對數(shù)據(jù)進行聚類處理,雖然有效、可行,但缺乏理論基礎(chǔ)。現(xiàn)有的k-anonymity等基于聚類的隱私保護大數(shù)據(jù)發(fā)布模型,采用概化與壓縮的方法保護一條數(shù)據(jù)記錄中屬性之間的關(guān)系。但這些模型,無法在數(shù)據(jù)隱私性與可用性之間進行權(quán)衡,而且無法抵抗攻擊者背景知識攻擊。
差分隱私(Differential Privacy)[7]模型從根本上解決了基于聚類的隱私保護方法的不足,對隱私泄露風(fēng)險給出了嚴格的、定量化的表示和證明,但經(jīng)該方法處理后的數(shù)據(jù)可用性較差。在采用差分隱私技術(shù)對大數(shù)據(jù)發(fā)布階段進行隱私保護時,其使用的隨機化機制由于數(shù)據(jù)的稀疏性與高維性,引入大量的擾動誤差,最終導(dǎo)致發(fā)布數(shù)據(jù)可用性較差。因此,設(shè)計可抵抗背景知識攻擊且可維持數(shù)據(jù)可用性的隱私保護模型具有重要的研究意義。
已有研究工作主要集中在設(shè)計有效的隱私保護模型解決上述存在的問題。Chai 等人[8]提出一種基于kmeans 數(shù)據(jù)匿名化算法,現(xiàn)實對數(shù)據(jù)集進行隱私保護。Chong等人[9]提出一種基于數(shù)據(jù)合成與替換的擾動機制NESDO,該機制可以有效地保持敏感數(shù)據(jù)的特性。Zhang等人[10]提出了一種基于差分隱私的概率不可區(qū)分機制,在此機制的基礎(chǔ)上提出了一種位置偏移方案來混淆查詢和位置之間的相關(guān)性。劉曉遷等人[11]提出了一種基于數(shù)據(jù)匿名化技術(shù)的隱私保護數(shù)據(jù)發(fā)布方法,該方法通過向匿名數(shù)據(jù)添加噪聲實現(xiàn)對敏感數(shù)據(jù)的隱私保護。Zhang 等人[12]提出了一種基于CP-ABE 的相似屬性匿名方案,在中心服務(wù)器和協(xié)作用戶的幫助下,該方案能夠抵抗推理攻擊,并能抵抗查詢服務(wù)中任何實體的隱私檢測。Ke等人[13]提出一種基于準標識符分類的差分隱私保護數(shù)據(jù)發(fā)布方法AQ-DP,解決準標識符和敏感信息之間失去相關(guān)性的問題。
本文所做的工作與上述工作不同,通過將信息論、數(shù)據(jù)匿名化和差分隱私結(jié)合解決大數(shù)據(jù)發(fā)布與共享中的問題。首先,從原始數(shù)據(jù)集選出少量準標識符屬性與敏感屬性作為特征集,然后采用最大信息系數(shù)對原始數(shù)據(jù)集中的剩余屬性與特征集屬性進行相關(guān)性分析,從中選出相關(guān)性高的數(shù)據(jù)作為隱私數(shù)據(jù)集,最后對隱私數(shù)據(jù)集應(yīng)用所提出的協(xié)同隱私保護算法,發(fā)布滿足差分隱私保護的用電大數(shù)據(jù)集。
根據(jù)隱私級別,將待發(fā)布數(shù)據(jù)表中的屬性分為四類。
如表1所示,用電數(shù)據(jù)集由顯式標識符、準標識符、敏感屬性、非敏感屬性組成。
(1)顯式標識符(Explicit Identifier,EI):可以唯一確定個人身份的屬性值,如用戶編號、戶名等。
(2)準標識符(Quasi-Identifier,QI):與其他外部信息結(jié)合后,可以重新確定個人信息的屬性,如電表號、用電示數(shù)等。
(3)敏感屬性(Sensitive Attribute,SA):不能被外界所知的個人隱私信息,如聯(lián)系電話、聯(lián)系地址、用電地址。
(4)其他屬性(Other Attributes):對隱私?jīng)]有影響的所有其他屬性,如繳費方式。
從表中可知,用電數(shù)據(jù)集中包含一些個人隱私信息,在對外發(fā)布與共享前需進行相應(yīng)的保護。
表1 用電數(shù)據(jù)集
最大信息系數(shù)(Maximum Information Coefficient)由Reshef等人[14]在2011年提出,它以信息論與互信息論為基礎(chǔ)用來檢測數(shù)據(jù)集中變量之間潛在的線性或非線性關(guān)聯(lián)關(guān)系,被廣泛應(yīng)用于大數(shù)據(jù)的相關(guān)性分析,通過網(wǎng)格劃分方法計算不同網(wǎng)格中兩個變量形成的概率分布來計算所有不同網(wǎng)格的最大互信息[15]。
定義1(互信息)給定變量A={ai,i=1,2,…,n}和B={bi,i=1,2,…,n},n 為樣本數(shù)量,則:
式中,p(a,b)為A 和B 的聯(lián)合概率密度,p(a)和p(b)分別為A 和B 的邊緣概率密度。
定義2(最大互信息)假設(shè)D={(ai,bi),i=1,2,…,n}為一個有限的有序?qū)Φ募?,定義劃分G 將變量A 的值域分成x 段,將變量B 的值域分成y 段,G 即為x×y的網(wǎng)格。在得到的每一種網(wǎng)格劃分內(nèi)部計算互信息MI(A,B),相同x×y 的網(wǎng)格劃分有多種,取不同劃分方式中的MI(A,B)最大值作為劃分G 的互信息值,則:
式中,D|G 表示數(shù)據(jù)D 在使用G 進行劃分。
定義3(特征矩陣)將不同劃分下得到的最大歸一化的MI 值組成特征矩陣M(D)x,y,則:
定義4(最大信息系數(shù))設(shè)n 是數(shù)據(jù)集D 中兩個隨機變量X 和Y 形成的散點數(shù),則:
式中,B(n)為網(wǎng)格x×y 的上限值,當(dāng)B(n)=n0.6時效果最好。
微聚集(Microaggregation)[16]是實現(xiàn)k-匿名的一種方法,將相似數(shù)據(jù)劃分為同一類,每個類至少有k 條記錄,然后用類質(zhì)心代替類中所有記錄的準標識符屬性值,實現(xiàn)數(shù)據(jù)的匿名化。常用的微聚集技術(shù)由劃分和聚集兩個步驟組成。
定義5(k-劃分)給定數(shù)據(jù)集D(A1,A2,…,Ad),包含p 個準標識符Qid={qid1,qid2,…,qidp}。對于?i,ni為第i 類的元組數(shù),用準標識符將數(shù)據(jù)集劃分為g 個類,每個類中至少包含k 條數(shù)據(jù)記錄。
定義6(聚集)給定數(shù)據(jù)集D,對準標識符進行k-劃分為g 個類,設(shè)Ci為第i 類元組類質(zhì)心,用Ci(i=1,2,…,g)取代所在類內(nèi)的所有元素的操作為聚集。
差分隱私是一種基于數(shù)據(jù)失真的隱私保護技術(shù),其基本思想是在最大限度的保證對數(shù)據(jù)庫查詢結(jié)果的可用性,同時保護數(shù)據(jù)庫中的個人隱私不被泄露。
定義7(ε-差分隱私)對于給定鄰近數(shù)據(jù)集D 和D′, ||DΔD′ =1,若存在隱私算法M ,Range(M)是M的取值范圍,若算法M 在數(shù)據(jù)集D 和D′上的任意輸出結(jié)果S(S ∈Range(M))滿足下式,則稱算法M 滿足ε-差分隱私。其中ε 表示隱私預(yù)算。
從上式可以看出,隱私預(yù)算ε 越小,隱私保護的程度越高。
定義8(全局敏感度)[17]定義鄰近數(shù)據(jù)集D 和D′,對于任意的查詢函數(shù)f:D →Rd,則查詢函數(shù)的全局敏感度為:
其中,R 表示函數(shù)所映射的實數(shù)空間,d 表示函數(shù)f 的查詢維度。
定義9(拉普拉斯機制)[18]給定數(shù)據(jù)集D 查詢函數(shù)f:D →?,如果算法M 的輸出滿足下式,則算法M 滿足ε-差分隱私。
在用電大數(shù)據(jù)環(huán)境下,由于數(shù)據(jù)的高維性和多樣性,設(shè)計有效的隱私保護數(shù)據(jù)發(fā)布模型需要解決算法模型的數(shù)據(jù)處理效率和發(fā)布數(shù)據(jù)的可用性及隱私性兩個主要問題。為了有效解決上述問題,提出基于屬性分類的用電大數(shù)據(jù)隱私保護模型。
如圖1 所示,首先,電網(wǎng)公司通過物聯(lián)網(wǎng)設(shè)備采集個人、企業(yè)等用戶端的用電信息,將這些信息傳輸并存儲到中央服務(wù)器。然后,為電網(wǎng)的安全運行和用戶的良好用電服務(wù),需對外發(fā)布與共享用電數(shù)據(jù)進行數(shù)據(jù)挖掘與分析任務(wù)。出于對個人隱私信息安全問題的考慮,中央服務(wù)器必須在發(fā)布與共享數(shù)據(jù)之前對原始數(shù)據(jù)集進行隱私保護處理,向數(shù)據(jù)使用者發(fā)布一個合成的數(shù)據(jù)集。
本文的目的是協(xié)助中央服務(wù)器發(fā)布一個隱私保護數(shù)據(jù)集,使所發(fā)布的數(shù)據(jù)集在維持數(shù)據(jù)的可用性同時保護個人敏感信息。
基于屬性分類的用電大數(shù)據(jù)隱私保護模型的整體流程,如圖2所示。
圖2 基于屬性分類的用電大數(shù)據(jù)隱私保護模型
該模型由兩個子模型組成:
(1)基于最大信息系數(shù)的特征分類模型(Feature Classification Model Based on Maximum Information Coefficient,MICFC):根據(jù)隱私級別,對原始數(shù)據(jù)集分類,從準標識符與敏感屬性中選出部分屬性作為特征集,對原始數(shù)據(jù)剩余屬性與特征集利用最大信息系數(shù)選出相關(guān)性高的數(shù)據(jù)作為輸出數(shù)據(jù)集B,僅對隱私屬性進行保護,從而提高數(shù)據(jù)處理的效率。
(2)基于數(shù)據(jù)匿名化與差分隱私的協(xié)同數(shù)據(jù)保護模型(Collaborative Data Protection Model Based on Data Anonymization and Differential Privacy,CDPM):對輸出數(shù)據(jù)集B 采用提出的協(xié)同隱私保護算法(Hybrid Microaggregation-Differential Privacy,HM-DP),首先利用混合微聚集對數(shù)據(jù)集B 劃分為互斥的子數(shù)據(jù)集,然后再次劃分使每個子數(shù)據(jù)集的大小固定為k,最后聚合每個子數(shù)據(jù)集并對其添加Laplace 噪聲,實現(xiàn)差分隱私保護?;诨旌衔⒕奂臄?shù)據(jù)匿名化可以分化查詢函數(shù)敏感度,提高發(fā)布數(shù)據(jù)可用性。
3.2.1 基于最大信息系數(shù)的特征分類模型
首先,從原始數(shù)據(jù)集中選出部分敏感屬性與準標識符屬性作為特征集,原始數(shù)據(jù)集的剩余屬性作為候選集,利用最大信息系數(shù)與啟發(fā)式搜索算法,計算候選集與特征集之間的相關(guān)性,選出相關(guān)性高的特征數(shù)據(jù)作為輸出數(shù)據(jù)集B。通過最大信息系數(shù)可以準確地找到特征之間的依賴關(guān)系,對原始數(shù)據(jù)集進行分類,挑選出需進行隱私保護的屬性,從而在采用CDPM模型時提高算法模型處理數(shù)據(jù)的效率。
給定包含n 條數(shù)據(jù)記錄的用電大數(shù)據(jù)集D,對其進行預(yù)處理,選出m 個準標識符屬性與敏感屬性作為特征集F={f1,f2,…,fm,c},特征類別為c。對任意特征fi與類別c 之間的相關(guān)性定義為MIC(fi,c),取值范圍為[0,1]。 MIC(fi,c)值越大,表明fi與c 間的相關(guān)性越強,則fi為強相關(guān)特征;MIC(fi,c)值越小,表明fi與c 間的相關(guān)性越弱,則fi為弱相關(guān)特征。
如圖3所示,本文中定義的基于最大信息系數(shù)的特征分類模型對原始數(shù)據(jù)集進行特征分類的過程:
給定一個具有n 條數(shù)據(jù)記錄的原始數(shù)據(jù)集D,初始化原始數(shù)據(jù)集D 和空數(shù)據(jù)集B。
圖1 系統(tǒng)模型
圖3 基于最大信息系數(shù)的特征分類模型流程圖
從D 中選出m 個敏感屬性和準標識符屬性作為特征集F={f1,f2,…,fm,c},將原始數(shù)據(jù)集D 中的剩余屬性作為候選集C;從候選集中選取候選變量f 'i,計算f 'i與c 之間的最大信息系數(shù)MIC(f 'i,c)。
以計算出的最大MIC 值作為初始變量,C=C-{f 'i},B=B+{f 'i}。
計算任意f 'i和f 'j之間的MIC(f 'i,f 'j),并選擇最大值以下的評價函數(shù)的f 'i作為下一個候選變量,并計算
執(zhí)行貪心算法,直到選定特征的個數(shù)達到設(shè)定的個數(shù)P,輸出包含選定變量的數(shù)據(jù)集B。
經(jīng)過MICFC 模型處理后,將其他屬性和顯式標識符屬性從數(shù)據(jù)集中去除,只保留需要進行隱私保護的數(shù)據(jù)屬性,提高協(xié)同數(shù)據(jù)保護模型處理數(shù)據(jù)效率。
3.2.2 基于數(shù)據(jù)匿名化與差分隱私的協(xié)數(shù)據(jù)保護模型
基于數(shù)據(jù)匿名化與差分隱私技術(shù),提出一種新的隱私保護算法HM-DP。具體地,采用改進的混合微聚集(Hybrid Microaggregation)算法與差分隱私(Differential Privacy)結(jié)合的方式對數(shù)據(jù)集B 中的數(shù)據(jù)進行隱私保護處理。
算法1 HM-DP隱私保護算法
輸入:數(shù)據(jù)集B,最小簇大小k,隱私預(yù)算參數(shù)ε
輸出:隱私保護數(shù)據(jù)集B′
1.根據(jù)準標識符屬性將數(shù)據(jù)集B 劃分為q 個互不相交的子數(shù)據(jù)集B=Bid1∪Bid2∪…∪Bidq
2.For Bidj∈{Bid1,Bid2,…,Bidq},?j ∈{1,2,…,q} do
4. 根據(jù)敏感屬性再劃分子數(shù)據(jù)集Bidj為csj個互不相交的簇Cs={C1,C2,…,Ccsj}
5. while |Ci|≥k,?Ci∈Cs do
6. 計算距離質(zhì)心Bˉid(j)最遠的數(shù)據(jù)記錄br,br∈Cr
7. 從Cr中選出k-1 個距離br最近的數(shù)據(jù)記錄,并從Cr中移除這些選出的記錄
8. For Ci∈Cs-{Cr}
9. 選出與br距離最近的k 個數(shù)據(jù)記錄,并從Ci中移除這些選出的記錄
10. 計算剩余數(shù)據(jù)記錄與每個簇質(zhì)心的距離,并分配它們到距離最近的簇
11. 計算每個簇的質(zhì)心,并用質(zhì)心代替每個準標識符屬性的值
12. 計算每個簇刪除一條數(shù)據(jù)記錄后的查詢敏感度
13. 對每條數(shù)據(jù)記錄添加Laplace噪聲
14.返回滿足差分隱私保護的數(shù)據(jù)集B′
如算法1所示,HM-DP隱私保護算法主要分三個步驟處理數(shù)據(jù):
(1)數(shù)據(jù)劃分:首先,將數(shù)據(jù)集B 根據(jù)準標識符屬性劃分成互不相交的子數(shù)據(jù)集Bidj?B,?j ∈{1,2,…,q};然后,為了確保k -劃分后每個子數(shù)據(jù)集中敏感屬性的多樣性,根據(jù)敏感屬性的分布特性對每個子數(shù)據(jù)集再進行劃分,從每個子數(shù)據(jù)集Bidj中選出csj個互不相交的敏感屬性簇;最終劃分的每個數(shù)據(jù)集中,準標識符屬性盡可能相似,敏感屬性盡可能相異。
(2)數(shù)據(jù)聚集:首先,計算數(shù)據(jù)劃分處理后的每個子數(shù)據(jù)集的質(zhì)心Bˉid(j),并根據(jù)Bˉid(j)獲得距離它最遠的數(shù)據(jù)記錄br,Cr為br所屬的數(shù)據(jù)簇;然后,計算出與Cr距離最近的k-1 個數(shù)據(jù)記錄,對于每個簇Ci,?i ∈{1,…,r-1,r+1,…,csj},將距離數(shù)據(jù)記錄br最近的k個數(shù)據(jù)記錄劃分為一組;最后,形成基數(shù)為k×csj的固定大小的數(shù)據(jù)組。
(3)加噪處理:首先,對于數(shù)據(jù)組Ci,計算每個數(shù)據(jù)組Ci(i=1,2,…,Cs)中刪除一條記錄后與得到的鄰近數(shù)據(jù)集C'i之間的查詢敏感度Δ f ;然后,對每條數(shù)據(jù)記錄添加Laplace噪聲;最終,實現(xiàn)整個數(shù)據(jù)集的差分隱私保護。
3.3.1 數(shù)據(jù)可用性
所提出的隱私保護算法HM-DP的中心思想是將數(shù)據(jù)集中的準標識符屬性與敏感屬性劃分為不同的類。每個類中的數(shù)據(jù)記錄是相似的,各類間的數(shù)據(jù)記錄是相異的。首先,采用的混合微聚集思想依次對準標識符屬性、敏感屬性進行劃分,可降低數(shù)據(jù)的泛化程度,從而降低信息損失。然后,用每類質(zhì)心值對準標識符屬性進行替換,生成匿名化的等價組,可以分化查詢敏感度,減少加入Laplace 噪聲帶來的信息損失。最后,對數(shù)據(jù)集進行差分隱私保護,使發(fā)布的數(shù)據(jù)集能夠抵抗同構(gòu)攻擊和背景知識攻擊。因此,提出的方法在保證差分隱私的情況下,提升數(shù)據(jù)的可用性。
3.3.2 隱私性分析
所提出的的HM-DP算法通過數(shù)據(jù)匿名化與差分隱私結(jié)合對數(shù)據(jù)進行隱私保護。數(shù)據(jù)匿名化的基本思想是采用微聚集對數(shù)據(jù)記錄進行劃分,使一條數(shù)據(jù)記錄隱藏于一類等價組中??紤]到匿名化方法容易受同構(gòu)攻擊和背景知識攻擊,在數(shù)據(jù)匿名化后加入隨機噪聲,完成差分隱私保護。根據(jù)差分隱私的順序組合與并行組合性質(zhì),在互不相交的數(shù)據(jù)記錄中加入滿足隱私預(yù)算ε 的噪聲,處理后的數(shù)據(jù)集滿足差分隱私模型。在所提出的方法中,經(jīng)過混合微聚集處理后的數(shù)據(jù)之間是相互獨立的,根據(jù)差分隱私并行組合性質(zhì),HM-DP算法滿足差分隱私保護模型。因此,提出的方法對數(shù)據(jù)集同時進行匿名化與差分隱私保護,具有更高的隱私性。
將HM-DP 模型與傳統(tǒng)的k-匿名模型[4]、AQ-DP 模型[13]從數(shù)據(jù)隱私性、可用性與效率三方面進行比較與評估。K-匿名模型由L.Sweeney提出,它保證數(shù)據(jù)表中任何一條記錄的準標識符與至少k-1 條記錄相同,確保準標識符值與敏感屬性值無一對一關(guān)系。AQ-DP模型是一種基于準標識符分類的差分隱私保護數(shù)據(jù)發(fā)布方法,解決準標識符和敏感信息之間失去相關(guān)性的問題。實驗數(shù)據(jù)源于UC Irvine機器學(xué)習(xí)庫中的Adult數(shù)據(jù)集,將它與用電數(shù)據(jù)集進行分析、對比后修改,將修改后的Adult 數(shù)據(jù)集作為實驗樣本空間。將“工作”與“婚姻狀況”視為敏感屬性,除“戶名”與“用戶編號”的其他屬性視為準標識符。實驗?zāi)P陀肞ython語言實現(xiàn),運行環(huán)境為Intel Core i5 CPU 2.3 GHz,8 GB 內(nèi)存,Microsoft Windows 10操作系統(tǒng)。
為了衡量發(fā)布數(shù)據(jù)的隱私性,引入記錄鏈接(Record Linkages,RL),RL 用來表示從匿名數(shù)據(jù)集中正確匹配原始數(shù)據(jù)記錄的百分比,,其中,n 為原始數(shù)據(jù)記錄的個數(shù),Pr(b'j)為匿名記錄的記錄鏈接概率,,G 為與b'j距離最小的原始記錄集,如果正確的原始記錄b'j在G 中,則計算猜測G 中b'j的概率,否則,Pr( b'j)=0。記錄鏈接從隱私攻擊的角度度量實際的隱私性,例如,較高隱私預(yù)算ε 的差分隱私模型不能抵抗記錄鏈接的攻擊。因此,RL 值越低,隱私泄露的概率越低,匿名后發(fā)布數(shù)據(jù)的隱私性越好。
如圖4(a)所示,觀察到HM-DP 模型并沒有隨著準標識符屬性與敏感屬性數(shù)量的增加而增加,這說明攻擊者只能以極小的概率獲得隱私信息。同時,HM-DP 模型與另外兩個模型相比,擁有更小的RL 值,這意味著HM-DP 模型可以達到更高的隱私性。在圖4(b)中,RL 值隨著數(shù)據(jù)集的變大而增加。但與其他兩種模型相比,本文方法的RL 值較低,具有更高的隱私性。綜上,本文模型在隱私性方面均優(yōu)于其他兩種模型。
圖4 隱私性分析
采用Kullback-Leibler 散度(KL-divergence)度量數(shù)據(jù)可用性。KL 散度從信息論的角度度量信息失真的程度,它可以計算出R 分布變化到O 分布時的信息損失。原始數(shù)據(jù)集R 與輸出數(shù)據(jù)集O 的KL 散度為,其中b 為整個數(shù)據(jù)集中的樣本空間。由于KL 散度不是對稱度量,直接使用它會使度量結(jié)果不精準,因此將它修改為對稱的KL散度:
修改后的DKL( )R,O 可以消除原始KL 散度的不均衡性。
如圖5 所示,觀察到KL 散度值隨著準標識符屬性的增加而增加,這意味著三種模型的數(shù)據(jù)可用性隨著準標識符屬性數(shù)量的增加而減少,但本文模型比k-匿名模型、AQ-DP 模型具有更好的數(shù)據(jù)可用性。當(dāng)準標識符屬性數(shù)量增加時,其他兩種模型的KL 散度值比本文模型增加得更快。因此,HM-DP 模型與另外兩種模型相比,實現(xiàn)了更好的數(shù)據(jù)可用性。
圖5 可用性分析
在模型性能方面對HM-DP 模型與k-匿名模型、AQ-DP模型進行了評估。
如圖6(a)所示,HM-DP 模型的運行時間不會隨著屬性值的增加而增加。這意味著本文模型可以在不同場景中滿足不同的需求,具有較高的魯棒性。同時,與k -匿名模型、AQ-DP 模型相比,本文模型運行時間更短。圖6(b)說明了三種模型在數(shù)據(jù)集大小發(fā)生變化時的運行時間。可以觀察到,在HM-DP 和AQ-DP模型中,隨著數(shù)據(jù)集大小的增加,它們的運行時間呈線性增長,HM-DP 模型的運行時間優(yōu)于AQ-DP 模型,而k-匿名模型的運行時間隨著數(shù)據(jù)集大小的增加呈指數(shù)增長,因為k-匿名模型中存在迭代過程。
基于上述評估與分析,本文模型擁有更好的效率、魯棒性,滿足不同場景中不同的需求。
圖6 效率分析
在隱私保護與大數(shù)據(jù)發(fā)布的研究中,使用數(shù)據(jù)匿名化與差分隱私方法實現(xiàn)對大數(shù)據(jù)的隱私保護是目前的研究熱點。但現(xiàn)有的隱私保護機制存在無法抵抗背景知識攻擊、發(fā)布數(shù)據(jù)可用性較低的問題,針對這兩個問題,本文提出了協(xié)同隱私保護模型。該模型通過將信息論、數(shù)據(jù)匿名化和差分隱私結(jié)合解決大數(shù)據(jù)發(fā)布與共享中的問題。首先,從原始數(shù)據(jù)集選出少量準標識符屬性與敏感屬性作為特征集,然后采用最大信息系數(shù)對原始數(shù)據(jù)集中的剩余屬性與特征集屬性進行相關(guān)性分析,從中選出相關(guān)性高的數(shù)據(jù)作為隱私數(shù)據(jù)集,最后對隱私數(shù)據(jù)集應(yīng)用所提出的協(xié)同隱私保護算法,發(fā)布滿足差分隱私保護的用電大數(shù)據(jù)集。在對真實數(shù)據(jù)集修改過的數(shù)據(jù)集上進行了大量的實驗,結(jié)果表明本文所提出的模型在數(shù)據(jù)隱私性、可用性、效率性能方面均優(yōu)于其他隱私保護模型。