• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于屬性分類的用電大數(shù)據(jù)隱私保護方法

      2020-03-11 13:54:04梁曉兵
      計算機工程與應(yīng)用 2020年5期
      關(guān)鍵詞:標識符可用性原始數(shù)據(jù)

      梁曉兵,許 斌,翟 峰,沈 博

      1.中國電力科學(xué)研究院有限公司,北京100192

      2.中國科學(xué)院 信息工程研究所 信息安全國家重點實驗室,北京100093

      3.中國科學(xué)院大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,北京100049

      1 引言

      隨著云計算、物聯(lián)網(wǎng)等信息技術(shù)的快速發(fā)展,智能電網(wǎng)變得越來越智能化、高效化[1]。電網(wǎng)企業(yè)的信息系統(tǒng)中已經(jīng)積累了海量用電數(shù)據(jù)。使用數(shù)據(jù)挖掘與分析[2]技術(shù)對海量用電數(shù)據(jù)得到的分析結(jié)果,一方面,可以幫助電網(wǎng)企業(yè)為用戶提供個性化的用電服務(wù),為電網(wǎng)企業(yè)建設(shè)起到?jīng)Q策與預(yù)測作用。另一方面,可以推測出用電客戶的家庭人員情況、生活作息規(guī)律等信息,從而造成個人隱私泄露。

      目前,基于智能電表與用電數(shù)據(jù)是兩種常見防止用電用戶隱私泄露的方法[3]。其中,基于智能電表的隱私保護技術(shù),通常采用增加硬件設(shè)計開銷實現(xiàn)對智能電表的隱私保護,但這種方式往往會引起較差的用戶體驗。而基于用電數(shù)據(jù)的隱私保護技術(shù),通過對用電數(shù)據(jù)進行隱私保護,在對用戶的隱私實現(xiàn)合理保護的同時,保證隱私保護后數(shù)據(jù)的可用性。因此,在精準分析用戶用電數(shù)據(jù)的同時,如何防止用戶隱私泄露成為現(xiàn)階段隱私保護領(lǐng)域的研究熱點。

      隱私保護數(shù)據(jù)發(fā)布包括兩類常用的方法,一類是以k-anonymity[4]、l-diversity[5]、t-closeness[6]為代表的聚類方法,這些方法根據(jù)屬性分布對數(shù)據(jù)進行聚類處理,雖然有效、可行,但缺乏理論基礎(chǔ)。現(xiàn)有的k-anonymity等基于聚類的隱私保護大數(shù)據(jù)發(fā)布模型,采用概化與壓縮的方法保護一條數(shù)據(jù)記錄中屬性之間的關(guān)系。但這些模型,無法在數(shù)據(jù)隱私性與可用性之間進行權(quán)衡,而且無法抵抗攻擊者背景知識攻擊。

      差分隱私(Differential Privacy)[7]模型從根本上解決了基于聚類的隱私保護方法的不足,對隱私泄露風(fēng)險給出了嚴格的、定量化的表示和證明,但經(jīng)該方法處理后的數(shù)據(jù)可用性較差。在采用差分隱私技術(shù)對大數(shù)據(jù)發(fā)布階段進行隱私保護時,其使用的隨機化機制由于數(shù)據(jù)的稀疏性與高維性,引入大量的擾動誤差,最終導(dǎo)致發(fā)布數(shù)據(jù)可用性較差。因此,設(shè)計可抵抗背景知識攻擊且可維持數(shù)據(jù)可用性的隱私保護模型具有重要的研究意義。

      已有研究工作主要集中在設(shè)計有效的隱私保護模型解決上述存在的問題。Chai 等人[8]提出一種基于kmeans 數(shù)據(jù)匿名化算法,現(xiàn)實對數(shù)據(jù)集進行隱私保護。Chong等人[9]提出一種基于數(shù)據(jù)合成與替換的擾動機制NESDO,該機制可以有效地保持敏感數(shù)據(jù)的特性。Zhang等人[10]提出了一種基于差分隱私的概率不可區(qū)分機制,在此機制的基礎(chǔ)上提出了一種位置偏移方案來混淆查詢和位置之間的相關(guān)性。劉曉遷等人[11]提出了一種基于數(shù)據(jù)匿名化技術(shù)的隱私保護數(shù)據(jù)發(fā)布方法,該方法通過向匿名數(shù)據(jù)添加噪聲實現(xiàn)對敏感數(shù)據(jù)的隱私保護。Zhang 等人[12]提出了一種基于CP-ABE 的相似屬性匿名方案,在中心服務(wù)器和協(xié)作用戶的幫助下,該方案能夠抵抗推理攻擊,并能抵抗查詢服務(wù)中任何實體的隱私檢測。Ke等人[13]提出一種基于準標識符分類的差分隱私保護數(shù)據(jù)發(fā)布方法AQ-DP,解決準標識符和敏感信息之間失去相關(guān)性的問題。

      本文所做的工作與上述工作不同,通過將信息論、數(shù)據(jù)匿名化和差分隱私結(jié)合解決大數(shù)據(jù)發(fā)布與共享中的問題。首先,從原始數(shù)據(jù)集選出少量準標識符屬性與敏感屬性作為特征集,然后采用最大信息系數(shù)對原始數(shù)據(jù)集中的剩余屬性與特征集屬性進行相關(guān)性分析,從中選出相關(guān)性高的數(shù)據(jù)作為隱私數(shù)據(jù)集,最后對隱私數(shù)據(jù)集應(yīng)用所提出的協(xié)同隱私保護算法,發(fā)布滿足差分隱私保護的用電大數(shù)據(jù)集。

      2 預(yù)備知識

      2.1 基本概念

      根據(jù)隱私級別,將待發(fā)布數(shù)據(jù)表中的屬性分為四類。

      如表1所示,用電數(shù)據(jù)集由顯式標識符、準標識符、敏感屬性、非敏感屬性組成。

      (1)顯式標識符(Explicit Identifier,EI):可以唯一確定個人身份的屬性值,如用戶編號、戶名等。

      (2)準標識符(Quasi-Identifier,QI):與其他外部信息結(jié)合后,可以重新確定個人信息的屬性,如電表號、用電示數(shù)等。

      (3)敏感屬性(Sensitive Attribute,SA):不能被外界所知的個人隱私信息,如聯(lián)系電話、聯(lián)系地址、用電地址。

      (4)其他屬性(Other Attributes):對隱私?jīng)]有影響的所有其他屬性,如繳費方式。

      從表中可知,用電數(shù)據(jù)集中包含一些個人隱私信息,在對外發(fā)布與共享前需進行相應(yīng)的保護。

      表1 用電數(shù)據(jù)集

      2.2 最大信息系數(shù)

      最大信息系數(shù)(Maximum Information Coefficient)由Reshef等人[14]在2011年提出,它以信息論與互信息論為基礎(chǔ)用來檢測數(shù)據(jù)集中變量之間潛在的線性或非線性關(guān)聯(lián)關(guān)系,被廣泛應(yīng)用于大數(shù)據(jù)的相關(guān)性分析,通過網(wǎng)格劃分方法計算不同網(wǎng)格中兩個變量形成的概率分布來計算所有不同網(wǎng)格的最大互信息[15]。

      定義1(互信息)給定變量A={ai,i=1,2,…,n}和B={bi,i=1,2,…,n},n 為樣本數(shù)量,則:

      式中,p(a,b)為A 和B 的聯(lián)合概率密度,p(a)和p(b)分別為A 和B 的邊緣概率密度。

      定義2(最大互信息)假設(shè)D={(ai,bi),i=1,2,…,n}為一個有限的有序?qū)Φ募?,定義劃分G 將變量A 的值域分成x 段,將變量B 的值域分成y 段,G 即為x×y的網(wǎng)格。在得到的每一種網(wǎng)格劃分內(nèi)部計算互信息MI(A,B),相同x×y 的網(wǎng)格劃分有多種,取不同劃分方式中的MI(A,B)最大值作為劃分G 的互信息值,則:

      式中,D|G 表示數(shù)據(jù)D 在使用G 進行劃分。

      定義3(特征矩陣)將不同劃分下得到的最大歸一化的MI 值組成特征矩陣M(D)x,y,則:

      定義4(最大信息系數(shù))設(shè)n 是數(shù)據(jù)集D 中兩個隨機變量X 和Y 形成的散點數(shù),則:

      式中,B(n)為網(wǎng)格x×y 的上限值,當(dāng)B(n)=n0.6時效果最好。

      2.3 微聚集

      微聚集(Microaggregation)[16]是實現(xiàn)k-匿名的一種方法,將相似數(shù)據(jù)劃分為同一類,每個類至少有k 條記錄,然后用類質(zhì)心代替類中所有記錄的準標識符屬性值,實現(xiàn)數(shù)據(jù)的匿名化。常用的微聚集技術(shù)由劃分和聚集兩個步驟組成。

      定義5(k-劃分)給定數(shù)據(jù)集D(A1,A2,…,Ad),包含p 個準標識符Qid={qid1,qid2,…,qidp}。對于?i,ni為第i 類的元組數(shù),用準標識符將數(shù)據(jù)集劃分為g 個類,每個類中至少包含k 條數(shù)據(jù)記錄。

      定義6(聚集)給定數(shù)據(jù)集D,對準標識符進行k-劃分為g 個類,設(shè)Ci為第i 類元組類質(zhì)心,用Ci(i=1,2,…,g)取代所在類內(nèi)的所有元素的操作為聚集。

      2.4 差分隱私

      差分隱私是一種基于數(shù)據(jù)失真的隱私保護技術(shù),其基本思想是在最大限度的保證對數(shù)據(jù)庫查詢結(jié)果的可用性,同時保護數(shù)據(jù)庫中的個人隱私不被泄露。

      定義7(ε-差分隱私)對于給定鄰近數(shù)據(jù)集D 和D′, ||DΔD′ =1,若存在隱私算法M ,Range(M)是M的取值范圍,若算法M 在數(shù)據(jù)集D 和D′上的任意輸出結(jié)果S(S ∈Range(M))滿足下式,則稱算法M 滿足ε-差分隱私。其中ε 表示隱私預(yù)算。

      從上式可以看出,隱私預(yù)算ε 越小,隱私保護的程度越高。

      定義8(全局敏感度)[17]定義鄰近數(shù)據(jù)集D 和D′,對于任意的查詢函數(shù)f:D →Rd,則查詢函數(shù)的全局敏感度為:

      其中,R 表示函數(shù)所映射的實數(shù)空間,d 表示函數(shù)f 的查詢維度。

      定義9(拉普拉斯機制)[18]給定數(shù)據(jù)集D 查詢函數(shù)f:D →?,如果算法M 的輸出滿足下式,則算法M 滿足ε-差分隱私。

      3 基于屬性分類的用電大數(shù)據(jù)隱私保護模型

      在用電大數(shù)據(jù)環(huán)境下,由于數(shù)據(jù)的高維性和多樣性,設(shè)計有效的隱私保護數(shù)據(jù)發(fā)布模型需要解決算法模型的數(shù)據(jù)處理效率和發(fā)布數(shù)據(jù)的可用性及隱私性兩個主要問題。為了有效解決上述問題,提出基于屬性分類的用電大數(shù)據(jù)隱私保護模型。

      3.1 系統(tǒng)模型

      如圖1 所示,首先,電網(wǎng)公司通過物聯(lián)網(wǎng)設(shè)備采集個人、企業(yè)等用戶端的用電信息,將這些信息傳輸并存儲到中央服務(wù)器。然后,為電網(wǎng)的安全運行和用戶的良好用電服務(wù),需對外發(fā)布與共享用電數(shù)據(jù)進行數(shù)據(jù)挖掘與分析任務(wù)。出于對個人隱私信息安全問題的考慮,中央服務(wù)器必須在發(fā)布與共享數(shù)據(jù)之前對原始數(shù)據(jù)集進行隱私保護處理,向數(shù)據(jù)使用者發(fā)布一個合成的數(shù)據(jù)集。

      本文的目的是協(xié)助中央服務(wù)器發(fā)布一個隱私保護數(shù)據(jù)集,使所發(fā)布的數(shù)據(jù)集在維持數(shù)據(jù)的可用性同時保護個人敏感信息。

      3.2 算法模型

      基于屬性分類的用電大數(shù)據(jù)隱私保護模型的整體流程,如圖2所示。

      圖2 基于屬性分類的用電大數(shù)據(jù)隱私保護模型

      該模型由兩個子模型組成:

      (1)基于最大信息系數(shù)的特征分類模型(Feature Classification Model Based on Maximum Information Coefficient,MICFC):根據(jù)隱私級別,對原始數(shù)據(jù)集分類,從準標識符與敏感屬性中選出部分屬性作為特征集,對原始數(shù)據(jù)剩余屬性與特征集利用最大信息系數(shù)選出相關(guān)性高的數(shù)據(jù)作為輸出數(shù)據(jù)集B,僅對隱私屬性進行保護,從而提高數(shù)據(jù)處理的效率。

      (2)基于數(shù)據(jù)匿名化與差分隱私的協(xié)同數(shù)據(jù)保護模型(Collaborative Data Protection Model Based on Data Anonymization and Differential Privacy,CDPM):對輸出數(shù)據(jù)集B 采用提出的協(xié)同隱私保護算法(Hybrid Microaggregation-Differential Privacy,HM-DP),首先利用混合微聚集對數(shù)據(jù)集B 劃分為互斥的子數(shù)據(jù)集,然后再次劃分使每個子數(shù)據(jù)集的大小固定為k,最后聚合每個子數(shù)據(jù)集并對其添加Laplace 噪聲,實現(xiàn)差分隱私保護?;诨旌衔⒕奂臄?shù)據(jù)匿名化可以分化查詢函數(shù)敏感度,提高發(fā)布數(shù)據(jù)可用性。

      3.2.1 基于最大信息系數(shù)的特征分類模型

      首先,從原始數(shù)據(jù)集中選出部分敏感屬性與準標識符屬性作為特征集,原始數(shù)據(jù)集的剩余屬性作為候選集,利用最大信息系數(shù)與啟發(fā)式搜索算法,計算候選集與特征集之間的相關(guān)性,選出相關(guān)性高的特征數(shù)據(jù)作為輸出數(shù)據(jù)集B。通過最大信息系數(shù)可以準確地找到特征之間的依賴關(guān)系,對原始數(shù)據(jù)集進行分類,挑選出需進行隱私保護的屬性,從而在采用CDPM模型時提高算法模型處理數(shù)據(jù)的效率。

      給定包含n 條數(shù)據(jù)記錄的用電大數(shù)據(jù)集D,對其進行預(yù)處理,選出m 個準標識符屬性與敏感屬性作為特征集F={f1,f2,…,fm,c},特征類別為c。對任意特征fi與類別c 之間的相關(guān)性定義為MIC(fi,c),取值范圍為[0,1]。 MIC(fi,c)值越大,表明fi與c 間的相關(guān)性越強,則fi為強相關(guān)特征;MIC(fi,c)值越小,表明fi與c 間的相關(guān)性越弱,則fi為弱相關(guān)特征。

      如圖3所示,本文中定義的基于最大信息系數(shù)的特征分類模型對原始數(shù)據(jù)集進行特征分類的過程:

      給定一個具有n 條數(shù)據(jù)記錄的原始數(shù)據(jù)集D,初始化原始數(shù)據(jù)集D 和空數(shù)據(jù)集B。

      圖1 系統(tǒng)模型

      圖3 基于最大信息系數(shù)的特征分類模型流程圖

      從D 中選出m 個敏感屬性和準標識符屬性作為特征集F={f1,f2,…,fm,c},將原始數(shù)據(jù)集D 中的剩余屬性作為候選集C;從候選集中選取候選變量f 'i,計算f 'i與c 之間的最大信息系數(shù)MIC(f 'i,c)。

      以計算出的最大MIC 值作為初始變量,C=C-{f 'i},B=B+{f 'i}。

      計算任意f 'i和f 'j之間的MIC(f 'i,f 'j),并選擇最大值以下的評價函數(shù)的f 'i作為下一個候選變量,并計算

      執(zhí)行貪心算法,直到選定特征的個數(shù)達到設(shè)定的個數(shù)P,輸出包含選定變量的數(shù)據(jù)集B。

      經(jīng)過MICFC 模型處理后,將其他屬性和顯式標識符屬性從數(shù)據(jù)集中去除,只保留需要進行隱私保護的數(shù)據(jù)屬性,提高協(xié)同數(shù)據(jù)保護模型處理數(shù)據(jù)效率。

      3.2.2 基于數(shù)據(jù)匿名化與差分隱私的協(xié)數(shù)據(jù)保護模型

      基于數(shù)據(jù)匿名化與差分隱私技術(shù),提出一種新的隱私保護算法HM-DP。具體地,采用改進的混合微聚集(Hybrid Microaggregation)算法與差分隱私(Differential Privacy)結(jié)合的方式對數(shù)據(jù)集B 中的數(shù)據(jù)進行隱私保護處理。

      算法1 HM-DP隱私保護算法

      輸入:數(shù)據(jù)集B,最小簇大小k,隱私預(yù)算參數(shù)ε

      輸出:隱私保護數(shù)據(jù)集B′

      1.根據(jù)準標識符屬性將數(shù)據(jù)集B 劃分為q 個互不相交的子數(shù)據(jù)集B=Bid1∪Bid2∪…∪Bidq

      2.For Bidj∈{Bid1,Bid2,…,Bidq},?j ∈{1,2,…,q} do

      4. 根據(jù)敏感屬性再劃分子數(shù)據(jù)集Bidj為csj個互不相交的簇Cs={C1,C2,…,Ccsj}

      5. while |Ci|≥k,?Ci∈Cs do

      6. 計算距離質(zhì)心Bˉid(j)最遠的數(shù)據(jù)記錄br,br∈Cr

      7. 從Cr中選出k-1 個距離br最近的數(shù)據(jù)記錄,并從Cr中移除這些選出的記錄

      8. For Ci∈Cs-{Cr}

      9. 選出與br距離最近的k 個數(shù)據(jù)記錄,并從Ci中移除這些選出的記錄

      10. 計算剩余數(shù)據(jù)記錄與每個簇質(zhì)心的距離,并分配它們到距離最近的簇

      11. 計算每個簇的質(zhì)心,并用質(zhì)心代替每個準標識符屬性的值

      12. 計算每個簇刪除一條數(shù)據(jù)記錄后的查詢敏感度

      13. 對每條數(shù)據(jù)記錄添加Laplace噪聲

      14.返回滿足差分隱私保護的數(shù)據(jù)集B′

      如算法1所示,HM-DP隱私保護算法主要分三個步驟處理數(shù)據(jù):

      (1)數(shù)據(jù)劃分:首先,將數(shù)據(jù)集B 根據(jù)準標識符屬性劃分成互不相交的子數(shù)據(jù)集Bidj?B,?j ∈{1,2,…,q};然后,為了確保k -劃分后每個子數(shù)據(jù)集中敏感屬性的多樣性,根據(jù)敏感屬性的分布特性對每個子數(shù)據(jù)集再進行劃分,從每個子數(shù)據(jù)集Bidj中選出csj個互不相交的敏感屬性簇;最終劃分的每個數(shù)據(jù)集中,準標識符屬性盡可能相似,敏感屬性盡可能相異。

      (2)數(shù)據(jù)聚集:首先,計算數(shù)據(jù)劃分處理后的每個子數(shù)據(jù)集的質(zhì)心Bˉid(j),并根據(jù)Bˉid(j)獲得距離它最遠的數(shù)據(jù)記錄br,Cr為br所屬的數(shù)據(jù)簇;然后,計算出與Cr距離最近的k-1 個數(shù)據(jù)記錄,對于每個簇Ci,?i ∈{1,…,r-1,r+1,…,csj},將距離數(shù)據(jù)記錄br最近的k個數(shù)據(jù)記錄劃分為一組;最后,形成基數(shù)為k×csj的固定大小的數(shù)據(jù)組。

      (3)加噪處理:首先,對于數(shù)據(jù)組Ci,計算每個數(shù)據(jù)組Ci(i=1,2,…,Cs)中刪除一條記錄后與得到的鄰近數(shù)據(jù)集C'i之間的查詢敏感度Δ f ;然后,對每條數(shù)據(jù)記錄添加Laplace噪聲;最終,實現(xiàn)整個數(shù)據(jù)集的差分隱私保護。

      3.3 數(shù)據(jù)可用性與隱私性分析

      3.3.1 數(shù)據(jù)可用性

      所提出的隱私保護算法HM-DP的中心思想是將數(shù)據(jù)集中的準標識符屬性與敏感屬性劃分為不同的類。每個類中的數(shù)據(jù)記錄是相似的,各類間的數(shù)據(jù)記錄是相異的。首先,采用的混合微聚集思想依次對準標識符屬性、敏感屬性進行劃分,可降低數(shù)據(jù)的泛化程度,從而降低信息損失。然后,用每類質(zhì)心值對準標識符屬性進行替換,生成匿名化的等價組,可以分化查詢敏感度,減少加入Laplace 噪聲帶來的信息損失。最后,對數(shù)據(jù)集進行差分隱私保護,使發(fā)布的數(shù)據(jù)集能夠抵抗同構(gòu)攻擊和背景知識攻擊。因此,提出的方法在保證差分隱私的情況下,提升數(shù)據(jù)的可用性。

      3.3.2 隱私性分析

      所提出的的HM-DP算法通過數(shù)據(jù)匿名化與差分隱私結(jié)合對數(shù)據(jù)進行隱私保護。數(shù)據(jù)匿名化的基本思想是采用微聚集對數(shù)據(jù)記錄進行劃分,使一條數(shù)據(jù)記錄隱藏于一類等價組中??紤]到匿名化方法容易受同構(gòu)攻擊和背景知識攻擊,在數(shù)據(jù)匿名化后加入隨機噪聲,完成差分隱私保護。根據(jù)差分隱私的順序組合與并行組合性質(zhì),在互不相交的數(shù)據(jù)記錄中加入滿足隱私預(yù)算ε 的噪聲,處理后的數(shù)據(jù)集滿足差分隱私模型。在所提出的方法中,經(jīng)過混合微聚集處理后的數(shù)據(jù)之間是相互獨立的,根據(jù)差分隱私并行組合性質(zhì),HM-DP算法滿足差分隱私保護模型。因此,提出的方法對數(shù)據(jù)集同時進行匿名化與差分隱私保護,具有更高的隱私性。

      4 實驗評估

      將HM-DP 模型與傳統(tǒng)的k-匿名模型[4]、AQ-DP 模型[13]從數(shù)據(jù)隱私性、可用性與效率三方面進行比較與評估。K-匿名模型由L.Sweeney提出,它保證數(shù)據(jù)表中任何一條記錄的準標識符與至少k-1 條記錄相同,確保準標識符值與敏感屬性值無一對一關(guān)系。AQ-DP模型是一種基于準標識符分類的差分隱私保護數(shù)據(jù)發(fā)布方法,解決準標識符和敏感信息之間失去相關(guān)性的問題。實驗數(shù)據(jù)源于UC Irvine機器學(xué)習(xí)庫中的Adult數(shù)據(jù)集,將它與用電數(shù)據(jù)集進行分析、對比后修改,將修改后的Adult 數(shù)據(jù)集作為實驗樣本空間。將“工作”與“婚姻狀況”視為敏感屬性,除“戶名”與“用戶編號”的其他屬性視為準標識符。實驗?zāi)P陀肞ython語言實現(xiàn),運行環(huán)境為Intel Core i5 CPU 2.3 GHz,8 GB 內(nèi)存,Microsoft Windows 10操作系統(tǒng)。

      4.1 隱私性分析

      為了衡量發(fā)布數(shù)據(jù)的隱私性,引入記錄鏈接(Record Linkages,RL),RL 用來表示從匿名數(shù)據(jù)集中正確匹配原始數(shù)據(jù)記錄的百分比,,其中,n 為原始數(shù)據(jù)記錄的個數(shù),Pr(b'j)為匿名記錄的記錄鏈接概率,,G 為與b'j距離最小的原始記錄集,如果正確的原始記錄b'j在G 中,則計算猜測G 中b'j的概率,否則,Pr( b'j)=0。記錄鏈接從隱私攻擊的角度度量實際的隱私性,例如,較高隱私預(yù)算ε 的差分隱私模型不能抵抗記錄鏈接的攻擊。因此,RL 值越低,隱私泄露的概率越低,匿名后發(fā)布數(shù)據(jù)的隱私性越好。

      如圖4(a)所示,觀察到HM-DP 模型并沒有隨著準標識符屬性與敏感屬性數(shù)量的增加而增加,這說明攻擊者只能以極小的概率獲得隱私信息。同時,HM-DP 模型與另外兩個模型相比,擁有更小的RL 值,這意味著HM-DP 模型可以達到更高的隱私性。在圖4(b)中,RL 值隨著數(shù)據(jù)集的變大而增加。但與其他兩種模型相比,本文方法的RL 值較低,具有更高的隱私性。綜上,本文模型在隱私性方面均優(yōu)于其他兩種模型。

      4.2 可用性分析

      圖4 隱私性分析

      采用Kullback-Leibler 散度(KL-divergence)度量數(shù)據(jù)可用性。KL 散度從信息論的角度度量信息失真的程度,它可以計算出R 分布變化到O 分布時的信息損失。原始數(shù)據(jù)集R 與輸出數(shù)據(jù)集O 的KL 散度為,其中b 為整個數(shù)據(jù)集中的樣本空間。由于KL 散度不是對稱度量,直接使用它會使度量結(jié)果不精準,因此將它修改為對稱的KL散度:

      修改后的DKL( )R,O 可以消除原始KL 散度的不均衡性。

      如圖5 所示,觀察到KL 散度值隨著準標識符屬性的增加而增加,這意味著三種模型的數(shù)據(jù)可用性隨著準標識符屬性數(shù)量的增加而減少,但本文模型比k-匿名模型、AQ-DP 模型具有更好的數(shù)據(jù)可用性。當(dāng)準標識符屬性數(shù)量增加時,其他兩種模型的KL 散度值比本文模型增加得更快。因此,HM-DP 模型與另外兩種模型相比,實現(xiàn)了更好的數(shù)據(jù)可用性。

      圖5 可用性分析

      4.3 效率分析

      在模型性能方面對HM-DP 模型與k-匿名模型、AQ-DP模型進行了評估。

      如圖6(a)所示,HM-DP 模型的運行時間不會隨著屬性值的增加而增加。這意味著本文模型可以在不同場景中滿足不同的需求,具有較高的魯棒性。同時,與k -匿名模型、AQ-DP 模型相比,本文模型運行時間更短。圖6(b)說明了三種模型在數(shù)據(jù)集大小發(fā)生變化時的運行時間。可以觀察到,在HM-DP 和AQ-DP模型中,隨著數(shù)據(jù)集大小的增加,它們的運行時間呈線性增長,HM-DP 模型的運行時間優(yōu)于AQ-DP 模型,而k-匿名模型的運行時間隨著數(shù)據(jù)集大小的增加呈指數(shù)增長,因為k-匿名模型中存在迭代過程。

      基于上述評估與分析,本文模型擁有更好的效率、魯棒性,滿足不同場景中不同的需求。

      圖6 效率分析

      5 結(jié)束語

      在隱私保護與大數(shù)據(jù)發(fā)布的研究中,使用數(shù)據(jù)匿名化與差分隱私方法實現(xiàn)對大數(shù)據(jù)的隱私保護是目前的研究熱點。但現(xiàn)有的隱私保護機制存在無法抵抗背景知識攻擊、發(fā)布數(shù)據(jù)可用性較低的問題,針對這兩個問題,本文提出了協(xié)同隱私保護模型。該模型通過將信息論、數(shù)據(jù)匿名化和差分隱私結(jié)合解決大數(shù)據(jù)發(fā)布與共享中的問題。首先,從原始數(shù)據(jù)集選出少量準標識符屬性與敏感屬性作為特征集,然后采用最大信息系數(shù)對原始數(shù)據(jù)集中的剩余屬性與特征集屬性進行相關(guān)性分析,從中選出相關(guān)性高的數(shù)據(jù)作為隱私數(shù)據(jù)集,最后對隱私數(shù)據(jù)集應(yīng)用所提出的協(xié)同隱私保護算法,發(fā)布滿足差分隱私保護的用電大數(shù)據(jù)集。在對真實數(shù)據(jù)集修改過的數(shù)據(jù)集上進行了大量的實驗,結(jié)果表明本文所提出的模型在數(shù)據(jù)隱私性、可用性、效率性能方面均優(yōu)于其他隱私保護模型。

      猜你喜歡
      標識符可用性原始數(shù)據(jù)
      基于文獻計量學(xué)的界面設(shè)計可用性中外對比研究
      包裝工程(2023年24期)2023-12-27 09:18:26
      淺析5G V2X 通信應(yīng)用現(xiàn)狀及其側(cè)鏈路標識符更新技術(shù)
      GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
      基于底層虛擬機的標識符混淆方法
      基于輻射傳輸模型的GOCI晨昏時段數(shù)據(jù)的可用性分析
      受特定變化趨勢限制的傳感器數(shù)據(jù)處理方法研究
      基于區(qū)塊鏈的持久標識符系統(tǒng)①
      全新Mentor DRS360 平臺借助集中式原始數(shù)據(jù)融合及直接實時傳感技術(shù)實現(xiàn)5 級自動駕駛
      汽車零部件(2017年4期)2017-07-12 17:05:53
      數(shù)字美術(shù)館“數(shù)字對象唯一標識符系統(tǒng)”建設(shè)需求淺議
      空客A320模擬機FD1+2可用性的討論
      河南科技(2015年7期)2015-03-11 16:23:13
      龙陵县| 鄯善县| 余干县| 襄樊市| 巴塘县| 乌鲁木齐县| 枣庄市| 会东县| 开原市| 怀安县| 延吉市| 阳谷县| 四会市| 蒲江县| 隆昌县| 陆良县| 伊宁县| 孟村| 靖远县| 彭阳县| 柞水县| 泸西县| 永顺县| 启东市| 徐汇区| 介休市| 仁怀市| 新巴尔虎右旗| 青田县| 朔州市| 永平县| 成武县| 通州区| 临桂县| 南昌县| 阿坝| 沅陵县| 承德市| 大洼县| 金华市| 叙永县|