王秋月,葛麗娜,耿 博,王利娟
(廣西民族大學 信息科學與工程學院,南寧 530006)(*通信作者電子郵箱66436539@qq.com)
隨著信息技術的不斷發(fā)展,越來越多的個人隱私信息不斷泄露。在大數據信息的統(tǒng)計中,所要發(fā)布的數據往往具有多個敏感屬性,如何對這些具有多個敏感屬性的數據進行信息保護,成為目前匿名隱私保護的重要課題。目前,針對數據發(fā)布[1-2]方面,單敏感屬性的匿名模型研究較為成熟。
Jiang等[3]提出了k-匿名模型[4];Machanavajjhala等[5]提出了L-多樣性模型[6];文獻[7-8]中提出了(α,k)-匿名模型,該模型要求等價類中每個敏感值出現概率不超過閾值α;金華等[9]針對語義相近問題提出了(αi,k)匿名模型,另外還有p-敏感性k-匿名模型[10]、t-closeness框架[11]等。這些均是對單敏感屬性的數據進行保護,并沒有考慮到對多敏感屬性數據的信息保護。對于多敏感屬性方面的研究,羅方煒等[12]提出了(l,m)-多樣性模型,該模型要求當同一敏感值的元組從等價類中刪除時,等價類剩余的元組仍滿足獨立敏感屬性(l-1)多樣性,能夠有效抵制關聯(lián)攻擊,但是仍存在敏感值語義相近問題;劉志軍等[13]針對敏感值語義相近問題提出了(l,α,m)-多樣性模型,但是該模型信息損失度比較大。
本文針對多敏感屬性語義相近問題提出了基于多敏感屬性分級的(αij,k,m)-匿名模型,在滿足(αi,k)-匿名模型的基礎上,對多個敏感屬性的屬性值進行分級,引入了分級表的概念,每個敏感屬性均設置一個分級表,并且為每個級別設置一個頻率約束αij,同時還引入了一種基于貪心算法的匿名化方法。
數據匿名化的過程會對數據造成一定的信息損失,降低數據的可用性。本文采用了泛化樹的構造方法和基于權重的加權層次距離[14],下面給出相關的定義。
定義1 加權層次距離(Weighted Hierarchical Distance, WHD)。設h為泛化樹高度,從最高層(最泛化的形式)到最底層(最具體的形式)各層的層次為1,2,…,h-1,h,當某個屬性值從p層泛化到q層(p>q),加權層次距離定義為式(1):
(1)
其中,wj, j-1=1/(j-1)(2≤j≤h)。例如Ex_Pid的一種泛化層為:{12010,1201*,120**,12***,1****,*},把1201*泛化到1****的距離:WHD={1/4+1/3+1/2}/{1/5+1/4+1/3+1/2+1}=0.47。
定義2 元組泛化的信息損失。設t為數據表的元組,b為準標識符屬性個數,t={ZB1,ZB2,…,ZBb}經過泛化得到t={ZB1′,ZB2′,…,ZBb′}同時設level(ZBj)在泛化樹中的層次,那么t泛化為t′的元組泛化信息損失為式(2):
(2)
定義3 數據表泛化的信息損失。設n為數據集DT的元組個數,DT′為DT的匿名表。DT中元組ti對應泛化成DT′中元組ti′,則DT泛化為DT′的數據表泛化信息損失為式(3):
(3)
定義4 敏感性距離[15]。假設D(B)是敏感屬性B的級別域,Li,Lj為該域中的2個級別,那么兩級別間的敏感性距離為:
D(Li,Lj)=|Li-Lj|
(4)
定義5 等價類敏感性距離度量。假設E為等價類,并且有u條記錄,D(B)為屬性B的級別域;wk為第i條記錄和第j條記錄之間級別距離的權重,那么等價類的度量定義為:
(5)
其中Cij=D(Li,Lj)。對于表1,可以設置Wk={0.85,0.9,0.95,1},即表示:級別5到級別4、3、2、1的權重都為1;級別4到級別3、2、1的權重都為0.95;級別3到級別2、1的權重都為0.9;級別2到級別1的權重為0.85;因此第1個等價類E1(2,1,4,5)的Ds(E1)=1.133 3,較好地反映了等價類的敏感性差異。
定義6 等價類。假設數據表DT的準標識符(Quasi Identifier, QI)為QI,在數據表DT上具有相同QI的元組的集合稱為一個等價類,記作E。
定義7 (αi,k)-匿名。數據集DT,其敏感屬性為PD。根據單敏感屬性值|PD|語義敏感性由高到低分為L1,L2,…,Lc級,并且為每個級別設置了一個相應的αi約束頻率,要求每個等價類中的敏感值都滿足其所屬敏感級的頻率約束。在完成(αi,k)-匿名分組的時候,防止了具有相同級別敏感值的記錄存在于同一組內,則稱該匿名為(αi,k)-匿名。
表1是將原始數據進行泛化,得到泛化后的數據表,然后將泛化后的數據根據(αi,k)-匿名要求進行分類,得到了表1;表1中含有兩個敏感屬性Physician、Disease,其余的為準標識符,后面的級別是根據敏感屬性值嚴重程度,將其劃分為多個等級,劃分等級的內容在后邊將提到。
(αi,k)-匿名雖然解決了敏感值語義相近的問題,但是仍然存在著隱私泄露的風險。例如,設級別L1的約束頻率α1=0.35,L2的約束頻率α2=0.4,L3的約束頻率α3=0.45,k=3,那么表1就是滿足其要求的匿名表,但是攻擊者仍然能夠根據背景知識確定John不是Candy的Physician值,因此Candy的Disease屬性值為Heart Disease。為了抵制多敏感屬性的關聯(lián)攻擊,提出了(αij,k,m)-匿名模型。
表1 單敏感屬性(αi,k)-匿名表
保護個人隱私信息主要是保護有關個人身份或者標識的敏感信息,對數據進行匿名化操作時,可以把數據屬性分為3類:1)顯示標識符(Explicit Identifier, EI),能夠唯一識別單個個體的屬性。2)準標識符(Quasi Identifier, QI),主要存在于匿名表與外表中,通過連接查找能唯一識別單個個體的一組屬性。3)敏感屬性(Sensitive Attribute, SA),指個體隱私信息中屬于敏感信息的屬性。例如,對于一個患病者來說,唯一標識個人身份信息的身份證號是顯示標識符,性別為準標識符,患病情況為敏感屬性等信息都是需要保護的。
在(αi,k)-匿名模型的基礎上,本文定義了(αij,k,m)-匿名模型。
定義8 (αij,k,m)-匿名。含有m個敏感屬性的某一等價類在滿足單敏感屬性(αi,k)-匿名的基礎上,對其他的m-1個敏感屬性的敏感值均根據語義設置對應的級別,即DT數據集中的敏感屬性為PDi(1≤i≤m),根據敏感屬性值|PDi|敏感性由高到低分為Li1,Li2,…,Lij,…,Lmc(1≤j≤c)并為每個級別設置一個相應的αij約束頻率,要求等價類中的m個敏感屬性的屬性值都滿足其所屬級別的頻率約束,在完成(αij,k,m)-匿名分組的時候,防止具有相同級別的敏感值的記錄存在于同一組內,則稱該數據集滿足(αij,k,m)-匿名。
下面是對(αi,k)-匿名模型所進行的改進設計。
設DT表示數據集,QI表示準標識符,PD表示敏感屬性。數據集DT上有多種屬性{ZB1,ZB2,…,ZBb,PD1,PD2,…,PDm},其中ZBi(1≤i≤b)為準標識符,PDj(1≤j≤m)為敏感屬性。DT上有n個元組ti(1≤i≤n)。
因為同一個等價類中不能出現語義相近的內容,所以就更不能出現相同的名字,故為Physician和Disease的不同屬性值都設置一個對應的級別,如表2~3所示。
表2是對敏感屬性Disease的屬性值進行分級,1為級別最高的,5為級別最低的。表2中是根據Disease敏感屬性值的語義,將其語義相近的劃分為一組。
表3是對敏感屬性Physician的屬性值進行分級,1為最高級別,9為最低級別。表3中是根據Physician敏感屬性值的語義,將其語義相近的劃分為一組。
表2 Disease屬性分級表
表3 Physician屬性分級表
例如,設Physician為敏感屬性PD1,Disease為敏感屬性PD2,則L11的頻率約束α11=0.25,依次設置L12的為α12=0.3,L13的為α13=0.35,L14的為α14=0.4;L21的頻率約束α21=0.25,依次設置L22的為α22=0.3,L23的為α23=0.35,L24的為α24=0.4;k=4,表4是滿足其要求的匿名表。因此,在表4中,即使攻擊者了解到某個病人屬于第1個等價類,并且Physician的屬性值不是John,那么在Disease屬性上,該病人可能是Viral Infection,也可能是Fever,攻擊者不能精確地了解到該病人有什么病情,降低了泄露風險。
表4 多敏感屬性(αij,k,m)-匿名表
在表4中,兩個敏感屬性的屬性值都有其劃分的級別,在列舉表格時,將其對應的級別也對應地列舉出來,可以看到表4中的級別PD1中沒有級別相同的記錄,PD2中也沒有級別相同的記錄出現,因此表4呈現的是滿足多敏感屬性(αij,k,m)-匿名模型的匿名表,表中是將k設為4,劃分成了兩個等價類,并且對Physician和Disease的每個敏感屬性值都設置了級別和閾值,同時滿足了同一等價類中不出現相同級別的記錄的要求。
針對改進的(αij,k,m)-匿名模型,提出了基于貪心策略的實現算法,在基于多敏感屬性數據分級的基礎上(如圖1),采用貪心算法,使得插入等價類中的級別高低之分更加明確,區(qū)別危險等級的難度增加,提高了隱私數據的保護程度。該算法通過分組,為每個敏感屬性PDi的語義相近的敏感值分為一組FZs,將每個組劃分對應的級別Lij,并為每個級別設置對應的閾值αij,共有c個級別(s≤c),使得每一個級別內的敏感屬性值的現實語義含義盡可能地相近。
圖1 敏感屬性值劃分組和對應級別
當i=1時,按照貪心算法,選擇局部最優(yōu)的一條級別最高的記錄插入,然后再選擇局部最低的一條記錄插入,直到滿足k-匿名,用數組Di[x]存儲插入記錄PDi的級別Lij(如圖2~3所示)。
圖2 由空的等價類E轉變成滿足k-匿名條件的等價類E
圖3 由數組Di[x]存儲PDi的級別Lij
當i=2時,查詢Di[x]中有沒有相同的值,如果有,說明存在相同等級的記錄,因此把其中一條滿足條件的記錄刪除,為了滿足k-匿名要求,在找到一條滿足條件的記錄插入,一直循環(huán),直到不能滿足構造等價類的要求為止。將剩下的元組插入到滿足條件的等價類中,直到不能插入為止。另外將剩下的不能構造等價類的元組進行隱匿,并且對構造好的等價類中的記錄進行泛化,最后輸出匿名表。具體算法過程如下。
該算法涉及到下面的幾個標記。
1)臨時表DT′。包括QI屬性、PDi(1≤i≤m)敏感屬性。
2)等價類E。
3)基于敏感性分級的敏感值分組FZs(FZ1,FZ2,…,FZq),q為不同敏感屬性值的個數,FZs是所有敏感屬性值語義相近的記錄的分組,并標記該分組所屬的敏感級別PDi和αij(1≤i≤m,1≤j≤c,s≤c)。
4)分組的優(yōu)先級,敏感級別高的優(yōu)先級高,級別相同的敏感值,No小的優(yōu)先級別高。
5)Ci[u]存儲所有敏感屬性為i的級別劃分(1≤i≤m,1≤u≤c)。
6)Di[x]存儲插入記錄的PDi的敏感級別(1≤i≤m,1≤x≤c)。
算法1 基于貪心策略的匿名算法。
輸入:原始數據表DT,準標識符個數b;敏感屬性個數m,匿名約束k,敏感值分級(L11,L12,…,Lij,…,Lmc)(1≤i≤m,1≤j≤c)及其所屬級別的頻率約束(α11,α12,…,αij,…,αmc)(1≤i≤m,1≤j≤c)。
輸出:滿足(αij,k,m)-匿名模型的數據表DT′。
1)
初始化E=?;
2)
While 可以構造等價類
3)
Whilei=1 andE不滿足k-匿名模型時
4)
If 存在優(yōu)先級非空分組,等價類E中的記錄數小于k
5)
采用貪心策略,從優(yōu)先級別高的分組中提取一條記錄ts添加到E中,同級別中選No小的分組,每取出一條記錄,即從該分組中刪除ts;并且從優(yōu)先級別低的分組中提取一條記錄ts添加到E中,同級別中選No小的分組,每取出一條記錄,即從該分組中刪除ts;
6)
如果等價類中的記錄數s小于k,則重復第5)步,直到等價類E滿足k-匿名;將等價類E添加到DT′中;
7)
End if
8)
End while
9)
當2≤i≤m時
10)
WhileE不滿足(αij,k,m)-匿名模型
11)
如果Di[x]的值都不相同的,則跳到下一個敏感屬性繼續(xù)循環(huán);
12)
如果Di[x]的值有相同的,則將相同值中優(yōu)先級別較高的記錄從等價類E中刪除,并且從剩余的記錄中找到滿足條件的記錄插入到等價類E中,使其滿足(αij,k,m)-匿名要求;
13)
End while
14)
End While
15)
For each 剩余的記錄ss
16)
如果存在等價類E,添加ss后仍然滿足(αij,k,m)-匿名模型,則添加ss到該等價類,優(yōu)先考慮不含相同級別的、與最高級別距離較大的等價類;
17)
End for
18)
隱匿所有無法添加到等價類的記錄,將等價類進行泛化;將所得的匿名表DT′輸出;
19)
算法結束
本文為了進一步提高改進的(αij,k,m)-匿名模型的隱私保護程度,采用了貪心算法;在算法執(zhí)行過程中,為了形成等價類,優(yōu)先選擇局部優(yōu)先級別最高的記錄插入,然后再選擇局部優(yōu)先級別最低的記錄插入,依次循環(huán),最后形成滿足條件的等價類;在同一個等價類中,兩個級別的敏感性距離越大,說明隱私保護程度越高,這樣優(yōu)先選擇最高和最低的級別插入,就把局部敏感性距離最大的兩個級別插入,提高了改進的(αij,k,m)-匿名模型的隱私保護程度。具體算法流程如圖4所示。
圖4 基于貪心策略的(αij,k,m)-匿名模型隱私保護流程
以原始數據表1為例來說明算法的執(zhí)行過程。按照表2和表3的敏感性分級,并定義敏感級的αij。
Disease為第1個敏感屬性,所以可以定義:α11=0.3,α12=0.35,α13=0.4,α14=0.45,α15=0.5。Physician為第2個敏感屬性,所以可以定義α21~α29為{0.25,0.3,0.35,0.4,0.45,0.5,0.55,0.6,0.65},k=4,過程如下。
1)當i=1,敏感屬性為Disease時,基于敏感性分級的敏感值分組按優(yōu)先級由高到低的分組。第1級別分組有:HIV={t4,t7},Cancer={t3};第2級別分組有:Parkinson={t1,t2};第3級別分組有:HeartDisease={t5,t8};Diabetes={t6};第4級別分組有:Flu={t11};ViralInfection={t9};第5級別有:Fever={t10,t12}。
2)當i=2時,敏感屬性為Physician,按優(yōu)先級分組。第1級別組:Aaron={t5};第2級別有:John={t1,t3,t7};第3級別有:Adonis={t9};第4級別有:Adam={t10,t11};第5級別有:Mary={t4};第6級別有:Anne={t6};第7級別:Sam={t2};第8級別有:Abbott={t8};第9級別有:Albert={t12}。
3)在滿足k=4匿名的基礎上進行等價類分類,當i=1時(也就是敏感屬性為Disease時),按照貪心策略,優(yōu)先從最高的組中取出一條記錄t3,再按級別從最低級別的分組中取出一條記錄t10,按照上述過程,再取一條高級別記錄t1,一條低級別記錄t9,此時第1個等價類為表5所示。
表5展現的是只根據PD1形成的等價類,雖然在PD1中,級別只有2,1,4,5,沒有級別相同的記錄出現,但是在PD2中出現的級別是2,2,3,4,因此,在PD2中出現了具有相同級別的記錄,所以當i=2(即敏感屬性為Physician時),有相同級別的數據出現,將相同級別的數據保留下一條記錄,其余記錄刪除(將Disease劃分的級別較高的記錄刪除),因此把t3刪除,為了滿足4-匿名,從剩下的記錄中找到一條滿足條件的記錄插到第1個等價類中,找到記錄t4(條件要滿足敏感屬性為Disease時,從級別高的分組查找首先是t3,但是t3的Physician屬性與等價類中的級別相同,因此t3不滿足條件;找到t4,t4的Physician屬性與等價類中的級別都不同,滿足條件,插入),因此可以得出滿足條件的第1個等價類為{t10,t1,t9,t4}以此類推出現滿足條件的(αij,k,m)-匿名模型的表4,隱藏剩余的不滿足條件的記錄。
表5 滿足條件的第1個等價類
這個實例分析說明了改進的(αij,k,m)-匿名模型能夠保護多敏感屬性數據,有效地抵制關聯(lián)屬性間的關聯(lián)攻擊,提高了對多敏感數據的隱私保護程度。
實驗數據采用來自UCI Machine Learning Repository 中的Adult標準數據集共22 723條記錄,該數據廣泛用于數據匿名保護研究中。本機運行環(huán)境為Windows 7操作系統(tǒng),采用C++編程。數據的具體描述如表6。
表6 Adult實驗數據集
基于貪心算法的(αij,k,m)-匿名模型主要針對多敏感屬性信息進行保護,為每個敏感屬性的敏感值進行分級設置,并為每個級別設置一個特定的αij,貪心算法將分級的記錄選擇一高一低的插入到等價類中,使得該算法在分級的基礎上進一步提高了數據隱私的保護程度。實驗結果證明,該模型信息損失量小,能夠抵制關聯(lián)攻擊,保護多敏感屬性數據,進一步提高了數據隱私的保護程度,是一種有效的隱私保護方法。表4就是本文算法發(fā)布的數據結果,表2~3就是對應的分級表。
算法采用信息損失度、執(zhí)行時間和隱私保護程度為衡量數據質量的標準。與(αi,k)-匿名模型[9]相比,本文算法實現的(αij,k,m)-匿名模型能夠保護多敏感屬性數據;與(l,m)-多樣性模型[12]相比,(αij,k,m)-匿名模型能夠解決敏感屬性值語義相近問題;與(l,α,m)-多樣性模型[13]相比,(αij,k,m)-匿名模型信息損失量較小,保護程度更高,并且能夠更好地抵制關聯(lián)攻擊。
4.2.1 數據隱私保護度量分析
在同一個等價類中,敏感值的多樣性可以避免同質性攻擊,更進一步說,敏感值之間的差異性越大,越難以判斷該敏感值所屬的范圍,因此,數據的隱私保護程度就越高。本文中,在敏感屬性值分級的基礎上,采用貪心算法,找到局部級別最高的記錄以及局部級別最低的記錄,依次插入到等價類中,形成滿足改進的(αij,k,m)-匿名模型的等價類,增大了等價類敏感性距離,提高了等價類中記錄級別的差異性。由于數據的隱私保護程度可以用平均等價類敏感性距離來度量,敏感性距離越大,說明數據之間的差異性越大,因此,本文算法可以降低隱私泄露程度,加強對多敏感屬性數據的保護。本文隨機取一個k值4,比較了在k=4的情況下,各個模型隨著m的增長所呈現的變化趨勢。如圖5,就是m變化時平均等價類敏感性距離度量的比較。
圖5 m變化時的平均等價類敏感性距離度量比較(k=4)
從整體上來看,當k=4,隨著m的不斷增大,各個模型的平均等價類敏感性距離度量不斷增大;因為含有越來越多的敏感屬性,將其敏感屬性值插入到等價類中時,會不斷地循環(huán)執(zhí)行,為了滿足同一等價類中不出現相同的級別要求,那么隨著記錄的不斷插入,平均等價類敏感屬性距離就會不斷增大,就會出現如圖中的結果。從信息保護程度來說,(l,m)-多樣性模型雖然能夠保護多敏感屬性數據,但是并沒有解決敏感值語義相近問題;隱私保護程度相對較低;(αi,k)-匿名模型只能保護單敏感屬性數據,對多敏感屬性數據的保護程度最低;(l,α,m)-多樣性模型解決了語義相近問題和關聯(lián)攻擊問題,而改進的(αij,k,m)-匿名模型在解決了保護多敏感屬性問題和關聯(lián)攻擊問題后,還采用了基于貪心策略的實現算法,采用一條高級別,一條低級別的記錄插入方式形成等價類,在敏感屬性值分級的基礎上,進一步阻止了級別相近的記錄出現在同一等價類中,因此,與(αi,k)-匿名模型和(l,α,m)-多樣性模型相比,改進的(αij,k,m)-匿名模型在信息保護程度上有更好的效果。本文采用等價類敏感性距離度量來量化數據的隱私保護程度,等價類間的級別相差越大,級別距離就越大,數據的隱私保護程度就越好,從圖5中可以看出,改進的(αij,k,m)-匿名模型的平均等價類敏感性距離度量最高,因此,該模型的隱私保護程度最高。
4.2.2 信息損失和時間效率的分析
由圖6和圖7可以看出,從整體上來看,當k=4時,隨著m的不斷增大,各個模型的信息損失量增大,執(zhí)行時間也在變長;因為當數據信息含有越來越多的敏感屬性時,程序執(zhí)行的循環(huán)次數就會增多,那么執(zhí)行時間就會相應地增大;由于含有多個敏感屬性,在進行等價類分類時,為了滿足各個敏感屬性的屬性值在插入到等價類中的要求,那么相對的信息的損失量就會增加。在執(zhí)行時間相差不大的基礎上,與(l,m)-多樣性模型相比,在m=1時,改進的(αij,k,m)-匿名模型能夠很好地解決敏感值語義相近問題,提高對數據信息的隱私保護程度;(l,α,m)-多樣性模型相比,改進的(αij,k,m)-匿名模型能夠更好地降低信息損失量,在算法執(zhí)行的結尾,可以對不能夠構造等價類的元組,找到滿足條件的等價類,再次并將其插入,減少信息損失;與(αi,k)-匿名模型相比,當m=1時,兩者的信息損失量是相同的,隨著m的增大,改進的(αij,k,m)-匿名模型的信息損失度也會增大,但是該模型能夠對多敏感屬性數據進行保護,抵制關聯(lián)屬性之間的關聯(lián)攻擊。
圖6 m變化時信息損失量的比較(k=4)
圖7 m變化時執(zhí)行時間的比較(k=4)
從整個算法的執(zhí)行過程看:首先,以m個敏感屬性為基準,不斷抽取語義相近的敏感值記錄構建分組;根據敏感值的敏感性,為每個分組設置對應的級別Lij,并且設置對應的閾值αij;按照貪心策略,選擇級別一高一低的順序插入,構造不會出現相同級別記錄的等價類,實現了m個敏感屬性的多樣性。通過研究改進的(αij,k,m)-匿名隱私保護模型和基于貪心策略的匿名化隱私保護算法,從技術執(zhí)行的各個關鍵步驟找到了該模型在m的不同取值下與其他模型信息損失度和時間效率的對比圖。綜合考慮,改進的(αij,k,m)-匿名隱私保護模型能夠滿足對多敏感屬性數據的隱私保護需求,積累相關數據集、實現代碼及為改進的(αij,k,m)-匿名隱私保護模型和基于貪心策略的匿名化隱私保護算法研究提供實際的支持。將(αij,k,m)-匿名隱私保護模型和匿名化隱私保護算法結合,解決了不同多敏感屬性數據的匿名化問題和關聯(lián)攻擊問題,并且提高了隱私數據的保護程度。形式化地定義信息損失度和時間效率,可以更加客觀地分析、比較不同匿名化隱私保護技術的性能。
本文提出了抵制多敏感屬性關聯(lián)攻擊的(αij,k,m)-匿名模型。該模型信息損失量小,可以對多敏感屬性的數據進行更好的保護。針對此模型本文提出了基于貪心策略的實現算法,實驗證明所提出的算法能實現面向多敏感屬性的(αij,k,m)-匿名模型,有效地保護了含有多敏感屬性數據的個人隱私,提高了數據隱私的保護程度。
本文所提出的算法在執(zhí)行時間上還有待改進,而且本文針對不同算法進行了對比,接下來將針對這兩方面進行研究,如何在不影響算法匿名保護的基礎上提升算法執(zhí)行時的效率是一項很有意義的工作。
References)
[1] ABAD B, KINARIWALA S A. A novel approach for privacy preserving in medical data mining using sensitivity based anonymity [J]. International Journal of Computer Applications, 2013, 42(4): 13-16.
[2] PURUSHOTHAMA B R, AMBERKER B B. Duplication with trapdoor sensitive attribute values: a new approach for privacy preserving data publishing [J]. Procedia Technology, 2012, 6(4): 970-977.
[3] JIANG W, CLIFTON C. Privacy-preserving distributedk-anonymity [C]// DBSec’05: Proceedings of the 19th Annual IFIP WG 11.3 Working Conference on Data and Applications Security. Berlin: Springer, 2005: 166-177.
[4] SORIA-COMAS J. DOMINGO-FERRER J. Probabilistick-anonymity through micro aggregation and data swapping [C]// Proceedings of the 2012 IEEE International Conference on Fuzzy Systems. Piscataway, NJ: IEEE, 2012: 1-8.
[5] MACHANAVAJJHALA A, GEHRKE J, KIFER D, et al.L-diversity: privacy beyondk-anonymity [C]// Proceedings of the 22nd International Conference on Data Engineering. Piscataway, NJ: IEEE, 2006: 24-35.
[6] BHATTACHARYYA D K. Decomposition+: improvingl-diversity for multiple sensitive attributes [C]// CCSIT 2012: Proceedings of the 2012 International Conference on Computer Science and Information Technology. Berlin: Springer, 2012: 403-412.
[7] WONG R C, LI J, FU A W, et al. (α,k)-anonymity: an enhancedk-anonymity model for privacy preserving data publishing [C]// KDD ’06: Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2006: 745-759.
[8] 劉麗杰,李盼池,李守威.粒化(α,k)-匿名方法研究[J].計算機工程與應用,2014,50(2):75-80. (LIU L J, LI P C, LI S W. Research of granulating (α,k)-anonymity method [J]. Computer Engineering and Applications, 2014, 50(2): 75-80.)
[9] 金華,張志祥,李善成,等. 基于敏感性分級的(αi,k)-匿名隱私保護[J].計算機工程,2011,37(14):12-17.(JIN H, ZHANG Z X, LI S C, et al. (αi,k)-anonymity privacy preservation based on sensitivity classification [J]. Computer Engineering, 2011, 37(14): 12-17.)
[10] TRUTA T M, VINAY B. Privacy protection:p-sensitivek-ano-nymity property [C]// ICDEW 2006: Proceedings of the 22nd International Conference on Data Engineering Workshops. Washington, DC: IEEE Computer Society, 2006:94-94.
[11] LI N, LI T, VENKATASUBRAMANIAN S.t-closeness: privacy beyondk-anonymity andl-diversity [C]// ICDE 2007: Proceedings of the 23rd International Conference on Data Engineering. Piscataway, NJ: IEEE, 2007: 106-115.
[12] 羅方煒,韓建民,魯劍峰,等.抵制多敏感屬性關聯(lián)攻擊的(l,m)-多樣性模型[J].小型微型計算機系統(tǒng),2013,34(6):1387-1391.(LUO F W, HAN J M, LU J F, et al. A (l,m)-diversity model of resisting the associated attack based on multi-sensitive attributes [J]. Journal of Chinese Computer Systems, 2013, 34(6): 1387-1391.)
[13] 劉志軍,張艷麗,閆晶晶,等.面向多敏感屬性的個性化分級(l,α,m)-多樣性匿名方法[J].科技通報,2016,32(1):123-127.(LIU Z J, ZHANG Y L, YAN J J, et al. An personalized classification (l,α,m)-diversity anonymous approach based on multi-sensitive attributes [J]. Bulletin of Science and Technology, 2016, 32(1): 123-127.)
[14] LI J, WONG C W, FU W C, et al. Achievingk-anonymity by clustering in attribute hierarchical structures [C]// DaWaK 2006: Proceedings of the 2006 International Conference on Data Warehousing and Knowledge Discovery. Berlin: Springer, 2006: 405-416.
[15] HAN J, YU H, YU J. An improvedl-diversity model for numerical sensitive attributes [C]// Proceedings of the 3rd International Conference on Communications and Networking in China. Piscataway, NJ: IEEE, 2008: 938-943.
This work is partially supported by the National Natural Science Foundation of China (61462009), the Scientific Research Foundation of Guangxi University for Nationalities (2014MDYB029), the China-ASEAN Research Center of Guangxi University for Nationalities (Guangxi Science Experimental Center) 2014 Open Project (TD201404).
WANGQiuyue, born in 1991, M. S. candidate. Her research interests include information security.
GELina, born in 1969, Ph. D., professor. Her research interests include information security.
GENGBo, born in 1990, M. S. candidate. His research interests include information security.
WANGLijuan, born in 1992, M. S. candidate. Her research interests include information security.