趙 爽,陳 力
(天津財(cái)經(jīng)大學(xué)管理信息系統(tǒng)系,天津300222)
·安全技術(shù)·
基于敏感度的個(gè)性化(α,l)-匿名方法
趙 爽,陳 力
(天津財(cái)經(jīng)大學(xué)管理信息系統(tǒng)系,天津300222)
目前多數(shù)隱私保護(hù)匿名模型不能滿足面向敏感屬性值的個(gè)性化保護(hù)需求,也未考慮敏感屬性值的分布情況,易受相似性攻擊。為此,提出基于敏感度的個(gè)性化(α,l)-匿名模型,通過為敏感屬性值設(shè)置敏感度,并定義等敏感度組的概念,對(duì)等價(jià)類中各等敏感度組設(shè)置不同的出現(xiàn)頻率,滿足匿名隱私保護(hù)的個(gè)性化需求。通過限制等價(jià)類中同一敏感度的敏感屬性值出現(xiàn)的總頻率,控制敏感屬性值的分布,防止相似性攻擊。提出一種基于聚類的個(gè)性化(α,l)-匿名算法,實(shí)現(xiàn)匿名化處理。實(shí)驗(yàn)結(jié)果表明,該算法能以與其他l-多樣性匿名模型近似的信息損失量和時(shí)間代價(jià),提供更好的隱私保護(hù)。
隱私保護(hù);l-多樣性;敏感度;聚類;個(gè)性化;相似性攻擊
隨著信息化時(shí)代的到來,數(shù)據(jù)的高共享和大容量存儲(chǔ)技術(shù),便于各類機(jī)構(gòu)收集和發(fā)布數(shù)據(jù)。其中大量數(shù)據(jù)與個(gè)體存在對(duì)應(yīng)關(guān)系,這種對(duì)應(yīng)關(guān)系往往會(huì)泄露人們的隱私信息,如收入水平、健康狀況、消費(fèi)記錄等敏感信息。因此,如何在數(shù)據(jù)發(fā)布的過程中保護(hù)隱私信息成為當(dāng)前研究的熱點(diǎn),目前匿名化方法已成為隱私保護(hù)在數(shù)據(jù)發(fā)布方面的重要技術(shù)。
自1998年Samarati等人[1]提出匿名化以來,國(guó)內(nèi)外專家對(duì)匿名化技術(shù)開展了廣泛研究。文獻(xiàn)[2]進(jìn)一步對(duì)k-匿名模型進(jìn)行了闡述,通過發(fā)布一定數(shù)量不可區(qū)分的個(gè)體,使攻擊者不能判別隱私信息所屬的個(gè)體,從而防止鏈接攻擊。文獻(xiàn)[3]在k-匿名的基礎(chǔ)上提出了l-多樣性(l-diversity)模型,對(duì)敏感屬性值的多樣性提出要求;文獻(xiàn)[4]提出(α,k)-匿名模型,對(duì)敏感屬性值的出現(xiàn)頻率提出要求;p-sensitivek-匿名模型[5]要求發(fā)布的數(shù)據(jù)滿足k-匿名的同時(shí),還要求同一等價(jià)類中至少出現(xiàn)p個(gè)不同的敏感屬性值。這些在k-匿名基礎(chǔ)上改進(jìn)的模型,可以有效防御k-匿名不能防御的一致性攻擊和背景知識(shí)攻擊。
然而以上研究,都沒有考慮不同個(gè)體對(duì)于同一敏感信息保護(hù)程度的差異,即沒有考慮隱私自治的需求。文獻(xiàn)[6]提出個(gè)性化匿名的概念以及解決相應(yīng)問題的方法;文獻(xiàn)[7]分析了不同類型的個(gè)性化服務(wù)需求及相應(yīng)的匿名模型;文獻(xiàn)[8]提出完全(α,k)-匿名模型,通過給各敏感值在等價(jià)類中設(shè)置不同的出現(xiàn)頻率來實(shí)現(xiàn)個(gè)性化保護(hù);文獻(xiàn)[9]提出一種面向個(gè)體的個(gè)性化擴(kuò)展l-多樣性隱私匿名模型。但這些研究大多只針對(duì)敏感屬性值的字面差異,而設(shè)置不同的約束條件,往往不能抵御相似性攻擊。
本文基于這些研究,定義了敏感度和等敏感度組的概念,考慮到敏感屬性值之間的語義相似關(guān)系,提出一種基于敏感度的個(gè)性化(α,l)-匿名模型,該模型在滿足l-多樣性原則的同時(shí),通過為不同的敏感度設(shè)置不同的α頻率約束來實(shí)現(xiàn)隱私匿名的個(gè)性化要求,并且通過控制敏感屬性值在等價(jià)類中的分布,避免相似性攻擊。給出基于局部泛化的貪心聚類算法能減少信息損失量,個(gè)性化的約束條件也可使數(shù)據(jù)可用性更高。
2.1 基本概念
數(shù)據(jù)表中包含的屬性按功能分為以下3類[10]:
(1)標(biāo)識(shí)符:即惟一標(biāo)識(shí)個(gè)體身份的屬性,如姓名、身份證號(hào)等,一般標(biāo)識(shí)符在發(fā)布時(shí),都會(huì)直接刪除來保護(hù)隱私;
(2)準(zhǔn)標(biāo)識(shí)符:與其他數(shù)據(jù)表進(jìn)行鏈接以標(biāo)識(shí)個(gè)體身份的屬性或?qū)傩越M合,如出生日期、性別、種族等。準(zhǔn)標(biāo)識(shí)符取決于進(jìn)行鏈接的外表,不同的外表,準(zhǔn)標(biāo)識(shí)符的選擇不同;
(3)敏感屬性:描述個(gè)體隱私信息的屬性,如診斷結(jié)果、健康狀況、收入水平等。
定義1(k-匿名) 數(shù)據(jù)表T包含n個(gè)屬性,設(shè)QI是T的準(zhǔn)標(biāo)識(shí)符,T[QI]表示T在QI上的投影,當(dāng)且僅當(dāng)在T[QI]上出現(xiàn)的每組值至少要在相應(yīng)的投影上重復(fù)出現(xiàn)k次,則稱T滿足k-匿名。
定義2(等價(jià)類) 如果數(shù)據(jù)表T滿足k-匿名,則把T中在準(zhǔn)標(biāo)識(shí)符上具有相同值的元組的集合,稱作等價(jià)類。
由此可得,k-匿名表中的每個(gè)等價(jià)類的大小至少為k,攻擊者以準(zhǔn)標(biāo)識(shí)符與外表進(jìn)行鏈接時(shí),至少能對(duì)應(yīng)到k個(gè)不同的個(gè)體,就無法判別出個(gè)體與敏感屬性的對(duì)應(yīng)關(guān)系,因此,k-匿名可以防御鏈接攻擊。然而,k-匿名并沒有對(duì)敏感屬性進(jìn)行約束,同一敏感屬性值可能集中出現(xiàn)在一個(gè)等價(jià)類中,這樣即使?jié)M足k-匿名,攻擊者也很容易能直接或憑借已知的相關(guān)知識(shí)推理出敏感屬性值與個(gè)體的對(duì)應(yīng)關(guān)系,k-匿名易受到一致性攻擊和背景知識(shí)攻擊[11]。l-diversity模型和(α,k)-匿名模型在此基礎(chǔ)上進(jìn)行了改進(jìn)。
定義3(l-diversity模型) 如果一個(gè)等價(jià)類中所含不同敏感屬性值的個(gè)數(shù)大于等于l(l≥2),則稱該等價(jià)類滿足l-diversity原則。如果給定數(shù)據(jù)表T,經(jīng)泛化后得表T′,其中每個(gè)等價(jià)類都滿足l-diversity原則,則稱T′滿足l-diversity模型。
定義4((α,k)-匿名模型) 給定數(shù)據(jù)表T,經(jīng)泛化后得表T′,若T′滿足k-匿名的同時(shí),每個(gè)等價(jià)類中任何一個(gè)敏感屬性值出現(xiàn)的頻率小于等于α(0<α<1),則稱T′滿足(α,k)-匿名模型。
2.2 問題定義
定義5(相似性攻擊) 在同一等價(jià)類中,敏感屬性值雖然字面上存在差異,但語義上相似或相近,攻擊者可以通過這些語義相似的敏感屬性獲得個(gè)體隱私信息的大體范圍。
l-diversity模型和(α,k)-匿名模型雖然對(duì)敏感屬性進(jìn)行了約束,卻忽略了敏感屬性值的語義相似關(guān)系,尤其是針對(duì)一些“高危相似”的敏感屬性值,若都集中分布在一個(gè)或幾個(gè)等價(jià)類中,就會(huì)給個(gè)體造成較嚴(yán)重的隱私泄露。當(dāng)然,對(duì)于那些“非高?!钡拿舾袑傩灾?可以降低對(duì)其的保護(hù)程度。匿名模型應(yīng)該根據(jù)個(gè)體對(duì)敏感屬性值的保護(hù)程度,對(duì)不同的敏感屬性值設(shè)定不同的約束條件,從而減少過度保護(hù)帶來的信息損失。
例如,表1所示的原始診斷結(jié)果,當(dāng)編號(hào)8,9,10的3條記錄經(jīng)泛化后組成一個(gè)等價(jià)類時(shí),若設(shè)l=3或α=0.4,該等價(jià)類雖然是符合約束原則的,但“骨癌、肺癌、胃癌”都屬于語義相似的“高?!泵舾袑傩灾?攻擊者如果確定某個(gè)體在該等價(jià)類中,就可以推測(cè)其患了較重的癌癥,同樣造成隱私泄露。但對(duì)于“流感”等被保護(hù)的需求程度普遍較低的敏感屬性值,即使被攻擊者推斷出大致范圍,對(duì)多數(shù)個(gè)體來說也是可以接受的。
表1 原始診斷結(jié)果
因此,應(yīng)該從控制敏感屬性值的分布入手,同時(shí)為不同的敏感屬性值設(shè)定不同的約束條件,提出既能防止相似性攻擊又能滿足個(gè)性化需求的匿名模型。
3.1 個(gè)性化隱私保護(hù)
對(duì)于個(gè)性化隱私保護(hù)的模型,一般分為面向個(gè)體和面向敏感屬性值[7],面對(duì)龐大的數(shù)據(jù)量,如果為每個(gè)個(gè)體設(shè)置約束條件,將產(chǎn)生巨大的工作量,因此面向個(gè)體的個(gè)性化隱私保護(hù)模型具有一定的局限性。而面對(duì)敏感屬性值的保護(hù)模型中,由于不同敏感屬性值的敏感程度有很大差別,就需要為不同的敏感屬性值提供不同的保護(hù)程度。
定義6(敏感度) 設(shè)數(shù)據(jù)表T中的敏感屬性為S,si表示S中的敏感屬性值,根據(jù)si需要被保護(hù)的程度,為其設(shè)定敏感級(jí)別,將敏感級(jí)別數(shù)值化后相應(yīng)的值稱作si的敏感度,記作Di(0<Di<1)。si需要被保護(hù)的程度越高,敏感級(jí)別越高,Di越大。由此給表1中疾病屬性的不同敏感值設(shè)敏感度,如表2所示。
表2 疾病敏感度
定義7(等敏感度組) 將具有相同敏感度的敏感屬性值所在的元組構(gòu)建的集合,稱作等敏感度組,記作SD,|SD|表示組內(nèi)所含元組的個(gè)數(shù),等敏感度組的敏感度即為該組中敏感屬性值的敏感度。例如,由表1、表2可知,編號(hào)8、編號(hào)9、編號(hào)10的元組組成了一個(gè)SD,且|SD|=3,該組的敏感度為0.7。
3.2 個(gè)性化(α,l)-匿名模型
定義8基于敏感度的個(gè)性化(α,l)-匿名模型,給定數(shù)據(jù)表T,經(jīng)泛化后得表T′,若T′滿足ldiversity,且每個(gè)等價(jià)類E中任一等敏感度組SDi都滿足,其中,αi=1-Di,|E|表示等價(jià)類E中的元組個(gè)數(shù),則稱數(shù)據(jù)表T′滿足基于敏感度的個(gè)性化(α,l)-匿名模型。
例如,將原始表1經(jīng)泛化匿名后得到表3,其中包括3個(gè)等價(jià)類,按照表2設(shè)定的敏感度并要求l=2,第1個(gè)、第2個(gè)等價(jià)類都符合該模型,在第3個(gè)等價(jià)類中,由{肺癌,骨癌}組成的等敏感度組的敏感度為0.7,由αi=1-Di得,該等敏感度組中的元組出現(xiàn)頻率應(yīng)該小于等于0.3,而實(shí)際的0.3,不符合該匿名模型,因此,表3不是符合基于敏感度的個(gè)性化(α,l)-匿名的匿名數(shù)據(jù)表。
表3 泛化匿名后的診斷結(jié)果
4.1 信息損失的度量
在匿名化過程中,數(shù)據(jù)處理會(huì)產(chǎn)生一定量的信息損失,信息損失的度量作為評(píng)價(jià)數(shù)據(jù)可用性的指標(biāo),也用于衡量匿名化算法的優(yōu)劣并指導(dǎo)其策略[12]。本文通過構(gòu)造加權(quán)確定性代價(jià)模型,表示數(shù)據(jù)處理過程中所產(chǎn)生的信息損失量。
定義9(泛化層次) 在對(duì)屬性值泛化的過程中,通常將泛化層次樹作為泛化規(guī)則。設(shè)屬性A的泛化層次樹為TA,RA表示根節(jié)點(diǎn),LA表示葉節(jié)點(diǎn)的集合,層次樹由最底層的LA按分類關(guān)系,依層向上遞增直到RA。當(dāng)屬性A為數(shù)值型時(shí),TA表示域泛化的規(guī)則,圖1表示“年齡”屬性的層次泛化樹;當(dāng)屬性A是分類型時(shí),TA表示值泛化的規(guī)則,圖2表示“省份”屬性的層次泛化樹。
圖1 “年齡”屬性的層次泛化樹
圖2 “省份”屬性的層次泛化樹
定義10(屬性值的信息損失) 對(duì)于屬性A,用確定性代價(jià)模型度量其屬性值被泛化到s的信息損失量,記作NCPA(s):
若A為數(shù)值型屬性,則NCPA(s)其中,Range(s)表示屬性值s的區(qū)間大小;Range(RA)表示屬性A的值域。
若A為分類型屬性,則其中,Sub(s)表示以s為根節(jié)點(diǎn)的子樹中所含葉節(jié)點(diǎn)的集合;表示該集合的大小。
定義11(元組的信息損失) 對(duì)于包含n個(gè)屬性的元組t,用加權(quán)確定性代價(jià)模型度量其信息損失量,記作NCP(t):
其中,wi表示屬性Ai的權(quán)重;NCPAi(t.Ai)分為數(shù)值型和分類型分別計(jì)算。
定義12(總信息損失) 對(duì)于聚類形成的聚簇e,進(jìn)行泛化處理所產(chǎn)生的信息損失NCP(e)定義為:
對(duì)于匿名表T′,設(shè)E為T′中等價(jià)類的集合,則T′的總信息損失NCP(T)定義為:
4.2 個(gè)性化(α,l)-匿名算法
本文提出一種基于敏感度的個(gè)性化(α,l)-匿名算法,該算法以滿足敏感度個(gè)性化(α,l)-匿名模型為約束,通過基于貪心策略的聚類算法,將數(shù)據(jù)集分成若干聚簇后進(jìn)行局部泛化,過程中以信息損失最小化為目標(biāo)。
該算法具體思路是:
(1)根據(jù)不同敏感屬性值將數(shù)據(jù)集分成若干元組集合,同一集合中的元組具有相同的敏感屬性值,那么每個(gè)元組集合都有相應(yīng)的敏感度,將各元組集合按敏感度由高至低排列。
(2)從非空最高敏感度的元組集合中任選一個(gè)元組作為原型,然后按照敏感度由低到高的順序,依次從1個(gè)~l個(gè)非空元組集合中各抽選一個(gè)元組從而建立l-多樣性聚簇。每次抽選的元組,要使得新形成的聚簇滿足:1)基于敏感度的個(gè)性化(α,l)-匿名模型;2)增加的信息損失量最小。
(3)重復(fù)操作步驟(2),形成若干聚簇,直到非空元組集合的數(shù)量不足 l,或剩余元組不符合步驟(2)中的抽選約束。
(4)將剩余元組按照步驟(2)中的約束插入到已有聚簇中,再將無法插入的元組進(jìn)行隱匿。
(5)對(duì)每個(gè)聚簇的準(zhǔn)標(biāo)識(shí)符進(jìn)行泛化處理,形成若干等價(jià)類,產(chǎn)生符合匿名條件的數(shù)據(jù)表。
算法基于敏感度的個(gè)性化(α,l)-匿名算法
輸入原始數(shù)據(jù)表T,敏感屬性值的敏感度表,多樣性參數(shù)l,屬性權(quán)重wi
輸出滿足基于敏感度的個(gè)性化(α,l)-匿名的數(shù)據(jù)表T′
步驟:
(1)計(jì)算數(shù)據(jù)表T中敏感屬性值個(gè)數(shù)n,若n<l,則返回重新設(shè)置多樣性參數(shù)l;
(2)根據(jù)敏感屬性值si將數(shù)據(jù)表T分為若干元組集合ti(i=1,2,…,n),將這些集合按相應(yīng)的敏感度Di降序排列為:t1,t2,…,tn;
(3)按照i從1~n的順序,對(duì)每個(gè)元組集合ti,循環(huán):
如果ti為非空集,且非空元組集合的總數(shù)大于等于l,循環(huán):
1)從ti中任選一條記錄r;
2)準(zhǔn)聚簇e′={r};
3)按照敏感度由低到高的順序,依次從1個(gè)~l個(gè)非空元組集合中各抽選一條記錄,加入準(zhǔn)聚簇e′,使e′滿足基于敏感度的個(gè)性化(α,l)-匿名的要求且增加的信息損失最小;
4)如果步驟3)可執(zhí)行:將準(zhǔn)聚簇e′作為聚簇e加入聚簇集,將抽選的記錄從相應(yīng)的的原元組集合中刪除;否則將準(zhǔn)聚簇e′清空,將抽選的記錄保留在相應(yīng)的原元組集合中。
(4)如果存在非空的元組集合,循環(huán):
1)從非空ti中任選一條記錄r;
2)選取聚簇集中的一個(gè)聚簇e,使r加入其后仍滿足基于敏感度的個(gè)性化(α,l)-匿名的要求且增加的信息損失最小;
3)如果步驟2)可執(zhí)行e=e∪{r},ti=ti-{r};否則將r做隱匿處理。
(5)返回聚簇集,對(duì)其中各聚簇e做準(zhǔn)標(biāo)識(shí)符的泛化處理,形成符合條件的匿名表T′。
5.1 實(shí)驗(yàn)數(shù)據(jù)及參數(shù)
實(shí)驗(yàn)采用UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的Adult數(shù)據(jù)集,該數(shù)據(jù)集由美國(guó)人口普查數(shù)據(jù)構(gòu)成,經(jīng)過刪除缺省值處理后,包含45 222條記錄,本文選取其中的7個(gè)屬性,將Occupation作為敏感屬性,其他6個(gè)屬性為準(zhǔn)標(biāo)識(shí)符,數(shù)據(jù)集結(jié)構(gòu)設(shè)置見表4,對(duì)敏感屬性O(shè)ccupation的14個(gè)敏感屬性值設(shè)置敏感度見表5。
表4 Adult數(shù)據(jù)集結(jié)構(gòu)
表5 敏感屬性值的敏感度設(shè)置
實(shí)驗(yàn)從信息損失度與執(zhí)行時(shí)間2個(gè)方面進(jìn)行分析,將本文算法與文獻(xiàn)[3]中基于全域泛化的l-多樣性匿名算法以及文獻(xiàn)[13]中l(wèi)-clustering聚類算法進(jìn)行比較,實(shí)驗(yàn)運(yùn)行環(huán)境為 Intel Core(TM)2 Duo CPU@1.80 GHz,2.00 GB內(nèi)存,操作系統(tǒng)為Microsoft Windows XP,環(huán)境為Visual C++6.0與Matlab7.0。
5.2 信息損失度分析
數(shù)據(jù)表的信息損失按定義7中總信息損失NCP(T)的式子度量,當(dāng)準(zhǔn)標(biāo)識(shí)符屬性個(gè)數(shù)為6、元組數(shù)為45 222且l值變化時(shí)的3種匿名算法的信息損失量的比較,如圖3所示。由此可知,3種算法的信息損失度會(huì)隨著l值的增大而增加,因?yàn)閘值越大,生成聚類所含元組的個(gè)數(shù)增多,對(duì)元組泛化的程度會(huì)更高,從而引起更多的信息損失。另外,本文算法與l-clustering聚類算法信息損失度相近,相對(duì)于l-多樣性算法都產(chǎn)生較小的信息損失。因?yàn)閘-多樣性算法采用全域泛化策略,其信息損失通常要遠(yuǎn)高于局部泛化策略??梢?本文算法以與l-clustering算法類似的信息損失量獲得可以防御相似性攻擊的個(gè)性化隱私保護(hù)。
圖3 不同l值下各匿名算法的信息損失度
5.3 執(zhí)行時(shí)間分析
當(dāng)準(zhǔn)標(biāo)識(shí)符屬性個(gè)數(shù)為6、數(shù)據(jù)集大小為45 222且l值變化時(shí),3種匿名算法的執(zhí)行時(shí)間比較,如圖4所示。由此可知,3種算法的執(zhí)行時(shí)間會(huì)隨著l值的增大而增加,因?yàn)楫?dāng)l值增大時(shí),等價(jià)類中的元組數(shù)、聚類次數(shù)、泛化次數(shù)、執(zhí)行時(shí)間也都相應(yīng)增加。另外,本文算法與l-clustering聚類算法執(zhí)行時(shí)間相近,都高于l-多樣性算法的執(zhí)行時(shí)間,但為了更好地實(shí)現(xiàn)個(gè)性化隱私保護(hù),本文算法的時(shí)間開銷是可接受的。
圖4 不同l值下各匿名算法的執(zhí)行時(shí)間
本文針對(duì)敏感屬性值個(gè)性化隱私保護(hù)的需求以及l(fā)-多樣性匿名模型不能解決的相似性攻擊問題,提出基于敏感度的個(gè)性化(α,l)-匿名模型。該模型通過為敏感屬性值設(shè)置敏感度,并對(duì)等價(jià)類中各等級(jí)敏感度組的出現(xiàn)頻率按照敏感度進(jìn)行設(shè)置,來實(shí)現(xiàn)隱私匿名的個(gè)性化需求。此外,本文在敏感度的基礎(chǔ)上提出等敏感度組的概念,通過限制等價(jià)類中同一敏感度的敏感屬性值出現(xiàn)的總頻率,控制敏感屬性值的分布,防止相似性攻擊。本文還提出個(gè)性化(α,l)-匿名算法,通過基于聚類的局部重編碼策略進(jìn)行匿名化處理,有效地實(shí)現(xiàn)了基于敏感度的個(gè)性化(α,l)-匿名模型。實(shí)驗(yàn)結(jié)果表明,該算法與傳統(tǒng)基于聚類的l-多樣性算法有相似的信息損失度和執(zhí)行效率,在可接受的時(shí)間開銷下,信息損失量明顯小于全域泛化的l-多樣性算法,且更有效地實(shí)現(xiàn)了個(gè)性化隱私保護(hù)。
由于本文只是針對(duì)單一的敏感屬性值,因此今后將探討在多敏感屬性值情況下對(duì)敏感度的設(shè)定和分組,以及多敏感屬性值的個(gè)性化隱私保護(hù)等問題。
[1] Samarati P,Sweeney L.Generalizing Data to Provide Anonymity When Disclosing Information[C]// Proceedingsofthe 17thACM SIGACT-SIGMODSIGART Symposium on Principles of Database Systems.New York,USA:ACM Press,1998:188.
[2] Sweeney L.K-anonymity:A Model for Protecting Privacy[J].International Journal of Uncertainty,Fuzziness and Knowledge-based Systems,2002,10(5):557-570.
[3] Machanavajjhala A,GehrkeJ,KiferD.I-diversity: Privacy Beyond k-anonymity[J].ACM Transactions on Knowledge Discovery from Data,2007,1(1):24-35.
[4] Wong R,Li J,Fu A,et al.(α,k)-anonymity:An Enhanced k-anonymity Model for Privacy Preserving Data Publishing[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,USA:ACM Press,2006:754-759.
[5] Traian T M,Bndu V.Privacy Protection:p-sensitive kanonymity Property[C]//Proceedings of the 22nd International Conference on Data Engineering Workshops. Washington D.C.,USA:IEEE Computer Society,2006: 94-103.
[6] Xiao Xiaokui,Tao Yufei.Personalized Privacy Preservation[C]//Proceedings of ACM SIGMOD Conference on Management of Data.Chicago,USA:ACM Press, 2006:229-240.
[7] 王 波,楊 靜.數(shù)據(jù)發(fā)布中的個(gè)性化隱私匿名技術(shù)研究[J].計(jì)算機(jī)科學(xué),2012,39(4):168-171.
[8] 韓建民,于 娟,虞慧群,等.面向敏感值的個(gè)性化隱私保護(hù)[J].電子學(xué)報(bào),2010,38(7):1723-1728.
[9] 王 波,楊 靜.一種基于逆聚類的個(gè)性化隱私匿名方法[J].電子學(xué)報(bào),2012,40(5):883-890.
[10] 周水庚,李 豐,陶宇飛,等.面向數(shù)據(jù)庫應(yīng)用的隱私保護(hù)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2009,32(5):847-858.
[11] 王平水,王建東.匿名化隱私保護(hù)技術(shù)研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2010,27(6):2016-2019.
[12] 朱 拯,王智慧,汪 衛(wèi).基于個(gè)人隱私約束的k-匿名模型[J].計(jì)算機(jī)研究與發(fā)展,2010,47(21):271-278.
[13] 王智慧,許 儉,汪 衛(wèi),等.一種基于聚類的數(shù)據(jù)匿名方法[J].軟件學(xué)報(bào),2010,21(4):680-693.
編輯 陸燕菲
Personalized(α,l)-anonymity Method Based on Sensitivity
ZHAO Shuang,CHEN Li
(Department of Management Information Systems,Tianjin University of Finance&Economics,Tianjin 300222,China)
Currently,the majority of anonymity model for privacy preservation neither meets the need of personalized preservation oriented to sensitive attribute values,nor considers the distribution of sensitive attribute values,therefore they are vulnerable to similarity attack.This paper proposes a personalized(α,l)-anonymity model based on sensitivity.This model provides sensitivity for different sensitive attribute values,and defines the concept of equ-sensitivity group, implements the personalized needs of privacy anonymity by setting the frequency constraints for different equ-sensitivity group in every equivalence class.This model also can defense similarity attack by limiting the total frequency of sensitive attribute values for same sensitivity in every equivalence class,and control the distribution of sensitive attribute values. This paper proposes a personalized(α,l)-anonymity algorithm based on clustering to achieve the purpose of anonymity. Experimental results show that the proposed algorithm provides better privacy preservation than otherl-diversity anonymity models with the similar information loss and time cost.
privacy preservation;l-diversity;sensitivity;clustering;personalized;similarity attack
1000-3428(2015)01-0115-06
A
TP309.2
10.3969/j.issn.1000-3428.2015.01.021
趙 爽(1989-),女,碩士研究生,主研方向:信息安全;陳 力,副教授。
2014-08-13
2014-09-09 E-mail:zhaoshuang_tjufe@163.com
中文引用格式:趙 爽,陳 力.基于敏感度的個(gè)性化(α,l)-匿名方法[J].計(jì)算機(jī)工程,2015,41(1):115-120.
英文引用格式:Zhao Shuang,Chen Li.Personalized(α,l)-anonymity Method Based on Sensitivity[J].Computer Engineering,2015,41(1):115-120.