賀玉芝 倪巍偉 張 勇
(東南大學(xué)計算機科學(xué)與工程學(xué)院,南京210096)
在數(shù)據(jù)隱私安全保護備受關(guān)注的今天,面向挖掘任務(wù)的隱私保護微數(shù)據(jù)[1](個體數(shù)據(jù),區(qū)別于統(tǒng)計數(shù)據(jù))發(fā)布已成為研究的一個熱點.它在“保護數(shù)據(jù)隱私”與“挖掘知識”間尋求折中,要求發(fā)布后的數(shù)據(jù)不泄露原始微數(shù)據(jù)隱私信息的同時,還具有較好的挖掘可用性.隱私保護微數(shù)據(jù)發(fā)布通常采用改變微數(shù)據(jù)取值的思想實現(xiàn)對數(shù)據(jù)隱私的保護,聚類通過對數(shù)據(jù)個體間相似/異性的分析對數(shù)據(jù)進行聚簇.隱私保護微數(shù)據(jù)發(fā)布弱化了個體數(shù)據(jù)差異和聚類依賴個體數(shù)據(jù)差異的矛盾,使得面向聚類的隱私保護微數(shù)據(jù)發(fā)布成為一個難點.
數(shù)據(jù)隱藏發(fā)布中,隱私模型用于對所需保護的隱私模式和數(shù)據(jù)可用性加以定義,使得隱藏方法具有可比性和通用性.在基于限制發(fā)布技術(shù)的研究方面,Sweeney[1]提出的 k-匿名原則,要求所發(fā)布數(shù)據(jù)表中的每一條記錄的非敏感屬性不能區(qū)分于其他k-1條記錄,并稱不能相互區(qū)分的k條記錄為一個等價類.k-匿名只針對非敏感屬性進行約束,使攻擊者可以通過一致性攻擊和背景知識攻擊,識別敏感數(shù)據(jù)與個人的對應(yīng)關(guān)系.針對這一問題,文獻[2]提出了保證等價類敏感屬性至少有l(wèi)個不同值的l-diversity模型.針對數(shù)值型敏感屬性數(shù)據(jù)發(fā)布,范圍攻擊是最大潛在攻擊.為了對其提供更好的保護,(k,e)-匿名模型[3]在 k-匿名基礎(chǔ)上,要求最大和最小的敏感屬性差值至少為e.這種界定忽略了總體數(shù)據(jù)分布,對于數(shù)值集中分布在最大或最小一端的情況,仍造成了隱私信息的泄露.文獻[4]的(ε,m)-模型對(k,e)-模型進行了改進,要求等價類中最多1/m的記錄的屬性值相似,相似程度由ε決定.面向數(shù)據(jù)挖掘應(yīng)用的隱私模型方面,文獻[5]提出適用于交易型數(shù)據(jù)頻繁項集挖掘的隱私模型,定義了public屬性和private屬性上的moles(非頻繁項集)和nuggets(頻繁項集),并提出消除moles的同時最大限度保留nuggets的方法.
聚類過程直接依賴于數(shù)據(jù)點間的微觀距離,但聚類結(jié)果可由宏觀上相近的數(shù)據(jù)鄰域分布情況來間接保證.因此,在面向聚類的隱私保護數(shù)據(jù)發(fā)布研究方面,大多數(shù)數(shù)據(jù)隱藏方法采用從微觀上保距或從宏觀上保分布,以保證數(shù)據(jù)隱藏后的聚類可用性.其中,Oliveira等[6-7]提出基于幾何數(shù)據(jù)轉(zhuǎn)換的干擾方法RBT,通過保證隱藏后數(shù)據(jù)記錄間距離不變實現(xiàn)聚類可用性,該方法在泄露任意2條擾動前后的數(shù)據(jù)記錄情形下,攻擊者就能逆推所有原始數(shù)據(jù),存在數(shù)據(jù)隱私安全性低的不足.文獻[8]提出了基于對象相似(OSBR)和維度約簡(DRBT)的干擾算法,利用將高維數(shù)據(jù)隨機投影到低維空間的方法,對原始數(shù)據(jù)進行干擾,以實現(xiàn)隱私數(shù)據(jù)的保護和聚類可用性的維持.文獻[9]提出一種面向聚類的啟發(fā)式匿名數(shù)據(jù)發(fā)布方法,對干擾前后的數(shù)據(jù)進行聚類模式比較,確保聚類差異滿足設(shè)置的閾值,實現(xiàn)干擾處理的合理性.文獻[10]提出一種基于鄰域?qū)傩造氐臄?shù)據(jù)干擾方法,通過維持原始數(shù)據(jù)的k鄰域關(guān)系的穩(wěn)定,來保證數(shù)據(jù)干擾發(fā)布后有較好的聚類可用性,但數(shù)據(jù)擾動幅度具有一定的局限性,易導(dǎo)致范圍攻擊.文獻[11]單獨考慮數(shù)據(jù)的每個維度,對單一維度內(nèi)的數(shù)值進行近鄰交換,以破壞數(shù)據(jù)固有的內(nèi)在對應(yīng)關(guān)系,從而實現(xiàn)數(shù)據(jù)隱私保護,該方法不僅存在隱私安全性低、聚類可用性差的不足,還對近鄰參數(shù)c有較大的限制(c達到一定程度,樹的搜索空間過大).文獻[12]通過建立最小生成樹,將一條邊的鄰近點的非敏感屬性用它們的均值替換,以保護敏感屬性,同時也保持干擾后數(shù)據(jù)集的均值和方差不變,若將b條鄰近記錄的準標識符用均值來替換,b個記錄中的敏感屬性值的種類數(shù)為n,則敏感屬性泄露的概率為n/b,存在隱私泄露隱患.
上述2種策略存在如下問題:擾動方法[6-8]不具備通用性,不同數(shù)據(jù)分布的數(shù)據(jù)集安全性和聚類可用性偏差較大;已有的隱私模型[1-5]難以直接應(yīng)用到面向聚類建模的問題中.本文將建立一個具有通用性的隱私模型,同時設(shè)計一個基于模型的數(shù)據(jù)隱藏方法.
在隱私保護數(shù)據(jù)發(fā)布領(lǐng)域中,數(shù)據(jù)隱私模型旨在定義隱私規(guī)則約束,形成所需保護的隱私模式.設(shè)原始數(shù)據(jù)集(多維數(shù)值型)為D,本文將定義相應(yīng)隱私規(guī)則約束,建立隱私保護模型,并設(shè)計一個基于模型約束的數(shù)據(jù)隱藏算法,對數(shù)據(jù)集D實施干擾,干擾后的數(shù)據(jù)集為D',要求保證D'在滿足隱私模型約束的同時,具有與D相同或相似的聚類結(jié)果.
本文針對多維數(shù)值型數(shù)據(jù)集,從數(shù)據(jù)鄰域角度出發(fā),通過對鄰域內(nèi)點的數(shù)目以及數(shù)據(jù)點分布的限制,來構(gòu)建面向聚類的隱私保護模型.下面給出幾個定義.
定義1(近鄰域)設(shè)數(shù)據(jù)點p,o∈D,落入以p為中心、ε為半徑圓域的所有數(shù)據(jù)點稱為p的近鄰域點 Nε(p),即,且p近鄰點數(shù)目為CNε(p).
定義2(核心點)設(shè)數(shù)據(jù)點p∈D,當p在ε內(nèi)的近鄰點數(shù)目不小于r時稱 p為核心點,即,其中 r為與 ε鄰域相關(guān)的閾值參數(shù).
定義3(密度可達鄰域)設(shè)數(shù)據(jù)點p∈D,o∈Nε(p),p在ε內(nèi)的密度可達近鄰域為NBDε(p)={Nε(p)∪NBDε(o),o∈kernelε},密度可達鄰域內(nèi)點的數(shù)目為CNBDε(p).
如圖1所示,點p,o,q的近鄰域分別為以該點為中心的圓域.設(shè)r=10,由于p及其近鄰域內(nèi)的點o和q均為核心點(其近鄰域點的數(shù)目不小于10),因此,p的密度可達鄰域包含3個圓域中所有的點.
定義4(近鄰攻擊)設(shè)數(shù)據(jù)點p∈D,當p的ε內(nèi)近鄰數(shù)目CNε(p)<r時,鄰域較稀疏,數(shù)據(jù)點易被揭露,由此帶來的攻擊稱為近鄰攻擊,為防范近鄰攻擊發(fā)生,要求CNε(p)≥r.
圖1 近鄰域和密度可達鄰域
定義4僅對近鄰點的數(shù)目和距離添加約束,忽略了數(shù)據(jù)分布,不足以防范范圍攻擊,如圖2所示,設(shè)r=10,圖中數(shù)據(jù)點的數(shù)目完全滿足不小于10的約束,但數(shù)據(jù)點仍集中分布在較小范圍內(nèi).此外,雖然對于凸狀球形數(shù)據(jù)集而言,這種約束是良性的,但對非均勻球狀分布的數(shù)據(jù)集而言,這種約束將使各聚簇界限趨于模糊,導(dǎo)致數(shù)據(jù)集的聚類結(jié)果極不理想.例如,對于圖3中的數(shù)據(jù)分布情況,要使每個數(shù)據(jù)點近鄰域內(nèi)點的數(shù)目達到所設(shè)定的約束,可能導(dǎo)致聚簇界限模糊.
圖2 集中分布
圖3 非球形的不規(guī)則分布
定義5(密度可達近鄰攻擊)設(shè)數(shù)據(jù)點p∈D,h為自定義參數(shù)(h>r),當p的ε密度可達鄰域內(nèi)近鄰數(shù)目CNBDε(p)<h,則它將遭受密度可達近鄰攻擊,為防范此類攻擊,要求CNBDε(p)≥h.
定義6(密度可達安全鄰域)設(shè)數(shù)據(jù)點p∈D,當 CNBDε(p)≥h時,稱 p為安全點,且當NBDε(p)鄰域內(nèi)部的點都為安全點時,稱p密度可達鄰域為安全鄰域.
性質(zhì)1(核心點的安全傳遞性)設(shè)數(shù)據(jù)點p∈D,若p為核心點,且 p是安全點,則NBDε(p)鄰域內(nèi)部的點都為安全點,即p密度可達鄰域為安全鄰域.
證明依據(jù)密度可達鄰域的遞歸定義,可知密度可達鄰域是通過核心點擴張的鄰域集.因此,核心點具備傳遞性,若從核心點p出發(fā),到達最遠的點為q,則q必然也能逆向到達p,因此NBDε(p)=NBDε(q),CNBDε(p)=CNBDε(q)≥h.證畢.
近鄰攻擊只對近鄰數(shù)目和距離進行約束,容易忽略由數(shù)據(jù)集的總體分布帶來的范圍攻擊,而基于密度的可達近鄰攻擊,旨在利用核心點的可擴展性和安全傳遞性,間接地調(diào)整數(shù)據(jù)點的分布,讓孤立群體向核心點靠近,用以防范孤立群體聚集造成的范圍攻擊.根據(jù)上述定義和性質(zhì),構(gòu)建以下聚類隱私保護模型.
定義7(PPC(r,ε,h)隱私模型約束)設(shè)數(shù)據(jù)點p∈D,r,h為自定義參數(shù)(h>r),若隱藏后數(shù)據(jù)表中任意記錄p滿足其ε密度可達鄰域內(nèi)近鄰數(shù)目不小于h(即CNBDε(p)≥h),稱隱藏后數(shù)據(jù)表滿足PPC(r,ε,h)隱私模型約束,其中密度可達鄰域基于核心點擴展,參數(shù)由r決定.
隱私模型構(gòu)建算法的流程如下:對空間數(shù)據(jù)點集合D中數(shù)據(jù)點p,給定參數(shù)r,ε,h(h>r),得到p的ε鄰域Nε(p)以及密度可達鄰域NBDε(p).設(shè)T=kernelε,S=Nε(p)-T,即 T 為 p 的 ε 鄰域內(nèi)核心點的集合,S為p的ε鄰域內(nèi)非核心點的集合.參照核心點的安全傳遞性,算法總是從高密度區(qū)域的點 p開始排查,若 CNBDε(p)≥h,標記NBDε(p)內(nèi)所有點為安全點;否則,從S中任選點q,對Nε(q)-Nε(p)差集中的數(shù)據(jù)點進行平移操作,使q成為核心點.依此使更多的非核心點成為核心點,擴張可達鄰域,使p的ε可達鄰域為安全域.當CNBDε(p)≥h,則轉(zhuǎn)向其他不安全點;否則,繼續(xù)選擇p的非核心近鄰執(zhí)行平移操作,若最終無法生成滿足約束的ε可達安全鄰域,則不發(fā)布p以及鄰域內(nèi)可達數(shù)據(jù)點.
在此過程中,若初始T不為空,即存在核心點p,根據(jù)性質(zhì)1使 p和 q的鄰域合并,迅速擴張反之,若不存在核心點p,則從q出發(fā)擴張和平移,使q成為核心點.
平移旨在將非核心點q變成核心點,因此,每次都用r-CNε(q)計算應(yīng)該加入的數(shù)據(jù)點數(shù)目shiftnum,然后在Nε(p)-Nε(q)差集內(nèi)(簡記為p-q)找到距離q最近的shiftnum個數(shù)據(jù)點,并求其ε鄰域的交集,任選交集內(nèi)的點o作為q的目標點,將q以及Nε(q)-Nε(p)差集(簡記為 q-p)中的數(shù)據(jù)點都按照平移向量進行平移.如圖 4 所示,p是核心點(r=10),但非安全點,q是p鄰域內(nèi)的非核心點,CNε(q)=7(圖4中q及其鄰域內(nèi)另外6個點),還需加入shiftnum=3個點q就能成為核心點.圖5 中的點 o1,o2,o3為 Nε(p)-Nε(q)內(nèi)距q最近的3個點,o為三者ε鄰域交集中的點,按照平移向量對 q 以及 Nε(q)-Nε(p)差集的點進行平移即可.性質(zhì)2和3詳細地敘述了對多個數(shù)據(jù)點求ε鄰域交集的方法.
圖4 非核心點q
圖5 q-p鄰域內(nèi)的點向o點平移
性質(zhì)2對p點ε鄰域內(nèi)的多個點o1,o2,…,oi,…,om的ε圓域求交集,一定有解.
證明已知集合 A=Nε(p),oi∈A(1≤i≤m),即對于所有 oi有d(oi,p)≤ε,假設(shè)交集內(nèi)不存在解,即不存在一個點o使點o的ε鄰域內(nèi)同時出現(xiàn) o1,o2,…,oi,…,om,即對于所有 oi沒有點 o使得d(oi,o)≤ε,然而根據(jù)已知對于所有 oi有d(oi,p)≤ε,即p是一個特殊的o,這與假設(shè)不符,因此,對 p 點鄰域內(nèi)的多個點 o1,o2,…,oi,…,om的ε鄰域求交集,一定有解.
性質(zhì)3對p點ε鄰域內(nèi)的多個點o1,o2,…,oi,…,om的ε圓域求交集(設(shè)為B),假設(shè)o是 oi中距p最遠的點,則以p為圓心、ε-d(o,p)為半徑的圓域C∈B.
證明如圖6所示,已知集合A=Nε(p),oi∈A(1≤i≤m),即對于所有 oi有 d(oi,p)≤ε,o是 oi中距 p 最遠的點,即 d(oi,p)≤d(o,p)≤ε,小圓C的半徑r=ε-d(o,p),則根據(jù)圓的性質(zhì)可知,圓外一點o到圓C的距離小于等于r+d(o,p),即圓C內(nèi)任意一點pi到o的距離d(o,pi)≤r+d(o,p)≤ε -d(o,p)+d(o,p)≤ε,同理,對于其他 oi點,d(oi,pi)≤r+d(oi,p)≤r+d(o,p)≤ε,即以p為圓心、ε-d(o,p)為半徑的小圓內(nèi)的任意一點到oi的距離都不大于ε.
圖6 多點圓域的交集
求解多個點的圓域的交集時需要將繁雜的多個不等式聯(lián)立,對于多維的數(shù)據(jù)點需要建立多元不等式,程序的求解更是一個無限窮舉的過程.而利用上述性質(zhì),只需在以p為圓心、ε-d(o,p)為半徑的小圓內(nèi)任意選一個點即可,大大降低了時間復(fù)雜度.
在2.1節(jié)設(shè)計的平移方法中,選擇候選近鄰點q的方法較為粗略,本節(jié)將對此進行改進.
1)快速擴張
在探查候選近鄰點時,每探查一個候選點,便要計算一次平移長度和平移方向.為減少計算時間,引入近鄰價值的概念:
定義8(近鄰價值)設(shè)數(shù)據(jù)點 p∈D,q∈Nε(p),定義
近鄰價值以差集的大小衡量,每次選擇非核心近鄰q時,總是貪心地選擇具有最高價值的q使其成為核心點,因為這樣的q總能最快地擴張安全域的大小,從而盡量減少探查候選點的次數(shù).
2)安全擴張
在探查候選近鄰點時,若只從價值上貪心地選擇具有最高價值的近鄰平移,可能將鄰域內(nèi)遠離其他點的點優(yōu)先作為候選點,即將原本最不相似的點變成相似的點,不利于聚類可用性的保持.為此,選擇候選點時還需考慮鄰域相似性.
定義9(鄰域相似性)設(shè)數(shù)據(jù)點p∈D,q∈Nε(p),鄰域內(nèi) p和 q的相似性 s(p,q)=鄰域內(nèi)鄰域相似性均值
因此,在貪心選擇具有最高價值近鄰的同時,規(guī)定p鄰域內(nèi)的非核心近鄰滿足鄰域相似性大于s(p)的近鄰q為候選近鄰.
PPC(r,ε,h)模型構(gòu)建算法描述如下:
本文設(shè)計的基于平移的數(shù)據(jù)隱藏方法(模型構(gòu)建算法)由于平移方向和長度都是根據(jù)數(shù)據(jù)鄰域特征動態(tài)計算和調(diào)整的,具有不可重構(gòu)性,因而具有較高的數(shù)據(jù)隱私安全性.
隱藏后數(shù)據(jù)的聚類可用性采用 F-measure[13]指標進行衡量,F(xiàn)-measure方法將同一聚類算法作用于隱藏前后數(shù)據(jù)集,用C表示原始數(shù)據(jù)中生成的聚簇集合,Cg表示隱藏后數(shù)據(jù)集生成的聚簇集合,Ci為C中任意聚簇,Kj為Cg中任意聚簇,則
式中,Recall(Ci,Kj)和 Precision(Ci,Kj)分別描述擾動前后相應(yīng)聚簇交集中數(shù)據(jù)點在Ci和Kj所占比例;F(Ci,Kj)用于衡量隱藏后聚簇Kj對原始數(shù)據(jù)聚簇Ci的聚類質(zhì)量;F(Cg)用于描述隱藏前后數(shù)據(jù)集聚類質(zhì)量的相似性,其值越大,表明隱藏操作對數(shù)據(jù)集的聚類可用性保持得越好.
實驗平臺配置如下:Intel 1.8 GHz,內(nèi)存1 GB,Windows XP,用VS2008(C++)編程實現(xiàn)實驗所涉及的算法.采用網(wǎng)站UCI knowledge discovery archive database(http://archive.ics.uci.edu/ml/datasets.html)的伽馬望遠鏡數(shù)據(jù)(magic gamma telescope dataset)等進行實驗.實驗把基于劃分的聚類算法k-means應(yīng)用于隱藏前后數(shù)據(jù)集,測試F-measure值.實驗中對所有原數(shù)據(jù)集過濾掉不完整記錄并進行格式轉(zhuǎn)換后,規(guī)范化所有數(shù)據(jù),使它們介于(0,100)之間.
實驗1對平移優(yōu)化前后聚類效果進行比較.采用3個數(shù)據(jù)集測試,具體的數(shù)據(jù)集信息如表1所示.D1保留所有屬性和記錄,D2保留前10個數(shù)值型屬性,D3隨機保留10個屬性和10 000條記錄.
表1 實驗數(shù)據(jù)信息
k-means聚類個數(shù)k=10,計算包含平均10個數(shù)據(jù)點的近鄰域半徑dmax,D1的dmax=136.339 0,D2的 dmax=55.567 2,D3的 dmax=31.677 1.圖 7和圖8中(r,ε,h)參數(shù)分別為(10,23,200),(10,23,400),從圖中可以看出,平移優(yōu)化對擾動前后聚類結(jié)果的影響較為明顯,大大提高了F-measure值.因此,平移優(yōu)化在一定程度上能夠更好地維持聚類結(jié)果.
圖7 平移優(yōu)化前后聚類結(jié)果比較(h=200)
圖8 平移優(yōu)化前后聚類結(jié)果比較(h=400)
實驗2測試優(yōu)化后給定不同模型參數(shù)(r,ε,h)對聚類效果的影響.k-means聚類個數(shù)k=10,采用的數(shù)據(jù)集為D2.表2和表3顯示了在不同的r下,各種(ε,h)的F-measure值的對比結(jié)果.實驗結(jié)果表明,r取值越小、ε取值越大、h取值越小時,聚類結(jié)果維持得越好(F-measure值越高).
表2 r=10時不同(ε,h)的F-measure值對比
表3 r=20時不同(ε,h)的F-measure值對比
實驗3測試優(yōu)化后設(shè)置不同聚類參數(shù)k對聚類效果的影響.k-means聚類個數(shù)k分別取5,10,15,20,25,(r,ε,h)參數(shù)設(shè)為(10,25,200),數(shù)據(jù)集采用D2.如圖9所示,所得的 F-measure值都較高,且當設(shè)置不同的聚類參數(shù)時波動較小,可見PPC(r,ε,h)算法的擾動結(jié)果受聚類參數(shù)的影響不大.
圖9 統(tǒng)一擾動不同聚類參數(shù)的聚類效果對比
實驗4分別采用 PPC(r,ε,h),NeNDS[12],RBT[7]和 NETPA[10]算法,對數(shù)據(jù)集 D2進行干擾前后的聚類可用性效果比較.圖10為PPC(r,ε,h)算法與其他擾動方法聚類效果的對比結(jié)果,該算法與 RBT算法具有相近的 F-measure值,與NeNDS算法和NETPA算法相比,具有更高的F-measure值.因此,擾動后的數(shù)據(jù)聚類結(jié)果與原始數(shù)據(jù)聚類結(jié)果比較相似,具有較好的聚類可用性.
圖10 PPC(r,ε,h)算法與其他擾動方法聚類效果對比
針對面向聚類的隱私保護數(shù)據(jù)發(fā)布問題,本文提出PPC(r,ε,h)聚類隱私保護模型.該模型基于密度可達的概念,同時利用核心點的傳遞性平移數(shù)據(jù)點,從而避免數(shù)據(jù)點過度聚集帶來的范圍攻擊問題.理論分析和實驗結(jié)果表明,基于PPC(r,ε,h)的平移策略能有效地兼顧數(shù)據(jù)隱私安全性和發(fā)布后數(shù)據(jù)的聚類可用性.但本文沒有討論r和h的設(shè)置對模型的影響,下一步將研究參數(shù)設(shè)置以提高模型的安全性.
References)
[1]Sweeney L.k-anonymity:a model for protecting privacy[J].International Journal on Uncertainty,F(xiàn)uzziness,and Knowledge-Based Systems,2002,10(5):557-570.
[2]Machanavajjhala A,Gehrke J,Kefer D.l-diversity:privacy beyond k-anonymity[C]//Proceedings of the 22nd International Conference on Data Engineering.Atlanta,GA,USA,2006:24-35.
[3]Zhang Q,Koudas N,Srivastava D,et al.Aggregate query answering on anonymized tables[C]//Proceedings of International Conference on Data Engineering.Istanbul,Turkey,2007:116-125.
[4]Li J X,Tao Y F,Xiao X K.Preservation of proximity privacy in publishing numerical sensitive data[C]//Special Interest Group on Management of Data.Vancouver,BC,Canada,2008:473-486.
[5]Xu Y,F(xiàn)ung B C M,Wang K,et al.Publishing sensitive transactions for itemset utility[C]//Proc of IEEE International Conference on Data Mining.Pisa,Italy,2008:1109-1114.
[6]Oliveira S R M,Za?ane O R.Privacy preserving clustering by data transformation[C]//Proc of the 18th Brazilian Symposium on Databases.Manaus,Brazil,2003:304-318.
[7]Oliveira S R M,Za?ane O R.Achieving privacy preservation when sharing data for clustering[C]//Proc of the International Workshop on Secure Data Management in a Connected World.Toronto,Canada,2004:67-82.
[8]Oliveira S R M,Za?ane O R.Privacy preserving clustering by object similarity based representation and dimensionality reduction transformation[EB/OL].(2004)[2011-03-05]. http://www.site.uottawa.caP ~zhizhanPppdmworkshop2004Ppaper3.pdf.
[9]Fung B C,Wang K,Wang L,et al.A framework for privacy preserving cluster analysis[C]//Proc of IEEE Int Conf on Intelligence and Security Informatics.Taipei,China,2008:46-51.
[10]倪巍偉,徐立臻,崇志宏,等.基于鄰域?qū)傩造氐碾[私保護數(shù)據(jù)干擾方法[J].計算機研究與發(fā)展,2009,46(3):498-504.Ni Weiwei,Xu Lizhen,Chong Zhihong,et al.A privacy preserving data perturbation algorithm based on neighborhood entropy[J].Journal of Computer Research and Development,2009,46(3):498-504.(in Chinese)
[11]Parameswaran R,Blough D M.Privacy preserving data obfuscation for inherently clustered data[J].International Journal of Information and Computer Security,2008,29(1):4-26.
[12]Li X B,Sumit S.Data clustering and micro-perturbation for privacy-preserving data sharing and analysis[C]//Proc of International Conference on Information Systems.Saint Louis,MO,USA,2010:58-72.
[13]Fung B C M,Wang K,Wang L,et al.Privacy-preserving data publishing for cluster analysis[J].Data &Knowledge Engineering,2009,68(6):552-575.