從傳鋒,楊 楨
(重慶師范大學(xué)涉外商貿(mào)學(xué)院,重慶 401520)
大數(shù)據(jù)的快速發(fā)展雖然給生活提供了極大的便利,可同樣也伴隨著巨大的風(fēng)險(xiǎn)。在大數(shù)據(jù)的環(huán)境下,隱私信息很容易泄漏,通過網(wǎng)絡(luò)所留下的一些信息,有可能被一些人進(jìn)行利用,對(duì)此造成的損失以及后果是無法挽回的[1]。而各領(lǐng)域之間的數(shù)據(jù)共享和交換,對(duì)數(shù)據(jù)隱私保護(hù)提出了更多的要求,以此來迫使發(fā)布的匿名數(shù)據(jù)隱私滿足所有用戶的需求。
潘明波[2]提出的大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)數(shù)據(jù)隱私保護(hù)算法研究。先獲取隱私數(shù)據(jù)的特征,然后隨機(jī)生成一個(gè)變換函數(shù),根據(jù)變換函數(shù)對(duì)隱私數(shù)據(jù)的特征值進(jìn)行變換,實(shí)現(xiàn)隱私信息保護(hù)。該方法效率高,但保護(hù)效果不理想,存在較大誤差。劉彥和張琳[3]提出了位置大數(shù)據(jù)中一種基于Bloom Filter的匿名保護(hù)方法。采用隱私度量技術(shù)劃分匿名區(qū),來隱藏隱私數(shù)據(jù)的真實(shí)位置。該方法保護(hù)效果好,但效率較低。
為此,提出一種基于大數(shù)據(jù)模式分解的隱私信息保護(hù)方法,利用網(wǎng)路數(shù)據(jù)隱私保護(hù)原理生成隨機(jī)轉(zhuǎn)化回答結(jié)果,再通過屬性聚類的方式對(duì)準(zhǔn)標(biāo)識(shí)符屬性類似值與敏感屬性類似值進(jìn)行聚類,接著完成等價(jià)劃分,最終本文方法與MAH-ABE算法、CP-ABPRE兩種算法對(duì)比,經(jīng)過實(shí)驗(yàn)以后,本文方法具有優(yōu)越性。
利用各種數(shù)據(jù)分解方法,以保證大數(shù)據(jù)滿足隱私保護(hù)的要求,所有的數(shù)據(jù)都是通過等價(jià)類標(biāo)識(shí)符進(jìn)行連接的,因此需要建立數(shù)據(jù)模式矩陣,接著利用模式矩陣完成對(duì)大數(shù)據(jù)分解[4]。
數(shù)據(jù)模式分解:給定的數(shù)據(jù)集D與數(shù)據(jù)集合A={A1,A2,…,An},即D的一個(gè)模式分解M定義成若干個(gè)子模式的集合M={m1,m2,…,m},其中所有的子模式?mi∈M,mi?A。
一個(gè)數(shù)據(jù)集會(huì)有很多種分解模式,依據(jù)不同的標(biāo)準(zhǔn)將這些模式分類[5]。可以分成滿足安全模式與不滿足安全模式兩種。依據(jù)分解模式的子模式數(shù)目,會(huì)有很多種結(jié)果,至少可以分解出一張表,最多能夠分解出n張表。
安全分解:給定的數(shù)據(jù)集D與屬性集合A,M則是一個(gè)安全的模式分解,即M滿足:?mi∈M,?rj∈R:mi滿足rj;?mi∈M:mi?A。
正確分解:給定的數(shù)據(jù)集D、屬性集合A與D的隱私數(shù)據(jù)C,M是隱私數(shù)據(jù)的C一個(gè)正確分解模式。即M滿足:?mi∈M,?rj∈C:mi滿足cj;?mi∈M:mi?A
一個(gè)正確模式分解一定會(huì)是一個(gè)安全分解模式[6]。
數(shù)據(jù)模式矩陣DMM:給定數(shù)據(jù)集D、屬性集合A={A1,A2,…,An}與隱私要求集合R={r1,r2,…,rm},即D的數(shù)據(jù)模式矩陣DMM是m×n的矩陣,它的所有行都各自對(duì)應(yīng)著隱私向量[v(r1)T,v(r2)T,…,v(rm)T]T,具體定義為:
1)DMM的所有行都各自對(duì)應(yīng)著屬性集合A的所有元素;
2)DMM的所有列都對(duì)應(yīng)隱私要求的所有的要求;
3)DMM[i][j]代表第Ai(1≤i≤n)個(gè)屬性在第ri(1≤j≤m)個(gè)隱私要求上取值,其中riQ(rj)→S(rj),Q(rj)={Q1,Q2,…,QnQ},S(rj)={S1,S2,…,Sn}。
4)Resp[i]代表第Ai(1≤i≤n)個(gè)屬性在所有隱私要求上的綜合權(quán)重,即取值的總和。
(1)
Resp[i]=(1,1,…,1)1×m×DMMm×n
(2)
式中:|rj|代表rj的準(zhǔn)標(biāo)識(shí)符屬性個(gè)數(shù)與敏感屬性的數(shù)量之和。
轉(zhuǎn)化隨機(jī)回答網(wǎng)絡(luò)隱私處理的中心思想是,隨機(jī)生成一個(gè)給定條件的大數(shù)據(jù),然后利用網(wǎng)絡(luò)中的隱私數(shù)據(jù)特征進(jìn)行函數(shù)的變換,在對(duì)原始的網(wǎng)絡(luò)數(shù)據(jù)值轉(zhuǎn)換以后,將轉(zhuǎn)換以后的數(shù)據(jù)視為隨機(jī)回答的結(jié)果[7],具體的過程如下:
在大數(shù)據(jù)的環(huán)境下,假如給定的網(wǎng)絡(luò)數(shù)據(jù)集合為A={a1,a2,…,al},即網(wǎng)絡(luò)隱私數(shù)據(jù)元素的均值與方差分別可用以下的公式進(jìn)行表示
(3)
(4)
式中:l代表網(wǎng)絡(luò)隱私數(shù)據(jù)中的屬性值;i代表隱私數(shù)據(jù)中的特征向量;ai代表隱私數(shù)據(jù)中的損失信息。
針對(duì)數(shù)值x,其隱私化的數(shù)據(jù)隨機(jī)函數(shù)公式為
r(x)=ax+b
(5)
式中:a∈A代表從隱私數(shù)據(jù)集合A內(nèi)隨機(jī)選取的一個(gè)元素;b∈B代表從隱私數(shù)據(jù)集合B內(nèi)隨機(jī)選取的一個(gè)元素,利用轉(zhuǎn)換后結(jié)果能夠利用下列公式進(jìn)行計(jì)算,得出
y=r(x)
(6)
上式發(fā)布的網(wǎng)絡(luò)隱私數(shù)據(jù)集D′內(nèi)的n條記錄相對(duì)應(yīng)的敏感屬性At取值公式
Y=R(X)
(7)
式中:R(X)代表網(wǎng)絡(luò)隱私數(shù)據(jù)中的相似數(shù)據(jù)樣本,并且yi=r(xi),i=1,2,…n。
通過上面的描述轉(zhuǎn)換隨機(jī)回答方法,可將初始的網(wǎng)絡(luò)隱私數(shù)據(jù)x轉(zhuǎn)變,其公式如下所示
y=r(x)=ax+b
(8)
(9)
(10)
(11)
(12)
而初始網(wǎng)絡(luò)隱私數(shù)據(jù)均值方差的計(jì)算公式為
(13)
(14)
(15)
敏感屬性類似值聚類是數(shù)據(jù)隱私保護(hù)的主要方法:敏感屬性(SA)的不相同取值間具有一些特定的聯(lián)系,而且此聯(lián)系是通過準(zhǔn)標(biāo)識(shí)符屬性表現(xiàn)出來的,且具有特定的聯(lián)系敏感屬性取值,稱作相似敏感屬性值[8]。采用SA類似值聚類就能夠有效的避免匿名數(shù)據(jù)遭受到近似的攻擊影響[9]。
QI屬性可以分成字符屬性與數(shù)值屬性,現(xiàn)有的方法采用數(shù)值計(jì)算的方式來對(duì)相對(duì)數(shù)值屬性差異度進(jìn)行處理;而相對(duì)字符屬性通常是沒有好的解決辦法,只能利用QI屬性值的聚類分析,可以計(jì)算出字符串之間的差異度,形成距離的字典,利用此方法對(duì)字符屬性的取值進(jìn)行比較時(shí),查找距離字典就可以了。
隨后采用兩次聚類進(jìn)行等價(jià)類劃分與對(duì)數(shù)據(jù)的匿名操作。先分析敏感屬性值聚類。其原理如下:使用三維矩陣針對(duì)所有的敏感屬性取值聚類。通過這種方式來保護(hù)個(gè)人信息[10]。按照K-means的計(jì)算方法[11],隨機(jī)抽取敏感屬性S1的取值集合S1(Sv1,Sv2,…,Svd)內(nèi)的K元素。作為K個(gè)簇的簇中心,其中d是敏感屬性維數(shù);分別計(jì)算剩下的元素到K簇中心的相異度,把這些元素經(jīng)過劃分各自最低簇的相異度,依據(jù)聚類的結(jié)果,對(duì)各自K簇的中心進(jìn)行計(jì)算,直到把S1內(nèi)的所有元素按照全新的中心進(jìn)行聚類。一直到所有的SA聚類桶內(nèi)的聚類中心收斂為止;就能夠得到K個(gè)SA聚類桶。
完成許多敏感屬性
D1×D2×…×Dd
(16)
接著完成所有的數(shù)據(jù)的聚類,首先對(duì)復(fù)合敏感屬性
仿真從隱私安全性以及算法的執(zhí)行效率兩方面進(jìn)行,隱私安全可通過密碼算法驗(yàn)證,而執(zhí)行效率可通過服務(wù)系統(tǒng)計(jì)算時(shí)間,同時(shí)計(jì)算時(shí)間又可以分成加密算法鑰匙的生成時(shí)間與解密時(shí)間,系統(tǒng)界面如圖1所示。
圖1 系統(tǒng)界面
為了進(jìn)一步證明本文方法的有效性,通過傳統(tǒng)的MAH-ABE算法、CP-ABPRE算法進(jìn)行對(duì)比,以此驗(yàn)證本文方法的效果。
MAH-ABE算法的處理結(jié)果是只有用戶本身能夠獲取解密以后的隱私信息,所以,這就需要利用敏感信息隱藏率計(jì)算。而敏感信息隱藏率是其加密后所占敏感屬性信息屬性比例得出的。因此,可以獲得如圖2所示的不同算法的隱私保護(hù)能力敏感信息隱藏率。
圖2 不同算法敏感信息隱藏率對(duì)比圖
通過上述圖2能夠看出。MAH-ABE對(duì)敏感信息的隱藏率最低,因?yàn)樵摲椒鎸?duì)選擇性文本攻擊時(shí),隱私的保護(hù)能力較弱。同時(shí)CP-ABPRE隱藏率與MAH-ABE結(jié)果近似,都會(huì)隨著總體數(shù)據(jù)量的增加而降低,而所提方法可以處理海量數(shù)據(jù)且處理效果較優(yōu)秀,處理大量數(shù)據(jù)時(shí)會(huì)面臨計(jì)算時(shí)間短、處理效率滿,因此所提方法相比其它兩種性能更加優(yōu)秀。
執(zhí)行效率是利用私鑰的生成時(shí)間與加解密的時(shí)間的比值。其私鑰的生成時(shí)間是分別圍繞著屬性個(gè)數(shù)和屬性集合數(shù)量兩個(gè)方面進(jìn)行。首先私鑰生成時(shí)間可采用兩方面表示:數(shù)據(jù)屬性個(gè)數(shù)、屬性集合個(gè)數(shù)。表1是屬性集合個(gè)數(shù)為1的情況下,幾種算法的私鑰生成時(shí)間和數(shù)據(jù)屬性個(gè)數(shù)的關(guān)聯(lián)。
表1 私鑰生成時(shí)間/S和屬性個(gè)數(shù)關(guān)聯(lián)
根據(jù)上表能夠看出,在屬性集合個(gè)數(shù)一定情況下,所有算法的私鑰生成時(shí)間都將會(huì)隨著屬性數(shù)目的增加而增加,且較為明顯。相對(duì)而言,本文算法在數(shù)據(jù)屬性個(gè)數(shù)較大情況下,要比另外兩種方法私鑰生成時(shí)間短,所以本文方法的執(zhí)行效果更好。非常適合在大數(shù)據(jù)中使用,在相同的環(huán)境下數(shù)據(jù)的屬性個(gè)數(shù)設(shè)為50的進(jìn)行實(shí)驗(yàn),結(jié)果如表2所示。
表2 私鑰的生成時(shí)間/S和屬性集合個(gè)數(shù)關(guān)系(集合50)
根據(jù)上表能夠看出,在數(shù)據(jù)屬性個(gè)數(shù)不變的情況下,私鑰生成時(shí)間是隨著集合個(gè)數(shù)增加而增加的。不過增長的速度較慢,根據(jù)不同結(jié)果可以看出本文算法在數(shù)據(jù)屬性集合增加的情況下,其私鑰生成時(shí)間相對(duì)另外兩種算法要少。
接著利用實(shí)驗(yàn)進(jìn)行驗(yàn)證,對(duì)不同方法的加密時(shí)間與解密時(shí)間分析。如表3所示。
根據(jù)表3中能夠看出,本文保護(hù)方法具有更好的處理效率,加快數(shù)據(jù)加密與解密時(shí)間,使分級(jí)關(guān)聯(lián)和處理機(jī)制能夠更好對(duì)大數(shù)據(jù)進(jìn)行保留。
表3 加密與解密時(shí)間的對(duì)比/s
進(jìn)一步驗(yàn)證加密后數(shù)據(jù)增量變化,進(jìn)行如下實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 加密后的初始數(shù)據(jù)增量
根據(jù)圖3能夠看出,本文方法隨著數(shù)據(jù)屬性的增加所產(chǎn)生的數(shù)據(jù)要遠(yuǎn)遠(yuǎn)小于其它方法。這是因?yàn)楣矓?shù)據(jù)對(duì)隱私保護(hù)的要求較低,所提方法利用公共數(shù)據(jù)的輕量級(jí)加密,導(dǎo)致數(shù)據(jù)的增加得較小。
提出一種基于大數(shù)據(jù)模式分解的隱私信息保護(hù)方法,利用隨機(jī)生成轉(zhuǎn)化的回答結(jié)果,通過聚類方式對(duì)準(zhǔn)標(biāo)識(shí)符屬性類似值與敏感屬性類似值進(jìn)行聚類完成等價(jià)劃分。最終通過實(shí)驗(yàn)證明,本文方法具有優(yōu)秀的隱私效果,且可以保持高效率應(yīng)對(duì)海量數(shù)據(jù)。不過未來還需要對(duì)其進(jìn)行深入研究,通過分析其中的問題,并找出原因,制定更有效的措施,從而讓網(wǎng)絡(luò)的大數(shù)據(jù)環(huán)境得到安全性,使人們能夠隨意放心的通過網(wǎng)絡(luò)享受生活的便利。