許 杰,聶大成,李明桂,李春林
(中國(guó)電子科技集團(tuán)公司第三十研究所,四川 成都 610041)
?
基于幾何變形的大數(shù)據(jù)安全隱私保護(hù)方法*
許 杰,聶大成,李明桂,李春林
(中國(guó)電子科技集團(tuán)公司第三十研究所,四川 成都 610041)
隱私保護(hù)已經(jīng)成為大數(shù)據(jù)安全的重要研究?jī)?nèi)容之一。在分析了影響大數(shù)據(jù)安全隱私三個(gè)方面的基礎(chǔ)上,提出了一種基于幾何變形的大數(shù)據(jù)安全隱私保護(hù)方法。該方法從數(shù)據(jù)源的角度出發(fā),使用幾何變形的方法對(duì)數(shù)據(jù)進(jìn)行干擾,使得數(shù)據(jù)聚類算法失效或分析得出錯(cuò)誤的結(jié)果,從而達(dá)到大數(shù)據(jù)安全隱私保護(hù)的目的。在實(shí)際使用中,該方法效果良好。
大數(shù)據(jù); 幾何變形; 隱私保護(hù)
隨著信息安全上升到國(guó)家安全層面,人們對(duì)個(gè)人隱私問題也越來越重視。大數(shù)據(jù)隱含價(jià)值在被挖掘的同時(shí),隱私保護(hù)已經(jīng)成為大數(shù)據(jù)安全的重要研究?jī)?nèi)容之一[1-4]。
大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)形式多樣性的特點(diǎn)[5],通過對(duì)大數(shù)據(jù)的挖掘,能為科學(xué)家、企業(yè)家、產(chǎn)品經(jīng)理、銷售人員等在計(jì)劃制定和決策輔助上提供幫助,能為科學(xué)研究、企業(yè)發(fā)展和工業(yè)生產(chǎn)提供巨大的機(jī)會(huì)進(jìn)行優(yōu)化和創(chuàng)新。因此,大數(shù)據(jù)受到了全球各行各業(yè)的重視和追捧。但在大數(shù)據(jù)為我們帶來巨大價(jià)值的同時(shí),也應(yīng)該意識(shí)到如果數(shù)據(jù)沒有合理的安全保障和加密措施,大數(shù)據(jù)將意味著重大隱私安全問題。
對(duì)于大數(shù)據(jù)的隱私安全問題,可以從以下3個(gè)方面來理解:
(1)數(shù)據(jù)源:這是最能充分完全挖掘大數(shù)據(jù)價(jià)值的部分。數(shù)據(jù)源包括了來自多源異構(gòu)的應(yīng)用設(shè)備和數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)、來自網(wǎng)頁的半結(jié)構(gòu)化數(shù)據(jù)和來自多種不同類型文件的非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)包括了視頻、電子表格、社會(huì)媒體信息等,而且,每天都有各種新數(shù)據(jù)源加入,這就使得系統(tǒng)必須具備處理多樣性數(shù)據(jù)的能力。令人擔(dān)憂的是這些數(shù)據(jù)中包含的大量的個(gè)人身份信息、信用卡信息、知識(shí)產(chǎn)權(quán)信息、健康醫(yī)療信息等重要信息,這些信息都涉及到個(gè)人和企業(yè)隱私問題,如果沒有有效的安全策略進(jìn)行保護(hù),將直接導(dǎo)致隱私泄露。
(2)大數(shù)據(jù)框架:大數(shù)據(jù)環(huán)境不管是基于Hadoop、MongoDB、NoSQL、Teradata等開源大數(shù)據(jù)生態(tài)系統(tǒng)構(gòu)建還是其他系統(tǒng)構(gòu)建,都必須隨時(shí)對(duì)大量的敏感數(shù)據(jù)進(jìn)行管理,這些敏感數(shù)據(jù)不僅僅是保存在大數(shù)據(jù)節(jié)點(diǎn)上的數(shù)據(jù),也可能來自系統(tǒng)日志、配置文件、錯(cuò)誤日志及其他大數(shù)據(jù)自身產(chǎn)生的數(shù)據(jù)。若管理不當(dāng),將直接導(dǎo)致數(shù)據(jù)的安全問題。
(3)數(shù)據(jù)分析:大數(shù)據(jù)最大的成就在于輸出的數(shù)據(jù)分析結(jié)果。這些輸出的結(jié)果可以幫助企業(yè)進(jìn)行優(yōu)化和創(chuàng)新,可以幫助科學(xué)家進(jìn)行深度的分析和研究。這些信息可以通過儀表盤和報(bào)告的形式,通過可視化技術(shù)為用戶呈現(xiàn),并可根據(jù)需要進(jìn)行查詢。對(duì)于一些大企業(yè)來說,大數(shù)據(jù)分析結(jié)果會(huì)呈現(xiàn)企業(yè)最敏感的全部資產(chǎn)數(shù)據(jù)。如果這些數(shù)據(jù)落入對(duì)手的手中,后果將不堪設(shè)想。
從上述的三個(gè)方面可以看出,如果從數(shù)據(jù)源就開始考慮對(duì)數(shù)據(jù)進(jìn)行有效的隱私保護(hù),不僅可以有效的防止數(shù)據(jù)分析導(dǎo)致的隱私泄露,同時(shí)也減輕了大數(shù)據(jù)框架在安全防護(hù)上的壓力,從而可以達(dá)到從整體上對(duì)大數(shù)據(jù)安全隱私進(jìn)行有效的保護(hù)和防護(hù)的目的。因此,本文提出了一種基于對(duì)數(shù)據(jù)進(jìn)行幾何變形的大數(shù)據(jù)安全隱私保護(hù)方法。該方法通過幾何變形擾亂數(shù)據(jù)間固有的聚類關(guān)系,使得后續(xù)的數(shù)據(jù)分析無法從原始數(shù)據(jù)中挖掘出有價(jià)值的信息,或者得出錯(cuò)誤的聚類分析結(jié)果,從而達(dá)到隱私保護(hù)的目的。
大數(shù)據(jù)安全隱私保護(hù)系統(tǒng)整體架構(gòu)如圖1所示。
圖1 大數(shù)據(jù)安全隱私保護(hù)系統(tǒng)架構(gòu)
整體架構(gòu)基于開源工具搭建,安全隱私保護(hù)模塊貫穿于整個(gè)大數(shù)據(jù)處理過程,從數(shù)據(jù)的采集、傳輸、分析到可視化呈現(xiàn)。本文提出的方法主要涉及到數(shù)據(jù)的采集、傳輸和分析過程。其過程說明如下:
首先,對(duì)數(shù)據(jù)源收集的數(shù)據(jù)經(jīng)過安全隱私保護(hù)模塊使用幾何變形進(jìn)行數(shù)據(jù)干擾,將干擾后的數(shù)據(jù)存入大數(shù)據(jù)存儲(chǔ)系統(tǒng);
其次,在大數(shù)據(jù)處理分析平臺(tái)中對(duì)數(shù)據(jù)的訪問和分析處理,必須通過安全隱私保護(hù)模塊,先通過授權(quán),然后對(duì)數(shù)據(jù)進(jìn)行逆向幾何變形還原后進(jìn)行。
通過上述的過程可以看出,如果系統(tǒng)中授權(quán)出現(xiàn)問題,導(dǎo)致非法用戶在沒有經(jīng)過授權(quán)的情況下也可以直接訪問數(shù)據(jù),那么得到的也是經(jīng)過幾何變形的數(shù)據(jù),而非真正的原始數(shù)據(jù),從而達(dá)到了隱私保護(hù)的目的。
在計(jì)算機(jī)視覺中,視頻中相鄰兩幅圖像間的運(yùn)動(dòng)關(guān)系可以由矩陣變換來表示,這種矩陣變換描述了圖像間的二維變換關(guān)系,也可以看成是圖像中的像素點(diǎn)通過幾何變換后投影到另一幅圖像上[6]?;镜亩S變換關(guān)系有平移、旋轉(zhuǎn)、縮放和切變。通過這些基本的二維變換關(guān)系的組合,可以得到數(shù)據(jù)的平移變換(translation)、歐氏變換(Euclidean)、相似變換(similarity)、仿射變換(affine)和投影變換(projective),如圖2所示。
圖2 二維圖像變換
下面以相似變換(similarity)為例說明其變換原理。相似變換可以描述圖像的平移、旋轉(zhuǎn)和縮放。即可對(duì)數(shù)據(jù)進(jìn)行平移、旋轉(zhuǎn)和縮放的變換。其變換形式表示如下:
(1)
式中,Xt=[xt,yt]T,表示第t幀圖像中像素點(diǎn)的坐標(biāo),θ旋轉(zhuǎn)角度,tx和ty為水平方向和垂直方向的平移量,標(biāo)量s表示均勻縮放。該公式的物理描述為:在第t-1幀圖像中的像素點(diǎn)X,經(jīng)過平移、旋轉(zhuǎn)和縮放的幾何變形后,被投影到第t幀圖像中,使其改變了在第t-1幀中的位置。而該平移、旋轉(zhuǎn)和縮放矩陣也描述了該像素在兩幅圖像間的變換關(guān)系。如圖3所示,左邊圖像中的點(diǎn)可以在右邊圖像中找到相對(duì)應(yīng)的點(diǎn),這些點(diǎn)經(jīng)過相似變換(平移、旋轉(zhuǎn)和縮放)后位置發(fā)生了變化,從左邊圖像映射到右邊圖像中。
圖3 相似變換
大數(shù)據(jù)系統(tǒng)中收集的數(shù)據(jù)具有不同的屬性,每個(gè)屬性涉及的隱私信息程度不同,可根據(jù)實(shí)際的需要,賦予不同屬性不同的安全等級(jí)。在幾何變形中也只需對(duì)其中幾個(gè)重要的屬性進(jìn)行幾何變形即可,這樣在實(shí)現(xiàn)隱私保護(hù)的同時(shí),也保證了整個(gè)系統(tǒng)不會(huì)因?yàn)檫^度的數(shù)據(jù)干擾處理而影響性能。下面分別說明使用平移、旋轉(zhuǎn)和縮放的幾何變形進(jìn)行數(shù)據(jù)干擾。
3.1 平移數(shù)據(jù)干擾
平移數(shù)據(jù)干擾可以看成對(duì)原始數(shù)據(jù)添加了加性噪聲,這些噪聲分別被添加到隱私屬性的數(shù)值中,噪聲值是一個(gè)常量,其值可以為正,也可為負(fù)。算法過程說明如下:
Input:隱私屬性集V,噪聲集TNadd
Output:干擾后隱私屬性集V′
Step1:for 每一個(gè)隱私屬性Aj∈V
選擇兩個(gè)隱私屬性Aj,Aj+k,k為預(yù)先設(shè)定值;
選擇一個(gè)加性噪聲項(xiàng)ej∈TNadd
Step2:將選擇的隱私屬性對(duì)Aj,Aj+k,和加性噪聲項(xiàng)ej組裝成矩陣;
Step3:進(jìn)行幾何變形計(jì)算:
V′←transform(V ,TNadd)
End
為了更清晰的描述數(shù)據(jù)是如何經(jīng)過幾何變形被干擾的,我們?cè)跀?shù)據(jù)庫中挑選一些簡(jiǎn)單的屬性進(jìn)行說明。數(shù)據(jù)如表1所示。
表1 例子數(shù)據(jù)
在本例中對(duì)年齡和收入進(jìn)行干擾,加性噪聲參數(shù)取值為(-3,1 000),經(jīng)過幾何變形后的結(jié)果如表2所示。
表2 平移干擾后的數(shù)據(jù)
3.2 縮放數(shù)據(jù)干擾
縮放數(shù)據(jù)干擾可以看成對(duì)原始數(shù)據(jù)添加了乘性噪聲,該噪聲是一個(gè)預(yù)先設(shè)定的常量,其值可以為正,也可為負(fù)。該干擾算法與3.1中平移數(shù)據(jù)干擾類似,只是在計(jì)算時(shí)將加法操作變成乘法操作。此處仍以表1數(shù)據(jù)為例,選擇年齡和收入進(jìn)行干擾,乘性噪聲參數(shù)取值為(0.8,1.1),計(jì)算結(jié)果如表3所示。
表3 縮放干擾后的數(shù)據(jù)
3.3 旋轉(zhuǎn)數(shù)據(jù)干擾
旋轉(zhuǎn)干擾可以看成是一個(gè)特殊的乘性噪聲,只是其噪聲參數(shù)是一個(gè)角度值θ,該θ值可正可負(fù)。以表1數(shù)據(jù)為例,此處旋轉(zhuǎn)噪聲參數(shù)為(cos30,sin30)計(jì)算結(jié)果如表4所示。
表4 旋轉(zhuǎn)干擾后的數(shù)據(jù)
從上面的計(jì)算結(jié)果中可以看出,每個(gè)不同數(shù)據(jù)擾亂方法的結(jié)果都不一樣,但都能達(dá)到影響數(shù)據(jù)挖掘聚類算法的目的,使算法得到錯(cuò)誤的分析結(jié)果,從而達(dá)到了隱私保護(hù)的目的。上述的算法也可以進(jìn)行混合干擾,如本文第二部分中講述幾何變形原理中的相似變換,就是將平移、縮放和旋轉(zhuǎn)進(jìn)行了混合。在實(shí)際的隱私保護(hù)過程中,應(yīng)根據(jù)需要選擇數(shù)據(jù)干擾算法,因?yàn)槊總€(gè)算法的效率不一樣,干擾的效果也有差別。根據(jù)經(jīng)驗(yàn)來看,對(duì)于隱私度較低的屬性值可以使用單一的干擾算法,如:平移、旋轉(zhuǎn)或縮放。而對(duì)于隱私度較高的屬性可以使用干擾力度較大的混合算法,如:歐式變換、相似變化或仿射變換。投影變換由于計(jì)算復(fù)雜度較高,對(duì)效率影響較大,故不推薦在大數(shù)據(jù)隱私保護(hù)系統(tǒng)中使用。
效果評(píng)價(jià)及分析包括兩方面:不同幾何變形算法效果評(píng)價(jià)和異值點(diǎn)(outlier)數(shù)量。評(píng)價(jià)數(shù)據(jù)采用KDD CUP 99數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行測(cè)試。
4.1 幾何變形算法效果比較
本文提出的幾何變形數(shù)據(jù)干擾方法主要是影響聚類算法的效果,因此,采用經(jīng)典的K-Means對(duì)幾種幾何變形算法進(jìn)行測(cè)試。評(píng)價(jià)方法:通過對(duì)原始數(shù)據(jù)和干擾后的數(shù)據(jù)分別進(jìn)行聚類,對(duì)結(jié)果中的每個(gè)聚類集中數(shù)據(jù)點(diǎn)個(gè)數(shù)進(jìn)行比較,其差值即表示對(duì)數(shù)據(jù)進(jìn)行了干擾,差值的大小也可以在一定程度上說明干擾程度。其計(jì)算公式如下:
(2)
式中,N表示數(shù)據(jù)庫中數(shù)據(jù)點(diǎn)個(gè)數(shù),k是聚類產(chǎn)生的數(shù)據(jù)集個(gè)數(shù),|Clusteri(D)|表示數(shù)據(jù)集中數(shù)據(jù)點(diǎn)個(gè)數(shù)。采用K-Means比較后的結(jié)果如表5所示。
表5 K-Means比較結(jié)果
通過表5中的結(jié)果可以看出,每個(gè)方法在不同k值下的差值不同,說明了這些方法在干擾上存在差異,其中,旋轉(zhuǎn)干擾的差異最大,相似干擾略低于它。從差值上看,旋轉(zhuǎn)干擾應(yīng)該干擾力度最大。
為了進(jìn)一步說明問題,本文從另一方面對(duì)干擾程度進(jìn)行評(píng)價(jià)。對(duì)于聚類算法來說,異值點(diǎn)對(duì)聚類結(jié)果影響很大,甚至?xí)?dǎo)致聚類失敗。因此,對(duì)幾種幾何變形方法產(chǎn)生的異值點(diǎn)也進(jìn)行了評(píng)價(jià),結(jié)果如表6所示。
表6 異值點(diǎn)
從表6中可以看出,相似干擾出現(xiàn)的異值點(diǎn)數(shù)量最多,異值點(diǎn)不僅會(huì)使聚類算法計(jì)算時(shí)間增長(zhǎng),也會(huì)導(dǎo)致聚類的效果下降。因此,從綜合結(jié)果來看相似干擾在評(píng)價(jià)的幾種方法中對(duì)聚類算法的影響最大,隱私保護(hù)程度最高。
4.2 與其他算法之間優(yōu)缺點(diǎn)的比較
文獻(xiàn)[7]提出了k項(xiàng)匿名的隱私保護(hù)方法,該方法用于公布的數(shù)據(jù)預(yù)處理后,任意記錄的各屬性值的組合形式在整個(gè)數(shù)據(jù)集中出現(xiàn)k次,即對(duì)于任意記錄,至少存在k個(gè)與之相同的記錄,該記錄在這些記錄中不可辨識(shí),從而達(dá)到隱私保護(hù)的目的。k匿名主要通過泛化技術(shù)實(shí)現(xiàn),在泛化的過程中會(huì)導(dǎo)致信息丟失,泛化程度與隱私保護(hù)是一對(duì)永久的矛盾,泛化程度越高,隱私保護(hù)力度越大,但數(shù)據(jù)細(xì)節(jié)丟失也越多。
本文提出的方法不存在數(shù)據(jù)丟失的問題,而且計(jì)算上較之更簡(jiǎn)單,效率更高,更適合在大數(shù)據(jù)環(huán)境下進(jìn)行隱私保護(hù)。
本文重點(diǎn)分析了影響大數(shù)據(jù)安全隱私的三個(gè)重要因素,并提出了使用計(jì)算機(jī)視覺中計(jì)算圖像間幾何變換關(guān)系的方法對(duì)數(shù)據(jù)進(jìn)行干擾來達(dá)到隱私保護(hù)的目的。該方法從系統(tǒng)最底層的數(shù)據(jù)源出發(fā)對(duì)數(shù)據(jù)進(jìn)行干擾,干擾后的數(shù)據(jù)不僅使得在分析階段對(duì)數(shù)據(jù)進(jìn)行聚類分析失效或得到錯(cuò)誤結(jié)果,而且,也對(duì)大數(shù)據(jù)系統(tǒng)整體的數(shù)據(jù)安全隱私起到了有效的保護(hù)。實(shí)現(xiàn)了從局部到整體的安全隱私保護(hù)。在實(shí)際使用中,該方法數(shù)據(jù)的隱私保護(hù)表現(xiàn)良好。
[1] 馮登國(guó),張敏,李昊.大數(shù)據(jù)安全與隱私保護(hù)[J].計(jì)算機(jī)學(xué)報(bào), 2014,37(01):246-258. FENG Deng-guo, ZHANG Min, LI Hao.Big Data Security and Privacy Protection [J]. Chinese Journal of Computers, 2014, 37(01): 246-258.
[2] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(01):146-169. MENG Xiao-feng, CI Xiang. Big Data Management: Concepts, Techniques and Challenges. Journal ofComputer Research and Development, 2013, 50(01):146-169.
[3] AGRAWAL R, SRIKANT R. Privacy-preserving data mining[C]//ACM Sigmod Record. ACM, 2000, 29(2): 439-450.
[4] VERYKIOS V S, BERTINO E, FOVINO I N, et al. State-of-the-art in Privacy Preserving DataMining[J]. ACM Sigmod Record, 2004, 33(1): 50-57.
[5] 張鋒軍.大數(shù)據(jù)技術(shù)研究綜述[J].通信技術(shù),2014,47(11):1240-1248. ZHANG Feng-jun. Overview on Big Data Technology [J]. Communications Technology, 2014, 47 (11): 1240-1248.
[6] RICHAR S. Computer Vision: Algorithms and Applications[M], Springer, 2010.
[7] SAMARATI P, SWEENEY L.Protecting privacy when disclosing information: k-anonymity and its enforcement through generalization and suppression[C]//Proceedings of the IEEE Symposium on Research in Security and Privacy.[s.l.]:IEEE,1998, 1-19.
Privacy Protection of Big Data Security based on Geometric Transformation
XU Jie, Nie Da-cheng, LI Ming-gui, LI Chun-lin
(No.30 Institute of CETC, Chengdu Sichuan 610041, China)
Privacy protection becomes an important research topic of big data security. This paper firstly analyzes the three factors of big data security, and then proposes a privacy protection method of big data security based on geometric transformation. This method, from the perspective of data source,and with geometric transformation technique,interferes with the data, thus to make the clustering algorithm lose efficacy or acquire inaccurate results,and further to achieve privacy protection of big data security.The practical application indicates that the proposed method is feasible and effective.
big data; geometric transformation; privacy protection
10.3969/j.issn.1002-0802.2015.05.019
2014-11-21;
2015-03-16 Received date:2014-11-21;Revised date:2015-03-16
國(guó)家自然科學(xué)基金項(xiàng)目(No.61202043)
Foundation Item:National Natural Science Foundation Project (No. 61202043)
TP309
A
1002-0802(2015)05-0602-05
許 杰(1978—),男,博士,工程師,主要研究方向?yàn)樾畔踩c大數(shù)據(jù);
聶大成(1986—),男,博士,主要研究方向?yàn)閿?shù)據(jù)挖掘與異常檢測(cè);
李明桂(1989—),男,碩士研究生,主要研究方向?yàn)樾畔踩c大數(shù)據(jù);
李春林(1984—),男,博士研究生,主要研究方向?yàn)樾畔踩?/p>