姜春峰
(西北大學(xué)現(xiàn)代學(xué)院,西安 710130)
目前大數(shù)據(jù)迅速發(fā)展,對于提升新一代信息技術(shù)和服務(wù)業(yè)態(tài)具有重要作用。大數(shù)據(jù)需要分布式的體系結(jié)構(gòu),而分布式的數(shù)據(jù)挖掘離不開云存儲和虛擬化的支持[1]。分布式是指通過可擴展的體系架構(gòu),將海量數(shù)據(jù)分散到多個獨立的機器上,利用多臺存儲服務(wù)器分擔(dān)存儲負荷的計算技術(shù)。分布式大數(shù)據(jù)已經(jīng)應(yīng)用到多個行業(yè)和領(lǐng)域,然而在分布式大數(shù)據(jù)的存儲與傳輸過程中,數(shù)據(jù)極易受到惡意用戶的攻擊,導(dǎo)致數(shù)據(jù)出現(xiàn)泄露、丟失等現(xiàn)象,尤其是分布式隱私數(shù)據(jù)[2]。隱私保護是指對個人信息進行保護,防止被非法獲取、利用、傳播等,以確保個人信息的安全和私密性。數(shù)據(jù)加密是指將明文數(shù)據(jù)通過一定的方法和密鑰進行處理,轉(zhuǎn)換成特定的加密形式,從而達到保護數(shù)據(jù)機密性的目的。因此,對數(shù)據(jù)隱私保護加密控制具有重要意義。
文獻[3]提出了基于同態(tài)加密的DBSCAN聚類隱私保護方案。根據(jù)數(shù)據(jù)特點,考慮數(shù)據(jù)精度和計算開銷,選擇數(shù)據(jù)預(yù)處理策略,并依據(jù)用戶端與云服務(wù)器之間的協(xié)議,完成密文比較。該方法具有較低的時間開銷。文獻[4]提出了基于可搜索加密機制的數(shù)據(jù)庫加密方案。構(gòu)建密態(tài)數(shù)據(jù)庫查詢框架,提出了滿足IND-CKA1安全的數(shù)據(jù)庫加密方案。建立可搜索加密方案中的安全索引,獲取密態(tài)數(shù)據(jù)庫安全索引結(jié)構(gòu),對數(shù)據(jù)庫中的數(shù)據(jù)進行加密。該方法具有一定的有效性。文獻[5]研究了基于差分隱私的醫(yī)療大數(shù)據(jù)隱私保護模型。在目前醫(yī)療大數(shù)據(jù)隱私保護技術(shù)的基礎(chǔ)上,闡述差分隱私保護技術(shù)的基本原理和研究方向,構(gòu)建醫(yī)療大數(shù)據(jù)隱私保護模型,實現(xiàn)醫(yī)療大數(shù)據(jù)隱私保護。該模型具有一定的可行性。文獻[6]提出了基于大數(shù)據(jù)的區(qū)塊鏈數(shù)據(jù)隱私文本智能加密方法。依據(jù)文本加密需求,對區(qū)塊鏈文本進行預(yù)處理,將格柵化大數(shù)據(jù)加密作為目標(biāo),在大數(shù)據(jù)技術(shù)下建立多層級文本加密模型,實現(xiàn)區(qū)塊鏈數(shù)據(jù)文本加密。該方法具有較大的實際應(yīng)用價值。文獻[7]提出了基于數(shù)據(jù)消冗技術(shù)的隱私大數(shù)據(jù)屬性加密方法。采用Bloom過濾技術(shù),降維處理大數(shù)據(jù),使用hash函數(shù)對消冗過程中誤判率進行計算,依據(jù)映射位數(shù)組,對最優(yōu)擴列函數(shù)進行確定,優(yōu)化ABE加密算法,完成云數(shù)據(jù)的安全共享訪問。該方法具有較高的實用性。但上述方法仍存在加密和控制效果較差的問題。
屬性分類指的是劃分分布式大數(shù)據(jù)屬性類型的過程,通過對分布式大數(shù)據(jù)屬性的分類,可以確定大數(shù)據(jù)的隱私保護等級,從而生成具有針對性的數(shù)據(jù)加密方案。為此,設(shè)計了基于屬性分類的分布式大數(shù)據(jù)隱私保護加密控制模型,挖掘分布式隱私數(shù)據(jù),劃分分布式隱私數(shù)據(jù)屬性類型,利用Logistic混沌映射,生成數(shù)據(jù)隱私保護密鑰,加密處理隱私數(shù)據(jù)。采用屬性分類技術(shù),控制隱私保護數(shù)據(jù)訪問進程,根據(jù)傳輸協(xié)議約束,實現(xiàn)分布式大數(shù)據(jù)隱私保護加密控制,以期能夠提高分布式大數(shù)據(jù)的存儲與傳輸安全。
設(shè)計的分布式大數(shù)據(jù)隱私保護加密控制模型,通過數(shù)據(jù)加密和訪問控制兩個步驟,實現(xiàn)保護大數(shù)據(jù)隱私的目的。在分布式大數(shù)據(jù)加密過程中,首先利用屬性分類算法,確定數(shù)據(jù)的隱私保護等級,從而選擇相應(yīng)的加密強度和方式。在此基礎(chǔ)上,根據(jù)分布式隱私數(shù)據(jù)屬性的分類結(jié)果,設(shè)置用戶的訪問權(quán)限,實現(xiàn)數(shù)據(jù)的訪問控制。設(shè)計模型的輸入項為分布式大數(shù)據(jù),輸出項為隱私數(shù)據(jù)的保護加密結(jié)果以及訪問控制指令,在模型運行過程中,設(shè)置屬性類型以及控制協(xié)議作為約束條件。
隱私數(shù)據(jù)主要包括個人生活安寧權(quán)、個人生活情報保密權(quán)、個人通信保密權(quán)等,以用戶在網(wǎng)絡(luò)環(huán)境中的通信信息為研究對象。挖掘的隱私數(shù)據(jù)以分布式結(jié)構(gòu)進行存儲,分布式存儲結(jié)構(gòu)由設(shè)備、虛擬、運營和業(yè)務(wù)4個層次組成。設(shè)備層為加密、防火墻等安全技術(shù)提供硬件支持。通過對大數(shù)據(jù)的分析,為用戶提供從終端到網(wǎng)絡(luò)的全方位的安全保障。虛擬層的作用是對移動終端進行虛擬化,以保證用戶的身份認證,虛擬化應(yīng)用程序的安全性,以及對移動終端的日志進行審核。操作層可以利用虛擬層的功能,來管理虛擬裝置,并進行虛擬服務(wù)的配置,從而達到對用戶和訪問的控制。而運營層提供了基于運營層次的各類存儲和計算等云計算服務(wù)。并承擔(dān)數(shù)據(jù)加密,文件加密,病毒檢測,用戶身份驗證,訪問控制等功能。隱私大數(shù)據(jù)分布式存儲結(jié)構(gòu)如圖1所示。
圖1 隱私大數(shù)據(jù)分布式存儲結(jié)構(gòu)圖
以挖掘的隱私大數(shù)據(jù)為處理對象,首先需要對初始隱私數(shù)據(jù)進行歸一化處理,處理結(jié)果如下:
(1)
其中:x0為初始挖掘的隱私數(shù)據(jù),μ和σ對應(yīng)的是隱私數(shù)據(jù)集的均值和方差。在此基礎(chǔ)上,對隱私數(shù)據(jù)進行分片處理。每一個分區(qū)都由至少一個服務(wù)器組成,利用內(nèi)部包含的輔助節(jié)點實現(xiàn)異步主從式拷貝機制。其中,主節(jié)點以讀為主,子節(jié)點以寫為主。在這兩種類型的節(jié)點之間,利用操作日志來確保數(shù)據(jù)的一致性。在這兩種類型的節(jié)點之間,會將所有的操作數(shù)據(jù)和時間戳都寫到操作日志中,而所有的副節(jié)點都會對操作日志進行監(jiān)視,以便與主節(jié)點進行同步。當(dāng)任意一個集群服務(wù)器發(fā)生故障時,分布式結(jié)構(gòu)中的隱私大數(shù)據(jù)就會自動變成只讀狀態(tài),這樣可以有效地避免存儲結(jié)構(gòu)在不穩(wěn)定時,由于誤操作而造成初始數(shù)據(jù)信息被更改,也可以避免在配置服務(wù)器節(jié)點之間出現(xiàn)數(shù)據(jù)不一致。當(dāng)某個配置服務(wù)器出現(xiàn)故障時,并不會影響到整體存儲結(jié)構(gòu)的運行,并可保證挖掘的數(shù)據(jù)能夠成功寫入到分布式存儲結(jié)構(gòu)中。
根據(jù)分布式隱私數(shù)據(jù)特征,判斷數(shù)據(jù)的屬性類型。屬性分類技術(shù)的基本運行流程如圖2所示。
圖2 屬性分類技術(shù)流程圖
從圖2中可以看出,屬性分類可以分為5個環(huán)節(jié),首先利用公式(2)計算屬性的敏感系數(shù)。
(2)
其中:ηchange和ηUncertainties分別表示的是隱私數(shù)據(jù)變化率及其內(nèi)部不確定因素變化率[5]。根據(jù)公式(2)的計算結(jié)果,確定當(dāng)前數(shù)據(jù)屬性是否為敏感屬性,若判定數(shù)據(jù)屬性為敏感屬性,則可以直接輸出分類結(jié)果,否則需要提取數(shù)據(jù)信息熵、信息增益、最大信息系數(shù)等特征向量,其中,信息熵和信息增益特征的提取結(jié)果如下:
(3)
其中:nconceal為挖掘的隱私數(shù)據(jù)量,Pi為信息屬于任意屬性的概率,W(X)和W(X∣S)分別對應(yīng)的是隱私數(shù)據(jù)樣本集合量以及存在S屬性的樣本集合量[6]。同理可以得出隱私數(shù)據(jù)中其他特征的提取結(jié)果。屬性對于分類的重要性,可以根據(jù)信息增益值來排序,各個屬性權(quán)重的計算公式:
ωi=eτgain(i)
(4)
將公式(3)計算得出的信息增益特征提取結(jié)果代入到公式(4)中,即可得出屬性權(quán)重的計算結(jié)果。根據(jù)各個屬性權(quán)重的計算結(jié)果,對提取的隱私數(shù)據(jù)特征進行融合處理,處理過程如下:
τ=∑ωi·τi
(5)
式中,τi為提取的特征分量。在此基礎(chǔ)上,利用公式(6)計算隱私數(shù)據(jù)特征與標(biāo)準(zhǔn)屬性類型特征之間的相關(guān)性系數(shù):
(6)
其中:τstandard為設(shè)置的數(shù)據(jù)屬性標(biāo)準(zhǔn)特征,τ為提取的隱私數(shù)據(jù)融合特征,可通過公式(5)計算得出。若公式(6)的計算結(jié)果高于閾值λ0,則將對應(yīng)隱私數(shù)據(jù)與τstandard對應(yīng)類型劃分成一類,否則需要更換標(biāo)準(zhǔn)屬性類型特征,并重新計算相關(guān)性系數(shù),直至得出滿足閾值條件的屬性類型為止[7]。按照上述流程,對挖掘的所有分布式隱私數(shù)據(jù)進行屬性分類,完成分布式隱私數(shù)據(jù)屬性類型的劃分工作。
分布式數(shù)據(jù)隱私保護密鑰由公鑰和私鑰兩部分組成,利用Logistic混沌映射[8-10]迭代產(chǎn)生的二值序列經(jīng)過ySign()閾值函數(shù)轉(zhuǎn)換為二進制序列,輸出結(jié)果即為數(shù)據(jù)的隱私保護公鑰,其中ySign()閾值函數(shù)表達式如下:
(7)
其中:xn為待加密的分布式隱私數(shù)據(jù)。那么生成的隱私保護公鑰可以量化表示為:
(8)
其中:n為加密數(shù)據(jù)編號,那么在已知加密數(shù)據(jù)的情況下,利用公鑰生成對應(yīng)私鑰,即:
kpri=mxnβnmodn2
(9)
式中,β為隨機數(shù)。將生成的數(shù)據(jù)隱私保護公鑰分配給多個通過身份認證的用戶,而私鑰主要通過定點傳輸?shù)姆绞椒峙浣o指定用戶[11]。
以挖掘的分布式隱私大數(shù)據(jù)為處理對象,考慮隱私數(shù)據(jù)屬性的分類結(jié)果,通過匿名化、混沌映射以及同態(tài)加密等步驟,實現(xiàn)對隱私數(shù)據(jù)的加密處理,進而實現(xiàn)對隱私數(shù)據(jù)的保護。
1.4.1 隱私數(shù)據(jù)匿名化
匿名算法的主要工作是遍歷由屬性泛化層構(gòu)成的泛化格,按照預(yù)定義的屬性泛化層次以及節(jié)點中各屬性所選擇的泛化層次等級,對其進行遍歷,并檢驗每個節(jié)點是否符合對應(yīng)的匿名原則,再以當(dāng)前節(jié)點的匿名狀態(tài)為依據(jù),對整個搜索空間上進行修剪,在優(yōu)化設(shè)計的加密控制模型中,使用k-匿名原則對節(jié)點進行驗證[12]。在隱私數(shù)據(jù)匿名化處理過程中,首先需要對隱私數(shù)據(jù)進行泛化切片處理,處理結(jié)果如下:
f(x):{c}→s
(10)
其中:f(x)為隱私數(shù)據(jù)x對應(yīng)的泛化切片結(jié)果,c表示屬性分類樹中擁有相同父節(jié)點的泛化樹兄弟節(jié)點的最大集合,s為隱私數(shù)據(jù)對應(yīng)的屬性值。對泛化后的數(shù)據(jù)記錄進行處理,看當(dāng)前泛化的記錄是否符合匿名化閾值,若符合則該泛化切片為可行的泛化結(jié)果。當(dāng)匿名化閾值不符合時,那么這個泛化就不能被采用[13]。針對通過匿名驗證的隱私數(shù)據(jù)節(jié)點,執(zhí)行匿名化轉(zhuǎn)換操作。匿名化轉(zhuǎn)換操作包括3個部分,路徑尋找算法負責(zé)建立一條由未被標(biāo)記的節(jié)點構(gòu)成的路徑,路徑審核算法負責(zé)審查建立路徑上的節(jié)點是否滿足匿名原則,從而找到一個符合條件的最優(yōu)解決方案,最后一部分是算法整體的外部循環(huán),負責(zé)遍歷整個泛化格結(jié)構(gòu),找出既符合相對匿名原則,又信息損失較小的節(jié)點[14]。第0個泛化等級開始遍歷表格中的所有泛化層次,并對各個層級的節(jié)點進行列舉,若節(jié)點未被標(biāo)注,就對其進行路徑搜索,將其添加到該路徑中,然后進行下一步的檢查;在對發(fā)現(xiàn)的路徑執(zhí)行完畢路徑檢查算法后,對于檢查路徑中不滿足k-匿名的節(jié)點,從底層節(jié)點出發(fā),依次對后繼節(jié)點進行處理,為未標(biāo)記的后繼節(jié)點建立新的路徑,并對新的路徑進行檢查。最終得出的隱私數(shù)據(jù)匿名化處理結(jié)果如下:
xanonymous=κintensity·Aanonymous·f(x)
(11)
其中:κintensity為匿名強度,Aanonymous為匿名轉(zhuǎn)換矩陣。重復(fù)上述操作,得出分布式隱私大數(shù)據(jù)的匿名化處理結(jié)果。
1.4.2 混沌映射
混沌映射是分布式隱私數(shù)據(jù)的一種加密處理方式,利用Logistic混沌映射原理,得出的分布式隱私數(shù)據(jù)的處理結(jié)果為:
xchaos=xi(α-δxi)
(12)
式中,α為分布式隱私數(shù)據(jù)的增加率,δ為考慮外界因素的映射關(guān)系飽和度[15]。將挖掘的分布式隱私數(shù)據(jù)代入公式(12)中,即可得出混沌映射處理結(jié)果。
1.4.3 同態(tài)加密
同態(tài)加密將分布式隱私數(shù)據(jù)從可讀模式轉(zhuǎn)換成編碼模式,經(jīng)過同態(tài)加密的隱私數(shù)據(jù)智能在解密后進行讀取或處理。數(shù)據(jù)的同態(tài)加密原理如圖3所示。
圖3 分布式隱私數(shù)據(jù)同態(tài)加密原理圖
按照圖3表示加密原理,利用生成的數(shù)據(jù)隱私保護密鑰執(zhí)行隱私數(shù)據(jù)的加密操作。在開始加密之前,首先對數(shù)據(jù)進行分解處理,首先確定其上的所有極值點,用3次樣條曲線連接所有極大值點形成下包絡(luò)線,將其標(biāo)記為b1,則隱私數(shù)據(jù)的一級分解結(jié)果為:
xresolve(1)=x-b1
(13)
重復(fù)上述步驟,直到滿足同態(tài)加密操作對數(shù)據(jù)的分解精度條件。在此基礎(chǔ)上,利用生成的密鑰通過正向或反向得出隱私數(shù)據(jù)的加密結(jié)果,可以量化表示為:
(14)
其中:κencryption為隱私數(shù)據(jù)的加密強度,k(xn)為隱私數(shù)據(jù)密鑰,融合了公鑰和私鑰兩個部分,xn-1和xn+1為隱私保護數(shù)據(jù)的前后兩個相鄰數(shù)據(jù)[16]。在實際的隱私數(shù)據(jù)同態(tài)加密過程中,根據(jù)數(shù)據(jù)屬性的分類結(jié)果確定參數(shù)κencryption的具體取值。由此完成分布式數(shù)據(jù)的隱私保護加密處理。
分布式大數(shù)據(jù)隱私保護架構(gòu)涉及主體包括隱私數(shù)據(jù)主體、服務(wù)運營商以及數(shù)據(jù)訪問用戶3種角色,其中隱私數(shù)據(jù)主體也就是分布式大數(shù)據(jù)的產(chǎn)生終端,該角色能夠生成隱私保護數(shù)據(jù),服務(wù)運營商能夠為隱私數(shù)據(jù)的保護提供技術(shù)支持,實現(xiàn)訪問用戶的隱私保護[17]。而數(shù)據(jù)訪問用戶也就是申請訪問、查詢、調(diào)用隱私數(shù)據(jù)的用戶終端,可通過對用戶身份的驗證,對數(shù)據(jù)訪問用戶賦予相應(yīng)的訪問權(quán)限。在分布式大數(shù)據(jù)環(huán)境下,考慮隱私保護數(shù)據(jù)屬性的分類結(jié)果,根據(jù)用戶角色類型對其訪問權(quán)限進行初始化,按照上述加密方式生成公鑰和私鑰。在訪問過程中,用戶向分布式大數(shù)據(jù)端發(fā)送訪問申請,通過身份認證的用戶可以直接獲得公鑰,而滿足隱私數(shù)據(jù)訪問屬性類型條件的用戶能夠獲得私鑰,用戶利用公鑰和私鑰直接實現(xiàn)對隱私數(shù)據(jù)的訪問[18-20]。在用戶訪問過程中,若檢測出異常操作,則執(zhí)行屬性訪問撤銷操作,定義用戶訪問行為標(biāo)識符為Iui,則屬性訪問撤銷指令可以表示為:
c=
(15)
其中:h為用戶訪問過程中產(chǎn)生的標(biāo)識符數(shù)量,k(ui)代表的是用戶在執(zhí)行第i個訪問環(huán)節(jié)使用的密鑰,s為屬性分類結(jié)果[21-22]。在已知當(dāng)前訪問操作信息的情況下,可以推算出初始操作信息,從而恢復(fù)出Iu0,分布式大數(shù)據(jù)管理終端利用恢復(fù)的Iu0更新密鑰和用戶隱私保護數(shù)據(jù)的加密,而撤銷屬性權(quán)限的用戶因無法獲取新密鑰不能繼續(xù)訪問接下來的信息,從而在功能上實現(xiàn)對該用戶訪問權(quán)限的撤銷。
上述分布式大數(shù)據(jù)隱私保護加密控制模型的運行需要加密策略安全傳輸協(xié)議作為約束條件,具體的協(xié)議運行時序如圖4所示。
圖4 隱私保護加密傳輸協(xié)議運行時序圖
在圖4表示協(xié)議的約束下,合法用戶可以在分布式大數(shù)據(jù)環(huán)境中進行隱私數(shù)據(jù)的緩存,同一用戶無需重復(fù)執(zhí)行身份驗證程序,當(dāng)用戶退出系統(tǒng)終止緩存程序[23]。在傳輸協(xié)議的約束下,對實時產(chǎn)生的隱私數(shù)據(jù)進行加密與訪問控制,實現(xiàn)模型的隱私保護功能。
為了驗證設(shè)計的基于屬性分類的分布式大數(shù)據(jù)隱私保護加密控制模型的有效性,進行模型驗證實驗分析。此次實驗分為3個部分,分別為加密效果測試、控制效果測試以及隱私保護效果測試。其中,加密效果測試原理是驗證密文與明文之間的相似度,相似度越高證明加密效果越差,無法達到隱私隱藏與保護效果??刂菩Ч麥y試的目的是驗證模型是否能夠?qū)崿F(xiàn)對非法用戶、無授權(quán)用戶的訪問攔截,從而獲取用戶訪問控制的細粒度,而隱私保護效果測試則是在有、無攻擊環(huán)境下,對存儲的分布式隱私大數(shù)據(jù)的泄露風(fēng)險以及信息損失進行度量,最終通過與基于同態(tài)加密的數(shù)據(jù)隱私保護加密控制模型(文獻[3]方法)和基于可搜索加密機制的數(shù)據(jù)隱私保護加密控制(文獻[4]方法)進行對比,驗證設(shè)計模型的效果。
為了實現(xiàn)基于屬性分類的分布式大數(shù)據(jù)隱私保護加密控制模型的開發(fā),并為模型的運行提供硬件支持,需要對其運行環(huán)境進行配置。需要配置的硬件設(shè)備包括主測計算機、應(yīng)用服務(wù)器和數(shù)據(jù)服務(wù)器。主測計算機設(shè)備選擇Y9000P2022型號計算機,以異步雙核設(shè)計方式配置CPU元件,內(nèi)部集成兩個Scorpion核心,工作頻率最高達到2.33 GHz,計算機中內(nèi)置的RAM和ROM分別為800 MB和2 GB[24]。應(yīng)用服務(wù)器采用HP微機服務(wù)器,內(nèi)存為4 GB,硬盤存儲空間為300 GB,應(yīng)用服務(wù)器為分布式大數(shù)據(jù)的處理提供支持。而數(shù)據(jù)庫存儲器用來存儲分布式隱私大數(shù)據(jù),數(shù)據(jù)庫系統(tǒng)采用Oracle9i。從軟件分布來看,分布式大數(shù)據(jù)隱私保護加密控制模型均在Windows7的64位操作系統(tǒng)下運行,編程語言為MATLAB。
選擇UCI機器學(xué)習(xí)數(shù)據(jù)庫中的Adult數(shù)據(jù)集作為實驗數(shù)據(jù)來源,數(shù)據(jù)庫中的數(shù)據(jù)內(nèi)容包括:姓名、性別、年齡、教育程度、家庭住址、職業(yè)、婚姻狀況等,初始準(zhǔn)備的隱私保護數(shù)據(jù)共58 450條,輸入到模型中的數(shù)據(jù)量為45.6 GB。
為了模擬分布式大數(shù)據(jù)的實際運行環(huán)境,模擬對分布式隱私數(shù)據(jù)的明文攻擊過程,并編寫相應(yīng)的攻擊程序。在已知隱私數(shù)據(jù)中部分明文或密文的情況下,反向推導(dǎo)出分布式隱私數(shù)據(jù)的加密方式,由此生成相應(yīng)密鑰,用戶破解隱私數(shù)據(jù)。實驗中編寫的攻擊程序為動態(tài)程序,即可以根據(jù)加密隱私數(shù)據(jù)的狀態(tài)調(diào)整攻擊方式與參數(shù),但攻擊程序只能同時對一個數(shù)據(jù)節(jié)點發(fā)起攻擊[25]。按照上述原理,針對分布式存儲的隱私數(shù)據(jù),利用thalheim編碼工具,實現(xiàn)分布式大數(shù)據(jù)隱私攻擊程序的編寫。在編寫的攻擊程序的首尾兩端添加強制控制指令,最大程度地保證攻擊程序運行狀態(tài)的可控性。
在配置的加密模型運行環(huán)境中,利用相應(yīng)的編程語言實現(xiàn)設(shè)計的基于屬性分類的分布式大數(shù)據(jù)隱私保護加密控制模型的開發(fā)。將準(zhǔn)備的隱私保護數(shù)據(jù)樣本導(dǎo)入其中,在不運行攻擊程序的前提下,完成對數(shù)據(jù)樣本的加密,加密結(jié)果如圖5所示。
圖5 分布式大數(shù)據(jù)隱私保護加密結(jié)果
在此基礎(chǔ)上,生成多個模擬用戶節(jié)點,并設(shè)置用戶身份與角色,分配用戶權(quán)限,模擬用戶的訪問過程,在模型作用下得出分布式隱私保護加密數(shù)據(jù)的訪問控制結(jié)果,如圖6所示。
圖6 分布式隱私保護加密數(shù)據(jù)訪問控制界面
由此完成基于屬性分類的分布式大數(shù)據(jù)隱私保護加密控制模型的開發(fā)與運行任務(wù)。根據(jù)分布式隱私數(shù)據(jù)的動態(tài)變化情況,對加密結(jié)果以及訪問控制指令進行實時更新。經(jīng)過一段時間周期后,啟動編寫的明文攻擊程序,獲取攻擊工況下隱私數(shù)據(jù)的變化情況,以此作為測試結(jié)果數(shù)據(jù)。為了驗證設(shè)計模型在性能與效果方面的優(yōu)勢,選擇對比模型,在相同的開發(fā)環(huán)境下對同一批隱私數(shù)據(jù)進行加密與控制處理。
從加密性能、控制性能、隱私保護效果3個方面設(shè)置模型的量化測試指標(biāo),將明文/密文相似度作為模型加密性能的量化測試指標(biāo),其數(shù)值結(jié)果如下:
(16)
其中:Xmw和Xciphertext分別表示的是隱私數(shù)據(jù)的明文和密文。模型訪問性能的測試指標(biāo)設(shè)置為訪問撤銷控制準(zhǔn)確率,該指標(biāo)的測試結(jié)果為:
(17)
式中,Ncancel和Nabnormal分別為訪問撤銷的用戶數(shù)量以及設(shè)置的異常用戶數(shù)量。另外模型隱私保護效果的測試指標(biāo)為隱私泄露風(fēng)險指數(shù)和隱私數(shù)據(jù)損失量,其中隱私泄露風(fēng)險指數(shù)的測試結(jié)果如下:
(18)
其中:φloss為隱私數(shù)據(jù)的損失量,Nmw表示隱私數(shù)據(jù)明文總量,而指標(biāo)隱私數(shù)據(jù)損失量的數(shù)值結(jié)果為:
φloss=Nmw-Njm
(19)
式中,Njm為解密后的隱私數(shù)據(jù),將公式(19)的計算結(jié)果代入到公式(18)中,即可得出隱私泄露風(fēng)險指數(shù)的測試結(jié)果。最終計算得出明文/密文相似度μ越低,說明模型加密性能越好,訪問撤銷控制準(zhǔn)確率ηvisit越高,證明模型控制性能越好,隱私泄露風(fēng)險指數(shù)?越低、損失數(shù)據(jù)量φloss越少,說明模型的隱私保護效果越好。
2.6.1 加密性能測試
收集初始隱私明文數(shù)據(jù)以及不同模型下輸出的加密結(jié)果,將相關(guān)數(shù)據(jù)代入到公式(16)中,得出模型加密性能的測試對比結(jié)果,如圖7所示。
圖7 分布式大數(shù)據(jù)隱私保護加密性能測試對比曲線
從圖7中可以直觀地看出,與兩種對比模型相比,設(shè)計模型輸出的加密密文與初始明文之間的相似度更低,由此說明設(shè)計模型的加密性能較好。
2.6.2 控制性能測試
統(tǒng)計訪問分布式隱私數(shù)據(jù)的用戶數(shù)量,通過對異常數(shù)據(jù)的設(shè)置,確定變量Nabnormal的具體取值,在模型作用下實時監(jiān)測用戶的訪問進程數(shù)據(jù),得出反映模型控制性能的測試結(jié)果,如表1所示。
表1 隱私保護加密控制模型控制性能測試數(shù)據(jù)表
將表1中的數(shù)據(jù)代入到公式(17)中得出,兩種對比模型的平均訪問撤銷控制準(zhǔn)確率分別為87.7%和94.3%,而在設(shè)計模型的訪問撤銷控制準(zhǔn)確率的平均值為98.9%。由此可知,設(shè)計模型的控制性能較好。
2.6.3 隱私保護效果測試
在有、無攻擊條件下,對隱私數(shù)據(jù)明文與解密結(jié)果進行統(tǒng)計,得出隱私數(shù)據(jù)損失量指標(biāo)的測試結(jié)果,如表2所示。
表2 隱私數(shù)據(jù)損失量測試數(shù)據(jù)表
將表2中的數(shù)據(jù)代入到公式(19)中計算得出,在無攻擊工況下,3個模型的平均隱私數(shù)據(jù)損失量分別為0.52 GB、0.16 GB和0.04 GB,而在有攻擊工況下,3個模型隱私數(shù)據(jù)損失量的平均值分別為1.18 GB、0.78 GB和0.18 GB。由此可以看出,在有、無攻擊工況下,設(shè)計模型的隱私數(shù)據(jù)損失量均較少,設(shè)計模型的隱私保護性能較好。另外通過公式(18)的計算,得出不同模型下隱私泄露風(fēng)險的測試對比結(jié)果,如圖8所示。
圖8 不同模型作用下隱私泄露風(fēng)險測試對比結(jié)果
從圖8中可以看出,在設(shè)計模型作用下,隱私數(shù)據(jù)的泄露風(fēng)險更低,綜合隱私數(shù)據(jù)損失量的測試結(jié)果,表明設(shè)計模型在隱私保護效果方面具有明顯優(yōu)勢,能夠有效提高分布式大數(shù)據(jù)的存儲和傳輸安全性。
針對用戶數(shù)據(jù)的隱私保護問題,設(shè)計了基于屬性分類的分布式大數(shù)據(jù)隱私保護加密控制模型。該模型應(yīng)用屬性分類技術(shù),確定加密等級與強度,實現(xiàn)對分布式大數(shù)據(jù)隱私保護的最大化。實驗結(jié)果表明,設(shè)計模型在加密、控制以及隱私保護方面具有明顯優(yōu)勢,能夠有效提高分布式大數(shù)據(jù)的存儲和傳輸安全性。