徐紅兵
(萬博科技職業(yè)學(xué)院 理工分院,安徽合肥,230031)
大數(shù)據(jù)不僅僅是指數(shù)據(jù)量大,同時(shí)也意味著數(shù)據(jù)中蘊(yùn)含的信息也有巨大的價(jià)值。但在研究過程中存在著數(shù)據(jù)被泄露的危險(xiǎn),且存在于數(shù)據(jù)交互的諸多環(huán)節(jié)中,很容易造成數(shù)據(jù)庫中用戶隱私數(shù)據(jù)的泄露,甚至被一些不法人員用來進(jìn)行電話詐騙的媒介,所以大數(shù)據(jù)時(shí)代的隱私保護(hù)也成為了亟待解決的問題[1]。
在數(shù)據(jù)挖掘中最基礎(chǔ)、最頻繁的動(dòng)作就是數(shù)據(jù)的線性查詢,因此,線性查詢?cè)跀?shù)據(jù)的隱私保護(hù)中占據(jù)著極其重要的位置,尤其是交互式線性查詢,更是增加了數(shù)據(jù)訪問過程中數(shù)據(jù)的處理量,數(shù)據(jù)量偏大使得傳統(tǒng)數(shù)據(jù)隱私保護(hù)模型的檢測(cè)效率往往較低[2]。本文針對(duì)大規(guī)模數(shù)據(jù)集隱私保護(hù)的需求和交互式數(shù)據(jù)訪問的特點(diǎn),提出了改進(jìn)的差分隱私保護(hù)模型。改進(jìn)模型通過對(duì)大數(shù)據(jù)集的關(guān)聯(lián)性進(jìn)行分析以減少交互式查詢過程中冗余信息的計(jì)算,采用交替方向乘子法提高負(fù)載矩陣的分解速度,最后采用自適應(yīng)加噪技術(shù)生成差分隱私模型所需的噪聲數(shù)據(jù)以解決數(shù)據(jù)靈敏度問題。
上世紀(jì)60年代,Dalenius第一次提出了隱私保護(hù)的問題,隱私保護(hù)的主要思想是包含使用者和入侵者在內(nèi)的任何用戶在訪問數(shù)據(jù)庫數(shù)據(jù)時(shí)都無法獲取準(zhǔn)確的信息。隱私保護(hù)可以分為分組隱私保護(hù)和差分隱私保護(hù),常見的有k-匿名分組保護(hù)算法、差分隱私保護(hù)算法等[3]。
數(shù)據(jù)隱私保護(hù)存在于許多領(lǐng)域中,數(shù)據(jù)查詢是隱私保護(hù)領(lǐng)域中最基礎(chǔ)、最常見的一個(gè)環(huán)節(jié)。線性數(shù)據(jù)查詢通常分為交互式與非交互式兩種,交互式查詢更多的用于具有保密要求的數(shù)據(jù)交互中,交互過程中會(huì)對(duì)交互數(shù)據(jù)進(jìn)行處理,所以交互的開銷會(huì)受到交互的數(shù)據(jù)量量級(jí)的影響。如果在大數(shù)據(jù)的交互過程中仍然采用原始的線性查詢隱私保護(hù)策略,則會(huì)使得數(shù)據(jù)處理的時(shí)間開銷難以令人接受,所以對(duì)大規(guī)模數(shù)據(jù)集的隱私保護(hù)模型進(jìn)行改進(jìn)極有必要。
差分隱私保護(hù)模型的基本思路是數(shù)據(jù)集中任意個(gè)體的存在與否對(duì)用戶的查詢結(jié)果不會(huì)造成劇烈影響。設(shè)數(shù)據(jù)集為D,其中的個(gè)體數(shù)據(jù)為A,對(duì)數(shù)據(jù)集查詢的動(dòng)作為f,查詢的結(jié)果用f(D)表示。如果將數(shù)據(jù)集D中的個(gè)體A刪除掉,并重復(fù)查詢動(dòng)作f所獲得的結(jié)果仍然為f(D),則認(rèn)為數(shù)據(jù)A存在于數(shù)據(jù)集D中與否并沒有對(duì)數(shù)據(jù)集D產(chǎn)生任何風(fēng)險(xiǎn)。M表示差分隱私保護(hù)的隨機(jī)算法,PM表示隨機(jī)算法M所有可能輸出的集合,如果隨機(jī)算法M對(duì)于任意的數(shù)據(jù)集D、數(shù)據(jù)集D’與結(jié)果集PM的所有SM都滿足式(1)的約束,則稱隨機(jī)算法M具備ε-差分隱私保護(hù)的能力,其中ε表示隱私保護(hù)預(yù)算。
Pr[M(D)∈SM]≤exp(ε)×Pr[M(D’)∈SM]
(1)
差分隱私保護(hù)模型應(yīng)用于大數(shù)據(jù)環(huán)境下的交互式查詢的基本思路是:(1)獲取數(shù)據(jù)間的關(guān)聯(lián)關(guān)系以減少冗余計(jì)算;(2)采用交替方向乘子法對(duì)查詢負(fù)載矩陣進(jìn)行分解;(3)采用自適應(yīng)的加噪算法實(shí)現(xiàn)數(shù)據(jù)加噪;(4)返還真實(shí)結(jié)果。改進(jìn)的差分模型的結(jié)構(gòu)圖如圖1所示,可以看出模型供分為三個(gè)部分,即數(shù)據(jù)關(guān)聯(lián)屬性計(jì)算、負(fù)載矩陣的高效分解、數(shù)據(jù)加噪和去噪。其流程為:(1)在數(shù)據(jù)集中查詢并獲取數(shù)據(jù);(2)設(shè)置最小支持度和最小置信度,并通過計(jì)算負(fù)載矩陣間的關(guān)聯(lián)關(guān)系,減少冗余的數(shù)據(jù)計(jì)算;(3)對(duì)關(guān)聯(lián)關(guān)系和負(fù)載矩陣進(jìn)行分解,獲取分解結(jié)果;(4)對(duì)矩陣分解結(jié)果L和數(shù)據(jù)集D添加Laplace噪聲,以實(shí)現(xiàn)差分隱私保護(hù);(5)將添加噪聲的結(jié)果返回給查詢的用戶。
圖1 大數(shù)據(jù)環(huán)境中交互式查詢差分
改進(jìn)的差分隱私保護(hù)模型選用FP-growth算法[4]對(duì)數(shù)據(jù)中隱藏的關(guān)聯(lián)模式進(jìn)行挖掘,通過關(guān)聯(lián)模式實(shí)現(xiàn)冗余數(shù)據(jù)的篩選。
圖2 基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)篩選模型流程圖
如圖2所示,基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)篩選模型具體流程如下:
(1)全面掃描數(shù)據(jù)集,獲取頻繁項(xiàng)候選集;
(2)根據(jù)最小支持度minSup對(duì)頻繁項(xiàng)候選集進(jìn)行篩選,構(gòu)建FP-tree;
(3)對(duì)構(gòu)建的FP-tree進(jìn)行剪枝處理;
(4)利用剪枝后的FP-tree樹建構(gòu)前綴路徑集合;
(5)利用前綴路徑集合獲取數(shù)據(jù)關(guān)聯(lián)模式。
圖3 基于差分隱私的自適應(yīng)加噪模型流程圖
基于差分隱私的自適應(yīng)加噪模型流程圖如圖3所示,具體流程為:
(2)利用Laplace機(jī)制對(duì)數(shù)據(jù)集L和數(shù)據(jù)集D添加ε噪聲;
(3)去掉數(shù)據(jù)的無關(guān)屬性,并對(duì)其還原;
(4)返回?cái)?shù)據(jù)結(jié)果
通過設(shè)置最小支持度,計(jì)算出數(shù)據(jù)集的關(guān)聯(lián)關(guān)系,結(jié)果如表1所示。
表1 關(guān)聯(lián)性分析表
從表1可以看出,經(jīng)過處理后數(shù)據(jù)項(xiàng)的數(shù)量有效減少,降低了后續(xù)計(jì)算的壓力和時(shí)間、空間開銷。
表2 隱私保護(hù)結(jié)果表
表2結(jié)果為改進(jìn)的差分隱私保護(hù)模型與LRM模型[5]、MM模型[6]相比較的結(jié)果,表中數(shù)值表示添加噪聲前后的數(shù)據(jù)距離。從表中結(jié)果可以看出,當(dāng)ε為1.25時(shí),三種算法的結(jié)果接近,其他情況時(shí),改進(jìn)的差分隱私保護(hù)模型結(jié)果要更好些。
文章針對(duì)大數(shù)據(jù)交互式查詢過程中存在的差分隱私保護(hù)問題和隱私檢測(cè)效率偏低的問題,結(jié)合大數(shù)據(jù)交互式線性查詢特點(diǎn)和差分隱私保護(hù)特點(diǎn),通過引入關(guān)聯(lián)模型減少冗余信息的計(jì)算,采用交替方向乘子法對(duì)查詢負(fù)載矩陣進(jìn)行分解,并采用自適應(yīng)加噪技術(shù)生成差分隱私模型所需的噪聲數(shù)據(jù),最后采用實(shí)驗(yàn)驗(yàn)證了本文模型的有效性。
信陽農(nóng)林學(xué)院學(xué)報(bào)2019年2期