龔晨
摘要:隱私保護(hù)是現(xiàn)代信息安全領(lǐng)域一項(xiàng)重要的技術(shù)。針對(duì)傳統(tǒng)局部差分隱私以拉普拉斯來實(shí)現(xiàn)輸出擾動(dòng),但其對(duì)攻擊者來說,保護(hù)效果會(huì)存在一定不足。本文采用隨機(jī)響應(yīng)方式對(duì)原始數(shù)據(jù)集進(jìn)行擾動(dòng),從原始數(shù)據(jù)入手,較好提升隱私保護(hù)力度。并對(duì)隱私保護(hù)的重要參數(shù)ε的選取,提出一種新的數(shù)據(jù)模型,用來計(jì)算和確定ε的值。通過實(shí)驗(yàn)表明,本文算法的保護(hù)性能優(yōu)于傳統(tǒng)隱私保護(hù)方法。
關(guān)鍵詞: 隱私保護(hù);隨機(jī)響應(yīng);數(shù)據(jù)模型
中圖分類號(hào): TP391? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)21-0040-02
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Abstract: Privacy protection is an important technology in the field of modern information security. For traditional local differential privacy, Laplace is used to achieve output disturbance, but for the attacker, the protection effect will be insufficient. This paper uses the random response method to perturb the original data set, starting from the original data, and better improving the privacy protection. A new data model is proposed for the selection of the important parameter ε of privacy protection, which is used to calculate and determine the value of ε. Experiments show that the protection performance of the proposed algorithm is better than the traditional privacy protection method.
Key words: privacy protection; random response; data model
在20世紀(jì)90年代,隱私保護(hù)技術(shù)起源于Massachusetts選民登記表中的健康信息。差分隱私適應(yīng)傳統(tǒng)隱私保護(hù)技術(shù)的不足發(fā)展起來[1]。傳統(tǒng)隱私要假定場景,需要干擾者的各方面背景知識(shí),而差分隱私不需關(guān)心干擾者的任何背景知識(shí),且能保證隱私信息的任何一條記錄都不會(huì)泄露。局部差分隱私作為差分隱私必不可少的一部分,控制參數(shù)ε合理情況下,可以有效保護(hù)敏感數(shù)據(jù)隱私[2]。
差分隱私研究工作已經(jīng)成為研究的熱點(diǎn)。其中Albarghouthi等人[3]提出一種按鈕形式的自動(dòng)化技術(shù),驗(yàn)證復(fù)雜隨機(jī)化算法對(duì)敏感數(shù)據(jù)保護(hù)能力。同時(shí)提出基于約束的隱私問題表達(dá)式,解決了模耦合約束問題,提高了隱私力度,但未考慮參數(shù)ε的具體問題,局部差分隱私的優(yōu)越性也未利用。Zhang等人[4]提出基于續(xù)航式的差分隱私方案,解決數(shù)據(jù)共存導(dǎo)致敏感數(shù)據(jù)信息泄露的問題,提高隱私保護(hù)能力,然而就參數(shù)ε而言未考慮,局部隱私的好處也沒有展現(xiàn)出來。為解決上述問題,本文提出新型局部差分隱私方案,控制參數(shù)ε的具體取值,增強(qiáng)隱私保護(hù)力度。
1 本文隱私保護(hù)工作
1.1隨機(jī)響應(yīng)機(jī)制
通過表1說明隨機(jī)響應(yīng)是如何實(shí)現(xiàn)差分隱私保護(hù)的。假設(shè)有五個(gè)某公司職員元祖數(shù)據(jù),每個(gè)職員有姓名(Name)、年齡(Age)、工資(Salary)以及職務(wù)(Career)四個(gè)屬性,現(xiàn)攻擊者除了不知道Tom的工資外,已經(jīng)了解其他所有數(shù)據(jù)。為獲取Tom的工資數(shù)據(jù),Attacker通過發(fā)送語句F:select Salary from table1 where Name=Tom。
如若對(duì)攻擊者發(fā)出的查詢語句不加任何干擾,則該查詢語句會(huì)返回Tom職員的真實(shí)工資數(shù)據(jù),導(dǎo)致數(shù)據(jù)泄露。隨機(jī)響應(yīng)擾動(dòng)的原理是:當(dāng)攻擊者在使用查詢語句查詢之前,利用隨機(jī)擾動(dòng)法對(duì)Name屬性的五個(gè)職員名字進(jìn)行小概率的交換位置。
1.2? 參數(shù)ε選取模型
式(1)中,F(xiàn)(T1)和F(T2)分別為真實(shí)查詢結(jié)果、隨機(jī)響應(yīng)擾動(dòng)后查詢結(jié)果,T1和T2分別為隨機(jī)擾動(dòng)前后的原始數(shù)據(jù)集。定位查詢語句F的敏感度ΔF為:
原始的ε參數(shù)計(jì)算公式為:
為減少ε所依賴的參數(shù),并使其不再與數(shù)據(jù)集本身相關(guān),從而降低其值所受干擾程度,本文提出一種新的計(jì)算ε的模型公式,在明確了隨機(jī)響應(yīng)干擾率pr、查詢語句敏感度ΔF以及攻擊者攻擊成功率λ后,即可得出ε的值,計(jì)算如下:
2 實(shí)驗(yàn)結(jié)果與分析
本文實(shí)驗(yàn)數(shù)據(jù)集采用Adult數(shù)據(jù)集,使用本文提出的新型局部差分隱私保護(hù)方法與傳統(tǒng)的方法相比較,得出其在成人數(shù)據(jù)集上對(duì)于屬性的保護(hù)率以及攻擊成功率。實(shí)驗(yàn)結(jié)果如表2所示。
由上表2數(shù)據(jù)分析可知,本文采用隨機(jī)響應(yīng)干擾機(jī)制結(jié)合一種新的ε參數(shù)計(jì)算公式,對(duì)成人數(shù)據(jù)集的屬性保護(hù)率比傳統(tǒng)的局部差分隱私方法要高,攻擊者通過查詢語句獲得正確的數(shù)據(jù)可能性較低。因而對(duì)于攻擊者來說,攻擊成功率下降了,對(duì)于數(shù)據(jù)庫來說,本文提出新的局部差分隱私保護(hù)算法擁有更高效的保護(hù)性能。
3 結(jié)論
傳統(tǒng)的局部差分隱私使用拉普拉斯對(duì)攻擊者查詢結(jié)果進(jìn)行擾動(dòng),但對(duì)于先驗(yàn)知識(shí)較高的攻擊者而言,容易估算出真實(shí)數(shù)據(jù),并為降低原始的ε參數(shù)與數(shù)據(jù)集耦合性,本文提出一種新的局部差分隱私方法。利用隨機(jī)響應(yīng)機(jī)制直接對(duì)原始數(shù)據(jù)集進(jìn)行干擾,并給出一種新的ε參數(shù)計(jì)算模型。通過實(shí)驗(yàn)證明,其對(duì)于數(shù)據(jù)的保護(hù)能力優(yōu)于原始的局部差分隱私。
參考文獻(xiàn):
[1] 陳麗麗. 大數(shù)據(jù)安全與隱私保護(hù)[J]. 現(xiàn)代工業(yè)經(jīng)濟(jì)和信息化, 2017,7(04):92-93.
[2] 高志強(qiáng), 王宇濤. 差分隱私技術(shù)研究進(jìn)展[J]. 通信學(xué)報(bào), 2017,38(S1):151-155.
[3] Albarghouthi A, Hsu J. Synthesizing Coupling Proofs of Differential Privacy[J]. Proceedings of the ACM on Programming Languages, 2017,2(POPL):1-30.
[4] Zhang Z, Zhan Q, Zhu L, et al. Cost-friendly Differential Privacy for Smart Meters: Exploiting the Dual Roles of the Noise[J]. IEEE Transactions on Smart Grid, 2017,(99):1.
【通聯(lián)編輯:唐一東】