付鈺,俞藝涵,吳曉平
(海軍工程大學(xué)信息安全系,湖北 武漢 430033)
互聯(lián)網(wǎng)創(chuàng)新已經(jīng)進(jìn)入一個(gè)前所未有的大數(shù)據(jù)時(shí)代,為利用其中海量有價(jià)值的數(shù)據(jù)信息,不可避免地會(huì)對(duì)數(shù)據(jù)進(jìn)行收集與分析,而過(guò)度的數(shù)據(jù)收集使隱私泄露問(wèn)題日益凸顯[1]。以近年來(lái)興起的互聯(lián)網(wǎng)金融點(diǎn)對(duì)點(diǎn)(P2P,point to point)借貸[2-3]模式為例,目前國(guó)內(nèi)P2P 理財(cái)平臺(tái)數(shù)量在5 000 家左右,這些平臺(tái)在為用戶提供服務(wù)時(shí),收集用戶相關(guān)隱私信息來(lái)分析用戶的還貸能力,其中最基本的身份驗(yàn)證要求是用戶的身份證信息或者經(jīng)實(shí)名制驗(yàn)證的手機(jī)號(hào)碼信息,除此之外,用戶的個(gè)人征信報(bào)告、信用卡賬單郵箱、網(wǎng)購(gòu)記錄和通訊錄等個(gè)人隱私信息也普遍被P2P 平臺(tái)獲權(quán)查閱并記錄。一方面,絕大多數(shù)P2P 平臺(tái)對(duì)于用戶隱私數(shù)據(jù)的隱私保護(hù)級(jí)別不高,甚至存在為拉攏用戶而進(jìn)行信息共享的行為;另一方面,在眾多P2P 平臺(tái)中,有信息安全隱患的問(wèn)題平臺(tái)約占總數(shù)的,這些問(wèn)題平臺(tái)自身并不可信,且會(huì)頻繁遭受網(wǎng)絡(luò)黑客的攻擊,其用戶個(gè)人隱私信息極不安全。
隨著數(shù)據(jù)挖掘及信息安全技術(shù)的不斷發(fā)展,針對(duì)特定數(shù)據(jù)的隱私保護(hù)問(wèn)題,國(guó)內(nèi)外學(xué)者已經(jīng)開(kāi)展了卓有成效的研究工作,主要通過(guò)匿名化技術(shù)[4]和數(shù)據(jù)加密技術(shù)[5]等來(lái)實(shí)現(xiàn)隱私保護(hù)。近年來(lái),有學(xué)者提出隱私計(jì)算的概念[6],探討了隱私計(jì)算的應(yīng)用[7-8],這為隱私識(shí)別與量化評(píng)估提供了條件??紤]到互聯(lián)網(wǎng)下的隱私信息具有數(shù)據(jù)量大、類別多、層次關(guān)系復(fù)雜等特點(diǎn),而基于匿名化和數(shù)據(jù)加密的隱私保護(hù)技術(shù)又需要緊密依賴背景知識(shí)假設(shè),只能保證單一數(shù)據(jù)集上隱私不被泄露的局限性往往難以滿足互聯(lián)網(wǎng)下針對(duì)大數(shù)據(jù)隱私保護(hù)的要求。所以,人們開(kāi)始關(guān)注差分隱私(DP,differential privacy)保護(hù)技術(shù)及其應(yīng)用,差分隱私是Dwork[9]在2006 年針對(duì)統(tǒng)計(jì)數(shù)據(jù)庫(kù)的隱私泄露問(wèn)題所提出的一種隱私的概念。差分隱私保護(hù)模型就是一種建立在嚴(yán)格的數(shù)學(xué)基礎(chǔ)之上,通過(guò)對(duì)隱私泄露風(fēng)險(xiǎn)做定量的形式化證明,并保有數(shù)據(jù)極大可用性的數(shù)據(jù)安全模型,該模型假設(shè)隱私信息的攻擊者在獲取目標(biāo)之外所有信息的情況下,也不能判斷出目標(biāo)信息是否在被攻擊的數(shù)據(jù)中,即差分隱私保護(hù)能夠抵御攻擊方的最大背景知識(shí)攻擊。由于差分隱私保護(hù)模式可以提供可度量的隱私保護(hù)等優(yōu)勢(shì),故被廣泛應(yīng)用于網(wǎng)絡(luò)空間安全等領(lǐng)域。特別是在大數(shù)據(jù)環(huán)境下,從理論研究的角度看,差分隱私保護(hù)表現(xiàn)出極高的兼容性[10]。一方面,大數(shù)據(jù)環(huán)境下的數(shù)據(jù)集體積大,數(shù)據(jù)集中存在大量的記錄,這一條件有利于區(qū)分隱私,因此可以用較小的噪聲來(lái)實(shí)現(xiàn)差分隱私保護(hù);另一方面,差分隱私保護(hù)在為大數(shù)據(jù)提供隱私保護(hù)時(shí),不需要改變?cè)紨?shù)據(jù),一般只在輸出中加入隨機(jī)噪聲,不會(huì)對(duì)原始數(shù)據(jù)處理的速度造成影響;同時(shí),差分隱私保護(hù)獨(dú)立于底層數(shù)據(jù)結(jié)構(gòu)并兼容多種數(shù)據(jù)類型,能夠兼容所有類型的數(shù)據(jù)集,適用于大數(shù)據(jù)中存在結(jié)構(gòu)化、非結(jié)構(gòu)化以及半結(jié)構(gòu)化等多種數(shù)據(jù)形式的現(xiàn)實(shí)情況。但從實(shí)際應(yīng)用來(lái)看,差分隱私保護(hù)在大數(shù)據(jù)中的應(yīng)用也面臨諸多問(wèn)題。
由此,本文首先對(duì)差分隱私保護(hù)的基本概念與相關(guān)技術(shù)進(jìn)行了系統(tǒng)介紹,隨后全面綜述了大數(shù)據(jù)環(huán)境下差分隱私保護(hù)技術(shù)在數(shù)據(jù)發(fā)布與分析、云計(jì)算與大數(shù)據(jù)計(jì)算、位置與軌跡服務(wù)和社交網(wǎng)絡(luò)中的應(yīng)用與存在的問(wèn)題,最后提出了大數(shù)據(jù)環(huán)境下差分隱私保護(hù)的系統(tǒng)性應(yīng)用所面臨的挑戰(zhàn)并展望其發(fā)展方向。
差分隱私保護(hù)可以克服傳統(tǒng)隱私保護(hù)技術(shù)應(yīng)用時(shí)其安全性依賴攻擊者的相關(guān)背景知識(shí)、保護(hù)效果,難以用有效嚴(yán)格的數(shù)學(xué)方法定量化描述等缺陷,從而可在大大降低保護(hù)對(duì)象數(shù)據(jù)集隱私泄露風(fēng)險(xiǎn)的同時(shí),盡可能保證數(shù)據(jù)集數(shù)據(jù)的可用性,其過(guò)程就是通過(guò)對(duì)真實(shí)數(shù)據(jù)添加隨機(jī)擾動(dòng),并保證數(shù)據(jù)在被干擾后仍具有一定的可用性來(lái)實(shí)現(xiàn)的,即要使保護(hù)對(duì)象數(shù)據(jù)失真且同時(shí)保持?jǐn)?shù)據(jù)集中特定數(shù)據(jù)或數(shù)據(jù)屬性(如統(tǒng)計(jì)特性等)不變。
為方便理解與討論,首先給出差分隱私保護(hù)的概念。
定義 1對(duì)于一個(gè)有限域Z,數(shù)據(jù)集,其樣本量為n,屬性的個(gè)數(shù)為維度d,若F={f1,f2,…} 表示一組操作(如查詢等),而M是對(duì)系列操作的某種處理,且使之滿足某種隱私保護(hù)的條件,則稱此過(guò)程為針對(duì)數(shù)據(jù)集D的隱私保護(hù)機(jī)制。
定義2設(shè)有限域Z上的2 個(gè)完全相同或至多相差一條記錄的數(shù)據(jù)集D和D′,則稱D和D′為鄰接數(shù)據(jù)集(adjacent dataset),即鄰接數(shù)據(jù)集D和D′具有相同的屬性結(jié)構(gòu),且二者的對(duì)稱差DΔD' 中記錄的數(shù)量為1。
定義3對(duì)于任意2 個(gè)鄰接數(shù)據(jù)集D和D′,設(shè)隨機(jī)算法A的值域?yàn)镽(A),事件X發(fā)生的可能性為Pr[X],若對(duì)任意S,S'∈R(A),都滿足則隨機(jī)算法A提供ε-差分隱私保護(hù),稱ε為差分隱私保護(hù)預(yù)算[11]。
由此可以看出,若用戶由查詢函數(shù)F對(duì)數(shù)據(jù)集D進(jìn)行查詢操作時(shí),隨機(jī)算法A通過(guò)對(duì)查詢函數(shù)F進(jìn)行擾動(dòng),使之能滿足差分隱私保護(hù)的條件[12-13]。
1)差分隱私保護(hù)預(yù)算
差分隱私保護(hù)預(yù)算ε是差分隱私保護(hù)所能提供的隱私保護(hù)級(jí)別的度量,ε的值越低,差分隱私保護(hù)所提供的隱私保護(hù)級(jí)別就越高。一般ε取很小的值,以保證差分隱私保護(hù)的效果,例如取ε=0.1。被保護(hù)數(shù)據(jù)的可用性也與ε密切相關(guān),一般來(lái)說(shuō),ε越小,差分隱私保護(hù)所提供的隨機(jī)擾動(dòng)越大,被保護(hù)數(shù)據(jù)的可用性則越差。
2)敏感度
差分隱私保護(hù)通常對(duì)查詢函數(shù)的返回值添加隨機(jī)擾動(dòng)來(lái)達(dá)到隱私保護(hù)的目的,隨機(jī)擾動(dòng)的大小與查詢函數(shù)的敏感度密切相關(guān)。查詢函數(shù)的敏感度是指當(dāng)數(shù)據(jù)中僅發(fā)生一條記錄的改變時(shí)查詢結(jié)果的最大改變量。通常,差分隱私保護(hù)利用查詢函數(shù)的全局敏感度(GS,global sensitivity)[8]來(lái)度量隨機(jī)擾動(dòng)的大小。全局敏感度定義如下。
定義4設(shè)D和D′是鄰接數(shù)據(jù)集,則稱
為查詢函數(shù)F的全局敏感度。這里||?||1表示向量元素絕對(duì)值之和。
查詢函數(shù)的全局敏感度由函數(shù)本身決定,全局敏感度越大,差分隱私保護(hù)標(biāo)準(zhǔn)下所需的隨機(jī)擾動(dòng)也越大。對(duì)于一些全局敏感度小的查詢函數(shù)(如計(jì)數(shù)函數(shù)),用其全局敏感度來(lái)度量隨機(jī)擾動(dòng)的大小較為合適;對(duì)于平均值函數(shù)、中位數(shù)函數(shù)等全局敏度較大的函數(shù),用其全局敏感度來(lái)度量隨機(jī)擾動(dòng)的大小容易造成隨機(jī)擾動(dòng)量過(guò)大,造成不必要的數(shù)據(jù)可用性方面的損失。由此,局部敏感度(LS,local sensitivity)[14]的概念被提出,其定義如下。
定義5設(shè)D和D′是鄰接數(shù)據(jù)集,則稱
為查詢函數(shù)F的局部敏感度。
查詢函數(shù)的局部敏感度與函數(shù)自身以及具體數(shù)據(jù)共同決定,一般比全局敏感度要小,兩者存在如下關(guān)系。
3)擾動(dòng)機(jī)制
差分隱私保護(hù)中存在多種擾動(dòng)機(jī)制,其中拉普拉斯機(jī)制[15]在對(duì)數(shù)值型結(jié)果的保護(hù)中應(yīng)用最為廣泛。
定義6對(duì)于數(shù)據(jù)集D,查詢函數(shù)F及其全局敏感度ΔFGS,如果隨機(jī)噪聲Y服從尺度為的拉普拉斯分布,則稱隨機(jī)算法A(D)=F(D)+Y可以提供ε-差分隱私保護(hù)[11]。
拉普拉斯機(jī)制只能對(duì)數(shù)值型查詢結(jié)果進(jìn)行保護(hù),而在實(shí)際應(yīng)用中,存在許多查詢結(jié)果不是數(shù)值型的情況。由此,指數(shù)機(jī)制[16]被提出。
定義7對(duì)于數(shù)據(jù)集D,其輸出為一實(shí)體對(duì)象r∈Range,q(D,r)為r的可用性函數(shù),其敏感度記作ΔFq。若隨機(jī)算法M以正比于的概率從Range 中選擇并輸出r,則M提供ε-差分隱私保護(hù)[16]。
4)組合性質(zhì)
差分隱私保護(hù)存在以下兩方面的組合性質(zhì)[17],它們是將差分隱私保護(hù)運(yùn)用到反復(fù)迭代過(guò)程中,證明算法滿足差分隱私保護(hù)以及合理分配差分隱私預(yù)算的基礎(chǔ)。
性質(zhì)1若存在n個(gè)隨機(jī)算法序列Ai(1≤i≤n)提供εi差分隱私保護(hù),則對(duì)于同一數(shù)據(jù)集D,{A1,???,An}在D上的序列組合算法也提供ε-差分隱私保護(hù),其中,
性質(zhì)2若存在隨機(jī)算法A提供ε-差分隱私保護(hù),數(shù)據(jù)集D可分為不相交的子集D1,???,Dm,則隨機(jī)算法A在{D1,???,Dm}上的組合運(yùn)算所構(gòu)成的算法也提供ε-差分隱私保護(hù)。
因?yàn)槊恳环N隱私保護(hù)方法其保護(hù)效果都是基于某種攻擊模型而度量,如K-匿名就是基于攻擊者對(duì)對(duì)象數(shù)據(jù)集信息全不知曉的假設(shè),否則K-匿名算法也無(wú)法對(duì)數(shù)據(jù)隱私實(shí)施保護(hù)。從差分隱私的定義及相關(guān)特性可以看出,其基于的攻擊模型是最壞的可能攻擊者已知除一條記錄以外的對(duì)象數(shù)據(jù)集所有的敏感屬性,但這條記錄的敏感屬性信息也可得到有效保護(hù)。所以,差分隱私在數(shù)據(jù)發(fā)布與分析、云計(jì)算與大數(shù)據(jù)計(jì)算、面向位置與軌跡服務(wù)、社交網(wǎng)絡(luò)等領(lǐng)域有著越來(lái)越廣泛的應(yīng)用。
差分隱私保護(hù)作為當(dāng)前數(shù)據(jù)隱私保護(hù)技術(shù)應(yīng)用較為廣泛的一種,其應(yīng)用最早出現(xiàn)在數(shù)據(jù)庫(kù)領(lǐng)域。如何在大數(shù)據(jù)時(shí)代在保證對(duì)數(shù)據(jù)隱私保護(hù)的前提下對(duì)海量數(shù)據(jù)進(jìn)行發(fā)布與分析,已經(jīng)成為近年來(lái)數(shù)據(jù)庫(kù)應(yīng)用,尤其是數(shù)據(jù)發(fā)布領(lǐng)域的研究熱點(diǎn)。
Han 等[18]指出差分隱私保護(hù)在保證數(shù)據(jù)效用時(shí),由于可能存在的非獨(dú)立推理(NIR,non-independent reasoning),敏感數(shù)據(jù)將面臨泄露的風(fēng)險(xiǎn)。由于差分隱私保護(hù)的固有機(jī)制,必然造成基于差分隱私保護(hù)的數(shù)據(jù)發(fā)布存在數(shù)據(jù)隱私性和數(shù)據(jù)可用性之間的矛盾。目前的研究大多集中在選擇最優(yōu)噪聲機(jī)制、優(yōu)化噪聲添加策略和優(yōu)化數(shù)據(jù)發(fā)布策略等方面,目的是尋求數(shù)據(jù)發(fā)布中的隱私性與可用性之間的平衡。
差分隱私保護(hù)中存在多種噪聲機(jī)制,眾多學(xué)者對(duì)于基于差分隱私保護(hù)數(shù)據(jù)發(fā)布中的普遍最優(yōu)機(jī)制展開(kāi)了研究。Hai 等[19]對(duì)差分隱私保護(hù)下的普遍最優(yōu)噪聲機(jī)制做了定義,并且證明了不可能存在一種普遍最優(yōu)機(jī)制能夠保證諸如直方圖等一般查詢函數(shù)達(dá)到隱私性和可用性的最優(yōu)。進(jìn)一步的研究表明,目前不存在一種噪聲機(jī)制能夠在沒(méi)有側(cè)面信息或額外條件限制的情況下使差分隱私保護(hù)下數(shù)據(jù)發(fā)布的隱私性和可用性達(dá)到普遍最優(yōu)。在查詢函數(shù)為輸出為整數(shù)且有界的各類查詢函數(shù)的條件下,Ghosh 等[20]和Gupte 等[21]分別采用貝葉斯和非貝葉斯風(fēng)險(xiǎn)規(guī)避模型來(lái)對(duì)普遍最優(yōu)噪聲機(jī)制展開(kāi)了研究,他們得出的結(jié)論是在貝葉斯或非貝葉斯風(fēng)險(xiǎn)規(guī)避模型下,對(duì)于各類計(jì)數(shù)查詢函數(shù),幾何噪聲機(jī)制是普遍最優(yōu)的。Geng 等[22]則在一般風(fēng)險(xiǎn)規(guī)避模型下,針對(duì)實(shí)值查詢函數(shù)提出一種階梯噪聲機(jī)制,當(dāng)滿足以下3 個(gè)條件時(shí),所提的階梯噪聲機(jī)制是隱私性與可用性最優(yōu)的。1)查詢函數(shù)的值域?yàn)閷?shí)值,范圍為(-∞,+∞);2)查詢生成器(QG,query generator)沒(méi)有可用的側(cè)面信息;3)查詢函數(shù)的局部敏感度等于全局敏感度或保證敏感度在所有可能的輸出上保持不變。然而,在實(shí)際應(yīng)用中,大部分查詢函數(shù)難以滿足條件1)和條件3),且其所得結(jié)論默認(rèn)了查詢函數(shù)的局部敏感度和全局敏感度相等,這是不符合實(shí)際的。Chen 等[23]對(duì)差分隱私保護(hù)中的最佳擾動(dòng)機(jī)制進(jìn)行了分析與實(shí)驗(yàn),在對(duì)單實(shí)數(shù)(標(biāo)量)進(jìn)行查詢時(shí),提出以側(cè)面信息為基礎(chǔ)設(shè)計(jì)噪聲擾動(dòng)機(jī)制的設(shè)想,使差分隱私保護(hù)的效用盡可能最大化。如何在未知數(shù)據(jù)側(cè)面信息的情況下,合理設(shè)計(jì)噪聲擾動(dòng)機(jī)制是下一步的研究方向。
在優(yōu)化噪聲添加策略方面,Nissim 等[14]指出用局部敏感度進(jìn)行計(jì)算有泄露隱私數(shù)據(jù)分布特征的風(fēng)險(xiǎn),因此為局部敏感度定義了平滑上界與平滑敏感度的概念,并證明對(duì)于某些非線性查詢函數(shù)可以利用查詢函數(shù)的平滑敏感度對(duì)所添加的噪聲大小進(jìn)行校準(zhǔn),從而提高數(shù)據(jù)可用性。Lin 等[24]提出了差分隱私保護(hù)中動(dòng)態(tài)噪聲閾值的概念,證明了差分隱私保護(hù)方案中的噪聲添加與受保護(hù)數(shù)據(jù)集大小之間的關(guān)系為
其中,H(x)為第n個(gè)數(shù)據(jù)所需的噪聲擾動(dòng),x為數(shù)據(jù),? 為數(shù)據(jù)的擾動(dòng)校正值。這樣做保證了所添加的噪聲不會(huì)因?yàn)檫^(guò)小而不能滿足差分隱私要求,也不會(huì)因?yàn)檫^(guò)大而影響數(shù)據(jù)可用性,并減小了計(jì)算開(kāi)銷。但是,該方案所提的差分隱私方法需充分了解所保護(hù)數(shù)據(jù)的特征,其應(yīng)用具有一定的局限性。Ji等[25]在非交互模式下對(duì)多維數(shù)據(jù)發(fā)布中的差分隱私保護(hù)方法進(jìn)行了研究,通過(guò)Haar 小波變換對(duì)原始多維數(shù)據(jù)進(jìn)行處理以構(gòu)建一般關(guān)系表的緊湊概要,并在概要的每一個(gè)記錄中添加多對(duì)數(shù)噪聲之后,得到一個(gè)擾動(dòng)后的概要。隨后在擾動(dòng)后的概要中對(duì)查詢進(jìn)行評(píng)估,輸出一般關(guān)系表中受擾動(dòng)小波系數(shù)的緊湊集合,最終將其擴(kuò)展回受擾動(dòng)的關(guān)系元組直到查詢結(jié)束,實(shí)現(xiàn)了多維數(shù)據(jù)發(fā)布中的快速查詢處理與可證明的隱私保證。De[26]則尋求以近似的差分隱私要求來(lái)完成對(duì)數(shù)據(jù)的保護(hù),主要策略是放寬差分隱私保護(hù)的隱私性要求,減少因噪聲添加帶來(lái)的誤差,降低算法復(fù)雜度。他們證明了純?chǔ)?差分隱私與近似(ε,)δ-差分隱私之間的界限,并證明當(dāng)δ> 0時(shí),存在一種查詢可以添加方差為的噪聲達(dá)到差分隱私保護(hù)的要求;當(dāng)δ=0 時(shí),則需要方差為Ω(n)的噪聲。
在優(yōu)化數(shù)據(jù)發(fā)布策略方面,Zhang 等[27]提出一種差分隱私框架下應(yīng)答計(jì)數(shù)范圍查詢的算法DPAV,該算法首先通過(guò)頻率矩陣生成平均樹(shù),樹(shù)中每個(gè)節(jié)點(diǎn)的值等于其葉子節(jié)點(diǎn)值的平均值,隨后通過(guò)權(quán)重函數(shù)合理分配拉普拉斯噪聲大小并添加到平均樹(shù)中不同層級(jí)的節(jié)點(diǎn)中,最后將平均樹(shù)轉(zhuǎn)化為新的頻率矩陣,以此來(lái)應(yīng)答計(jì)數(shù)范圍查詢。Li 等[28]提出一種矩陣機(jī)制來(lái)提供謂詞計(jì)數(shù)查詢服務(wù),該機(jī)制以矩陣的形式表示線性查詢集合,生成一個(gè)策略查詢集,以策略查詢集中的最小誤差估計(jì)值作為查詢的應(yīng)答,在保留數(shù)據(jù)差異性的同時(shí)提高查詢的準(zhǔn)確性,但其實(shí)際應(yīng)用過(guò)程中存在多維度的矩陣計(jì)算,計(jì)算成本過(guò)高。Koufogiannis 等[29]對(duì)于身份查詢函數(shù),提出了一種復(fù)合差分隱私保護(hù)機(jī)制,采用馬爾可夫隨機(jī)過(guò)程的延遲抽樣來(lái)作為數(shù)據(jù)的逐步輸出,可以在保證差分隱私固有屬性的情況下,逐步提高數(shù)據(jù)釋放的準(zhǔn)確性,并推測(cè)其方案可以適用于更一般的應(yīng)用條件。Hay 等[30]對(duì)被噪聲擾亂后的數(shù)據(jù)在一定約束條件下進(jìn)行轉(zhuǎn)化,使差異化的輸出保有了一致性,以此提高了數(shù)據(jù)發(fā)布的準(zhǔn)確性,但該方法只對(duì)一維數(shù)據(jù)集的查詢起效。
目前對(duì)于差分隱私保護(hù)下單一時(shí)間點(diǎn)靜態(tài)數(shù)據(jù)的發(fā)布已有較多的成果,但在大數(shù)據(jù)環(huán)境下,實(shí)際數(shù)據(jù)的發(fā)布往往還要求能夠?qū)?shù)據(jù)流中動(dòng)態(tài)數(shù)據(jù)提供差分隱私保護(hù)。
Kellaris 等[31]定義了在動(dòng)態(tài)數(shù)據(jù)流中的兩類隱私保護(hù)級(jí)別——事件級(jí)別和用戶級(jí)別。事件級(jí)別表示對(duì)于保護(hù)某一特定時(shí)間戳下的某一數(shù)據(jù)的隱私保護(hù)級(jí)別;用戶級(jí)別則表示對(duì)于保護(hù)數(shù)據(jù)流中全數(shù)據(jù)的隱私保護(hù)級(jí)別。Kellaris 等提出一種ω-事件ε-差分隱私保護(hù)模型,該模型合并了事件級(jí)別和用戶級(jí)別,來(lái)保證在ω個(gè)時(shí)間戳內(nèi)對(duì)于數(shù)據(jù)流的保護(hù)達(dá)到隱私性與可用性平衡的效果。但是其所提的模型并不能適用于所有類型的數(shù)據(jù)流,且對(duì)于隱私預(yù)算ε采用簡(jiǎn)單平均分配的方法也沒(méi)有考慮到不同時(shí)間戳內(nèi)的數(shù)據(jù)特性差異,造成了ε沒(méi)有被充分利用,引起數(shù)據(jù)可用性降低的不利結(jié)果。
Fan 等[32]在有限數(shù)據(jù)流的情況下提出一種滿足用戶級(jí)別的實(shí)時(shí)聚合統(tǒng)計(jì)數(shù)據(jù)發(fā)布框架FAST。該方案基于過(guò)濾和自適應(yīng)抽樣,根據(jù)檢測(cè)到的數(shù)據(jù)動(dòng)態(tài)地對(duì)長(zhǎng)時(shí)間序列進(jìn)行采樣,并預(yù)測(cè)非采樣點(diǎn)的數(shù)據(jù)值,然后以此糾正經(jīng)噪聲擾動(dòng)后的采樣點(diǎn)的數(shù)值,來(lái)最小化整體隱私成本并最大程度地提高每個(gè)時(shí)間戳的數(shù)據(jù)準(zhǔn)確性。Chan 等[33]與Dwork 等[34]針對(duì)動(dòng)態(tài)數(shù)據(jù)中的統(tǒng)計(jì)數(shù)據(jù)發(fā)布分別做出了相似的研究。Dwork 等建立完整的二叉樹(shù)更新流,在二叉樹(shù)的節(jié)點(diǎn)中存儲(chǔ)對(duì)固定長(zhǎng)度的數(shù)據(jù)流所添加的成比例對(duì)的噪聲值,對(duì)實(shí)時(shí)更新數(shù)據(jù)流識(shí)別其所屬的節(jié)點(diǎn)并在數(shù)據(jù)流中添加節(jié)點(diǎn)中的噪聲值后給計(jì)數(shù)器計(jì)數(shù)。Chan 等在對(duì)二叉樹(shù)更新時(shí),其節(jié)點(diǎn)包含所有子樹(shù)中經(jīng)添加成比例對(duì)的隨機(jī)噪聲后的更新總和,經(jīng)識(shí)別后對(duì)最大子樹(shù)進(jìn)行更新并將其根節(jié)點(diǎn)中存儲(chǔ)的數(shù)值總和上報(bào)給計(jì)數(shù)器。
Wang 等[35]提出一種RescueDP 的實(shí)時(shí)動(dòng)態(tài)空間眾包數(shù)據(jù)發(fā)布方案,該方案利用數(shù)據(jù)變化相似性的特征動(dòng)態(tài)對(duì)數(shù)據(jù)進(jìn)行區(qū)域分組,通過(guò)自適應(yīng)抽樣和自適應(yīng)預(yù)算分配,在每個(gè)分組中加入拉普拉斯噪聲擾動(dòng),最終使用卡爾曼濾波片提高了實(shí)時(shí)數(shù)據(jù)發(fā)布的準(zhǔn)確性。
Chen 等[36-37]最先將差分隱私保護(hù)應(yīng)用到序列數(shù)據(jù)中,利用嘈雜的前綴樹(shù)結(jié)構(gòu)將具有相同前綴的序列分組到相同的分支中,從而縮小輸出域,隨后還提出利用一組可變長(zhǎng)度的n-gram 模型順序提取數(shù)據(jù)庫(kù)的基本信息,來(lái)簡(jiǎn)化一般時(shí)序數(shù)據(jù),緩解了因序列數(shù)據(jù)的固有順序性和高維度所造成的應(yīng)用差分隱私到序列數(shù)據(jù)中困難的問(wèn)題。
Kang 等[38]針對(duì)物流領(lǐng)域中時(shí)間序列位置信息的隱私泄露問(wèn)題,提出了一種基于差異隱私的時(shí)間序列位置數(shù)據(jù)發(fā)布方法。首先,利用聚類優(yōu)化算法構(gòu)造與時(shí)間相關(guān)的公共感興趣區(qū)域,用質(zhì)心點(diǎn)代表公共利益區(qū)的位置,由此建立位置搜索樹(shù),保證了位置數(shù)據(jù)之間的內(nèi)在聯(lián)系;然后將拉普拉斯噪聲添加到位置搜索樹(shù)節(jié)點(diǎn),減少了添加噪聲的次數(shù),以此確保了所發(fā)布數(shù)據(jù)的可用性。
基于差分隱私的數(shù)據(jù)發(fā)布技術(shù)對(duì)比如表1 所示。
基于機(jī)器學(xué)習(xí)、聚類分析、神經(jīng)網(wǎng)絡(luò)等傳統(tǒng)的數(shù)據(jù)分析技術(shù)直接應(yīng)用在經(jīng)過(guò)差分隱私保護(hù)后的數(shù)據(jù)上時(shí),往往會(huì)出現(xiàn)效率差與準(zhǔn)確性低等問(wèn)題,這就需要提出相應(yīng)適用于差分隱私數(shù)據(jù)中的數(shù)據(jù)分析算法。優(yōu)化基于差分隱私的數(shù)據(jù)分析算法,與差分隱私自身理論的發(fā)展聯(lián)系緊密。目前的研究主要集中在如何解決在當(dāng)前數(shù)據(jù)分析技術(shù)中通過(guò)添加隨機(jī)噪聲來(lái)滿足差分隱私保護(hù)要求的同時(shí),提高算法的準(zhǔn)確性并降低計(jì)算復(fù)雜度的問(wèn)題上。
在隨機(jī)梯度下降算法中加入隨機(jī)噪聲是實(shí)現(xiàn)機(jī)器學(xué)習(xí)中差分隱私保護(hù)的一般方法,由于隨機(jī)梯度下降算法需通過(guò)反復(fù)迭代來(lái)達(dá)到學(xué)習(xí)目的,隨機(jī)噪聲的添加方式將直接影響算法的效用。Abadi 等[39]通過(guò)隨機(jī)排列構(gòu)建不同的批量和批次,將計(jì)算分為適當(dāng)大小的組來(lái)進(jìn)行,并對(duì)算法中的隱私預(yù)算、學(xué)習(xí)步長(zhǎng)等參數(shù)進(jìn)行了有目的性的優(yōu)化,提高了算法的效率并使數(shù)據(jù)保有了較好的可用性。Cai 等[40]則研究了平均估計(jì)和線性回歸中統(tǒng)計(jì)準(zhǔn)確性與隱私之間的權(quán)衡問(wèn)題,主要通過(guò)改進(jìn)最小極大值下界、迭代閾值等參數(shù)的設(shè)定策略來(lái)保證滿足差分隱私的前提下提升統(tǒng)計(jì)準(zhǔn)確性。Mcsherry 等[41]在Netflix Prize 數(shù)據(jù)集上對(duì)其提出的端對(duì)端差分隱私保護(hù)系統(tǒng)進(jìn)行評(píng)估,并與文獻(xiàn)[39]采取了類似的高維數(shù)據(jù)輸入方式,不同的是其非凸目標(biāo)函數(shù)的構(gòu)造是在確定學(xué)習(xí)任務(wù)的核心后進(jìn)行的,這樣做能夠充分利用統(tǒng)計(jì)數(shù)據(jù),并以高斯機(jī)制進(jìn)行差分隱私計(jì)算。Xu等[42]則針對(duì)生成式對(duì)抗網(wǎng)絡(luò)(GAN,generative adversarial network)應(yīng)用于隱私數(shù)據(jù)時(shí)可能因記憶樣本而產(chǎn)生隱私泄露威脅的問(wèn)題,提出了一種滿足差分隱私的生成式對(duì)抗網(wǎng)絡(luò)——GANobfuscator,其通過(guò)在學(xué)習(xí)過(guò)程中為梯度添加精心設(shè)計(jì)的噪聲來(lái)實(shí)現(xiàn)GAN 下的差異隱私,并設(shè)計(jì)了梯度修剪策略,在保證差分隱私的同時(shí)提高了數(shù)據(jù)訓(xùn)練的可擴(kuò)展性和穩(wěn)定性。
表1 基于差分隱私的數(shù)據(jù)發(fā)布技術(shù)對(duì)比
Li 等[43]提出了一種支持差分隱私保護(hù)的分布式在線學(xué)習(xí)算法,該算法通過(guò)一個(gè)時(shí)變的雙重隨機(jī)矩陣來(lái)控制各分布式節(jié)點(diǎn)之間的通信,并采用平均權(quán)重的策略共享算法迭代中的更新參數(shù),保證每個(gè)節(jié)點(diǎn)可以充分利用全局?jǐn)?shù)據(jù)的通信,大大縮減了通信開(kāi)銷。同時(shí),由每輪迭代的更新步長(zhǎng)來(lái)控制隨機(jī)噪聲的大小,使隨機(jī)噪聲隨著迭代輪次的進(jìn)行而越來(lái)越小,在滿足差分隱私保護(hù)要求的同時(shí),進(jìn)一步增加了數(shù)據(jù)的可用性。Beimel 等[44]在機(jī)器學(xué)習(xí)中提出了一種寬松要求的差分隱私保護(hù)方法,通過(guò)保護(hù)學(xué)習(xí)樣本中樣本標(biāo)簽的隱私來(lái)達(dá)到隱私保護(hù)的目的,經(jīng)證明該算法的復(fù)雜度與不提供差分隱私保護(hù)的學(xué)習(xí)算法復(fù)雜度相同。
Kasiviswanathan 等[45]指出了噪聲條件下的機(jī)器學(xué)習(xí)與保證隱私條件下機(jī)器學(xué)習(xí)的區(qū)別,對(duì)2 種典型的機(jī)器學(xué)習(xí)模型 PAC(probabilistically approximately correct)和SQ(statistical query)進(jìn)行了研究,提出了與無(wú)隱私條件機(jī)器學(xué)習(xí)時(shí)復(fù)雜度相同的PAC 算法,并討論了交互式與非交互式(自適應(yīng)與非自適應(yīng))的SQ 算法,表明可以在與log|C|成比例的樣本復(fù)雜度下對(duì)每個(gè)概念類別C進(jìn)行隱私學(xué)習(xí)。Beimel 等[46]發(fā)現(xiàn)對(duì)于概念類別C的有隱私機(jī)器學(xué)習(xí)中,不同于無(wú)隱私的一般機(jī)器學(xué)習(xí),輸出結(jié)果在C中的學(xué)習(xí)模型與輸出結(jié)果不在C中的學(xué)習(xí)模型的樣本復(fù)雜度有很大的區(qū)別。他們證明了每一個(gè)輸出在C類的ε-POINTd隱私學(xué)習(xí)模型的樣本復(fù)雜度必須達(dá)到Ω(d)=Ω(log|POINTd|),并在文獻(xiàn)[47]提出一種代替隱私學(xué)習(xí)模型。
可以看出,將差分隱私保護(hù)技術(shù)應(yīng)用在數(shù)據(jù)分析中同樣也面臨著差分隱私在數(shù)據(jù)發(fā)布應(yīng)用中所面臨的挑戰(zhàn),當(dāng)前存在更突出的挑戰(zhàn)介紹如下。
1)無(wú)論通過(guò)哪種數(shù)據(jù)分析技術(shù),在對(duì)大數(shù)據(jù)進(jìn)行分析的過(guò)程中,對(duì)原始數(shù)據(jù)和計(jì)算結(jié)果往往需要反復(fù)調(diào)取并多次迭代,用現(xiàn)有的差分隱私保護(hù)機(jī)制來(lái)實(shí)現(xiàn)對(duì)數(shù)據(jù)分析過(guò)程及結(jié)果的保護(hù)所需要的噪聲量以及計(jì)算復(fù)雜度仍舊過(guò)大,不適合應(yīng)用在大規(guī)模數(shù)據(jù)集中。如何創(chuàng)新選擇隨機(jī)算法進(jìn)行差分隱私保護(hù)并有效降低算法的計(jì)算復(fù)雜度是未來(lái)的研究方向。
2)當(dāng)前在數(shù)據(jù)分析中應(yīng)用差分隱私保護(hù)的算法適用性較差,在不同的場(chǎng)景假設(shè)下或應(yīng)用不同的數(shù)據(jù)分析技術(shù)時(shí)都需有特定的算法,且針對(duì)的目標(biāo)函數(shù)也較為簡(jiǎn)單,在大數(shù)據(jù)環(huán)境中的實(shí)際應(yīng)用性不佳。如何設(shè)計(jì)通用于數(shù)據(jù)分析中多種目標(biāo)函數(shù)的差分隱私保護(hù)算法是接下來(lái)的研究方向。
隱私數(shù)據(jù)在云計(jì)算與大數(shù)據(jù)計(jì)算的過(guò)程中往往要經(jīng)歷多個(gè)環(huán)節(jié),每一個(gè)環(huán)節(jié)的數(shù)據(jù)泄露都會(huì)造成隱私泄露的風(fēng)險(xiǎn)。當(dāng)前,差分隱私保護(hù)技術(shù)已被廣泛地運(yùn)用在云計(jì)算與大數(shù)據(jù)計(jì)算中,如部署在蘋果手機(jī)上的用戶數(shù)據(jù)收集模塊[48]。基于云計(jì)算與大數(shù)據(jù)計(jì)算的自身特征,可以總結(jié)出要將差分隱私保護(hù)運(yùn)用到云計(jì)算與大數(shù)據(jù)計(jì)算中主要存在以下兩方面的問(wèn)題:1)計(jì)算資源提供方不可信所造成的隱私信息在數(shù)據(jù)計(jì)算過(guò)程中難以保證不被泄露的問(wèn)題;2)海量、高頻數(shù)據(jù)流所造成的差分隱私保護(hù)機(jī)制難以實(shí)現(xiàn)的問(wèn)題。
針對(duì)問(wèn)題1)的現(xiàn)有研究較少,通過(guò)訪問(wèn)控制與差分隱私保護(hù)相結(jié)合是一種可行的研究思路。Roy等[49]在MapReduce 計(jì)算架構(gòu)下,研究了云計(jì)算中的信息安全問(wèn)題。他們認(rèn)為云計(jì)算中隱私保護(hù)所面臨的一個(gè)巨大問(wèn)題是用戶和云服務(wù)商都不想耗費(fèi)太多的計(jì)算資源來(lái)進(jìn)行隱私保護(hù),而在云計(jì)算的過(guò)程中,數(shù)據(jù)的輸入輸出、數(shù)據(jù)的分布式運(yùn)算以及數(shù)據(jù)在用戶和云服務(wù)商直接傳輸?shù)倪^(guò)程中,任意一條數(shù)據(jù)信息的泄露都有可能造成不可挽回的隱私泄露。Roy 等將差分隱私保護(hù)與強(qiáng)訪問(wèn)控制相結(jié)合,提出了Airavat 系統(tǒng)。在差分隱私保護(hù)部分中,Airavat 系統(tǒng)充分考慮用戶的信息安全知識(shí)水平、云服務(wù)商是否可信等因素,通過(guò)一系列的參數(shù)限制與組合策略,在Reduce 環(huán)節(jié)添加滿足差分隱私條件的隨機(jī)噪聲,達(dá)到差分隱私保護(hù)的要求。Airavat系統(tǒng)主要通過(guò)提前聲明Mapper 的輸出范圍,估計(jì)Reducer 中的數(shù)據(jù)敏感度,從而限定一部分超出閾值的數(shù)據(jù)的輸出,來(lái)優(yōu)化所添加的噪聲量。Airavat系統(tǒng)的優(yōu)勢(shì)在于其不需要額外審計(jì)不受信任的代碼,但過(guò)多的參數(shù)和策略限制也影響了其在應(yīng)用上的可擴(kuò)展性。
針對(duì)問(wèn)題2),當(dāng)前研究主要利用抽樣、分組等方法來(lái)緩解數(shù)據(jù)樣本的海量與高頻特性,以便于差分隱私保護(hù)機(jī)制的實(shí)現(xiàn)。Mir 等[50]在模擬CDR(通話記錄)模型 WHERE 的基礎(chǔ)上,提出一種DP-WHERE 模型,該模型在WHERE 模型的各個(gè)計(jì)算環(huán)節(jié)所得的概率分布中添加受控隨機(jī)噪聲實(shí)現(xiàn)差分隱私保護(hù),并在關(guān)鍵步驟中采用文獻(xiàn)[30]中提的后處理技術(shù)和文獻(xiàn)[51]中所提的grouping 技術(shù)優(yōu)化噪聲量,產(chǎn)生相應(yīng)的概率分布,通過(guò)系統(tǒng)地抽樣這些分布,合成含有位置和相關(guān)時(shí)間的模擬數(shù)據(jù)信息并發(fā)布,實(shí)現(xiàn)了在海量數(shù)據(jù)計(jì)算中的差分隱私保護(hù)。該模型不需要進(jìn)一步訪問(wèn)原始CDR,并且用來(lái)合成數(shù)據(jù)的參數(shù)有很強(qiáng)的通用性,在保持隱私性的同時(shí),在應(yīng)用方面極具擴(kuò)展性。Cormode 等[52]針對(duì)可以由樹(shù)結(jié)構(gòu)索引的多維數(shù)據(jù)的差分隱私保護(hù)進(jìn)行了研究,提出了通過(guò)差分隱私空間分解來(lái)對(duì)數(shù)據(jù)分布進(jìn)行差分隱私保護(hù)下的發(fā)布。分割點(diǎn)的選擇以及分布區(qū)域的描述策略在其所提方法中作為基本步驟來(lái)保證高維數(shù)據(jù)差分隱私保護(hù)中的隱私性,基于約束推理的后處理技術(shù)以及樣本均勻采樣技術(shù)則作為噪聲優(yōu)化方法來(lái)保證海量、高頻數(shù)據(jù)流中高維數(shù)據(jù)差分隱私保護(hù)中的可用性。Wang 等[53]也做了類似的研究,不同的是其采用了斐波那契混合數(shù)列來(lái)估計(jì)并分配樹(shù)中各層節(jié)點(diǎn)的隱私預(yù)算量,以較大的隱私預(yù)算量來(lái)提高數(shù)據(jù)查詢的準(zhǔn)確性。
與此同時(shí),云計(jì)算與大數(shù)據(jù)計(jì)算中的差分隱私保護(hù)應(yīng)用還需解決因分布式計(jì)算架構(gòu)自身特點(diǎn)所引起的開(kāi)銷過(guò)大的挑戰(zhàn)。不同于差分隱私保護(hù)應(yīng)用于集中式數(shù)據(jù)庫(kù),在分布式計(jì)算架構(gòu)下,各個(gè)節(jié)點(diǎn)的數(shù)據(jù)相互獨(dú)立。嚴(yán)格來(lái)說(shuō),需使各個(gè)節(jié)點(diǎn)數(shù)據(jù)都滿足差分隱私保護(hù)要求才能保證整個(gè)分布式計(jì)算架構(gòu)下的數(shù)據(jù)處理是差分隱私的,這就要求在各個(gè)節(jié)點(diǎn)都需進(jìn)行隨機(jī)擾動(dòng),那么隨后的數(shù)據(jù)通信與協(xié)同計(jì)算都將需要更大的開(kāi)銷。為此,如何設(shè)計(jì)分布式計(jì)算架構(gòu)下的差分隱私機(jī)制構(gòu)成下一步研究方向。
當(dāng)前,隨著公共交通、網(wǎng)購(gòu)快遞、網(wǎng)絡(luò)訂餐等行業(yè)的興起,使以<用戶名,位置,軌跡>為格式的數(shù)據(jù)集呈爆炸式增長(zhǎng),形成了位置與軌跡大數(shù)據(jù)。其隱私保護(hù)數(shù)據(jù)發(fā)布機(jī)制主要有兩類:一是發(fā)布軌跡數(shù)據(jù)集,每一條軌跡作為一個(gè)記錄,目的是保護(hù)軌跡信息;二是發(fā)布一條軌跡信息,軌跡中的每個(gè)位置作為一個(gè)記錄,目的是保護(hù)每個(gè)點(diǎn)的位置信息。而將差分隱私保護(hù)應(yīng)用于位置軌跡大數(shù)據(jù)中,面臨以下3 個(gè)方面的挑戰(zhàn)。
一是在滿足差分隱私保護(hù)要求的基礎(chǔ)上,數(shù)據(jù)集的稀疏性將引起隨機(jī)化機(jī)制產(chǎn)生大量的噪聲。二是敏感度的計(jì)算。對(duì)于位置與軌跡數(shù)據(jù)集,隨機(jī)化機(jī)制與距離測(cè)量相關(guān)聯(lián)。然而,如果人們只是通過(guò)傳統(tǒng)的方式測(cè)量敏感度,當(dāng)涉及位置與軌跡之間的最大距離時(shí),敏感度將會(huì)非常大。為了達(dá)到嚴(yán)格的隱私保證,必須增加大量的噪聲,這將大大降低位置與軌跡數(shù)據(jù)集的效用。三是位置與軌跡數(shù)據(jù)集的語(yǔ)義保留。當(dāng)對(duì)位置與軌跡數(shù)據(jù)集進(jìn)行隨機(jī)化時(shí),傳統(tǒng)的差分隱私機(jī)制不考慮位置與軌跡數(shù)據(jù)集的語(yǔ)義,僅基于距離的測(cè)量來(lái)辨別位置,這樣做難以辨別其屬于哪個(gè)具體的區(qū)域,如不能判斷某一位置點(diǎn)屬于哪個(gè)城區(qū)。
Lin 等[54]針對(duì)人體傳感器網(wǎng)絡(luò)(BSN,body sensor network)中的隱私大數(shù)據(jù)提出了一種差分隱私保護(hù)方案。該方案基于非交互式數(shù)據(jù)發(fā)布框架,通過(guò)Haar 小波變換將直方圖轉(zhuǎn)化為二叉樹(shù),由二叉樹(shù)的高度來(lái)決定全局敏感度,在一定程度上緩解了因全局敏感度過(guò)大造成提供差分隱私保護(hù)隨機(jī)噪聲過(guò)大的問(wèn)題。
Xiong 等[55]提出一種PriLocation 算法,首先通過(guò)聚類來(lái)對(duì)相鄰位置信息進(jìn)行分組,并限制隨機(jī)域,以此來(lái)收縮隨機(jī)區(qū)域減少所需噪聲;隨后利用位置信息的分層結(jié)構(gòu),通過(guò)對(duì)聚類權(quán)重?cái)_動(dòng)隱藏位置信息權(quán)重,提出了基于層次結(jié)構(gòu)的敏感度概念的位置數(shù)據(jù)集,并對(duì)隱私位置選擇來(lái)隱藏每一個(gè)用戶的真實(shí)位置。
He 等[56]提出一種基于個(gè)人原始GPS 軌跡合成支持差分隱私保護(hù)的移動(dòng)數(shù)據(jù)系統(tǒng)——DPT。該系統(tǒng)利用參考系統(tǒng)的層次結(jié)構(gòu),以多個(gè)分辨率來(lái)離散空間域,并為每個(gè)分辨率維護(hù)一個(gè)前綴樹(shù)。不同的參考系統(tǒng)捕獲不同速度的運(yùn)動(dòng)。在每個(gè)參考系統(tǒng)中,個(gè)體僅能從一個(gè)點(diǎn)移動(dòng)到限定個(gè)數(shù)的相鄰點(diǎn)。因此,盡管有較多數(shù)量的前綴樹(shù),但是每個(gè)樹(shù)具有小得多的分支因子,從而使維持模型的計(jì)數(shù)數(shù)量呈指數(shù)減少趨勢(shì),選擇差分隱私的方式設(shè)置相關(guān)參數(shù),并通過(guò)自適應(yīng)機(jī)制以及方向加權(quán)來(lái)提高效用。其存在的不足與文獻(xiàn)[36-37]的問(wèn)題相同,他們的結(jié)論都是建立在發(fā)布的原始軌跡包含許多公共前綴這一無(wú)效假設(shè)的基礎(chǔ)上的。
Hua 等[57]旨在消除上述假設(shè),提出一種提供差分隱私保護(hù)的位置泛化算法,該算法基于軌跡距離并利用指數(shù)機(jī)制來(lái)概率地合并位置,然后以差分隱私化的方式發(fā)布泛化后的位置軌跡信息。
Li 等[58]首先使用k-means 聚類來(lái)分割原始位置,由此獲得n-1 個(gè)新的廣義軌跡,并隨機(jī)選擇n-n1個(gè)原始軌跡來(lái)近似代替原始軌跡數(shù)據(jù)庫(kù),隨后產(chǎn)生有界的拉普拉斯噪聲,將它們添加到不同軌跡的計(jì)數(shù)值中,并用發(fā)布這些軌跡與其計(jì)數(shù)值。Chatzikokolakis 等[59]提出了一種基于預(yù)測(cè)機(jī)制的位置軌跡差分保護(hù)方法,預(yù)測(cè)機(jī)制通過(guò)利用數(shù)據(jù)的關(guān)聯(lián)性和歷史數(shù)據(jù)記錄來(lái)對(duì)用戶現(xiàn)有位置進(jìn)行預(yù)測(cè),由測(cè)試函數(shù)對(duì)預(yù)測(cè)進(jìn)行測(cè)試,僅對(duì)不滿足測(cè)試要求的預(yù)測(cè)結(jié)果進(jìn)行新的噪聲添加,與獨(dú)立噪聲添加機(jī)制相比,大大降低了噪聲量。
Asada 等[60]將差分隱私用于位置偏好推薦系統(tǒng),在利用矩陣分解提高推薦的準(zhǔn)確性的同時(shí),有選擇性地在局部實(shí)施差分隱私以嚴(yán)格保護(hù)用戶隱私,并實(shí)現(xiàn)了位置偏好推薦與隱私保護(hù)的最佳平衡,在保證推薦準(zhǔn)確有效的情況下也保證了位置數(shù)據(jù)的隱私性。
雖然當(dāng)前研究針對(duì)降低因位置軌跡數(shù)據(jù)稀疏性所引起的噪聲量以及降低數(shù)據(jù)敏感度這兩方面挑戰(zhàn)有了較好的成果,但是針對(duì)第三個(gè)挑戰(zhàn),當(dāng)前并沒(méi)有專門針對(duì)位置與軌跡數(shù)據(jù)集保留語(yǔ)義方面的工作。在具體應(yīng)用中,雖然差分隱私保護(hù)已廣泛應(yīng)用于各類位置與軌跡服務(wù)系統(tǒng)中,目前還是缺乏成熟完備的應(yīng)用系統(tǒng),且應(yīng)用系統(tǒng)在隱私保護(hù)的完整性、適用數(shù)據(jù)的可擴(kuò)展性等方面仍需進(jìn)行進(jìn)一步的研究。以上方面可構(gòu)成面向位置與軌跡服務(wù)的差分隱私保護(hù)下一步的研究方向。
近年來(lái),社交網(wǎng)絡(luò)的迅猛發(fā)展在給人們生活帶來(lái)極大便利的同時(shí),由于各個(gè)網(wǎng)絡(luò)社交平臺(tái)一般都需要用戶在注冊(cè)時(shí)提供一定程度的個(gè)人身份信息,也給人們網(wǎng)絡(luò)生活中的個(gè)人隱私保護(hù)帶來(lái)了巨大挑戰(zhàn)。在對(duì)社交網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)分析時(shí),通常利用圖結(jié)構(gòu)來(lái)描述社交網(wǎng)絡(luò)活動(dòng),其中圖中的節(jié)點(diǎn)代表用戶,邊代表用戶之間的關(guān)系或社交活動(dòng)。將差分隱私保護(hù)應(yīng)用到社交網(wǎng)絡(luò)中等同于將其應(yīng)用到圖結(jié)構(gòu)中。
對(duì)圖結(jié)構(gòu)進(jìn)行差分隱私保護(hù)一般分為基于節(jié)點(diǎn)的差分隱私保護(hù)和基于邊的差分隱私保護(hù),基于出度的差分隱私保護(hù)和基于分區(qū)的差分隱私保護(hù)則作為2 種新穎的差分隱私保護(hù)概念在近年來(lái)被廣泛應(yīng)用。Task 等[61]認(rèn)為基于節(jié)點(diǎn)的差分隱私保護(hù)方法存在在數(shù)據(jù)中添加的噪聲量過(guò)大、代價(jià)昂貴的問(wèn)題,且存在噪聲多余添加的問(wèn)題;基于邊的差分隱私的隱私性并不嚴(yán)密?;诔龆鹊牟罘蛛[私與基于分區(qū)的差分隱私作為2 個(gè)新穎的社交網(wǎng)絡(luò)隱私保護(hù)機(jī)制,能夠在引入極小噪聲的情況下提供強(qiáng)有力的隱私保護(hù)。基于出度的差分隱私通過(guò)在隱私數(shù)據(jù)中增加或刪除任意節(jié)點(diǎn)的外部鏈接來(lái)保護(hù)數(shù)據(jù)參與者所提供數(shù)據(jù)的隱私,在此機(jī)制下,Task 等[62]提出一種基于自組網(wǎng)樣式的分析算法,對(duì)以前標(biāo)準(zhǔn)執(zhí)行過(guò)于敏感的查詢提供近似結(jié)果。而基于分區(qū)的差分隱私則針對(duì)社交網(wǎng)絡(luò)中屬性繁多的特點(diǎn),在差分?jǐn)?shù)據(jù)中任意添加或刪除一個(gè)子圖來(lái)滿足差分隱私要求,為社交網(wǎng)絡(luò)多屬性研究提供比基于節(jié)點(diǎn)的隱私保護(hù)更高的隱私級(jí)別,并且能夠進(jìn)行在基于節(jié)點(diǎn)隱私保護(hù)機(jī)制下難以進(jìn)行的分析研究。
另一方面,要將差分隱私保護(hù)應(yīng)用到社交網(wǎng)絡(luò)的數(shù)據(jù)挖掘中需研究差分隱私保護(hù)下的社交網(wǎng)絡(luò)分析技術(shù),即差分隱私保護(hù)下的圖分析技術(shù)。針對(duì)子圖計(jì)數(shù)查詢問(wèn)題,Karwa 等[63]在利用文獻(xiàn)[14]所提的查詢函數(shù)局部敏感度與平滑上界來(lái)計(jì)算隨機(jī)噪聲量的基礎(chǔ)上,將對(duì)查詢結(jié)果添加隨機(jī)噪聲的方法[64]應(yīng)用到了K-星計(jì)數(shù)查詢中,緩解了子圖計(jì)數(shù)查詢函數(shù)一般全局敏感度較大的問(wèn)題,并提出了K-三角形數(shù)的查詢算法;針對(duì)聚類系數(shù)計(jì)算問(wèn)題,Wang 等[65]提出一種D&C 算法,首先將聚類系數(shù)計(jì)算函數(shù)分解為多個(gè)分計(jì)算函數(shù),然后通過(guò)預(yù)先設(shè)定的噪聲添加與隱私預(yù)算分配策略對(duì)每個(gè)分計(jì)算函數(shù)結(jié)果添加隨機(jī)噪聲,最后通過(guò)滿足第2 節(jié)中的差分隱私保護(hù)性質(zhì)1 和性質(zhì)2 的數(shù)學(xué)運(yùn)算合成輸出結(jié)果,以達(dá)到差分隱私保護(hù)的要求;針對(duì)邊隱私保護(hù)問(wèn)題,Costea 等[66]在不考慮目標(biāo)節(jié)點(diǎn)和邊中信息是否為敏感信息的情況下,利用拉普拉斯機(jī)制在邊權(quán)重中添加隨機(jī)噪聲并生成新的圖,并利用迪杰斯特拉算法計(jì)算原圖與生成圖中的最短路徑來(lái)評(píng)估差分隱私保護(hù)效果;針對(duì)度分布問(wèn)題,Hay 等[35,67]通過(guò)一致性約束進(jìn)行圖中度分布的估計(jì),并給出了圖中度分布計(jì)算的最小二乘解算法,在滿足差分隱私保護(hù)的條件下極大程度地提高了度分布查詢結(jié)果的準(zhǔn)確性;針對(duì)目的節(jié)點(diǎn)隱私保護(hù)問(wèn)題,Javidbakh等[68]在路由開(kāi)銷約束下,研究了目的節(jié)點(diǎn)在差分隱私保護(hù)下的最優(yōu)路由開(kāi)銷方案,采取了使數(shù)據(jù)傳遞經(jīng)過(guò)多個(gè)目的節(jié)點(diǎn)的策略,并將目的節(jié)點(diǎn)信息差分化的方式來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)路由中的數(shù)據(jù)保護(hù)。雖然,Javidbakh 等通過(guò)概率優(yōu)化意圖將通信開(kāi)銷降低到最低值,但其所提方案不可避免地仍將造成更多的通信負(fù)擔(dān)。Li 等[69]研究了圖合成的工作流程,提出了一種基于加權(quán)隱私綜合查詢方法,針對(duì)不準(zhǔn)確的協(xié)同系數(shù)以最佳種子圖替換一般種子圖,以此作為馬爾可夫鏈中的初始狀態(tài),并且通過(guò)交叉三角形的信息一步一步地進(jìn)行以增加合成圖中的三角形的數(shù)量,以此發(fā)布滿足差分隱私的社交圖。
在社交網(wǎng)絡(luò)大數(shù)據(jù)環(huán)境下,以圖結(jié)構(gòu)來(lái)重構(gòu)社交網(wǎng)絡(luò)展開(kāi)差分隱私保護(hù)應(yīng)用研究,不可避免地將面臨與差分隱私保護(hù)在分布式計(jì)算應(yīng)用中類似的通信開(kāi)銷過(guò)大問(wèn)題;同時(shí),社交網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)的數(shù)據(jù)具有關(guān)聯(lián)性,這也將不可避免地要求更多的噪聲。下一步研究可在充分考慮社交網(wǎng)絡(luò)中數(shù)據(jù)相關(guān)性的情況下,尋求新的差分隱私保護(hù)策略來(lái)降低因數(shù)據(jù)反復(fù)傳遞引起的通信開(kāi)銷。
差分隱私保護(hù)作為一種嚴(yán)格可證明的數(shù)學(xué)模型,在大數(shù)據(jù)環(huán)境下已經(jīng)被廣泛地應(yīng)用于各個(gè)領(lǐng)域。隨著近年來(lái)相關(guān)研究的不斷深入,差分隱私保護(hù)的理論及相關(guān)概念日益完善,其在數(shù)據(jù)發(fā)布、數(shù)據(jù)分析、云計(jì)算等領(lǐng)域的應(yīng)用也越來(lái)越成熟。
本文首先對(duì)差分隱私保護(hù)的基本理論進(jìn)行了介紹,隨后綜述了差分隱私保護(hù)在數(shù)據(jù)發(fā)布與分析、云計(jì)算與大數(shù)據(jù)計(jì)算、面向位置與軌跡服務(wù)和社交網(wǎng)絡(luò)中的應(yīng)用。從本文所做綜述中不難看出,針對(duì)差分隱私保護(hù)應(yīng)用的研究主要集中在保證數(shù)據(jù)滿足差分隱私保護(hù)要求的同時(shí),如何提高數(shù)據(jù)可用性與降低算法復(fù)雜度上。針對(duì)這一核心問(wèn)題,相關(guān)研究從差分隱私保護(hù)原理、噪聲添加機(jī)制與位置以及數(shù)據(jù)處理方式等方面已對(duì)差分隱私保護(hù)的應(yīng)用取得了卓有成效的優(yōu)化,且相關(guān)應(yīng)用成果可以在多個(gè)領(lǐng)域的不同場(chǎng)景下交叉應(yīng)用。但是,在大數(shù)據(jù)環(huán)境下,差分隱私保護(hù)想要得到系統(tǒng)性、普遍性的應(yīng)用,還需從以下幾個(gè)方面開(kāi)展下一步的研究。
1)隱私識(shí)別與量化評(píng)估技術(shù)
數(shù)據(jù)隱私主動(dòng)防護(hù)體系的基礎(chǔ)是隱私分級(jí)與量化評(píng)估。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)來(lái)源復(fù)雜、數(shù)據(jù)操作繁多等因素都將造成隱私識(shí)別與量化評(píng)估的困難[70]。對(duì)于差分隱私保護(hù)而言,隱私識(shí)別能夠區(qū)分?jǐn)?shù)據(jù)集中的隱私數(shù)據(jù)與一般數(shù)據(jù),明確差分隱私保護(hù)的對(duì)象,減少因保護(hù)范圍的無(wú)故擴(kuò)大造成的開(kāi)銷;量化評(píng)估則可以區(qū)分隱私數(shù)據(jù)的重要程度,明確差分隱私保護(hù)的隱私級(jí)別,利于解決數(shù)據(jù)隱私性與可用性的平衡問(wèn)題,即隱私預(yù)算量ε的設(shè)置與分配問(wèn)題。合理的隱私預(yù)算分配,將使差分隱私保護(hù)的效用最大化。特別是在高速動(dòng)態(tài)數(shù)據(jù)流的情況下,只有在對(duì)隱私預(yù)算量ε進(jìn)行合理設(shè)置與分配的情況下,差分隱私保護(hù)才能持續(xù)高效地對(duì)隱私數(shù)據(jù)提供保護(hù),在這個(gè)過(guò)程中,隱私識(shí)別與量化評(píng)估技術(shù)則顯得尤為重要。今后隱私識(shí)別與量化評(píng)估可通過(guò)隱私概念公理化表述、隱私及隱私集合測(cè)度概念提出、隱私計(jì)算體系構(gòu)建、隱私計(jì)算方法探究、隱私保護(hù)效果評(píng)估及系統(tǒng)化保護(hù)應(yīng)用研究等展開(kāi)。
2)主動(dòng)差分隱私保護(hù)框架確立
從當(dāng)前的研究情況來(lái)看,差分隱私保護(hù)在大數(shù)據(jù)環(huán)境下的應(yīng)用往往是被動(dòng)進(jìn)行的,存在場(chǎng)景依賴缺陷。針對(duì)不同隱私保護(hù)對(duì)象與不同隱私保護(hù)需求的差分隱私保護(hù)過(guò)程中,需重新設(shè)計(jì)相應(yīng)算法,沒(méi)有形成智能化的主動(dòng)差分隱私保護(hù)框架。
在大數(shù)據(jù)環(huán)境下,建立主動(dòng)差分隱私保護(hù)框架主要需解決兩方面的問(wèn)題:①由于查詢函數(shù)種類多造成的查詢函數(shù)敏感度主動(dòng)計(jì)算困難問(wèn)題;② 由于數(shù)據(jù)類型復(fù)雜引起的噪聲機(jī)制自動(dòng)優(yōu)化困難問(wèn)題。針對(duì)問(wèn)題①,可進(jìn)一步研究查詢函數(shù)敏感度邊界設(shè)定與差分隱私保護(hù)效用之間的博弈關(guān)系,尋求以近似敏感度代替精確敏感度的同時(shí)使額外噪聲量降到最低;針對(duì)問(wèn)題②,可將噪聲機(jī)制的優(yōu)化過(guò)程拆分成可合并的多個(gè)方面,研究噪聲機(jī)制的選擇性優(yōu)化方法。
3)多元融合的差分隱私保護(hù)體系構(gòu)建
差分隱私保護(hù)通過(guò)引入足夠的噪聲量來(lái)滿足其嚴(yán)格的隱私定義。但在大數(shù)據(jù)環(huán)境下,往往會(huì)出現(xiàn)由于添加的噪聲量過(guò)大造成大數(shù)據(jù)不可用的情況。針對(duì)這一問(wèn)題,一些學(xué)者試圖通過(guò)降低差分隱私保護(hù)的隱私級(jí)別來(lái)提高數(shù)據(jù)的可用性[26,71-72]。從該角度出發(fā),可研究建立多元融合的差分隱私保護(hù)體系,尋求將現(xiàn)有的多種隱私保護(hù)技術(shù)與差分隱私保護(hù)融合到同一體系中,當(dāng)出現(xiàn)因需滿足數(shù)據(jù)可用性而造成差分隱私保護(hù)隱私性降低的情況時(shí),研究應(yīng)用其他隱私保護(hù)技術(shù)彌補(bǔ)隱私性的相關(guān)方法。
4)新信息技術(shù)框架下差分隱私應(yīng)用方法
隨著信息技術(shù)的不斷發(fā)展,大數(shù)據(jù)環(huán)境下的數(shù)據(jù)隱私特征也在不斷發(fā)展和變化,具體表現(xiàn)在數(shù)據(jù)使用權(quán)由封閉轉(zhuǎn)向開(kāi)放、數(shù)據(jù)計(jì)算由單極轉(zhuǎn)向多級(jí)、數(shù)據(jù)所有權(quán)由固化轉(zhuǎn)向流通、數(shù)據(jù)隱私邊界由粗放轉(zhuǎn)向精細(xì)。當(dāng)前的隱私保護(hù)技術(shù)、數(shù)據(jù)管理策略、運(yùn)營(yíng)保障制度在新信息技術(shù)框架下存在許多短板。因此,對(duì)于差分隱私保護(hù),需研究新信息技術(shù)框架下其具體應(yīng)用方法,當(dāng)前而言,具體可研究在5G 通信網(wǎng)絡(luò)下差分隱私如何在工業(yè)互聯(lián)網(wǎng)中有效實(shí)施、在基于人工智能所衍生的隱私威脅下如何保證差分隱私不失效、依托人工智能成果輔助優(yōu)化差分隱私保護(hù)效用等多個(gè)方面。