姚志強, 陳喆玙
(1.福建師范大學(xué) 計算機與網(wǎng)絡(luò)空間安全學(xué)院, 福建 福州 350117;2.大數(shù)據(jù)分析與應(yīng)用福建省高校工程研究中心, 福建 福州 350117)
當(dāng)今時代, 電子設(shè)備網(wǎng)絡(luò)連接相當(dāng)普遍, 物聯(lián)網(wǎng)技術(shù)無處不在, 收集、 存儲、 計算、 共享所有類型數(shù)據(jù)的云計算和大數(shù)據(jù)日漸成熟, 在帶來便利的同時也產(chǎn)生用戶隱私泄露風(fēng)險。 例如, 社交軟件往往要求用戶提供個人信息, 如姓名、 性別、 生日、 教育程度、 婚姻狀況及手機號碼等。此外, 用戶產(chǎn)生的文本、 圖片、 視頻、 地理位置等信息也保留在服務(wù)提供商的數(shù)據(jù)庫中, 這些實體就可以處理、 分析和挖掘數(shù)據(jù)以提取有用的信息, 也可能向第三方出售或共享收集到的數(shù)據(jù),并惡意使用它。 一旦用戶隱私信息被泄露或惡意使用, 用戶的利益就會受到損害。 因此, 隱私保護(hù)成為網(wǎng)絡(luò)空間安全領(lǐng)域的研究熱點。
數(shù)據(jù)的隱私保護(hù)問題最早由統(tǒng)計學(xué)家Dalenius 在20 世紀(jì)70 年代末提出, 保護(hù)數(shù)據(jù)庫中用戶隱私信息的目的是防止任何用戶(包括合法用戶和潛在的攻擊者)在訪問數(shù)據(jù)庫時獲取用戶的準(zhǔn)確信息。 為了實現(xiàn)這一目標(biāo), 研究人員設(shè)計了許多操作性強的隱私保護(hù)機制和技術(shù)工具。 隱私保護(hù)技術(shù)涉及底層硬件、 理論基礎(chǔ)和算法應(yīng)用等不同層面, 以差分隱私(Differential Privacy,DP)、 多方安全計算、 信息論隱私保護(hù)為基礎(chǔ)形成豐富多樣的技術(shù)方法或解決方案, 不同的技術(shù)方法逐漸演化出豐富的應(yīng)用場景, 這些應(yīng)用往往為了特定的計算目的而融合相應(yīng)的方法, 為實際生產(chǎn)提供服務(wù)。 本文對近幾年的隱私保護(hù)方法與應(yīng)用進(jìn)行歸納與述評, 主要分析基于匿名技術(shù)、信息論隱私保護(hù)、 DP 和人臉生物特征隱私增強等四個方面的方法及其應(yīng)用前景, 最后對隱私保護(hù)技術(shù)的研究趨勢進(jìn)行展望, 以期為科研人員準(zhǔn)確把握該領(lǐng)域的最新研究動態(tài)和未來發(fā)展方向提供借鑒。
匿名技術(shù)是指通過對用戶的原始數(shù)據(jù)進(jìn)行泛化、 抑制、 置換等匿名方式實現(xiàn)隱私保護(hù)。 其中,k-匿名是經(jīng)典的匿名技術(shù), 對數(shù)據(jù)的準(zhǔn)標(biāo)識符屬性進(jìn)行匿名處理, 因它對敏感屬性值沒有做任何處理, 所以導(dǎo)致具備隱私信息相關(guān)背景知識的攻擊者可以利用敏感屬性的分布推測出用戶與敏感屬性值之間的對應(yīng)關(guān)系。 由此引出的l-多樣性要求每個包含k個匿名準(zhǔn)標(biāo)識符的等價類中至少有l(wèi) 個不同的敏感屬性值, 使得攻擊者無法將攻擊目標(biāo)唯一對應(yīng)到單個敏感信息。l-多樣性未考慮敏感屬性的分布情況, 導(dǎo)致攻擊者可以通過等價類中的敏感屬性值的分布不均的狀況, 將出現(xiàn)頻率較高的敏感信息與攻擊目標(biāo)關(guān)聯(lián)起來。 Li等提出t-貼近法以克服l-多樣性的缺陷, 采用推土機距離衡量等價類中的敏感屬性的分布與整個表中的數(shù)據(jù)分布之間的差距, 并要求這種差距不小于閾值t, 降低攻擊者的攻擊能力[1]。 隨后學(xué)者開始考慮數(shù)據(jù)的多次發(fā)布模型和個性化匿名模型[2-3], 分別解決數(shù)據(jù)多次發(fā)布的數(shù)據(jù)聯(lián)合分析導(dǎo)致的隱私泄露問題和用戶的高度個性化的隱私保護(hù)需求問題。 總體上講, 基于匿名技術(shù)的隱私保護(hù)方法取決于匿名指標(biāo), 側(cè)重于處理準(zhǔn)標(biāo)識符和敏感信息來抵抗攻擊者跨數(shù)據(jù)集的鏈接能力。然而隨著大數(shù)據(jù)和云計算技術(shù)的興起, 以“數(shù)據(jù)驅(qū)動” 為需求導(dǎo)向的匿名技術(shù)面臨著處理數(shù)據(jù)規(guī)模大, 多源多維和結(jié)構(gòu)復(fù)雜的難題[4], 尤其在處理社交網(wǎng)絡(luò)和移動群智感知(Mobile CrowdSensing, MCS)應(yīng)用場景方面較為突出, 已成為國內(nèi)外學(xué)者共同探討的熱點問題。
在社交網(wǎng)絡(luò)應(yīng)用場景下, 存儲在云端的社交網(wǎng)絡(luò)數(shù)據(jù)通常采用圖數(shù)據(jù)結(jié)構(gòu)描述互聯(lián)網(wǎng)中的用戶之間的社交關(guān)系。 對用戶身份、 社交關(guān)系等隱私信息, 執(zhí)行去標(biāo)識化和刪除敏感屬性這類簡單的隱私操作, 攻擊者仍然可以通過分析社交節(jié)點的度數(shù)、 子圖相似度或攻擊者對目標(biāo)節(jié)點的了解程度攻擊目標(biāo)用戶的隱私信息。 針對社交網(wǎng)絡(luò)這類圖數(shù)據(jù)結(jié)構(gòu)的隱私保護(hù)問題, Liu 等提出圖的k度匿名模型, 防止攻擊者對某些節(jié)點的先驗知識重新識別用戶的匹配成功率[5]。 Zou 等提出k自同構(gòu)模型來防止多重結(jié)構(gòu)攻擊, 并且開發(fā)出一種能夠保證k自同構(gòu)的算法, 以處理數(shù)據(jù)的動態(tài)發(fā)布[6]。 Yuan 等通過添加噪聲節(jié)點, 增刪邊的方法實現(xiàn)具有相同度數(shù)的節(jié)點滿足k-匿名, 并且節(jié)點敏感屬性值滿足l-多樣性[7]。 綜合上述文獻(xiàn)可以看出, 匿名技術(shù)已拓展至圖數(shù)據(jù)結(jié)構(gòu)的隱私信息, 解決社交網(wǎng)絡(luò)中節(jié)點的隱私保護(hù)問題。
在MCS 應(yīng)用場景, MCS 系統(tǒng)由感知平臺、感知用戶和服務(wù)提供商組成, 通過協(xié)同三方完成智慧型社會的感知任務(wù)[8]。 在執(zhí)行感知任務(wù)的過程中, 感知數(shù)據(jù)會經(jīng)歷數(shù)據(jù)感知、 上傳和交易三個階段, 每個階段都可能造成用戶的隱私泄露。 Liu 等提出基于改進(jìn)的無證書聚合簽名的數(shù)據(jù)匿名批量驗證方案, 采用雙線性映射對用戶信息批量簽名, 匿名驗證用戶感知數(shù)據(jù), 實現(xiàn)輕量級的用戶身份和感知數(shù)據(jù)的隱私保護(hù), 保證用戶的隱私性和感知生物信息的可用性[9]。 Alsheikh等基于感知數(shù)據(jù)的準(zhǔn)確性定義感知用戶的個人貢獻(xiàn), 進(jìn)一步根據(jù)用戶的個人貢獻(xiàn)設(shè)計激勵機制,使得更多高質(zhì)量的感知用戶參與到感知任務(wù)中,并根據(jù)自己的隱私偏好制定數(shù)據(jù)的匿名程度, 在MCS 系統(tǒng)中多個感知用戶通過設(shè)備到設(shè)備形成通行聯(lián)盟, 然后上傳感知數(shù)據(jù), 從而保證用戶數(shù)據(jù)的隱私性[10]。 Wang 等提出基于分布式代理的隱私保護(hù)框架, 通過引入多級代理, 讓感知用戶使用匿名技術(shù)并且隨機選擇一個代理發(fā)送給不可信的感知平臺, 從而保護(hù)用戶的身份信息和位置隱私信息[11]。 可以看出, 匿名技術(shù)與密碼學(xué)技術(shù)、 經(jīng)濟學(xué)模型交叉適用于第三方協(xié)調(diào)數(shù)據(jù)交易實體的隱私保護(hù)。
基本信息度量(如信息熵、 互信息等)廣泛出現(xiàn)在信息量化的研究中, 尤其在通信領(lǐng)域發(fā)揮著重要作用。 用信息論方法研究隱私量化、 隱私-效用等問題有獨特作用。
Clauβ 等利用信息熵描述數(shù)據(jù)集中隱私信息的不確定性, 信息熵值越大意味著用戶的準(zhǔn)標(biāo)識符與敏感屬性值的關(guān)聯(lián)性趨于等概分布, 攻擊者推理用戶和敏感信息之間的關(guān)聯(lián)性難度越大[12]。彭長根等提出基礎(chǔ)隱私保護(hù)信息熵模型, 將隱私保護(hù)系統(tǒng)描述為含有信息擁有者、 隱私謀取者和隱私泄露渠道的一種通信模型, 將平均互信息、條件熵和條件互信息用來量化隱私信息、 隱私保護(hù)強度和攻擊能力, 為解決隱私保護(hù)量化問題提供基礎(chǔ)體系[13]。 張宏磊等指出, 對數(shù)據(jù)的動態(tài)操作會讓分塊數(shù)據(jù)不均勻, 導(dǎo)致用戶的隱私信息泄露, 通過定義分塊信息熵和塊間條件熵, 前者量化了數(shù)據(jù)分塊中的各分片取值整體的不確定性, 后者量化了動態(tài)數(shù)據(jù)操作對分塊數(shù)據(jù)的影響, 進(jìn)一步提出面向分塊混淆的動態(tài)數(shù)據(jù)隱私保護(hù)[14]。
采用信息熵或互信息作為隱私度量準(zhǔn)則, 建立優(yōu)化模型成為主要技術(shù)手段之一。 Du 等根據(jù)最大熵準(zhǔn)則提出Privacy-MaxEnt 模型對攻擊者的攻擊能力進(jìn)行無偏估計, 將攻擊者的背景知識作為模型的約束條件估計準(zhǔn)標(biāo)識符推測敏感信息的條件概率, 證明了攻擊者擁有背景知識越多, 隱私信息越容易被披露[15]。 Zhang 等利用率失真理論對位置隱私保護(hù)機制進(jìn)行建模, 分別提出基于離線環(huán)境和在線環(huán)境的具有時空關(guān)系的位置軌跡的隱私保護(hù)機制, 通過改進(jìn)Blahut-Arimoto 算法迭代計算得到滿足期望失真的位置隱私數(shù)據(jù)[16]。Cuff 等提出一種基于條件互信息的DP, 證明了其隱私保護(hù)強度介于ε-DP 和(ε,δ)-DP 之間,同時驗證該方法滿足DP 的組合定理[17]。
為研究隱私與效用之間的權(quán)衡關(guān)系, 學(xué)者嘗試將這種問題抽象為多目標(biāo)規(guī)劃問題, 尋找能夠同時滿足隱私性和可用性的Pareto 最優(yōu)解作為隱私保護(hù)機制。 針對包含可用信息和敏感信息的全數(shù)據(jù)發(fā)布的隱私保護(hù)問題, Johnson 等設(shè)計了一種細(xì)粒度模型計算隱私保護(hù)機制, 采用互信息描述全數(shù)據(jù)的可用性和隱私性, 通過分析Lagrange參數(shù)變化判定該模型是屬于凸規(guī)劃模型還是線性規(guī)劃模型, 給出了Pareto 前沿迭代算法計算給定Lagrange 參數(shù)的Pareto 解, 并且將Pareto 解作為發(fā)布全數(shù)據(jù)的隱私保護(hù)機制[18]。χ2隱私準(zhǔn)則同樣被用來研究隱私與效用之間的權(quán)衡問題,Zamani等基于χ2隱私準(zhǔn)則設(shè)計隱私機制來產(chǎn)生新的披露數(shù)據(jù), 通過使用歐幾里德信息幾何將困難的隱私優(yōu)化問題轉(zhuǎn)化為求解矩陣的主右奇異向量并將其作為數(shù)據(jù)發(fā)布的隱私機制[19]。 應(yīng)該說,隱私保護(hù)機制無法回避數(shù)據(jù)的隱私和效用間的權(quán)衡問題, 但在處理結(jié)構(gòu)復(fù)雜的數(shù)據(jù)類型方面尚缺可行方案, 為此研究人員開始思考信息瓶頸理論、隱私漏斗理論結(jié)合深度神經(jīng)網(wǎng)絡(luò)的可行性[20]。
DP 已成為數(shù)據(jù)隱私保護(hù)處理的事實上的標(biāo)準(zhǔn), 是基于一個正式的數(shù)學(xué)定義提供對具有任意背景知識的攻擊者不能以高置信的分辨能力區(qū)分任一條敏感信息是否在數(shù)據(jù)庫中, 這種分辨能力由隱私預(yù)算參數(shù)決定, 為隱私保護(hù)方法提供一種可量化的隱私保護(hù)強度。 DP 機制的隱私保證力強, 廣泛應(yīng)用在不同領(lǐng)域, 基于位置服務(wù)就是其中的一個典型應(yīng)用。 本節(jié)主要分析DP 方法在基于位置服務(wù)中的應(yīng)用研究進(jìn)展, 分為地理不可區(qū)分性、 隱私空間分解和本地差分隱私(Local Differential Privacy, LDP)等3 種基于DP 方法保護(hù)用戶位置數(shù)據(jù)方法。
地理不可區(qū)分性方面的首個方法稱為GeoInd, 是在用戶的實際位置上添加隨機噪聲,使具有任意背景知識的對手無法推斷出用戶的實際位置[21]。 根據(jù)地理不可區(qū)分性的形式化定義,對給定一個聲明位置z, 敵手識別用戶的實際位置究竟是x還是x′(這里x,x′∈X,X, 為用戶可能的位置之集) 的能力受限于隱私預(yù)算ε, 意味著兩個地點越近, 它們就越難以區(qū)分。 即使GeoInd 采用二維拉普拉斯噪聲的擾動機制, 該方法只適用于單一位置查詢的場景, 當(dāng)獨立應(yīng)用于多個位置查詢時, 隱私成本會隨著查詢的數(shù)量線性增加, 這意味著如果用戶執(zhí)行大量查詢, 它可以快速消耗隱私預(yù)算。 為此, Hua 等提出在邊界區(qū)域內(nèi)的隱私消耗幾乎降至零的改進(jìn)GeoInd 方法[22]。
Chatzikokolakis 等提出一種構(gòu)建較粗粒度網(wǎng)格的優(yōu)化機制, 較粗粒度網(wǎng)格包含若干單元, 單元由合并多個位置而成, 即用戶的位置x映射到x所處的較粗粒度網(wǎng)格中的一個單元[23]。 盡管在更粗網(wǎng)格上構(gòu)建的優(yōu)化機制減少了計算開銷,但與文[21]相比, 它導(dǎo)致相對較高的數(shù)據(jù)質(zhì)量損失。 為了減少優(yōu)化機制的計算開銷, Ahuja 等開發(fā)一種多步算法, 沿著多級索引結(jié)構(gòu)遞歸地應(yīng)用優(yōu)化機制, 其中多級索引結(jié)構(gòu)包含多個網(wǎng)格,接近頂層的網(wǎng)格比較低層的網(wǎng)格粒度更粗, 因此多級索引結(jié)構(gòu)使算法在搜索最優(yōu)解時可有效進(jìn)行搜索空間的剪枝, 從而獲得高計算效率[24]。
隱私空間分解是將一個空間區(qū)域劃分為若干單元格, 每個單元格負(fù)責(zé)該空間區(qū)域的所有用戶信息。 每個單元格中與用戶相關(guān)的統(tǒng)計信息稱為空間位置的直方圖計數(shù)。 Kim 等通過向原始的單元格的統(tǒng)計數(shù)據(jù)添加滿足DP 標(biāo)準(zhǔn)的噪聲, 使得對手無法從查詢結(jié)果分辨用戶處于哪個單元格中, 同時也能滿足數(shù)據(jù)發(fā)布之用, 實現(xiàn)位置的隱私保護(hù)[25]。 在使用隱私空間分解估計某個區(qū)域內(nèi)的對象數(shù)量時, 可能會出現(xiàn)以下兩種類型誤差。
(1)擾動誤差: 由實際計數(shù)和受擾動計數(shù)之間的差異引起的, 如拉普拉斯機制的DP 中, 擾動誤差依賴于空間范圍內(nèi)的單元數(shù)量, 擾動誤差的方差正比于單元數(shù)量, 因此查詢范圍內(nèi)的單元數(shù)量越多, 隱私空間分解的粒度越細(xì), 擾動誤差就越大。
(2)非均勻誤差: 由查詢空間部分包含的單元格引起, 即使位置數(shù)據(jù)關(guān)于單元格是均勻分布的, 然而當(dāng)一單元內(nèi)的位置數(shù)據(jù)不均勻時, 非均勻誤差會增大。 如圖1 所示, 給定虛線框(即一半單元)的范圍查詢, 在均勻分布假設(shè)下, 范圍查詢的答案估計為這個估計數(shù)與實際計數(shù)有很大的不同。
圖1 具有偏斜分布的位置數(shù)據(jù)單元格
因此, 隱私空間分解方面出現(xiàn)一些關(guān)鍵應(yīng)用新方法的研究, 可分為2 種: 其一是不考慮數(shù)據(jù)分布而對空間區(qū)域進(jìn)行劃分的方法, 稱為數(shù)據(jù)獨立方法; 其二是基于數(shù)據(jù)分布的空間區(qū)域劃分方法, 稱為數(shù)據(jù)依賴方法。 數(shù)據(jù)獨立方法與用戶位置無關(guān), 空間區(qū)域的劃分并不披露用戶的位置信息, 僅僅在計算各單元的帶噪計數(shù)時才消耗隱私預(yù)算。 當(dāng)數(shù)據(jù)的分布嚴(yán)重偏斜時, 發(fā)布的直方圖是失衡的, 因此數(shù)據(jù)獨立方法的思路是逼近基于帶噪計數(shù)的分布。 自適應(yīng)網(wǎng)格算法是Qardaji 等提出的兩層網(wǎng)格劃分策略, 第一層將空間區(qū)域劃為 較 粗 粒 度 的m1× m1(m1=max(10,均勻網(wǎng)格, 接著該算法對這層單元的計數(shù)添入取樣于Lap (1/ε1) 的噪聲, 然后在帶噪計數(shù)基礎(chǔ)上, 各單元分為m2×的第二層細(xì)粒度單元, 并用隱私預(yù)算ε2發(fā)布各細(xì)粒度單元帶噪計數(shù),N′為第一層單元的帶噪計數(shù)[26]。
數(shù)據(jù)依賴方法可以更好地捕捉用戶位置的分布, 也比數(shù)據(jù)獨立方法得到更均衡的統(tǒng)計結(jié)果。Xiao 等提出了為回答隨機的多維直方圖計數(shù)查詢方法, 首先將空間范圍進(jìn)行單元劃分, 每個單元的計數(shù)添加拉普拉斯噪聲, 只添入擾動誤差[27]。 如果一個范圍查詢覆蓋了多個單元, 那么擾動誤差就會聚合起來, 使得查詢結(jié)果變得不準(zhǔn)確到難以接受的地步; 據(jù)此, 作者進(jìn)一步提出基于kd 樹的單元劃分, 目的是生成均勻的單元,從而使非均勻誤差最小化[27]。 Kim 等進(jìn)一步設(shè)計偏斜感知網(wǎng)絡(luò)劃分方法, 旨在對每個熱點(即位置信息密集成群的點, 基于指數(shù)機制隱私性地查出熱點)自適應(yīng)劃分出均勻的網(wǎng)格, 優(yōu)化總體估計誤差, 即使對高度傾斜分布的數(shù)據(jù)集也可穩(wěn)健提供范圍查詢準(zhǔn)確性[25]。 Fanaeepour 等經(jīng)過大量分析發(fā)現(xiàn), 數(shù)據(jù)依賴方法存在非隱私性的參數(shù)調(diào)優(yōu), 如層次結(jié)構(gòu)的深度或空間劃分的大小,可能無形中損害了隱私安全, 且一些數(shù)據(jù)獨立的劃分案例降低了數(shù)據(jù)效用, 因此提出隱私性優(yōu)化數(shù)據(jù)依賴的誤差界限, 以量化數(shù)據(jù)結(jié)構(gòu)參數(shù)對非交互環(huán)境中期望效用的影響度[28]。
DP 由中心化的信任聚合器來聚合數(shù)據(jù)所有者的原始數(shù)據(jù), 而LDP 適用于非可信的聚合器進(jìn)行數(shù)據(jù)聚合的環(huán)境, 因為數(shù)據(jù)所有者不完全信任聚合器, 先對所有者數(shù)據(jù)添入精心設(shè)計的隨機噪聲以局部達(dá)到DP, 再聚合到數(shù)據(jù)集, 傳播給用戶的是擾動數(shù)據(jù), 因此, LDP 在數(shù)據(jù)流動框架下更具安全性, 也能恢復(fù)原始聚合數(shù)據(jù)的統(tǒng)計特征, 滿足數(shù)據(jù)的可用性和隱私性。 LDP 于2008 年被提出, 直到2014 年谷歌公司應(yīng)用隨機化聚合隱私順序響應(yīng)方法在Chrome 瀏覽器中收集用戶隱私數(shù)據(jù), 使LDP 重新活躍起來。Acharya 等對數(shù)據(jù)聚合時的擾動采用Hadamard 變換進(jìn)行稀釋混淆, 該變換矩陣是正交對稱方陣,階為2 的冪[29]。
Wang 等提出的隨機響應(yīng)算法稱為分段機制,關(guān)注的是LDP 的數(shù)值型均值估計問題, 算法為:任選一個數(shù)據(jù)所有者真實的敏感值k∈[-1,1], 分段機制為輸出噪聲值k′∈[- C,C],C =(eε/2+1)/(eε/2-1), 先建立三段式的概率分布, 左段區(qū)間為[- C,L(k)], 中段為[L(k,R(k)], 右段為[R(k),C], 其中R(k)=L(k)+C -1; 再令RV([a,b]) 表示一個從區(qū)間[a,b]均勻地輸出隨機值的函數(shù), 這樣對應(yīng)k的噪聲值k′以相對高的概率從中段取值:[30]
近年來, 將LDP 應(yīng)用于更高級的統(tǒng)計估計任務(wù)的研究不斷出現(xiàn), 比如, key-value 模型是大多數(shù)NoSQL 數(shù)據(jù)庫應(yīng)用的流行數(shù)據(jù)模型之一。Ye 等提出PrivKV 算法, 用于估計key-value 數(shù)據(jù)集上的頻率和均值, 為了保持鍵與值之間的相關(guān)性, PrivKV 算法先對鍵進(jìn)行擾動, 然后根據(jù)受擾動的鍵執(zhí)行值的擾動, 此外, 為減少網(wǎng)絡(luò)傳輸開銷, 提高估計精度, Ye 等進(jìn)一步設(shè)計一種稱為虛擬迭代的優(yōu)化策略, 在沒有數(shù)據(jù)用戶參與的情況下, 聚合器迭代執(zhí)行虛擬PrivKV[31]。
近20 年來生物特征識別技術(shù)取得重大進(jìn)展,其應(yīng)用程序豐富、 服務(wù)廣泛, 但也加劇用戶隱私泄露的風(fēng)險, 尤其是人臉識別技術(shù)。 目前發(fā)現(xiàn)人臉圖像對個人隱私構(gòu)成同樣的風(fēng)險, 例如, 可從人臉圖像中自動提取年齡、 性別、 種族和健康信息。 為了排除這類風(fēng)險, 研究人員既要確保人臉識別技術(shù)在各種場景的便捷應(yīng)用, 也要加強來自生物識別特征信息的隱私保護(hù)技術(shù)和計算模型的研發(fā)。 也就是說, 從人臉圖像提取性別或種族信息的分類器既可以使用空間局部信息(如眼睛或嘴巴的形狀), 也可以使用全局特征(如面部外觀、 面部幾何形狀或膚色), 因此刪除或隱藏敏感信息并不是一項可直接操作的任務(wù), 這方向的研究有一定的特殊性, 可歸類為圖像級、 表示級和推理級等3 個層次的隱私增強。
文[32]出于人臉掩蔽技術(shù)在現(xiàn)實應(yīng)用中的增強隱私考慮, 提出RTFace 系統(tǒng)支持人臉檢測、跟蹤、 基于路徑的匿名化和登記用戶的白名單,系統(tǒng)含有兩個組件: 一個叫人臉訓(xùn)練器, 用于辨識人臉; 另一個叫隱私中介器, 用于確定檢測到的人臉是呈現(xiàn)還是用于補丁掩蓋。 信號過濾器也是模糊技術(shù)工具之一, 文[33]提出的方法是使用隱私保護(hù)過濾器來偽隨機修改圖像(微型飛行器捕獲的視頻片段)中人臉區(qū)域外觀, 以防止身份推理, 過濾器具有減少失真全局適應(yīng)能力和反攻擊者的局部參數(shù)跳變能力。 文[34]立足于圖像變換技術(shù), 研究了應(yīng)用不同的半色調(diào)算法的可能性, 目的是避免多余人臉檢測和識別; 半色調(diào)算法將輸入圖像的標(biāo)準(zhǔn)灰度級像素強度轉(zhuǎn)換為黑白點, 以保持人類觀察者對圖像的可理解性, 而不必為機器學(xué)習(xí)技術(shù)而用。 目前, 視頻直播流媒體已很普遍, 相關(guān)的人物在視頻幀序列中形成軌跡, 為保護(hù)隱私, 文[35]提出直播視頻人臉像素化方法, 用人臉檢測和嵌入網(wǎng)絡(luò)生成人臉向量, 結(jié)合定位增量吸引子傳播聚類算法, 定位信息快速地將同一個人的人臉跨幀關(guān)聯(lián)起來, 最后對人臉進(jìn)行像素化處理達(dá)到隱私保護(hù)像素化任務(wù)。 對抗方法是最適合于機器目標(biāo)的隱私保護(hù)策略, 因此也稱為對抗機器學(xué)習(xí)。 文[36]的PrivacyNet 是一個基于生成對抗網(wǎng)絡(luò)的半對抗網(wǎng)絡(luò)改進(jìn)型, 同時針對多個屬性分類器, 轉(zhuǎn)而抑制面部圖像中的多個屬性, 同時保留身份信息為身份識別提供便利。
以性別、 年齡或種族等軟性生物特征為目標(biāo)對象的隱私增強研究倍受關(guān)注, 軟性生物特征等同于準(zhǔn)標(biāo)識符, 它們刻畫個體的部分信息, 不能以明確的方式與特定的人聯(lián)系起來。 例如, 文[37]是一種既去身份又保護(hù)軟性生物特征隱私的對抗方法, 采用靜態(tài)圖像懲罰快速梯度值法,生成對抗樣本使圖像能夠保留大部分原始的面部外觀, 但所選定的預(yù)訓(xùn)練的人臉識別模型產(chǎn)生高的錯誤分類率。 Guo 等引入一種基于深度學(xué)習(xí)的去身份模型k-dive-Net(源于對k-Same-Net 模型的改進(jìn)), 將多樣性集成到當(dāng)中的去身份過程, 用這種模型可以達(dá)到去身份的人臉之間的視覺效果是彼此不同的[38]。
表示級的生物特征隱私增強方法可細(xì)分為變換法、 消除法和同態(tài)加密法等3 種。 文[39]引入了余弦敏感噪聲變換, 把噪聲添加到人臉表示, 達(dá)到保留身份信息并抑制生物特征模板中的性別和年齡信息的效果, 應(yīng)屬于無監(jiān)督學(xué)習(xí)方法, 不需要大量標(biāo)注數(shù)據(jù)來學(xué)習(xí)隱私增強。 文[40]提出漸式變量消除, 逐步消除對所選屬性預(yù)測(如年齡或性別)貢獻(xiàn)最大的成份, 該算法基于決策樹集成學(xué)習(xí), 根據(jù)人臉表示中對特定識別任務(wù)的重要性評估確定變量消除順序, 先消除對屬性分類影響大的變量。 因此雖然有相當(dāng)數(shù)量的敏感屬性的信息可消除, 但仍然保持較高的識別準(zhǔn)確性。 但該方案在每一個消除步驟之后, 都需要訓(xùn)練一個新的決策樹集成模型, 消除過程減慢。 文[41]開發(fā)的生物特征系統(tǒng)的同態(tài)加密實現(xiàn)身份證明功能, 同態(tài)加密面向預(yù)定使用目的加密特征模板, 在加密域仍可進(jìn)行特定的計算。
推理級生物特征隱私增強技術(shù)通過在生物識別系統(tǒng)頂層構(gòu)建、 引入一個額外的面向隱私層來防范隱私泄露。 文[42]考慮識別系統(tǒng)特征匹配時特征向量的檢索可能產(chǎn)生模型反演攻擊而披露身份隱私, 保護(hù)策略是將優(yōu)化預(yù)訓(xùn)練的深度生成模型和模型反演攻擊步驟融合, 從一般圖像空間縮小到人臉圖像空間轉(zhuǎn)移, 有效地縮小搜索空間, 這樣人臉識別器轉(zhuǎn)移到潛在向量空間的低維度向量。 Terh?rst 等引入負(fù)人臉模板概念來保護(hù)隱私, 先由人臉圖像生成標(biāo)準(zhǔn)人臉和負(fù)人臉兩個模板, 創(chuàng)建負(fù)模板的方法是先對標(biāo)準(zhǔn)人臉嵌入向量升維, 分量采用分位數(shù)策略離散化為整數(shù)分箱編號, 再將各分量替換為其補集中的隨機值(全集為該分量的有效整數(shù)分箱編號)。 負(fù)模板數(shù)據(jù)存入數(shù)據(jù)庫作為人臉識別的參考模板, 因為參考模板與標(biāo)準(zhǔn)人臉模板數(shù)據(jù)基本不相關(guān), 難以推斷生物特征中的敏感信息, 但根據(jù)候選人臉生物特征與參考模板匹配的非相似度指標(biāo)進(jìn)行人臉識別依然可行[43]。
盡管近年來學(xué)者和科技人員對隱私保護(hù)理論方法、 技術(shù)應(yīng)用的興趣不斷增長, 并且在這一領(lǐng)域取得重大進(jìn)展, 但仍有許多問題作為未來研究活動的組成部分需要加以解決。
雖然現(xiàn)有的匿名化方法能夠根據(jù)匿名值來為用戶提供更高強度的隱私保護(hù), 但是隨著大數(shù)據(jù)和物聯(lián)網(wǎng)技術(shù)的不斷發(fā)展, 數(shù)據(jù)在云服務(wù)平臺和多個設(shè)備之間傳輸、 存儲和共享, 需要同時考慮各平臺數(shù)據(jù)使用者的權(quán)限、 用途和不同時間段的安全級別等因素。 因此, 如何在云計算和物聯(lián)網(wǎng)場景下, 設(shè)計具有細(xì)粒度的匿名化的隱私保護(hù)方法, 并且能夠提高隱私保護(hù)效率、 降低匿名化處理帶來的計算開銷, 成為亟需解決的問題。
在保證數(shù)據(jù)源的期望效用水平的同時, 實現(xiàn)所需的隱私水平至關(guān)重要, 反之亦然。 針對更具有一般性的數(shù)據(jù)源, 量化隱私和效用仍然面臨著挑戰(zhàn), 例如, 量化模型應(yīng)該要擴展至非獨立同分布的數(shù)據(jù)源、 分布未知的數(shù)據(jù)源或不具有強結(jié)構(gòu)關(guān)系屬性的數(shù)據(jù)源。 因此, 為復(fù)雜、 多源、 多維的數(shù)據(jù)類型設(shè)計隱私保護(hù)機制將成為該領(lǐng)域迫切需要解決的問題。
隱私預(yù)算ε 控制隱私水平, 使較小(較大)的ε 值具有更強(較弱)的隱私保證, 在輸出結(jié)果中引入更大(較小)的噪聲。 然而, 即使ε 提前通知基于位置服務(wù)的用戶, 他們也不知道位置隱私泄露的確切風(fēng)險, 因為隱私預(yù)算是一個相當(dāng)理論性的參數(shù), 不易與量化隱私泄露風(fēng)險的實用隱私度量指標(biāo)相聯(lián)系。 因此, 根據(jù)ε 值能夠量化隱私泄露風(fēng)險研發(fā)實用的隱私度量體系問題, 本領(lǐng)域鮮被關(guān)注, 迫切需要對此進(jìn)行研究。
現(xiàn)有的可證明隱私性模型(如k-匿名)是基于強的條件假設(shè), 使其難以應(yīng)用于現(xiàn)實環(huán)境, 有待進(jìn)一步深化拓展這些問題: 1)超出靜止圖像閉集范疇, 向視頻數(shù)據(jù)的開集問題推進(jìn); 2)超出身份以外的軟性生物特征屬性隱私保護(hù); 3)表示級、 推理級層面的人臉生物特征隱私增強。還有重要的一項是需要創(chuàng)新、 有效的理論方法提供隱私保證, 同時確保生物識別技術(shù)在更現(xiàn)實的部署場景中發(fā)揮作用, 因為目前圍繞DP 建立的隱私增強模型雖然放寬與k-匿名相關(guān)的假設(shè), 但該方向的研究仍非常有限。