徐小雅,于海洋,崔志勇,王穎會,王朋成
(1.北京航空航天大學交通科學與工程學院,北京 100191;2.北京航空航天大學網(wǎng)絡安全與空間學院,北京 100191)
在車聯(lián)網(wǎng)中,無線通信技術實現(xiàn)了人、車、路、云等功能實體之間高效、敏捷的數(shù)據(jù)交換與信息分享。交互數(shù)據(jù)包括車輛數(shù)據(jù)、個人數(shù)據(jù)、應用數(shù)據(jù)等。然而,大量的多元化接入用戶以及網(wǎng)絡設備也帶來了日益凸顯的隱私安全風險。隱私泄露關系到行車安全和生命財產(chǎn)安全,甚至可能會上升到國家安全。因此,隱私保護是推動車聯(lián)網(wǎng)廣泛應用的關鍵因素之一。
隱私度量作為評估隱私保護強度的關鍵方法,對推動車聯(lián)網(wǎng)的隱私保護技術的發(fā)展有重大意義[1]。與傳統(tǒng)數(shù)據(jù)庫領域中的小規(guī)模、結(jié)構(gòu)化、靜態(tài)化的數(shù)據(jù)不同,車聯(lián)網(wǎng)數(shù)據(jù)是大規(guī)模、非結(jié)構(gòu)化、動態(tài)性的,其隱私保護需求和保護技術更加多樣化。傳統(tǒng)隱私度量的方法并不完全適應于車聯(lián)網(wǎng),因此需要對車聯(lián)網(wǎng)隱私度量方法進行全面的研究和闡述。
針對不同隱私類型的特點,構(gòu)建合理的、可靠的度量指標體系是保證車聯(lián)網(wǎng)隱私安全的關鍵因素。本文首先通過分析車聯(lián)網(wǎng)環(huán)境下的隱私安全風險和隱私需求,將車聯(lián)網(wǎng)的隱私保護方法和理論進行分類、歸納和總結(jié)。通過梳理不同隱私類型的度量標準,總結(jié)了適用于車聯(lián)網(wǎng)隱私的評估指標體系,并對隱私度量方法的發(fā)展方向進行了討論。
車聯(lián)網(wǎng)隱私包括身份隱私、位置隱私、數(shù)據(jù)隱私三個重要部分[2]。車聯(lián)網(wǎng)中的隱私風險不僅威脅到交互的信息數(shù)據(jù),也會對車輛、用戶、云端系統(tǒng)造成直接危害。
面向車聯(lián)網(wǎng)中的隱私保護應考慮以下幾個隱私安全需求[3-4]:①匿名性,旨在能夠在數(shù)據(jù)發(fā)布環(huán)境下防止用戶個人數(shù)據(jù)被泄露,同時又能保證發(fā)布數(shù)據(jù)的真實性。②有條件的隱私性,旨在當出現(xiàn)可問責性和匿名性沖突時[5],信任機構(gòu)(如警察,交通管控等)有權(quán)透露車輛的真實身份,以實現(xiàn)安全的要求。③保密性,是指不將有用信息泄漏給非授權(quán)用戶的特性,確保數(shù)據(jù)信息只能被授權(quán)者看到。④最小暴露值,用戶在通信過程中應披露最小的信息量并且披露的用戶數(shù)據(jù)應該是最低標準的,且不暴露任何額外信息。⑤不可鏈接性,指對同一角色或身份的兩個或多個行為、兩個或多個用于特征識別的特性,無法互相鏈接或者鏈接到信息主體。⑥前向保密性,當用戶的真實身份或憑證被暴露時,前向保密性可以保護以前的通信信息不被鏈接到其身份,敏感信息不被泄露。
結(jié)合車聯(lián)網(wǎng)的隱私屬性、攻擊類型以及影響范圍等,將現(xiàn)有的車聯(lián)網(wǎng)隱私風險按照其攻擊目的進行分類[6],如表1所示。
表1 車聯(lián)網(wǎng)環(huán)境中的隱私風險Tab.1 Privacy risks in IoV
1.3.1車聯(lián)網(wǎng)身份隱私保護技術
車聯(lián)網(wǎng)中身份隱私的保護目標是實現(xiàn)任何節(jié)點都不能獲得源節(jié)點和目標節(jié)點的真實身份相關信息[7-8]。針對車聯(lián)網(wǎng)身份隱私的攻擊主要包括偽裝攻擊[9]、女巫攻擊[10]、節(jié)點復制攻擊[11]、映射攻擊[12]。車聯(lián)網(wǎng)身份隱私保護技術主要包括:假名認證技術及屬性憑證技術如圖1所示。
圖1 車聯(lián)網(wǎng)身份隱私保護技術Fig.1 Identity privacy preservation technologies in IoV
(1)假名認證
基于假名認證的隱私保護技術旨在用假名來代替現(xiàn)實世界的身份信息[13]。然而,只使用基礎的假名認證方案時,惡意攻擊者仍有可能把固定的假名與跟蹤特定車輛的真實身份關聯(lián)在一起[14]。
(2)屬性憑證
基于屬性憑證的身份隱私保護方案作為假名認證的替代方案開始受到關注[15],該方案允許用戶以數(shù)據(jù)最小化的方式向驗證者進行認證,并且只披露其憑證中與驗證者相關的屬性。與基于假名的身份隱私保護方案相比,基于屬性憑證需要為有隱私保護需求的所有節(jié)點創(chuàng)建共享的屬性,并且對資源的要求更高。不同身份隱私保護技術及其特點詳見表2。
表2 身份隱私保護技術及特點Tab.2 Identity privacy preservation technologies and features
1.3.2車聯(lián)網(wǎng)位置隱私保護技術
目前,車聯(lián)網(wǎng)位置隱私的保護技術主要可以分為如下4大類:
(1)加密機制
基于密碼學的位置隱私保護方案通常使用加密技術來保護用戶的位置。除了擁有密鑰的車輛節(jié)點可以解密具體查詢內(nèi)容,除此之外,包括提供查詢服務在內(nèi)的任何第三方都無法獲取具體內(nèi)容。除了傳統(tǒng)加密方案,還有3 種典型的基于加密的位置隱私保護技術,分別是基于隱私信息檢索(private information retrieval,PIR)的位置隱私保護技術[16]、基于同態(tài)加密(homomorphic encryption)的位置隱私保護技術[17]和混合加密方案。
圖2 車聯(lián)網(wǎng)位置隱私保護技術Fig.2 Location privacy preservation technologies in IoV
(2)位置隱匿
基于位置隱匿的位置隱私保護技術旨在打破身份和位置信息之間的聯(lián)系,主要分為k-匿名和混合區(qū)兩類。k-匿名屬于一種泛化技術,將用戶所在的位置模糊成一個包含用戶位置的區(qū)域,即在泛化形成的區(qū)域中,包含查詢用戶及其他k-1個用戶。基于混合區(qū)的方案是通過建立一個混合區(qū)使多個車輛同時在一個區(qū)域改變假名,以混淆攻擊者對新舊假名的聯(lián)系,從而達到對位置信息模糊化的目標[18]?;旌蠀^(qū)的位置隱私保護方案更適用于車輛密度高且合作車輛連接緊密的場景。
(3)位置混淆
位置混淆機制的關鍵是通過一系列降低位置信息精度的方法模糊準確位置信息,進而達到保護位置隱私的目的。位置混淆機制主要分為添加多個虛假位置迷惑攻擊者、添加擾動降低位置精度、差分隱私等幾種類型[19]。
(4)減少位置共享
減少位置信息共享的位置隱私保護機制主要是通過位置緩存技術來實現(xiàn)。位置緩存作為一種改善隱私的方式,需要把數(shù)據(jù)預下載進行緩存,因此需要大量的存儲空間。
表3 位置隱私保護技術及特點Tab.3 Location privacy preservation technologies and features
1.3.3車聯(lián)網(wǎng)數(shù)據(jù)隱私及保護技術
數(shù)據(jù)隱私保護是通過隱私保護技術對敏感數(shù)據(jù)進行處理,從而實現(xiàn)數(shù)據(jù)的隱私性、保密性和不可更改性。車聯(lián)網(wǎng)環(huán)境下的數(shù)據(jù)隱私保護技術除了傳統(tǒng)技術外,還包括3類新興技術,如圖3所示。
圖3 車聯(lián)網(wǎng)數(shù)據(jù)隱私保護技術Fig.3 Data privacy preservation technologies in IoV
(1)基于密碼技術的數(shù)據(jù)隱私保護
除了傳統(tǒng)的基于對稱和非對稱密碼學的加密技術以外,屬性基加密方案也可以保護數(shù)據(jù)隱私。這類方案讓密文和密鑰與屬性集合和訪問結(jié)構(gòu)產(chǎn)生關聯(lián),當且僅當屬性集合滿足訪問結(jié)構(gòu)的時候,才能成功解密。區(qū)塊鏈技術通過密碼學技術能夠?qū)崿F(xiàn)數(shù)據(jù)一致存儲、不可篡改、防抵賴的分布式賬本。
(2)基于數(shù)據(jù)失真的數(shù)據(jù)隱私保護
基于數(shù)據(jù)失真的隱私保護技術是在數(shù)據(jù)屬性不變的前提下,通過對數(shù)據(jù)添加噪聲或干擾后隱藏數(shù)據(jù)的敏感信息。數(shù)據(jù)失真越大,隱私保護強度越高,但數(shù)據(jù)可用性也越低?;跀?shù)據(jù)失真的典型代表即基于差分隱私的隱私保護機制。
(3)基于聯(lián)邦學習的數(shù)據(jù)隱私保護
聯(lián)邦學習本質(zhì)上是一種加密的去中心化機器學習技術,結(jié)合了安全多方計算、同態(tài)加密、差分隱私等技術,使各個參與者在不透露底層數(shù)據(jù)的基礎上構(gòu)建學習模型。
隨著大量隱私保護方案的涌現(xiàn),隱私保護技術的性能評估也是一個亟需解決的問題。隱私度量可以反映出隱私保護的強度,其目標是衡量用戶隱私在一個環(huán)境中具備的隱私程度以及隱私保護技術所提供的保護程度。
車聯(lián)網(wǎng)中的數(shù)據(jù)有著體量大、多源化、多維度、非結(jié)構(gòu)化的特性。目前,針對車聯(lián)網(wǎng)環(huán)境的隱私度量方法缺少一個全面的、系統(tǒng)的隱私評估指標體系,使得選擇合適的隱私指標具有一定難度。由于不同場景、不同的隱私類型,隱私度量方法所評估的內(nèi)容和指標也不盡相同。因此,對車聯(lián)網(wǎng)隱私保護評估機制進行分類時,必須考慮3個主要維度:隱私安全風險、隱私保護技術屬性、隱私度量屬性/指標,如圖4所示。
圖4 車聯(lián)網(wǎng)隱私安全度量框架Fig.4 Privacy metric framework in IoV
車聯(lián)網(wǎng)中身份隱私主要是通過匿名性方案來解決[20]。根據(jù)不同的理論模型,匿名性方案的隱私度量可以歸納為5個指標:熵、匿名集大小、k-匿名、攻擊者指標、隱私泄露程度。這些指標可以量化車聯(lián)網(wǎng)匿名方案所能提供的匿名性,并且能夠表示期望的隱私保護程度。
(1)熵
1984年,Shannon[21]建立了信息理論。信息理論的度量標準提供了一種實用的、相對輕量級的方法來衡量匿名系統(tǒng)在不同環(huán)境和不同約束條件下的匿名水平?;谛畔⒄摰亩攘繕藴拾ǎ盒畔㈧亍⒆钚§?最大熵、相互熵、相對熵、條件熵、Rényi 熵、相互信息等。
表4 數(shù)據(jù)隱私保護技術及特點Tab.4 Data privacy preservation technologies and features
信息熵被定義為一個離散的隨機事件的出現(xiàn)概率,可以衡量與預測隨機變量值相關的不確定性和信息獲取及損失的大小,其表達式為
式中:PE為X的熵值;k是一個隨機變量,離散隨機變量X集合的每個值X={k1,…,kn}代表匿名集的一個成員;p(ki)表示成員X是目標的估計概率。
在此基礎上,許多學者基于信息熵的匿名性度量進行了延伸研究,O'Connor[22]提出了一個流量確認熵值界限的方案,通過計算熵來度量信息發(fā)送者的匿名性隨時間的推移而減弱的速度。2018年,Cui等人[23]的方案中采用了匿名集的熵來表示車輛真實值與所有其他可能值之間關系的不確定性程度。
(2)匿名集大小
1988 年Chaum[24]提出了匿名集的概念,在特定信息的發(fā)送者和接收者的集合中,匿名集被用來隱藏真正的發(fā)件人或收件人。匿名集的大小被看作是用戶可以混入的集合的大小。隨著可以混入集合大小的增加,那么被發(fā)現(xiàn)的幾率越低,匿名的程度越高,其匿名程度PA的表達式為
式中:u為隨機用戶;|Au|表示u混入的用戶集合,可以被看作為攻擊者無法將u中區(qū)分出來的匿名集;N代表匿名集|Au|中的用戶數(shù)。
Chen 等人[25]提出通過基于集合理論的條件性匿名概念度量系統(tǒng)的匿名程度,并提出當對手從系統(tǒng)中獲得更多可觀察的輸出時,系統(tǒng)會失去更多的匿名性結(jié)論。
(3)k-匿名
k-匿名的概念首次是由Sweeney[26]在2002 年提出并被用于信息發(fā)布中保護私人數(shù)據(jù)。k-匿名是衡量數(shù)據(jù)相似性的指標之一,用于表示數(shù)據(jù)集中的準標識符屬性的匿名程度,其表達式為
式中:k代表匿名數(shù)據(jù)集中的不可識別元組,并且k個匿名元組被識別的概率相等。匿名數(shù)據(jù)中的k值越大,攻擊者越難推測出隱私信息,隱私保護強度越高。2019年,有部分學者提出k-匿名是數(shù)據(jù)匿名的最佳概括算法[27]。
(4)攻擊者指標
攻擊者指標是指通過概率分析攻擊者的成功率,并將隱私保護強度量化為對手任何一次嘗試或多次嘗試攻擊的成功率,對手成功率的表達式為
式中:PS為對手成功率;s為目標記錄;s'為攻擊者可以找到的相似記錄;τs為相似度閾值;τe為誤差閾值。因此,當對手能夠找到一個與其相似度閾值為τs,誤差閾值為τe時,攻擊者則成功獲取到隱私信息。Agrawal 和Kesdogan[28]認為量化攻擊者所需的觀察次數(shù)是衡量匿名性的有效方法。
(5)隱私泄露程度指標
與對手成功率相似,對于匿名性隱私的破壞程度或者隱私的泄露程度也可以作為度量指標,其表達式為
式中:τ為閾值,當給定其先驗概率后,一個屬性的后驗概率高于閾值τ,則會發(fā)生隱私泄露。s為一個目標,S為目標集合。當目標集S包含在隨機傳輸信息Ty,并且已知s包含在內(nèi)的概率。目標s包含在傳輸信息中的概率高于閾值τ,則會發(fā)生隱私泄露問題。在此基礎上,Huang[29]利用基于廣義信息論的證據(jù)理論,在給定時間段內(nèi)檢測到達的數(shù)據(jù)包的數(shù)量,進而衡量無線移動車聯(lián)網(wǎng)網(wǎng)絡的匿名程度。
本節(jié)討論在各種位置隱私評估中所使用的隱私屬性和評估指標,著重介紹七個主要位置隱私度量指標:
(1)匿名集大小
Chaum[24]將匿名集定義為具有發(fā)送特定信息概率的用戶集,并提出了針對不確定性,匿名集的大小是衡量匿名程度的一個很好的指標。在車聯(lián)網(wǎng)位置隱私中匿名集大小描述了在車輛中難以區(qū)分出目標車輛的情況。這個指標的優(yōu)點在于其比較簡單、容易計算。
(2)熵
熵通常被用作車聯(lián)網(wǎng)中位置隱私的精確測量方法[23]。當熵越大,車輛位置在匿名集中的混亂程度就越大,車輛的位置隱私就越安全。由于熵的取值范圍取決于匿名集的元素數(shù)量,并且絕對值不能被用來比較熵值。因此,最大熵被歸一化到[0,1]區(qū)間,并用歸一化熵來表示對手的不確定性程度,其表達式為
式中:H0(X)為最大熵,歸一化后的熵是有界的數(shù)值范圍,更適合于場景間的比較。Diaz 等人[30]討論了使用所有可能接收者分布的熵來量化隱私,并結(jié)合匿名集大小和歸一化熵來提供更好的隱私保證。王彩梅等人[31]設計了一種基于信息熵的用戶軌跡隱私水平計算方法,基于信息熵的角度計算用戶的軌跡隱私水平。
(3)信息增益/損失
信息增益/損失指標也是一個基于信息理論的指標,衡量對手通過觀察獲得多少隱私信息或用戶失去多少隱私信息。假設對手能獲得的信息越少,那么隱私程度就越高。信息量泄露的表達式為
式中:以車聯(lián)網(wǎng)場景為例,在這一指標所度量的泄露信息量中,v表示對手能正確跟蹤多少車輛,其概率很大程度上取決于一個場景中的車輛總數(shù)V。
相互信息也可以作為信息增益/損失指標量化兩個隨機變量之間的信息共享程度,通過計算熵和條件熵之間的差異得到,表達式為
式中:X*是數(shù)據(jù)的真實分布;Y為對手觀測到被混淆的觀測值。
通過計算熵的公式可以進一步得到
式中:x*是一個真實數(shù)據(jù)分布中的一個隨機變量,離散隨機變量X*的每個值X={x1,…,x*}代表一個數(shù)據(jù)真實分布。y是觀測數(shù)據(jù)分布中的隨機值,離散隨機變量Y的是多個y觀測值的集合。
條件性隱私損失是歸一化的相互信息,可以作為另一個隱私度量指標,表達式為
式中:Y為泄露部分,X*為由于Y泄露所損失的隱私。
(4)地理不可區(qū)分性
地理不可區(qū)分性指標是將差分隱私擴展到位置隱私場景,目的是確保用戶在任何距離d>0時可以保證?d差分隱私?;诘乩聿豢蓞^(qū)分性的隱私度量指標PG-I表示為
式中:d為距離;Ψ為隱私機制用于生成隨機位置觀測值;d?(ψy1,ψy2)為隨機位置觀測值分布之間的距離。l1和l2為任意兩個位置,d(l1,l2)為任意兩個位置之間的距離,用戶的隱私保護水平取決于距離d。
(5)攻擊成功率
攻擊成功率作為一個位置隱私指標適用于衡量攻擊者成功追蹤目標用戶的概率,如Sholri 等人[32]通過攻擊者的成功概率和準確度兩個指標來度量位置隱私。其中,準確度指標是指混淆區(qū)域的準確性,表達式為
式中:Ta是指傳感技術的最佳精度;rmin是指為了保護位置隱私,將區(qū)域放大到滿足最低用戶位置服務需求的位置半徑。
(6)平均混淆時間
平均混淆時間作為基于時間屬性的隱私保護評估指標是用熵來衡量攻擊者正確跟蹤一個軌跡所需的時間,表達式為
式中:τ是特定閾值時間;X為隨機變量表示對手對匿名集中的每個成員的估計概率;H(X)為熵值。因此,平均混淆時間衡量的是對手的不確定性保持在混淆閾值τ以下的時間。攻擊者保持不確定的時間越長,則隱私性越高。
(7)預期誤差
預期誤差指標可以用來衡量攻擊者重建目標軌跡的成功率[33],這一指標反映了攻擊者通過觀察發(fā)布的位置和推斷實際位置的準確度。
發(fā)布位置x'并使用攻擊者可用的先驗知識推斷出實際位置x的準確程度。
式中:x'為發(fā)布位置,x為實際位置。χ為用戶的可能位置,先驗知識通常由一組可能的用戶位置χ上的先驗概率分布π來獲取。
通過估計位置x*和實際位置x之間的預期偏差,計算出一個估計位置x*為
在位置隱私度量中‖x*-x‖表示地點之間的地理距離,因此,預期估計誤差Ep為
Corser 等人[34]提出可以使用綜合指標,例如平均匿名集的大小、平均距離偏差和匿名持續(xù)時間來度量隱私,來平衡不同用戶之間時間和位置的偏差影響。
車聯(lián)網(wǎng)數(shù)據(jù)隱私保護技術通常對原始數(shù)據(jù)進行干擾,以達到模糊敏感屬性的目的。從隱私保護強度和數(shù)據(jù)可用性兩個方面來看,可以將數(shù)據(jù)隱私度量指標分為4類:
(1)熵
在數(shù)據(jù)隱私度量可以通過熵、互信息和條件熵來度量隱私水平,其中熵和互信息的計算方法與身份隱私和位置隱私度量一致。基于條件熵的隱私度量表達式為
式中:隨機變量X={x1,…,xn}代表原始數(shù)據(jù),Y={y1,…,yn}代表經(jīng)過隱私保護處理的發(fā)布數(shù)據(jù)。當已知Y是,條件熵表示對手通過Y推測出X的平均不確定性。Begum[35]等學者提出了用聯(lián)合熵來維護云數(shù)據(jù)的隱私,并利用熵值和數(shù)據(jù)庫差異率被作為評估矩陣來評估隱私水平。
(2)集對分析
集對分析理論是一種解決不確定性和確定性理論的研究方法,該理論可以處理隨機的、不明確的和不確定的問題[36]。這個理論是把復雜的事物作為一個集合對來分析,并探究兩個集合之間的關聯(lián)隱私的不確定性,其表達式如下:
假設集合系統(tǒng)H由集合A和集合B組成,表示為H=(A,B)。兩個集合合并后的特性總數(shù)為S,P屬性是集合A和B的共同部分,N屬性是集合A和B中的對立屬性,剩余的屬性U=S-P-N,即既不統(tǒng)一也不對立的不確定屬性。由此可知是相似程度,是對立程度是不確定性。其中i為不確定性標記,j為對立度標記,當j=1時,i∈[-1,1]。
(3)相互信息
相互信息描述隱私泄露風險是通過攻擊者在獲取到隱私相關信息之前和之后,對原始數(shù)據(jù)不確定性減少的量來反映的。對原始數(shù)據(jù)不確定性減少的量越多,與之而來的隱私信息泄露的風險越大。Sankar[37]等人選取相互信息作為隱私度量指標提出了一個既能量化隱私,又能度量效用和隱私的框架,還有一系列研究[38]將相互信息作為隱私泄露的度量標準。
(4)差分隱私
基于差分隱私的隱私度量方法,隱私保護的強度主要取決于差分隱私中的ε值。分析ε的值可以反映隱私保護的強度[39]?;诓罘蛛[私的度量指表達式為
式中:D1和D2為兩個最多只有一行不同的數(shù)據(jù)集,即兩個數(shù)據(jù)集之間的漢明距離最大為1。S為數(shù)據(jù)查詢響應集;K為隨機化函數(shù)。
近似差分隱私與差分隱私的機制類似,通過允許一個額外的常數(shù)δ削弱差分隱私的隱私保證,但提升了數(shù)據(jù)發(fā)布/查詢響應的效率[40]。近似差分隱私度量指標表達式為
其特殊性源于參數(shù)δ,參數(shù)的選擇小于任意數(shù)據(jù)庫D大小的任何多項式的逆數(shù)。當時,將允許公布少量隱私數(shù)據(jù),同時仍然滿足差異化的隱私要求。
基于地理不可區(qū)分性的d-χ隱私使用可區(qū)分度量dχ來描述兩個數(shù)據(jù)集之間的距離,而不是標準差分隱私中使用的漢明距離。d-χ隱私使用可區(qū)分度量dχ來描述兩個數(shù)據(jù)集之間的距離,任意距離的數(shù)據(jù)集之間的可區(qū)分度由可區(qū)分度量dχ決定,因此其表達式為
式中:D1和D2為任意距離的數(shù)據(jù)集K產(chǎn)生隨機數(shù)據(jù)的隱私機制,dP(K(D1),K(D2))為隨機產(chǎn)生兩個數(shù)據(jù)集之間的距離。
對車聯(lián)網(wǎng)三個隱私類型的隱私特征和度量方法進行總結(jié)歸納后,總結(jié)出8 個車聯(lián)網(wǎng)隱私度量屬性以及32個評估指標,如表5所示,以助于后續(xù)研究能夠為特定的場景確定正確的隱私方案評估指標。
表5 車聯(lián)網(wǎng)隱私評估屬性及評估指標Tab.5 IoV privacy assessment attributes and assessment metrics
(1)不確定性
不確定性是指攻擊者識別隱私的不確定程度[41]?;诓淮_定性的隱私度量是指由于攻擊者無法將其猜測建立在確定的已知信息上,因此在攻擊者推測的信息中,信息的隱私程度越高,其不確定性越高。信息熵就是一個典型衡量所預測的隨機變量值的不確定性。此外,類似指標還有基于匿名集大小,無關聯(lián)性的程度等。
(2)信息獲取/損失
信息獲取或損失的指標量化了攻擊者獲得的隱私信息量或用戶因信息泄露而損失的隱私量。假設攻擊者能獲得的信息越少,隱私度就越高。例如,信息損失的平均大小這一指標度量系統(tǒng)泄露的信息量或被泄露的用戶數(shù)量。類似地還有相對熵、相互信息、條件互信息等方法。
(3)數(shù)據(jù)相似性
數(shù)據(jù)相似性指標是在大多數(shù)攻擊者無法獲取真實數(shù)據(jù)集的情況下,用于度量已發(fā)布或公布的數(shù)據(jù)的指標。這類方法利用數(shù)據(jù)的相似性度量隱私的大小,并完全從暴露的數(shù)據(jù)特征中得出隱私級別。這類指標的典型代表有k-匿名、l多樣性(l-diversity)、m不變性(m-invariance)、t緊密(t-closeness)等。
(4)不可區(qū)分性
不可區(qū)分性指標是指攻擊者區(qū)分目標的能力[41]。這類指標包括差分隱私,近似差分隱私、分布式差分隱私、分布式隱私、地理不可區(qū)分性、聯(lián)合差分隱私、計算差分隱私等。
(5)攻擊成功率
基于攻擊者成功概率的度量可以被看作是通用的度量標準,取決于對手模型和成功的確切定義。
(6)誤差
基于誤差的度量量化了攻擊者在創(chuàng)建其推測時的錯誤。由于度量過程需要基于真實結(jié)果的信息,所以不能由攻擊者計算出來。
(7)時間
基于時間的度量側(cè)重于將時間作為攻擊者為破壞用戶隱私所需花費的資源,這些指標通常應用于通信和定位領域。一般測量分為兩種情況:直到對手成功的時間和直到對手放棄的時間。
(8)精確度
精確度指標量化了攻擊者推測的精確程度,而不考慮估計的正確性。攻擊者更精確的推測對應著較低的隱私性。
針對以上的隱私屬性,對所應用的理論模型、隱私類別、評估指標和相關應用領域進行了總結(jié)歸納,如表5所示。
本文基于車聯(lián)網(wǎng)環(huán)境的組成部分、數(shù)據(jù)來源以及環(huán)境特征深入研究了車聯(lián)網(wǎng)的隱私特性和隱私需求,并將所涉及的隱私類型進行了分類與詳細闡述?;诙喾N理論模型對其不同的隱私度量指標進行歸納、總結(jié),構(gòu)建了一個結(jié)構(gòu)化的車聯(lián)網(wǎng)隱私度量指標體系。然而,在隱私度量方面車聯(lián)網(wǎng)還面臨著很多挑戰(zhàn)。區(qū)別于傳統(tǒng)網(wǎng)絡的特殊屬性決定了其隱私保護方案可能囊括了多種技術并涵蓋了多個隱私度量屬性。因此,由于各屬性之間的重要性的不同,在隱私度量過程中其隱私屬性的權(quán)重比例還需要進一步研究。另外,當前面向車聯(lián)網(wǎng)的隱私度量的研究還處于研究初期,隱私度量的研究與實際應用還需進一步研究與探索。
作者貢獻聲明:
徐小雅:設計論文框架,起草論文;
于海洋:指導性支持,項目管理;
崔志勇:設計研究方案,審核;
王穎會:修訂與編輯論文;
王朋成:論文選題,學術指導,論文審閱。