謝小杰,梁 英,王梓森,董祥祥
(1.中國科學院計算技術研究所,北京 100190;2.移動計算與新型終端北京市重點實驗室,北京 100190; 3.中國科學院大學計算機科學與技術學院,北京 101408)
社交網絡應用正逐漸成為人們生活中不可或缺的一部分,具有信息類型多樣、規(guī)模龐大和共享公開等特點。由于社交網絡中大多數用戶隱私保護意識薄弱,通常會公開性別、所在地和職業(yè)等個人信息,網絡攻擊者可以很容易地獲取大量用戶數據,挖掘用戶隱私信息,造成用戶隱私泄露,威脅個人財產和人身安全。因此,開展社交網絡用戶隱私泄露量化評估的研究,不僅有利于幫助用戶了解個人隱私泄露狀況,提高公眾隱私保護和防范意識,同時也能為個性化隱私保護方法設計提供依據,為隱私保護效果評估提供支持。
目前,社交網絡用戶隱私泄露量化評估主要面臨2個挑戰(zhàn):
(1)如何設計社交網絡隱私泄露量化評估方法。現有隱私量化評估方法被廣泛應用在通信系統(tǒng)[1]、基于位置的服務LBS(Location Based Ser- vices)[2,3]和社交網絡[4]等領域,常用于評估隱私保護方法的保護效果[5,6],無法對社交網絡用戶的隱私泄露風險進行有效的量化。
(2)如何對隱私泄露進行多視角的量化和分析。目前社交網絡用戶隱私泄露量化的研究一般將隱私偏好設置作為評估隱私泄露風險的依據[7 - 9],而社交網絡包含豐富的用戶數據,僅關注隱私偏好設置這一主觀因素不足以全面地對用戶進行評估。
為了解決目前研究中的挑戰(zhàn),本文提出了一種社交網絡用戶隱私泄露量化評估方法,設計了屬性敏感性、屬性公開性和數據可見性指標,量化評估用戶的隱私泄露風險。在新浪微博數據上,基于量化評估指標對用戶進行了多視角的量化分析,有效地評估了用戶的隱私泄露狀況。主要貢獻包括:
(1)提出了一種社交網絡用戶隱私泄露評估方法,支持用戶隱私泄露風險的量化與評估。
(2)設計了屬性敏感性、屬性公開性、數據可見性和隱私評分的量化指標,支持多視角量化評估。
目前隱私量化評估相關的研究主要分為3類:基于信息熵的方法、基于隱私保護效果評估的方法和基于用戶隱私偏好設置的方法。
在基于信息熵的方法中,信息熵通常用于度量信息所包含的信息量,熵值越大表示包含的信息量越大[10]。在通信領域,Diaz等[1]利用信息熵來量化匿名通信系統(tǒng)的匿名性,值越大表示確定消息的發(fā)送者或接收者真實身份的難度越大,系統(tǒng)的匿名程度越高,隱私保護狀況越好。在LBS領域,真實位置通常被視為隱私信息。Hoh等[3]基于信息熵量化位置軌跡隱私,保證位置軌跡的匿名性。Ma等[11]基于信息熵量化V2X(Vehicle to X)車聯網系統(tǒng)的隱私泄露狀況。在社交網絡領域,用戶屬性信息或身份特征通常被視為隱私信息。Ngoc等[4]基于信息熵量化社交網絡用戶待發(fā)布信息中包含的隱私量,通過檢索用戶發(fā)布的信息中的屬性值關鍵詞來推測用戶屬性的概率分布。Yang等[12]提出了一種基于信息增益的隱私量化方法,通過信息增益確定用戶身份,信息增益越大,用戶身份泄露風險越大。
在基于隱私保護效果評估的方法中,隱私量化評估方法通常用于衡量系統(tǒng)或數據的隱私泄露狀況,主要針對隱私保護方法的保護效果優(yōu)劣進行評估。k-匿名模型[5]通過限制數據表中的準標識符(用戶屬性等信息)至少和其他k-1條數據相同,使每條數據被識別的概率降低至1/k。l-多樣性[6]使得滿足同一個k-匿名集中的數據至少有l(wèi)種類型來進一步降低數據被鏈接攻擊和同質攻擊的風險,l值越大說明數據的隱私風險越低。差分隱私[13]基于隱私預算參數ε,在原始數據上加入隨機噪聲達到隱私保護的目的,ε值越小說明隱私風險越低。Backstrom等[14]針對匿名社交網絡數據,用能被攻擊者去匿名化的人數來評價匿名效果,人數越多則隱私泄露風險越高。Narayanan等[15]用攻擊者對用戶去匿名化或者識別用戶隱私屬性出錯的概率作為隱私量化指標,攻擊者出錯的概率越大說明隱私風險越低。Agrawal等[16]通過計算原始數據和擾動數據之間的互信息來量化隱私泄露風險,互信息越大,則隱私泄露風險越高。Chen等[17]提出了一種針對用戶屬性特殊性的量化指標IS(Information Sruprisal),用戶屬性值越特殊,則IS值越大,隱私泄露風險越高。
基于用戶隱私偏好設置的方法一般將用戶的隱私偏好作為評估用戶隱私泄露風險的依據,用戶信息被設置公開的程度越大、范圍越廣,用戶的隱私泄露程度就越大。隱私偏好是指用戶對隱私信息的重視程度[7],具有個性化的特點,用戶可以通過設置隱私偏好來降低隱私泄露風險。朱涵鈺等[8]基于用戶的隱私偏好設置,通過信息熵度量用戶屬性的敏感性,發(fā)現了“人人網”和“新浪微博”上一些用戶行為對隱私泄露影響的規(guī)律。Maximilien等[9]提出了一種隱私指數來量化用戶的隱私偏好設置存在的隱私泄露風險,基于用戶隱私偏好計算不同屬性的敏感性和可見性。張盼盼等[7]形式化定義了隱私偏好,并基于用戶隱私偏好的策略選擇,提出了基于博弈的隱私度量模型,在混合策略下運用策略熵度量用戶隱私的泄露情況,不僅考慮了用戶主觀感受對隱私泄露的影響,還考慮了攻擊者與服務提供者之間隱私保護策略選擇的博弈關系。
綜上所述,目前的隱私量化評估方法主要用于評估隱私保護方法的保護效果,而且針對社交網絡用戶的隱私泄露量化評估相關的研究主要利用用戶隱私偏好設置作為評估用戶隱私泄露風險的依據,不足以全面地對用戶進行評估。
隱私是可確認特定個人(或團體)身份或其特征,但個人(或團體)不愿被暴露的敏感信息[18]。在社交網絡中,用戶數據通常包含性別、年齡、職業(yè)、所在地、教育背景和宗教信仰等屬性信息,可以很好地描述用戶的身份特征。因此,本文將用戶屬性視為用戶隱私,并基于用戶屬性量化與評估用戶的隱私泄露狀況。
為了便于說明,本文用V= {vi|i= 1,2,…,n}表示社交網絡中用戶的集合,其中n為用戶的個數,vi∈V表示社交網絡中的一個用戶;A= {attrk|k= 1,2,…,s}為s個用戶屬性組成的集合,attrk∈A表示一個用戶屬性,是本文社交網絡用戶隱私泄露量化評估的對象。
隱私泄露量化評估通常需要考慮多方面的因素,主要包括[19]:
(1)隱私參數:用于計算隱私量化值的參數,如用戶的隱私偏好設置、隱私閾值和隱私級別等。
(2)攻擊者的推測:攻擊者獲取用戶信息之后,根據后驗概率分布,對用戶的隱私信息進行推測。
(3)真實隱私信息:用戶隱私信息的真實值,可以用來評價攻擊者的推測是否正確。
(4)先驗知識:關于用戶隱私信息的先驗統(tǒng)計知識,通常是先驗概率分布的形式。
因此,本文基于上述隱私泄露量化的因素,設計了3個量化指標:屬性敏感性、屬性公開性和數據可見性,對社交網絡用戶的隱私泄露風險進行量化評估與分析。其中,屬性敏感性考慮了隱私參數,將用戶對屬性的隱私偏好設置作為隱私泄露量化因素;屬性公開性考慮了攻擊者的推測和真實隱私信息,以屬性識別模型的推測概率為隱私量化因素;數據可見性考慮了先驗知識,關注從用戶數據中獲取的先驗概率分布。
社交網絡用戶隱私泄露量化評估的整體流程如圖1所示。
Figure 1 Flowchart of privacy quantitative assessment圖1 隱私量化評估整體流程
首先,從社交網絡用戶數據中獲取用戶的隱私偏好設置,基于隱私偏好信息,構建隱私偏好矩陣,計算主觀屬性敏感性和客觀屬性敏感性;同時,構建轉移概率矩陣,計算用戶重要性。
然后,對社交網絡用戶數據進行劃分,分割出訓練集和測試集,基于訓練集訓練屬性識別模型,利用模型預測結果在測試集上計算屬性公開性,并根據用戶重要性計算數據可見性。
最后,計算用戶的隱私評分和隱私指數,判斷隱私評分序列趨勢,基于隱私指數和隱私評分序列趨勢評估用戶隱私泄露狀態(tài)。
屬性敏感性表示用戶對某個屬性的敏感程度,本文將用戶對屬性的隱私偏好設置作為隱私泄露量化因素,取值為[0,1],屬性敏感性越大,隱私泄露風險越高。
隱私偏好矩陣R∈Rn×s反映了社交網絡中所有用戶為不同屬性設置的隱私偏好,表達了用戶對不同屬性的重視程度,其中第i行第k列的元素rik表示用戶vi根據主觀意愿對屬性attrk設置的隱私偏好等級,值越大表示越不希望屬性attrk暴露。
類似推薦系統(tǒng)中的評分矩陣[20],用戶在設置隱私偏好時的尺度并不一致,用戶vi設置的隱私偏好rik反映的是用戶vi對屬性attrk的主觀敏感程度,并不是實際的敏感性。同時,不同用戶之間的主觀敏感程度并不具備可比性,無法統(tǒng)一衡量不同用戶對于屬性attrk的相對敏感程度,需要綜合所有用戶的主觀敏感性來確定客觀敏感性,排除用戶主觀因素的影響。
因此,屬性敏感性的計算需要考慮主觀敏感性和客觀敏感性,在不引起混淆的情況下,屬性敏感性默認指客觀敏感性。屬性敏感性的具體計算步驟如下所示:
(1)計算用戶vi的平均屬性敏感性,如式(1)所示:
(1)
(2)采用皮爾遜相似度,計算用戶vi關于屬性attrk的主觀敏感性sbj_senik,如式(2)所示:
(2)
(3)根據所有用戶關于屬性attrk的主觀敏感性,計算客觀敏感性,如式(3)所示:
(3)
通過主觀敏感性計算,可以對某個用戶(相同的隱私偏好尺度)的不同屬性的敏感程度進行歸一化,得到同一用戶不同屬性之間主觀敏感程度的相對大小。同時,可以根據主觀敏感性計算屬性的客觀敏感性,排除單個用戶的主觀因素影響,便于后續(xù)量化指標計算。
屬性公開性表示攻擊者基于用戶數據推測屬性的確定程度,以屬性識別模型的推測概率為隱私量化因素,取值為[0,1],屬性公開性越大,用戶屬性越容易被識別,隱私風險越高。
社交網絡中的用戶數據可以被攻擊者獲取,用來推測用戶屬性信息,進而造成用戶隱私的泄露。例如,如果用戶發(fā)布的信息中經常出現“海淀區(qū)”“昌平區(qū)”“中關村”等地址類用語,那么即便用戶隱藏了地址屬性,攻擊者也可以根據內容推測出該用戶的地址為“北京市”。
攻擊者可以利用用戶公開數據推斷用戶屬性,用戶某個屬性的公開性越大,說明對應屬性的隱私泄露程度越高。因此,屬性公開性是衡量用戶隱私泄露程度的重要指標。
攻擊者在推斷用戶屬性時,通常是利用屬性識別模型得到用戶屬性的類別概率分布,不能直接用于衡量用戶屬性的公開性大小。由于信息熵通常用于度量概率分布所包含的信息量,熵值越大表示包含的信息量越大[10],因此可以用信息熵來定量描述攻擊者推斷用戶屬性的可能性,具體計算步驟如下所示:
(1)設隨機變量X表示用戶數據,令x∈X表示用戶vi的數據;隨機變量Y表示待計算的屬性attrk,定義域為γ;
(2)假設Y滿足均勻分布,屬性取值個數為|γ|,從而得出屬性取值y∈Y的先驗概率P(y) = 1/|γ|;
(3)利用屬性識別方法計算P(Y|x);
(4)利用信息熵計算用戶vi在屬性attrk上的屬性公開性,具體如式(4)所示,易證cerik∈[0,1]。
(4)
用戶屬性識別方法通?;谕|性假設,考慮社交網絡結構[21,22]、用戶行為[23]和異質信息[24]等因素,結合機器學習方法進行建模,從而確定條件概率分布P(Y|x),即在給定的用戶數據x的條件下,屬性取值Y的概率。
通過計算用戶屬性的公開性,可以從攻擊者角度對用戶的隱私泄露風險進行量化,揭示從用戶數據中獲取用戶隱私信息的可能性大?。煌瑫r,可結合屬性敏感性,為用戶個性化的隱私泄露量化評估提供數據基礎。
例1對于性別屬性attrk,其定義域γ={男,女},假設存在標注樣本{(關鍵詞 = {哥哥,兄弟,爺們},男),(關鍵詞 = {本仙女,化妝,可愛},女)},則對于用戶vi的數據x= {哥哥,兄弟,化妝},利用樸素貝葉斯作為屬性識別方法,采用拉普拉斯平滑,可得P(男)=1/2,P(女)=1/2,P(男|x)=2/3,P(女|x)=1/3,從而屬性公開性cerik≈0.9183。
數據可見性表示用戶數據的曝光程度,以先驗概率為隱私量化因素,取值為[0,1],數據可見性越大,隱私風險越高。
用戶數據的曝光程度越高,被其他用戶獲取的可能性也就越大。為了定量描述用戶數據的曝光程度,本文對用戶獲取數據的行為進行了分析,估計其他用戶獲取當前用戶數據的可能性,從而計算用戶數據可見性的大小。
設pij表示用戶vj能夠獲取到用戶vi的個人信息的概率,用戶vi的數據可見性visi的計算如式(5)所示:
(5)
即用戶vi的數據可見性visi由所有用戶的期望概率計算得到。
具體地,本文以新浪微博為研究對象,對visi的計算進行分析。對于用戶vi,從用戶vj的角度可以定義4個隨機事件:
(1)A= “用戶vj看到用戶vi的一條微博”;
(2)B= “用戶vj查看用戶vi的主頁”;
(3)C= “用戶vj通過一條微博獲取到用戶vi的個人信息”;
(4)D= “用戶vj獲取到用戶vi的個人信息”。
設用戶vi某個時間段內共發(fā)了li條微博,則P(D) =1-(1-P(C))li,而通過圖2展示的新浪微博用戶獲取他人信息的一般過程,可以得出P(C)=P(AB) =P(A)P(B|A)。易知pij可以通過P(D)估計,因此計算pij的關鍵在于P(A)和P(B|A)。P(A)與社交網絡結構、用戶在網絡中所處的位置和信息的傳播方式有關,而P(B|A)只與用戶vj的行為有關。
Figure 2 General process of Sina Weibo users obtaining other people’s information圖2 新浪微博用戶獲取他人信息的一般過程
本文假設P(B|A)為系統(tǒng)設置的固定參數h∈[0,1],h值越大表示用戶vi的信息被用戶vj閱讀的可能性越大,但不影響用戶vj看到用戶vi微博的概率P(A)。
設UR=(ur1,…,uri,…,urn)T表示社交網絡中所有用戶的重要性向量,uri表示用戶vi在社交網絡中的重要性。
鄰接矩陣E∈Rn×n表示用戶間的連接關系,第i行第j列的元素eij表示由vi指向vj的有向邊,其值表示邊的權重,值為0表示邊不存在;T∈Rn×n表示轉移概率矩陣,第i行第j列的元素tij表示用戶vi指向用戶vj的邊的轉移概率,反映了用戶vi對用戶vj的關注程度。
P(A)可通過2種用戶獲取信息的方式計算得到:
(1)主動方式:用戶vj關注了用戶vi,并通過刷新看到用戶vi的一條微博;此時P(A)取決于用戶vj對用戶vi的關注程度,使用轉移概率tji估計。
(2)被動方式:用戶vj未關注用戶vi,并通過搜索推薦等方式看到用戶vi的一條微博;此時P(A)取決于用戶vi在社交網絡中的重要程度,使用用戶重要性uri估計。
對于用戶重要性的計算,本文基于PageRank算法[25],提出計算用戶重要性uri的UserRank算法,具體如算法1所示。
算法1社交網絡用戶重要性算法UserRank
輸入:轉移概率矩陣T,阻尼系數q,用戶數n,可接受誤差ε。
輸出:社交網絡用戶重要性向量UR。
/*初始化X為元素都是1/n的n維向量*/
步驟1setX=(1/n…, 1/n, …, 1/n)n;
/*初始化S為元素都是(1-q)/n的n維向量*/
步驟2setS=((1-q)/n, …, (1-q)/n, …, (1-q)/n)n;
/*執(zhí)行一次更新*/
步驟3UR=S+q·TT·X;
/*更新前后的向量距離大于ε,則繼續(xù)更新*/
步驟4while ‖UR-X‖2>εdo
X=UR;
UR=S+q·TT·X;
步驟5returnUR;
輸入轉移概率矩陣T,阻尼系數q,用戶數n和可接受誤差ε,算法1輸出用戶重要性向量UR。步驟1是對n維向量X進行初始化;步驟2~步驟4是對用戶重要性向量進行迭代更新,直到UR與X之間的距離小于ε時停止,其中‖·‖2表示歐氏距離;步驟5返回用戶重要性向量UR。
通過主動方式和被動方式估計P(A),結合P(B|A),可以得出pij的估計值P(D)。因此,在新浪微博中,用戶vi的數據可見性visi的具體計算方法如式(6)所示:
cond1=I(eji=0∧vi≠vj)(11-(1-urih)li),
cond2=I(eji>0)(1-(1-tjih)li),
(6)
其中I表示指示函數。
通過計算用戶的數據可見性,可以量化用戶數據的曝光程度,而用戶數據的曝光程度是屬性公開性的決定性因素,直接影響了攻擊者從用戶數據中獲取隱私信息的可能性大小。在計算屬性公開性時考慮數據可見性,可以更加精確地刻畫用戶隱私泄露風險。
為了量化評估社交網絡用戶隱私泄露風險,本文基于3個量化指標:屬性敏感性、屬性公開性和數據公開性,從靜態(tài)角度和動態(tài)角度評估用戶的隱私泄露風險,具體評估方法如算法2所示。
算法2隱私泄露量化評估算法
輸入:待評估用戶vi,屬性敏感性obj_senk,屬性公開性cerik,數據可見性visi,用戶集合IU,時間窗口大小d。
輸出:用戶隱私泄露狀況。
步驟4PSS=(sbj_psti,sbj_pst2,…,sbj_pstd);/*獲取主觀隱私評分序列(動態(tài)角度)*/
步驟5ifobj_psi>PIorUptrend(PSS)/*如果客觀隱私評分超過隱私指數或者主觀隱私評分序列呈上升趨勢 */
returnfalse;/*false表示異常狀態(tài)*/
endif
步驟6 returntrue;/*true表示正常狀態(tài)*/
輸入待評估用戶vi,屬性敏感性obj_senk,屬性公開性cerik,數據可見性visi,用戶集合IU,時間窗口大小d,輸出用戶vi的隱私泄露狀態(tài)。
本文定義用戶的隱私泄露狀況在某一時刻存在2種對立狀態(tài):
(1)正常狀態(tài):用戶的隱私泄露狀況正常,用戶無需關注個人隱私泄露問題;
(2)異常狀態(tài):用戶的隱私泄露狀況異常,用戶需要根據評估結果有針對性地采取保護措施。
用戶集合IU表示用于計算隱私指數的用戶,根據不同的隱私保護需求,存在4種選取方式:
(1)全部用戶:全部用戶隱私評分的均值反映了整體的隱私泄露狀況,是最基本的選取方式,默認使用全部用戶作為IU集合。
(2)高風險用戶:隱私評分較高的一部分用戶的隱私評分均值。如果用戶對隱私保護要求不嚴格,接受一定程度的隱私泄露,可以選擇高風險用戶計算隱私指數。
(3)低風險用戶:隱私評分較低的一部分用戶的隱私評分的均值。如果用戶對隱私保護要求嚴格,可以選擇低風險用戶計算隱私指數。
(4)自定義:用戶可以根據自己的偏好選取一部分其他用戶組成IU,被選擇的用戶表示期望比較的對象。
算法2中步驟1和步驟2根據用戶vi的屬性敏感性、屬性公開性和數據可見性計算主觀隱私評分和客觀隱私評分。主觀隱私評分基于用戶的主觀敏感性,反映了用戶自身不同時刻或不同狀態(tài)下的隱私泄露狀況;客觀隱私評分基于客觀敏感性只與屬性本身有關,用戶之間可以相互比較。
步驟3根據客觀隱私評分計算隱私指數PI,綜合考慮了集合IU中所有用戶的平均客觀隱私評分,是用戶隱私泄露風險的靜態(tài)量化指標。
步驟4根據主觀隱私評分和時間窗口d獲取用戶vi的隱私評分序列PSS,考慮了用戶vi在某一段時間內隱私泄露風險的變化,是量化評估的動態(tài)指標。
步驟5和步驟6根據隱私指數PI和隱私評分序列PSS評估隱私泄露狀態(tài),用戶處于隱私泄露狀態(tài)的條件是:(obj_ps>PI)∨Uptrend(PSS),其中Uptrend是趨勢檢驗函數,輸入一個序列,如果序列有明顯的上升趨勢,則返回true,否則返回false。本文采用曼-肯德爾(Mann-Kendall)檢驗法[26]進行趨勢檢驗。
在檢測用戶隱私泄露狀況的同時,為了定性地描述用戶隱私泄露的程度,用戶可根據個性化隱私保護需求,設置界定隱私泄露程度的閾值α和β(α>β>1)。對于存在隱私泄露的用戶vi,在滿足obj_psi>PI的前提下,可根據式(7)確定隱私泄露程度leakage_degree:
(7)
本文實驗使用爬蟲爬取新浪微博,收集了169 246個用戶、234 890 000篇博文和4 485 488條關注關系作為原始數據,其中用戶的個人信息包括:用戶ID、用戶頭像、用戶昵稱、是否認證以及性別、所在地、教育信息和職業(yè)信息等屬性。
因為本文通過用戶屬性的角度來度量用戶隱私泄露情況,因此從原始數據中篩選了32 170個在性別、所在地(省份)上有標注良好的用戶以及50 626 106篇博文和228 939條關注關系作為實驗數據。
本文按9∶1的比例將數據集劃分為訓練集和測試集。訓練集用于訓練屬性識別模型,測試集用于評估用戶的隱私泄露狀況。
因為實驗數據中不包含用戶的隱私偏好,所以本文假設用戶在個人主頁上公開屬性信息即表示對應屬性隱私偏好為1,否則隱私偏好為0。
為了得到更加精確的結果,本文基于原始微博數據來計算性別、所在地、教育信息和職業(yè)信息的屬性敏感性,其中性別和所在地的屬性敏感性將用于全局隱私評分的計算。
通過用戶隱私偏好和屬性,可以構造隱私偏好矩陣,從而利用第3.2節(jié)的計算方法計算屬性敏感性,結果如圖3所示。
Figure 3 Experimental results of attribute sensitivity圖3 屬性敏感性結果
從圖3中可以得出如下結論:
(1)所有用戶都公開了性別,只有極少一部分人隱藏了所在地,近一半人公開了教育信息,大部分人都未公開職業(yè)信息。
(2)屬性敏感性與隱藏屬性的用戶數相關,未公開的用戶數越多,屬性敏感性越高。但是,屬性敏感性還與其他屬性的隱私偏好設置有關,因此雖然隱藏性別的用戶數為0,但屬性敏感性不為0。
本文采用屬性識別模型MSIE(Multi-Source Infromation Embedding)識別用戶的性別和所在地屬性,將實驗數據按標注率0.1~0.9劃分,得到MSIE的識別結果如圖4所示[27]。
Figure 4 Accuracy comparison of attribute inference models圖4 屬性識別模型準確率對比
從圖4中可以看出,與CANE(Context-Aware Network Embedding)[28]、TFIDF(Term Frequency-Inverse Document Frequency)[29]、node2vec[30]、Doc2Vec[31]和DeepWalk[32]相比,MSIE獲得了最佳的屬性識別準確率。MSIE在性別上的準確率為88.63%,性能提升了5.49%~26.66%;在所在地上的識別準確率為69.28%,性能提升了8.11%~25.54%。
通過屬性識別模型MSIE可以得到測試集用戶在性別和所在地屬性上的類別概率分布P(Y|x),從而利用第3.3節(jié)的計算方法計算測試集用戶的屬性公開性。
將屬性公開性的計算結果按0到最大值等分成20段,屬性公開性分段作為橫坐標,其值落在對應分段的用戶比例作為縱坐標,得到屬性公開性分布如圖5所示,其中圖5a展示了性別的屬性公開性分布,圖5b展示了所在地的屬性公開性分布。
Figure 5 Distribution of attribute openess圖5 屬性公開性分布
從圖4和圖5中可以得出如下屬性公開性的結論:
(1)性別屬性的區(qū)分度比較高,容易造成性別信息的泄露。在用戶數據較多的情況下,MSIE識別性別的準確率較高,導致部分用戶性別屬性公開性較大。
(2)所在地屬性區(qū)分度較低,不容易造成所在地信息的泄露。所在地的屬性公開性分布集中在均值附近,加上MSIE識別所在地的準確率較低,導致屬性公開性高的人數較少。
本文實驗設系統(tǒng)參數h=1,阻尼系數q=0.85,可接受誤差ε= 10-4。為了得到更加精確的結果,本文實驗在原始微博數據上,根據用戶之間的關注關系構建轉移概率矩陣,通過UserRank算法計算用戶重要性,并利用第3.4節(jié)中的方法得到用戶的數據可見性。
將數據可見性的計算結果按0到最大值等分為20段,將用戶的數據可見性分段作為橫坐標,數據可見性值落在對應分段的用戶比例作為縱坐標,得到數據可見性分布如圖6所示。
從圖6中可以看出,數據可見性分布基本上符合長尾分布,大部分用戶的可見性比較低,可見性高的用戶比較少。
Figure 6 Distribution of data visibility圖6 數據可見性分布
對不同人群的隱私評分及其他各項指標進行統(tǒng)計對比分析,針對不同的性別和是否認證分別將用戶分為2組,計算每個組內各個指標的均值,結果如表1所示,粗體為該列最大值,下劃線為該列最小值。
對表1中的量化指標進行百分比統(tǒng)計,得到對比結果如圖7所示。
從表1和圖7中可以得出:
(1)認證用戶的各項指標基本都高于全集均值,平均全局隱私評分非常高,說明認證用戶較活躍,在社交網絡中產生了較大的影響,因此認證用戶通常更容易泄露隱私。
(2)女性用戶的隱私評分略低于男性用戶,說明女性用戶的隱私泄露狀況比男性用戶稍好。對數據進行分析發(fā)現,女性用戶的社交關系比較簡單,關注用戶和粉絲數都比較少,相對更不容易泄露隱私。但是,女性用戶各屬性的公開性都比較高,說明女性用戶產生的用戶數據比較容易泄露隱私。
Table 1 Statistic comparison of quantitative metrics表1 各量化指標均值統(tǒng)計對比
Figure 7 Percentage comparison of quantitative metrics圖7 各量化指標百分比對比
為了對社交網絡整體以及用戶個體隱私泄露狀況進行細粒度的評估,幫助更加直觀準確地了解社交網絡用戶的隱私泄露狀況,本文從實驗數據集所有用戶構成的社交網絡中選擇了一個弱連通子圖進行可視化,其中包括836個節(jié)點和1 475條邊。
可視化結果如圖8所示,節(jié)點有正常與異常2種隱私狀態(tài),大小代表用戶的隱私評分,節(jié)點越大表示對應用戶的隱私評分越大。
Figure 8 Visualization of privacy disclosure in social networks圖8 社交網絡整體隱私泄露狀況可視化
從圖8中可以看出:
(1)多數節(jié)點比較小,說明多數用戶隱私狀態(tài)正常,隱私評分比較低;
(2)與隱私狀態(tài)異常的節(jié)點相連的邊比較多,說明社交關系復雜的用戶發(fā)生隱私異常的可能性更大。
圖9是圖8所示的社交網絡中用戶隱私泄露狀況的統(tǒng)計結果,從圖9中可以看出,有13%的用戶隱私風險過大,18%的用戶隱私風險呈上升趨勢,12%的用戶隱私風險過大且呈上升趨勢。這與《2018年網民網絡安全感滿意度調查報告》中近一半受訪者認為個人信息保護狀況不好的結果相吻合。
Figure 9 Statistics of privacy leakage圖9 隱私泄露狀況統(tǒng)計
圖10展示了用戶個體隱私泄露狀況可視化示例,圖10a和圖10b分別表示隱私狀態(tài)正常的用戶“小男人也彪悍1984”和隱私狀態(tài)異常的用戶“王梓萌Mm0820”對應的個人信息和各量化指標隨時間變化的曲線。
Figure 10 An example of user privacy leakage visualization圖10 用戶個體隱私泄露狀況可視化示例
圖10中,橫軸的起始時間為2009年11月27日(橫坐標為0),結束時間為2012年10月18日(橫坐標為10),時間間隔約為100天。
對于圖10a所示的隱私狀態(tài)正常的用戶,其隱私評分總體變化不明顯,隱私泄露風險較低。對于圖10b所示的隱私狀態(tài)異常的用戶,其隱私泄露風險大且呈上升趨勢,性別屬性泄露程度持續(xù)增大。更細粒度地可以看出,該用戶在2010年3月13日各量化指標均低于基線;在2011年5月9日,性別屬性公開性為0.277 8,高于基線0.137 5,說明此時其性別屬性存在隱私泄露風險,但整體風險不大;在2012年10月18日,性別屬性公開性為0.530 7,高于基線0.145 9,隱私評分為0.144 2,高于基線0.011 1,此時其性別屬性隱私泄露程度進一步增大;同時,數據可見性為0.495 1,高于基線0.093 2,說明數據可見范圍大,整體隱私泄露風險較高。
針對目前隱私量化評估方法主要用于評估隱私保護方法的保護效果,無法有效評估社交網絡用戶的隱私泄露風險的問題,本文提出了一種社交網絡用戶隱私泄露量化評估方法,設計了數據可見性、屬性公開性和屬性敏感性3個量化指標,并綜合了3個量化指標計算隱私評分,用于評估社交網絡用戶隱私泄露狀態(tài)。在新浪微博數據上進行的實驗表明,本文所提方法能夠有效地評估用戶的隱私泄露狀況。從實驗結果可以發(fā)現,微博認證用戶較為活躍,各項指標基本都高于用戶均值,更容易泄露自身隱私;同時,實例分析發(fā)現,有43%(近一半)的用戶存在隱私泄露風險,與《2018年網民網絡安全感滿意度調查報告》中近一半受訪者認為個人信息保護狀況不好的結果相吻合。未來的研究工作將基于隱私泄露狀況的量化評估結果設計隱私保護方案,為用戶提供針對性的隱私保護。