衛(wèi)新樂,張志勇,宋 斌,毛岳恒,班愛瑩
(河南科技大學(xué) 信息工程學(xué)院,河南 洛陽 471023) (河南省網(wǎng)絡(luò)空間安全應(yīng)用國際聯(lián)合實(shí)驗(yàn)室,河南 洛陽 471023)
隨著在線社交網(wǎng)絡(luò)(Online Social Networks,OSNs)的飛速發(fā)展,截至2020年3月,第45次《中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,OSNs用戶規(guī)模達(dá)到9.04億,互聯(lián)網(wǎng)普及率達(dá)64.5%,2020年第1季度微博、微信,月活躍用戶分別達(dá)到了5.5億和12.03億人次.因此,OSNs幫助人們在建立社會性網(wǎng)絡(luò)應(yīng)用服務(wù)的同時(shí),也逐漸成為惡意用戶試圖執(zhí)行非法活動和惡意危害的首要目標(biāo)[1].惡意用戶會潛伏在多個(gè)OSNs平臺中,試圖竊取用戶隱私、發(fā)布虛假信息、滲透政治話題等[2-4],這些惡意行為給當(dāng)今社會造成了不良的影響和巨大的危害.目前,大多數(shù)研究人員利用傳統(tǒng)的機(jī)器學(xué)習(xí)方法,如半監(jiān)督聚類、支持向量機(jī)的分類器等,通過對惡意用戶行為特征進(jìn)行提取和訓(xùn)練,在OSNs平臺取得了高質(zhì)量的檢測效果.如Shi等人[5]提出了一種基于空間和時(shí)間特征的惡意用戶檢測算法;WU等人[6]提出了一種基于多類特征的混合算法,利用大規(guī)模的特征數(shù)據(jù)構(gòu)建不同分類器,實(shí)現(xiàn)高效率的檢測.然而,這些傳統(tǒng)機(jī)器學(xué)習(xí)方法的成功應(yīng)用,都是建立在社交大數(shù)據(jù)基礎(chǔ)之上的,而在實(shí)際應(yīng)用場景中,惡意用戶具有分散性,潛伏性、復(fù)雜性等特征,單方的數(shù)據(jù)很難滿足檢測要求,需要雙方乃至多方的數(shù)據(jù)聯(lián)合進(jìn)行訓(xùn)練,方達(dá)到令人滿意的檢測效果;其次,隨著法律法規(guī)的健全,重視用戶隱私和數(shù)據(jù)安全已經(jīng)成為世界性的公認(rèn)趨勢,如歐盟頒布的《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation,GDPR)[7]中規(guī)定,未經(jīng)用戶同意,擅自將各方用戶數(shù)據(jù)集中到一處已經(jīng)被明令禁止.因此,如何在大數(shù)據(jù)場景下,確保用戶數(shù)據(jù)安全和隱私保護(hù)[8],毫無疑問是OSNs中一個(gè)重要的研究課題.
在此背景下,聯(lián)邦學(xué)習(xí)(Federated Learning)應(yīng)運(yùn)而生,各參與方不披露底層數(shù)據(jù),以一種加密的參數(shù)交換方式共建模型,保障了用戶的數(shù)據(jù)安全和隱私保護(hù).聯(lián)邦學(xué)習(xí)最先由谷歌的McMahan等人提出,用來解決移動設(shè)備上語言預(yù)測模型的更新問題[9-11].由于移動設(shè)備大多存有用戶的隱私數(shù)據(jù),為防止模型更新過程的用戶隱私泄露,谷歌的研發(fā)人員設(shè)計(jì)了基于聯(lián)邦學(xué)習(xí)的Gboard系統(tǒng)[12,13].如文獻(xiàn)[11]提出了聯(lián)邦平均(Federated Averaging)的概念,使得所有移動設(shè)備的數(shù)據(jù)都能被有效利用,從而不斷優(yōu)化聯(lián)邦模型.文獻(xiàn)[12,13]采用了一種隱私保護(hù)方法(同態(tài)加密)對移動設(shè)備上的模型進(jìn)行加密訓(xùn)練,防止模型訓(xùn)練中發(fā)生隱私泄露等問題.在此基礎(chǔ)上,Yang等人[14]針對聯(lián)邦學(xué)習(xí)中數(shù)據(jù)分布的特點(diǎn),將聯(lián)邦學(xué)習(xí)分為按數(shù)據(jù)樣本劃分的橫向聯(lián)邦學(xué)習(xí)(Horizontal Federated Learning,HFL)、按數(shù)據(jù)特征劃分的縱向聯(lián)邦學(xué)習(xí)(Vertical Federated Learning,VFL),Cheng等人[15]提出了一種適合縱向聯(lián)邦學(xué)習(xí)的安全聯(lián)邦提升樹算法,其具備與傳統(tǒng)機(jī)器學(xué)習(xí)方法相同的精確度.
針對上述聯(lián)邦學(xué)習(xí)機(jī)制的研究,本文提出了一種以縱向聯(lián)邦學(xué)習(xí)為核心的社交網(wǎng)絡(luò)跨平臺惡意用戶檢測方案:1)搭建了基于縱向聯(lián)邦學(xué)習(xí)的社交網(wǎng)絡(luò)跨平臺惡意用戶檢測層次化架構(gòu),建立了數(shù)據(jù)預(yù)處理層、樣本對齊層、聯(lián)邦學(xué)習(xí)層、數(shù)據(jù)應(yīng)用層等多層次應(yīng)用架構(gòu);2)對安全聯(lián)邦提升樹算法進(jìn)行分析和改進(jìn),提出了一種面向多方隱私保護(hù)的惡意用戶檢測算法;3)依托實(shí)際應(yīng)用場景CyVOD對實(shí)驗(yàn)進(jìn)行了仿真和驗(yàn)證.
為確保用戶數(shù)據(jù)安全和隱私保護(hù),同時(shí)聯(lián)合多方數(shù)據(jù)實(shí)現(xiàn)對惡意用戶的精確檢測,本文構(gòu)建了數(shù)據(jù)預(yù)處理層、樣本對齊層、聯(lián)邦學(xué)習(xí)層、數(shù)據(jù)應(yīng)用層,搭建了基于聯(lián)邦學(xué)習(xí)的社交網(wǎng)絡(luò)跨平臺惡意用戶檢測層次化架構(gòu),具體的層次化架構(gòu)如圖1所示.
1)數(shù)據(jù)預(yù)處理層
數(shù)據(jù)預(yù)處理是建模過程中非常關(guān)鍵的一環(huán),在實(shí)際應(yīng)用場景中由于具體功能需求、技術(shù)水平、存儲方式等原因,各參與方數(shù)據(jù)不是以結(jié)構(gòu)化的形式存在,因此,本文在數(shù)據(jù)預(yù)處理層中設(shè)定了一個(gè)有效的問題處理機(jī)制,采用數(shù)據(jù)清洗、隨機(jī)采樣、數(shù)據(jù)分箱、數(shù)值歸一化等預(yù)處理操作,保障了模型訓(xùn)練過程的魯棒性.本文采用的有效的問題應(yīng)對機(jī)制具體如下:①出現(xiàn)重復(fù)、缺失等問題,對樣本數(shù)據(jù)采用刪除法、填補(bǔ)法等操作進(jìn)行處理;②出現(xiàn)分布不均衡時(shí),對樣本數(shù)據(jù)進(jìn)行隨機(jī)采樣處理,提高模型預(yù)測和分類效果;③出現(xiàn)連續(xù)型特征變量時(shí),對樣本數(shù)據(jù)采取分箱處理,即對連續(xù)性特征變量采取離散化處理,增加模型的穩(wěn)定性;④出現(xiàn)數(shù)據(jù)維度差異明顯時(shí),對樣本數(shù)據(jù)進(jìn)行歸一化處理,提升模型訓(xùn)練速率和收斂方向.
2)樣本對齊層
樣本對齊層是指各參與方建模前,使用一種加密的ID匹配技術(shù),保障用戶數(shù)據(jù)安全和隱私保護(hù)前提下,對齊各參與方共有用戶.本方案采用RSA非對稱加密算法和哈希機(jī)制的安全求交集方案[16],來提取各參與方共有樣本數(shù)據(jù).
圖1 社交網(wǎng)絡(luò)跨平臺惡意用戶檢測層次化架構(gòu)Fig.1 Hierarchical architecture of cross platform malicious user detection in social networks
3)聯(lián)邦學(xué)習(xí)層
聯(lián)邦學(xué)習(xí)層是指通過一種加密的參數(shù)交換方式進(jìn)行模型訓(xùn)練,如圖2所示,各參與方在確定雙方共有樣本后,在機(jī)器學(xué)習(xí)定義下可以協(xié)同訓(xùn)練一個(gè)全局模型,但是,為了防止模型訓(xùn)練中存在的隱私泄露問題,聯(lián)邦學(xué)習(xí)層需要引入可信的協(xié)作方,利用隱私保護(hù)技術(shù)(如同態(tài)加密)對樣本數(shù)據(jù)加解密并協(xié)調(diào)訓(xùn)練過程.具體步驟為:
步驟1.協(xié)作方生成密鑰對,并將公鑰發(fā)送給對各參與方,各參與方對樣本數(shù)據(jù)進(jìn)行加密處理;
步驟2.各參與方以加密的參數(shù)交換方式計(jì)算中間結(jié)果,中間結(jié)果被用來計(jì)算梯度和損失值;
步驟3.各參與方將計(jì)算加密的梯度和損失值并上傳給協(xié)作方;
步驟4.協(xié)作方利用私鑰將梯度和損失值解密,并將這些梯度信息回傳給各參與方,各參與方根據(jù)這些梯度信息更新當(dāng)前的模型參數(shù).
圖2 聯(lián)邦學(xué)習(xí)訓(xùn)練過程Fig.2 Federated learning training process
4)數(shù)據(jù)應(yīng)用層
經(jīng)聯(lián)邦學(xué)習(xí)層訓(xùn)練后,各參與方更新本地訓(xùn)練模型參數(shù),將預(yù)測結(jié)果進(jìn)行輸出.此時(shí),數(shù)據(jù)應(yīng)用層通過封裝的數(shù)據(jù)調(diào)用接口,將預(yù)測結(jié)果回傳到終端設(shè)備,終端設(shè)備對本地?cái)?shù)據(jù)進(jìn)行更新和分類,并為惡意用戶提供檢測依據(jù).
本文將各參與方建模過程中存在隱私泄露的數(shù)據(jù)稱為敏感數(shù)據(jù),為確保敏感數(shù)據(jù)安全,本文在社交網(wǎng)絡(luò)跨平臺惡意用戶檢測層化架構(gòu)中構(gòu)建了一種面向多方隱私保護(hù)的惡意用戶檢測算法,該算法對安全聯(lián)邦提升樹算法進(jìn)行分析和改進(jìn),采用加法同態(tài)加密對敏感數(shù)據(jù)進(jìn)行加密處理,保證各參與方在不暴露彼此數(shù)據(jù)便可進(jìn)行多方訓(xùn)練.同時(shí),在目標(biāo)函數(shù)中引入了正則化懲罰項(xiàng),有效的提升了模型的泛化能力和檢測效果.為區(qū)分算法中各參與方扮演的角色,分別定義為主動方(ActiveParty)和被動方(Passive Party).
定義1.主動方:提供用戶的樣本數(shù)據(jù)和標(biāo)簽值,并在訓(xùn)練過程中扮演協(xié)作方的角色,參與對敏感數(shù)據(jù)的加解密和協(xié)調(diào)訓(xùn)練過程.
定義2.被動方:一般只提供用戶的樣本數(shù)據(jù),僅為數(shù)據(jù)提供方.
本文設(shè)定算法目標(biāo)函數(shù)為損失函數(shù)與正則化懲罰項(xiàng)之和,引入正則化懲罰項(xiàng)目的是控制模型的復(fù)雜度,防止出現(xiàn)過擬合的現(xiàn)象,使得算法在求解過程中更具分類效率,則目標(biāo)函數(shù)為:
(1)
(2)
此時(shí),將公式(2)帶入公式(1)中,展開的目標(biāo)函數(shù)如式(3)所示:
(3)
(4)
而本文設(shè)定算法的正則化懲罰項(xiàng)函數(shù)如式(5)所示:
(5)
其中,γ為復(fù)雜度參數(shù)、T為葉子節(jié)點(diǎn)數(shù)、λ為葉子節(jié)點(diǎn)權(quán)重值w的懲罰度參數(shù).因此,將公式(5)代入式(4)后,可將目標(biāo)函數(shù)進(jìn)一步展開為如式(6)所示:
(6)
(7)
(8)
樣本空間I的每一次劃分后,都會將當(dāng)前節(jié)點(diǎn)的樣本劃分為兩個(gè)不相交的樣本空間,設(shè)定IL,IR分別為左右節(jié)點(diǎn)的樣本空間,IR+IL=I表示當(dāng)前節(jié)點(diǎn)的總樣本空間.因此,左右節(jié)點(diǎn)的一階梯度之和、二階梯度之和,如式(9)所示:
(9)
最后,為求得樣本空間I的最優(yōu)劃分,我們利用每一次節(jié)點(diǎn)分裂后的值減去分裂前的值,找到其最大值,則最優(yōu)劃分如式(10)所示:
(10)
由上述算法實(shí)現(xiàn)過程可以看出,每一次迭代目標(biāo)函數(shù)t的過程,通過求解損失函數(shù)l關(guān)于前t-1棵樹的預(yù)測結(jié)果y(t-1)的一階導(dǎo)數(shù)gi和二階導(dǎo)數(shù)hi,并根據(jù)gi和hi,來獲取最優(yōu)權(quán)值和最優(yōu)劃分.因此,我們不難發(fā)現(xiàn),最優(yōu)權(quán)值和最優(yōu)劃分的計(jì)算依賴于gi和hi,而gi和hi計(jì)算依賴于樣本中的類標(biāo)簽yi,如果訓(xùn)練過程中直接將gi和hi進(jìn)行交換,存在隱私泄露的風(fēng)險(xiǎn),所以,本文算法設(shè)定gi和hi必須由主動方計(jì)算得到,并使用加法同態(tài)加密將gi和hi加密,使得被動方在訓(xùn)練過程無法利用導(dǎo)數(shù)信息推出標(biāo)簽信息.算法流程如圖3所示,具體的算法過程如下:
圖3 惡意用戶檢測算法流程Fig.3 Malicious user detection algorithm flow
1)主動方首先計(jì)算梯度值gi和hi,i∈{1,…,N},其中N為樣本個(gè)數(shù),并使用加法同態(tài)加密對其加密,然后將加密后的gi和hi發(fā)送給被動方.
2)被動方首先對當(dāng)前的所有特征進(jìn)行分桶,并將每個(gè)特征值映射到每個(gè)桶中;其次,被動方根據(jù)分桶后的特征值,將相應(yīng)的加密梯度信息進(jìn)行聚合,并將聚合結(jié)果Gd,v和Hd,v發(fā)送給主動方.
3)主動方對接收的聚合結(jié)果Gd,v和Hd,v進(jìn)行解密,獲取當(dāng)前節(jié)點(diǎn)的最優(yōu)劃分Dividemax,并返回當(dāng)前的節(jié)點(diǎn)特征ID和閾值ID給被動方.
4)被動方接收特征ID和閾值ID對當(dāng)前樣本空間I進(jìn)行劃分,記錄當(dāng)前的記錄ID、特征ID以及閾值ID,并將記錄ID和劃分后左側(cè)樣本空間IL發(fā)送給主動方.
5)主動方根據(jù)記錄ID和IL對當(dāng)前節(jié)點(diǎn)進(jìn)行劃分,并進(jìn)入下一節(jié)點(diǎn)的劃分.
7)訓(xùn)練完成后,主動方將當(dāng)前節(jié)點(diǎn)的記錄ID和特征的閾值發(fā)送給被動方.
8)被動方比較當(dāng)前的閾值結(jié)果,得出搜索決定,并將搜索決定發(fā)送給主動方.
9)主動方接收到搜索決定,開始前往相應(yīng)子節(jié)點(diǎn).
10)迭代7)-9)過程,直至到達(dá)每一個(gè)葉子節(jié)點(diǎn)得到分類標(biāo)簽和權(quán)值,并將遍歷的類標(biāo)簽加權(quán)求和,輸出正常用戶和惡意用戶的類標(biāo)簽集合.
算法1.惡意用戶特征劃分算法
輸入:樣本個(gè)數(shù)N,樣本空間I,特征維度D,加密的一階梯度{[[gi]],[[hi]]}i∈I
輸出:樣本空間I的劃分
1.Begin
2.PassivePartyExecution:
3. ford=1 toDdo // d為用戶特征id
4. 根據(jù)特征d的百分位數(shù),得到劃分集合Sd={sd1,sd2,…,sdl}//Sd為劃分點(diǎn)的候選集合
5.Gd,v=∑[[gi]]wheresd,v-1 6.Hd,v=∑[[hi]]wheresd,v-1 7.endfor 8.ActivePartyExecution: 10. fori1 toNdo //遍歷所有參與方 11. ford= 1 toDido //遍歷參與方i的所有特征 12.GL←0,HL←0 13. forv=1 tolddo //遍歷特征d的閾值 16.GR←G-GL,HR←H-HL 18.endfor 19.endfor 20.endfor 21.當(dāng)?shù)玫阶顑?yōu)劃分時(shí),返回特征id和閾值id給被動方 22.PassivePartyExecution: 23.根據(jù)特征id和閾值id確定選中特征的閾值,并劃分當(dāng)前的樣本空間I 24.End 本文搭建的基于縱向聯(lián)邦學(xué)習(xí)的社交網(wǎng)絡(luò)跨平臺惡意用戶檢測框架,依托于多媒體社交網(wǎng)絡(luò)平臺CyVOD[17]的Android移動端和PC網(wǎng)站端為實(shí)際應(yīng)用場景,其中Android移動端為主動方、PC網(wǎng)站端為被動方,實(shí)驗(yàn)環(huán)境使用兩臺服務(wù)器(CentOS 7.7 (Core)×2,Intel(R) Xeon(R) Gold 5118 CPU,32GB RAM),模擬實(shí)驗(yàn)的各參與方,其中選取一臺服務(wù)器作為主動方和協(xié)作方,平臺底層使用docker-compose+kubefate1.4為底層架構(gòu).具體檢測框架如圖4所示,負(fù)責(zé)對數(shù)據(jù)預(yù)處理、加密樣本對齊、加密模型訓(xùn)練以及數(shù)據(jù)輸出、終端應(yīng)用等過程. 圖4 社交網(wǎng)絡(luò)跨平臺惡意用戶檢測框架Fig.4 Cross platform malicious user detection framework for social networks 本文選取CyVOD的Android移動端和PC網(wǎng)站端為參與雙方,在此基礎(chǔ)上搭建了社會情景元數(shù)據(jù)(視頻、政策、指南、通知、帖子、虛假信息)實(shí)驗(yàn)研究平臺(1)http://www.sigdrm.org/socialmetadata/,提取Android端、PC端的用戶行為特征、內(nèi)容特征、傳播特征,共68個(gè)用戶點(diǎn)擊動作,PC端28個(gè)用戶靜態(tài)屬性特征52982條數(shù)據(jù),Android端40個(gè)用戶動態(tài)屬性特征1150465條數(shù)據(jù),共計(jì)1203447條數(shù)據(jù).評估指標(biāo)采用ROC曲線(受試者工作特征曲線)、AUC值(Area Under ROC Curve)和精確度ACC(Accuracy),3個(gè)指標(biāo)評估模型性能,使用真正例率(Ture Positive Rate)、假正例率(False positive Rate)為橫、縱坐標(biāo)軸,AUC值為ROC曲線下的面積,ROC曲線越凸AUC值越大,代表模型性能越好,ACC值表示預(yù)測值和真實(shí)值符合的程度,并根據(jù)樣例的真實(shí)類別與預(yù)測類別可以劃分為TP(Ture Positive)、FP(False Positive)、TN(Ture Positive)、FN(False Negative)4種類型,其ROC、ACC的計(jì)算公式為: (1) (2) (3) 4.2.1 特征重要性分析 本文搭建的基于縱向聯(lián)邦學(xué)習(xí)的社交網(wǎng)絡(luò)跨平臺惡意用戶檢測層次化架構(gòu),選取Android移動端和PC網(wǎng)站端的用戶行為特征、內(nèi)容特征和傳播特征進(jìn)行實(shí)驗(yàn),通過加密機(jī)制聚合雙方或多方提供的多維度特征進(jìn)行模型訓(xùn)練,以達(dá)到更好的建模效果.如圖5所示,各參與方建模過程中用戶特征的重要性分析,其中Android移動端的用戶特征變量X3、X1、X0、X2為模型貢獻(xiàn)度的前4個(gè)變量,分別代表用戶對虛假信息的分享、點(diǎn)贊、收藏、評論的點(diǎn)擊數(shù);PC端的用戶特征變量X4代表用戶的積分信用值,X9、X6、X5、X2分別表示用戶對視頻、政策、指南、通知的分享操作. 圖5 用戶特征重要性分析Fig.5 Importance analysis of user characteristics 4.2.2 準(zhǔn)確性分析 為驗(yàn)證提出的社交網(wǎng)絡(luò)跨平臺惡意用戶檢測(Cross-platform malicious user detection,CPMU-Detection)模型的準(zhǔn)確性,本文從PC網(wǎng)站端、Android移動端的數(shù)據(jù)集中隨機(jī)選取了1000、2000、3000、4000、5000條記錄分別進(jìn)行實(shí)驗(yàn),選取3/4的數(shù)據(jù)作為訓(xùn)練集,1/4的數(shù)據(jù)作為測試集,實(shí)驗(yàn)設(shè)定學(xué)習(xí)率為learning_rate=0.05,樹的最大深度為max_dept=5,迭代次數(shù)為bin_num=50,正則化懲罰項(xiàng)為penalty=L2,加密方式為同態(tài)加密,同時(shí)引入具有聯(lián)邦思想的基線模型進(jìn)行對比,即安全聯(lián)邦邏輯回歸(Secure federated logistic regression,SecureLR)模型[18]、安全聯(lián)邦提升樹模型(Secure federated tree-boosting,Secureboost),實(shí)驗(yàn)結(jié)果如圖6所示,可以看出在不同樣本數(shù)量下本文提出的CPMU-Detection模型均優(yōu)于其他基線模型,當(dāng)樣本數(shù)量增加至5000時(shí),準(zhǔn)確率為92.04%,相比較SecureLR模型、Secureboost模型,準(zhǔn)確率分別提升了14.03%和1.918%,因?yàn)镾ecureLR模型在訓(xùn)練過程中需要引入第3方(云服務(wù)器)協(xié)調(diào)訓(xùn)練過程,當(dāng)樣本數(shù)量為2000時(shí),各參與方交互過程復(fù)雜,導(dǎo)致精確率下降,而本文所使用的模型,封裝是一種端到端的梯度提升樹算法,無需第3方的加入,從而明顯提升效果,對比同樣采取無第3方的Secureboost模型,本文在模型中加入了正則化懲罰項(xiàng),有效的提升了模型的泛化能力和準(zhǔn)確率. 圖6 3種模型檢測結(jié)果的準(zhǔn)確率Fig.6 Accuracy of three models 為了更明顯地看出CPMU-Detection模型的檢測能力,如圖7所示,使用ROC曲線、AUC面積評判不同算法對應(yīng)的模型性能,可以看出本文采用的CPMU-Detection模型,ROC曲線明顯往左上角凸,且AUC面積最大,表示該模型的分類結(jié)果越好.最后,我們在CyVOD平臺部署并運(yùn)行基于縱向聯(lián)邦學(xué)習(xí)的社交網(wǎng)絡(luò)跨平臺惡意用戶檢測程序,PC網(wǎng)站端和Android移動端在保證雙方用戶數(shù)據(jù)安全的前提下,聯(lián)合雙方共同建模實(shí)現(xiàn)了社交網(wǎng)絡(luò)跨平臺惡意用戶的精準(zhǔn)檢測.如圖8所示,PC網(wǎng)站端管理員可及時(shí)處理惡意用戶,對檢測的惡意用戶進(jìn)行標(biāo)記處理,從而進(jìn)一步維護(hù)了OSNs的生態(tài)網(wǎng)絡(luò)質(zhì)量. 圖7 3種模型的ROC曲線圖Fig.7 ROC curves of three models 4.2.3 安全性分析 為確保CyVOD的PC網(wǎng)站端和Android移動端建模階段的用戶數(shù)據(jù)安全和隱私保護(hù),本文假設(shè)其中一方為半誠實(shí)抑或誠實(shí)但好奇的參與方,參與方誠實(shí)地遵守協(xié)議,但也會試圖從接收到的信息中學(xué)習(xí)除輸出以外更多的信息.而往往發(fā)生隱私泄露經(jīng)常在模型訓(xùn)練階段,在此階段參與方可抽取訓(xùn)練數(shù)據(jù)或訓(xùn)練的特征向量推斷出涉及用戶隱私的敏感信息. 圖8 PC網(wǎng)站端惡意用戶檢測結(jié)果顯示頁面Fig.8 Malicious user detection results display page on PC website 表1 雙方持有的敏感數(shù)據(jù)Table1 Sensitive data held by bothparties OSNs的迅速發(fā)展,逐漸成為了惡意用戶試圖執(zhí)行非法活動、惡意危害社交網(wǎng)絡(luò)所承載生態(tài)環(huán)境的首要目標(biāo).為實(shí)現(xiàn)對惡意用戶的精確檢測,本文提出了一種以縱向聯(lián)邦學(xué)習(xí)為核心的社交網(wǎng)絡(luò)跨平臺惡意用戶檢測方案,該方案通過構(gòu)建數(shù)據(jù)預(yù)處理層、樣本對齊層、聯(lián)邦學(xué)習(xí)層、數(shù)據(jù)應(yīng)用層等層次化架構(gòu),提出了一種面向多方隱私保護(hù)的惡意用戶檢測算法,切實(shí)保證了模型的準(zhǔn)確性和用戶隱私的安全性,最后通過在CyVOD實(shí)現(xiàn)了仿真和應(yīng)用.然而,該方案中為防止用戶隱私泄露,往往需要各參與方之間更為緊密和直接的交互,訓(xùn)練過程中容易發(fā)生崩潰,未來考慮使用一種更加靈活、高效的隱私保護(hù)方案,如可信執(zhí)行環(huán)境(Trust Execution Environment,TEE)[19],保證機(jī)密性和完整性的前提下,能夠容忍發(fā)生崩潰的容錯(cuò)機(jī)制.4 實(shí) 驗(yàn)
4.1 數(shù)據(jù)集和評估指標(biāo)
4.2 實(shí)驗(yàn)結(jié)果與分析
5 結(jié)束語