張心語(yǔ),張秉晟,孟泉潤(rùn),任奎
隱私保護(hù)的加密流量檢測(cè)研究
張心語(yǔ),張秉晟,孟泉潤(rùn),任奎
(浙江大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,浙江 杭州 310000)
現(xiàn)有的加密流量檢測(cè)技術(shù)缺少對(duì)數(shù)據(jù)和模型的隱私性保護(hù),不僅違反了隱私保護(hù)法律法規(guī),而且會(huì)導(dǎo)致嚴(yán)重的敏感信息泄露。主要研究了基于梯度提升決策樹(GBDT)算法的加密流量檢測(cè)模型,結(jié)合差分隱私技術(shù),設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)隱私保護(hù)的加密流量檢測(cè)系統(tǒng)。在CICIDS2017數(shù)據(jù)集下檢測(cè)了DDoS攻擊和端口掃描的惡意流量,并對(duì)系統(tǒng)性能進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果表明,當(dāng)隱私預(yù)算取值為1時(shí),兩個(gè)數(shù)據(jù)集下流量識(shí)別準(zhǔn)確率分別為91.7%和92.4%,并且模型的訓(xùn)練效率、預(yù)測(cè)效率較高,訓(xùn)練時(shí)間為5.16 s和5.59 s,僅是GBDT算法的2~3倍,預(yù)測(cè)時(shí)間與GBDT算法的預(yù)測(cè)時(shí)間相近,達(dá)到了系統(tǒng)安全性和可用性的平衡。
隱私保護(hù);加密流量檢測(cè);梯度提升決策樹;差分隱私
隨著互聯(lián)網(wǎng)應(yīng)用、物聯(lián)網(wǎng)設(shè)備的日益發(fā)展和普及,大數(shù)據(jù)驅(qū)動(dòng)的智能技術(shù),如圖像分類、推薦算法、語(yǔ)音識(shí)別、無(wú)人駕駛等推動(dòng)社會(huì)信息化時(shí)代的變革。而大數(shù)據(jù)平臺(tái)收集的數(shù)據(jù)通常包含用戶的隱私和敏感信息,深入分析這些數(shù)據(jù)可能會(huì)導(dǎo)致用戶隱私信息被挖掘和濫用,在大數(shù)據(jù)被合理利用的同時(shí),如何保證數(shù)據(jù)安全和用戶隱私,是政府、企業(yè)和個(gè)人面臨的新的挑戰(zhàn)。隱私保護(hù)的加密流量檢測(cè)是一個(gè)重要研究方向。
“棱鏡”計(jì)劃和各類網(wǎng)絡(luò)監(jiān)控事件在全球范圍內(nèi)曝光,這使用戶的隱私保護(hù)意識(shí)逐漸增強(qiáng)。為了保證通信安全和隱私,越來(lái)越多的網(wǎng)絡(luò)流量采用數(shù)據(jù)加密技術(shù),如安全套接字協(xié)議等,以此確保數(shù)據(jù)在流量包傳輸過(guò)程中不會(huì)被隨意竊聽。但同時(shí),越來(lái)越多的攻擊者使用加密流量的方式隱藏自己的行蹤,防止被檢測(cè)和識(shí)別。針對(duì)惡意加密流量的檢測(cè)主要有兩種方式:先解密后檢測(cè)和不解密直接檢測(cè)。
網(wǎng)管設(shè)備通常采用先解密流量的方式進(jìn)行惡意流量檢測(cè),但這種檢測(cè)方式需要先解密流量、檢測(cè)流量,再重新加密,其中,解密操作的實(shí)現(xiàn)難度較高,而且會(huì)消耗大量計(jì)算資源,導(dǎo)致網(wǎng)絡(luò)吞吐量和時(shí)延增大,降低設(shè)備的可用性。此外,解密加密流量的操作違背了對(duì)網(wǎng)絡(luò)流量進(jìn)行加密的初衷,解密后的流量可能以日志或臨時(shí)存儲(chǔ)文件的形式被泄露,大大增加了設(shè)備受攻擊的可能性。解密加密流量還可能面臨違反隱私保護(hù)法律法規(guī)的風(fēng)險(xiǎn)。
學(xué)術(shù)界提出了在不解密的情況下,對(duì)惡意加密流量進(jìn)行檢測(cè)的方案,即基于傳統(tǒng)的統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)算法。由于加密流量技術(shù)只對(duì)載荷信息加密,而流特征仍然以明文形式傳輸,因此可以從網(wǎng)絡(luò)流量包中提取數(shù)據(jù)特征,使用機(jī)器學(xué)習(xí)來(lái)訓(xùn)練并區(qū)分惡意流量和良性流量的行為特征,從而進(jìn)行準(zhǔn)確識(shí)別。這類方法具有較高的識(shí)別性能和速度,可以較好地適用于各種網(wǎng)絡(luò)環(huán)境,因此被大量應(yīng)用于企業(yè)內(nèi)部進(jìn)行惡意流量檢測(cè),如思科公司的Joy系統(tǒng)[1]。
為了應(yīng)對(duì)大數(shù)據(jù)時(shí)代下的隱私泄露風(fēng)險(xiǎn)與挑戰(zhàn),國(guó)內(nèi)外標(biāo)準(zhǔn)化組織在信息技術(shù)的不同領(lǐng)域給出了“隱私”的定義,并針對(duì)網(wǎng)絡(luò)環(huán)境中的隱私保護(hù)制定了相關(guān)標(biāo)準(zhǔn)。歐盟于2016年通過(guò)的《通用數(shù)據(jù)保護(hù)規(guī)范》[2],從個(gè)人信息的采集到信息的傳輸和使用,直到銷毀,對(duì)信息的全周期有很明確的行為規(guī)范要求。個(gè)人信息采集時(shí),應(yīng)實(shí)行“最少采集”原則,不能非法采集數(shù)據(jù);采集信息的目的達(dá)到后,需在一定期限之內(nèi)予以銷毀。對(duì)于違反規(guī)范的機(jī)構(gòu),政府將處以法律責(zé)任追究、罰款,甚至處以刑事責(zé)任。美國(guó)2020年實(shí)施的《加利福尼亞州消費(fèi)者隱私法案》[3]為消費(fèi)者創(chuàng)建了訪問(wèn)權(quán)、刪除權(quán)、知情權(quán)等一系列消費(fèi)者隱私權(quán)利,并要求企業(yè)必須遵循相關(guān)義務(wù)。對(duì)違反隱私保護(hù)要求的企業(yè),政府有權(quán)征收處罰。
國(guó)內(nèi)也針對(duì)個(gè)人信息保護(hù)出臺(tái)了相關(guān)法律法規(guī)。于2017正式施行的《網(wǎng)絡(luò)安全法》[4]系統(tǒng)性提出網(wǎng)絡(luò)空間治理的法律法規(guī),特別明確和強(qiáng)調(diào)了個(gè)人信息保護(hù)方面的要求,明確并強(qiáng)化了對(duì)公民個(gè)人信息安全的保護(hù)。新頒布的2020版《個(gè)人信息安全規(guī)范》[5]對(duì)個(gè)人信息的采集、存儲(chǔ)、使用都做了明確規(guī)范,并規(guī)定了個(gè)人信息主體具有查詢、更正、刪除、撤回授權(quán)同意、注銷賬戶、獲取個(gè)人信息副本權(quán)利等,對(duì)后續(xù)個(gè)人信息保護(hù)工作的開展將產(chǎn)生深遠(yuǎn)影響。全世界各組織對(duì)隱私保護(hù)標(biāo)準(zhǔn)的嚴(yán)格規(guī)范和定義,更突顯了數(shù)據(jù)隱私保護(hù)的重要性。隱私保護(hù)不僅關(guān)系到個(gè)人隱私安全問(wèn)題,而且會(huì)對(duì)機(jī)構(gòu)的數(shù)據(jù)安全問(wèn)題乃至國(guó)家的網(wǎng)絡(luò)安全產(chǎn)生重大影響。
在大規(guī)模網(wǎng)絡(luò)加密流量檢測(cè)系統(tǒng)中,互聯(lián)網(wǎng)服務(wù)供應(yīng)商和企業(yè)面臨著重大挑戰(zhàn)。一方面,由于在復(fù)雜的網(wǎng)絡(luò)環(huán)境中,加密流量分析變得越來(lái)越困難,這些組織往往需要將此類任務(wù)及必要的網(wǎng)絡(luò)數(shù)據(jù)外包給第三方分析機(jī)構(gòu)。另一方面,這些組織通常不愿意與第三方共享網(wǎng)絡(luò)流量數(shù)據(jù)。這是由于此類數(shù)據(jù)中包含用戶的敏感信息,雖然檢測(cè)過(guò)程中不需要收集用戶發(fā)送的明文信息,但大量流量包的源IP地址結(jié)合目的IP地址,可以定位到某個(gè)具體用戶;從網(wǎng)絡(luò)流量數(shù)據(jù)中也可以推斷出用戶的網(wǎng)絡(luò)配置信息等;攻擊者利用這些信息進(jìn)行拒絕服務(wù)攻擊等。對(duì)于這類惡意攻擊,檢測(cè)系統(tǒng)難以控制,當(dāng)前方案下,企業(yè)難以對(duì)用戶個(gè)人信息的采集、傳輸和使用全過(guò)程進(jìn)行保障,違反了《通用數(shù)據(jù)保護(hù)規(guī)范》和《個(gè)人信息安全規(guī)范》中對(duì)個(gè)人隱私保護(hù)的規(guī)定,一旦流量包被惡意利用,企業(yè)將面臨高額罰款,甚至法律追究。
在上述情況下,流量特征匿名化的加密流量檢測(cè)技術(shù)引起了極大關(guān)注,傳統(tǒng)流量數(shù)據(jù)匿名化技術(shù)通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行變形處理,攻擊者無(wú)法直接進(jìn)行屬性泄露攻擊,常見的數(shù)據(jù)變形處理方法包括哈希、截?cái)?、替換、置換、IP地址混淆、隱藏等。此類方法的優(yōu)勢(shì)在于處理速度快、計(jì)算成本低。但變形后的數(shù)據(jù)由于丟失了部分性質(zhì),無(wú)法進(jìn)行復(fù)雜的網(wǎng)絡(luò)流量分析。因此,如何權(quán)衡網(wǎng)絡(luò)流量數(shù)據(jù)匿名化后的安全性和實(shí)用性問(wèn)題,成為亟待解決的問(wèn)題。設(shè)計(jì)一套隱私保護(hù)的加密流量檢測(cè)算法,有助于企業(yè)在當(dāng)前錯(cuò)綜復(fù)雜的網(wǎng)絡(luò)環(huán)境下,實(shí)現(xiàn)對(duì)用戶個(gè)人信息的全過(guò)程保護(hù),更好地保護(hù)企業(yè)流量數(shù)據(jù)資產(chǎn),并且嚴(yán)格遵守隱私保護(hù)法律法規(guī)。
本文提出了一種基于差分隱私的加密流量檢測(cè)技術(shù),該技術(shù)既能保證加密流量數(shù)據(jù)包的隱私性,又能以較高的準(zhǔn)確率實(shí)現(xiàn)惡意流量檢測(cè),主要貢獻(xiàn)如下。
(1)設(shè)計(jì)了一種隱私保護(hù)的加密流量檢測(cè)系統(tǒng),采用基于差分隱私的梯度提升決策樹算法,規(guī)定了嚴(yán)格的靈敏度范圍并有效地分配噪聲,引入了基于梯度的數(shù)據(jù)過(guò)濾算法和幾何葉剪枝算法。
(2)實(shí)現(xiàn)了隱私保護(hù)的加密流量檢測(cè)系統(tǒng)并進(jìn)行實(shí)驗(yàn)測(cè)試,實(shí)驗(yàn)采用CICIDS2017數(shù)據(jù)集進(jìn)行測(cè)試,在兩種攻擊的實(shí)驗(yàn)數(shù)據(jù)集上都取得了較好的效果,當(dāng)=1時(shí),惡意流量識(shí)別準(zhǔn)確率分別可以達(dá)到91.7%和92.4%。
本文采用的加密流量檢測(cè)是梯度提升的決策樹算法,該算法在惡意流量識(shí)別領(lǐng)域能達(dá)到較高的準(zhǔn)確率。隱私保護(hù)的安全模型方面,本文采用了差分隱私的擾動(dòng)機(jī)制。本文系統(tǒng)分為流量數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、模型訓(xùn)練和評(píng)估驗(yàn)證這4個(gè)模塊。本文搭建了一個(gè)完整的基于差分隱私的流量檢測(cè)模型。
流量檢測(cè)技術(shù)被廣泛應(yīng)用于完善入侵檢測(cè)系統(tǒng)、提升網(wǎng)絡(luò)通信服務(wù)質(zhì)量等。傳統(tǒng)的網(wǎng)絡(luò)流量異常檢測(cè),是通過(guò)分析流量的地址、端口、字節(jié)等數(shù)據(jù)來(lái)監(jiān)控網(wǎng)絡(luò)流量,及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)攻擊行為,如通過(guò)僵尸網(wǎng)絡(luò)實(shí)現(xiàn)的分布式拒絕服務(wù)(DDoS,distributed denial of service)攻擊。
僵尸網(wǎng)絡(luò)[6]是從網(wǎng)絡(luò)蠕蟲、木馬病毒、后門工具等傳統(tǒng)惡意代碼形式發(fā)展而來(lái)的攻擊方法,黑客可以入侵網(wǎng)絡(luò)空間中大量僵尸主機(jī),通過(guò)遠(yuǎn)程命令和控制,實(shí)現(xiàn)大規(guī)模網(wǎng)絡(luò)攻擊,如分布式拒絕服務(wù)攻擊和大量垃圾郵件發(fā)送、信息盜取等。其中,DDoS攻擊的目的是通過(guò)干擾正常的網(wǎng)絡(luò)環(huán)境造成計(jì)算機(jī)服務(wù)不可用,典型形式是流量溢出,攻擊者利用大量連接請(qǐng)求來(lái)消耗被攻擊網(wǎng)絡(luò)的服務(wù)資源,從而使被攻擊者無(wú)法處理其他合法用戶的請(qǐng)求。
端口掃描(port scan)是一種用于探測(cè)本地或遠(yuǎn)程端口是否開放的技術(shù),黑客將其惡意利用為一種攻擊探測(cè)手段,通過(guò)向目標(biāo)主機(jī)發(fā)送數(shù)據(jù)包,并記錄目標(biāo)主機(jī)的回應(yīng)情況來(lái)攻擊目標(biāo)主機(jī)。由于一個(gè)開放的端口即為通信通道,黑客可以了解目標(biāo)主機(jī)存在哪些弱點(diǎn),如開放的端口、運(yùn)行的服務(wù)等,并將其作為入侵檢測(cè)的突破點(diǎn)。隱蔽掃描技術(shù)能成功繞過(guò)防火墻,入侵檢測(cè)系統(tǒng),獲取目標(biāo)主機(jī)端口信息。
隨著用戶隱私保護(hù)意識(shí)的增強(qiáng)與加密協(xié)議[如傳輸層安全(TLS,transport layer security)協(xié)議]的廣泛應(yīng)用,加密流量急劇增加。惡意程序(如僵尸網(wǎng)絡(luò)、木馬病毒),越來(lái)越多地通過(guò)加密技術(shù)來(lái)繞過(guò)防火墻和入侵檢測(cè)系統(tǒng),進(jìn)行DDoS攻擊、隱蔽掃描、竊取機(jī)密信息。傳統(tǒng)的流量異常檢測(cè)技術(shù)在識(shí)別DDoS攻擊、port scan等異常流量時(shí),準(zhǔn)確性有所下降。因此,研究者[7]采用機(jī)器學(xué)習(xí)技術(shù),實(shí)現(xiàn)一種加密流量的異常流量識(shí)別方法。
本節(jié)主要介紹基于機(jī)器學(xué)習(xí)的加密流量檢測(cè)技術(shù),該技術(shù)[1]需要從實(shí)時(shí)流量和數(shù)據(jù)包中提取數(shù)據(jù)特征。惡意加密流量和正常的加密流量在一些特征上存在差異,主要表現(xiàn)在四類特征:數(shù)據(jù)包的時(shí)間序列特征、數(shù)據(jù)包的字節(jié)分布情況、數(shù)據(jù)包的報(bào)頭特征、TLS相關(guān)特征,并且這些特征的差異性不受流量加密的影響。在流量采集過(guò)程中,可以先分別提取這些流量特征[1]。
(1)數(shù)據(jù)包長(zhǎng)度和時(shí)間序列:流量包的長(zhǎng)度(以字節(jié)為單位)、流量包到達(dá)的時(shí)間間隔序列(以毫秒為單位)、流量包的發(fā)送方向。
(2)數(shù)據(jù)包的字節(jié)分布情況:流量包中字節(jié)分布的熵、字節(jié)分布的均值和標(biāo)準(zhǔn)差。
(3)數(shù)據(jù)包報(bào)頭特征:流量包發(fā)送和到達(dá)的端口號(hào)、協(xié)議類型、流量包的源IP地址、流量包的目的IP地址。
(4)TLS相關(guān)特征:TLS擴(kuò)展類型、客戶端或服務(wù)器端使用的密碼套件列表、TLS版本號(hào)、客戶端的公鑰長(zhǎng)度。
統(tǒng)計(jì)每個(gè)加密流量包的上述特征后,常用的機(jī)器學(xué)習(xí)檢測(cè)算法有邏輯回歸算法[8]、決策樹算法[如隨機(jī)森林算法[9]、梯度提升決策樹(GBDT,gradient boosting decision tree)算法[10]]等。
本文主要使用梯度提升決策樹算法對(duì)加密流量的檢測(cè)進(jìn)行訓(xùn)練,Boosting是一種可以將弱學(xué)習(xí)器提升為強(qiáng)學(xué)習(xí)器的算法,其工作機(jī)制是先從初始數(shù)據(jù)集訓(xùn)練出一個(gè)基學(xué)習(xí)器(典型的如決策樹),再根據(jù)基學(xué)習(xí)器預(yù)測(cè)的結(jié)果對(duì)訓(xùn)練樣本進(jìn)行調(diào)整,使基學(xué)習(xí)器分類錯(cuò)誤的樣本在后續(xù)訓(xùn)練過(guò)程中獲得更多關(guān)注,再基于調(diào)整后的樣本分布來(lái)訓(xùn)練下一個(gè)分類器。重復(fù)這一過(guò)程,直到基學(xué)習(xí)器的數(shù)量達(dá)到預(yù)先設(shè)定的值,再將所有基學(xué)習(xí)器進(jìn)行加權(quán)相加。
此時(shí),GBDT遍歷所有特征,選擇信息增益最大化的劃分點(diǎn)。若當(dāng)前節(jié)點(diǎn)不滿足劃分要求,如已經(jīng)到達(dá)最大深度或增益小于零,則當(dāng)前節(jié)點(diǎn)成為葉節(jié)點(diǎn),并且最佳葉節(jié)點(diǎn)的值由式(3)得出。
梯度提升決策樹算法在加密流量識(shí)別任務(wù)上具有很強(qiáng)的分類能力。
根據(jù)加密流量的特點(diǎn),本系統(tǒng)可采用串接和旁路兩種模式部署[12]。串接部署組網(wǎng)簡(jiǎn)單,無(wú)須額外增加接口,并且由于防護(hù)設(shè)備可以實(shí)時(shí)監(jiān)控雙向流量,在個(gè)別攻擊防護(hù)上優(yōu)于旁路部署。但在組網(wǎng)結(jié)構(gòu)復(fù)雜的場(chǎng)景下,難以使用串接模式部署,可以采用旁路部署模式,避免設(shè)備直路部署可能帶來(lái)的鏈路短時(shí)中斷。旁路部署的優(yōu)點(diǎn)是能夠保證原有組網(wǎng)不被破壞,同時(shí)引入了流量流向改變技術(shù),通過(guò)引流、回注等一系列手段來(lái)控制流量的走向,從而實(shí)現(xiàn)對(duì)異常流量的處理。
本文根據(jù)上述加密流量檢測(cè)算法,搭建了加密流量檢測(cè)系統(tǒng),如圖1所示,包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、模型訓(xùn)練和評(píng)估驗(yàn)證4個(gè)模塊。
圖1 加密流量檢測(cè)系統(tǒng)架構(gòu)
Figure 1 The system architecture ofencrypted traffic detection
步驟1 數(shù)據(jù)采集。加密流量包可以利用沙盒環(huán)境收集,用戶向其提交可疑執(zhí)行文件,每個(gè)提交的文件運(yùn)行一段時(shí)間后,系統(tǒng)捕獲、收集并存儲(chǔ)完整的加密數(shù)據(jù)包,這些流量將被標(biāo)記為惡意加密流量。正常加密流量可以通過(guò)wireshark抓包軟件直接從公共網(wǎng)絡(luò)捕獲,再設(shè)置黑名單過(guò)濾掉惡意IP地址的流量,從而得到良性流量包。為了提高可信度,可以直接采用公開數(shù)據(jù)集ISCX、Botnet、ISCX VPN-non VPN等。
步驟2 數(shù)據(jù)預(yù)處理。由于完整的流量數(shù)據(jù)包較大,需要先對(duì)數(shù)據(jù)進(jìn)行降維預(yù)處理,再?gòu)慕稻S后的流量數(shù)據(jù)中分別提取2.2節(jié)中提到的4類數(shù)據(jù)特征。
步驟3 模型訓(xùn)練。輸入提取的流量特征,采用2.1節(jié)提到的 GBDT 算法對(duì)加密流量分類模型進(jìn)行訓(xùn)練。
步驟4 評(píng)估驗(yàn)證。為了防止訓(xùn)練過(guò)擬合,本系統(tǒng)采用-Fold交叉驗(yàn)證的方法評(píng)估模型訓(xùn)練效果。首先將原始數(shù)據(jù)分為組,其中每個(gè)子集分別做一輪驗(yàn)證集,同時(shí)剩余?1組作為訓(xùn)練集,如此得到個(gè)模型,經(jīng)驗(yàn)證集驗(yàn)證得到個(gè)均方誤差,所有均方誤差的平均值是最終的交叉驗(yàn)證誤差值。
本文系統(tǒng)分為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、模型訓(xùn)練和評(píng)估預(yù)測(cè)4個(gè)模塊。在流量數(shù)據(jù)采集、預(yù)處理過(guò)程中,數(shù)據(jù)集將受到保護(hù),不會(huì)被攻擊者獲?。辉诜植际酱鎯?chǔ)和模型訓(xùn)練、評(píng)估預(yù)測(cè)時(shí),將不受保護(hù),攻擊者可能通過(guò)訓(xùn)練完成的模型,利用成員推理攻擊[13],反向推斷出訓(xùn)練集中所包含的數(shù)據(jù)或其特征,泄露數(shù)據(jù)集的隱私信息。但在本文系統(tǒng)中,數(shù)據(jù)在訓(xùn)練過(guò)程中引入了噪聲,對(duì)訓(xùn)練的模型進(jìn)行了保護(hù),也對(duì)輸出結(jié)果加入了拉普拉斯擾動(dòng),黑客無(wú)法通過(guò)模型準(zhǔn)確推斷原本訓(xùn)練集的特征,也無(wú)法挖掘訓(xùn)練數(shù)據(jù)集的流量信息和用戶隱私。
傳統(tǒng)衡量數(shù)據(jù)隱私的通用標(biāo)準(zhǔn)分別是-anonymity、-diversity和-closeness,這3個(gè)標(biāo)準(zhǔn)從不同角度衡量了隱私數(shù)據(jù)泄露的風(fēng)險(xiǎn)。-anonymity[14]要求對(duì)于任意一行記錄,其所屬的等價(jià)類內(nèi)的記錄數(shù)量不小于。該標(biāo)準(zhǔn)能夠保護(hù)數(shù)據(jù)的身份信息,但其缺點(diǎn)是無(wú)法防止屬性泄露的風(fēng)險(xiǎn),攻擊者可以通過(guò)同質(zhì)屬性攻擊和背景知識(shí)攻擊兩種方式來(lái)獲取個(gè)體的敏感屬性信息。-diversity[15]進(jìn)一步要求,在一個(gè)等價(jià)類中所有記錄對(duì)應(yīng)的敏感屬性的集合需要包含個(gè)“良表示”。這一標(biāo)準(zhǔn)保證了屬性取值的多樣性,但無(wú)法衡量不同屬性值的分布,因此在衡量屬性泄露風(fēng)險(xiǎn)上仍有不足之處。-closeness[15]則要求等價(jià)類中的敏感屬性分布與整體數(shù)據(jù)表中敏感屬性的分布的距離小于,該約束減弱了間接標(biāo)識(shí)符列屬性與特定敏感信息的聯(lián)系,進(jìn)而減少了攻擊者通過(guò)敏感屬性的分布信息進(jìn)行屬性泄露攻擊的可能性,但其缺點(diǎn)是會(huì)導(dǎo)致信息在一定程度上發(fā)生損失。
McSherry等[17]提出了差分隱私的兩個(gè)重要性質(zhì):順序合成性質(zhì)和平行合成性質(zhì)。
本文結(jié)合差分隱私的順序合成和平行合成,參考文獻(xiàn)[18]的兩級(jí)提升框架,設(shè)計(jì)了如圖2所示的隱私保護(hù)的加密流量檢測(cè)的系統(tǒng)框架。在平行合成內(nèi)部,使用數(shù)據(jù)集中不相交的數(shù)據(jù)子集訓(xùn)練生成多棵決策樹,然后依次訓(xùn)練生成多個(gè)這樣的合成。在平行合成內(nèi)部和外部,分別采用差分隱私保證隱私性,給定敏感度邊界設(shè)置和隱私預(yù)算分配方案。
圖2 隱私保護(hù)的加密流量檢測(cè)系統(tǒng)框架
Figure 2 The system architecture of privacy preserving encrypted traffic detection
由引理1 和引理2可得,節(jié)點(diǎn)的敏感度與梯度絕對(duì)值(即1范數(shù)梯度)的最大值有關(guān),因此,為了控制隱私預(yù)算,通常需要限制梯度的范圍,但在GBDT算法中,梯度是由預(yù)測(cè)值與目標(biāo)值之間的距離來(lái)計(jì)算的,限制梯度意味著間接改變了目標(biāo)值,會(huì)產(chǎn)生巨大誤差,因此,Li等[18]提出了一種基于梯度的數(shù)據(jù)過(guò)濾方法,通過(guò)在每次迭代中僅過(guò)濾訓(xùn)練數(shù)據(jù)集的一小部分來(lái)限制1范數(shù)梯度的最大值。
推論2 結(jié)合GDF和GLC,在第輪中葉子節(jié)點(diǎn)的敏感度滿足
本文針對(duì)加密流量檢測(cè),參考文獻(xiàn)[18]中差分隱私的梯度提升決策樹算法,提取捕獲數(shù)據(jù)的8個(gè)特征。
第一步是利用算法1實(shí)現(xiàn)單棵差分隱私?jīng)Q策樹的生成。
算法1 訓(xùn)練單棵樹算法
輸入0:初始數(shù)據(jù)集;ε:隱私預(yù)算;max_depth:最大深度;={1,2,…,a}:屬性集
1) 函數(shù)TreeGen(0,)
4) 利用GDF算法生成新數(shù)據(jù)集D←GDF(0);
5) 初始化:=1,生成根節(jié)點(diǎn)root;
6) node:=root;
7) while< max_depth do
8) for深度下每個(gè)節(jié)點(diǎn)node do
9) for= todo /*α作為劃分屬性*/
12) end for
15) 為node生成一個(gè)分支;
18) 該分支節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn)Z,其類別標(biāo)記為中樣本最多的類;
19) else
21) end if
22) end for
23) end for
24) end while
25) 將深度max_depth下的節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn)Z;
26) 生成一棵以root為根節(jié)點(diǎn)的決策樹0;
27) for0的每個(gè)葉節(jié)點(diǎn)Z:={V} do
28)V←() /*式(3)*/
31) end for
算法2 訓(xùn)練差分隱私的GBDT
輸出差分隱私的GBDT
3) for=1 todo
4) 更新所有訓(xùn)練實(shí)例在損失函數(shù)上的梯度
8) end if
11) 調(diào)用算法1生成決策樹Tree,參數(shù)設(shè)置如下。
數(shù)據(jù)集D;
最大深度max_depth;
12) end for
本文采用LightGBM算法庫(kù)[19]實(shí)現(xiàn)了差分隱私的GBDT算法,對(duì)比庫(kù)中不加噪聲的GBDT算法,對(duì)系統(tǒng)的有效性和可用性進(jìn)行評(píng)估。實(shí)驗(yàn)在一臺(tái)Intel(R) Xeon(R) E5-2678 v3@2.50 GHz為核心CPU的計(jì)算機(jī)上進(jìn)行。
實(shí)驗(yàn)使用的數(shù)據(jù)集是CICIDS2017[20],該數(shù)據(jù)集從真實(shí)環(huán)境中捕獲,包含良性流量和新型常見攻擊的流量,流量包經(jīng)過(guò)CICFlowMeter特征提取工具處理后,可以提取出時(shí)間戳、源IP、目的IP、使用協(xié)議等78個(gè)特征,并被標(biāo)記為“良性流量”和“惡性流量”,組成CSV特征數(shù)據(jù)集。本文使用了該數(shù)據(jù)中與DDoS攻擊和port scan相關(guān)的兩個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集名稱和數(shù)據(jù)集詳細(xì)信息如表1所示。
表1 實(shí)驗(yàn)使用數(shù)據(jù)集的詳細(xì)信息
實(shí)驗(yàn)展示了本算法在二分類任務(wù)下的測(cè)試準(zhǔn)確率和訓(xùn)練時(shí)間。實(shí)驗(yàn)中決策樹最大深度根據(jù)訓(xùn)練情況設(shè)置為6或7,學(xué)習(xí)率設(shè)置為0.01度量函數(shù)使用曲線下面積(AUC,area under the curve),正則化參數(shù)設(shè)置為0.01,boosting迭代次數(shù)和一個(gè)合成內(nèi)部決策樹總棵數(shù)均設(shè)置為_tree。訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集的比例分別為80%和20%。
首先設(shè)置參考組,利用不加擾動(dòng)的GBDT算法對(duì)流量數(shù)據(jù)進(jìn)行訓(xùn)練擬合和預(yù)測(cè),識(shí)別準(zhǔn)確率為99.98%和99.97%,說(shuō)明整體上GBDT算法對(duì)加密流量檢測(cè)具有較好的識(shí)別效果。
根據(jù)實(shí)驗(yàn)結(jié)果可知,一個(gè)合成內(nèi)部決策樹總棵數(shù)過(guò)小,即_tree過(guò)小時(shí),模型擬合過(guò)程未收斂;而_tree過(guò)大時(shí),模型過(guò)擬合。因此,選取_tree為50時(shí),模型擬合情況較好,且預(yù)測(cè)準(zhǔn)確率較高。
圖3 數(shù)據(jù)集1:在不同隱私預(yù)算和不同n_tree下,DDoS攻擊流量的識(shí)別準(zhǔn)確率
Figure 3 Dataset 1: The recognition accuracy of DDoS attack traffic with different privacy budgets and_tree
圖4 數(shù)據(jù)集2:在不同隱私預(yù)算和不同n_tree下,PortScan流量的識(shí)別準(zhǔn)確率
Figure 4 The accuracy of PortScantrafficrecognition with different privacy budgets and_tree
本節(jié)分別用GBDT算法和差分隱私的GBDT算法(DP-GBDP)訓(xùn)練并預(yù)測(cè)模型,對(duì)兩種算法的訓(xùn)練時(shí)間、預(yù)測(cè)時(shí)間進(jìn)行對(duì)比。
訓(xùn)練模型過(guò)程中,DP-GBDP算法的計(jì)算開銷主要來(lái)源于在計(jì)算每個(gè)信息增益的概率時(shí),額外添加的指數(shù)機(jī)制,以及最后輸出結(jié)果時(shí)添加的拉普拉斯擾動(dòng)。指數(shù)機(jī)制的開銷隨著訓(xùn)練數(shù)據(jù)的增多而增大。
表2 DP-GBDT和GBDT算法的訓(xùn)練時(shí)間
預(yù)測(cè)時(shí)間的效率分析實(shí)驗(yàn)中,利用4.2節(jié)訓(xùn)練完成的模型對(duì)DDoS攻擊和port scan數(shù)據(jù)集中20%的流量進(jìn)行測(cè)試(即45 149條和57 294條流量),經(jīng)1 000輪測(cè)試,對(duì)每輪預(yù)測(cè)的時(shí)間取平均值,測(cè)試時(shí)間結(jié)果如表3所示。根據(jù)實(shí)驗(yàn)結(jié)果可知,DP-GBDT算法在預(yù)測(cè)效率上與GBDT算法近似,這表明在DP-GBDT算法在預(yù)測(cè)時(shí),相比GBDT算法沒(méi)有額外計(jì)算開銷。
表3 DP-GBDT和GBDT算法每輪預(yù)測(cè)時(shí)間
機(jī)器學(xué)習(xí)技術(shù)不斷發(fā)展優(yōu)化,被廣泛應(yīng)用于語(yǔ)音識(shí)別[21]、圖像處理[22]、網(wǎng)絡(luò)流量監(jiān)測(cè)[23]等領(lǐng)域。但隨著隱私保護(hù)相關(guān)法律標(biāo)準(zhǔn)的不斷規(guī)范化,個(gè)人、機(jī)構(gòu)的隱私保護(hù)意識(shí)逐漸增強(qiáng),因此,機(jī)器學(xué)習(xí)方案的輸入數(shù)據(jù)和模型參數(shù)有了一定隱私性要求,隱私保護(hù)的機(jī)器學(xué)習(xí)技術(shù)成為研究熱點(diǎn),目前有兩個(gè)主流研究方向:基于同態(tài)加密(homomorphic encryption)、安全多方計(jì)算(MPC,multi-party computation)、加密布爾電路(garbled circuits)、秘密共享(secret haring)等技術(shù)的密碼學(xué)方法和基于噪聲擾動(dòng)的差分隱私方法。
基于密碼學(xué)的隱私保護(hù)機(jī)器學(xué)習(xí)研究,通過(guò)對(duì)敏感數(shù)據(jù)加密,保證數(shù)據(jù)傳輸和存儲(chǔ)時(shí)的機(jī)密性,利用安全協(xié)議對(duì)密文進(jìn)行計(jì)算、分析,防止惡意攻擊者利用機(jī)器學(xué)習(xí)模型對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行推測(cè),最后對(duì)預(yù)測(cè)結(jié)果解密,得到明文上的正確輸出。
在基于同態(tài)加密技術(shù)的隱私保護(hù)機(jī)器學(xué)習(xí)的研究上,Chen等[24]提出兩方下的隱私保護(hù)分布式機(jī)器學(xué)習(xí)算法,他們將數(shù)據(jù)集進(jìn)行特定劃分,其中任意一方只保留特征向量的子集,并確保任何一方的數(shù)據(jù)都不會(huì)遭到泄露。Erkin等[25]引入了數(shù)據(jù)打包技術(shù),使多個(gè)明文可以被加密為同一個(gè)密文,提高了加法同態(tài)加密的計(jì)算效率。Bost等[26]結(jié)合同態(tài)加密和加密布爾電路技術(shù),構(gòu)建了3種常見的分類算法(超平面決策、樸素貝葉斯和決策樹)。Dowlin等[27]提出了CryptoNets,利用加法、乘法同態(tài)加密,實(shí)現(xiàn)了一種高吞吐量、高準(zhǔn)確率、可應(yīng)用于加密數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),并對(duì)該系統(tǒng)的正確性進(jìn)行理論推導(dǎo)。Hesamifard等[28]提出的CryptoDL是一個(gè)隱私保護(hù)的卷積神經(jīng)網(wǎng)絡(luò)模型,其中激活函數(shù)(如ReLU函數(shù)、Sigmoid函數(shù))利用低次多項(xiàng)式逼近的方法實(shí)現(xiàn),結(jié)合同態(tài)加密技術(shù)達(dá)到數(shù)據(jù)保護(hù)的目的。
在基于安全多方計(jì)算的隱私保護(hù)機(jī)器學(xué)習(xí)研究上,Mohassel等[29]提出了SecureML,針對(duì)線性回歸、邏輯回歸和神經(jīng)網(wǎng)絡(luò)訓(xùn)練等機(jī)器學(xué)習(xí)技術(shù),完成了兩方下的安全計(jì)算任務(wù),同時(shí)提出了MPC友好的算法來(lái)替代神經(jīng)網(wǎng)絡(luò)中的非線性函數(shù),如Sigmoid、Softmax等。Kone?ny等[30]提出聯(lián)邦學(xué)習(xí)的概念,利用多個(gè)相互獨(dú)立的服務(wù)器上的數(shù)據(jù)集,共同訓(xùn)練出一個(gè)高質(zhì)量的模型,設(shè)計(jì)了結(jié)構(gòu)化更新、草圖更新兩種方法,降低系統(tǒng)的通信開銷。Mohassel等[31]提出的ABY3是一個(gè)三方下的隱私保護(hù)機(jī)器學(xué)習(xí)計(jì)算框架,設(shè)計(jì)了新的向量?jī)?nèi)積、矩陣乘法、浮點(diǎn)數(shù)截?cái)鄥f(xié)議,能在三方服務(wù)器之間秘密共享數(shù)據(jù),聯(lián)合訓(xùn)練和評(píng)估神經(jīng)網(wǎng)絡(luò)模型。Patra等[32]擴(kuò)展了ABY3框架,改進(jìn)其中的乘法協(xié)議,提高了安全多方計(jì)算下機(jī)器學(xué)習(xí)訓(xùn)練和推斷過(guò)程的性能表現(xiàn)。
差分隱私技術(shù)通過(guò)在模型訓(xùn)練過(guò)程中加入隨機(jī)噪聲,使預(yù)測(cè)結(jié)果與真實(shí)值存在一定偏差,可以防止成員推斷攻擊等。根據(jù)隨機(jī)噪聲在機(jī)器學(xué)習(xí)中添加位置的不同,差分隱私的擾動(dòng)方案可以分為輸入擾動(dòng)、算法擾動(dòng)、輸出擾動(dòng)和目標(biāo)擾動(dòng)。
輸入擾動(dòng)通過(guò)直接在數(shù)據(jù)集上添加噪聲,即使在公開的計(jì)算過(guò)程,也能實(shí)現(xiàn)輸出結(jié)果的隱私保護(hù)。Dwork等[33]設(shè)計(jì)了差分隱私的主成分分析算法,通過(guò)在本征分解之前,對(duì)協(xié)方差矩陣添加高斯噪聲,使輸出結(jié)果矩陣符合差分隱私。Heikkil?等[34]利用高斯噪聲機(jī)制設(shè)計(jì)了隱私保護(hù)的差分隱私貝葉斯決策。
算法擾動(dòng)是指在機(jī)器學(xué)習(xí)算法迭代過(guò)程中添加噪聲,Hardt等和Abadi等分別在每輪矩陣向量乘法、每輪隨機(jī)梯度下降算法中引入高斯噪聲機(jī)制,實(shí)現(xiàn)了DP-PAC和DP深度學(xué)習(xí)算法[35-36]。
輸出擾動(dòng)則是在非隱私保護(hù)算法的輸出結(jié)果上添加噪聲,Chaudhuri和Monteleoni[37]基于該機(jī)制設(shè)計(jì)了差分隱私的邏輯回歸算法,Chaudhuri等[38]利用指數(shù)機(jī)制,實(shí)現(xiàn)了差分隱私的主成分分析算法。
目標(biāo)擾動(dòng)算法是在模型的目標(biāo)函數(shù)上引入擾動(dòng),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM,empirical risk minimization)[39]算法則是基于此,在目標(biāo)函數(shù)表達(dá)式中加入隨機(jī)噪聲,保證擾動(dòng)后的訓(xùn)練過(guò)程滿足差分隱私。Zhang等提出利用泰勒展開多項(xiàng)式逼近目標(biāo)函數(shù),在各項(xiàng)系數(shù)中添加拉普拉斯噪聲,從而使算法滿足差分隱私,該方法被成功應(yīng)用于線性回歸和邏輯回歸模型[40]。
在實(shí)際應(yīng)用場(chǎng)景中,數(shù)據(jù)的加密過(guò)程和密文的傳輸、運(yùn)算過(guò)程往往需要消耗大量計(jì)算資源,產(chǎn)生巨大的性能開銷。而差分隱私僅通過(guò)添加噪聲機(jī)制即可實(shí)現(xiàn)隱私保護(hù),不存在額外的計(jì)算開銷,但噪聲會(huì)對(duì)模型的預(yù)測(cè)準(zhǔn)確率造成一定影響。因此,如何在保證數(shù)據(jù)集隱私性的同時(shí),平衡模型準(zhǔn)確率和可用性是當(dāng)前研究重點(diǎn)之一。
隨著網(wǎng)絡(luò)安全威脅和防護(hù)問(wèn)題的不斷涌現(xiàn),隱私保護(hù)標(biāo)準(zhǔn)逐漸規(guī)范化,數(shù)據(jù)隱私保護(hù)算法顯得尤為重要,尤其是在網(wǎng)絡(luò)入侵檢測(cè)領(lǐng)域,網(wǎng)絡(luò)空間中存在大量流量包、日志文件等數(shù)據(jù),為入侵檢測(cè)算法帶來(lái)大量信息的同時(shí),存在巨大風(fēng)險(xiǎn)與隱患,可能導(dǎo)致個(gè)人隱私信息的泄露。本文從加密流量檢測(cè)的原理出發(fā),研究了實(shí)現(xiàn)加密流量檢測(cè)的幾種機(jī)器學(xué)習(xí)算法;同時(shí)調(diào)研了隱私保護(hù)的機(jī)器學(xué)習(xí)領(lǐng)域涉及的差分隱私機(jī)制、同態(tài)加密機(jī)制等。本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)隱私保護(hù)的加密流量檢測(cè)系統(tǒng),對(duì)其安全性進(jìn)行了理論分析,實(shí)驗(yàn)測(cè)試結(jié)果表明,該方案實(shí)現(xiàn)對(duì)數(shù)據(jù)集隱私保護(hù)的同時(shí),達(dá)到較高的惡意流量識(shí)別準(zhǔn)確率。
[1] MC-GREW D, ANDERSON B. Enhanced telemetry for encrypted threat analytics[C]//2016 IEEE 24th International Conference on Network Protocols (ICNP). 2016: 1-6.
[2] VOIGT P, VON DEM BUSSCHE A. Practical implementation of the requirements under the GDPR[M]//The EU General Data Protection Regulation (GDPR). Cham: Springer International Publishing, 2017: 245-249.
[3] BUKATY P. The CCPA[M]//The California Consumer Privacy Act (CCPA). IT Governance Publishing, 2019: 123-169.
[4] 王春暉. 《網(wǎng)絡(luò)安全法》六大法律制度解析[J]. 南京郵電大學(xué)學(xué)報(bào): 自然科學(xué)版, 2017, 37(1): 1-13.
WANG C H. Analysis of the six legal systems of Network Security Law[J]. Journal of Nanjing University of Posts and Telecommunications: Natural Science Edition, 2017, 37(1): 1-13.
[5] 洪延青, 葛鑫. 國(guó)家標(biāo)準(zhǔn)《信息安全技術(shù)個(gè)人信息安全規(guī)范》修訂解讀[J]. 保密科學(xué)技術(shù), 2019 (8): 6.
HONG Y Q, GE X. Information Security Technology Personal Information Security Specification revision interpretation[J]. Security Science and Technology, 2019 (8): 6.
[6] 諸葛建偉, 韓心慧, 周勇林, 等. 僵尸網(wǎng)絡(luò)研究[J]. 軟件學(xué)報(bào), 2008, 19(3): 702-715.
ZHUGE J W, HAN X H, ZHOU Y L, et al. Research and development of Botnets[J]. Journal of Software, 2008, 19(3): 702-715.
[7] CAO Z, XIONG G, ZHAO Y, et al. A survey on encrypted trafficclassification[M]//Applications and Techniques in Information Security. Springer Berlin Heidelberg. 2014: 73-81.
[8] KLEINBAUM D G, DIETZ K, GAIL M, et al. Logistic regression[M]. Springer, 2002.
[9] HO T K. Random decision forests[C]//Proceedings of 3rd International Conference on Document Analysis and Recognition: Volume 1. 1995: 278-282.
[10] FANG Y, QIU Y, LIU L, et al. Detecting webshell based on random forest with fasttext[C]//Proceedings of the 2018International Conference on Computing and Artificial Intelligence. 2018: 52-56.
[11] SI S, ZHANG H, KEERTHI S S, et al. Gradient boosted decision trees for high dimensional sparse output[C]//Proceedings of the 34th International Conference on Machine Learning-Volume 70 (ICML’17). 2017: 3182-3190.
[12] 翟征德, 宗兆偉. 針對(duì)DNS服務(wù)器的抗DDoS安全網(wǎng)關(guān)系統(tǒng):中國(guó),CN101572701B[P]. 2013-11-20.
ZHAI Z D, ZONG Z W. Anti-DDoS security gateway system for DNS server[P]. 2013-11-20.
[13] SHOKRI R, STRONATI M, SONG C, et al. Membership inference attacks against machine learning models[C]//2017 IEEE Symposium on Security and Privacy (SP). 2017: 3-18.
[14] SWEENEY L.-anonymity: a model for protecting privacy[J]. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 2002, 10(5): 557-570.
[15] MACHANAVAJJHALA A, KIFER D, GEHRKE J, et al. l-diversity: privacy beyond k-anonymity[J]. ACM Transactions on Knowledge Discovery from Data (TKDD), 2007, 1(1): 3.
[16] DWORK C. Differential privacy: a survey of results[C]//International Conference on Theory and Applications of Models of Computation. 2008: 1-19.
[17] FRANK M, MIRONOV I. Differentially private recommender systems: building privacy into the net[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining 2009: 627-636.
[18] LI Q, WU Z, WEN Z, et al. Privacy-preserving gradient boosting decision trees[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020: 784-791.
[19] KE G L, MENG Q, FINLEY T, et al. LightGBM: a highly efficient gradient boosting decision tree[C]//Advances in Neural Information Processing Systems 30 (NIPS 2017). 2017: 3149-3157.
[20] SHARAFALDIN I, LASHKARI A H, GHORBANI A A. Toward Generating a new intrusion detection dataset and intrusion traffic characterization[C]//4th International Conference on Information Systems Security and Privacy (ICISSP). 2018.
[21] LIU Z , WU Z, LI T, et al. GMM and CNN hybrid method for short utterance speaker recognition[J]. IEEE Transactions on Industrial Informatics, 2018, 14(7): 3244-3252.
[22] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Advances in Communications of the ACM, 2012: 1097-1105.
[23] MEIDAN Y, BOHADANA M, SHABTAI A, et al. ProfilIoT: a machine learning approach for IoT device identification based on network traffic analysis[C]//Proceedings of the Symposium on Applied Computing. 2017: 506-509.
[24] CHEN T, ZHONG S. Privacy-preserving backpropagation neural network learning[J]. IEEE Transactions on Neural Networks, 2009, 20(10): 1554-1564.
[25] ERKIN Z, VEUGEN T, TOFT T, LAGENDIJK R L. Generating private recommendations efficiently using homomorphic encryption and data packing[J]. IEEE Trans Inf Forensics Security, 2012, 7(3): 1053-1066.
[26] BOST R, POPA R, TU S, GOLDWASSER S. Machine learning classification over encrypted data[C]//NDSS. 2015: 4325.
[27] GILAD-BACHRACH R, DOWLIN N, LAINE K, et al. Cryptonets: applying neural networks to encrypted data with high throughput and accuracy[C]//International Conference on Machine Learning. 2016: 201-210.
[28] HESAMIFARD E, TAKABI H, GHASEMI M. CryptoDL: deep neural networks over encrypted data[J]. ArXiv preprint ArXiv:1711.05189, 2017.
[29] MOHASSEL P, ZHANG Y. SecureML: a system for scalable privacy-preserving machine learning[C]//2017 IEEE Symposium on Security and Privacy (SP). 2017: 19-38.
[30] KONE?NY J, MCMAHAN H B, YU F X, et al. Federated learning: Strategies for improving communication efficiency[J]. arXiv preprint arXiv:1610.05492, 2016.
[31] MOHASSEL P, RINDAL P. ABY3: a mixed protocol framework for machine learning[C]//Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security. 2018: 35-52.
[32] PATRA A, SURESH A. BLAZE: Blazing Fast Privacy-Preserving Machine Learning[J]. arXiv preprint arXiv: 2005.09042, 2020.
[33] DWORK C, TALWAR K, THAKURTA A, et al. Analyze gauss: optimal bounds for privacy-preserving principal component analysis[C]//Proceedings of the Forty-sixth Annual ACM Symposium on Theory of Computing. 2014: 11-20.
[34] HEIKKIL? M, LAGERSPETZ E, KASKI S, et al. Differentially private Bayesian learning on distributed data[C]//Advances in Neural Information Processing Systems. 2017: 3226-3235.
[35] HARDT M, PRICE E. The noisy power method: a meta algorithm with applications[C]//Advances in Neural Information Processing Systems. 2014: 2861-2869.
[36] ABADI M, CHU A, GOODFELLOW I, et al. Deep learning with differential privacy[C]//Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security. 2016: 308-318.
[37] CHAUDHURI K, MONTELEONI C. Privacy-preserving logistic regression[C]//Advances in Neural Information Processing Systems. 2009: 289-296.
[38] CHAUDHURI K, SAR WATE D A, SINHA K. A near-optimal algorithm for differentially-private principal components[J]. Journal of Machine Learning Research, 2013, 14(1): 2905-2943.
[39] CHAUDHURI K, MONTELEONI C, SARWATE A D. Differentially private empirical risk minimization[J]. Journal of Machine Learning Research, 2011, 12: 1069-1109.
[40] ZHANG J, ZHANG Z, XIAO X, et al. Functional mechanism: regression analysis under differential privacy[J]. arXiv preprint arXiv:1208.0219, 2012.
Study on privacy preserving encrypted traffic detection
ZHANG Xinyu, ZHANG Bingsheng, MENG Quanrun, REN Kui
School of Cyber Science and Technology, Zhejiang University, Hangzhou 310000, China
Existing encrypted traffic detection technologies lack privacy protection for data and models, which will violate the privacy preserving regulations and increase the security risk of privacy leakage. A privacy-preserving encrypted traffic detection system was proposed. Itpromoted the privacy ofthe encrypted traffic detection model by combiningthe gradient boosting decision tree (GBDT) algorithm with differential privacy. The privacy-protected encrypted traffic detection system was designed and implemented. The performance and the efficiency of proposed system using the CICIDS2017 dataset were evaluated, which contained the malicious traffic of the DDoS attack and the port scan. The results show that when the privacy budget value is set to 1, the system accuracy rates are 91.7%and 92.4%respectively.The training and the prediction of our model is efficient.The training time of proposed model is 5.16s and 5.59s, that is only 2-3 times of GBDT algorithm. The prediction time is close to the GBDT algorithm.
privacy-preserving, encrypted traffic detection, gradient boosting decision tree, differential privacy
TP393
A
10.11959/j.issn.2096?109x.2021057
2020?07?01;
2020?09?22
張秉晟,bingsheng@zju.edu.cn
國(guó)家自然科學(xué)基金(62032021, 61772236);浙江省重點(diǎn)研發(fā)計(jì)劃(2019C03133);阿里巴巴?浙江大學(xué)前沿技術(shù)聯(lián)合研究所,浙江大學(xué)網(wǎng)絡(luò)空間治理研究所,創(chuàng)新創(chuàng)業(yè)團(tuán)隊(duì)浙江省引進(jìn)計(jì)劃(2018R01005);移動(dòng)互聯(lián)網(wǎng)系統(tǒng)與應(yīng)用安全國(guó)家工程實(shí)驗(yàn)室2020開放課題
The National Natural Science Foundation of China (62032021, 61772236), Zhejiang Key R&D Plan (2019C03133), Alibaba-Zhejiang University Joint Institute of Frontier Technologies, Research Institute of Cyberspace Governance in Zhejiang University, Leading Innovative and Entrepreneur Team Introduction Program of Zhejiang (2018R01005), 2020 Open Project of the National Engineering Laboratory of Mobile Internet System and Application Security
張心語(yǔ), 張秉晟, 孟泉潤(rùn), 等. 隱私保護(hù)的加密流量檢測(cè)研究[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2021, 7(4): 101-113.
ZHANG X Y, ZHANG B S, MENG Q R, et al. Study on privacy preserving encrypted traffic detection[J]. Chinese Journal of Network and Information Security, 2021, 7(4): 101-113.
張心語(yǔ)(1997?),女,浙江諸暨人,浙江大學(xué)博士生,主要研究方向?yàn)槿斯ぶ悄馨踩?、?shù)據(jù)安全。
張秉晟(1984?),男,浙江杭州人,浙江大學(xué)研究員、博士生導(dǎo)師,主要研究方向?yàn)槊艽a學(xué)、安全多方計(jì)算、零知識(shí)證明、區(qū)塊鏈安全、數(shù)據(jù)安全。
孟泉潤(rùn)(1994-),男,河南新鄉(xiāng)人,浙江大學(xué)碩士生,主要研究方向?yàn)閿?shù)據(jù)安全。
任奎(1978?),男,安徽巢湖人,浙江大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)樵朴?jì)算中的數(shù)據(jù)安全、計(jì)算服務(wù)外包安全、無(wú)線系統(tǒng)安全、隱私保護(hù)、物聯(lián)網(wǎng)系統(tǒng)與安全。