□ 文|檀 鵬 溫 暖
HTTPS協(xié)議是HTTP協(xié)議的安全版本,目前國內(nèi)外互聯(lián)網(wǎng)網(wǎng)站企業(yè)均在大力推進(jìn)其應(yīng)用,由HTTP網(wǎng)站訪問改為HTTPS網(wǎng)站訪問。HTTPS協(xié)議在保護(hù)用戶隱私、保障傳輸數(shù)據(jù)完整性的同時(shí),也給網(wǎng)站內(nèi)容的安全管理帶來了巨大的挑戰(zhàn)。針對此網(wǎng)絡(luò)安全威脅,本文對HTTPS違規(guī)網(wǎng)站的識別進(jìn)行了研究分析。
HTTPS全稱為Hyper Text Transfer Protocol over Secure Socket Layer,HTTPS協(xié)議是基于SSL或者TLS加密的HTTP消息交互協(xié)議,在HTTP的基礎(chǔ)上通過傳輸加密和身份認(rèn)證保證了傳輸過程的安全性,是以安全為目標(biāo)的HTTP 通道,被廣泛用于萬維網(wǎng)上安全敏感的通訊。
HTTPS協(xié)議具有加密、防篡改、身份認(rèn)證等優(yōu)點(diǎn)。2014年起,國外網(wǎng)站陸續(xù)啟用HTTPS協(xié)議。目前,谷歌、Facebook、Twitter等國外主流網(wǎng)站已全面應(yīng)用HTTPS,國內(nèi)百度、淘寶、京東等主流網(wǎng)站也已全面啟用HTTPS,實(shí)現(xiàn)網(wǎng)絡(luò)流量的加密傳輸,避免傳統(tǒng)HTTP網(wǎng)絡(luò)出現(xiàn)的用戶信息泄露、流量劫持行為的發(fā)生。
HTTPS加密網(wǎng)站傳輸?shù)膽?yīng)用日趨普及,HTT PS網(wǎng)站流量占總流量的比例也越來越大。HTTPS網(wǎng)站傳輸?shù)募用芴匦员灰恍┎环ǚ肿永?,存在傳播違法違規(guī)內(nèi)容的情況。由于傳輸?shù)木W(wǎng)站信息被加密,導(dǎo)致違規(guī)內(nèi)容無法被流量還原等傳統(tǒng)的技術(shù)方式識別發(fā)現(xiàn),具有巨大的危害性。開展HTTPS違規(guī)網(wǎng)站的識別,有利于發(fā)現(xiàn)網(wǎng)絡(luò)流量中隱藏的違法違規(guī)內(nèi)容,找出潛在的網(wǎng)絡(luò)安全風(fēng)險(xiǎn),保護(hù)人民群眾合法權(quán)益,具有重要意義。
本文的研究目的是通過研究HTT PS違規(guī)網(wǎng)站的特點(diǎn),分析研究HTTPS網(wǎng)站加密傳輸過程的各個(gè)環(huán)節(jié),發(fā)現(xiàn)HTTPS違規(guī)網(wǎng)站的傳輸域名,然后對網(wǎng)站內(nèi)容進(jìn)行下載,存儲在本地,通過文字、圖片等內(nèi)容算法進(jìn)行分析,最終發(fā)現(xiàn)HTTPS違規(guī)網(wǎng)站,為HTTPS違規(guī)網(wǎng)站治理提供技術(shù)思路方案,打擊HTTPS違規(guī)網(wǎng)站,保護(hù)未成年人身心健康,更好地維護(hù)人民群眾合法權(quán)益。
前期萬維網(wǎng)傳輸采用HTTP協(xié)議應(yīng)用最廣泛,由于HTTP協(xié)議傳輸?shù)膬?nèi)容是明文傳輸,對于HTTP協(xié)議傳輸?shù)木W(wǎng)站內(nèi)容一般采用流量抓包,然后進(jìn)行流量還原,把網(wǎng)站的文字、圖片等內(nèi)容,從二進(jìn)制流還原成為正常的文字、圖片,然后采用內(nèi)容識別算法對圖片、文字中的違法違規(guī)內(nèi)容進(jìn)行識別,以此發(fā)現(xiàn)HTTP違規(guī)網(wǎng)站。
隨著技術(shù)的發(fā)展,萬維網(wǎng)的互聯(lián)網(wǎng)傳輸出現(xiàn)了加密的HTTP協(xié)議,即為HTTPS 協(xié)議。由于HTTPS協(xié)議對網(wǎng)站的傳輸內(nèi)容進(jìn)行了加密,流量不再是明文傳輸,抓取到的流量包全部被加密,無法采用傳統(tǒng)的流量還原方式進(jìn)行內(nèi)容還原,無法發(fā)現(xiàn)識別違法違規(guī)內(nèi)容。亟需探討新的識別方式,發(fā)現(xiàn)HTTPS網(wǎng)站域名,并可以獲取到HTTPS網(wǎng)站傳輸?shù)膬?nèi)容,進(jìn)行違法違規(guī)內(nèi)容識別,從而發(fā)現(xiàn)辨別HTTPS違規(guī)網(wǎng)站。
由于HTTPS網(wǎng)站采用了加密傳輸?shù)姆绞剑瑢?dǎo)致難于采用傳統(tǒng)的流量還原方式發(fā)現(xiàn)HTTPS域名及內(nèi)容,加大了網(wǎng)絡(luò)安全威脅風(fēng)險(xiǎn)。
(1)難于發(fā)現(xiàn)違規(guī)HTTPS域名
互聯(lián)網(wǎng)網(wǎng)站啟用HTTPS協(xié)議后,流量被進(jìn)行了端到端加密,在網(wǎng)絡(luò)中傳輸?shù)挠蛎脖患用埽瑹o法采用傳統(tǒng)的流量還原方式進(jìn)行還原,難于發(fā)現(xiàn)HTTPS域名。
(2)難于識別違規(guī)內(nèi)容
由于HTTPS網(wǎng)站流量被進(jìn)行了端到端加密,在網(wǎng)絡(luò)上不再采用明文進(jìn)行傳輸,傳統(tǒng)的流量還原方法無法還原網(wǎng)站內(nèi)容信息,獲取不到網(wǎng)站內(nèi)容,所以無法進(jìn)行違規(guī)內(nèi)容識別。
(3)網(wǎng)絡(luò)安全威脅風(fēng)險(xiǎn)大
對于加密傳輸?shù)氖謾C(jī)惡意軟件、僵木儒等無法進(jìn)行有效識別,影響公共互聯(lián)網(wǎng)網(wǎng)絡(luò)安全威脅監(jiān)測處置,使網(wǎng)絡(luò)安全威脅風(fēng)險(xiǎn)加大。
首先在HTTPS網(wǎng)站訪問未加密的三次握手階段,發(fā)現(xiàn)提取HTT PS網(wǎng)站的海量域名;然后用大數(shù)據(jù)過濾算法對海量域名進(jìn)行計(jì)算,獲得疑似違規(guī)域名;再將網(wǎng)站內(nèi)容下載到本地,通過內(nèi)容識別算法,識別出違法違規(guī)內(nèi)容,發(fā)現(xiàn)HTTPS違規(guī)網(wǎng)站。識別HTTPS違規(guī)網(wǎng)站流程圖如圖1所示。
圖1 識別HTTPS違規(guī)網(wǎng)站流程圖
(1)提取HTTPS域名
針對HTTPS網(wǎng)站的識別,直接對其加密流量進(jìn)行還原,是無法做到的。但在HTTPS網(wǎng)站與訪問用戶交互初期,其流量是非加密、明文傳輸?shù)摹R虼丝梢栽诰W(wǎng)站流量出口,部署流量采集設(shè)備,從網(wǎng)站HTTS Hello交互過程中,采集、解析其訪問流程中Client Hello報(bào)文中的字段,提取HTTPS域名,將域名存儲下來,進(jìn)行HTTPS網(wǎng)站違規(guī)信息識別。HTTPS網(wǎng)站初始訪問流程圖如圖2所示。
圖2 HTTPS網(wǎng)站初始訪問流程圖
(2)大數(shù)據(jù)過濾算法
提取到HTTPS域名之后,由于同時(shí)提取到的域名數(shù)量巨大,需要對域名進(jìn)行處理,過濾掉重復(fù)的、沒必要識別的域名。首先進(jìn)行去重處置,去掉重復(fù)的域名;然后采用黑名單、白名單過濾,去掉已經(jīng)明確的不需要再次進(jìn)行識別的域名;下一步采取域名關(guān)鍵字、特征等過濾算法,再次篩選疑似違規(guī)的域名。大數(shù)據(jù)算法過濾疑似違規(guī)域名流程圖如圖3所示。
圖3 大數(shù)據(jù)算法過濾疑似違規(guī)域名流程圖
(3)獲取網(wǎng)站內(nèi)容
根據(jù)過濾的HTTPS 疑似違規(guī)域名,采用爬蟲等方式,對HTTPS網(wǎng)站的內(nèi)容進(jìn)行訪問,下載到本地存儲。爬蟲可以選擇爬一層,或者多層的方式,對文字、圖片、音頻、視頻等內(nèi)容進(jìn)行下載。
(4)違規(guī)內(nèi)容識別
根據(jù)文字、圖片、視頻、音頻等內(nèi)容識別算法,對下載的內(nèi)容進(jìn)行違規(guī)違規(guī)信息的識別,如果識別出違法違規(guī)內(nèi)容,則可以判定HTTPS網(wǎng)站為違法違規(guī)網(wǎng)站,可以提交封堵,阻斷違法違規(guī)內(nèi)容的傳播。
本文的研究方法可以應(yīng)用在云計(jì)算中心、IDC企業(yè)建站、CDN內(nèi)容引入等業(yè)務(wù)的流量清洗,發(fā)現(xiàn)HTTPS傳輸?shù)倪`規(guī)內(nèi)容,減少網(wǎng)絡(luò)安全風(fēng)險(xiǎn),維護(hù)企業(yè)合法利益,保護(hù)人民群眾合法權(quán)益。
(1)云計(jì)算中心。云計(jì)算中心需對自己客戶的網(wǎng)站內(nèi)容進(jìn)行保護(hù),可主動識別發(fā)現(xiàn)HTTPS流量中的違法違規(guī)內(nèi)容,清查云服務(wù)器中的違規(guī)信息,幫助客戶發(fā)現(xiàn)HTTPS違規(guī)網(wǎng)站,通知客戶下線處置HTTPS違規(guī)內(nèi)容,更好的維護(hù)企業(yè)的利益,發(fā)展更多的客戶,創(chuàng)造更大的價(jià)值。
(2)IDC企業(yè)建站業(yè)務(wù)。在機(jī)房出口部署設(shè)備,抓取HTTPS網(wǎng)站訪問三次握手的通訊,發(fā)現(xiàn)HTT PS網(wǎng)站,對IDC企業(yè)建站客戶的HTTPS流量進(jìn)行清查,發(fā)現(xiàn)識別客戶網(wǎng)站的違規(guī)內(nèi)容,通知客戶進(jìn)行IDC企業(yè)網(wǎng)站清除內(nèi)容。
(3)CDN 內(nèi)容分發(fā)網(wǎng)絡(luò)業(yè)務(wù)。在機(jī)房出口部署設(shè)備,發(fā)現(xiàn)HTTPS網(wǎng)站域名,采用爬蟲方式下載內(nèi)容,存儲內(nèi)容進(jìn)行違規(guī)內(nèi)容的算法識別,發(fā)現(xiàn)HTTPS違規(guī)網(wǎng)站,通知CDN客戶進(jìn)行內(nèi)容清除,停止引入違規(guī)的HTTPS網(wǎng)站。
(1)能夠提取發(fā)現(xiàn)被加密的HTTPS網(wǎng)站域名。
通過在HTTPS網(wǎng)站流量被加密之前的三次握手通訊過程,發(fā)現(xiàn)HTTPS的網(wǎng)站域名,解決了HTTPS域名無法被發(fā)現(xiàn)的難題,為HTTPS網(wǎng)站違規(guī)內(nèi)容識別做出了重要一步。
(2)能夠獲得HTTPS 網(wǎng)站內(nèi)容
HTTPS違規(guī)內(nèi)容被加密后,無法被流量還原。發(fā)現(xiàn)HTTPS域名后,必須能夠識別網(wǎng)站的內(nèi)容,才能發(fā)現(xiàn)違規(guī)內(nèi)容。本文采用爬蟲方式,將HTTPS網(wǎng)站內(nèi)容下載下來,并進(jìn)行存儲,解決了HTTPS網(wǎng)站內(nèi)容獲取的問題。
(3)能夠識別HTTPS加密違規(guī)內(nèi)容
下載下來的內(nèi)容是非加密的,所以可以采用圖片、文字等違規(guī)內(nèi)容識別算法,將違規(guī)的圖片、文字識別出來。那么對應(yīng)的HTTPS網(wǎng)站即是違規(guī)的。
為打擊HTTPS違規(guī)網(wǎng)站,本文提出了一種識別HTTPS違規(guī)網(wǎng)站的方法。首先在HTTPS網(wǎng)站訪問的三次握手通訊過程,發(fā)現(xiàn)HTTPS域名,然后通過爬蟲方式,將HTTPS網(wǎng)站內(nèi)容下載下來,最后使用文字、圖片等內(nèi)容識別算法,將違規(guī)的文字、圖片識別出來,進(jìn)而可以判斷HTTPS網(wǎng)站為違規(guī)網(wǎng)站。通過本方法可以更好地識別HTTPS違規(guī)網(wǎng)站,打擊加密傳輸?shù)倪`規(guī)內(nèi)容,維護(hù)人民群眾合法權(quán)益。