劉家銀,印杰,牛博威,諸葛程晨,賀海辰
(1.江蘇警官學(xué)院計(jì)算機(jī)信息與網(wǎng)絡(luò)安全系,南京210031;2.江蘇警官學(xué)院江蘇省電子數(shù)據(jù)取證分析工程研究中心,南京210031;3.江蘇警官學(xué)院江蘇省公安廳數(shù)字取證重點(diǎn)實(shí)驗(yàn)室,南京210031;4.江蘇省公安廳網(wǎng)絡(luò)安全保衛(wèi)總隊(duì),南京210024;5.南京市公安局大數(shù)據(jù)中心,南京210005)
隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,博彩行業(yè)中一些不法分子利用互聯(lián)網(wǎng)龐大的流量、便捷的支付和強(qiáng)互動(dòng)性等特點(diǎn),構(gòu)建了組織架構(gòu)嚴(yán)密、分工明確、公司化、制度化運(yùn)作的線上博彩網(wǎng)站和APP等,重構(gòu)了另一個(gè)網(wǎng)絡(luò)博彩世界。網(wǎng)絡(luò)賭博嚴(yán)重影響人們的身心健康,危害正常的經(jīng)濟(jì)秩序,敗壞社會(huì)風(fēng)氣[1?2],因此開展網(wǎng)絡(luò)博彩的檢測與阻斷,對于維護(hù)社會(huì)公序良俗,保障經(jīng)濟(jì)健康發(fā)展具有重要的現(xiàn)實(shí)意義。
違法博彩類網(wǎng)站的捕獲問題其實(shí)質(zhì)是網(wǎng)頁分類問題。早期網(wǎng)頁分類常采用黑名單方法[3],具有檢測速度快的優(yōu)點(diǎn),但是不能處理完全未知的網(wǎng)站,且黑名單數(shù)據(jù)庫的及時(shí)更新也是該方法面臨的一大難點(diǎn)。然而博彩類違法網(wǎng)站為規(guī)避封堵,經(jīng)常變換其域名,因此基于黑名單的方法在博彩類違法網(wǎng)站的檢測中表現(xiàn)不佳。為解決黑名單方法存在的上述問題,部分研究人員通過分析統(tǒng)一資源定位符(Uni?form resource locator,URL)[4]、網(wǎng)頁文本以及網(wǎng)頁圖像[5]等來實(shí)現(xiàn)網(wǎng)站的分類?;赨RL的方法只需從URL中提取特征,因此檢測速度極快。然而URL不能完整地表達(dá)網(wǎng)站的特征,其應(yīng)用領(lǐng)域極其有限。網(wǎng)頁內(nèi)容能提供豐富的信息,因此基于網(wǎng)頁內(nèi)容的網(wǎng)站分類方法成為當(dāng)前研究的主流。該類方法通常采用機(jī)器學(xué)習(xí)方法來實(shí)現(xiàn)網(wǎng)站分類,首先從網(wǎng)頁中提取文字特征、圖像特征以及鏈接、標(biāo)簽和腳本函數(shù)等統(tǒng)計(jì)特征,然后訓(xùn)練決策樹、支持向量機(jī)(Support vector machines,SVM)等分類器,最終實(shí)現(xiàn)對網(wǎng)站的分類。然而傳統(tǒng)特征提取方法提取的特征較為單一,且大部分都只能提取到較為淺層的特征,特征抽象能力與泛化能力較弱。本文提出一種基于BERT(Bidirectional encoder representation from transformers)+BiLSTM(Bidirectional long short?term memory)模型與多分類器決策級融合的博彩類違法網(wǎng)站檢測方法,充分利用BERT的特征抽取能力來提升文本分類精度。此外,通過對網(wǎng)站不同描述維度的特征分別進(jìn)行訓(xùn)練與分類,最后進(jìn)行決策級融合,進(jìn)一步提升整個(gè)系統(tǒng)的檢測性能與魯棒性。
早期研究人員經(jīng)常采用黑名單來檢測違法網(wǎng)站,該方法將可疑網(wǎng)站的域名與黑名單數(shù)據(jù)庫中的違法域名進(jìn)行匹配,如匹配成功則將該域名標(biāo)記為違法域名[3]?;诤诿麊蔚倪`法網(wǎng)站檢測方法檢測速度極快,但是其最大缺點(diǎn)在于其不能判別不在黑名單中的域名。由于網(wǎng)站包含的豐富信息,如鏈接、文本和圖像等,基于網(wǎng)站內(nèi)容的網(wǎng)站檢測方法逐步成為研究主流?;赨RL的方法利用URL字符串、URL統(tǒng)計(jì)信息等來提取特征進(jìn)而實(shí)現(xiàn)網(wǎng)站分類[4]。此類方法因不需要訪問網(wǎng)頁里面的內(nèi)容,因此檢測速度極快。但由于URL能提供的信息過少,不能完整地描述違法網(wǎng)站的特征,因此在大部分應(yīng)用場合其檢測性能都較低。
相較于URL,網(wǎng)頁文本能提供更豐富的信息,如文本、圖像、層疊樣式表(Cascading style sheet,CSS)和超文本標(biāo)記語言(Hyper text markup language,HTML)標(biāo)簽等,能更好地實(shí)現(xiàn)網(wǎng)頁分類。如Fa等[6]提取網(wǎng)頁HTML中文本的詞頻?逆文檔詞頻(Term frequency?inverse document frequency,TF?IDF)特征以及圖像、iframe標(biāo)簽、ul標(biāo)簽和嵌入鏈接數(shù)量特征等,然后采用隨機(jī)森林分類器實(shí)現(xiàn)網(wǎng)頁的分類。Kotenko等[7]利用機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘算法來分析網(wǎng)頁文本、HTML標(biāo)簽以及URL地址信息以檢測含有違法信息的網(wǎng)站。Gaifulina等[8]通過對多個(gè)不同維度數(shù)據(jù)的子分類器結(jié)果進(jìn)行融合來實(shí)現(xiàn)網(wǎng)站的分類。
近年來,基于深度學(xué)習(xí)的圖像處理技術(shù)取得了極大發(fā)展,因此部分學(xué)者研究利用網(wǎng)頁圖像來實(shí)現(xiàn)網(wǎng)站的分類。Li等[9]從網(wǎng)頁的截圖中提取基于視覺詞袋模型(Bag?of?visual?word,BoVW)的加速穩(wěn)健特征(Speeded?up robust features,SURF),然后采用SVM進(jìn)行網(wǎng)站分類。Phoka等[10]則采用網(wǎng)頁中的子圖來實(shí)現(xiàn)釣魚網(wǎng)站的檢測。Mahmoud等[11]基于圖像皮膚檢測技術(shù)來檢測網(wǎng)頁中是否存在色情圖片,進(jìn)而實(shí)現(xiàn)色情網(wǎng)站檢測。然而,基于視覺特征的網(wǎng)頁分類容易受到訓(xùn)練集樣本質(zhì)量和模型泛化程度的影響,導(dǎo)致識(shí)別率較不高。為提高結(jié)果的魯棒性,部分研究人員提出融合文本與圖像特征來進(jìn)行網(wǎng)頁分類。Ahmadi等[12]綜合分析視覺、文本和輪廓特征,提出了一種基于層次結(jié)構(gòu)分類器的色情網(wǎng)頁檢測系統(tǒng)。Chen等[5]分別提取網(wǎng)頁文本的Doc2vec特征并采用SVM分類器訓(xùn)練,以及網(wǎng)頁截圖的Spa?BoVW特征并采用隨機(jī)森林分類器訓(xùn)練,最后再用邏輯回歸(Logistic regression,LR)來融合文本與圖形分類結(jié)果。也有部分研究人員利用網(wǎng)站的其他特征來進(jìn)行檢測,如Tong等[13]利用HTTP Post請示的行為模式來實(shí)現(xiàn)博彩網(wǎng)站的檢測;Zeng等[14]基于網(wǎng)頁的指紋特征來實(shí)現(xiàn)惡意網(wǎng)站的檢測。
網(wǎng)絡(luò)博彩是一種通過網(wǎng)絡(luò)進(jìn)行的新型賭博模式,目前的網(wǎng)絡(luò)博彩類型繁多(如賭球、賭馬、骰寶、輪盤和網(wǎng)上百家樂等)。與傳統(tǒng)線下賭場相比,網(wǎng)絡(luò)賭博完美地利用了互聯(lián)網(wǎng)與生俱來的便捷性、輻射范圍廣等特點(diǎn),只需連接網(wǎng)絡(luò)即可隨時(shí)隨地完成投注、資金交割,賭資運(yùn)轉(zhuǎn)速度更快,賭資的數(shù)額巨大。據(jù)《在線賭博市場“規(guī)模、份額”行業(yè)報(bào)告》顯示,2019年全球在線賭博市場規(guī)模估值為537億美元,預(yù)計(jì)2020至2027年將以11.5%的復(fù)合年增長率增長[15]。從建站到引流,網(wǎng)絡(luò)賭博已經(jīng)形成技術(shù)、推廣、運(yùn)營和代理等構(gòu)成的分工明確、制度化、團(tuán)隊(duì)化和國際化運(yùn)作的完整黑灰產(chǎn)業(yè)鏈,基網(wǎng)站運(yùn)營架構(gòu)如圖1所示。
圖1 博彩網(wǎng)站運(yùn)營架構(gòu)Fig.1 Operation structure of gambling website
為逃避監(jiān)管以及吸引用戶參與,網(wǎng)絡(luò)博彩網(wǎng)站通常具有以下特征:
(1)同一網(wǎng)站配置多個(gè)域名,以規(guī)避監(jiān)管機(jī)關(guān)的封堵。這需要對網(wǎng)站實(shí)行實(shí)時(shí)判別,才能有效阻斷此類網(wǎng)站。
(2)為逃避監(jiān)管,面向中國的博彩運(yùn)營公司大部分位于境外,東南亞地區(qū)業(yè)已成為網(wǎng)絡(luò)博彩團(tuán)隊(duì)的主要據(jù)點(diǎn)。這導(dǎo)致大量資金非法外流,也極大地增加了監(jiān)管機(jī)關(guān)取證、執(zhí)法的難度,因此阻礙博彩網(wǎng)站的訪問成為防止此類案件發(fā)生的最佳選擇。
(3)通過第三方論壇、色情網(wǎng)站、微信群、線上代理等平臺(tái)以及廣告推廣方式進(jìn)行傳播引流。
(4)通過入侵國內(nèi)網(wǎng)站(尤其是政府網(wǎng)站、學(xué)校網(wǎng)站和中小型企業(yè)網(wǎng)站)放置暗鏈、掛馬等進(jìn)行搜索引擎優(yōu)化,以及域名、流量劫持等網(wǎng)絡(luò)攻擊方式進(jìn)行引流,嚴(yán)重危害網(wǎng)絡(luò)空間的安全。
本文提出的海量網(wǎng)站中違法網(wǎng)站捕獲方法主要由以下4個(gè)模塊組成:網(wǎng)絡(luò)爬蟲、預(yù)處理、分類器以及分類決策。網(wǎng)絡(luò)爬蟲模塊爬取指定域名的HTML文本信息;預(yù)處理模塊提取網(wǎng)頁的標(biāo)題、關(guān)鍵詞以及網(wǎng)頁中包含的中英文特征文本;分類器模塊基于網(wǎng)頁的標(biāo)題、關(guān)鍵詞以及特征文本信息分別得出該網(wǎng)頁為博彩網(wǎng)站和正常網(wǎng)站的概率;分類決策模塊則基于分類器模塊獲得的軟分類值,利用XGBOOST決策分類器獲得最終的結(jié)果,判斷出網(wǎng)站是否為博彩網(wǎng)站。本文方法流程如圖2所示。
圖2 本文方法流程圖Fig.2 Flow chart of the proposed method
對于博彩類網(wǎng)站的捕獲問題,首先需要利用網(wǎng)絡(luò)爬蟲來獲取待測網(wǎng)站的HTML內(nèi)容,然后利用分類算法來判斷該網(wǎng)站是否為博彩網(wǎng)站。而對于博彩網(wǎng)站的檢測與阻斷,為減少分類工作量、提高效率,通常只關(guān)注網(wǎng)站的主域名。因此欲從海量網(wǎng)站中捕獲更多的博彩網(wǎng)站,其關(guān)鍵點(diǎn)在于獲得足夠多的疑似博彩網(wǎng)站的主域名。而常用的網(wǎng)頁爬蟲策略:深度優(yōu)先策略與廣度優(yōu)先策略,不能很好地滿足獲取更多疑似博彩網(wǎng)站主域名的要求。經(jīng)過分析發(fā)現(xiàn),博彩網(wǎng)站通常具有如下特點(diǎn):
(1)網(wǎng)頁中包含同一博彩網(wǎng)站的其他域名;
(2)架設(shè)博彩網(wǎng)站的互聯(lián)網(wǎng)數(shù)據(jù)中心(Internet data center,IDC)中可能包含其他博彩網(wǎng)站的域名;
(3)同一博彩網(wǎng)站通常綁定多個(gè)域名,這些域名往往具有一定規(guī)律性。
基于上述發(fā)現(xiàn),采用以下策略來生成疑似博彩網(wǎng)站主域名列表:
(1)針對特點(diǎn)1,采用廣度優(yōu)先策略來提取其他網(wǎng)站主域名;
(2)針對特點(diǎn)2,提取存在博彩類違法網(wǎng)站域名的IDC中其他網(wǎng)站主域名;
(3)針對特點(diǎn)3,基于掌握的域名變化規(guī)律自動(dòng)生成其他域名,并判斷該域名是否可訪問,如果可以則將其添加到待判斷隊(duì)列中。
利用上述方法獲得網(wǎng)站主域名的列表后,按照如圖3所示的步驟來爬取每一個(gè)網(wǎng)站主頁的HTML文本。具體步驟如下:
圖3 網(wǎng)絡(luò)爬蟲流程圖Fig.3 Flow chart of web crawler
第1步從種子URL列表中取出URL;
第2步判斷該URL是否已經(jīng)被處理過,若是返回第1步,否則將該URL添加到已處理隊(duì)列中,然后執(zhí)行第3步;
第3步利用爬蟲工具解析URL,爬取對應(yīng)網(wǎng)頁的數(shù)據(jù);
第4步解碼網(wǎng)頁數(shù)據(jù),并保存以供后續(xù)處理。
網(wǎng)站標(biāo)題是對一個(gè)網(wǎng)頁的高度概括,具有精確性與簡短性,可以高效地進(jìn)行網(wǎng)頁類型的分類。部分研究人員采用清華大學(xué)的Sun等創(chuàng)建的THUCNews數(shù)據(jù)集[16]的中文標(biāo)題來進(jìn)行網(wǎng)頁新聞?lì)愋偷姆诸悾⑷〉昧溯^好的效果。然而在實(shí)際網(wǎng)絡(luò)空間中部分網(wǎng)站的標(biāo)題不規(guī)范,存在無標(biāo)題、標(biāo)題無意義以及標(biāo)題與網(wǎng)站內(nèi)容不符等現(xiàn)象,甚至有一些合法網(wǎng)站因受黑客攻擊其標(biāo)題被篡改為博彩、色情等非法標(biāo)題。
網(wǎng)站的關(guān)鍵詞通常與網(wǎng)站的主頁內(nèi)容高度相關(guān),與網(wǎng)站標(biāo)題相似,其也具有高概括性與簡短性。因此網(wǎng)站關(guān)鍵字也可以被用于網(wǎng)站類型的分類,在網(wǎng)頁標(biāo)題無內(nèi)容、無意義以及內(nèi)容不相關(guān)時(shí)具有一定的替代作用。然而,與網(wǎng)站標(biāo)題類似,網(wǎng)站關(guān)鍵詞也存在部分網(wǎng)站無關(guān)鍵詞、關(guān)鍵詞無意義、關(guān)鍵詞與網(wǎng)站內(nèi)容不符以及關(guān)鍵詞被篡改為博彩、色情等非法關(guān)鍵詞的現(xiàn)象。
與標(biāo)題和關(guān)鍵詞相比,網(wǎng)頁中的文本通常具有更豐富的信息,可以對網(wǎng)站類型進(jìn)行更準(zhǔn)確、全面的描述。因而采用網(wǎng)頁文本來進(jìn)行網(wǎng)站分類,其分類結(jié)果通常更準(zhǔn)確。然而為吸引賭客的參與欲望,部分博彩網(wǎng)站通過用圖片代替文字、加載Flash動(dòng)畫等方式來提升視覺效果,這導(dǎo)致網(wǎng)頁中文字內(nèi)容偏少,直接影響到基于網(wǎng)頁文本的網(wǎng)站分類性能。因此,本文提出基于網(wǎng)站標(biāo)題、關(guān)鍵詞與網(wǎng)頁特征文本分類結(jié)果決策級融合的方法,以提升博彩類違法網(wǎng)站檢測的準(zhǔn)確性與魯棒性。
基于上述分析,本文從網(wǎng)站主頁HTML文本中提取標(biāo)題、關(guān)鍵詞以及文本信息作為網(wǎng)站的分類特征。通過解析HTML文本,可以直接提取網(wǎng)站的標(biāo)題、關(guān)鍵詞。對于網(wǎng)頁中的文本信息,不同網(wǎng)站文字?jǐn)?shù)量差異巨大,從個(gè)位數(shù)到成千上萬。而對于絕大部分自然語言處理算法,如Text?CNN[17]、BERT等,輸入數(shù)據(jù)的長度與運(yùn)算時(shí)需要的GPU顯存成正相關(guān),因而其輸入的最大長度具有一定限制。
基于GPU顯存容量考慮,本文提取的網(wǎng)頁中文本的最大長度設(shè)置為256。若在解析HTML并提取網(wǎng)頁中文本后,直接進(jìn)行最大長度為256的截?cái)啵藭r(shí)截取的內(nèi)容可能只包含網(wǎng)頁的某部分特定內(nèi)容,文本內(nèi)容豐富性低,不具備充分表達(dá)該網(wǎng)站類型的能力。通過對大量博彩網(wǎng)站的分析發(fā)現(xiàn),博彩類網(wǎng)
站的主頁中通常存在“彩票”“扎金花”“活動(dòng)大廳”“優(yōu)惠活動(dòng)”“免費(fèi)試玩”等具有典型特征的標(biāo)題。因此本文提出優(yōu)先提取網(wǎng)頁中標(biāo)簽標(biāo)題、超鏈接標(biāo)題等來生成網(wǎng)頁文本。相對于直接截?cái)啵摲椒ㄌ崛〉奶卣魑谋灸軌驈母嘟嵌让枋鼍W(wǎng)頁的類型。此外,為提取更多不同的標(biāo)題或文本,本文對網(wǎng)頁中文本進(jìn)行最大長度為6的直接截?cái)唷?/p>
3.3.1 BERT模型
Devlin等在2019年提出的BERT[18]給自然語言處理預(yù)訓(xùn)練模型帶來了突破性進(jìn)展。與Word2Vec等詞向量模型不同,BERT不再需要預(yù)先訓(xùn)練復(fù)雜的字向量和詞向量,只需將語句直接輸入到BERT模型中,它就會(huì)自動(dòng)提取出序列的詞級特征、語法結(jié)構(gòu)特征和語義特征。
BERT模型通過疊加多個(gè)Transformer編碼器層來實(shí)現(xiàn)特征的逐步抽象。編碼器由自注意力機(jī)制與前向傳播網(wǎng)絡(luò)構(gòu)成,并與殘差網(wǎng)絡(luò)類似,也將輸入值與輸出值結(jié)合在一起以解決梯度消失問題,如圖4所示。
圖4 Transformer編碼器模型Fig.4 Model of transformer encoder
對于第i層編碼器,其輸入向量為Xi(第1層為輸入語句的詞Embedding向量,其他層為前1層的輸出)。首先,將Xi輸入到多頭自注意力模塊中進(jìn)行注意力權(quán)值的計(jì)算,如圖5所示。
圖5 多頭注意力結(jié)構(gòu)Fig.5 Multi?head attention struture
自注意力權(quán)值計(jì)算方式為
式中:h為注意力頭的數(shù)量;W O為多頭注意力的權(quán)重矩陣。
式中:Wf為前向傳播網(wǎng)絡(luò)的權(quán)重系數(shù);bf為偏重系數(shù)。
3.3.2 BiLSTM模型
長短期記憶網(wǎng)絡(luò)(Long short?term memory,LSTM)是一種特殊的RNN類型,它巧妙地利用門控來捕捉序列信息、達(dá)成長期記憶,并解決了RNN訓(xùn)練時(shí)所產(chǎn)生的梯度爆炸或梯度消失問題。LSTM單元結(jié)構(gòu)如圖6所示。
圖6 LSTM單元結(jié)構(gòu)Fig.6 Cell structure of LSTM
LSTM每個(gè)單元由記憶單元ct,輸入門it,輸出門ot和忘記門f t組成。xt是LSTM單元的輸入,表示輸入序列中一個(gè)單詞的特征向量。每個(gè)LSTM單元中的3個(gè)門和記憶單元可由以下公式計(jì)算得出
式中:σ表示激活函數(shù);W為權(quán)重矩陣;⊙表示逐個(gè)點(diǎn)乘積;b為偏置向量;ht表示整個(gè)LSTM單元在時(shí)刻t的輸出。
LSTM模型無法同時(shí)處理上下文信息,因此Graves等[19]提出雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)由兩個(gè)LSTM構(gòu)成,且連接著同一個(gè)輸出層,為輸出層的數(shù)據(jù)同時(shí)提供上下文信息。記BiLSTM中的前向LSTM和后向LSTM在時(shí)刻t的輸入處理分別為將前向輸出和后向輸出拼接在一起,即為BiLSTM在時(shí)刻t的輸出結(jié)果,表示為
3.3.3 BERT?BiLSTM文本分類模型
根據(jù)Jawahar等對BERT模型內(nèi)置機(jī)理的研究表明[20],BERT模型各編解碼層學(xué)到的特征不盡一致,模型底層主要學(xué)到的是語句序列的短語級特征,模型中層可得到語句序列的句法結(jié)構(gòu)特征,模型頂層則可提取語句序列的語義特征。BERT模型的層次越高,學(xué)到的特征越抽象,模型的特征抽取能力明顯強(qiáng)于傳統(tǒng)模型。基于BERT強(qiáng)大的特征抽取能力,本文提出了基于BERT?BiLSTM的文本分類模型。利用BERT作為編碼器,將文本映射成具有更強(qiáng)語義描述能力的特征向量,在上面疊加BiLSTM模塊進(jìn)一步提取上下文序列信息,以獲得更優(yōu)的特征。BERT?BiLSTM模型的具體處理流程如圖7所示。
圖7 BERT?BiLSTM模型Fig.7 BERT-BiLSTM model
首先將網(wǎng)頁文本語句序列X經(jīng)過BERT預(yù)訓(xùn)練語言模型進(jìn)行處理,提出不同抽象能力的多層次特征信息{Z1,Z2,…,Z12}。為提高特征表征不同語境中的句法與語義信息的能力,本文將最后3層的特征信息Z10、Z11和Z12進(jìn)行拼接得到
然后將ZO作為輸入傳入到BiLSTM模塊,對組合特征做進(jìn)一步訓(xùn)練,利用BiLSTM良好的上下文序列信息抽取能力來提取出更具有區(qū)分能力的隱藏層特征H=[h1,h2,…,hn],其中ht為ZO中第t個(gè)單詞的語義特征輸入到式(15)中計(jì)算而得。
最后,對于BiLSTM模塊提取的特征H,疊加了2層全連接層以對語句的特征信息進(jìn)行分類,獲得文本為博彩網(wǎng)站與正常網(wǎng)站的分類結(jié)果p(illegal|X)和p(normal|X)。
本文提出的文本分類模型包括3個(gè)計(jì)算步驟,其時(shí)間復(fù)雜度分別為:BERT模塊的復(fù)雜度為O(n2?d);BiLSTM模 塊 的 時(shí) 間 復(fù) 雜 度 為O(n?d2);全連接層模塊的時(shí)間復(fù)雜度為O(n2)。因此本文提出的BERT?BiLSTM文本分類模型的時(shí)間復(fù)雜度為O(nd?max(n,d))。
相比單分類器,融合多個(gè)分類器的結(jié)果或者集成多分類器通常能夠取得更好的分類性能。因此,在BERT?BiLSTM模型分類結(jié)果的基礎(chǔ)上,本文提出基于XGBOOST[21]的多分類器決策級融合方法,將網(wǎng)頁標(biāo)題、關(guān)鍵詞與網(wǎng)頁文本的分類結(jié)果進(jìn)行融合,進(jìn)一步提升分類性能。
在進(jìn)行違法博彩類網(wǎng)頁檢測時(shí),對于任意一個(gè)網(wǎng)頁,通過以下步驟來對其進(jìn)行多分類器決策級融合判定:
第1步爬取網(wǎng)頁內(nèi)容P。
第2步基于網(wǎng)頁內(nèi)容P提取3類特征文本:網(wǎng)頁標(biāo)題Xtitle、網(wǎng)頁關(guān)鍵詞Xkeyword以及網(wǎng)頁特征文本Xtext。
第3步將Xtitle,Xkeyword,Xtext輸入到對應(yīng)的BERT?BiLSTM文本分類器中,分別獲得標(biāo)題的分類結(jié)果;關(guān)鍵字的分類結(jié)果;網(wǎng)頁文本的分類結(jié)果第4步將第3步的6個(gè)分類結(jié)果進(jìn)行拼接得到一個(gè)6維的特征向量然后將其作為輸入傳入XGBOOST決策分類器,獲得網(wǎng)頁P(yáng)為博彩網(wǎng)站的概率p(illegal|P)與正常網(wǎng)站的概率p(normal|P)。最終根據(jù)式(17)獲得最終判定結(jié)果。
本文實(shí)驗(yàn)硬件平臺(tái)為Intel Xeon(R)48核處理器,頻率2.30 GHz,顯卡為NVIDIA tesla V100。實(shí)驗(yàn)代碼通過Python語言與深度學(xué)習(xí)框架Pytorch來實(shí)現(xiàn)。
本文實(shí)驗(yàn)的數(shù)據(jù)集是在真實(shí)網(wǎng)絡(luò)環(huán)境中采集而來,數(shù)據(jù)集中包括博彩類違法網(wǎng)站共135 881個(gè),企業(yè)、政府和新聞等正常網(wǎng)站共140 205個(gè)。在具體的實(shí)驗(yàn)過程中,本文采用10折交叉驗(yàn)證來對算法的性能進(jìn)行評估。本文實(shí)驗(yàn)采用“BERT?Base,Chinese”中文預(yù)訓(xùn)練模型,該模型的Transformer層數(shù)為12層,每個(gè)Transformer包含有12個(gè)自注意力頭部,模型的隱層節(jié)點(diǎn)數(shù)為768。網(wǎng)絡(luò)微調(diào)訓(xùn)練階段,網(wǎng)頁標(biāo)題和關(guān)鍵詞文本的長度設(shè)置為32,網(wǎng)頁特征文本的長度設(shè)置為256,批次數(shù)設(shè)置為30,批處理大小為48,學(xué)習(xí)率η為5e-5,BiLSTM的輸出中使用Dropout,取值為0.2。
為驗(yàn)證本文提出的網(wǎng)頁特征文本提取算法的性能,將其與直接截?cái)嗑W(wǎng)頁文本的方法進(jìn)行對比。對比中采用的分類算法為原始BERT算法以及本文提出的BERT?BiLSTM算法,實(shí)驗(yàn)結(jié)果如表1所示。表1中Text_raw指直接截?cái)喾椒ㄌ崛【W(wǎng)頁文本,Text_tag指本文提出的標(biāo)簽標(biāo)題、超鏈接標(biāo)題等優(yōu)先提取的網(wǎng)頁特征文本提取方法。從表1中可以發(fā)現(xiàn),不論是采用基本的BERT還是采用本文提出的BERT+BiLSTM模型來提取文本的特征向量,基于本文提出的文本預(yù)處理方法提取的網(wǎng)頁特征文本,其分類性能要優(yōu)于通過直接截?cái)噙@一方式來提取網(wǎng)頁特征文本的。
表1 不同文本預(yù)處理方法分類性能對比Table 1 Classification performance comparison of different text preprocessing methods
為驗(yàn)證本文提出的BERT?BiLSTM算法的有效性,本文將其與原始BERT算法以及BERT與其他深度學(xué)習(xí)算法的組合進(jìn)行對比。實(shí)驗(yàn)在本文提出的網(wǎng)頁特征文本數(shù)據(jù)集上進(jìn)行,實(shí)驗(yàn)結(jié)果如表2所示,其中BERT_MULTI指本文提出的BERT+BiLSTM模型去掉BiLSTM模塊,即將特征拼接結(jié)果直接與全連接層相連。
從表2可以發(fā)現(xiàn),在BERT層后疊加一個(gè)深度學(xué)習(xí)模型,分類結(jié)果的各項(xiàng)性能指標(biāo)基本都有明顯的提升。這意味著,基于BERT模型提取語句序列的特征信息,再疊加一個(gè)深度學(xué)習(xí)模塊進(jìn)行分類,可以取得更好的分類性能。同時(shí),本文提出的BERT+BiLSTM模型的分類性能要顯著優(yōu)于BERT與其他深度學(xué)習(xí)算法的組合,表明本文提出的方法可以有效提高網(wǎng)頁分類性能。
從表2中還可以發(fā)現(xiàn),將BERT模型中不同層次Transformer輸出的特征信息進(jìn)行組合,進(jìn)而用于分類,可以有效提高分類性能。這表明BERT模型中各層次的Transformer可以在不同抽象層次上提取文本的特征信息,將不同抽象層次的特征信息進(jìn)行組合,可以獲得更豐富的特征信息,進(jìn)而提升分類性能。這也驗(yàn)證了本文提出的將BERT模型中多層特征信息進(jìn)行融合作為網(wǎng)頁表示特征的有效性。
表2 BERT?BiLSTM與其他組合模型的分類性能對比Table 2 Comparison of classification performance between BERT?BiLSTM with other com?bination models
為驗(yàn)證本文提出的基于XGBOOST的多分類器決策級融合算法對網(wǎng)頁分類性能的提升,本文將其與各分類器單獨(dú)分類結(jié)果進(jìn)行比較,對比結(jié)果如表3所示。從表3中可以發(fā)現(xiàn),僅基于標(biāo)題或者關(guān)鍵詞的方法其分類性能相對偏低,這主要是因?yàn)椴糠志W(wǎng)頁的標(biāo)題或關(guān)鍵詞存在無內(nèi)容、無意義或者描述與網(wǎng)站內(nèi)容不符等現(xiàn)象導(dǎo)致。而基于網(wǎng)頁文本的方法其分類性能要顯著優(yōu)于基于標(biāo)題或者關(guān)鍵詞的方法,這表明前文分析的網(wǎng)頁文本能對網(wǎng)站類型進(jìn)行更細(xì)致、準(zhǔn)確和全面的描述?;诙喾诸惼鳑Q策級融合的分類性能要顯著優(yōu)于單分類器,這也驗(yàn)證了本文提出的基于多分類器決策級融合方法的有效性。
表3 決策級融合方法與單一分類方法分類性能對比Table 3 Classification performance comparison between decision level fusion and single classification method
最后將本文提出的方法與3類典型的網(wǎng)頁分類算法進(jìn)行對比。其中,文獻(xiàn)[6]為基于網(wǎng)頁文本內(nèi)容的方法,文獻(xiàn)[9]為基于網(wǎng)頁截屏的方法,文獻(xiàn)[5]為基于網(wǎng)頁內(nèi)容與網(wǎng)頁截屏融合的方法。
從表4中可以發(fā)現(xiàn),文獻(xiàn)[6]的多項(xiàng)分類性能指標(biāo)在幾種方法中均較低,說明基于傳統(tǒng)文本特征提取方法(TF?IDF)與傳統(tǒng)機(jī)器學(xué)習(xí)分類方法(隨機(jī)森林)不能很好地利用網(wǎng)頁文本的語義信息,導(dǎo)致其分類性能,尤其是召回率不高。文獻(xiàn)[9]的分類性能略優(yōu)于文獻(xiàn)[6],這是因?yàn)椴┎暑惥W(wǎng)站的界面通常具有較為顯著的視覺特征,充斥著醒目的圖像、動(dòng)畫等以吸引賭徒的注意。同時(shí)網(wǎng)頁截屏較少受文本亂碼、網(wǎng)頁腳本以及網(wǎng)頁跳轉(zhuǎn)等影響,因此視覺特征是一種較好的網(wǎng)頁分類特征,能獲得較好的分類性能。然而,文獻(xiàn)[9]采用視覺詞袋來提取視覺特征,不具備對圖像內(nèi)容的理解能力,容易產(chǎn)生性能瓶頸。例如,當(dāng)面對視覺內(nèi)容不夠顯著的博彩類網(wǎng)頁或者視覺特征顯著的普通網(wǎng)頁時(shí)容易出現(xiàn)漏檢和誤檢的現(xiàn)象。文獻(xiàn)[5]的分類性能遠(yuǎn)高于文獻(xiàn)[6]與文獻(xiàn)[9],證明多種不同特征,尤其是文本與視覺融合,具有一定互補(bǔ)性?;诙喾N特征融合的檢測方法可以顯著提高違法網(wǎng)站的檢測性能與魯棒性。本文提出的方法與文獻(xiàn)[5]的分類性能基本一致,在準(zhǔn)確率、召回率與F?值3項(xiàng)指標(biāo)上略高于文獻(xiàn)[5],在精確率指標(biāo)上略低于文獻(xiàn)[5]。然而,本文提出的方法僅需要獲得網(wǎng)頁的文本信息,而文獻(xiàn)[5]需要采用Webdriver來模擬網(wǎng)頁訪問并截屏,這需要的時(shí)間遠(yuǎn)遠(yuǎn)超過網(wǎng)頁文本的獲取時(shí)間。因此本文的博彩網(wǎng)站檢測效率要遠(yuǎn)高于文獻(xiàn)[5]。同時(shí),本文僅采用網(wǎng)頁的文本信息就達(dá)到
表4 本文方法與其他方法的分類性能對比Table 4 Comparison of classification performance between the proposed method and other methods
了文獻(xiàn)[5]提出的文本與圖像融合方法的性能,證明本文提出的分類算法可以充分利用網(wǎng)頁文本的語義信息,實(shí)現(xiàn)博彩類網(wǎng)站的有效檢測。此外,將本文提出的博彩類違法網(wǎng)站檢測系統(tǒng)部署于實(shí)際網(wǎng)絡(luò)空間中,一個(gè)多月以來已檢測出新的博彩類違法網(wǎng)站域名近20萬個(gè)。綜上所述,從理論與實(shí)際運(yùn)行結(jié)果兩方面都可以驗(yàn)證本文提出的基于BERT+BiLSTM模型的多分類器決策級融合算法可以有效檢測出博彩類違法網(wǎng)站。本文的源代碼可以參見如下網(wǎng)址:https://github.com/smiton/IllegalWebsiteClas?sifier。
本文總結(jié)了博彩類違法網(wǎng)站的一些特征,并在此基礎(chǔ)上提出了一種基于BERT+BiLSTM模型與多分類器決策級融合的博彩類違法網(wǎng)站檢測方法。通過實(shí)驗(yàn)以及在網(wǎng)絡(luò)空間中的實(shí)際運(yùn)行結(jié)果都驗(yàn)證了本文提出算法的性能。然而在實(shí)際運(yùn)行中也發(fā)現(xiàn)本文提出方法捕獲到的新博彩類違法網(wǎng)站域名大部分都與已有網(wǎng)站相關(guān),捕獲與之前無關(guān)的、由網(wǎng)絡(luò)博彩團(tuán)隊(duì)新創(chuàng)建的博彩網(wǎng)站相對較少,這主要是由本文提出的疑似博彩網(wǎng)站主域名生成方法導(dǎo)致,因此如何高效發(fā)現(xiàn)真新博彩網(wǎng)站主域名是下一步工作的要點(diǎn)。本文提出的方法相對依賴網(wǎng)頁中的文本信息,容易受到拆字、文字替換等因素的影響,因此研究如何利用博彩網(wǎng)站中的圖像、網(wǎng)站風(fēng)格等,對于提高博彩類違法網(wǎng)站捕獲的魯棒性具有重要意義,也是下一步工作的要點(diǎn)。