陳 康,付華崢,向 勇
(中國電信股份有限公司 廣東研究院,廣州 510630)
信息技術(shù)的普及極大促進(jìn)了在線銀行、電子商務(wù)和社交網(wǎng)絡(luò)的發(fā)展,人們?cè)絹碓蕉嗟赝ㄟ^互聯(lián)網(wǎng)完成社交、購物、資訊獲取等行為,政府也在通過互聯(lián)網(wǎng)推行電子政務(wù),增強(qiáng)政府的透明性,改進(jìn)公共決策質(zhì)量.但同時(shí),互聯(lián)網(wǎng)也成為不法分子的活躍平臺(tái),涌現(xiàn)出大量的網(wǎng)絡(luò)犯罪行為.網(wǎng)絡(luò)攻擊者通過釣魚網(wǎng)站、垃圾廣告和惡意軟件推廣等方式非法牟利.截至2016年12月,中國網(wǎng)站數(shù)量為482萬個(gè),年增長14.1%[1].360互聯(lián)網(wǎng)安全中心截獲新增釣魚網(wǎng)站196.9萬個(gè),同比2015年(156.9萬個(gè))上升25.5%;平均每天截獲新增5395個(gè),每小時(shí)涌現(xiàn)超過225個(gè)釣魚網(wǎng)站[2].由公安機(jī)關(guān)與360安全中心聯(lián)合發(fā)起的獵網(wǎng)平臺(tái)發(fā)布《2016年網(wǎng)絡(luò)詐騙趨勢研究報(bào)告》顯示:獵網(wǎng)平臺(tái)共收到全國用戶提交的網(wǎng)絡(luò)詐騙舉報(bào)20 623例,舉報(bào)總金額1.95億余元,人均損失9471元.
在這些攻擊行為中,有相當(dāng)大的一部分是以惡意URL為主要手段實(shí)現(xiàn)的.URL,即統(tǒng)一資源定位符,是對(duì)互聯(lián)網(wǎng)上資源的位置和訪問方法的一種簡潔的表示,是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址.而惡意URL是指欺騙用戶訪問,達(dá)到“執(zhí)行惡意行為”或“非法竊取用戶數(shù)據(jù)”目的的URL.攻擊者通過惡意URL構(gòu)建攻擊操作的關(guān)鍵部分,誘導(dǎo)不知情的用戶訪問攻擊者提供的URL,達(dá)到其竊取用戶的個(gè)人隱私信息,例如用戶的銀行帳號(hào)及密碼信息等,或者下載和執(zhí)行惡意程序或腳本(例如病毒,木馬,蠕蟲等)等攻擊目的.
因此,及時(shí)精確地檢測惡意URL,從而有效應(yīng)對(duì)大量和多種類型的網(wǎng)絡(luò)安全攻擊,是構(gòu)建網(wǎng)絡(luò)安全解決方案中的重要一環(huán).為識(shí)別惡意的URL,近年來,研究者已經(jīng)做了較為深入的研究,如Liu等人[3]利用無監(jiān)督學(xué)習(xí)算法DBSCAN對(duì)釣魚網(wǎng)頁的攻擊目標(biāo)進(jìn)行識(shí)別;Ma等人[4]使用Na?ve Bayers在多個(gè)公開數(shù)據(jù)集上進(jìn)行檢測;Huang等人[5]提出了基于SVM實(shí)現(xiàn)了釣魚網(wǎng)頁識(shí)別系統(tǒng).
在本文工作中,我們提出一種基于深度學(xué)習(xí)的惡意URL識(shí)別模型.本文的模型基于URL詞法特征進(jìn)行檢測.首先通過正常URL樣本訓(xùn)練得到URL中的字符的分布表示,將URL轉(zhuǎn)化成二維圖像,然后通過訓(xùn)練CNN模型對(duì)二維圖像進(jìn)行特征抽取,最后使用全連接層進(jìn)行分類.本文的惡意URL識(shí)別系統(tǒng)有以下兩個(gè)優(yōu)點(diǎn):
(1) 得到URL中每一個(gè)字符的特征向量表示,將字符與字符之間的編輯距離、前后順序等信息準(zhǔn)確包含在特征向量中;
(2) 使用CNN算法,通過多個(gè)尺寸的卷積核提取URL中字符分布情況特征,大大降低了傳統(tǒng)方法中所需的特征工程帶來的巨大工作量.
本文余下部分的組織為:在第2節(jié),我們介紹當(dāng)前惡意URL識(shí)別的相關(guān)研究進(jìn)展;第3節(jié)是本文的核心,我們提出一個(gè)基于CNN的惡意URL識(shí)別模型;在第4節(jié),我們將報(bào)告本文提出的模型在真實(shí)數(shù)據(jù)上的識(shí)別結(jié)果;最后一節(jié)是全文工作的總結(jié).
目前的惡意URL識(shí)別工作使用的主要是黑名單啟發(fā)式技術(shù)和機(jī)器學(xué)習(xí)技術(shù).
黑名單技術(shù)是惡意網(wǎng)址發(fā)現(xiàn)算法中最傳統(tǒng)、最經(jīng)典的技術(shù).網(wǎng)頁黑名單中包含已知的惡意網(wǎng)址列表,通常是由具有公信力的網(wǎng)站根據(jù)用戶舉報(bào)、網(wǎng)頁內(nèi)容分析等手段生成并發(fā)布.當(dāng)用戶瀏覽某一網(wǎng)址時(shí),基于網(wǎng)頁黑名單的數(shù)據(jù)庫就開始進(jìn)行搜索.如果這個(gè)網(wǎng)址在網(wǎng)頁黑名單庫中,它就會(huì)被認(rèn)為是惡意網(wǎng)址,瀏覽器會(huì)出現(xiàn)警告信息;否則認(rèn)為此網(wǎng)址是正常網(wǎng)址.在網(wǎng)址生成算法成熟的現(xiàn)在,每天都會(huì)有大量的惡意網(wǎng)址出現(xiàn),黑名單技術(shù)不能夠及時(shí)更新所有的惡意網(wǎng)址.因此,黑名單技術(shù)只能給與用戶最低程度的保護(hù),并不能及時(shí)檢測出惡意網(wǎng)站,阻斷用戶對(duì)惡意網(wǎng)站的訪問.雖然黑名單技術(shù)有著漏判嚴(yán)重、更新時(shí)效性低等缺點(diǎn)[6],但是其簡單易用,因此仍是許多殺毒系統(tǒng)常用的技術(shù)之一.
啟發(fā)式算法是對(duì)黑名單技術(shù)的一種補(bǔ)充算法,其主要原理是利用從惡意網(wǎng)址中發(fā)現(xiàn)的黑名單相似性規(guī)則來發(fā)現(xiàn)并識(shí)別惡意網(wǎng)頁.此算法可以依靠現(xiàn)有的啟發(fā)式規(guī)則識(shí)別(已有的以及部分之前未出現(xiàn)的)惡意網(wǎng)頁,而不需要依靠黑名單的精確匹配來完成惡意網(wǎng)頁識(shí)別.但是,這種方法只能為有限數(shù)量的相似惡意網(wǎng)頁而設(shè)計(jì),并不能針對(duì)所有的惡意網(wǎng)頁,而且惡意網(wǎng)頁要繞過此類的模糊匹配技術(shù)并不難[7].Moshchuk等人提出了一種更具體的啟發(fā)式方法,這些方法通過分析網(wǎng)頁的執(zhí)行動(dòng)態(tài),比如并不尋常的過程創(chuàng)建、頻繁的重定向等尋找惡意網(wǎng)頁的簽名[8,9].但是啟發(fā)式算法有,比如誤報(bào)率高以及規(guī)則更新難等一些眾所周知的缺點(diǎn).
機(jī)器學(xué)習(xí)算法是目前研究的熱點(diǎn)之一[10,11],此類算法通過分析網(wǎng)頁URL以及網(wǎng)頁信息,提取域名的重要特征表示,并訓(xùn)練出一個(gè)預(yù)測模型.目前用于惡意網(wǎng)頁識(shí)別的機(jī)器學(xué)習(xí)算法主要分為無監(jiān)督算法和有監(jiān)督算法.有監(jiān)督算法也叫分類算法,此類算法需要大量的已標(biāo)注惡意/良性的網(wǎng)頁地址作為訓(xùn)練集,抽取網(wǎng)頁特征,然后利用現(xiàn)有的分類算法(SVM、C5.0、決策樹、邏輯回歸等)進(jìn)行惡意網(wǎng)頁識(shí)別.有監(jiān)督學(xué)習(xí)算法首先要對(duì)所有標(biāo)注URL的信息進(jìn)行特征提取(域名特征、注冊(cè)信息、生存時(shí)間等),然后從中選擇出能夠區(qū)別惡意/良性URL的特征,之后再利用分類算法進(jìn)行建模分析.此算法的準(zhǔn)確率較高而且誤報(bào)率相對(duì)較低,但是卻對(duì)標(biāo)注數(shù)據(jù)以及特征工程比較敏感,標(biāo)注數(shù)據(jù)的準(zhǔn)確率以及選擇使用的特征會(huì)嚴(yán)重影響算法的準(zhǔn)確率和效率.
無監(jiān)督機(jī)器學(xué)習(xí)方法又稱聚類方法.此類方法的具體分類過程主要由特征提取、聚類、簇標(biāo)記和網(wǎng)頁判別等步驟組成.主要做法是首先將URL數(shù)據(jù)集劃分為若干簇,使得同一簇的數(shù)據(jù)對(duì)象之間相似度較高,而不同簇的數(shù)據(jù)對(duì)象之間的相似度較低.然后,通過構(gòu)造和標(biāo)記數(shù)據(jù)集中的簇來區(qū)分惡意網(wǎng)頁和良性網(wǎng)頁.文獻(xiàn)[12]和[13]都提出了使用無監(jiān)督機(jī)器學(xué)習(xí)識(shí)別惡意網(wǎng)頁的具體做法,他們都結(jié)合了域名與IP地址的關(guān)系來進(jìn)行聚類算法的實(shí)現(xiàn).
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支.深度學(xué)習(xí)通過學(xué)習(xí)深層非線性網(wǎng)絡(luò)結(jié)構(gòu),逐層訓(xùn)練特征,將樣本在原空間的特征表示逐步變換到新特征空間,展現(xiàn)從樣本集中學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的強(qiáng)大能力.相比于機(jī)器學(xué)習(xí),深度學(xué)習(xí)是唯一端到端的系統(tǒng),中間不需要人為參與,不需要先驗(yàn)知[14].深度學(xué)習(xí)的最大好處是可以自動(dòng)學(xué)習(xí)特征和抽象特征.深度學(xué)習(xí)算法中使用最多的是卷積神經(jīng)網(wǎng)絡(luò)(CNN)以及循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN).
在CNN算法中,相鄰兩層神經(jīng)元之間只有部分節(jié)點(diǎn)相連.CNN算法有兩個(gè)很重要且特殊的部分:卷積層和池化層.在卷積層,神經(jīng)網(wǎng)絡(luò)中的每一小塊被深入分析從而得到抽象程度更高的特征.一般來說.通過卷積層的處理,輸入數(shù)據(jù)的深度會(huì)增加.在池化層,輸入矩陣的尺寸會(huì)被有效縮小.池化層的使用既可以加快計(jì)算速度也有防止過擬合的作用.CNN算法經(jīng)常用于圖像識(shí)別領(lǐng)域[15],因?yàn)樗梢耘懦霈F(xiàn)位置的影響有效識(shí)別圖像特征[16].
RNN算法可以充分挖掘輸入數(shù)據(jù)中的時(shí)序信息以及語義信息的深度表達(dá)能力,因此被廣泛應(yīng)用于語音識(shí)別、語言模型、機(jī)器翻譯等領(lǐng)域.RNN算法的主要用途是預(yù)測和處理序列數(shù)據(jù).從網(wǎng)絡(luò)結(jié)構(gòu)上講,循環(huán)神經(jīng)網(wǎng)絡(luò)會(huì)記憶當(dāng)前序列之前的信息,并利用之前的信息影響后面結(jié)點(diǎn)的輸出.也就是說,循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏層結(jié)點(diǎn)之間的結(jié)點(diǎn)是有連接的,隱藏層的輸入不僅包括輸入層的輸出,還包括上一時(shí)刻的隱藏層的輸入.
傳統(tǒng)的機(jī)器學(xué)習(xí)算法非常依賴于特征,其效果很大程度上取決于人工構(gòu)造的特征的好壞.深度神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)提取數(shù)據(jù)特征的特性為URL識(shí)別提供了一種新的思路.根據(jù)Anh等人[17],正常和惡意URL具有不同的詞法特征,即字符出現(xiàn)的頻率,位置,和前后字符的關(guān)系具有可以區(qū)分的特征,見表1的惡意URL樣例.基于此,我們提出一種完全基于URL字符串的詞法特征,利用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的惡意URL識(shí)別算法.
表1 惡意URL樣例
識(shí)別算法分為3個(gè)階段,首先訓(xùn)練構(gòu)成URL的字符表示為實(shí)數(shù)向量的形式;其次基于第一步得到的映射表,將URL轉(zhuǎn)換成特征圖像;最后將特征圖像輸入卷積神經(jīng)網(wǎng)絡(luò)CNN去學(xué)習(xí)特征,通過一個(gè)全連接層實(shí)現(xiàn)對(duì)URL的分類.算法概述如圖1.
本算法共有兩個(gè)部分:訓(xùn)練部分和預(yù)測部分.
如圖1所示,訓(xùn)練流程被分為4個(gè)部分.首先,系統(tǒng)監(jiān)控用戶瀏覽行為過程并生成日志;然后,使用深度學(xué)習(xí)對(duì)日志文件進(jìn)行訓(xùn)練得到字符的嵌入式模型;第三步,利用上一步得到的模型對(duì)網(wǎng)頁URL進(jìn)行特征轉(zhuǎn)化;最后,使用并行的CNN算法訓(xùn)練已標(biāo)注的惡意/良性URL特征.
在訓(xùn)練模型之后,我們使用經(jīng)過訓(xùn)練的CNN模型進(jìn)行評(píng)估驗(yàn)證過程.首先,使用字符的嵌入式表示對(duì)日志行為數(shù)據(jù)進(jìn)行特征轉(zhuǎn)化;然后,使用訓(xùn)練后的CNN模型進(jìn)行詞法特征提取,最后再使用分類輸出層進(jìn)行惡意概率的計(jì)算.下面詳細(xì)描述模型的訓(xùn)練過程.
我們將單個(gè)字符作為最小的語義單元,一個(gè)URL就看成由基本單元構(gòu)成的句子.因此,可以利用語言模型的概念對(duì)URL進(jìn)行建模.在訓(xùn)練語言模型的過程中,得到URL中各字符在模型中的向量表示.
語言模型中對(duì)于詞的一種主要表示方法是onehot編碼.如圖2所示,這種方法把每個(gè)詞表示為一個(gè)很長的向量.這個(gè)向量的維度是詞表大小,其中只有一個(gè)維度的值為 1,其它元素為 0.值取1的這個(gè)維度就代表了當(dāng)前的詞.這種方式如果使用稀疏方式存儲(chǔ),存儲(chǔ)效率很高,但這種表示方法有一個(gè)很大的缺陷,詞的表示是任意的,不能從詞的表示中看出兩個(gè)詞之間的關(guān)系.同時(shí),如果當(dāng)詞匯表數(shù)量大的時(shí)候,這種方式還可能會(huì)導(dǎo)致維度災(zāi)難.
圖1 推薦模型概述
圖2 one-hot編碼
另一種更好的表示方法是分布式表示(Distributed Representation),分布式表示最早由Hinton在1986 年提出[18].其基本思想是通過訓(xùn)練將每個(gè)詞映射成K維實(shí)數(shù)向量(K一般為模型中的超參數(shù)),不同詞在K維空間的距離(比如cosine相似度、歐氏距離等)來表示它們之間的語義相似度.word2vec是基于分布式表示思想的一種具體形式.它使用了一個(gè)兩層神經(jīng)網(wǎng)絡(luò)對(duì)CBOW/Skip-Gram模型進(jìn)行訓(xùn)練,在訓(xùn)練過程中獲得一種單詞在向量空間上的表示.
本文參照這個(gè)語言模型的思想,但是針對(duì)字符而不是詞進(jìn)行建模.這一步驟的主要工作是將字符映射到K維向量空間,將其轉(zhuǎn)為連續(xù)值的向量表示.
具體過程如下:
1) 首先從0開始對(duì)URL中出現(xiàn)的所有字符進(jìn)行編碼.設(shè)定一個(gè)詞匯表大小v,將所有出現(xiàn)的字符按出現(xiàn)的頻率從1到v-2進(jìn)行編碼.0作為填充字符的編碼,v-1作為未知(未出現(xiàn)在字符表中)字符的編碼1;
2) 訓(xùn)練一個(gè)兩層的神經(jīng)網(wǎng)絡(luò)模型.構(gòu)建一個(gè)[v,k]的二維向量,將正常的URL作為訓(xùn)練樣本輸入.例如www.baidu.com,轉(zhuǎn)換為訓(xùn)練序列(w,w),(w,w),(w,w),…,(a,b),(a,i),…,(m,o),然后計(jì)算輸出預(yù)測和它實(shí)際值的損失函數(shù),訓(xùn)練過程中更新二維向量的值;
3) 訓(xùn)練結(jié)束后,得到維度為[v,k]的映射表.
通過上述訓(xùn)練得到的映射表,將URL轉(zhuǎn)化為特征圖像.由于后續(xù)的CNN模型接受固定大小的圖像,我們確定一個(gè)URL最大長度n,構(gòu)建一個(gè)[n,k]大小的圖像.如果URL長度小于n的,使用0作為填充,對(duì)于長度大于n的URL做截?cái)?
轉(zhuǎn)換后圖像的每一行即是URL中的一個(gè)字符的向量表示.如圖3所示.
圖3 字符轉(zhuǎn)換
構(gòu)建一個(gè)CNN分類模型,將上述得到的特征圖像作為輸入,通過卷積層對(duì)進(jìn)行特征提取,最后通過一個(gè)全連接層進(jìn)行分類,得到輸出變量-即分類結(jié)果.CNN模型如圖4所示.
CNN的結(jié)構(gòu)包括一個(gè)輸入層,4個(gè)并列的卷積層以及池化層,和一個(gè)全連接層,最后的輸出層.
上述4個(gè)卷積層中的每一個(gè)對(duì)應(yīng)不同大小的卷積核,高度h分別是2,3,4,5,寬度為k,卷積核的個(gè)數(shù)取256.
設(shè)是k維的字符向量,對(duì)應(yīng)于URL字符串里的第i個(gè)字符.長度為n的URL字符串(需要的時(shí)候可以進(jìn)行填充或截?cái)?表示為表示字符串卷積操作用一個(gè)卷積核應(yīng)用到h個(gè)字符的窗口上,生成一個(gè)新特征.例如一個(gè)新特征ci通過下式生成:
其中是bias項(xiàng),f是一個(gè)非線性函數(shù).該卷積核應(yīng)用到U R L字符串中的每一個(gè)可能的子串上形成一個(gè)特征集:
其中非線性激活函數(shù)使用RELU.
每一個(gè)卷積層對(duì)應(yīng)一個(gè)池化層.使用最大池化方法,將同一個(gè)卷積核生成的特征集中最大的數(shù)值保留,即將卷積層的輸出尺寸轉(zhuǎn)換為1*1,因此256個(gè)卷積核生成1*256大小的輸出.
池化層的輸出拼接后得到256*4=1024個(gè)單元作為全連接層的輸入,由于是二分類,最后的輸出層的節(jié)點(diǎn)是2.
圖4 CNN模型結(jié)構(gòu)圖
深度神經(jīng)網(wǎng)絡(luò)含有大量非線性隱含層,使得模型表達(dá)能力非常強(qiáng).在有限的訓(xùn)練數(shù)據(jù)下,導(dǎo)致學(xué)習(xí)了很多樣本噪聲的復(fù)雜關(guān)系,而測試樣本中可能并不存在這些復(fù)雜關(guān)系.這就導(dǎo)致了過擬合.本文采用了dropout防止過擬合.
Dropout的意思是隨機(jī)移除神經(jīng)網(wǎng)絡(luò)中的一些神經(jīng)元(隱含層和可見層),同時(shí)包括該神經(jīng)元的輸入和輸出.在分類問題中,使用dropout比傳統(tǒng)的正則化方法,泛化誤差都有顯著的減小.
這里在每個(gè)卷積層做完池化之后,做一次dropout,防止在樣本數(shù)量不大的情況下,出現(xiàn)過擬合情況.
為了獲取數(shù)據(jù),本次研究篩選出某個(gè)月的用戶瀏覽記錄前50 000的url作為正常的URL;同時(shí)采用爬蟲從網(wǎng)站 https://www.malwaredomainlist.com/mdl.php、http://www.phishtank.com/等網(wǎng)站中收集了3萬多條URL數(shù)據(jù)作為惡意網(wǎng)站數(shù)據(jù).
本次研究使用混淆矩陣以及準(zhǔn)確率、召回率、F1值和ROC曲線進(jìn)行模型的評(píng)估.在二分類算法中,混淆矩陣的表示如表2
表2 混淆矩陣表示
根據(jù)上述矩陣中的數(shù)據(jù),可以得到準(zhǔn)確率、召回率、F1值等評(píng)價(jià)標(biāo)準(zhǔn).
為了避免樣本集中數(shù)據(jù)不均衡造成的影響,我們同時(shí)選用了ROC (Receiver Operating Characteristic)曲線作為評(píng)價(jià)標(biāo)準(zhǔn)之一.ROC也稱為受試者工作特征曲線,是一種以信息檢出理論為基礎(chǔ),廣泛應(yīng)用的數(shù)理統(tǒng)計(jì)方法[19].它根據(jù)一系列不同的閾值或者分界值,以TPR為縱坐標(biāo),FPR為橫坐標(biāo)繪制曲線,曲線下面積越大,算法精度越高.
本次實(shí)驗(yàn)使用一臺(tái)服務(wù)器進(jìn)行,安裝了python3.6.2,TensorFlow1.2.0,sklearn等.服務(wù)器操作系統(tǒng)是Centos 7.2版本,內(nèi)存為512 G,核數(shù)為40.
本研究采用十折交叉驗(yàn)證對(duì)80 000多個(gè)URL進(jìn)行分類驗(yàn)證.圖5和圖6為算法精度和損失函數(shù)曲線和ROC曲線圖.
圖5 精度變化曲線圖
圖6 模型ROC曲線圖
在我們的實(shí)驗(yàn)數(shù)據(jù)集上,模型的準(zhǔn)確率為0.962、召回率為0.879、F1值為0.918,模型整體達(dá)到了很好的預(yù)測效果.在本次試驗(yàn)數(shù)據(jù)的過程中,目前測試的樣本集下,全連接層的個(gè)數(shù)會(huì)嚴(yán)重影響模型結(jié)果,如果在算法的最后再增加一層全連接層,模型效果精度將會(huì)降低50%左右,因此對(duì)類似數(shù)據(jù)量的模型訓(xùn)練來說,全連接層的個(gè)數(shù)至關(guān)重要.我們使用grid search進(jìn)行參數(shù)選擇,發(fā)現(xiàn)卷積核分別設(shè)置為128和256,批處理數(shù)量分別設(shè)置為128或者256,學(xué)習(xí)率設(shè)置為0.001時(shí),算法較好.
針對(duì)如何利用機(jī)器學(xué)習(xí)算法進(jìn)行惡意域名和URL識(shí)別的問題,本文提出了一種基于URL字符串的深度學(xué)習(xí)分類算法,并利用TensorFlow進(jìn)行了代碼實(shí)現(xiàn).實(shí)驗(yàn)證明,本文提出的惡意域名和URL識(shí)別分類方法,在準(zhǔn)確率與召回率方面都達(dá)到了較好的效果.目前模型是二分類,主要用于判斷URL是否為惡意.但是惡意URL種類較多,判斷出具體種類有助于進(jìn)行針對(duì)性防御,未來將進(jìn)行多分類模型訓(xùn)練,判斷惡意URL種類.
1 中國互聯(lián)網(wǎng)絡(luò)信息中心.第39次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》.http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201701/t20170122_66437.htm.[2017-01-22].
2 360互聯(lián)網(wǎng)安全中心.2016年中國互聯(lián)網(wǎng)安全報(bào)告.http://zt.#/1101061855.php?dtid=1101062514&did4902 78985.[2017-02-15].
3 Liu G,Qiu BT,Liu WY.Automatic detection of phishing target from phishing Webpage.Proceedings of the 20th International Conference on Pattern Recognition.Istanbul,Turkey.2010.4153-4156.
4 Ma J,Saul LK,Savage S,et al.Beyond blacklists:Learning to detect malicious Web sites from suspicious URLs.Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,NY,USA.2009.1245-1254.
5 Huang HJ,Qian L,Wang YJ.A SVM-based technique to detect phishing URLs.Information Technology Journal,2012,11(7):921-951.[doi:10.3923/itj.2012.921.925]
6 沙泓州,劉慶云,柳廳文,等.惡意網(wǎng)頁識(shí)別研究綜述.計(jì)算機(jī) 學(xué) 報(bào) ,2016,39(3):529-542.[doi:10.11897/SP.J.1016.2016.00529]
7 Sahoo D,Liu CH,Hoi SCH.Malicious URL detection using machine learning:A survey.arXiv:1701.07179.2017.
8 Moshchuk A,Bragin T,Deville D,et al.Spyproxy:Execution-based detection of malicious web content.Proceedings of 16th USENIX Security Symposium.Boston,MA,USA.2007.
9 Rieck K,Krueger T,Dewald A.Cujo:Efficient detection and prevention of drive-by-download attacks.Proceedings of the 26th Annual Computer Security Applications Conference.Austin,TX,USA.2010.31-39.
10 Tobiyama S,Yamaguchi Y,Shimada H,et al.Malware detection with deep neural network using process behavior.Proceedings of the 40th Annual Computer Software and Applications Conference.Atlanta,GA,USA.2016.577-582.
11 張洋,柳廳文,沙泓州,等.基于多元屬性特征的惡意域名檢測.計(jì)算機(jī)應(yīng)用,2016,36(4):941-944,984.[doi:10.11772/j.issn.1001-9081.2016.04.0941]
12 張永斌,陸寅,張艷寧.基于組行為特征的惡意域名檢測.計(jì) 算 機(jī) 科 學(xué) ,2013,40(8):146-148,185.[doi:10.3969/j.issn.1002-137X.2013.08.030]
13 鄒福泰,孫文杰,譚凌霄,等.基于Passive DNS迭代聚類的惡意域名檢測方法:中國,CN106060067A.2016-10-26.
14 胡二雷,馮瑞.基于深度學(xué)習(xí)的圖像檢索系統(tǒng).計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(3):8-19.[doi:10.15888/j.cnki.csa.005692]
15 Anthimopoulos M,Christodoulidis S,Ebner L,et al.Lung pattern classification for interstitial lung diseases using a deep convolutional neural network.IEEE Transactions on Medical Imaging,2016,35(5):1207-1216.[doi:10.1109/TMI.2016.2535865]
16 鄭澤宇,顧思宇.TensorFlow:實(shí)戰(zhàn)Google深度學(xué)習(xí)框架.北京:電子工業(yè)出版社.2017.141-145.
17 Le A,Markopoulou A,Faloutsos M.PhishDef:URL names say it all.2011 Proceedings IEEE INFOCOM.Shanghai,China.2011.191-195.
18 Hinton GE.Learning distributed representations of concepts.Proceedings of the 8th Annual Conference of the Cognitive Science Society.Amherst,MA,USA.1986.1-12.
19 石昊蘇.基于實(shí)例與MATLAB的ROC曲線繪制比較研究.電子設(shè)計(jì)工程,2010,18(9):36-39.[doi:10.3969/j.issn.1674-6236.2010.09.011]