• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      改進(jìn)Relief-C5.0的惡意域名檢測算法

      2022-06-09 11:58:02馬棟林張澍寰
      關(guān)鍵詞:域名IP地址分類器

      馬棟林,張澍寰,趙 宏

      蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院,蘭州 730050

      域名系統(tǒng)(domain name system,DNS)作為互聯(lián)網(wǎng)的一項(xiàng)基礎(chǔ)服務(wù),提供域名和IP地址之間的相互轉(zhuǎn)換。此外,DNS還作為信任的憑據(jù),為郵件服務(wù)器和證書時(shí)域控制權(quán)提供驗(yàn)證服務(wù)。由于DNS應(yīng)用廣泛,且自身缺乏安全檢測機(jī)制,因此成為惡意域名主要的攻擊對象。

      惡意域名攻擊常伴隨郵件發(fā)送、短信和網(wǎng)頁點(diǎn)擊等內(nèi)容中,通過使用一些迷惑性的文字和圖片來引誘用戶點(diǎn)擊,也可能以某種形式存在于軟件代碼中,伴隨軟件的運(yùn)行對某一服務(wù)器發(fā)起大規(guī)模訪問,導(dǎo)致服務(wù)器宕機(jī),影響合法域名的正常訪問。利用惡意域名檢測技術(shù),及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)中出現(xiàn)的惡意域名并進(jìn)行攔截,可以有效防范惡意域名的攻擊。

      根據(jù)國家互聯(lián)網(wǎng)應(yīng)急中心(National Internet Emergency Center,CNCERT)2020年第51期《網(wǎng)絡(luò)安全信息與動(dòng)態(tài)周報(bào)》顯示[1],該周內(nèi)因惡意域名攻擊導(dǎo)致境內(nèi)感染網(wǎng)絡(luò)病毒的主機(jī)數(shù)量達(dá)75.8萬個(gè),境內(nèi)被篡改網(wǎng)站數(shù)量達(dá)4 327個(gè),被植入后門的網(wǎng)站數(shù)量達(dá)839個(gè),境內(nèi)網(wǎng)站的仿冒頁面數(shù)量達(dá)4 374個(gè),可見由惡意域名引起的網(wǎng)絡(luò)安全形勢不容樂觀。

      在眾多惡意域名攻擊中,僵尸網(wǎng)絡(luò)攻擊[2]所產(chǎn)生的負(fù)面作用尤為巨大。目前,僵尸網(wǎng)絡(luò)的控制者大部分使用DGA(domain generation algorithm)算法來生成域名,從而逃避黑名單的檢測。國內(nèi)外的研究者如Mao等[3]提出了一種針對DGA的惡意域名檢測算法,應(yīng)用機(jī)器學(xué)習(xí)方法提取特征集,構(gòu)建DGA檢測模型。Can等[4]將域名數(shù)據(jù)模糊化為Neutorsophic集,來減少良性域名的誤檢。Sivaguru等[5]提取域名的邊界信息特征,與域名進(jìn)行內(nèi)聯(lián),構(gòu)造深度學(xué)習(xí)框架,并使用隨機(jī)森林算法進(jìn)行分類。殷聰賢[6]利用隨機(jī)森林算法構(gòu)建了基于DNS行為特征的惡意域名檢測模型。該算法因使用的特征過多,導(dǎo)致時(shí)間開銷較大,此外,該模型對訓(xùn)練數(shù)據(jù)要求極高,若存在干擾數(shù)據(jù),隨機(jī)森林模型會出現(xiàn)過擬合現(xiàn)象,導(dǎo)致檢測準(zhǔn)確率不穩(wěn)定。Zhao等[7]提出了一種基于詞法分析和特征量化的惡意域名檢測算法。該算法首先根據(jù)待測域名和黑名單上域名之間的編輯距離,將待測域名劃分為明確惡意或潛在惡意;然后利用N-gram計(jì)算潛在惡意域名的信譽(yù)值,根據(jù)信譽(yù)值判斷潛在惡意域名的惡意性,通過在公開數(shù)據(jù)上驗(yàn)證了該方法的有效性。

      此外,域名變換技術(shù)Fast-Flux和Domain-Flux也常用來隱藏復(fù)雜代理網(wǎng)絡(luò)背后的惡意服務(wù)器,使得惡意域名的狀態(tài)處于不斷變化中。如Truong等[8]提出了一種基于被動(dòng)DNS流量跟蹤分析的惡意域名檢測方法,通過提取十個(gè)URL關(guān)鍵特征,并利用機(jī)器學(xué)習(xí)算法來建立分類器。崔甲等[9]結(jié)合黑/白域名過濾器、DNS記錄解析器以及基于特征分類的檢測引擎等三種域名檢測技術(shù),構(gòu)建了新型惡意域名檢測框架,具有較好的完備性。

      在域名生成和變換算法的基礎(chǔ)上,F(xiàn)u等[10]提出了一種隱身域名生成算法SDGA(stealthy domain generation algorithm),與傳統(tǒng)的基于字符的DGA惡意域名檢測算法相比,該算法的隱蔽性更強(qiáng),更難實(shí)時(shí)捕獲訪問日志記錄。Yang等[11]利用SDGA域名的特征層特征,提出了一種異構(gòu)深度神經(jīng)網(wǎng)絡(luò)框架。采用改進(jìn)的多尺度卷積核并行CNN結(jié)構(gòu),從域名中提取多尺度局部特征,并加入基于自注意力機(jī)制的雙向LSTM網(wǎng)絡(luò)架構(gòu),提取帶有注意力機(jī)制的雙向全局特征。楊路輝等[12]針對SDGA生成的域名難以檢測問題,在現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,增加了提取更深層字符級特征的卷積分支,同時(shí)提取惡意域名的淺層和深層字符級特征并融合,提高對復(fù)雜樣本的檢測準(zhǔn)確率。

      以上惡意域名檢測方法各有優(yōu)勢,相比而言,使用機(jī)器學(xué)習(xí)方法檢測時(shí),若提取的特征過多,則時(shí)間開銷較大,若提取的特征較少,則不具備代表性,準(zhǔn)確率不高;基于深度神經(jīng)網(wǎng)絡(luò)的檢測方法準(zhǔn)確率較高,但耗時(shí)較長,實(shí)時(shí)性不強(qiáng);通過建立黑名單過濾器的檢測方法耗時(shí)較短,準(zhǔn)確率也較高,但容易被攻擊者所規(guī)避,普適性不強(qiáng)。

      綜上,基于目前惡意域名檢測算法中存在的實(shí)時(shí)性不強(qiáng)、準(zhǔn)確性不高等問題,本文提出一種基于Rf-C5的惡意域名檢測算法。首先,通過使用改進(jìn)的Relief特征選擇算法解決了字符特征數(shù)量過多造成計(jì)算開銷大、運(yùn)行時(shí)間長的問題;其次,通過C5.0決策樹分類器,降低分類的復(fù)雜度,在保證檢測準(zhǔn)確率的基礎(chǔ)上降低檢測的時(shí)間開銷。

      1 算法設(shè)計(jì)

      圖1給出了本文算法的檢測流程。首先,收集與整理國內(nèi)外合法域名與惡意域名公開數(shù)據(jù)集,并進(jìn)行預(yù)處理;然后,整合當(dāng)前已有特征,并在此基礎(chǔ)上增加了域名的全局URL構(gòu)詞特征種類,將其作為特征選擇層的輸入;其次,在特征選擇層中使用改進(jìn)的Relief算法計(jì)算全局特征的權(quán)重,并輸出關(guān)鍵特征集,作為分類層的輸入;最后,在分類層中使用C5.0決策樹進(jìn)行二分類,實(shí)現(xiàn)合法域名與惡意域名的檢測。

      圖1 算法流程Fig.1 Algorithm flow

      1.1 數(shù)據(jù)采集和預(yù)處理

      在Alexa、Malware Domain List等知名網(wǎng)站上收集與整理合法域名與惡意域名,構(gòu)造合法域名與惡意域名數(shù)據(jù)集。此外,為降低噪聲數(shù)據(jù)對檢測準(zhǔn)確率和實(shí)時(shí)性的影響,將http、www等字符串進(jìn)行剔除。

      1.2 提取全局特征

      本文特征提取在文獻(xiàn)[13-18]等的研究基礎(chǔ)上,豐富了特征類別。具體分為字符特征、域名特征、訪問特征、TTL(time to live)特征、解析特征和IP地址集特征六個(gè)大類。如表1所示。

      表1 全局特征說明與編號Table 1 Description and numbering of global features

      整合了15個(gè)字符特征(Q1~Q15)。由于DNS的主要功能是為用戶提供可讀且易于記憶的名稱,字符特性如隨機(jī)性、字母個(gè)數(shù)和數(shù)字個(gè)數(shù)等與惡意行為緊密關(guān)聯(lián)。域名字符的隨機(jī)性通過字符的熵來計(jì)算,如式(1)所示:

      其中,d為待測域名,X i為d中的某一個(gè)字符,P(X i)為該字符出現(xiàn)的概率。

      整合了6個(gè)域名特征(Q16~Q21)。一般正常域名的長度、隨機(jī)性、子域名個(gè)數(shù)等都較為規(guī)范,頂級域名也較為常見,比如.cn和.com等。而惡意域名較為混亂和隨意。

      整合了4個(gè)時(shí)間特征(Q22~Q25)。通過分析域名在時(shí)間序列上的查詢點(diǎn),可以發(fā)現(xiàn)惡意行為的特征。設(shè)置每日為一個(gè)觀測窗口,統(tǒng)計(jì)域名在一日之內(nèi)的狀態(tài)變化規(guī)律。惡意域名一般不會持續(xù)保持活躍,查詢次數(shù)變化范圍較大。

      整合了6個(gè)TTL特征(Q26~Q31)。TTL值被用來設(shè)定域名響應(yīng)記錄的最長緩存時(shí)間。惡意網(wǎng)絡(luò)會產(chǎn)生頻繁的TTL變化,其管理者通過設(shè)置不同的TTL值為僵尸節(jié)點(diǎn)分配資源,表現(xiàn)出更加分散的特點(diǎn)。

      整合了5個(gè)解析特征(Q32~Q36)。攻擊者所使用的IP地址隨機(jī)性比較高,會將惡意域名解析到不同國家、不同地區(qū)的主機(jī)上,IP地址也會在多個(gè)不同的域名間共享來躲避封堵。

      整合了4個(gè)IP地址集特征(Q37~Q40)。一般請求惡意域名的源IP地址集較小,而共享同一IP的惡意域名集較大。通過計(jì)算IP地址的16 bit前綴的熵來表示IP地址集的分散程度,如式(2)所示:

      其中,p(x)=count(x)/|I|,I表示IP地址集,p(x)為IP地址的16 bit前綴x在I中所占的比例,熵越大,IP地址越分散。

      1.3 特征選擇層

      本文總結(jié)與分析了大量的URL構(gòu)詞特征,但實(shí)際該類特征中只有一部分是對分類有效的特征,如果使用全部的特征訓(xùn)練,可能會導(dǎo)致以下問題:

      (1)特征數(shù)量過多導(dǎo)致特征向量維度過高、容易出現(xiàn)模型過擬合;

      (2)特征數(shù)量過多導(dǎo)致模型訓(xùn)練過程緩慢,影響檢測實(shí)時(shí)性。

      因此,本文采用改進(jìn)的Relief算法來對全局特征進(jìn)行權(quán)重排序,根據(jù)排序結(jié)果選擇最佳分類特征,刪除冗余特征對于檢測結(jié)果的影響。同時(shí),選擇主流特征選擇算法Filter相關(guān)系數(shù)法和Wrapper遞歸特征消除法進(jìn)行對比實(shí)驗(yàn),驗(yàn)證Relief算法的有效性。

      1.3.1 Filter相關(guān)系數(shù)法

      Filter按照特征與標(biāo)簽的相關(guān)性進(jìn)行評分,并根據(jù)動(dòng)態(tài)閾值判別法來選擇所需的特征。本文借助機(jī)器學(xué)習(xí)算法中的sk-learn模塊,使用feature_selection庫的SelectKBest類構(gòu)建Filter相關(guān)系數(shù)模型,代碼如下所示:

      SelectKBest(lambda X,Y:array(map(lambda x:pearsonr(x,Y),X.T)).T,k=20).fit_transform(iris.data,iris.target)

      該模型的輸入為40維特征矩陣和標(biāo)簽值,輸出為包含了特征和皮爾遜相關(guān)系數(shù)(P值)的數(shù)組。取10次實(shí)驗(yàn)的平均P值作為特征的排名依據(jù),由于20位以后的特征P值較低,對檢測結(jié)果影響較小,本文設(shè)定參數(shù)k=20,P值排名最高的20個(gè)特征如表2所示。

      表2 Filter關(guān)鍵特征組合Table 2 Filter key features combination

      1.3.2 Wrapper遞歸特征消除法

      遞歸消除特征法通過使用一個(gè)基模型來進(jìn)行多輪訓(xùn)練,每輪訓(xùn)練后,消除若干權(quán)值系數(shù)的特征;然后,再次基于新的特征集進(jìn)行下一輪訓(xùn)練。本文通過借助機(jī)器學(xué)習(xí)算法中的sk-learn模塊,使用feature_selection庫的RFE類構(gòu)建Wrapper遞歸特征消除法模型,代碼如下所示:

      RFE(estimator=LogisticRegression(),n_features_to_select=20).fit_transform(iris.data,iris.target)

      該模型的輸入為40維特征矩陣和標(biāo)簽值,輸出為選擇的關(guān)鍵特征集。基模型采用Logistic Regression邏輯回歸函數(shù),為使對比實(shí)驗(yàn)結(jié)果更加準(zhǔn)確可靠,本文設(shè)定參數(shù)n_features_to_select=20,將所選擇的特征個(gè)數(shù)與Filter關(guān)鍵特征組合保持一致,取10次實(shí)驗(yàn)的平均值作為檢測結(jié)果。輸出如表3所示。

      會上,山東省化肥與煤化工協(xié)會顧問楊春升分析了山東省化肥與煤化工行業(yè)在當(dāng)前時(shí)期的實(shí)際情況,以及今后一個(gè)時(shí)期的行業(yè)發(fā)展特點(diǎn),指出山東省的整體發(fā)展和盈利狀況較好,并提出行業(yè)間要保持這種良好的溝通傳統(tǒng),為高層決策和企業(yè)發(fā)展提供強(qiáng)有力的借鑒和支持。

      表3 Wrapper關(guān)鍵特征組合Table 3 Wrapper key features combination

      1.3.3 改進(jìn)的Relief算法

      Relief算法根據(jù)各特征與標(biāo)簽的相關(guān)性計(jì)算權(quán)重,移除權(quán)重小于設(shè)定閾值的特征。由于其簡潔的算法和優(yōu)秀的特征選擇能力被廣泛應(yīng)用,偽代碼如下:

      其中,參數(shù)為數(shù)據(jù)集E,抽樣次數(shù)m,特征權(quán)重閾值T,特征權(quán)重向量S,樣本點(diǎn)H,正樣本集合中距離H最近的樣本X+,負(fù)樣本集和中距離H最近的樣本X-,特征總個(gè)數(shù)N=40。

      由于Relief算法的運(yùn)行時(shí)間由抽樣次數(shù)m和輸入的特征個(gè)數(shù)N決定,計(jì)算某一個(gè)樣本點(diǎn)的最近鄰樣本需要全部的訓(xùn)練空間,所以存儲率較高且運(yùn)算時(shí)間較長。為了解決此問題,本文在Relief算法的基礎(chǔ)上進(jìn)行改進(jìn),將原始訓(xùn)練集劃分為若干個(gè)小訓(xùn)練集,分別計(jì)算每個(gè)小訓(xùn)練集內(nèi)的特征權(quán)重,減小訓(xùn)練空間大小,降低硬件存儲率,最后將計(jì)算出權(quán)重的特征合并,輸出關(guān)鍵特征集T。

      根據(jù)提取的40維全局特征的天然屬性,將其分為6個(gè)小訓(xùn)練集,作為改進(jìn)的Relief算法的輸入,流程如圖2所示。

      圖2 改進(jìn)的Relief算法Fig.2 Improved Relief algorithm

      由圖2可以看出,改進(jìn)的Relief算法與原算法的區(qū)別在于將數(shù)據(jù)集分割之后同時(shí)并行處理,極大地縮短了運(yùn)算時(shí)間。

      取10次實(shí)驗(yàn)的平均權(quán)重值作為檢測結(jié)果,為了使輸出更加直觀便于比較,將排名最高的特征權(quán)重值歸化為1,其他特征權(quán)重值等比例轉(zhuǎn)化。由于后20位特征權(quán)重值較低,與結(jié)果的關(guān)聯(lián)性不強(qiáng),同樣取權(quán)重值排名前20位的特征作為關(guān)鍵特征,如表4所示。

      表4 改進(jìn)的Relief關(guān)鍵特征組合Table 4 Improved Relief key features combination

      1.4 分類層

      如果某屬性變量T,有n個(gè)分類,則屬性變量T引入后的條件熵定義為式(4):

      隨著決策樹的生長,越深層處的節(jié)點(diǎn)所體現(xiàn)的數(shù)據(jù)特征就越個(gè)性化,會出現(xiàn)過擬合現(xiàn)象,所以需要修剪決策樹,采用Post-Pruning法從葉節(jié)點(diǎn)向上逐層剪枝。一般決策樹會使用測試數(shù)據(jù)進(jìn)行檢驗(yàn),但C5.0分類器使用了統(tǒng)計(jì)的置信區(qū)間的估計(jì)方法,直接在訓(xùn)練數(shù)據(jù)中估計(jì)誤差。在執(zhí)行效率和內(nèi)存使用方面進(jìn)行了改進(jìn),采用Boosting方式提高模型準(zhǔn)確率,計(jì)算速度較快,占用的內(nèi)存資源較少。

      2 實(shí)驗(yàn)與分析

      2.1 數(shù)據(jù)集

      實(shí)驗(yàn)的數(shù)據(jù)集包括合法域名和惡意域名兩部分。從Alexa網(wǎng)站排名中選取前60 000條域名作為合法域名集,從DGA Domain List、Malware Domain List和360等知名惡意域名網(wǎng)站上收集并整理60 000條惡意域名作為惡意域名集,保證了惡意域名種類的完整性和全面性。將合法域名集與惡意域名集進(jìn)行合并,共120 000條,選取其中80 000條作為模型的訓(xùn)練數(shù)據(jù),40 000條作為測試數(shù)據(jù)。

      2.2 實(shí)驗(yàn)環(huán)境

      實(shí)驗(yàn)環(huán)境如表5所示。

      表5 實(shí)驗(yàn)環(huán)境Table 5 Experimental environment

      2.3 模型評價(jià)標(biāo)準(zhǔn)

      使用召回率(recall)、準(zhǔn)確率(accuracy rate,AR)、漏報(bào)率(false negative rate,F(xiàn)NR)、誤報(bào)率(false positive rate,F(xiàn)PR)、精確率(precision rate,PR)和AUC(area under curve)[19]來評估本文提出的Rf-C5模型在惡意域名檢測時(shí)的性能。評價(jià)指標(biāo)均基于實(shí)驗(yàn)結(jié)果的混淆矩陣計(jì)算。

      2.4 改進(jìn)的Relief算法效果評估

      分別使用Filter相關(guān)系數(shù)法、Wrapper遞歸特征消除法和改進(jìn)的Relief算法對提取的40維全局URL特征(Q1~Q40)進(jìn)行選擇,得到不同的三組特征組合,如表2~表4所示。將其分別作為支持向量機(jī)(support vector machine,SVM)、K最近鄰算法(K-nearest neighbor,KNN)、隨機(jī)森林(random forest,RF)、C4.5和C5.0五個(gè)分類器的輸入,交叉驗(yàn)證模型檢測效果。圖3~圖5分別是三種特征選擇算法的關(guān)鍵特征組合在不同分類器上的檢測結(jié)果。

      圖3 Filter特征組合檢測結(jié)果Fig.3 Filter feature combination detection results

      圖4 Wrapper特征組合檢測結(jié)果Fig.4 Wrapper feature combination detection results

      由圖3~圖5可以明顯地看出,經(jīng)過改進(jìn)的Relief算法選擇出的特征組合,對惡意域名的檢測效果在召回率(Recall)、精確率(Precision)和AUC值三個(gè)方面都強(qiáng)于Filter相關(guān)系數(shù)法和Wrapper遞歸特征消除法,即改進(jìn)的Relief算法對關(guān)鍵特征的選擇更準(zhǔn)確,能夠更好地提取出與標(biāo)簽關(guān)聯(lián)度更高的特征。

      圖5 改進(jìn)的Relief特征組合檢測結(jié)果Fig.5 Improved Relief feature combination detection results

      2.5 C5.0分類器效果評估

      將改進(jìn)的Relief算法與SVM、KNN、RF、樸素貝葉斯(Naive Bayesian,NB)、線性回歸(linear regression,LiR)、邏輯回歸(logistic regression,LoR)以及C5.0共七種分類器分別結(jié)合,構(gòu)建Rf-SVM、Rf-KNN、Rf-RF、Rf-NB、Rf-LiR、Rf-LoR和Rf-C5模型,測試不同分類器與改進(jìn)的Relief算法結(jié)合之后在域名分類上的效果。

      各模型的輸入端是提取的40維全局URL特征,首先通過改進(jìn)的Relief特征選擇層計(jì)算,輸出關(guān)鍵特征集,然后作為分類層的輸入,使用分類器進(jìn)行二元分類。

      以AR、PR、FNR、FPR四項(xiàng)指標(biāo)深入具體對比七種模型的檢測性能,如表6所示。

      表6 七種模型的檢測性能對比Table 6 Comparison of detection performance of seven models %

      由表6可以看出,使用C5.0分類器與改進(jìn)的Relief算法相結(jié)合,在各項(xiàng)指標(biāo)下均可以達(dá)到良好的效果。其中,在準(zhǔn)確率方面,C5.0相比SVM、KNN、NB和LiR優(yōu)勢明顯;在精確率方面,C5.0相比NB、LiR和RF優(yōu)勢明顯;在漏報(bào)率方面,C5.0相比NB、SVM、LiR和RF優(yōu)勢明顯;在誤報(bào)率方面,C5.0相比RF和KNN優(yōu)勢明顯。

      2.6 Rf-C5模型綜合效果評估

      為了驗(yàn)證Rf-C5惡意域名檢測模型的綜合性能,在相同的實(shí)驗(yàn)環(huán)境下分別構(gòu)造目前國內(nèi)外主流的各類惡意域名檢測模型。分別為文獻(xiàn)[20]基于語義表示和深度學(xué)習(xí)的惡意域名檢測模型、文獻(xiàn)[21]基于N-grams和隨機(jī)森林的惡意域名檢測模型、文獻(xiàn)[22]基于優(yōu)化支持向量機(jī)的惡意域名檢測模型、文獻(xiàn)[23]基于卷積神經(jīng)網(wǎng)絡(luò)CNN的惡意域名檢測模型。使用相同的數(shù)據(jù)集,與本文惡意域名檢測模型進(jìn)行性能比較,具體結(jié)果如表7所示。

      表7 五種算法性能比較Table 7 Performance comparison of five algorithms

      由表7可以看出,本文提出的惡意域名檢測算法模型Rf-C5相較于主流神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)的檢測方法,在運(yùn)算時(shí)間和準(zhǔn)確率方面都有顯著的提升。

      在運(yùn)算時(shí)間方面,由于改進(jìn)的Relief算法將原始數(shù)據(jù)集劃分為若干個(gè)小訓(xùn)練集,減小了訓(xùn)練集的計(jì)算空間,降低了存儲率,提升了運(yùn)算速度;同時(shí),C5.0分類器使用統(tǒng)計(jì)的置信區(qū)間的估計(jì)方法,直接在訓(xùn)練數(shù)據(jù)中估計(jì)誤差,占用的內(nèi)存資源較少,與隨機(jī)森林、支持向量機(jī)等分類器相比,極大地減少了運(yùn)算時(shí)間。

      在準(zhǔn)確率方面,由于Rf-C5模型在對域名分類之前先對特征進(jìn)行了排序選擇,刪除了無用特征,降低了過擬合;再者,C5.0決策樹分類器采用信息增益率來確定最佳分組變量和最佳分割點(diǎn),通過Boosting方式提高模型準(zhǔn)確率,相較于其他分類算法效果更好。從結(jié)果來看,準(zhǔn)確率略高于文獻(xiàn)[22],提高了1.58個(gè)百分點(diǎn),優(yōu)于文獻(xiàn)[20]、文獻(xiàn)[21]和文獻(xiàn)[23],分別提高了3.9、4.17和4.91個(gè)百分點(diǎn),具有更高的準(zhǔn)確性和更好的實(shí)時(shí)性。

      3 結(jié)束語

      針對目前惡意域名檢測算法分類模型計(jì)算復(fù)雜度較大等問題,構(gòu)造了一種Rf-C5惡意域名檢測算法模型。通過對全局特征進(jìn)行選擇,刪除了冗余信息;通過與傳統(tǒng)的各分類器模型對比,證明了C5.0分類器在檢測準(zhǔn)確率上的優(yōu)勢;進(jìn)一步在相同的實(shí)驗(yàn)環(huán)境內(nèi),通過與各類主流惡意域名檢測模型進(jìn)行對比,證明了本文Rf-C5模型的優(yōu)良綜合性能。在未來的工作里,計(jì)劃加入多標(biāo)簽分類,可以將良性域名和惡意域名根據(jù)內(nèi)容或功能進(jìn)一步細(xì)分,為用戶提供更多有用的信息,提高網(wǎng)絡(luò)安全。

      猜你喜歡
      域名IP地址分類器
      鐵路遠(yuǎn)動(dòng)系統(tǒng)幾種組網(wǎng)方式IP地址的申請和設(shè)置
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      如何購買WordPress網(wǎng)站域名及綁定域名
      基于SNMP的IP地址管理系統(tǒng)開發(fā)與應(yīng)用
      黑龍江電力(2017年1期)2017-05-17 04:25:16
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      騰訊八百萬美元收購域名
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      頂級域名爭奪戰(zhàn):ICANN放出1930個(gè)通用頂級域名,申請者有上千家
      用統(tǒng)一身份認(rèn)證解決IP地址的盜用
      九龙县| 张家口市| 施甸县| 新兴县| 教育| 扎赉特旗| 宜昌市| 买车| 肥乡县| 慈溪市| 泊头市| 安泽县| 左贡县| 手游| 定日县| 萍乡市| 东明县| 巴东县| 云安县| 抚州市| 萝北县| 樟树市| 武宁县| 中牟县| 福州市| 乌兰察布市| 微山县| 兴城市| 通许县| 铁岭县| 延川县| 株洲县| 诸暨市| 芷江| 桐乡市| 卓尼县| 海阳市| 民和| 鄄城县| 宜良县| 海宁市|