• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于IMI-WNB算法的垃圾郵件過(guò)濾技術(shù)研究

    2020-12-16 02:43:26潔,王錚,王
    計(jì)算機(jī)工程 2020年12期
    關(guān)鍵詞:垃圾郵件互信息詞頻

    劉 潔,王 錚,王 輝

    (河南理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南 焦作 454000)

    0 概述

    電子郵件能夠?yàn)橛脩糸g的通信提供便捷,但垃圾郵件也隨之產(chǎn)生。根據(jù)卡巴斯基信息安全網(wǎng)站Securelist發(fā)布的2018年全球垃圾郵件數(shù)據(jù)顯示,中國(guó)成為全球第一垃圾郵件來(lái)源地,占全球垃圾郵件來(lái)源的11.69%[1]。垃圾郵件不僅占據(jù)大量的網(wǎng)絡(luò)帶寬和郵箱空間,容易造成網(wǎng)絡(luò)擁堵,而且其包含一些惡意軟件和釣魚(yú)網(wǎng)站,可能會(huì)給用戶帶來(lái)巨大的經(jīng)濟(jì)損失。因此,對(duì)垃圾郵件進(jìn)行過(guò)濾研究具有重要意義。

    目前,關(guān)于垃圾郵件的過(guò)濾技術(shù)主要有基于黑白名單過(guò)濾技術(shù)、基于行為模式識(shí)別技術(shù)以及基于內(nèi)容的過(guò)濾技術(shù)。其中,基于內(nèi)容的過(guò)濾技術(shù)可行性較高、耗費(fèi)較少,已經(jīng)成為當(dāng)前研究垃圾郵件過(guò)濾技術(shù)的主流方向[2-3],主要包括支持向量機(jī)(Support Vector Machine,SVM)、K鄰近(K-Nearest Neighbor,KNN)、樸素貝葉斯(Naive Bayes,NB)等[4]。樸素貝葉斯分類(lèi)器實(shí)現(xiàn)較為簡(jiǎn)單、且準(zhǔn)確率高,已成為對(duì)垃圾郵件進(jìn)行過(guò)濾的廣泛應(yīng)用分類(lèi)方法[5-6],但該方法基于條件獨(dú)立性假設(shè),即假設(shè)條件之間完全獨(dú)立,在一定程度上影響了分類(lèi)結(jié)果的精確度。

    在對(duì)垃圾郵件分類(lèi)前,特征選擇算法的優(yōu)劣性對(duì)分類(lèi)效果會(huì)造成影響,常見(jiàn)的幾種特征選擇方法有文檔頻率(DF)、信息增益(IG)、TF-IDF、開(kāi)方擬合檢驗(yàn)(χ2test)和互信息(Mutual Information,MI)等。其中,互信息效果雖然較差,但是該方法復(fù)雜度低、容易理解,是普遍使用的一種特征選擇方法[7-8]。傳統(tǒng)的互信息方法沒(méi)有計(jì)算特征詞的頻度,可能會(huì)出現(xiàn)低頻詞匯的互信息值較高的情況,導(dǎo)致分類(lèi)精確度受到影響[9-10]。

    針對(duì)特征冗余和獨(dú)立性假設(shè)的問(wèn)題,研究人員對(duì)特征選擇和分類(lèi)算法進(jìn)行改進(jìn),以提高郵件的分類(lèi)精度。文獻(xiàn)[11]將樸素貝葉斯、隨機(jī)樹(shù)和隨機(jī)森林3種機(jī)器學(xué)習(xí)算法應(yīng)用于垃圾郵件數(shù)據(jù)集,其分類(lèi)精度高于僅基于貝葉斯分類(lèi)器的算法。文獻(xiàn)[12]提出一種支持向量機(jī)算法與K-均值聚類(lèi)算法相結(jié)合的郵件分類(lèi)算法,以提高分類(lèi)精度、減少訓(xùn)練時(shí)間。文獻(xiàn)[13]將互信息應(yīng)用于加權(quán)樸素貝葉斯,通過(guò)加權(quán)部分消除樸素貝葉斯條件獨(dú)立性假設(shè)對(duì)分類(lèi)效果的影響,從而提高了樸素貝葉斯的文本分類(lèi)效果,但該方法存在沒(méi)有對(duì)傳統(tǒng)的互信息算法進(jìn)行改進(jìn)的問(wèn)題。文獻(xiàn)[14]提出一種TSVM-NB算法,該算法利用樸素貝葉斯算法進(jìn)行初次訓(xùn)練,并使用支持向量機(jī)算法構(gòu)造最優(yōu)分類(lèi)超平面以降低特征項(xiàng)維度。同時(shí),再次利用樸素貝葉斯算法生成分類(lèi)模型,提高垃圾郵件過(guò)濾的速度和正確率,但該算法適用于屬性向量重疊較大的語(yǔ)料集,對(duì)混疊性較弱的語(yǔ)料集的效率提升有限。文獻(xiàn)[15]引入熵的思想,并結(jié)合MapReduce技術(shù)提出一種基于MapReduce的改進(jìn)互信息文本特征選擇機(jī)制,提高文本分類(lèi)的精度。文獻(xiàn)[16]提出一種基于MapReduce的并行特征選擇方法,利用最大互信息理論選擇信息豐富的特征變量組合。上述方法僅改進(jìn)分類(lèi)過(guò)程中的特征選擇算法,并未聯(lián)同分類(lèi)算法對(duì)分類(lèi)進(jìn)行綜合改進(jìn)。

    在以上研究基礎(chǔ)上,本文提出一種基于改進(jìn)互信息的加權(quán)樸素貝葉斯(Improved Mutual Information-Weighted Naive Bayes,IMI-WNB)算法。在特征選擇階段,引入詞頻因子以及類(lèi)間差異因子對(duì)傳統(tǒng)的互信息算法進(jìn)行改進(jìn),實(shí)現(xiàn)特征降維。在分類(lèi)階段引入改進(jìn)的互信息(IMI)值對(duì)樸素貝葉斯算法進(jìn)行屬性加權(quán),實(shí)現(xiàn)對(duì)垃圾郵件的精確分類(lèi)。

    1 改進(jìn)的互信息算法

    1.1 互信息算法

    垃圾郵件在經(jīng)過(guò)文本預(yù)處理后引入大量特征項(xiàng),然而大量的特征項(xiàng)對(duì)于分類(lèi)沒(méi)有意義,屬于噪音特征,不對(duì)其進(jìn)行降維處理將會(huì)影響垃圾郵件過(guò)濾的分類(lèi)效果[17]?;バ畔⑺惴ㄊ翘卣鬟x擇算法的一種,互信息值表示出特征項(xiàng)與類(lèi)別之間的相關(guān)程度,且互信息值越大,則該特征項(xiàng)與類(lèi)別的關(guān)聯(lián)性越緊密?;バ畔⒅档挠?jì)算方法為:

    (1)

    其中,w表示特征項(xiàng),C表示類(lèi)別,P(w,C)表示特征項(xiàng)w與類(lèi)別C共同出現(xiàn)的概率,P(w)表示特征項(xiàng)在整個(gè)訓(xùn)練文本中出現(xiàn)的概率,P(C)表示訓(xùn)練文本中該類(lèi)別在訓(xùn)練文本中出現(xiàn)的概率,P(w|C)表示特征項(xiàng)w在類(lèi)別C中出現(xiàn)的概率。

    m個(gè)類(lèi)別訓(xùn)練文本的互信息值計(jì)算方法為:

    (2)

    通過(guò)式(2)計(jì)算出互信息值,并選取合適的閾值,可針對(duì)分類(lèi)不重要的特征項(xiàng)進(jìn)行過(guò)濾,從而實(shí)現(xiàn)特征的選擇。

    1.2 基于詞頻因子與類(lèi)間差異因子的IMI算法

    1.2.1 詞頻因子

    互信息算法的計(jì)算方式只考慮到特征詞的文本頻率而沒(méi)有考慮到詞頻,這在一定程度上會(huì)影響其分類(lèi)精度。例如,2個(gè)特征項(xiàng)wj和wq的文本頻率相同,且特征項(xiàng)wj的詞頻是特征項(xiàng)wq詞頻的數(shù)倍,即tf(wj)>>tf(wq),一般認(rèn)為詞頻更大的特征項(xiàng)wj與該類(lèi)別的相關(guān)程度更高。然而按照傳統(tǒng)互信息的計(jì)算方式,這2個(gè)特征項(xiàng)的互信息值是相同的,這顯然與實(shí)際情況不符。因此,引入詞頻因子α對(duì)不同特征項(xiàng)間的詞頻差異進(jìn)行描述,詞頻因子α可定義為:

    (3)

    (4)

    其中,tfCspam(wi)與tfCham(wi)分別為特征項(xiàng)wi的垃圾郵件與非垃圾郵件類(lèi)詞頻,dfCspam(wi)表示特征項(xiàng)wi的垃圾郵件類(lèi)文本頻率,dfCham(wi)表示特征項(xiàng)wi的非垃圾郵件類(lèi)文本頻率。

    引入詞頻因子α后,改進(jìn)的互信息值計(jì)算方法為:

    (5)

    特征項(xiàng)的詞頻高于文本頻率時(shí),詞頻因子的權(quán)重越大,說(shuō)明該特征項(xiàng)對(duì)郵件分類(lèi)的能力越強(qiáng)。

    1.2.2 類(lèi)間差異因子

    如果特征項(xiàng)在2個(gè)類(lèi)別中都平均分布時(shí),則不利于類(lèi)別的判定,在某一類(lèi)別出現(xiàn)較多而在另一類(lèi)別中極少出現(xiàn),一般認(rèn)為該特征項(xiàng)對(duì)于郵件類(lèi)別的判別作用較大。在概率統(tǒng)計(jì)中標(biāo)準(zhǔn)差反映了數(shù)據(jù)集的離散程度,標(biāo)準(zhǔn)差較大的特征項(xiàng)更利于郵件類(lèi)別的判定。通過(guò)計(jì)算垃圾郵件類(lèi)Cspam與非垃圾郵件類(lèi)Cham之間特征項(xiàng)wi頻數(shù)的標(biāo)準(zhǔn)差對(duì)互信息模型進(jìn)行改進(jìn)。假設(shè)特征項(xiàng)wi在垃圾郵件Cspam類(lèi)中的頻數(shù)為tfCspam(wi),在非垃圾郵件Cham類(lèi)中的頻數(shù)為tfCham(wi),頻數(shù)平均值為tfavg(wi),則有:

    (6)

    引入類(lèi)間差異因子σ對(duì)類(lèi)間詞頻差異進(jìn)行描述,類(lèi)間差異因子σ定義為:

    (7)

    (8)

    引入類(lèi)間差異因子σ后,改進(jìn)的互信息值計(jì)算方法為:

    (9)

    式(9)在式(5)的基礎(chǔ)上增加了類(lèi)間頻數(shù)差異權(quán)重因子,體現(xiàn)出類(lèi)間頻數(shù)差異對(duì)郵件分類(lèi)的影響,提高互信息算法對(duì)有效特征項(xiàng)的選擇效率。

    1.2.3 IMI算法描述

    算法1IMI算法

    輸入郵件特征向量集T={w1,w2,…,wn},特征子集維度k

    輸出特征子集F={w1,w2,…,wk}

    1.計(jì)算P(Cham)和P(Cspam)

    2.for i=1 to n

    3.統(tǒng)計(jì)詞頻tfCspam(wi)和tfCham(wi)

    4.統(tǒng)計(jì)文檔頻率dfCspam(wi)和dfCham(wi)

    5.計(jì)算P(wi|Cspam)和P(wi|Cham)

    6.計(jì)算P(wi)

    7.式(2)計(jì)算互信息值MI(wi)

    8.式(4)計(jì)算詞頻因子αi

    9.式(8)計(jì)算類(lèi)間差異因子σi

    10.將式(2)、式(4)、式(8)結(jié)果代入式(9),計(jì)算IMI值

    11.end

    12.Sort(T) //將特征向量按IMI值降序排列

    13.for i=1 to k

    14.將特征項(xiàng)wi加入特征子集F中

    15.end

    算法1是IMI-WNB算法中特征選擇階段的算法,IMI算法改進(jìn)了傳統(tǒng)互信息算法中只考慮到文本頻率而未考慮到詞頻的問(wèn)題,定義并引入詞頻因子與類(lèi)間差異因子,體現(xiàn)詞頻與類(lèi)間詞頻差異對(duì)分類(lèi)的貢獻(xiàn)度,在完成特征降維的同時(shí),還增強(qiáng)了特征項(xiàng)的表達(dá)能力。

    2 基于IMI的樸素貝葉斯分類(lèi)算法

    2.1 樸素貝葉斯分類(lèi)模型

    樸素貝葉斯分類(lèi)是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類(lèi)方法,其通過(guò)計(jì)算已有的事件訓(xùn)練集得到事件概率,并對(duì)事件發(fā)生的概率進(jìn)行預(yù)測(cè)。給定類(lèi)別Cj與文本對(duì)象d時(shí),貝葉斯公式可表示為:

    (10)

    其中,P(Cj)表示Cj類(lèi)發(fā)生的先驗(yàn)概率,對(duì)于垃圾郵件分類(lèi),類(lèi)別C可被分為垃圾郵件與非垃圾郵件,即C={Cspam,Cham}。P(Cj|d)表示在給定輸入文本對(duì)象為d時(shí),該對(duì)象屬于類(lèi)別Cj的后驗(yàn)概率。假設(shè)文本d的特征項(xiàng)為{w1,w2,…,wn},根據(jù)樸素貝葉斯條件獨(dú)立性假設(shè),則有:

    P(d|Cj)=P(w1,w2,…,wn|Cj)=

    P(w1|Cj)×P(w2|Cj)×…×P(wn|Cj)=

    (11)

    將式(11)代入式(10)可得:

    (12)

    先驗(yàn)概率P(d)為標(biāo)準(zhǔn)化常量,是一個(gè)常數(shù)。因此,樸素貝葉斯計(jì)算的最大后驗(yàn)概率類(lèi)別Cmap如下所示:

    (13)

    為了避免大量較小數(shù)相乘造成下溢出問(wèn)題,對(duì)式(13)乘積取對(duì)數(shù)可得:

    (14)

    2.2 基于IMI的加權(quán)樸素貝葉斯分類(lèi)器

    樸素貝葉斯分類(lèi)算法是基于條件獨(dú)立性假設(shè)的分類(lèi)方法,然而在實(shí)際應(yīng)用中,該獨(dú)立性假設(shè)通常不成立。為了消除部分條件獨(dú)立性假設(shè)對(duì)分類(lèi)造成的不利影響,可通過(guò)在樸素貝葉斯公式中加入屬性權(quán)重值以區(qū)分不同特征項(xiàng)對(duì)分類(lèi)的貢獻(xiàn)度。IMI值可以作為屬性權(quán)重應(yīng)用于貝葉斯分類(lèi)中,當(dāng)IMI值計(jì)算結(jié)果較大時(shí),特征項(xiàng)與類(lèi)別的相關(guān)性較高,當(dāng)IMI值較低甚至為負(fù)值時(shí),表示該特征項(xiàng)對(duì)分類(lèi)的作用較小?;バ畔⒅悼梢栽谝欢ǔ潭壬媳硎咎卣黜?xiàng)與類(lèi)別之間的相關(guān)性,消除部分條件獨(dú)立性假設(shè)對(duì)分類(lèi)的不利影響。將式(13)中的后驗(yàn)概率賦予互信息權(quán)值可得:

    (15)

    (16)

    將屬性權(quán)值代入上式并取對(duì)數(shù)可得:

    (17)

    為避免出現(xiàn)概率為0的情況,本文對(duì)互信息公式中的P(wi)和P(wi|Cj)進(jìn)行拉普拉斯平滑處理,具體如下式所示:

    (18)

    (19)

    其中,df(wi)表示特征項(xiàng)wi在整個(gè)訓(xùn)練集中的文本頻率,dftotal表示整個(gè)訓(xùn)練集的文本頻率,dfCj(wi)表示特征項(xiàng)wi在類(lèi)Cj訓(xùn)練集中的文本頻率,dfCj表示類(lèi)Cj訓(xùn)練集中的文本頻率。

    IMI-WNB算法的實(shí)現(xiàn)過(guò)程如下所示:

    算法2IMI-WNB算法

    輸入特征子集F={w1,w2,…,wk},郵件樣本集D={d1,d2,…,dl}

    輸出樣本集各樣本所屬類(lèi)別C

    1.計(jì)算P(Cham)和P(Cspam)

    2.for i=1 to k

    3.統(tǒng)計(jì)詞頻tfCspam(wi)和tfCham(wi)

    4.統(tǒng)計(jì)文檔頻率dfCspam(wi)和dfCham(wi)

    5.式(19)計(jì)算P(wi|Cspam)和P(wi|Cham)

    6.式(18)計(jì)算P(wi)

    7.式(1)計(jì)算互信息值MI(wi|Cspam)與MI(wi|Cham)

    8.式(3)計(jì)算詞頻因子αij

    9.式(7)計(jì)算類(lèi)間差異因子σij

    10.將式(1)、式(3)與式(7)結(jié)果代入式(16)計(jì)算得到IMI(wi,Cspam)與IMI(wi,Cham)值

    11.end

    12.for i=1 to l

    13.for each wiin di

    14.計(jì)算P(wi,Cspam)和P(wi,Cham)

    15.將IMI(wi,Cspam)、IMI(wi,Cham)、P(Cham)、P(Cspam)與P(wi|Cspam)代入式(17)中進(jìn)行計(jì)算

    16.end

    17.C(d,map)=max{C(di,ham),C(di,spam)} //判別類(lèi)型

    18.end

    算法2是垃圾郵件過(guò)濾分類(lèi)階段算法,在通過(guò)特征選擇階段算法1獲得特征子集后,算法2將IMI值作為屬性權(quán)重值應(yīng)用于樸素貝葉斯分類(lèi)中,體現(xiàn)出不同特征項(xiàng)對(duì)分類(lèi)決策貢獻(xiàn)的差異,消除部分樸素貝葉斯條件獨(dú)立性假設(shè)對(duì)分類(lèi)的不利影響,從而提高分類(lèi)精度。

    2.3 IMI-WNB算法的垃圾郵件過(guò)濾流程

    IMI-WNB算法的垃圾郵件過(guò)濾流程如圖1所示。首先,在郵件預(yù)處理階段對(duì)文本進(jìn)行去停用詞處理,然后再對(duì)文本進(jìn)行分詞,采用Python中文分詞組件jieba對(duì)文本進(jìn)行自動(dòng)分詞。其次,在特征選擇階段使用本文所提IMI算法對(duì)文本中的特征項(xiàng)進(jìn)行特征選擇。通過(guò)IMI算法可以將對(duì)分類(lèi)無(wú)關(guān)的特征項(xiàng)篩選出去。最后,在訓(xùn)練階段統(tǒng)計(jì)出樣本中的先驗(yàn)概率與條件概率,并在應(yīng)用階段使用IMI-WNB分類(lèi)器分類(lèi)時(shí)代入計(jì)算,根據(jù)計(jì)算出的最大后驗(yàn)概率對(duì)郵件文本進(jìn)行判定,當(dāng)垃圾郵件概率大于非垃圾郵件概率時(shí),分類(lèi)器判定該郵件文本為垃圾郵件。

    圖1 IMI-WNB算法的垃圾郵件過(guò)濾流程Fig.1 Spam filtering procedure of IMI-WNB algorithm

    3 實(shí)驗(yàn)結(jié)果與分析

    本文使用trec06c郵件語(yǔ)料庫(kù)對(duì)垃圾郵件進(jìn)行過(guò)濾實(shí)驗(yàn),并對(duì)IMI-WNB算法與傳統(tǒng)的NB算法進(jìn)行過(guò)濾效果對(duì)比。同時(shí),為了更充分地體現(xiàn)本文算法的過(guò)濾效果與現(xiàn)實(shí)意義,實(shí)驗(yàn)將本文算法與其他改進(jìn)算法進(jìn)行過(guò)濾效果對(duì)比。

    3.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)

    實(shí)驗(yàn)在Windows 10下進(jìn)行,硬件配置為i5-7300HQ 2.50 GHz CPU,內(nèi)存8.00 GB,硬盤(pán)500 GB。采用Python 3.7為實(shí)驗(yàn)環(huán)境。實(shí)驗(yàn)數(shù)據(jù)來(lái)自公開(kāi)的垃圾郵件語(yǔ)料庫(kù)trec06c,從中隨機(jī)抽取14 000封郵件作為樣本集,其中7 000封為正常郵件,7 000封為垃圾郵件。

    3.2 評(píng)價(jià)標(biāo)準(zhǔn)

    為了對(duì)垃圾郵件過(guò)濾效果進(jìn)行評(píng)價(jià),實(shí)驗(yàn)引入精確度P、召回率R和F值3個(gè)評(píng)價(jià)指標(biāo)。假設(shè)垃圾郵件被判定為垃圾郵件的總數(shù)為T(mén)spam,垃圾郵件被判定為正常郵件的總數(shù)為Fspam,正常郵件被判定為垃圾郵件的總數(shù)為Fham,則3個(gè)評(píng)價(jià)指標(biāo)的計(jì)算方法分別為:

    (20)

    (21)

    (22)

    其中,精確度代表了垃圾郵件的檢對(duì)率,正常郵件被誤判為垃圾郵件會(huì)降低精確度,召回率代表了垃圾郵件的檢出率,召回率低說(shuō)明有大量垃圾郵件被漏檢,F值為綜合精確度和召回率的評(píng)價(jià)標(biāo)準(zhǔn),其表示郵件過(guò)濾的綜合效果。

    3.3 實(shí)驗(yàn)結(jié)果

    本文實(shí)驗(yàn)過(guò)程步驟如下:

    步驟1對(duì)trec06c語(yǔ)料庫(kù)中選取的郵件樣本進(jìn)行分詞處理,建立停用詞表去除文本中的停用詞,并對(duì)文本進(jìn)行特征選擇。使用MI算法得到的特征項(xiàng)集為T(mén)MI,使用IMI算法得到的特征項(xiàng)集為T(mén)IMI。

    步驟2分別從特征項(xiàng)集TMI與TIMI中提取n個(gè)特征項(xiàng)t1,t2,…,tn組建特征向量空間RMI與RIMI,在特征向量空間中分別利用NB算法與IMI-WNB算法進(jìn)行分類(lèi)。

    步驟3將14 000封郵件樣本平均分為10份,采用十折交叉法對(duì)樣本進(jìn)行計(jì)算,即每次選取其中9份樣本作為訓(xùn)練集,1份樣本作為測(cè)試集進(jìn)行分類(lèi)實(shí)驗(yàn),每個(gè)樣本均有一次作為訓(xùn)練集進(jìn)行測(cè)試,每個(gè)維度總共進(jìn)行10次測(cè)試,最后計(jì)算10次實(shí)驗(yàn)平均值作為該維度的數(shù)據(jù)結(jié)果。實(shí)驗(yàn)選取向量空間維度n從10到700對(duì)郵件進(jìn)行分類(lèi),取平均值后繪制折線圖。精確度、召回率、F值的實(shí)驗(yàn)結(jié)果如圖2~圖4所示。

    圖2 2種算法的精確度實(shí)驗(yàn)結(jié)果Fig.2 Experimental results of precision of two algorithms

    圖3 2種算法的召回率實(shí)驗(yàn)結(jié)果Fig.3 Experimental results of recall rate of two algorithms

    圖4 2種算法的F值實(shí)驗(yàn)結(jié)果Fig.4 Experimental results of F-value of two algorithms

    從圖2可以看出:傳統(tǒng)NB算法的精確度隨著特征項(xiàng)維度的增大呈現(xiàn)先增大后降低再增大的趨勢(shì),且當(dāng)維度為150時(shí)精確度最低,當(dāng)特征維度達(dá)到500后,精確度逐漸趨于平緩;然而本文算法在低維度時(shí)的精確度與傳統(tǒng)NB算法相差不大,當(dāng)特征項(xiàng)的維度達(dá)到75后,其精確度開(kāi)始下降,且在維度為150時(shí)達(dá)到最低,但其精確度受到的影響明顯小于傳統(tǒng)NB算法,且本文算法的精確度整體上高于傳統(tǒng)NB算法。

    從圖3可以看出:傳統(tǒng)NB算法的召回率在特征維度達(dá)到20后開(kāi)始下降,當(dāng)特征維度達(dá)到150時(shí)召回率降至最低,接下來(lái)隨著特征項(xiàng)維度的增加召回率逐漸增加,當(dāng)維度達(dá)到500時(shí)召回率趨于穩(wěn)定;本文算法的召回率在特征維度為20時(shí)開(kāi)始下降,但下降速度相對(duì)傳統(tǒng)NB算法更加趨緩,且整體召回率高于傳統(tǒng)NB算法。類(lèi)似地,從圖4可以看出,相比傳統(tǒng)NB算法,本文算法的F值有明顯提高,且波動(dòng)更加平緩。

    在使用trec06c語(yǔ)料庫(kù)作為郵件樣本進(jìn)行郵件過(guò)濾時(shí),本文算法與PTw2v算法[18]、C4.5算法[19]、GWO_GA算法[20]的性能對(duì)比如表1所示。從表1可以看出:PTw2v算法的精確度與召回率相差不大,且有較好的分類(lèi)效果;本文算法相較C4.5算法召回率更高,說(shuō)明C4.5算法存在較多的垃圾郵件被漏檢,本文算法在F值上也高于該算法,說(shuō)明本文算法具有更好的分類(lèi)效果;GWO_GA算法的召回率較高,但在精確度上遠(yuǎn)低于本文算法,說(shuō)明該算法存在大量的正常郵件被誤判為垃圾郵件,且該算法的F值也略低于本文算法。

    表1 4種算法的性能對(duì)比Table 1 Performance comparison of four algorithms

    綜合分析上述實(shí)驗(yàn)結(jié)果可知,相比傳統(tǒng)NB算法,本文算法的精確度、召回率與F值明顯提高,且變化趨勢(shì)更加穩(wěn)定。

    4 結(jié)束語(yǔ)

    由于傳統(tǒng)互信息算法在特征選擇中對(duì)于詞頻以及類(lèi)間頻數(shù)差異考慮不足,本文提出一種改進(jìn)的互信息算法,并針對(duì)特征項(xiàng)在文本中的詞頻數(shù)以及類(lèi)間頻數(shù)差異對(duì)分類(lèi)的影響進(jìn)行分析與改進(jìn),有效利用訓(xùn)練集中的頻數(shù)信息,彌補(bǔ)了傳統(tǒng)互信息算法僅考慮到文本頻率的缺陷。同時(shí),本文對(duì)樸素貝葉斯算法進(jìn)行屬性加權(quán)并提出一種IMI-WNB算法,部分消除了樸素貝葉斯算法獨(dú)立性假設(shè)對(duì)分類(lèi)的不利影響。仿真實(shí)驗(yàn)結(jié)果表明,該算法明顯提高了郵件分類(lèi)的精確度、召回率、F值及穩(wěn)定性,且取得良好的過(guò)濾效果。本文的郵件過(guò)濾技術(shù)是基于郵件的文本內(nèi)容進(jìn)行分類(lèi),然而除了郵件文本內(nèi)容外,郵件還有題目、發(fā)送時(shí)間、收件人與發(fā)件人等郵件頭信息可供分類(lèi)判定。因此,下一步將利用加權(quán)樸素貝葉斯算法對(duì)郵件的文本內(nèi)容與郵件頭信息進(jìn)行綜合分析,以提高郵件過(guò)濾分類(lèi)效果。

    猜你喜歡
    垃圾郵件互信息詞頻
    基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
    園林科技(2021年3期)2022-01-19 03:17:48
    從“scientist(科學(xué)家)”到“spam(垃圾郵件)”,英語(yǔ)單詞的起源出人意料地有趣 精讀
    一種基于SMOTE和隨機(jī)森林的垃圾郵件檢測(cè)算法
    基于支持向量機(jī)與人工免疫系統(tǒng)的垃圾郵件過(guò)濾模型
    基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
    聯(lián)合互信息水下目標(biāo)特征選擇算法
    詞頻,一部隱秘的歷史
    改進(jìn)的互信息最小化非線性盲源分離算法
    基于增量式互信息的圖像快速匹配方法
    云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
    天天操日日干夜夜撸| 国产午夜精品一二区理论片| 久久精品国产a三级三级三级| 国产成人精品久久久久久| 亚洲,一卡二卡三卡| 久久毛片免费看一区二区三区| 国产男人的电影天堂91| 国产xxxxx性猛交| 久久精品人人爽人人爽视色| 天堂8中文在线网| 亚洲黑人精品在线| 91国产中文字幕| 欧美日韩一级在线毛片| 免费看十八禁软件| 久久天堂一区二区三区四区| 亚洲三区欧美一区| 欧美大码av| 搡老乐熟女国产| 亚洲精品一二三| 久久午夜综合久久蜜桃| 亚洲视频免费观看视频| 搡老乐熟女国产| 久久鲁丝午夜福利片| 久久国产亚洲av麻豆专区| 精品久久久久久久毛片微露脸 | 国产精品麻豆人妻色哟哟久久| 国产淫语在线视频| 精品少妇黑人巨大在线播放| 免费观看av网站的网址| 香蕉国产在线看| 亚洲精品乱久久久久久| 青青草视频在线视频观看| 欧美性长视频在线观看| 欧美成人精品欧美一级黄| h视频一区二区三区| 亚洲成色77777| 嫁个100分男人电影在线观看 | videos熟女内射| 国产欧美亚洲国产| 黄色一级大片看看| 黑人巨大精品欧美一区二区蜜桃| 中文字幕最新亚洲高清| 中文字幕最新亚洲高清| 黄色a级毛片大全视频| 人人妻人人澡人人看| 极品少妇高潮喷水抽搐| 久久久精品免费免费高清| www.av在线官网国产| 亚洲国产精品一区二区三区在线| 99香蕉大伊视频| 一本—道久久a久久精品蜜桃钙片| 国产精品 欧美亚洲| 一级黄片播放器| 欧美亚洲日本最大视频资源| 欧美黑人精品巨大| 精品免费久久久久久久清纯 | 视频区图区小说| www.熟女人妻精品国产| 中文字幕高清在线视频| 婷婷成人精品国产| 日韩电影二区| 国产男女超爽视频在线观看| 男人操女人黄网站| 欧美另类一区| 欧美精品啪啪一区二区三区 | 国产精品久久久久成人av| 飞空精品影院首页| 亚洲第一青青草原| 日韩熟女老妇一区二区性免费视频| 久久99精品国语久久久| 国产精品三级大全| 99国产精品一区二区三区| 亚洲欧美日韩另类电影网站| 亚洲成人免费av在线播放| 另类亚洲欧美激情| 中文字幕人妻丝袜制服| 精品国产一区二区久久| 久久99热这里只频精品6学生| 亚洲欧美精品综合一区二区三区| 丁香六月天网| 女性生殖器流出的白浆| 国产一区二区三区av在线| 欧美另类一区| 欧美性长视频在线观看| 在线观看www视频免费| 人妻 亚洲 视频| 免费女性裸体啪啪无遮挡网站| 久久九九热精品免费| 国产精品免费大片| 好男人视频免费观看在线| 欧美成人午夜精品| 亚洲国产精品国产精品| 欧美黄色片欧美黄色片| 人体艺术视频欧美日本| 交换朋友夫妻互换小说| 久久性视频一级片| 日韩一卡2卡3卡4卡2021年| 亚洲av电影在线观看一区二区三区| 国产精品三级大全| 91九色精品人成在线观看| 97精品久久久久久久久久精品| 三上悠亚av全集在线观看| 国产在线观看jvid| 国产免费现黄频在线看| 日本色播在线视频| 丰满迷人的少妇在线观看| 亚洲精品第二区| 另类亚洲欧美激情| 日本a在线网址| 99香蕉大伊视频| 中文精品一卡2卡3卡4更新| 人人妻人人添人人爽欧美一区卜| 看免费av毛片| 超碰成人久久| 国产精品一二三区在线看| 无遮挡黄片免费观看| 99re6热这里在线精品视频| 国产亚洲精品久久久久5区| 成年人黄色毛片网站| 777米奇影视久久| 精品少妇久久久久久888优播| 久久久久网色| 国产欧美日韩一区二区三区在线| 18禁国产床啪视频网站| 国产精品一国产av| 大片免费播放器 马上看| 午夜福利视频在线观看免费| 一级片免费观看大全| 欧美大码av| 久久久久久人人人人人| 99精国产麻豆久久婷婷| 亚洲精品国产色婷婷电影| 天堂俺去俺来也www色官网| 亚洲精品美女久久av网站| 亚洲国产av影院在线观看| 免费日韩欧美在线观看| 精品少妇黑人巨大在线播放| 自拍欧美九色日韩亚洲蝌蚪91| 黄色视频在线播放观看不卡| 大香蕉久久网| 夫妻午夜视频| 好男人电影高清在线观看| 色网站视频免费| 日韩av免费高清视频| 欧美成人午夜精品| 亚洲中文av在线| 亚洲免费av在线视频| 国产片特级美女逼逼视频| 欧美激情 高清一区二区三区| 欧美日韩一级在线毛片| 国产精品熟女久久久久浪| 国产不卡av网站在线观看| av福利片在线| 国产精品一区二区精品视频观看| 五月开心婷婷网| 日本vs欧美在线观看视频| 老司机影院成人| 免费看不卡的av| 中文字幕人妻熟女乱码| 欧美精品亚洲一区二区| 久久精品人人爽人人爽视色| av一本久久久久| 老司机靠b影院| 捣出白浆h1v1| 夫妻午夜视频| 男女午夜视频在线观看| 视频在线观看一区二区三区| 女人爽到高潮嗷嗷叫在线视频| 精品视频人人做人人爽| 香蕉国产在线看| 美国免费a级毛片| 久久国产精品男人的天堂亚洲| 国产亚洲精品久久久久5区| 欧美黄色淫秽网站| 日韩免费高清中文字幕av| 多毛熟女@视频| 国产亚洲精品久久久久5区| 一级片'在线观看视频| 丰满少妇做爰视频| 欧美+亚洲+日韩+国产| 夫妻性生交免费视频一级片| 国产97色在线日韩免费| 欧美日韩国产mv在线观看视频| 日本欧美国产在线视频| 脱女人内裤的视频| 777久久人妻少妇嫩草av网站| 亚洲欧美色中文字幕在线| 黄色视频不卡| 国产成人av教育| 黄色毛片三级朝国网站| 免费在线观看视频国产中文字幕亚洲 | 每晚都被弄得嗷嗷叫到高潮| 十八禁高潮呻吟视频| 免费黄频网站在线观看国产| 日韩,欧美,国产一区二区三区| 国产有黄有色有爽视频| 久久精品久久久久久噜噜老黄| 欧美久久黑人一区二区| 2021少妇久久久久久久久久久| 天天躁夜夜躁狠狠躁躁| 久久av网站| 国产福利在线免费观看视频| 亚洲av男天堂| 女人爽到高潮嗷嗷叫在线视频| 黄色 视频免费看| 1024香蕉在线观看| 人成视频在线观看免费观看| 少妇的丰满在线观看| 精品国产国语对白av| 少妇粗大呻吟视频| 五月开心婷婷网| 极品人妻少妇av视频| 久久青草综合色| 伊人久久大香线蕉亚洲五| 欧美黑人欧美精品刺激| 亚洲综合色网址| 婷婷成人精品国产| 最新的欧美精品一区二区| 99久久综合免费| 国产精品久久久人人做人人爽| 精品一区二区三区四区五区乱码 | 少妇裸体淫交视频免费看高清 | 亚洲欧美一区二区三区久久| 欧美人与善性xxx| 日韩中文字幕视频在线看片| 亚洲av成人不卡在线观看播放网 | 欧美少妇被猛烈插入视频| 自线自在国产av| 亚洲精品自拍成人| 免费在线观看视频国产中文字幕亚洲 | 美女高潮到喷水免费观看| 大片电影免费在线观看免费| av在线app专区| 青草久久国产| 中文乱码字字幕精品一区二区三区| 久久鲁丝午夜福利片| 美女扒开内裤让男人捅视频| 久久狼人影院| 99香蕉大伊视频| 国产精品免费视频内射| 国产免费福利视频在线观看| 亚洲av片天天在线观看| 国产欧美亚洲国产| 天堂8中文在线网| 久久狼人影院| 久久久久视频综合| 老熟女久久久| 中文字幕人妻熟女乱码| 亚洲欧美激情在线| 91精品三级在线观看| 欧美人与性动交α欧美精品济南到| 亚洲成国产人片在线观看| 国产男人的电影天堂91| 国产精品熟女久久久久浪| 免费黄频网站在线观看国产| 中文字幕制服av| 欧美黑人精品巨大| 国产有黄有色有爽视频| 久久中文字幕一级| 一区二区三区精品91| 午夜激情久久久久久久| 日韩免费高清中文字幕av| 亚洲av成人不卡在线观看播放网 | 精品福利永久在线观看| 男女高潮啪啪啪动态图| 国产精品国产三级国产专区5o| 欧美人与善性xxx| 在线观看免费午夜福利视频| netflix在线观看网站| 国产免费又黄又爽又色| 久久久久久久久久久久大奶| 青春草亚洲视频在线观看| 亚洲精品国产av蜜桃| 老司机影院毛片| 日韩中文字幕视频在线看片| 九色亚洲精品在线播放| 成年动漫av网址| 国产午夜精品一二区理论片| 老汉色∧v一级毛片| 精品国产一区二区三区四区第35| 最近最新中文字幕大全免费视频 | 午夜福利视频精品| 韩国精品一区二区三区| 亚洲中文av在线| 精品一区二区三区四区五区乱码 | 日韩精品免费视频一区二区三区| 婷婷色麻豆天堂久久| 免费在线观看日本一区| 三上悠亚av全集在线观看| 香蕉丝袜av| 亚洲精品国产一区二区精华液| 国产亚洲一区二区精品| 成人免费观看视频高清| 啦啦啦在线观看免费高清www| 久久国产精品影院| 成年人免费黄色播放视频| 日韩制服骚丝袜av| 男人爽女人下面视频在线观看| 亚洲,欧美精品.| 视频区图区小说| 亚洲一区中文字幕在线| 亚洲,欧美,日韩| 首页视频小说图片口味搜索 | 嫁个100分男人电影在线观看 | 婷婷色综合大香蕉| 久久久久久免费高清国产稀缺| 日韩av在线免费看完整版不卡| 色婷婷久久久亚洲欧美| 免费观看人在逋| 亚洲中文日韩欧美视频| 美女高潮到喷水免费观看| 色视频在线一区二区三区| 久久久精品免费免费高清| 色综合欧美亚洲国产小说| 十八禁高潮呻吟视频| bbb黄色大片| 欧美日韩黄片免| 丝袜人妻中文字幕| 久久国产精品影院| 又大又爽又粗| 黄网站色视频无遮挡免费观看| 国产精品久久久久久人妻精品电影 | 亚洲天堂av无毛| 久久人人爽人人片av| 母亲3免费完整高清在线观看| 免费日韩欧美在线观看| 纵有疾风起免费观看全集完整版| 亚洲欧美中文字幕日韩二区| 母亲3免费完整高清在线观看| 在现免费观看毛片| 欧美在线一区亚洲| 国产精品一区二区精品视频观看| 纵有疾风起免费观看全集完整版| 精品福利观看| 亚洲国产欧美一区二区综合| 国产精品一区二区精品视频观看| 视频在线观看一区二区三区| 亚洲熟女毛片儿| 男女边摸边吃奶| 水蜜桃什么品种好| 美女脱内裤让男人舔精品视频| 精品少妇内射三级| 精品国产一区二区三区久久久樱花| 99久久综合免费| 国产免费现黄频在线看| 亚洲国产最新在线播放| 亚洲成色77777| 精品高清国产在线一区| 成在线人永久免费视频| 我要看黄色一级片免费的| 久久人妻福利社区极品人妻图片 | 国产精品久久久久久人妻精品电影 | 国产男人的电影天堂91| 一区福利在线观看| 亚洲精品国产色婷婷电影| 国产精品久久久人人做人人爽| 男女边吃奶边做爰视频| 考比视频在线观看| 精品第一国产精品| 久久精品国产亚洲av涩爱| 亚洲欧美日韩高清在线视频 | 久久久欧美国产精品| www.精华液| 久久亚洲精品不卡| 中国国产av一级| 亚洲,欧美精品.| 黑人欧美特级aaaaaa片| 99国产精品免费福利视频| 校园人妻丝袜中文字幕| 成人免费观看视频高清| 人妻人人澡人人爽人人| 男女免费视频国产| 一级a爱视频在线免费观看| 老鸭窝网址在线观看| 亚洲欧美精品综合一区二区三区| 只有这里有精品99| 欧美日韩亚洲高清精品| 精品久久久久久电影网| 欧美av亚洲av综合av国产av| 国产激情久久老熟女| 男人添女人高潮全过程视频| √禁漫天堂资源中文www| av视频免费观看在线观看| 久久久精品94久久精品| 亚洲第一青青草原| 亚洲,一卡二卡三卡| 女人久久www免费人成看片| 国产成人精品久久二区二区免费| 中文字幕人妻丝袜制服| 老司机在亚洲福利影院| 最新的欧美精品一区二区| 91精品伊人久久大香线蕉| 国产三级黄色录像| 精品国产国语对白av| 久久中文字幕一级| 亚洲国产精品成人久久小说| 十八禁人妻一区二区| 亚洲精品在线美女| 国产国语露脸激情在线看| av线在线观看网站| 大码成人一级视频| 欧美变态另类bdsm刘玥| 高潮久久久久久久久久久不卡| 在线精品无人区一区二区三| 99国产精品99久久久久| 免费女性裸体啪啪无遮挡网站| 免费日韩欧美在线观看| 国产黄色免费在线视频| 老司机靠b影院| 视频区图区小说| 精品人妻一区二区三区麻豆| 国产亚洲欧美精品永久| 1024香蕉在线观看| 啦啦啦在线免费观看视频4| 视频区欧美日本亚洲| 一区二区三区乱码不卡18| 亚洲欧美精品自产自拍| 老司机亚洲免费影院| 欧美在线一区亚洲| 丰满饥渴人妻一区二区三| 亚洲美女黄色视频免费看| 每晚都被弄得嗷嗷叫到高潮| 国产成人免费观看mmmm| 久久亚洲精品不卡| 亚洲欧美日韩高清在线视频 | 国产欧美日韩精品亚洲av| 日日摸夜夜添夜夜爱| 免费高清在线观看日韩| 一边摸一边抽搐一进一出视频| 亚洲精品日韩在线中文字幕| 国产高清视频在线播放一区 | 夜夜骑夜夜射夜夜干| 国产成人精品久久二区二区91| 97精品久久久久久久久久精品| 亚洲国产欧美一区二区综合| 亚洲一区中文字幕在线| 大型av网站在线播放| 午夜激情av网站| 最新的欧美精品一区二区| 日韩制服丝袜自拍偷拍| 亚洲国产欧美一区二区综合| 精品国产超薄肉色丝袜足j| 精品熟女少妇八av免费久了| 在线观看人妻少妇| 夫妻午夜视频| 欧美日本中文国产一区发布| 久久精品国产综合久久久| 久久精品国产亚洲av高清一级| 欧美日韩精品网址| 久久九九热精品免费| 好男人电影高清在线观看| 一本色道久久久久久精品综合| 国产精品免费大片| 免费看不卡的av| 久久青草综合色| 大陆偷拍与自拍| 国产精品久久久久久精品电影小说| 十八禁人妻一区二区| 中文字幕制服av| 亚洲免费av在线视频| 欧美黑人精品巨大| av在线播放精品| 亚洲人成77777在线视频| 欧美精品啪啪一区二区三区 | 91国产中文字幕| 成人国产一区最新在线观看 | 免费在线观看完整版高清| 99国产精品99久久久久| 高清黄色对白视频在线免费看| 麻豆乱淫一区二区| 国产极品粉嫩免费观看在线| 亚洲国产成人一精品久久久| 成人手机av| 成人18禁高潮啪啪吃奶动态图| 亚洲国产欧美网| 国产亚洲欧美在线一区二区| 日日爽夜夜爽网站| 精品人妻熟女毛片av久久网站| 欧美大码av| 久久天堂一区二区三区四区| 国产精品一区二区在线不卡| 国产一卡二卡三卡精品| 欧美另类一区| 国产精品久久久人人做人人爽| 亚洲国产欧美在线一区| 成年av动漫网址| 观看av在线不卡| 国产一级毛片在线| 成人手机av| 晚上一个人看的免费电影| 视频区图区小说| 亚洲 国产 在线| 亚洲人成电影免费在线| 中文字幕制服av| 最黄视频免费看| 久久久久久久大尺度免费视频| 成年人黄色毛片网站| 美女视频免费永久观看网站| 成年人黄色毛片网站| 欧美亚洲日本最大视频资源| 一区二区三区精品91| 黄网站色视频无遮挡免费观看| 叶爱在线成人免费视频播放| 免费观看a级毛片全部| 国产黄色视频一区二区在线观看| 十八禁人妻一区二区| 老司机靠b影院| 国产伦人伦偷精品视频| 高清欧美精品videossex| 成人亚洲精品一区在线观看| 一级毛片 在线播放| 国产在线一区二区三区精| 只有这里有精品99| 超碰97精品在线观看| 亚洲天堂av无毛| 亚洲精品一区蜜桃| 91麻豆av在线| 午夜福利一区二区在线看| 欧美另类一区| 亚洲视频免费观看视频| 国产成人欧美在线观看 | 丝袜喷水一区| 亚洲国产中文字幕在线视频| 亚洲精品一区蜜桃| 狂野欧美激情性xxxx| 男人添女人高潮全过程视频| 男女高潮啪啪啪动态图| 欧美黑人欧美精品刺激| 久久国产亚洲av麻豆专区| 精品久久久久久久毛片微露脸 | √禁漫天堂资源中文www| 精品人妻在线不人妻| 日韩av免费高清视频| 国产av一区二区精品久久| 国产视频首页在线观看| 亚洲av美国av| 一级毛片女人18水好多 | 国产av国产精品国产| 黄色视频不卡| 国产成人a∨麻豆精品| 精品久久久久久久毛片微露脸 | 国产精品一区二区在线不卡| 久久av网站| 国精品久久久久久国模美| 久久女婷五月综合色啪小说| av电影中文网址| 亚洲av日韩在线播放| tube8黄色片| 日韩大片免费观看网站| 国产又爽黄色视频| 午夜激情久久久久久久| 久久亚洲国产成人精品v| 真人做人爱边吃奶动态| 性色av乱码一区二区三区2| 亚洲欧美日韩另类电影网站| 亚洲美女黄色视频免费看| 午夜视频精品福利| 精品国产一区二区久久| 精品国产一区二区三区四区第35| 久久 成人 亚洲| 久久久亚洲精品成人影院| 久久人人97超碰香蕉20202| av一本久久久久| 99国产综合亚洲精品| 精品国产超薄肉色丝袜足j| xxx大片免费视频| 国产欧美亚洲国产| 狂野欧美激情性bbbbbb| 少妇人妻久久综合中文| 久久亚洲国产成人精品v| 欧美 亚洲 国产 日韩一| 69精品国产乱码久久久| av在线老鸭窝| 国产av国产精品国产| 日韩一本色道免费dvd| 久久精品国产a三级三级三级| 久久影院123| 51午夜福利影视在线观看| 国产欧美日韩一区二区三区在线| 久久久精品94久久精品| 丝袜美腿诱惑在线| 婷婷色av中文字幕| 久久久国产一区二区| 亚洲成色77777| 国产精品一二三区在线看| xxx大片免费视频| 国产亚洲欧美在线一区二区| 秋霞在线观看毛片| 成年女人毛片免费观看观看9 | 国产日韩一区二区三区精品不卡| 性色av乱码一区二区三区2| 国产欧美日韩一区二区三区在线| 男女国产视频网站| 人人妻人人澡人人爽人人夜夜| 99热全是精品| 91麻豆av在线| 亚洲成色77777| 亚洲成人免费电影在线观看 | 人人妻,人人澡人人爽秒播 | 欧美在线黄色| 王馨瑶露胸无遮挡在线观看| 国产一区二区三区av在线| 久久精品aⅴ一区二区三区四区| 女人爽到高潮嗷嗷叫在线视频| 日本午夜av视频| 国产又色又爽无遮挡免| 婷婷色综合www| 欧美日韩一级在线毛片| kizo精华| 男人爽女人下面视频在线观看| 性少妇av在线| 亚洲国产日韩一区二区| 国产精品免费视频内射| 可以免费在线观看a视频的电影网站| 国产欧美亚洲国产|