• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    用于垃圾郵件的貝葉斯過(guò)濾算法研究

    2017-04-12 06:39:11曹翠玲王媛媛袁野趙國(guó)冬
    關(guān)鍵詞:垃圾郵件樸素貝葉斯

    曹翠玲,王媛媛,袁野,趙國(guó)冬

    (1. 哈爾濱工程大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001;2. 東北林業(yè)大學(xué)機(jī)電工程學(xué)院,黑龍江 哈爾濱 150040)

    用于垃圾郵件的貝葉斯過(guò)濾算法研究

    曹翠玲1,王媛媛2,袁野1,趙國(guó)冬1

    (1. 哈爾濱工程大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001;2. 東北林業(yè)大學(xué)機(jī)電工程學(xué)院,黑龍江 哈爾濱 150040)

    研究了基于改進(jìn)的支持向量機(jī)(SVM,support vector machine)算法結(jié)合樸素貝葉斯算法在垃圾郵件過(guò)濾中的應(yīng)用。首先,SVM 對(duì)訓(xùn)練集樣本空間中兩類交界處的集合構(gòu)造一個(gè)最優(yōu)分類超平面;然后,每個(gè)樣本根據(jù)與其最近鄰的類型是否相同進(jìn)行取舍,從而降低樣本空間也提高了每個(gè)樣本類別的獨(dú)立性;最后,利用樸素貝葉斯算法對(duì)郵件分類。仿真實(shí)驗(yàn)結(jié)果表明,該算法降低了樣本空間復(fù)雜度,快速得到最優(yōu)分類特征子集,有效地提高了垃圾郵件過(guò)濾的分類速度、準(zhǔn)確率和召回率。

    樸素貝葉斯;支持向量機(jī);修剪;垃圾郵件

    1 引言

    目前的垃圾郵件過(guò)濾技術(shù)主要有以下幾種。

    1) 黑白名單過(guò)濾[1,2],其原理是將發(fā)送方的郵箱或者IP放入黑名單列表中,但當(dāng)對(duì)方采用IP代理、動(dòng)態(tài)IP、地址隱藏、偽造等方式發(fā)送郵件時(shí),該方法就失效了。

    2) 基于規(guī)則的過(guò)濾技術(shù),該技術(shù)的代表是決策樹(shù)。最早的決策樹(shù)學(xué)習(xí)系統(tǒng)要追溯到 Hunt于1966年研制的一個(gè)概念學(xué)習(xí)系統(tǒng)(CLS, concept learning system),該系統(tǒng)第一次提出使用決策樹(shù)進(jìn)行概念學(xué)習(xí),是許多決策樹(shù)學(xué)習(xí)算法的基礎(chǔ)。隨后,Quinlan提出了迭代分類算法 ID3,1993年又提出C4.5算法[3,4],旨在克服ID3算法在應(yīng)用中的不足。C4.5算法對(duì)于ID3算法的重要改進(jìn)是使用信息增益率來(lái)選擇屬性。2002年,Ruggieri提出了EC4.5算法[5],EC4.5算法采用二分搜索取代線性搜索,還提出幾種不同的尋找連續(xù)屬性的局部閉值的改進(jìn)策略。實(shí)驗(yàn)表明,在生成同樣一棵決策樹(shù)時(shí),與C4.5算法相比,EC4.5算法可將效率提高5倍,但EC4.5算法占用內(nèi)存比C4.5算法多。

    3) 基于統(tǒng)計(jì)的智能學(xué)習(xí)技術(shù),支持向量機(jī)(SVM)、樸素貝葉斯(NB,native Bayes)等都是智能學(xué)習(xí)技術(shù)。比較SVM和NB及其改進(jìn)算法,實(shí)驗(yàn)結(jié)果表明,在召回率和準(zhǔn)確率上,SVM算法有較大優(yōu)勢(shì),但是在分類速度和訓(xùn)練集、測(cè)試集大小上,樸素貝葉斯算法有明顯優(yōu)勢(shì)。馬小龍[6]提出了SVM-EM樸素貝葉斯算法,該算法先利用SVM算法將數(shù)據(jù)集分成完整集和缺失集,計(jì)算缺失屬性數(shù)據(jù)項(xiàng)與完整屬性數(shù)據(jù)項(xiàng)的相關(guān)度,利用EM 算法對(duì)數(shù)據(jù)不完整屬性進(jìn)行修補(bǔ)處理,最后利用樸素貝葉斯算法分類。SVM-EM算法主要是根據(jù)修補(bǔ)不完整屬性來(lái)分類的,缺點(diǎn)是隨著郵件數(shù)量的增多,屬性也隨著增多,其中的冗余屬性也相應(yīng)增加,該算法并沒(méi)有處理冗余屬性,隨著郵件數(shù)量和樣本集的增加,分類速度和吞吐量就會(huì)降低。本文提出的改進(jìn)的樸素貝葉斯(TSVM-NB)算法有效地解決了冗余屬性,提高了分類速度、準(zhǔn)確率和召回率。該算法首先利用SVM 對(duì)訓(xùn)練集樣本空間中兩類交界處的集合構(gòu)造一個(gè)最優(yōu)分類超平面,明確每個(gè)樣本根據(jù)與其最近鄰的類型是否相同進(jìn)行取舍,舍去冗余屬性,從而降低樣本空間也提高了每個(gè)樣本類別的獨(dú)立性,最后利用樸素貝葉斯算法對(duì)郵件分類,在分類速度和準(zhǔn)確率上都有所提高。

    2 樸素貝葉斯算法及其改進(jìn)

    2.1 垃圾郵件過(guò)濾流程

    電子郵件是基于文本形式的,而且本身是一種無(wú)結(jié)構(gòu)的文本,為了使計(jì)算機(jī)能夠?qū)︵]件進(jìn)行學(xué)習(xí)和處理,一般采用空間向量模型,將電子郵件集用向量集合表示,所以需要對(duì)郵件預(yù)處理。預(yù)處理包括文本分詞、文本標(biāo)注、特征選擇、特征詞權(quán)重計(jì)算等。

    預(yù)處理完成后就是郵件分類,現(xiàn)有的主流文本分類方法是樸素貝葉斯算法和支持向量機(jī)算法,兩者的分類原理、使用場(chǎng)合、效率等各方面都有所不同。圖1為垃圾郵件過(guò)濾的簡(jiǎn)單流程。

    圖1 垃圾郵件過(guò)濾的簡(jiǎn)單流程

    1) 文本分詞是將一段連續(xù)的中文句子按照一定的規(guī)則拆分成具有一定語(yǔ)義的詞,想要對(duì)一句中文進(jìn)行處理,必須要將這句中文拆分成不同的詞來(lái)進(jìn)行處理,這是對(duì)中文信息處理的基礎(chǔ)。

    2) 文本標(biāo)注是對(duì)分詞詞性標(biāo)注,以便后續(xù)的特征選擇,即要確定每個(gè)詞是名詞、動(dòng)詞、形容詞或其他詞性,除此之外,還需要在集合中使用停用詞表刪除助詞、虛詞等無(wú)意義或者貢獻(xiàn)不大的詞語(yǔ)。

    3) 電子郵件內(nèi)容經(jīng)過(guò)分詞處理后,形成一個(gè)代表電子郵件內(nèi)容的特征向量,這個(gè)特征向量包含了郵件內(nèi)容所有被劃分的詞,特征項(xiàng)提取是指從分詞結(jié)果集中選擇具有代表文章內(nèi)容信息的分詞。

    4) 對(duì)于不同的特征選擇方法,其特征向量權(quán)重的計(jì)算方法不同,權(quán)重代表的意義也不一樣。比如,TF-IDF[7]是根據(jù)一篇文檔詞如果出現(xiàn)頻率高,但是在其他文檔出現(xiàn)頻率低,則說(shuō)明該詞具有很好的區(qū)分文檔的能力,詞頻方法是根據(jù)某個(gè)詞出現(xiàn)的頻率,將出現(xiàn)頻率小的刪除。

    5) 本文的重點(diǎn)就是分類,下文詳細(xì)介紹分類方法以及在傳統(tǒng)的分類方法上的改進(jìn)算法。

    2.2 樸素貝葉斯算法模型

    樸素貝葉斯文本分類原理[8~10]是求解向量X (x1, x2,… ,xn)屬于類別 C (c1, c2,…, cj)的概率值(P1, P2,… ,Pn),其中,Pn為 X (x1, x2,… ,xn)屬于cj的概率,則 max(P1, P2,… ,Pn)所對(duì)應(yīng)的類別就是文本X所屬的類別,因此,分類問(wèn)題被描述為求解方程式(1)的最大值。

    其中

    1) P( cj)是訓(xùn)練文本中,文本屬于類別 cj的概率。

    3) P( c1,c2,… ,cn)是給定所有類別的聯(lián)合概率。

    顯然,對(duì)于給定的所有類別,分母 P( c1, c2,…,cn)是一個(gè)已知的常數(shù),所以,將式(1)簡(jiǎn)化為求解式(2)的最大值。

    又根據(jù)樸素貝葉斯假設(shè),文本特征向量屬性x1,x2,… ,xn獨(dú)立同分布,其聯(lián)合概率分布等于各個(gè)屬性特征概率分布的乘積,即

    所以

    4) 在前文提到的樸素貝葉斯算法及其改進(jìn)算法利用的都是樸素貝葉斯的基本原理,只是放松了獨(dú)立性假設(shè)條件,但是那些實(shí)際上相互不獨(dú)立的屬性都還是存在于訓(xùn)練樣本集中。從式(4)中可以看出,最后計(jì)算文本類別概率時(shí),用到的還是條件獨(dú)立的假設(shè),那么實(shí)際上相互不獨(dú)立的屬性還是限制了算法的性能,特別是在準(zhǔn)確率和召回率方面,這些算法都遇到了一定的瓶頸。那么,有沒(méi)有一種算法,可以將獨(dú)立性假設(shè)條件應(yīng)用到現(xiàn)實(shí)世界中?如果某個(gè)算法將所有參與到計(jì)算中的樣本集屬性根據(jù)其是否相關(guān)聯(lián)處理,即如果 2個(gè)屬性之間是有關(guān)系、不獨(dú)立的,就能確定這 2個(gè)屬性所屬類別是否相同,然后根據(jù)算法來(lái)處理這2個(gè)屬性,這就是本文提出的改進(jìn)的樸素貝葉斯算法TSVM-NB。

    2.3 基于SVM算法的改進(jìn)樸素貝葉斯算法

    2.3.1 支持向量機(jī)

    支持向量機(jī)[11,12]因?yàn)轱@著的泛化能力而倍受人們的青睞,原理是在特征空間內(nèi)構(gòu)造出一個(gè)超平面,使兩類之間的寬度達(dá)到最大,即距離構(gòu)造的超平面最遠(yuǎn),但還必須使類別的錯(cuò)分懲罰達(dá)到最小,所以SVM的本質(zhì)就是二次尋優(yōu)問(wèn)題。

    在訓(xùn)練集可分的情況下,SVM構(gòu)造一個(gè)最優(yōu)超平面

    使樣本集(xi, yi)( i =1,2,… ,n;{+1 ,?1 }),滿足約束條件

    并且邊界平面最優(yōu)化,即最小化倒數(shù),

    當(dāng)訓(xùn)練集線性不可分時(shí),引進(jìn)松弛因子εi≥ 0及懲罰參數(shù)C,在約束條件1 ? εi( i =1,…, n)下最小化函數(shù)分類規(guī)則只需取

    核函數(shù)的引入是SVM算法的一大特點(diǎn),低維空間向量集往往很難劃分,那就自然想到將低維空間映射到高維空間,但隨之就會(huì)增加計(jì)算復(fù)雜度,而核函數(shù)很巧妙地解決了這個(gè)問(wèn)題。

    K (x, y) =φ( x )φ(y),其中,φ表示某種映射,只要適當(dāng)選擇核函數(shù),就可以得到對(duì)應(yīng)的高維空間的分類函數(shù)

    其中, φ( x)是比x高維的向量(無(wú)需知道φ的具體形式),由于 K (x, y) =φ(x )? φ(y)只涉及x、y,并沒(méi)有涉及高維運(yùn)算,所以沒(méi)有增加計(jì)算復(fù)雜度。

    2.3.2 改進(jìn)的樸素貝葉斯TSVM-NB

    前文提到,樸素貝葉斯算法的使用前提條件是訓(xùn)練集樣本中的屬性是相互獨(dú)立的,利用支持向量機(jī)中的原理,可以找到完美的一個(gè)超平面,將兩類之間的距離達(dá)到最大即兩類邊界處的混疊情況不會(huì)出現(xiàn),但是在實(shí)際應(yīng)用中,這種獨(dú)立性假設(shè)條件是不成立的,這就嚴(yán)重影響了樸素貝葉斯算法分類的召回率與正確率,本文利用支持向量機(jī)修剪技術(shù)[13]降低屬性之間的交叉重疊,增強(qiáng)其獨(dú)立性,并結(jié)合樸素貝葉算法分類速度快的優(yōu)點(diǎn)提出了一種改進(jìn)的樸素貝葉斯算法TSVM-NB。

    首先對(duì)訓(xùn)練集利用樸素貝葉斯算法進(jìn)行初次訓(xùn)練,得到訓(xùn)練集合中的每個(gè)向量的類別及初次訓(xùn)練類別結(jié)合,然后用下面算法對(duì)訓(xùn)練集合進(jìn)行修剪。

    找出每一個(gè)向量點(diǎn)的最近鄰,然后對(duì)每一向量點(diǎn)做如下操作,如果該點(diǎn)與其最近鄰屬于同類,則保留此點(diǎn);如果該點(diǎn)與其最近鄰屬于異類,將該點(diǎn)刪除。

    什么是最近鄰,怎么找到最近鄰?采用歐式距離作為2個(gè)向量之間的距離,即設(shè)2個(gè)向量為x (x1, x2,… ,xn), x (x1,x2,… ,xn),則x與 x之

    i ii i j jj jij間的距離定義為

    一個(gè)向量的最近鄰就是與其距離最近的向量。

    上述方法的實(shí)現(xiàn)方法如下:給定一個(gè)已經(jīng)被樸素貝葉算法初次訓(xùn)練過(guò)的訓(xùn)練集 (x1, y1),(x2, y2),…, (x ,y )(x ∈ Rn,y ∈{?1 ,1},i= 1,2,3,…, m),將訓(xùn)

    mmi i練集表示為矩陣

    輸入: X (x1, x2,…, xm),Y (y1, y2,… ,ym)為樣本訓(xùn)練集向量。

    輸出:經(jīng)過(guò)TSVM訓(xùn)練之后的樣本類別向量V (v1, v2,…, vm)。

    1) 計(jì)算每2個(gè)向量的距離,自身距離為無(wú)窮

    2) 找到每個(gè)向量的最近鄰

    3) 判斷每個(gè)向量的類標(biāo)與其最近鄰是否一致,類標(biāo)不一致,則刪除該向量

    修剪后的訓(xùn)練集用NB算法對(duì)郵件分類。

    3 算法在郵件過(guò)濾中的實(shí)現(xiàn)

    郵件分類的具體實(shí)現(xiàn)方式,如圖2所示。

    1) 以大量的正常郵件和垃圾郵件作為訓(xùn)練集,訓(xùn)練集分詞并標(biāo)注,采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所研發(fā)的 ICTCLAS漢語(yǔ)分詞系統(tǒng)實(shí)現(xiàn)自動(dòng)分詞和文本標(biāo)注。

    圖2 垃圾郵件過(guò)濾流程

    2) 特征選擇采用信息增益的方法,在不區(qū)分垃圾郵件與正常郵件的全域范圍內(nèi),計(jì)算每個(gè)特征X的IG值,然后按照IG值大小排序,依次選擇所需數(shù)量作為特征。選擇完成之后構(gòu)成特征向量,特征向量代表該郵件。

    3) 特征向量構(gòu)成之后先用樸素貝葉斯算法對(duì)特征向量初次訓(xùn)練,得到初始的特征向量訓(xùn)練集合及其類別。

    4) 用TSVM對(duì)3)中的特征向量修剪,修剪的目的是降低特征屬性之間的獨(dú)立性約束,即降低維度,使特征向量集合減少冗余。修剪之后得到修剪后的訓(xùn)練集。

    5) 樸素貝葉斯算法根據(jù)修剪后的訓(xùn)練集對(duì)郵件分類。

    4 實(shí)驗(yàn)結(jié)果分析

    本文所有實(shí)驗(yàn)都是在普通PC(Intel CORE 7i,2.60 GHz CPU,8.0 GB RAM),軟件為MyEclipse 8.5,算法語(yǔ)言為 Java和 Matlab實(shí)現(xiàn)提出的TSVM-NB算法,實(shí)驗(yàn)數(shù)據(jù)來(lái)自數(shù)據(jù)堂DATAMALL的5 000封正常郵件和5 000封垃圾郵件,其中,4 000封垃圾郵件和4 000封正常郵件作為訓(xùn)練集,其余的作為測(cè)試集。表1是對(duì)數(shù)據(jù)集的基本描述。

    表1 數(shù)據(jù)集描述

    垃圾郵件和正常郵件都來(lái)自不同的領(lǐng)域,并且涉及的垃圾類別也不一樣。例如,垃圾廣告中就包含很多不正常營(yíng)銷(xiāo)、推銷(xiāo)、培訓(xùn)等垃圾信息;特殊亂碼字符類垃圾郵件往往是在一些亂碼字符中夾雜一些上述垃圾廣告或者黃色暴力廣告;特殊言論是包含一些敏感詞匯,宣傳不正當(dāng)宗教,威脅國(guó)家安全等的一些言論信息。正常的工作和交流郵件就是人與人之間基本溝通的郵件,當(dāng)然這些郵件當(dāng)中可能也包含正常廣告、營(yíng)銷(xiāo)類等內(nèi)容。

    最后從召回率、正確率以及在不同訓(xùn)練集數(shù)量下的運(yùn)行速度等指標(biāo)來(lái)評(píng)估比較樸素貝葉斯算法、支持向量機(jī)算法以及利用SVM改進(jìn)的樸素貝葉斯算法。

    本文實(shí)驗(yàn)特征選擇采用信息增益(IG)方法,多維度分析算法在不同的過(guò)濾閾值、不同樣本集數(shù)量實(shí)驗(yàn)結(jié)果,并從召回率、正確率、分類速度、支持向量個(gè)數(shù)等方面比較3種算法。

    如圖3所示,越多的訓(xùn)練樣本集結(jié)果越精確,但是過(guò)多的訓(xùn)練樣本集使向量個(gè)數(shù)增加,而且過(guò)多樣本集使代表性向量增加的同時(shí),冗余向量、無(wú)用向量也增加,這使計(jì)算量跟著增加,大大降低了分類速度,利用TSVM-NB算法修剪向量,減掉冗余和無(wú)用向量,降低向量個(gè)數(shù)從而增加計(jì)算速度(圖4與圖3類似)。圖5是3種算法在不同的樣本集下支持向量個(gè)數(shù)比較。改進(jìn)的算法支持向量個(gè)數(shù)減少,計(jì)算速度就會(huì)明顯提高,3種算法的速度比較如圖6所示。

    圖3 3種算法正確率對(duì)比

    圖4 3種算法召回率對(duì)比

    圖5 3種算法支持向量個(gè)數(shù)對(duì)比

    圖6 3種算法分類耗時(shí)比較

    從圖6中可以看出,在樣本集數(shù)量較小的情況下,3種算法的分類速度沒(méi)有太大的區(qū)別,但是隨著樣本集的增加,SVM算法和NB算法的分類所用時(shí)間上升很快。利用SVM算法改進(jìn)的樸素貝葉斯算法耗時(shí)雖然增加(隨著樣本集數(shù)量的增加,耗時(shí)增加這是必然的),但是耗時(shí)增加比較慢,所以相對(duì)來(lái)說(shuō),該算法一定程度上降低了耗時(shí)增長(zhǎng)的速率,從而提高了分類速度。

    將訓(xùn)練集分為1 000封、2 000封、3 000封、4 000封、5 000封、6 000封、7 000封、8 000封等8個(gè)階段,每個(gè)階段分別用SVM算法、NB算法計(jì)算TSVM-NB的正確率和召回率,從圖3和圖4可以看出,在訓(xùn)練集比較大的情況下,SVM算法不管是正確率還是召回率都不如其他 2種算法,并且達(dá)到一定量之后 2種指標(biāo)反而下降,這是因?yàn)镾VM算法不適合在大量郵件集下應(yīng)用,樸素貝葉斯算法比SVM效果好,但實(shí)驗(yàn)中當(dāng)郵件訓(xùn)練集超過(guò) 4 000封時(shí),召回率和正確率也有所下降,改進(jìn)的樸素貝葉斯算法TSVM-NB算法不管是正確率還是召回率在一定程度上都有所提高。

    5 結(jié)束語(yǔ)

    本文在支持向量機(jī)算法和樸素貝葉斯算法的基礎(chǔ)上,針對(duì)樸素貝葉斯算法的限制——屬性相互條件獨(dú)立,用 SVM尋找最優(yōu)平面,修剪重疊屬性,增強(qiáng)屬性獨(dú)立,提出了改進(jìn)的樸素貝葉斯算法 TSVM-NB,并根據(jù)垃圾郵件系統(tǒng)的評(píng)價(jià)指標(biāo)正確率和召回率評(píng)估該算法,經(jīng)過(guò)大量實(shí)驗(yàn),證明該算法可以在一定程度上提高垃圾郵件處理的正確率、召回率以及分類速度。

    該算法主要是適用于屬性向量之間的交錯(cuò)重疊特別嚴(yán)重的數(shù)據(jù)集中,即類別劃分不是特別容易的情況,如果數(shù)據(jù)集之間混疊性較弱,該算法的優(yōu)勢(shì)就體現(xiàn)不出來(lái)。

    隨著科技的發(fā)展,垃圾郵件不僅局限于文本形式,還存在垃圾圖片、垃圾視頻、垃圾音頻等各種形式,本文研究算法只是針對(duì)文本形式的垃圾郵件,如何高效過(guò)濾圖片、視頻、音頻將會(huì)在下一步工作中進(jìn)行研究。

    [1] [EB/OL].http://www.anti-spam.org.cn/.

    [2] JI W Y, KIM H, HUH J H. Hybrid spam filtering for mobile communication[J]. Computers & Security, 2009, 29(4):446-459.

    [3] HAIBO H,GARCIA E A. Learning form imbalanced data[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9): 1263-1284.

    [4] WU X, KUMAR V, ROSS QUINLAN J, et al. Top 10 algorithms in data mining[J]. Knowledge and Information Systems, 2008, 14(1): 1-37.

    [5] RUGGIERI S. Efficient C4.5[J]. IEEE Transactions on Knowledge & Data Engineering, 2002, 14(2):438-444.

    [6] 馬小龍. 一種改進(jìn)的貝葉斯算法在垃圾郵件過(guò)濾中的研究[J].計(jì)算機(jī)應(yīng)用研究, 2012, 29(3):1091-1094. MA X L. Research of spam-filtering based on optimized native Bayesian algorithm[J]. Alication Research of Computer, 2012, 29(3): 1091-1094.

    [7] SCHOLKOPF B, MIKA S, BURGES C, et al. Input space versus feature space in kernel-based methods[J]. IEEE Transactions on Neural Network,1999,10(5):1000-1017.

    [8] FRIEDMAN N, GEIGER D, GOLDSZMIDT M. Bayesian network classifiers[J].Machine Learning,1997,29(2/3):131-163.

    [9] 石洪波, 王志海, 黃厚寬, 等.一種限定性的雙層貝葉斯分類模型[J]. 軟件學(xué)報(bào) ,2004,15(2):193-199. SHI H B, WANG Z H, HUANG H K, et al. A restricted double-level Bayesian classification model[J]. Journal of Software, 2004, 15(2): 193-199.

    [10] 王雙成, 杜瑞杰, 劉穎. 連續(xù)屬性完全貝葉斯分類器的學(xué)習(xí)與優(yōu)化[J]. 計(jì)算機(jī)學(xué)報(bào),2012,35(10):2129-2138. WANG S C, DU R J, LIU Y. The learning and optimization of full Bayes classifiers with continuous attributes[J]. Chinese Journal of Computer, 2012, 35(10):2129-2138.

    [11] 曾志強(qiáng), 高濟(jì). 基于向量集簡(jiǎn)約的精簡(jiǎn)支持向量機(jī)[J]. 軟件學(xué)報(bào), 2007, 18(11): 2719-2727. ZENG Z Q, GAO J. Simplified support vector machine based on reduced vector set method[J]. Journal of Software, 2007, 18(11): 2719-2727.

    [12] 李曉黎, 劉繼敏, 史忠植. 基于支持向量機(jī)和無(wú)監(jiān)督聚類相結(jié)合的中文網(wǎng)頁(yè)分類器[J]. 計(jì)算機(jī)學(xué)報(bào), 2001,24(1):62-68. LI X L, LIU J M, SHI Z Z. A Chinese Web page classifier based on support vector machine and unsupervised clustering[J]. Chinese Journal of Computer, 2001, 24(1): 62-68.

    [13] 李紅蓮, 王春華, 袁保宗.一種改進(jìn)的支持向量機(jī): NN-SVM[J].計(jì)算機(jī)學(xué)報(bào), 2003, 26(8): 1015-1020. LI H L, WANG C H, YUAN Z B. A improved SVM: NN-SVM[J]. Chinese Journal of Computer,2003, 26(8): 1015-1020.

    趙國(guó)冬(1978-),黑龍江大慶人,博士,哈爾濱工程大學(xué)講師,主要研究方向?yàn)闄C(jī)器人、信息安全。

    Research of a spam filter based on improved naive Bayes algorithm

    CAO Cui-ling1, WANG Yuan-yuan2, YUAN Ye1, ZHAO Guo-dong1
    (1. College of Computer Science and Technology, Harbin Engineering University, Harbin 150001, China; 2. College of Mechanical and Electrical Engineering, Northeast Forestry University, Harbin 150040, China)

    In spam filtering filed, naive Bayes algorithm is one of the most popular algorithm, a modified using support vector machine(SVM) of the native Bayes algorithm :SVM-NB was proposed. Firstly, SVM constructs an optimal separating hyperplane for training set in the sample space at the junction two types of collection, Secondly, according to its similarities and differences between the neighboring class mark for each sample to reduce the sample space also increase the independence of classes of each samples. Finally, using naive Bayesian classification algorithm for mails. The simulation results show that the algorithm reduces the sample space complexity, get the optimal classification feature subset fast, improve the classification speed and accuracy of spam filtering effectively.

    naive Bayes, SVM, trim, spam mail

    TP319

    A

    10.11959/j.issn.2096-109x.2017.00119

    曹翠玲(1990-),女,河北邯鄲人,哈爾濱工程大學(xué)碩士生,主要研究方向?yàn)榫W(wǎng)絡(luò)信息安全、嵌入式系統(tǒng)。

    王媛媛(1995-),女,黑龍江哈爾濱人,東北林業(yè)大學(xué)本科生,主要研究方向?yàn)樾畔踩?/p>

    袁野(1995-),男,黑龍江北安人,哈爾濱工程大學(xué)本科生,主要研究方向?yàn)榍度胧较到y(tǒng)。

    2016-10-27;

    2016-11-25。通信作者:曹翠玲,caocuiling0927@163.com

    猜你喜歡
    垃圾郵件樸素貝葉斯
    從“scientist(科學(xué)家)”到“spam(垃圾郵件)”,英語(yǔ)單詞的起源出人意料地有趣 精讀
    隔離樸素
    一種基于SMOTE和隨機(jī)森林的垃圾郵件檢測(cè)算法
    樸素的安慰(組詩(shī))
    他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
    最神奇最樸素的兩本書(shū)
    貝葉斯公式及其應(yīng)用
    基于貝葉斯估計(jì)的軌道占用識(shí)別方法
    基于支持向量機(jī)與人工免疫系統(tǒng)的垃圾郵件過(guò)濾模型
    一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
    電子器件(2015年5期)2015-12-29 08:43:15
    性少妇av在线| 18在线观看网站| 亚洲 国产 在线| 国产精品熟女久久久久浪| 久久国产精品人妻蜜桃| 亚洲av男天堂| 黄色视频不卡| 国产成人精品在线电影| 一本一本久久a久久精品综合妖精| 国产男人的电影天堂91| 亚洲精品国产一区二区精华液| 制服诱惑二区| 汤姆久久久久久久影院中文字幕| 高清黄色对白视频在线免费看| 晚上一个人看的免费电影| 亚洲 国产 在线| 欧美日韩视频高清一区二区三区二| 精品欧美一区二区三区在线| 亚洲伊人久久精品综合| 又大又黄又爽视频免费| 国产精品偷伦视频观看了| 美女主播在线视频| 嫁个100分男人电影在线观看 | 亚洲男人天堂网一区| 男人添女人高潮全过程视频| 熟女少妇亚洲综合色aaa.| 黄色怎么调成土黄色| 我的亚洲天堂| av国产精品久久久久影院| 国产片内射在线| 久久天躁狠狠躁夜夜2o2o | 中国国产av一级| 99久久精品国产亚洲精品| 七月丁香在线播放| 最近中文字幕2019免费版| 国产精品九九99| 91麻豆精品激情在线观看国产 | 午夜激情av网站| 久久精品久久久久久久性| 中国美女看黄片| 欧美日韩成人在线一区二区| 国产精品成人在线| 色婷婷av一区二区三区视频| 成人黄色视频免费在线看| 日韩制服骚丝袜av| 最新在线观看一区二区三区 | 丝袜脚勾引网站| 狂野欧美激情性bbbbbb| 在线观看www视频免费| 伊人久久大香线蕉亚洲五| 久久亚洲精品不卡| 看免费成人av毛片| 国产亚洲精品久久久久5区| 国产精品偷伦视频观看了| 首页视频小说图片口味搜索 | 男女无遮挡免费网站观看| 99re6热这里在线精品视频| 欧美黑人欧美精品刺激| 国产91精品成人一区二区三区 | 色视频在线一区二区三区| 脱女人内裤的视频| 亚洲av电影在线观看一区二区三区| 国产国语露脸激情在线看| 一边亲一边摸免费视频| 中文字幕最新亚洲高清| 精品少妇内射三级| 下体分泌物呈黄色| 久久久久久免费高清国产稀缺| 秋霞在线观看毛片| 久久精品熟女亚洲av麻豆精品| 日本一区二区免费在线视频| 国产伦人伦偷精品视频| 成人亚洲欧美一区二区av| 国产女主播在线喷水免费视频网站| 国产欧美亚洲国产| 国产成人精品无人区| 久9热在线精品视频| 国产成人精品无人区| 久久精品久久久久久噜噜老黄| 最新的欧美精品一区二区| 国产成人一区二区三区免费视频网站 | av天堂在线播放| 国产精品国产av在线观看| 国产高清不卡午夜福利| 亚洲欧美精品自产自拍| 国产精品久久久久久人妻精品电影 | 午夜免费鲁丝| 男人爽女人下面视频在线观看| 久热爱精品视频在线9| 老司机靠b影院| 亚洲伊人色综图| 宅男免费午夜| 国产成人精品久久二区二区91| 看十八女毛片水多多多| 免费观看人在逋| 99热国产这里只有精品6| 成人国语在线视频| 免费久久久久久久精品成人欧美视频| 国产男女内射视频| 看免费av毛片| 一级黄色大片毛片| av在线老鸭窝| 熟女av电影| 国产免费福利视频在线观看| 亚洲精品久久久久久婷婷小说| 在线看a的网站| 日本91视频免费播放| 熟女av电影| 国产熟女欧美一区二区| 国产精品偷伦视频观看了| 久久久久久亚洲精品国产蜜桃av| 女人精品久久久久毛片| 一级毛片女人18水好多 | 日本黄色日本黄色录像| 精品久久久久久久毛片微露脸 | 国产成人系列免费观看| 欧美人与善性xxx| 你懂的网址亚洲精品在线观看| 一级毛片黄色毛片免费观看视频| 丝袜美腿诱惑在线| 99香蕉大伊视频| 少妇的丰满在线观看| 高清不卡的av网站| 欧美性长视频在线观看| 久久久久久免费高清国产稀缺| 欧美精品亚洲一区二区| av天堂在线播放| 老汉色av国产亚洲站长工具| 男女免费视频国产| 极品人妻少妇av视频| 我的亚洲天堂| 水蜜桃什么品种好| 国产野战对白在线观看| 人人妻人人爽人人添夜夜欢视频| 免费在线观看完整版高清| 最近中文字幕2019免费版| 欧美日韩成人在线一区二区| 精品欧美一区二区三区在线| 丁香六月欧美| 久热爱精品视频在线9| 自线自在国产av| 亚洲男人天堂网一区| 国产女主播在线喷水免费视频网站| 男女免费视频国产| 操出白浆在线播放| 久久午夜综合久久蜜桃| 最近手机中文字幕大全| 天堂俺去俺来也www色官网| 国产真人三级小视频在线观看| 国产不卡av网站在线观看| 精品免费久久久久久久清纯 | 午夜福利视频精品| 性色av一级| 成年动漫av网址| 久久精品国产亚洲av高清一级| 男女免费视频国产| 久久中文字幕一级| 国产极品粉嫩免费观看在线| 欧美在线一区亚洲| 日韩制服骚丝袜av| 成人18禁高潮啪啪吃奶动态图| 夫妻午夜视频| 9191精品国产免费久久| 国产无遮挡羞羞视频在线观看| 中文字幕制服av| 亚洲av美国av| 欧美精品人与动牲交sv欧美| 亚洲伊人久久精品综合| 国产成人a∨麻豆精品| 性色av一级| 18禁国产床啪视频网站| 免费女性裸体啪啪无遮挡网站| 亚洲av日韩在线播放| 精品一区二区三区四区五区乱码 | 亚洲欧美清纯卡通| 久久人人爽人人片av| 欧美精品高潮呻吟av久久| 一本一本久久a久久精品综合妖精| 免费观看av网站的网址| 亚洲熟女精品中文字幕| 久久综合国产亚洲精品| 我的亚洲天堂| 性色av一级| 欧美黄色片欧美黄色片| 中国美女看黄片| 亚洲国产av新网站| 啦啦啦视频在线资源免费观看| 看免费av毛片| 五月天丁香电影| 晚上一个人看的免费电影| 两个人免费观看高清视频| 亚洲av日韩在线播放| 各种免费的搞黄视频| av电影中文网址| 亚洲成人免费电影在线观看 | 十八禁网站网址无遮挡| 捣出白浆h1v1| 免费人妻精品一区二区三区视频| 免费高清在线观看日韩| 日本一区二区免费在线视频| av在线播放精品| 亚洲国产成人一精品久久久| 亚洲男人天堂网一区| 国产精品成人在线| 成人18禁高潮啪啪吃奶动态图| 丰满少妇做爰视频| 天天躁夜夜躁狠狠躁躁| 亚洲精品美女久久av网站| 国产精品偷伦视频观看了| 丰满人妻熟妇乱又伦精品不卡| 99九九在线精品视频| 国产视频一区二区在线看| 国产免费又黄又爽又色| 国产亚洲精品久久久久5区| 一级毛片 在线播放| 一级a爱视频在线免费观看| 国产精品久久久av美女十八| 欧美日韩综合久久久久久| 成人国语在线视频| 丁香六月欧美| 新久久久久国产一级毛片| 欧美人与善性xxx| 别揉我奶头~嗯~啊~动态视频 | 国产亚洲午夜精品一区二区久久| 一区二区三区四区激情视频| 欧美亚洲日本最大视频资源| 亚洲中文av在线| 国产成人av教育| 亚洲中文日韩欧美视频| 新久久久久国产一级毛片| 国产男女超爽视频在线观看| 亚洲av男天堂| 亚洲自偷自拍图片 自拍| 青春草视频在线免费观看| 日韩av不卡免费在线播放| 久久ye,这里只有精品| 下体分泌物呈黄色| 久久久欧美国产精品| 91国产中文字幕| 黄片播放在线免费| 黄色 视频免费看| 日韩熟女老妇一区二区性免费视频| 国产成人精品无人区| 制服人妻中文乱码| 国产精品一二三区在线看| 免费在线观看完整版高清| 久9热在线精品视频| 亚洲av电影在线观看一区二区三区| 在线观看免费高清a一片| 亚洲av成人不卡在线观看播放网 | 中文字幕人妻丝袜制服| 少妇的丰满在线观看| 色婷婷久久久亚洲欧美| 国产主播在线观看一区二区 | 国产成人精品久久二区二区免费| 晚上一个人看的免费电影| 黑丝袜美女国产一区| 首页视频小说图片口味搜索 | 51午夜福利影视在线观看| 久久久精品94久久精品| 麻豆乱淫一区二区| 亚洲精品一二三| 日本午夜av视频| 亚洲av片天天在线观看| 久久久国产欧美日韩av| 欧美精品一区二区大全| 欧美精品av麻豆av| 秋霞在线观看毛片| 欧美日本中文国产一区发布| 女人精品久久久久毛片| 欧美日韩av久久| 久久毛片免费看一区二区三区| 国产成人影院久久av| 黄色a级毛片大全视频| 嫩草影视91久久| 高清黄色对白视频在线免费看| 国产成人影院久久av| 高清不卡的av网站| 国产在线观看jvid| 汤姆久久久久久久影院中文字幕| 精品久久久久久电影网| 亚洲自偷自拍图片 自拍| 精品视频人人做人人爽| 欧美精品一区二区大全| 色视频在线一区二区三区| 亚洲av成人不卡在线观看播放网 | 免费高清在线观看日韩| 一级片'在线观看视频| 水蜜桃什么品种好| 一二三四社区在线视频社区8| av网站免费在线观看视频| 青春草亚洲视频在线观看| 飞空精品影院首页| 国产精品一区二区在线观看99| 狠狠婷婷综合久久久久久88av| 久久久精品国产亚洲av高清涩受| 久久精品国产综合久久久| 国产精品香港三级国产av潘金莲 | 9色porny在线观看| 超碰97精品在线观看| 久久女婷五月综合色啪小说| 大码成人一级视频| 欧美成人午夜精品| 成人免费观看视频高清| 成人国产av品久久久| 久久精品成人免费网站| 脱女人内裤的视频| 亚洲精品一卡2卡三卡4卡5卡 | 青春草视频在线免费观看| 欧美精品人与动牲交sv欧美| 人人妻人人添人人爽欧美一区卜| 久久久精品区二区三区| 国产亚洲欧美在线一区二区| 大片电影免费在线观看免费| 久久精品久久久久久久性| 亚洲成人国产一区在线观看 | 三上悠亚av全集在线观看| 亚洲九九香蕉| 青春草亚洲视频在线观看| www.自偷自拍.com| 精品免费久久久久久久清纯 | 欧美人与性动交α欧美软件| 国产午夜精品一二区理论片| 精品熟女少妇八av免费久了| 99久久99久久久精品蜜桃| 少妇被粗大的猛进出69影院| 国产精品一国产av| 欧美乱码精品一区二区三区| h视频一区二区三区| 两性夫妻黄色片| 免费在线观看视频国产中文字幕亚洲 | 亚洲精品第二区| 夫妻性生交免费视频一级片| 老司机午夜十八禁免费视频| 日韩一区二区三区影片| 老司机影院毛片| 多毛熟女@视频| 老熟女久久久| 久久久亚洲精品成人影院| 免费在线观看日本一区| 国产精品麻豆人妻色哟哟久久| xxx大片免费视频| 日韩一区二区三区影片| 国产成人精品在线电影| 亚洲av电影在线观看一区二区三区| 飞空精品影院首页| 永久免费av网站大全| 亚洲,一卡二卡三卡| 精品一区二区三卡| 纵有疾风起免费观看全集完整版| 国产一区亚洲一区在线观看| 亚洲精品国产区一区二| 天堂中文最新版在线下载| 91老司机精品| 日韩 欧美 亚洲 中文字幕| 99热国产这里只有精品6| 国产精品免费视频内射| 欧美人与善性xxx| 国产男女内射视频| 99久久人妻综合| 中国美女看黄片| 无限看片的www在线观看| 亚洲,欧美,日韩| av网站在线播放免费| 18禁观看日本| 日韩av不卡免费在线播放| 天天躁日日躁夜夜躁夜夜| 国产成人一区二区在线| 爱豆传媒免费全集在线观看| 午夜视频精品福利| 久久久亚洲精品成人影院| 亚洲欧美一区二区三区久久| 午夜福利,免费看| 欧美黄色淫秽网站| 超碰97精品在线观看| 永久免费av网站大全| 99久久综合免费| 99re6热这里在线精品视频| 国产激情久久老熟女| 国产深夜福利视频在线观看| 欧美日韩成人在线一区二区| 99国产精品一区二区三区| 亚洲男人天堂网一区| av网站在线播放免费| 国产亚洲一区二区精品| 国产成人精品无人区| 日日夜夜操网爽| 久久久欧美国产精品| 免费不卡黄色视频| 免费看av在线观看网站| 欧美激情高清一区二区三区| 欧美久久黑人一区二区| 美女中出高潮动态图| 国产成人一区二区三区免费视频网站 | 久久精品国产综合久久久| 久久av网站| 在线av久久热| 天天躁夜夜躁狠狠躁躁| 免费高清在线观看视频在线观看| 我的亚洲天堂| 午夜福利乱码中文字幕| 亚洲美女黄色视频免费看| 老司机深夜福利视频在线观看 | 午夜免费男女啪啪视频观看| 波多野结衣一区麻豆| 亚洲三区欧美一区| 国产av精品麻豆| 校园人妻丝袜中文字幕| h视频一区二区三区| 各种免费的搞黄视频| 久久久久久久大尺度免费视频| 99国产精品免费福利视频| 中文字幕色久视频| 秋霞在线观看毛片| 国产有黄有色有爽视频| 啦啦啦在线免费观看视频4| 午夜福利乱码中文字幕| 十分钟在线观看高清视频www| 水蜜桃什么品种好| 精品国产乱码久久久久久男人| 看免费av毛片| 亚洲,欧美精品.| 一级毛片 在线播放| 国产欧美日韩一区二区三区在线| 美女脱内裤让男人舔精品视频| 黑人欧美特级aaaaaa片| 人妻 亚洲 视频| 亚洲综合色网址| 国产亚洲av片在线观看秒播厂| 久久精品人人爽人人爽视色| 亚洲精品久久午夜乱码| 欧美变态另类bdsm刘玥| 一边亲一边摸免费视频| 亚洲av在线观看美女高潮| 亚洲色图 男人天堂 中文字幕| 亚洲欧美中文字幕日韩二区| 看免费成人av毛片| 亚洲av电影在线观看一区二区三区| av线在线观看网站| 制服诱惑二区| 一区二区三区激情视频| 母亲3免费完整高清在线观看| 午夜免费鲁丝| 国产精品久久久人人做人人爽| 少妇人妻 视频| 黄色 视频免费看| 国产成人影院久久av| 97人妻天天添夜夜摸| 在线看a的网站| 我要看黄色一级片免费的| 国产高清不卡午夜福利| 咕卡用的链子| 天天添夜夜摸| 高清不卡的av网站| 人人妻人人澡人人爽人人夜夜| 一边亲一边摸免费视频| 午夜福利乱码中文字幕| 亚洲国产av影院在线观看| 亚洲av成人不卡在线观看播放网 | 国产成人欧美在线观看 | av电影中文网址| 成人亚洲欧美一区二区av| 少妇猛男粗大的猛烈进出视频| 亚洲成色77777| 国产精品人妻久久久影院| 精品亚洲成a人片在线观看| 超色免费av| 欧美成人午夜精品| 麻豆av在线久日| 少妇 在线观看| 久久天躁狠狠躁夜夜2o2o | 亚洲人成77777在线视频| 日日摸夜夜添夜夜爱| 国产午夜精品一二区理论片| 多毛熟女@视频| 80岁老熟妇乱子伦牲交| 18禁裸乳无遮挡动漫免费视频| 黄色 视频免费看| 伊人亚洲综合成人网| a 毛片基地| 亚洲成av片中文字幕在线观看| 一级片'在线观看视频| 欧美av亚洲av综合av国产av| 日韩中文字幕视频在线看片| 国产亚洲精品第一综合不卡| 国产成人欧美在线观看 | 一区二区日韩欧美中文字幕| 大码成人一级视频| 在线观看人妻少妇| 午夜老司机福利片| 久久国产精品影院| 国产精品国产三级专区第一集| 亚洲av电影在线观看一区二区三区| 亚洲伊人色综图| 黄色 视频免费看| 最新的欧美精品一区二区| 国产精品久久久久久精品古装| 最新的欧美精品一区二区| 国产精品国产三级国产专区5o| 大话2 男鬼变身卡| 精品福利观看| 电影成人av| 日韩中文字幕欧美一区二区 | 国产精品久久久久久精品电影小说| 久久女婷五月综合色啪小说| 咕卡用的链子| 日本a在线网址| 亚洲午夜精品一区,二区,三区| 精品久久久久久久毛片微露脸 | 国产麻豆69| 国产在线一区二区三区精| 青草久久国产| 精品国产超薄肉色丝袜足j| 欧美成狂野欧美在线观看| 晚上一个人看的免费电影| 久久精品久久久久久噜噜老黄| 少妇粗大呻吟视频| 在线观看免费午夜福利视频| 成年av动漫网址| 亚洲国产av影院在线观看| 一个人免费看片子| 精品欧美一区二区三区在线| 日韩精品免费视频一区二区三区| 91麻豆av在线| 日韩欧美一区视频在线观看| 免费av中文字幕在线| 亚洲第一青青草原| 黄色怎么调成土黄色| 国产精品九九99| 99九九在线精品视频| 免费女性裸体啪啪无遮挡网站| 国产在视频线精品| 久久人妻熟女aⅴ| 9热在线视频观看99| 最新的欧美精品一区二区| 婷婷色av中文字幕| 久久精品久久久久久噜噜老黄| 三上悠亚av全集在线观看| 日韩制服骚丝袜av| 免费黄频网站在线观看国产| 午夜激情久久久久久久| 一区福利在线观看| 久久ye,这里只有精品| 99re6热这里在线精品视频| 亚洲精品av麻豆狂野| 色网站视频免费| 欧美国产精品va在线观看不卡| 亚洲av日韩精品久久久久久密 | 三上悠亚av全集在线观看| 日本wwww免费看| 亚洲成人免费av在线播放| 777米奇影视久久| 久久亚洲精品不卡| 欧美久久黑人一区二区| 欧美激情极品国产一区二区三区| 波多野结衣一区麻豆| 免费在线观看视频国产中文字幕亚洲 | 91成人精品电影| 国产精品免费大片| 中文字幕人妻丝袜一区二区| 亚洲免费av在线视频| 高潮久久久久久久久久久不卡| 91字幕亚洲| 欧美在线一区亚洲| 日本wwww免费看| 精品久久久精品久久久| av国产久精品久网站免费入址| 欧美性长视频在线观看| 黄色毛片三级朝国网站| 国产高清不卡午夜福利| 国产成人免费观看mmmm| 国产xxxxx性猛交| 大话2 男鬼变身卡| 欧美人与性动交α欧美软件| 久久天躁狠狠躁夜夜2o2o | 亚洲av日韩在线播放| 侵犯人妻中文字幕一二三四区| 欧美日韩成人在线一区二区| 免费在线观看影片大全网站 | 制服人妻中文乱码| 久久毛片免费看一区二区三区| 亚洲精品国产色婷婷电影| 黄色视频不卡| 免费在线观看视频国产中文字幕亚洲 | 涩涩av久久男人的天堂| √禁漫天堂资源中文www| 久久精品国产亚洲av涩爱| 久久精品国产综合久久久| 亚洲一码二码三码区别大吗| 麻豆乱淫一区二区| 黄色片一级片一级黄色片| 精品一区二区三卡| 91老司机精品| 叶爱在线成人免费视频播放| 一级a爱视频在线免费观看| 精品熟女少妇八av免费久了| 免费黄频网站在线观看国产| 国产高清videossex| 亚洲av美国av| 在线观看免费高清a一片| 男女床上黄色一级片免费看| 咕卡用的链子| 亚洲av国产av综合av卡| 亚洲欧美一区二区三区国产| 69精品国产乱码久久久| 国产精品一区二区精品视频观看| 欧美在线一区亚洲| xxxhd国产人妻xxx| 久久女婷五月综合色啪小说| 亚洲欧美精品综合一区二区三区| 国产成人影院久久av| 亚洲av五月六月丁香网| 一级作爱视频免费观看| 18禁黄网站禁片免费观看直播| 国产精品香港三级国产av潘金莲|