• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向中文垃圾郵件過濾的研究

    2014-12-31 00:00:00王瑩瑩孫月江徐伶伶

    摘 要:隨時信息技術(shù)的不斷發(fā)展,電子郵件已成為人們普遍的交流工具之一,但隨之而來的垃圾郵件卻嚴(yán)重影響的這一日常交流方式。為了更好的凈化電子郵件的收發(fā)環(huán)境,反垃圾郵件技術(shù)的提高迫在眉睫。目前最為常用的技術(shù)之一是基于機(jī)器學(xué)習(xí)的垃圾郵件技術(shù)。該技術(shù)具有語言無關(guān)性,筆者通過對中文垃圾郵件過濾技術(shù)進(jìn)行研究,通過分析中文垃圾郵件的特點(diǎn),特征提取方法和多種過濾模型,采用4元文法提取方法,在線松弛支持向量機(jī)模型(ROSVM)的過濾效果較好。

    關(guān)鍵詞:電子郵件;垃圾郵件;過濾;模型

    中圖分類號:TP393.098

    隨著計算機(jī)技術(shù)的迅速發(fā)展,網(wǎng)上交流成了人們溝通和交流的主要手段,由此,電子郵件成了人們不可缺少的工具。這種方式一方面方便了人們的交流,另一方面帶來了垃圾郵件的迅速蔓延。我國是個人口大國,使用電子郵件服務(wù)的客戶眾多,垃圾郵件泛濫的程度更為嚴(yán)重?;谖覈恼Z言,中文郵件是主要的郵件形式。所以,在我國面向中文垃圾郵件的過濾研究也成了反垃圾郵件技術(shù)主要關(guān)注的問題。

    1 中文垃圾郵件特征

    因為語言的特殊性,英文垃圾郵件提取相對簡單,不存在分詞這項繁瑣的任務(wù),每一個單詞都可以作為一個獨(dú)立的特征項。相對于英文郵件,中文垃圾電子郵件特征更加復(fù)雜,中文郵件中定義字為基本的語言單位,但是一般一個字不能獨(dú)立表達(dá)語義信息,如果想要表達(dá)完整的語意,需要用詞匯來描述,因此,在判定提取時,首先需要通過分詞來對其特征進(jìn)行判斷。分詞是按照一個句子中的詞的含義來進(jìn)行切分的,但是由于漢語本身的語句和語法的復(fù)雜性,使得分出來的詞可能失去了原有的實際意義,例如:“推銷商品”應(yīng)切分為“推銷/產(chǎn)品”否則當(dāng)出現(xiàn)“推銷”這一詞條時,可能會因為粗略劃分而減少其出現(xiàn)的頻率。所以特征項為:推銷、產(chǎn)品。

    2 基于在線學(xué)習(xí)的過濾模式

    在線學(xué)習(xí)和離線學(xué)習(xí)是過濾器(分類器)的主要學(xué)習(xí)方式。如果再實際應(yīng)用中沒有調(diào)整分類器的參數(shù),只是通過訓(xùn)練樣本過程中來調(diào)整參數(shù)的,稱為離線學(xué)習(xí)方式。過濾器首先把過濾的郵件流分為垃圾郵件和正常郵件,其次過濾器中訓(xùn)練模塊接受到用戶的反饋,訓(xùn)練器根據(jù)此反饋結(jié)果進(jìn)行訓(xùn)練,訓(xùn)練完成之后,將結(jié)果返回給過濾器。此方法稱之為在線過濾模式。本文所使用的過濾器均為在線模式。如圖1所示:

    3 特征提取方法

    郵件在過濾之前,要對文本內(nèi)容進(jìn)行特征抽取。常用的有基于詞的特征提取方法?;谠~的特征提取方法是將一封郵件的內(nèi)容以詞的形式分開,每個詞作為一個特征建立特征空間向量。但是基于詞的特征提取方法卻存在很大的缺陷?;谠~的特征提取方法也存著不同語言差異上的缺陷。目前基于字節(jié)級n-gram的特征提取方法克服了以上缺點(diǎn),并取得了不錯的成果?;谧止?jié)級n-gram的特征提取方法將郵件看做無差別的字節(jié)流對待,提取郵件的二進(jìn)制特征,能夠處理各種類型各種語言的郵件?;谖患塶元文法的特征提取方法,保留了基于字節(jié)級n-gram特征提取方法的所具有的特點(diǎn)的同時,又有了與基于字節(jié)級的n元文法的不同點(diǎn)。經(jīng)過試驗研究基于位級的n元文法要優(yōu)于基于字節(jié)級的n元文法的特征提取方法。

    n元文法按字節(jié)流進(jìn)行采用長度為n的窗口切分,如:graduate,按照n=4時進(jìn)行滑動窗口切分為:grad、radu、adua、duat、uate這樣5個4-gram。n元文法按位進(jìn)行采用長度為n的窗口切分,如:she,它的二進(jìn)制表示為01110011 01101000 01100101按照n=20時切分為:01110011 01101000 0110、1110011 01101000 01100、110011 01101000 011001、10011 01101000 0110010、0011 01101000 01100101這樣5個20-gram。

    4 在線松弛支持向量機(jī)(ROSVM)

    垃圾郵件過濾采用的是在線過濾方式,也就是首先進(jìn)行訓(xùn)練郵件。服務(wù)器接收到的新郵件首先通過過濾器對郵件本身進(jìn)行分類,并將結(jié)果告之用戶,用戶根據(jù)實際的郵件內(nèi)容反饋系統(tǒng)是否為垃圾郵件,系統(tǒng)根據(jù)得到的用戶反饋調(diào)整其過濾參數(shù),這樣在下一次接收到新郵件時,服務(wù)器根據(jù)新的參數(shù)繼續(xù)對郵件性質(zhì)進(jìn)行判定,重復(fù)上述過程。這種方法稱為在線支持向量機(jī)。

    在線學(xué)習(xí)方式下,訓(xùn)練樣本是大批量大規(guī)模進(jìn)行的,當(dāng)訓(xùn)練樣本集合達(dá)到很大規(guī)模時,在線支持向量機(jī)模型的訓(xùn)練速度就會急劇下降,從而導(dǎo)致模型不可用。因此,應(yīng)該采取相應(yīng)的算法提升模型的訓(xùn)練速度。D.Sculley提出了三個簡化措施。

    (1)減少訓(xùn)練集合大小。

    (2)減少訓(xùn)練的次數(shù)。

    (3)減少迭代次數(shù)。

    這種經(jīng)過上述方法簡化的方法稱為在線松弛支持向量機(jī)(ROSVM)。

    5 結(jié)束語

    在面向中文垃圾郵件過濾的研究分析后,我們得出結(jié)論:選擇在線的過濾方式,采用在線松弛支持向量機(jī)(ROSVM)過濾模型,使用基于位級的n元文法特征提取方法進(jìn)行垃圾郵件過濾最適合于中文垃圾郵件。是針對中文垃圾郵件過濾技術(shù)首要考慮的選擇。

    參考文獻(xiàn):

    [1]王斌,潘文鋒.基于內(nèi)容的垃圾郵件過濾技術(shù)綜述[J].中文信息學(xué)報,2009(05):1-10.

    [2]Baojun Su,Congfu Xu.Not So Naive Online Bayesian Spam Filter[A].Proceedings of the Twenty-First Innovative Applications of Artificial Intelligence Conference[C],2009:147-152.

    [3]孫鐵利,劉延吉.中文分詞技術(shù)的研究現(xiàn)狀與困難[J].信息技術(shù),2009(07):187-192.

    [4]T.Joachims.A Support Vector Method for Multivariate Performance Measures[A].Proceedings of the 22nd International Conference on Machine Learning[C],2009.

    [5]P KOLARI,T FININ,A JOSHI.SVMs for the blogosphere:Blog identificationand splog detection[A].AAAI Spring Symposium on Computational Approachesto Analyzing Weblogs[C],2006:8-10.

    [6]W.Yin,J.Goodman and G.Hulten Learning at low 1 positive rates[A].In Proceedings of the Third Conference on Email and Anti-Spam[C],2010.

    作者單位:青島工學(xué)院 信息工程學(xué)院 山東青島 266300

    城固县| 景泰县| 定远县| 玉林市| 广宗县| 曲阳县| 嫩江县| 竹溪县| 朔州市| 扬州市| 桐城市| 奉新县| 长葛市| 隆子县| 陇川县| 桃园县| 耿马| 旬邑县| 六枝特区| 泽库县| 阿瓦提县| 湟源县| 子长县| 仁怀市| 县级市| 贵阳市| 唐河县| 建始县| 汶川县| 万载县| 涞源县| 沈丘县| 隆安县| 恩施市| 青川县| 太仆寺旗| 韩城市| 玛曲县| 南通市| 蒲江县| 黄龙县|