• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于郵件用戶行為分析的發(fā)件人信譽(yù)值生成方法

      2015-04-13 04:14:18魏麗麗何慶戚國(guó)飛許敬偉
      移動(dòng)通信 2015年24期

      魏麗麗,何慶,戚國(guó)飛,許敬偉

      (1.中國(guó)移動(dòng)通信集團(tuán)廣東有限公司,廣東 廣州 510640;2.深圳市彩訊科技有限公司,廣東 深圳 518000)

      1 引言

      隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,電子郵件以其低成本、便捷、可查閱等特點(diǎn)有效解決了遠(yuǎn)距離溝通的難題,是人與人之間日常溝通必不可少的重要工具。但是日益泛濫的垃圾郵件嚴(yán)重影響了人們的日常生活,如何高效地過(guò)濾垃圾郵件成為熱點(diǎn)議題。

      調(diào)查顯示:2015年第一季度中國(guó)電子郵箱用戶平均每周收到14.6封垃圾郵件,占所有郵件的37.37%。其中,93%的被調(diào)查者都對(duì)他們接收到的大量垃圾郵件表示非常不滿。一方面,垃圾郵件消耗網(wǎng)絡(luò)資源、占用網(wǎng)絡(luò)帶寬、浪費(fèi)用戶的寶貴時(shí)間、增加用戶的上網(wǎng)成本,影響企事業(yè)單位的日常辦公和溝通效率;另一方面,垃圾郵件成了計(jì)算機(jī)病毒傳播的途徑,垃圾郵件的傳播將嚴(yán)重威脅網(wǎng)絡(luò)安全,已成為網(wǎng)絡(luò)公害。

      針對(duì)反垃圾郵件的方法,有研究者提出基于用戶反饋的個(gè)性化垃圾郵件過(guò)濾方法[1]:首先,根據(jù)用戶反饋提煉郵件分類特征,由此制定個(gè)性化郵件分類標(biāo)準(zhǔn);其次,綜合全局郵件分類標(biāo)準(zhǔn)和個(gè)性化分類標(biāo)準(zhǔn),利用樸素貝葉斯分類過(guò)程,完成用戶郵件的個(gè)性化分類。但是篩選參數(shù)會(huì)影響選取的郵件特征詞,當(dāng)篩選參數(shù)取值較小或較大時(shí),此方法在精確度方面的表現(xiàn)并不理想。還有學(xué)者提出了基于行為特征加權(quán)的決策樹(shù)過(guò)濾算法[2],這種方法將垃圾郵件的判斷轉(zhuǎn)化為郵件的路徑權(quán)值與垃圾郵件閾值的大小關(guān)系的判定。這種優(yōu)化的算法在一定程度上可以提高篩選的精準(zhǔn)性,但篩選結(jié)果的準(zhǔn)確性受行為特征庫(kù)影響較大。

      現(xiàn)有的這些技術(shù)都或多或少的存在缺點(diǎn),無(wú)法進(jìn)行百分之百的準(zhǔn)確判斷。其中,也有學(xué)者提出一種基于用戶群組將信譽(yù)值高的用戶反饋的規(guī)則同步到信譽(yù)值低的用戶的方法,但是這種做法會(huì)使用戶的規(guī)則受到影響,無(wú)法反映用戶真實(shí)的情況,也無(wú)法對(duì)用戶的信譽(yù)值做實(shí)時(shí)的調(diào)整。垃圾郵件攔截準(zhǔn)確率的提高迫切需要一種新的攔截技術(shù)。

      基于此,本文提出基于郵件用戶行為分析的發(fā)件人信譽(yù)值生成方法,通過(guò)機(jī)器學(xué)習(xí)的方法,對(duì)線上產(chǎn)生的海量日志進(jìn)行分析,選取多個(gè)特征維度,通過(guò)海量日志對(duì)特征模型進(jìn)行訓(xùn)練,對(duì)這些特征值生成了一個(gè)總體的信譽(yù)分值庫(kù),實(shí)時(shí)的郵件匹配這個(gè)特征信譽(yù)庫(kù),對(duì)滿足條件的發(fā)件人生成發(fā)件人特定的信譽(yù)值,提高信譽(yù)值的準(zhǔn)確度。

      2 反垃圾郵件過(guò)濾技術(shù)

      對(duì)于垃圾郵件,主流的過(guò)濾技術(shù)有黑白名單、關(guān)鍵詞過(guò)濾、基于規(guī)則的過(guò)濾技術(shù)、Hash技術(shù)、貝葉斯過(guò)濾技術(shù)等。

      黑名單(Black List)和白名單(White List)技術(shù)首先檢查郵件頭,如果白名單有發(fā)件人就接收該郵件[3],否則拒絕接收該郵件。這種方法可以百分之百屏蔽已確認(rèn)的垃圾郵件制造者所生產(chǎn)的垃圾郵件,但是由于有些用戶是首次聯(lián)系收件人,尚未收錄在收件人的白名單內(nèi),所以黑名單與白名單技術(shù)會(huì)過(guò)濾掉此類正常通信郵件。此外,因?yàn)榘l(fā)送垃圾郵件時(shí)可以采用自動(dòng)郵件偽造郵件發(fā)送者或域名,所以這種技術(shù)在垃圾郵件防范領(lǐng)域尚有改進(jìn)空間。

      由于某些垃圾郵件會(huì)以較高的頻率使用“贈(zèng)送”、“禮包”等關(guān)鍵詞,如果標(biāo)識(shí)一些垃圾郵件常用的單詞,并以此識(shí)別和處理垃圾郵件,那么就能有效攔截垃圾郵件,這就是關(guān)鍵詞過(guò)濾技術(shù)。基于這種識(shí)別原理,關(guān)鍵詞過(guò)濾技術(shù)極有可能導(dǎo)致誤判,比如設(shè)置單詞“test”為過(guò)濾關(guān)鍵字,那么所有含有“test”的郵件都將難逃濾網(wǎng)。

      Hash技術(shù)是一種近似文本檢測(cè)技術(shù),可以描述郵件的內(nèi)容[4],計(jì)算Hash時(shí)通常以郵件的題目、發(fā)件人等元素作為參數(shù)。Hash技術(shù)正是利用了垃圾郵件網(wǎng)絡(luò)傳播的高密度性和內(nèi)容高度相似性等特點(diǎn),通過(guò)檢測(cè)所收郵件與已知類別郵件的相似性來(lái)區(qū)分郵件類別,是檢測(cè)垃圾郵件的有效技術(shù)手段。

      除此之外,郵件系統(tǒng)還可以根據(jù)單詞、大小、位置、附件等特征元素制定規(guī)則[5],并以此描述和判別垃圾郵件。但該技術(shù)的缺點(diǎn)是如果要使過(guò)濾器有效,管理人員需要維護(hù)一個(gè)龐大的規(guī)則庫(kù)。

      相比上述幾種過(guò)濾技術(shù)來(lái)說(shuō),貝葉斯算法更加智能化[6],是最為精確的攔截垃圾郵件的技術(shù)之一。它通過(guò)持續(xù)地學(xué)習(xí)跟進(jìn)垃圾郵件的新規(guī)則,可使過(guò)濾準(zhǔn)確率達(dá)到99%[7]。但美中不足的是,過(guò)濾的準(zhǔn)確性依賴大量的歷史數(shù)據(jù)。

      貝葉斯過(guò)濾器很難被繞過(guò)[8]。為了繞過(guò)郵件內(nèi)容檢查,通常垃圾郵件發(fā)送者會(huì)減少信中的垃圾詞匯(如免費(fèi)、禮包)或者在信中摻雜少許正式的詞匯(如會(huì)議、文件)。但由于貝葉斯具有強(qiáng)烈的個(gè)性化色彩,只有研究單個(gè)收件人的偏好才有機(jī)會(huì)繞過(guò)貝葉斯檢查,而這幾乎是不可能完成的任務(wù)。

      3 基于用戶行為分析生成發(fā)件人信譽(yù)值 解決方案

      3.1 方案說(shuō)明

      本文提出一種基于用戶行為分析生成發(fā)件人信譽(yù)值的方法,用來(lái)更好地過(guò)濾垃圾郵件。這種方法優(yōu)化實(shí)現(xiàn)了對(duì)垃圾郵件的過(guò)濾,技術(shù)方案描述如下:

      (1)初始階段:主要包括運(yùn)行前準(zhǔn)備和特征值錄入數(shù)據(jù)庫(kù)兩部分。

      (2)發(fā)件人信譽(yù)值生成階段:主要根據(jù)用戶的歷史行為生成相應(yīng)的信譽(yù)值。

      (3)發(fā)件人信譽(yù)值入庫(kù)階段:根據(jù)發(fā)件人特征值的匹配結(jié)果進(jìn)行后續(xù)操作。

      3.2 方案具體實(shí)施方式

      基于用戶行為分析生成發(fā)件人信譽(yù)值的流程圖如圖1所示:

      圖1 基于用戶行為分析生成發(fā)件人信譽(yù)值的流程圖

      具體步驟如下:

      (1)初始階段。初始化系統(tǒng),加載配置文件,從日志信息中提取發(fā)信人特征值,連接特征數(shù)據(jù)庫(kù)等。

      1)運(yùn)行前準(zhǔn)備,加載海量日志文件進(jìn)行分析,從日志信息中提取郵件體大小、發(fā)信成功數(shù)、發(fā)信失敗數(shù)、發(fā)信總數(shù)、收件人回復(fù)數(shù)、郵件內(nèi)容、發(fā)件人域名、IP發(fā)信成功數(shù)和失敗數(shù)等信息;

      2)將日志提取的特征值保存到特征數(shù)據(jù)庫(kù)。

      (2)發(fā)件人信譽(yù)值生成階段。本階段主要是通過(guò)對(duì)用戶歷史發(fā)信數(shù)、發(fā)信成功率、當(dāng)天發(fā)信數(shù)、收件人是否回復(fù)以及郵件內(nèi)容進(jìn)行分析生成相應(yīng)的信譽(yù)值,主要步驟如下:

      1)從數(shù)據(jù)庫(kù)中提取特征值后進(jìn)行判斷,如果發(fā)信人歷史發(fā)信總數(shù)小于3封,則數(shù)據(jù)量太少,無(wú)法生成信譽(yù)值,直接結(jié)束流程;

      2)當(dāng)歷史發(fā)信量超過(guò)3封,郵件發(fā)送成功率低于0.76時(shí),設(shè)置信譽(yù)值為30分;

      3)當(dāng)發(fā)信成功率為100%,IP發(fā)信記錄成功率為100%,且收件人有回復(fù)、郵件內(nèi)容匹配可信關(guān)鍵詞、郵件大小超過(guò)500KB或者有向可信域發(fā)信任何一個(gè)條件滿足時(shí),設(shè)置信譽(yù)值為40分;

      4)當(dāng)發(fā)信量超過(guò)5封,發(fā)信失敗次數(shù)為0,收件人且總數(shù)超過(guò)3個(gè),郵件含有可信關(guān)鍵詞時(shí),設(shè)置信譽(yù)值為80分;

      5)當(dāng)發(fā)信量超過(guò)5封,發(fā)信失敗次數(shù)為0,如果當(dāng)天發(fā)信量超過(guò)1封,且郵件匹配的可信關(guān)鍵詞超過(guò)2個(gè)、有向可信域發(fā)信、收件人有回信或者發(fā)送大小超過(guò)500KB的郵件超過(guò)2封任何一個(gè)條件滿足時(shí),設(shè)置信譽(yù)值為80分;

      6)當(dāng)發(fā)信量超過(guò)5封,發(fā)信失敗數(shù)大于0到2封,是可信域發(fā)信,且當(dāng)天發(fā)信量大于1封時(shí),設(shè)置信譽(yù)值為70分;

      7)當(dāng)發(fā)信量超過(guò)5封,發(fā)信失敗數(shù)大于0到2封,有收件人回信,且當(dāng)天發(fā)信量大于1封時(shí),設(shè)置信譽(yù)值為70分;

      8)當(dāng)發(fā)信量超過(guò)5封,發(fā)信失敗數(shù)大于0到2封,郵件內(nèi)容含有可信的關(guān)鍵詞,郵件內(nèi)容匹配可信的關(guān)鍵詞超過(guò)2個(gè),且當(dāng)天發(fā)信量大于1封時(shí),設(shè)置信譽(yù)值為70分;

      9)當(dāng)發(fā)信量超過(guò)5封,發(fā)信失敗數(shù)大于0到2封,郵件內(nèi)容含有可信的關(guān)鍵詞,發(fā)送的郵件大小超過(guò)500KB至少為1封時(shí),設(shè)置信譽(yù)值為70分;

      10)當(dāng)發(fā)信量超過(guò)5封,發(fā)信失敗數(shù)大于0到2封,郵件內(nèi)容含有可信的關(guān)鍵詞,收件人有相同的且總數(shù)超過(guò)3個(gè)時(shí),設(shè)置信譽(yù)值為70分;

      11)當(dāng)發(fā)信量超過(guò)5封,發(fā)信失敗數(shù)大于2到9封,發(fā)信失敗數(shù)為3且當(dāng)天發(fā)信量小于3封時(shí),設(shè)置信譽(yù)值為30分;

      12)當(dāng)發(fā)信量超過(guò)5封,發(fā)信失敗數(shù)大于2到9封,發(fā)信量大于20封,郵件內(nèi)容匹配可信的關(guān)鍵詞個(gè)數(shù)超過(guò)4個(gè),收件人總數(shù)超過(guò)12個(gè)且同名的人數(shù)超過(guò)4個(gè)時(shí),設(shè)置信譽(yù)值為70分;

      13)當(dāng)發(fā)信量超過(guò)5封,發(fā)信失敗數(shù)大于2到9封,發(fā)信量大于20封,郵件內(nèi)容匹配可信的關(guān)鍵詞個(gè)數(shù)超過(guò)4個(gè)且當(dāng)天發(fā)信量超過(guò)4封時(shí),設(shè)置信譽(yù)值為70分;

      14)當(dāng)發(fā)信量小于5封,發(fā)信失敗數(shù)大于0到2封,大小超過(guò)500KB的郵件至少為1封且郵件內(nèi)容含有可信的關(guān)鍵詞時(shí),設(shè)置信譽(yù)值為70分。

      (3)發(fā)件人信譽(yù)值入庫(kù)階段。具體步驟如下:

      1)若發(fā)件人的特征值匹配了上述的某一規(guī)則,則將生成的信譽(yù)值保存到數(shù)據(jù)庫(kù)中;

      2)若發(fā)件人的特征值未匹配上述的任意一種規(guī)則,則將特征值保存到數(shù)據(jù)庫(kù),供下次再次分析。

      數(shù)據(jù)挖掘[9]是從海量的數(shù)據(jù)中提取潛在的、有價(jià)值的信息。通過(guò)對(duì)用戶長(zhǎng)期的發(fā)信行為進(jìn)行分析可知,用戶歷史發(fā)信行為對(duì)將來(lái)所發(fā)郵件的性質(zhì)(是否為垃圾郵件)有一定的預(yù)見(jiàn)性[10],即如果發(fā)件人曾經(jīng)有發(fā)送垃圾郵件的歷史,以后再發(fā)一封郵件是垃圾郵件的概率很高。經(jīng)智能算法對(duì)用戶的發(fā)信行為進(jìn)行分析可知,垃圾郵件具備以下特性:

      (1)郵件大小不會(huì)太大,太大則會(huì)影響垃圾郵件的投遞速度。

      (2)發(fā)送的成功率不高,某些郵件被反垃圾系統(tǒng)攔截。

      (3)發(fā)送量大,郵件一般通過(guò)群發(fā)工具發(fā)送。

      (4)收件人不會(huì)回復(fù)。

      (5)郵件內(nèi)容多為廣告、政治或色情言論。

      (6)發(fā)信域名多為陌生域名。

      3.3 本方法的過(guò)濾效果

      本方法綜合考慮了郵件體大小、發(fā)信成功數(shù)、發(fā)信失敗數(shù)、發(fā)信總數(shù)、收件人回復(fù)數(shù)、郵件內(nèi)容、發(fā)件人域名、IP發(fā)信成功數(shù)和失敗數(shù)等信息,建立了較完備的特征數(shù)據(jù)庫(kù),可以有效提高匹配準(zhǔn)確度;同時(shí),將此次尚未定性的用戶信息存入數(shù)據(jù)庫(kù),待達(dá)到標(biāo)準(zhǔn)后重新篩選,這種方式使得垃圾郵件的判斷更加便捷、準(zhǔn)確。

      為評(píng)估文中提出的基于郵件用戶行為分析的發(fā)件人信譽(yù)值生成方法在提升過(guò)濾準(zhǔn)確率方面的效果,本文將對(duì)2015年3月至5月使用該方法的某郵箱的收件量、垃圾郵件所占比、低信譽(yù)發(fā)信人數(shù)及所中信譽(yù)占垃圾郵件比例等數(shù)據(jù)進(jìn)行分析。具體數(shù)據(jù)如表1所示:

      表1 某郵箱使用發(fā)件人信譽(yù)值生成方法前后的收件情況

      由表1可知,3月該郵箱尚未使用文中所述的垃圾郵件過(guò)濾方法;4月時(shí)該方法正式投入使用,從3 206 741封垃圾郵件中累計(jì)識(shí)別低信譽(yù)發(fā)信人數(shù)為54 876人,該方法為垃圾郵件的判別作出1.473%的貢獻(xiàn);5月時(shí),隨著特征數(shù)據(jù)庫(kù)的不斷豐富,識(shí)別能力加強(qiáng),在垃圾郵件數(shù)基本不變的情況下識(shí)別低信譽(yù)發(fā)信人數(shù)為126 753人,數(shù)量是4月的兩倍,該方法對(duì)垃圾郵件的判別貢獻(xiàn)也增至3.255%??梢钥闯觯S著使用時(shí)間的增加,該方法對(duì)垃圾郵件過(guò)濾的貢獻(xiàn)也會(huì)增加,這是因?yàn)楹A苦]件為數(shù)據(jù)庫(kù)提供了大量的垃圾郵件特征,極大地豐富了特征庫(kù),有利于該方法對(duì)垃圾郵件的準(zhǔn)確判斷。

      4 結(jié)束語(yǔ)

      隨著網(wǎng)絡(luò)的日趨復(fù)雜,反垃圾郵件技術(shù)的重要性和迫切性日益凸顯,垃圾郵件過(guò)濾技術(shù)作為處理垃圾郵件的主流技術(shù)之一,在處理垃圾郵件領(lǐng)域有著至關(guān)重要的作用。本文提出的解決方案主要是對(duì)海量日志進(jìn)行用戶行為分析,綜合考慮垃圾郵件的主要特性如發(fā)件人發(fā)信總數(shù)、當(dāng)天發(fā)信數(shù)量、發(fā)信成功率、郵件大小、郵件內(nèi)容、可信域發(fā)信等信息生成發(fā)件人的信譽(yù)值。本方案避免了垃圾郵件的誤判或因某單一特征造成的信譽(yù)值偏差,可以更高效地過(guò)濾垃圾郵件,是現(xiàn)有垃圾郵件處理技術(shù)的有益補(bǔ)充。

      但是該方法在垃圾郵件處理的初期表現(xiàn)欠佳,因?yàn)槭占?shù)量有限導(dǎo)致特征值數(shù)據(jù)庫(kù)有限,所以尚不能快速完成垃圾郵件的判斷。下一步將在算法方面做更多的探索,旨在通過(guò)優(yōu)化算法來(lái)提高過(guò)濾初期的精確度。

      [1] 黃國(guó)偉,劉云霞,陳志. 基于用戶反饋的個(gè)性化垃圾郵件過(guò)濾方法[J]. 電子設(shè)計(jì)工程, 2014,22(15): 53-56.

      [2] 李璇. 基于行為識(shí)別的垃圾郵件過(guò)濾技術(shù)的研究與應(yīng)用[D]. 武漢: 武漢理工大學(xué), 2013.

      [3] 詹川. 反垃圾郵件技術(shù)的研究[D]. 成都: 電子科技大學(xué), 2005.

      [4] 帖凱瑩. 垃圾郵件判決器的研究與設(shè)計(jì)[D]. 成都: 四川大學(xué), 2006.

      [5] 劉英戈. 一種可信的反垃圾郵件網(wǎng)格體系研究與實(shí)現(xiàn)[D]. 無(wú)錫: 江南大學(xué), 2007.

      [6] 陳渝,黃楚亮,吳志豪,等. 企業(yè)信息化中的反垃圾郵件技術(shù)[J]. 廣東科技, 2007(7): 63-64.

      [7] 張啟宇. 基于貝葉斯算法的垃圾郵件過(guò)濾系統(tǒng)的研究與設(shè)計(jì)[D]. 曲阜: 曲阜師范大學(xué), 2006.

      [8] 閆龍,王文杰. 基于貝葉斯方法的一種垃圾郵件過(guò)濾的實(shí)現(xiàn)[J]. 微電子學(xué)與計(jì)算機(jī), 2006,23(2): 86-88.

      [9] 柳景超,宋勝鋒. 基于參考度的有效關(guān)聯(lián)規(guī)則挖掘[J]. 火力與指揮控制, 2011(5): 79-81.

      [10] 董建設(shè). 協(xié)作式垃圾郵件過(guò)濾關(guān)鍵技術(shù)研究[D]. 蘭州: 蘭州理工大學(xué), 2009.★

      大渡口区| 论坛| 揭西县| 阜新市| 汝州市| 曲松县| 吉首市| 临汾市| 两当县| 台江县| 揭阳市| 乡宁县| 凌海市| 措勤县| 潼南县| 平陆县| 井研县| 南靖县| 浙江省| 绥阳县| 西华县| 西充县| 河间市| 平乐县| 怀来县| 苏尼特左旗| 金沙县| 方山县| 荆州市| 英德市| 侯马市| 岢岚县| 孟州市| 盘山县| 巨鹿县| 平乡县| 南丹县| 清远市| 河池市| 合肥市| 新晃|