衣治安,毛 巖 (大慶石油學(xué)院計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江大慶163318)
隨著信息化社會進(jìn)程的加快,人們對電子郵件的使用日益普及,垃圾郵件隨也之泛濫,其主要危害包括 :①占用網(wǎng)絡(luò)帶寬,影響網(wǎng)絡(luò)服務(wù)的正常進(jìn)行;②侵犯收件人的隱私權(quán),耗費(fèi)網(wǎng)絡(luò)存儲空間;③附件中帶有的病毒或木馬,給個人計(jì)算機(jī)安全帶來極大危害[1]。隨著垃圾郵件的泛濫,郵件過濾問題逐步引起人們的重視。1995年7月,spam被作為專用詞匯來指代垃圾郵件,通過反垃圾郵件技術(shù)來過濾和阻斷垃圾郵件的傳播成為研究者的重要課題[2]。目前,垃圾郵件過濾技術(shù)已發(fā)展到第3代,筆者對此加以簡要介紹。
第一代過濾技術(shù)是通過對IP地址過濾、關(guān)鍵字過濾、郵件 (附件)大小控制、SMTP連接時間頻率控制等進(jìn)行垃圾郵件的區(qū)分與過濾。
IP過濾技術(shù)是基于TCP/IP協(xié)議,對垃圾郵件發(fā)送者偽造的非法源IP地址進(jìn)行阻擋。但是IP地址過濾技術(shù)具有較大的局限性,即對合法源IP地址無法進(jìn)行過濾,垃圾郵件發(fā)送者可以通過限制IP地址偽造的范圍來繞過過濾策略封鎖。與此類似的反向域名解析技術(shù)用于過濾篡改郵件頭地址的垃圾郵件。由于郵件頭篡改技術(shù)簡單易行,同時具有較高的發(fā)送成功率,因而大量的垃圾郵件顯現(xiàn)出此類特征。而反向域名解析功能可以有效解決此類問題,通過反向域名解析查詢技術(shù)來對收取郵件的域名進(jìn)行反向解析查詢。反向域名解析技術(shù)的缺陷在于無法驗(yàn)證郵件中真實(shí)域名是否已被篡改,當(dāng)通過跳板、SM TP劫持及人為篡改等方式制造出垃圾郵件后,反向解析技術(shù)無法產(chǎn)生預(yù)期的效果。
SM TP頻率控制則類似于主機(jī)防御中Syn Flooding之類DoS/DDoS的防范方式,采取IP關(guān)注防范的方法,對于頻率異常的SM TP連接源進(jìn)行阻斷。該方法簡單便捷,可以有效防范SM TP中拒絕服務(wù)攻擊的爆發(fā)。由于對郵件的內(nèi)容并不檢驗(yàn),只是單純的進(jìn)行行為控制,服務(wù)提供商很難拿捏到恰當(dāng)?shù)某叨纫赃_(dá)到用戶防范垃圾郵件的目的,所以該方案只能作為一種輔助手段進(jìn)行部署實(shí)施。
該技術(shù)包括黑名單過濾技術(shù)和白名單過濾技術(shù)。黑名單過濾技術(shù)是將已發(fā)現(xiàn)確定的垃圾郵件服務(wù)器IP地址或域名列入到記錄名單中,由DNS服務(wù)器負(fù)責(zé)域名解析,通過黑名單的定期或?qū)崟r發(fā)布提供黑名單查詢服務(wù)。白名單過濾技術(shù)是確定所有可信的郵件地址信息,凡郵件地址歸屬于白名單的電子郵件都將被判定為可信的合法郵件,但是該方法的主觀性預(yù)期判斷會造成大量合法郵件的誤判和垃圾郵件的漏判,在使用時還要與其他方法配合使用,否則會有較大的局限性。用戶黑白名單技術(shù)采用最簡單直接的方式對郵件進(jìn)行判斷過濾,由用戶手動進(jìn)行定義需要過濾內(nèi)容的設(shè)定,如域名、發(fā)信人姓名及發(fā)信IP地址等內(nèi)容,但是不能對變更的內(nèi)容進(jìn)行實(shí)時調(diào)整,同時大量的手工操作對人力資源需求較大,從目前的垃圾郵件增長速率來看,單純通過黑白名單技術(shù)來實(shí)現(xiàn)垃圾郵件的防護(hù)過濾是不現(xiàn)實(shí)的。
關(guān)鍵字過濾技術(shù)[3]與用戶黑白名單技術(shù)具有相似的原理,其區(qū)別在于關(guān)鍵字過濾的判別對象是電子郵件的標(biāo)題及正文,對在郵件中出現(xiàn)的頻率較高且具有垃圾郵件特性的文字進(jìn)行過濾,垃圾郵件過濾初期的關(guān)鍵字過濾技術(shù)仍舊需要用戶進(jìn)行手工定義,此功能在使用過程中除了浪費(fèi)人力資源之外,由于個人判別能力存在著一定的局限性,導(dǎo)致過濾結(jié)果存在較大的誤殺率,現(xiàn)階段通常只作為垃圾郵件過濾的補(bǔ)充手段。
郵件內(nèi)容過濾的方案是針對郵件的幾個組成部分通過選項(xiàng)的閥值設(shè)定來進(jìn)行判別過濾[4]。該技術(shù)主要針對通過垃圾郵件進(jìn)行病毒傳播的攻擊,經(jīng)過改進(jìn)的方案是對郵件過濾系統(tǒng)掛載病毒及木馬查殺引擎,通過病毒庫更新來對郵件附件內(nèi)容的危害性進(jìn)行判別查殺,由于病毒判別查殺行為的存在,難以避免誤判和誤殺。
第二代過濾技術(shù)與第一代技術(shù)的根本區(qū)別在于智能性的體現(xiàn),解決了人工干預(yù)中大量的人力資源的耗費(fèi),減少了運(yùn)營成本,其中具有代表性的是以實(shí)時黑名單 (RBL)策略進(jìn)行垃圾郵件的智能地址過濾,以及基于統(tǒng)計(jì)算法 (如貝葉斯算法)進(jìn)行的智能內(nèi)容過濾。
實(shí)時黑名單屬于動態(tài)防垃圾郵件技術(shù),隨著 “云計(jì)算”概念的提出,人們結(jié)合 “云計(jì)算”的特點(diǎn)將實(shí)時黑名單技術(shù)進(jìn)行了改進(jìn),提出了 “云安全”的方案。其目的在于解決用戶自行維護(hù)黑名單過程中的巨大人力開銷與專業(yè)知識匱乏產(chǎn)生的維護(hù)難度,類似Spamhaus及中國反垃圾郵件聯(lián)盟等廠商及組織,將用戶反饋信息及通過蜜罐技術(shù)等實(shí)時收集來的垃圾郵件黑名單實(shí)時更新至互聯(lián)網(wǎng)上的黑名單數(shù)據(jù)庫中,當(dāng)用戶與此數(shù)據(jù)庫進(jìn)行同步更新后,即可應(yīng)用具有較高準(zhǔn)確性的垃圾郵件黑名單列表。目前在國內(nèi)應(yīng)用比較廣泛的實(shí)時黑名單服務(wù)是由中國反垃圾郵件聯(lián)盟提供的CBL及CBL+等實(shí)時黑名單服務(wù)。RBL過濾技術(shù)為通過網(wǎng)絡(luò)服務(wù)訂制為用戶節(jié)省了大量的資源和工作量,同時具有較高的過濾率。但是RBL技術(shù)也具有較明顯的缺點(diǎn),即一旦出現(xiàn)誤報后將需要花費(fèi)大量的精力去更正RBL,同時由于RBL由不同地區(qū)的組織及廠商進(jìn)行維護(hù)、分類,所以存在一定的地域區(qū)別,影響了用戶對RBL的使用。
現(xiàn)實(shí)生活中垃圾郵件制造者與郵件過濾技術(shù)在不斷的斗爭,所以垃圾郵件的特性在不斷地變化,因而以黑/白名單技術(shù)為代表的第一代 “靜態(tài)”過濾技術(shù)具有較大的局限性。后期發(fā)展起來的基于規(guī)則的垃圾郵件過濾技術(shù)存在著規(guī)則制定復(fù)雜、用戶經(jīng)驗(yàn)對規(guī)則有效性及過濾準(zhǔn)確率有著較大影響等不足。于是很多專家提出采用文本分析技術(shù)對電子郵件的內(nèi)容進(jìn)行分析,從而根據(jù)語言規(guī)則與特性識別出垃圾郵件,即將待過濾的郵件分類為垃圾郵件或正常郵件,這就將垃圾郵件過濾與文本分類和信息過濾等技術(shù)進(jìn)行了結(jié)合。
貝葉斯算法在郵件過濾領(lǐng)域的應(yīng)用使垃圾郵件過濾技術(shù)提升到 “智能”的新層次。貝葉斯算法通過對郵件樣本 (包含正常郵件及垃圾郵件)的分析統(tǒng)計(jì)學(xué)習(xí),形成一個統(tǒng)計(jì)模型庫,然后通過對郵件中的各個選項(xiàng)的權(quán)值計(jì)算判斷出垃圾郵件的概率。用戶可自定義過濾閾值,對達(dá)到閾值的郵件進(jìn)行過濾阻擋。此外,貝葉斯算法還增加了學(xué)習(xí)特性,在過濾過程中對過濾器進(jìn)行訓(xùn)練,從而達(dá)到強(qiáng)化統(tǒng)計(jì)模型、更新過濾器特性的目的,提高了對垃圾郵件的過濾比率[5]。貝葉斯算法對于文本郵件能夠達(dá)到較好的過濾效果,但對于其他類型的郵件內(nèi)容及郵件行為則無能為力,且該算法由于需要對每個到達(dá)本地的郵件進(jìn)行分析計(jì)算,從而占用大量的系統(tǒng)硬件計(jì)算資源。
基于免疫的垃圾郵件過濾方法[6]借鑒了生物免疫系統(tǒng)的機(jī)理,將垃圾郵件抽象為免疫系統(tǒng)中的病原體,可以利用負(fù)選擇算法、免疫克隆等算法進(jìn)行垃圾郵件的檢測和過濾。And rew Secker等人提出了基于免疫的郵件分類算法。該算法旨在以抗體的 “自己”與 “非己”原理區(qū)分出用戶感興趣的郵件和不感興趣的郵件。這類技術(shù)抓住了垃圾郵件的本質(zhì)——郵件文本內(nèi)容,能夠有效地識別出是否為垃圾郵件。但是在郵件流量大的情況下,由于郵件內(nèi)容的處理過程對資源的耗費(fèi)較大,所帶來的負(fù)載也很大。
由于垃圾郵件與病毒郵件仍然占用了大量帶寬與存儲資源,垃圾郵件的發(fā)送仍處于非受控狀態(tài)。而且,現(xiàn)有的垃圾郵件發(fā)送技術(shù)為了躲避基于內(nèi)容的過濾技術(shù),在郵件內(nèi)容中 “加噪”以干擾其過濾效果,為解決上述問題,出現(xiàn)了基于郵件行為的過濾技術(shù)。該技術(shù)根據(jù)郵件發(fā)送的行為特征判斷該郵件的合法性,因而是一項(xiàng)新的郵件過濾技術(shù),其原理是通過對大量垃圾郵件日志進(jìn)行統(tǒng)計(jì)、分析和計(jì)算,并且根據(jù)RFC822標(biāo)準(zhǔn),建立垃圾郵件發(fā)送的行為識別模型[7],從而能夠在M TA(郵件傳輸代理)通信階段就判斷出所接受郵件是否為垃圾郵件,不需要接受全部的郵件數(shù)據(jù)進(jìn)行內(nèi)容匹配,大大提高了郵件過濾的處理速度,減少了網(wǎng)絡(luò)延遲,降低了網(wǎng)絡(luò)負(fù)載,同時還解決了內(nèi)容過濾技術(shù)不可避免的高誤報率問題。
垃圾郵件過濾技術(shù)隨著電子郵件的廣泛應(yīng)用顯得日益重要,目前廣泛使用的3代垃圾郵件過濾技術(shù)雖然從一定程度上解決了垃圾郵件泛濫的問題,但是這些技術(shù)手段都存在著一定的技術(shù)缺陷。將基于行為過濾與基于內(nèi)容過濾相結(jié)合的垃圾郵件過濾技術(shù)是今后需要研究的重要課題,以此可以更有效地解決垃圾郵件過濾問題。
[1]崔霞,朱思峰.垃圾郵件及反垃圾郵件技術(shù)研究[J].信息安全與通信保密,2006,(9):139~141.
[2]高倩.垃圾郵件的入侵與防范 [J].計(jì)算機(jī)安全,2008,(6):52~53.
[3]鄧剛.基于貝葉斯過濾算法的反垃圾郵件技術(shù)研究及其實(shí)現(xiàn) [D].北京:中國地質(zhì)大學(xué),2005.
[4]潘文峰.基于內(nèi)容的垃圾郵件過濾研究 [D].北京:中國科學(xué)院研究所 (計(jì)算技術(shù)研究所),2004.
[5]Marsono M N,W atheq M,Gebali F.Binary LNS-based naive Bayes in ference engine for spam con trol:noise analysis and FPGA implementation[J].IET Compu t Digit Teeh,2008,2(1):56~56.
[6]胡可,張家樹.基于人工免疫系統(tǒng)的反垃圾郵件過濾機(jī)制 [J].計(jì)算機(jī)應(yīng)用,2005,25(11):2559~2561.
[7]張達(dá).三代防垃圾郵件技術(shù) “行為識別”誕生 [J].數(shù)碼世界,2005,4(11):15~16.