摘 要:作為現(xiàn)代社會(huì)中人們交流的一種重要方式,郵件對(duì)于提高用戶之間的溝通效率具有重要作用。然而在電子郵件的大量應(yīng)用過程中,垃圾郵件也逐漸嶄露頭角。對(duì)于用戶來說,垃圾郵件不僅需要占用較多的時(shí)間精力去處理,其還會(huì)浪費(fèi)大量的存儲(chǔ)與寬帶資源。所以,加強(qiáng)有關(guān)郵件系統(tǒng)垃圾郵件過濾技術(shù)的研究,對(duì)于改善郵件使用現(xiàn)狀具有重要的現(xiàn)實(shí)意義。
關(guān)鍵詞:電子郵件;安全;郵件過濾
中圖分類號(hào):TP393.098
垃圾郵件是指利用非正常手段或非法手段傳輸?shù)挠糜诜磩?dòng)宣傳、破壞郵件網(wǎng)絡(luò)系統(tǒng)或包含色情內(nèi)容的郵件。
1 內(nèi)容過濾模塊的總體設(shè)計(jì)
以對(duì)網(wǎng)絡(luò)傳輸有害信息郵件數(shù)據(jù)的攔截與監(jiān)控是郵件過濾系統(tǒng)設(shè)計(jì)的主要理念。依據(jù)該設(shè)計(jì)理念,通常將網(wǎng)絡(luò)郵件過濾系統(tǒng)的基本功能分成以下模塊:
(1)利用專業(yè)客戶端軟件對(duì)可疑郵件進(jìn)行排查,且使用遠(yuǎn)程控制技術(shù)管理與配置軟件運(yùn)行方式;(2)分析過濾數(shù)據(jù)報(bào)文,并對(duì)POP3、SMTP等郵件數(shù)據(jù)包實(shí)施組合;(3)提取數(shù)據(jù)報(bào)文,對(duì)數(shù)據(jù)進(jìn)行有效分離。
依據(jù)正定的IP地址及郵件地址等過濾條件對(duì)郵件進(jìn)行查收,并解析郵件內(nèi)容中的MIME編碼以恢復(fù)原始郵件內(nèi)容,在分析內(nèi)容的基礎(chǔ)上對(duì)關(guān)鍵字進(jìn)行檢索,且做好對(duì)可疑郵件的登記。[1]
由于垃圾郵件的繁殖性很高,若不能有效整改,在很容易危害正常合法郵件,影響互聯(lián)網(wǎng)的日常運(yùn)行。作為當(dāng)前反垃圾郵件中的關(guān)鍵技術(shù),電子郵件過濾技術(shù)主要通過兩方面完成對(duì)郵件的過濾:一方面利用服務(wù)器端進(jìn)行垃圾郵件排除;另一方面利用客戶端進(jìn)行垃圾郵件排除。而對(duì)于網(wǎng)絡(luò)內(nèi)部可疑郵件的攔截與排除則盡量采用以服務(wù)器端為基礎(chǔ)的郵件過濾方式,就是將郵件過濾器安置在郵件服務(wù)器上以完成對(duì)可疑郵件的過濾。
當(dāng)來自于Internet的郵件被通過POP3等系統(tǒng)接收時(shí),郵件數(shù)據(jù)過濾接口將過濾到的郵件數(shù)據(jù)內(nèi)容送交郵件過濾服務(wù)器,用戶暫時(shí)不閱覽該郵件,而是等待郵件過濾服務(wù)器的控制命令。內(nèi)容過濾模塊主要用于檢查及排除郵件信息中的正文內(nèi)容、附件內(nèi)容等重要文本內(nèi)容信息。郵件過濾服務(wù)器主要按照設(shè)定的規(guī)則集策略進(jìn)行郵件內(nèi)容排查,并能利用多線程技術(shù)實(shí)現(xiàn)對(duì)兩封以上郵件的同時(shí)管理和對(duì)郵件內(nèi)容的高效分析。郵件過濾服務(wù)器還能依據(jù)關(guān)鍵詞庫的匹配狀況對(duì)郵件的合法性進(jìn)行診斷判定。
2 文本過濾技術(shù)
2.1 PDF文檔的文本過濾技術(shù)
通常文件體、文件尾、文件頭、交叉引用表是PDF物理結(jié)構(gòu)的基本組成部分。文件體通常包含大量的PDF間接對(duì)象,而間接對(duì)象的組合便形成了PDF文件的圖像、頁面、字體等具體內(nèi)容;文件尾主要登記交叉引用表的地址,并根據(jù)文件體的根對(duì)象對(duì)加密等安全信息進(jìn)行存儲(chǔ);文件頭主要登記文件所使用的PDF規(guī)范版本號(hào),其常卸載PDF文件的首行位置;交叉引用表是一種間接對(duì)象地址索引表,其能夠?qū)崿F(xiàn)對(duì)間接對(duì)象的隨機(jī)儲(chǔ)存。利用文件尾獲取的信息,PDF瀏覽器能夠提取整體PDF文件及交叉引用表的根對(duì)象,進(jìn)而完成對(duì)文件的有序存儲(chǔ)。[2]
作為一種樹型結(jié)構(gòu),PDF文件主體文檔架構(gòu)是文件體中間對(duì)象間等級(jí)層次關(guān)系的基本反映。文檔結(jié)構(gòu)中根對(duì)象便是樹根節(jié)點(diǎn)。根節(jié)點(diǎn)下有四個(gè)子樹:頁面樹(Pages Tree)、書簽樹(Outline Hierarchy)、線程樹(Article Threads)、名字樹(Named Destination)。
PDF文本的物理格式用于對(duì)文字在頁面上的顯示方式的分析,基本有文字字體、位置、大小、顏色等屬性描述。在大量PDF文件中為降低文件占用大小,通常會(huì)將文本進(jìn)行deflate壓縮編碼。對(duì)于壓縮完成的文本只有在解碼完成后才能繼續(xù)進(jìn)行分析、描述研究。
2.2 HTML文檔的文本過濾技術(shù)
超文本標(biāo)記語言HTML是Web的通用語言,是創(chuàng)建Web頁和發(fā)布Web信息的格式,是Web設(shè)計(jì)的基礎(chǔ),是控制Web瀏覽器在屏幕上顯示內(nèi)容的核心技術(shù)。HTML的主要功能是對(duì)在各類應(yīng)用平臺(tái)上使用鏈接的超文本文件進(jìn)行編制,其標(biāo)記過程能夠表達(dá)出超文本的文檔、在線顯示視像、圖形、郵件、新聞等信息體。[3]
“頭”和“體”組成了HTML文檔的基本框架。HTML文檔均用于在瀏覽器上顯示,而支持HTTP的瀏覽器均為WINDOWS式的圖形用戶接口(GUI)界面,因此HTML文檔的基本結(jié)構(gòu)是依據(jù)這一要求而設(shè)計(jì)確定的。窗口體與標(biāo)題欄是圖形用戶接口界面的基本框架組成,這正好適用于HTML文檔的“頭”和“體”結(jié)構(gòu)。
(1)HTML容器標(biāo)記。在HTML文檔中的首個(gè)標(biāo)記即是HTML的容器標(biāo)記,其主要用于指示瀏覽器,代碼則根據(jù)HTML設(shè)定的結(jié)構(gòu)規(guī)則與語法進(jìn)行編寫。對(duì)應(yīng)的在文件的結(jié)尾處常出現(xiàn)的是結(jié)束標(biāo)記;(2)頭標(biāo)記(head)。作為一對(duì)頭標(biāo)簽,
和可以用來劃分標(biāo)記文件頭的區(qū)域(….),其包含著不在網(wǎng)頁上直接實(shí)施或顯示的項(xiàng)目。部分在顯示在瀏覽器標(biāo)題欄中的文檔標(biāo)題名稱(title)是與文檔相關(guān)的屬性參數(shù),其作為HTML文檔的首要部分,是一項(xiàng)可以選擇的參數(shù)類型,雖然HTML設(shè)定部分元素只在內(nèi)部狀況下適用。在文檔中只有標(biāo)題(title)元素能夠在瀏覽器中顯示,其余元素則無法進(jìn)行顯示。作為一種可選元素,TITLE(標(biāo)題)通常使用一對(duì)標(biāo)簽(2.3 MS-Word/PowerPoint文檔的文本過濾技術(shù)
在Microsoft提供的Office產(chǎn)品中,基本都具有OLE Automation自動(dòng)化程序接口。若用戶采用Script、VBA或VB使用Office功能,則要比簡單的使用VC要容易很多。如在使用WORD軟件時(shí),將菜單“工具(T)宏(M)錄制新宏(R)”調(diào)出的過程中,程序就對(duì)用戶在WORD中采取的基本鍵盤與菜單操作過程都記錄并儲(chǔ)存下來,以利于下次繼續(xù)調(diào)用。而在對(duì)這些操作記錄進(jìn)行儲(chǔ)存時(shí),便是應(yīng)用了VBA程序(Visual Basic for Application)。而為保證其他功能的實(shí)現(xiàn),也需要依據(jù)VBA程序方法。為使Office操作的過程更加具有層次性與邏輯性,Microsoft將應(yīng)用(Application)依據(jù)邏輯功能劃分為樹形結(jié)構(gòu),通過分析各功能之間的邏輯層次,用戶地域Office的操作才會(huì)更加正確。
3 結(jié)束語
垃圾過濾技術(shù)的應(yīng)用水平將直接關(guān)系郵件系統(tǒng)的運(yùn)行安全性與穩(wěn)定性,因此,相關(guān)技術(shù)與研究人員應(yīng)加強(qiáng)有關(guān)郵件系統(tǒng)中垃圾郵件過濾技術(shù)的分析,總結(jié)先進(jìn)過濾技術(shù)應(yīng)用要點(diǎn)及技術(shù)措施,已逐步改善垃圾郵件過濾質(zhì)量。
參考文獻(xiàn):
[1]衣治安,毛巖.垃圾郵件過濾技術(shù)概述[J].長江大學(xué)學(xué)報(bào)(自然科學(xué)版)理工卷,2010(10):61-62.
[2]賈云剛.垃圾郵件過濾技術(shù)研究[J].通信與信息技術(shù),2011(29):62-63.
作者單位:西北工業(yè)大學(xué) 網(wǎng)絡(luò)教育學(xué)院,西安 710072