福州大學物理與信息工程學院 代立華 黃立勤
基于圖像型垃圾郵件過濾系統(tǒng)的研究
福州大學物理與信息工程學院 代立華 黃立勤
在互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展的背景下,電子郵件憑借著成本低、方便快捷的特點在人們?nèi)粘=涣骱蜏贤ㄖ械膽?yīng)用越來越廣泛。但需要注意的是,大量垃圾郵件的出現(xiàn)嚴重影響了人們的使用體驗,尤其近年來圖像型垃圾郵件的出現(xiàn),給眾多用戶和企業(yè)帶來了嚴重的困擾,甚至導致各種損失的出現(xiàn),這就給垃圾郵件過濾軟件提出了更高的要求?;谝陨希疚奶岢隽艘环N基于OCR過濾方法的圖像型垃圾郵件過濾系統(tǒng),分析了圖像向垃圾郵件的過濾策略、文本檢測和文本識別,研究了圖像型垃圾郵件過濾系統(tǒng)的設(shè)計結(jié)構(gòu)。
圖像型垃圾郵件;文本檢測;文本識別;過濾系統(tǒng)
近年來,研究人員對圖像垃圾郵件的識別和過濾技術(shù)的研究較為關(guān)注,但當前研究出的過濾系統(tǒng)都不能夠很好的實現(xiàn)垃圾郵件圖像的識別和分類,難以滿足圖像型垃圾郵件過濾的準確性、實時性及高效性要求?;谝陨?,本文提出了一種以O(shè)CR技術(shù)為基礎(chǔ)的圖像向垃圾郵件過濾系統(tǒng),旨在為相關(guān)研究和實踐提供參考。
就目前來看,圖像型垃圾郵件的過濾方法主要包括貝葉斯過濾算法、支持向量機分類算法、黑白名單過濾算法及決策樹過濾算法等。本文以傳統(tǒng)垃圾郵件檢測過濾技術(shù)為基礎(chǔ),融合OCR技術(shù)(光學字符識別技術(shù)),具體的過濾步驟如下:首先采用黑白名單過濾算法對圖像型垃圾郵件進行過濾,之后利用OCR技術(shù)對圖像型郵件中的文本進行提取,最后以支持向量機分類算法為基礎(chǔ),對郵件進行明確的分類,以此來實現(xiàn)對圖像型垃圾郵件類型的判斷。
OCR技術(shù)主要以模式識別方法為基礎(chǔ),能夠?qū)в形淖值膱D像文件轉(zhuǎn)換為可以進行編輯的文本文件,利用OCR軟件能夠有效提取二值化文檔圖像中的文字。具體來說,首先需要處理圖像,檢測出圖像中的文本區(qū)域,之后進行文本區(qū)域的二值化處理,最后提取文字信息[1]。
3.1 提取圖像邊緣集
3.1.1 求圖像邊緣
當前有著眾多圖像邊緣檢測算法,其中John F·Canny提出的Canny算子檢測算法以最優(yōu)化算法為基礎(chǔ),是最為有效也是應(yīng)用最為廣泛的一種圖像邊緣檢測算法。因此,本文以此方法為基礎(chǔ)來對郵件圖像的垂直邊緣和水平邊緣進行檢測。具體步驟如下:①采用高斯濾波平滑圖像來減少或去除圖像噪聲;②以一階微分偏導數(shù)有限差分方法為基礎(chǔ),對圖像中各個像素點的梯度值和方向進行計算和分析[2];③采用非極大值方法來實現(xiàn)圖像梯度幅值的抑制,④利用雙閾值算法,對圖像邊緣進行檢測和連接,盡可能消除圖像邊緣中的偽邊緣段。
3.1.2 圖像邊緣細化
SPTA細化算法是一種有效的圖像邊緣細化方法,在處理圖像后能夠保證圖像的圓潤性,且能夠有效避免出現(xiàn)圖像紋理斷裂的問題,時間復雜度較低,鑒于SPTA算法的眾多優(yōu)勢,本文選此方法來對得到的目標區(qū)域邊緣圖像進行邊緣細化處理。具體來說,使用窗口模式來掃描目標區(qū)域邊緣圖像的所有像素,按照一定的規(guī)則計算像素點鄰域,之后在橫向和縱向上對像素點進行檢測,判斷出可能要刪除的像素點和安全像素點,以此來實現(xiàn)對目標區(qū)域邊緣圖像的細化處理。
3.2 候選文本區(qū)域融合
經(jīng)過上述步驟得到的圖像邊緣連通性優(yōu)良,邊緣清晰、圓潤,但需要注意的是,在提取圖像邊緣集的過程中,一些與圖像文本相似的、有著一定規(guī)則性的背景物體被保留了下來,為了保證郵件圖像關(guān)鍵文字的提取效果,需要對這些背景圖像即非文本區(qū)域進行去除,去除干擾。具體步驟如下:①以顏色視覺特征為依據(jù),對圖像區(qū)域進行聚類處理;②使用小波變換方法,分解分布特征近似的區(qū)域圖像,以此來實現(xiàn)后續(xù)處理工作的簡化;③構(gòu)造區(qū)域能量圖像,利用文字方向投影斷層檢測算法,對文字塊進行構(gòu)建,從而實現(xiàn)對非文本區(qū)域進行去除。
3.3 驗證候選文本區(qū)域融合
融合圖像候選文本區(qū)域之后,能夠?qū)ξ淖址较蜻M行明確,并取出文字重疊部分,之后的工作需要分離候選文本區(qū)域中的文本區(qū)域和非文本區(qū)域。本文選用支持向量機SVM分類方法,實現(xiàn)相應(yīng)特征的分類,以此來識別并獲取圖像中的文本區(qū)域。
在采用檢測算法處理圖像之后,能夠識別和篩選出圖像中的文本區(qū)域,但需要注意的是,要想通過OCR軟件對圖像中的文字進行處理,需要對圖像進行二值化處理,而二值化處理的過程中會受到背景圖像的影響,容易引入噪聲,影響文本的識別率,因此,在二值化處理圖像完成后進行圖像去噪是十分必要的。以小波變換為基礎(chǔ)的去噪方法十分有效,能夠保證原始圖像紋理細節(jié)的完整性,不會對邊緣輪廓造成破壞。在識別的過程中,將文字壁畫特征圖算法和圖像文本顏色層算法結(jié)合,通過組合過濾的方式來保證獲取二值化圖像的高質(zhì)量。
根據(jù)上述步驟來提取圖像中的文本信息之后,將文本信息與事先構(gòu)造詞庫中的敏感詞進行比對,確定圖像型垃圾郵件的類別。選用來自于Spam Archive數(shù)據(jù)集中的訓練樣本與測試樣本,采用基于ORC的圖像型垃圾郵件過濾系統(tǒng)進行實驗。以谷歌OCR開源代碼為基礎(chǔ),在相關(guān)軟件環(huán)境下調(diào)試來生成可執(zhí)行文件,獲取文本信息后將提取結(jié)果在一個文件中保存。
其中廣告類圖像型垃圾郵件共有200幅,涉嫌違法類圖像型垃圾郵件共有200幅,分別為票證類郵件圖像100幅,色情類郵件圖像50幅,反動類郵件圖像50幅,具體過濾實驗結(jié)果如表1所示: