• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于圖像型垃圾郵件過濾系統(tǒng)的研究

    2016-03-17 14:16:59福州大學物理與信息工程學院代立華黃立勤
    電子世界 2016年19期
    關(guān)鍵詞:垃圾郵件像素點郵件

    福州大學物理與信息工程學院 代立華 黃立勤

    基于圖像型垃圾郵件過濾系統(tǒng)的研究

    福州大學物理與信息工程學院 代立華 黃立勤

    在互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展的背景下,電子郵件憑借著成本低、方便快捷的特點在人們?nèi)粘=涣骱蜏贤ㄖ械膽?yīng)用越來越廣泛。但需要注意的是,大量垃圾郵件的出現(xiàn)嚴重影響了人們的使用體驗,尤其近年來圖像型垃圾郵件的出現(xiàn),給眾多用戶和企業(yè)帶來了嚴重的困擾,甚至導致各種損失的出現(xiàn),這就給垃圾郵件過濾軟件提出了更高的要求?;谝陨希疚奶岢隽艘环N基于OCR過濾方法的圖像型垃圾郵件過濾系統(tǒng),分析了圖像向垃圾郵件的過濾策略、文本檢測和文本識別,研究了圖像型垃圾郵件過濾系統(tǒng)的設(shè)計結(jié)構(gòu)。

    圖像型垃圾郵件;文本檢測;文本識別;過濾系統(tǒng)

    1 前言

    近年來,研究人員對圖像垃圾郵件的識別和過濾技術(shù)的研究較為關(guān)注,但當前研究出的過濾系統(tǒng)都不能夠很好的實現(xiàn)垃圾郵件圖像的識別和分類,難以滿足圖像型垃圾郵件過濾的準確性、實時性及高效性要求?;谝陨?,本文提出了一種以O(shè)CR技術(shù)為基礎(chǔ)的圖像向垃圾郵件過濾系統(tǒng),旨在為相關(guān)研究和實踐提供參考。

    2 圖像型垃圾郵件過濾策略分析

    就目前來看,圖像型垃圾郵件的過濾方法主要包括貝葉斯過濾算法、支持向量機分類算法、黑白名單過濾算法及決策樹過濾算法等。本文以傳統(tǒng)垃圾郵件檢測過濾技術(shù)為基礎(chǔ),融合OCR技術(shù)(光學字符識別技術(shù)),具體的過濾步驟如下:首先采用黑白名單過濾算法對圖像型垃圾郵件進行過濾,之后利用OCR技術(shù)對圖像型郵件中的文本進行提取,最后以支持向量機分類算法為基礎(chǔ),對郵件進行明確的分類,以此來實現(xiàn)對圖像型垃圾郵件類型的判斷。

    OCR技術(shù)主要以模式識別方法為基礎(chǔ),能夠?qū)в形淖值膱D像文件轉(zhuǎn)換為可以進行編輯的文本文件,利用OCR軟件能夠有效提取二值化文檔圖像中的文字。具體來說,首先需要處理圖像,檢測出圖像中的文本區(qū)域,之后進行文本區(qū)域的二值化處理,最后提取文字信息[1]。

    3 圖像文本檢測

    3.1 提取圖像邊緣集

    3.1.1 求圖像邊緣

    當前有著眾多圖像邊緣檢測算法,其中John F·Canny提出的Canny算子檢測算法以最優(yōu)化算法為基礎(chǔ),是最為有效也是應(yīng)用最為廣泛的一種圖像邊緣檢測算法。因此,本文以此方法為基礎(chǔ)來對郵件圖像的垂直邊緣和水平邊緣進行檢測。具體步驟如下:①采用高斯濾波平滑圖像來減少或去除圖像噪聲;②以一階微分偏導數(shù)有限差分方法為基礎(chǔ),對圖像中各個像素點的梯度值和方向進行計算和分析[2];③采用非極大值方法來實現(xiàn)圖像梯度幅值的抑制,④利用雙閾值算法,對圖像邊緣進行檢測和連接,盡可能消除圖像邊緣中的偽邊緣段。

    3.1.2 圖像邊緣細化

    SPTA細化算法是一種有效的圖像邊緣細化方法,在處理圖像后能夠保證圖像的圓潤性,且能夠有效避免出現(xiàn)圖像紋理斷裂的問題,時間復雜度較低,鑒于SPTA算法的眾多優(yōu)勢,本文選此方法來對得到的目標區(qū)域邊緣圖像進行邊緣細化處理。具體來說,使用窗口模式來掃描目標區(qū)域邊緣圖像的所有像素,按照一定的規(guī)則計算像素點鄰域,之后在橫向和縱向上對像素點進行檢測,判斷出可能要刪除的像素點和安全像素點,以此來實現(xiàn)對目標區(qū)域邊緣圖像的細化處理。

    3.2 候選文本區(qū)域融合

    經(jīng)過上述步驟得到的圖像邊緣連通性優(yōu)良,邊緣清晰、圓潤,但需要注意的是,在提取圖像邊緣集的過程中,一些與圖像文本相似的、有著一定規(guī)則性的背景物體被保留了下來,為了保證郵件圖像關(guān)鍵文字的提取效果,需要對這些背景圖像即非文本區(qū)域進行去除,去除干擾。具體步驟如下:①以顏色視覺特征為依據(jù),對圖像區(qū)域進行聚類處理;②使用小波變換方法,分解分布特征近似的區(qū)域圖像,以此來實現(xiàn)后續(xù)處理工作的簡化;③構(gòu)造區(qū)域能量圖像,利用文字方向投影斷層檢測算法,對文字塊進行構(gòu)建,從而實現(xiàn)對非文本區(qū)域進行去除。

    3.3 驗證候選文本區(qū)域融合

    融合圖像候選文本區(qū)域之后,能夠?qū)ξ淖址较蜻M行明確,并取出文字重疊部分,之后的工作需要分離候選文本區(qū)域中的文本區(qū)域和非文本區(qū)域。本文選用支持向量機SVM分類方法,實現(xiàn)相應(yīng)特征的分類,以此來識別并獲取圖像中的文本區(qū)域。

    4 圖像文本識別

    在采用檢測算法處理圖像之后,能夠識別和篩選出圖像中的文本區(qū)域,但需要注意的是,要想通過OCR軟件對圖像中的文字進行處理,需要對圖像進行二值化處理,而二值化處理的過程中會受到背景圖像的影響,容易引入噪聲,影響文本的識別率,因此,在二值化處理圖像完成后進行圖像去噪是十分必要的。以小波變換為基礎(chǔ)的去噪方法十分有效,能夠保證原始圖像紋理細節(jié)的完整性,不會對邊緣輪廓造成破壞。在識別的過程中,將文字壁畫特征圖算法和圖像文本顏色層算法結(jié)合,通過組合過濾的方式來保證獲取二值化圖像的高質(zhì)量。

    5 過濾系統(tǒng)

    根據(jù)上述步驟來提取圖像中的文本信息之后,將文本信息與事先構(gòu)造詞庫中的敏感詞進行比對,確定圖像型垃圾郵件的類別。選用來自于Spam Archive數(shù)據(jù)集中的訓練樣本與測試樣本,采用基于ORC的圖像型垃圾郵件過濾系統(tǒng)進行實驗。以谷歌OCR開源代碼為基礎(chǔ),在相關(guān)軟件環(huán)境下調(diào)試來生成可執(zhí)行文件,獲取文本信息后將提取結(jié)果在一個文件中保存。

    其中廣告類圖像型垃圾郵件共有200幅,涉嫌違法類圖像型垃圾郵件共有200幅,分別為票證類郵件圖像100幅,色情類郵件圖像50幅,反動類郵件圖像50幅,具體過濾實驗結(jié)果如表1所示:

    猜你喜歡
    垃圾郵件像素點郵件
    基于James的院內(nèi)郵件管理系統(tǒng)的實現(xiàn)
    從“scientist(科學家)”到“spam(垃圾郵件)”,英語單詞的起源出人意料地有趣 精讀
    英語文摘(2021年10期)2021-11-22 08:02:36
    一種基于SMOTE和隨機森林的垃圾郵件檢測算法
    一封郵件引發(fā)的梅賽德斯反彈
    車迷(2018年12期)2018-07-26 00:42:32
    基于canvas的前端數(shù)據(jù)加密
    基于逐像素點深度卷積網(wǎng)絡(luò)分割模型的上皮和間質(zhì)組織分割
    基于支持向量機與人工免疫系統(tǒng)的垃圾郵件過濾模型
    基于Node-Cell結(jié)構(gòu)的HEVC幀內(nèi)編碼
    石器部落
    將當前郵件快速轉(zhuǎn)發(fā)到QQ群
    電腦迷(2012年21期)2012-04-29 22:16:01
    秦安县| 黑龙江省| 高唐县| 大悟县| 和平县| 精河县| 手游| 大邑县| 伊宁市| 百色市| 阿坝县| 仁寿县| 平昌县| 肇庆市| 郧西县| 津市市| 湖南省| 祁门县| 仪征市| 开鲁县| 明水县| 长子县| 定西市| 枝江市| 安达市| 汉沽区| 勐海县| 湘潭县| 北安市| 平度市| 邯郸县| 惠来县| 临猗县| 云安县| 镇赉县| 松潘县| 岳池县| 山阴县| 盘山县| 浠水县| 疏附县|