趙偉 梁曉雁
摘 要:該課題研究過程中,查閱了大量的國內(nèi)外關(guān)于文本、圖片和過濾技術(shù)研究的著作、論文和期刊,從理論角度分析了現(xiàn)階段國內(nèi)外先進技術(shù)、實現(xiàn)方式和過濾算法,通過技術(shù)驗證和分析,以及實際的測試結(jié)果表明了采用協(xié)議還原、數(shù)據(jù)爬蟲引擎進行數(shù)據(jù)采集分析,使用關(guān)鍵字識別匹配、語義圖像識別等技術(shù)可實現(xiàn)對互聯(lián)網(wǎng)中文本、圖片和視頻信息的過濾。
關(guān)鍵詞:網(wǎng)絡(luò) 不良信息 危害 過濾
中圖分類號:TN9198 文獻標(biāo)識碼:A 文章編號:1672-3791(2015)09(c)-0003-02
不良信息過濾系統(tǒng),設(shè)計和實現(xiàn)對信息有效識別和過濾,并為用戶管理員提供進行可視化監(jiān)控。即用戶和管理員可查看信息保留和過濾不良信息過濾情況。因此,系統(tǒng)切實設(shè)計和實現(xiàn)系統(tǒng)分析識別功能和過濾功能,并將采集、分析和過濾的效能進行優(yōu)化,以達到優(yōu)良的用戶體現(xiàn)。
1 研究目的
該課題設(shè)計基于大數(shù)據(jù)技術(shù)的采集、分析和過濾的不良信息過濾系統(tǒng),該系統(tǒng)能夠有效識別互聯(lián)網(wǎng)中不同分類的不良信息,并根據(jù)用戶的需求,可實現(xiàn)對網(wǎng)頁文本內(nèi)容進行關(guān)鍵詞識別,然后對其URL進行相應(yīng)的處理,完成互聯(lián)網(wǎng)不良信息的過濾,其中內(nèi)容過濾是不良絡(luò)信息過濾系統(tǒng)的重點功能。具體的系統(tǒng)設(shè)計目標(biāo)為:
(1) 系統(tǒng)對內(nèi)容過濾的效率性能要求較高;
(2) 系統(tǒng)除了實現(xiàn)傳統(tǒng)的基于URL、關(guān)鍵字等信息的過濾,還實現(xiàn)了通過語義分析對文本內(nèi)容的智能過濾;
(3) 系統(tǒng)根據(jù)互聯(lián)網(wǎng)信息的變化情況具有適應(yīng)性學(xué)習(xí)的能力;
(4) 系統(tǒng)采用低耦合高內(nèi)聚的設(shè)計方法,將分詞、特征識別和分類算法進行模塊化設(shè)計;
(5) 將網(wǎng)頁劃分為多個處理單元,并實現(xiàn)分布式多引擎處理機制。
2 設(shè)計與實現(xiàn)
2.1 系統(tǒng)結(jié)構(gòu)
該信息過濾系統(tǒng)的架構(gòu)采集-分析-過濾-可視化”的架構(gòu)進行設(shè)計,并在這個基礎(chǔ)上滿足業(yè)務(wù)的可擴展性要求。整個系統(tǒng)包括如下四個部分:
2.1.1 采集系統(tǒng)
通過搜索監(jiān)測引擎的方式實現(xiàn)基于不良信息規(guī)格的數(shù)據(jù)采集,并將采集內(nèi)容分裝至采集庫。
2.1.2 分析系統(tǒng)
基于數(shù)據(jù)清洗和分析技術(shù),對所釆集的數(shù)據(jù)進行協(xié)議還原,包括數(shù)據(jù)重組,下載網(wǎng)頁或文字、圖片、視頻等信息,并完成內(nèi)容識別、分析和存儲。
2.1.3 過濾系統(tǒng)
根據(jù)分詞規(guī)則,通過檢索規(guī)則庫等技術(shù),對信息進行過濾,并提供完成格式優(yōu)化、策略配置和入庫建檔。
2.1.4 可視化系統(tǒng)
負責(zé)與用戶的交互、完成審核、報警和報表功能,并包括采集、分析和過濾的配置管理功能。
2.2 系統(tǒng)流程
該系統(tǒng)按照EPC 模型,通過將業(yè)務(wù)過程中的采集資源、分析資源、過濾資源和可視化資源(系統(tǒng)、組織、數(shù)據(jù)等),組織設(shè)計完成一個能夠完成不良信息過濾任務(wù)流程的動態(tài)模型。
2.2.1 數(shù)據(jù)采集
采集的種類分為兩大類,一種是使用互聯(lián)網(wǎng)的搜索引擎,根據(jù)指定的關(guān)鍵字進行相關(guān)內(nèi)容的數(shù)據(jù)采集,第二種是對指定網(wǎng)站類型的數(shù)據(jù)進行采集(如博客、論壇、新聞等)。根據(jù)這兩大類采集方式,分別執(zhí)行相應(yīng)的采集子流程,在采集子流程中根據(jù)不同的采集類型執(zhí)行相應(yīng)的采集規(guī)則,并將采集的數(shù)據(jù)存入數(shù)據(jù)庫中。
2.2.2 數(shù)據(jù)分析
數(shù)據(jù)分析階段,首先從采集數(shù)據(jù)庫中獲取數(shù)據(jù)內(nèi)容,然后根據(jù)數(shù)據(jù)內(nèi)容的不同選擇不同的數(shù)據(jù)分析器,最后進入相應(yīng)的數(shù)據(jù)清洗子流程。數(shù)據(jù)清洗子流程中,根據(jù)不同的分析器選擇文本分析法或者內(nèi)容分析法進行相應(yīng)的數(shù)據(jù)清洗,并將清洗后的數(shù)據(jù)結(jié)果存入數(shù)據(jù)庫中。
2.2.3 數(shù)據(jù)處理
數(shù)量處理階段,首先從清洗后的數(shù)據(jù)庫中獲取初步處理的數(shù)據(jù),然后對該數(shù)據(jù)根據(jù)配置的處理的方式,選擇相應(yīng)的處理流程。該階段的處理流程主要包括:檢索、分類、聚合等;還可以通過插件的方式對其進行擴展來完成更多的功能。
2.2.4 數(shù)據(jù)展示階段
主要是通過頁面的形式對數(shù)據(jù)進行一個有效的展示,更能直觀的表達出數(shù)據(jù)的作用,包括展現(xiàn)預(yù)警信息、負面信息、熱點趨勢等,通過擴展頁面的方式可以增加更多的展示效果。
3 結(jié)語
該課題最初的研究是基于研究解決不同不良信息的過濾問題,但是隨著對現(xiàn)狀的分析和工作的難度增加,越來越發(fā)現(xiàn)針對網(wǎng)絡(luò)不良信息的過濾是一個可以上至關(guān)系國家民生,下至老百姓生活的具體防范措施,從而調(diào)整工作的步驟,逐步建立可視化監(jiān)測平臺、規(guī)劃不良信息搜集、持續(xù)實時監(jiān)測過濾機制、完成研究報告。這個過程是非常艱辛,其中過很多的迷茫和未知,都是通過檢索和收集大量的相關(guān)資料,以及在不斷地部署開發(fā)驗證中磨練。其中也體會到了技術(shù)改變一切,但是不斷業(yè)務(wù)需求是驅(qū)動,業(yè)務(wù)剖析和其他手段的輔助也關(guān)切到不良信息的成果,這里就涉及到了國內(nèi)外的法律法規(guī)、管理措施、道德約束,這些各自都是一定因素的助力和局限,直接影響著網(wǎng)絡(luò)不良信息的現(xiàn)狀。
參考文獻
[1] 叢健.不良信息過濾技術(shù)研究[D].北京:北京郵電大學(xué),2012.
[2] 史乙力.基于關(guān)鍵詞匹配的網(wǎng)頁文本過濾算法的研究和實現(xiàn)[D].貴陽:貴州大學(xué),2009.
[3] 賈美娟.基于互聯(lián)網(wǎng)的不良信息過濾技術(shù)的設(shè)計與實現(xiàn)[D].哈爾濱:哈爾濱工程大學(xué),2006.
[4] 王銀利.基于啟發(fā)式規(guī)則和文本分類的信息過濾技術(shù)[D].北京:北京交通大學(xué),2007.
[5] 黃勃.基于語義分析的網(wǎng)絡(luò)過濾設(shè)計與實現(xiàn)[D].長沙:湖南大學(xué),2011.
[6] 林建.網(wǎng)絡(luò)不良信息過濾研究[D].武漢:華中師范大學(xué),2007.
[7] 蘇云,馬慧芳.基于Web的信息過濾技術(shù)[J].情報雜志,2005,24(5):72-73.