【摘要】信息過濾作為解決網(wǎng)絡(luò)信息超載問題而發(fā)展起來的技術(shù)與方法,目前主要集中運用于不良信息過濾和獲取與用戶需求密切相關(guān)的信息。本文對信息過濾技術(shù)的分類及應(yīng)用進行了研究探討。
【關(guān)鍵詞】信息過濾;技術(shù);應(yīng)用
信息過濾(information filtering,IF)作為解決網(wǎng)絡(luò)信息超載問題而發(fā)展起來的技術(shù)與方法,最初運用于新聞和電子郵件過濾,后來被用于各類信息源過濾。目前國內(nèi)外關(guān)于信息過濾的研究主要集中在兩個方面:一是不良信息過濾,主要目的在于維護網(wǎng)絡(luò)信息的健康,凈化網(wǎng)絡(luò)環(huán)境;二是獲取相關(guān)信息過濾,過濾掉無用或不相關(guān)的信息,主要目的在于獲取與用戶需求密切相關(guān)的信息。
本文著重探討網(wǎng)上不良信息的過濾,不良信息是一個主觀的、相對的概念,同一信息相對于不同的用戶、不同的監(jiān)管者和不同的環(huán)境條件來說,可能會有不同的定位。我國自1996年以來,已經(jīng)制定了20多個涉及互聯(lián)網(wǎng)非法內(nèi)容的法律文件。一般情況下,凡是違背社會主義精神文明建設(shè)要求,違背中華民族優(yōu)良文化傳統(tǒng)與習(xí)慣,以及其他違背社會公德的各類文字、圖片、音視頻信息都可視為不良信息。
1.信息過濾技術(shù)的分類
目前國內(nèi)外的各種不良信息過濾軟件或系統(tǒng),在網(wǎng)頁信息鑒別上主要使用四種過濾技術(shù),即基于因特網(wǎng)內(nèi)容分級平臺過濾(PICS)、數(shù)據(jù)庫過濾(IP庫、URL庫)、關(guān)鍵詞過濾以及基于內(nèi)容理解的過濾。
1.1基于因特網(wǎng)內(nèi)容分級平臺過濾(PICS)
為了保護用戶免受網(wǎng)絡(luò)不良信息的侵擾, W3C(World Wide Web Consortium)于1995年8月組織當(dāng)時因特網(wǎng)上的主導(dǎo)力量共同商討制定一套技術(shù)規(guī)范,即因特網(wǎng)內(nèi)容分級平臺( platform for Internet content selection,簡稱PICS),它是一種分級過濾軟件標(biāo)準(zhǔn),為網(wǎng)上信息內(nèi)容的標(biāo)記、分級提供一個平臺,使用戶或組織能夠根據(jù)各自認同的分級體系對網(wǎng)絡(luò)內(nèi)容進行分級,分級體系(rating system)規(guī)定了分級的類目、類目的級別和分級的標(biāo)準(zhǔn)。
分級得到被稱為分級標(biāo)記(content rating)的數(shù)據(jù)集,分級標(biāo)記產(chǎn)生以后,凡是遵循PICS技術(shù)規(guī)范開發(fā)的軟件都可以對其進行處理。用戶可以通過分級標(biāo)記了解到分級機構(gòu)和分級體系的情況,從而在使用時下載合適的過濾系統(tǒng)分級檔案,并在瀏覽器中設(shè)置不同的向度,在瀏覽網(wǎng)頁時,瀏覽器會依據(jù)用戶設(shè)定的向度級別篩選出合適的信息。
利用網(wǎng)頁內(nèi)容分級法,采取人工分級方法過濾不良信息,其錯誤率相對較低,并可以準(zhǔn)確地對圖像、視頻等多媒體信息進行準(zhǔn)確分級,尤其是網(wǎng)頁作者能主動采用標(biāo)準(zhǔn)的分級體系分級時,將對過濾不良信息、凈化網(wǎng)絡(luò)環(huán)境有較大的推動作用。但這與網(wǎng)頁作者希望更多的人瀏覽其網(wǎng)頁的初衷是相違背的,如果網(wǎng)頁作者是惡意地傳播不良信息的話,用戶對其是無法控制的。
1.2數(shù)據(jù)庫過濾
數(shù)據(jù)庫過濾就是通過對網(wǎng)上各種信息進行分類后,精確地匹配URL和與之對應(yīng)的頁面內(nèi)容,形成一個預(yù)分類的網(wǎng)址庫。網(wǎng)址庫有兩種類型的列表,一種為“黑名單”,包括禁止訪問的目標(biāo)網(wǎng)站的URL,另一個是“白名單”,包括允許訪問的目標(biāo)網(wǎng)站的URL。在用戶訪問網(wǎng)頁時,依據(jù)數(shù)據(jù)庫中的IP地址或URL來判定是否需要過濾掉相應(yīng)的內(nèi)容。數(shù)據(jù)庫必須依賴事先列出的特定網(wǎng)址,對非法URL的覆蓋程度不高,此外這種方法對許多寄生在綜合性網(wǎng)站內(nèi)的不良信息也無法過濾。但數(shù)據(jù)庫過濾的過濾速度快,準(zhǔn)確率比較高,且經(jīng)過系統(tǒng)的不斷訓(xùn)練反饋,通過一定時間一定規(guī)模的積累之后,禁用地址數(shù)據(jù)庫將動態(tài)地修改完善,在一定程度上可以滿足用戶要求。
1.3基于關(guān)鍵詞的過濾
基于關(guān)鍵詞的過濾原理簡單,就是給定一系列描述文檔特征的關(guān)鍵字或索引詞,或者時間、作者姓名等個性信息。在過濾過程中,它以數(shù)據(jù)流中是否包含關(guān)鍵詞或衡量與關(guān)鍵詞的相似度,判斷是否要過濾掉該頁面。這種方法的性能取決于是否建立精確完備的禁用關(guān)鍵詞庫,它過濾速度快,但往往不考慮上下文的關(guān)聯(lián)性,漏報、錯報率較高,而且有些信息內(nèi)容的發(fā)布者可能有意避開使用這些詞,用其他的詞或圖片替代,使得基于關(guān)鍵詞的信息過濾機制不能識別。
1.4基于內(nèi)容理解的過濾
基于內(nèi)容理解的過濾是指對獲取的網(wǎng)絡(luò)信息內(nèi)容進行識別、判斷、分類,確定其是否為需要過濾的目標(biāo)內(nèi)容,并對已確定的目標(biāo)內(nèi)容進行過濾等檢測控制的技術(shù)。它是根據(jù)不良信息的一些內(nèi)容所呈現(xiàn)的特征來進行判斷的一種識別過濾方法?;趦?nèi)容理解的過濾技術(shù)具有適應(yīng)性強、精度高等特點,能有效地解決基于數(shù)據(jù)庫和關(guān)鍵詞的過濾技術(shù)不能處理好的問題,包括文本內(nèi)容理解過濾、圖像內(nèi)容分析過濾、視頻內(nèi)容分析過濾和智能混合過濾等。
1.5其他過濾策略
基于提高過濾不良信息的整體性能和運行速度考慮,分級匹配過濾的策略也被提出來。第一級過濾是基于查詢關(guān)鍵詞的過濾和基于數(shù)據(jù)庫的過濾,這兩種過濾方式過濾速度快,可以快速剔除一部分不良信息,緩解了系統(tǒng)壓力。第二級過濾是基于內(nèi)容理解的過濾,是主要的過濾環(huán)節(jié)。兩種過濾方式的有機結(jié)合,在一定程度上提高了過濾的效率和準(zhǔn)確率。
2.信息過濾技術(shù)的應(yīng)用
通過在服務(wù)器端或是計算機終端安裝過濾產(chǎn)品,信息過濾技術(shù)已經(jīng)被廣泛地應(yīng)用于網(wǎng)絡(luò)環(huán)境的凈化。公安、安全網(wǎng)絡(luò)監(jiān)察部門廣泛采用各種信息過濾產(chǎn)品,實現(xiàn)對互聯(lián)網(wǎng)接入單位網(wǎng)絡(luò)出口的信息審計管理。教育部、財政部、工業(yè)和信息化部、國務(wù)院新聞辦2009年4月下發(fā)通知,為各中小學(xué)校聯(lián)網(wǎng)的計算機終端免費提供綠色上網(wǎng)過濾軟件,以凈化校園網(wǎng)絡(luò)環(huán)境。中國電信、中國網(wǎng)通等運營商也陸續(xù)在全國各地推出綠色上網(wǎng)業(yè)務(wù),為用戶提供不良信息過濾服務(wù),這些舉措都可以為部隊網(wǎng)絡(luò)管理部門所借鑒。
目前,經(jīng)過公安部審核頒發(fā)銷售許可證的硬件或軟件的信息過濾產(chǎn)品已達30余種,可以實現(xiàn)IP過濾、自動收集、識別網(wǎng)上的各種信息,具有智能化地提取摘要和關(guān)鍵詞、建立索引、提供查詢和對不良信息的報警等功能?;谥虚g服務(wù)器過濾的網(wǎng)絡(luò)安全管理系統(tǒng)或網(wǎng)關(guān)型產(chǎn)品,對于部隊網(wǎng)絡(luò)管理部門來說是一個良好的選擇,所有的信息都要經(jīng)過它的過濾才能進出內(nèi)網(wǎng),可以對不良信息進行有效控制,實現(xiàn)把內(nèi)網(wǎng)安全管理由被動防護轉(zhuǎn)變?yōu)橹鲃訖z測,根據(jù)用戶工作性質(zhì)設(shè)置管理策略,對用戶網(wǎng)上行為進行監(jiān)管、審計、追蹤等,能夠有效提高網(wǎng)絡(luò)信息管理水平。
依靠專門的網(wǎng)絡(luò)信息過濾產(chǎn)品,在隔離不良信息方面雖然能起到明顯的作用,但任何一種過濾策略不可能剔除網(wǎng)上所有的不良信息。創(chuàng)建良好的網(wǎng)絡(luò)環(huán)境,引導(dǎo)和督促使用者養(yǎng)成良好的上網(wǎng)習(xí)慣,加強對上網(wǎng)行為的嚴格管理是關(guān)鍵。在現(xiàn)實生活中,管理者往往只關(guān)注系統(tǒng)是否完備、應(yīng)用是否通暢,以及設(shè)備的檢修維護等,卻忽視了對上網(wǎng)人員的行為管理和教育。
上網(wǎng)行為管理,又稱網(wǎng)絡(luò)行為管理,就是對上網(wǎng)人員在網(wǎng)上進行的各種個人或社會活動,進行合理的、規(guī)范的管理。近幾年來,上網(wǎng)行為管理已經(jīng)引起各國政府的關(guān)注,上網(wǎng)行為管理產(chǎn)品也逐漸形成了獨立的系統(tǒng)。這些產(chǎn)品以網(wǎng)絡(luò)行為記錄和控制為主要手段,可以對BBS發(fā)帖內(nèi)容等進行關(guān)鍵詞過濾,并對此類行為自動記錄;對流量進行控制,保障重要用戶和核心用戶的帶寬;進行網(wǎng)絡(luò)行為客觀評估,形成詳盡的網(wǎng)絡(luò)流量日志、郵件日志、網(wǎng)絡(luò)監(jiān)控日志等統(tǒng)計報表,并向管理者報告;對不規(guī)范網(wǎng)絡(luò)行為進行阻斷,實現(xiàn)帶寬資源的合理利用,保障健康網(wǎng)絡(luò)文化的傳播。上網(wǎng)行為管理支持網(wǎng)關(guān)模式、網(wǎng)橋模式等多種方式,由用戶根據(jù)需要自由選擇,與各種網(wǎng)絡(luò)安全軟件和防病毒、防入侵技術(shù)相互補充,為各個內(nèi)部網(wǎng)絡(luò)安全建設(shè)和管理提供幫助。在平時的管理工作中,準(zhǔn)確把握不良信息傳播的動向,及時采取有效的過濾處理技術(shù),堵住不良信息來源路徑,切斷傳播渠道,并教育和引導(dǎo)用戶增強識別不良信息的判斷力、抵抗力,有效防止和控制不良信息侵入內(nèi)部網(wǎng)絡(luò)。