• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      互聯(lián)網(wǎng)不良信息監(jiān)控在電信運(yùn)營(yíng)商的研究與應(yīng)用

      2020-06-09 07:52:20時(shí)鎮(zhèn)軍
      江蘇通信 2020年2期
      關(guān)鍵詞:爬蟲(chóng)指紋文本

      時(shí)鎮(zhèn)軍

      中國(guó)移動(dòng)通信集團(tuán)江蘇有限公司

      0 引言

      近年來(lái),隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展和用戶規(guī)模的快速擴(kuò)大,在巨大的市場(chǎng)規(guī)模和非法利益的驅(qū)使下,網(wǎng)絡(luò)不良信息泛濫。據(jù)統(tǒng)計(jì),互聯(lián)網(wǎng)上12%的網(wǎng)站涉及不良信息,25%的搜索關(guān)鍵詞涉及不良信息,35%的網(wǎng)絡(luò)下載涉及不良信息,每秒鐘2.7 萬(wàn)用戶正在觀看不良信息。這種現(xiàn)象嚴(yán)重?cái)牧松鐣?huì)風(fēng)氣,社會(huì)各界對(duì)此深惡痛絕。

      為加強(qiáng)互聯(lián)網(wǎng)不良信息監(jiān)控,構(gòu)建綠色文明的互聯(lián)網(wǎng)絡(luò),我國(guó)出臺(tái)了一系列法律法規(guī),2006 年頒布了《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,2012 年出臺(tái)了《關(guān)于加強(qiáng)網(wǎng)絡(luò)信息保護(hù)的決定》《互聯(lián)網(wǎng)信息服務(wù)管理辦法》,2016 年頒布了《中華人民共和國(guó)網(wǎng)絡(luò)安全法》。除了需要法律支撐外,在實(shí)際網(wǎng)絡(luò)不良信息監(jiān)控中還需要依靠技術(shù)手段。世界各國(guó)在互聯(lián)網(wǎng)管理過(guò)程中,均是采用“政府立法+技術(shù)過(guò)濾”的管制模式。如韓國(guó)要求公共上網(wǎng)場(chǎng)所安裝過(guò)濾軟件,保證未成年人獲取健康信息,還限制青少年的深夜網(wǎng)絡(luò)游戲行為;芬蘭教育部在全國(guó)學(xué)校和圖書(shū)館的電腦上安裝攔截軟件,過(guò)濾和屏蔽不良網(wǎng)站;芬蘭電信運(yùn)營(yíng)商也為家長(zhǎng)提供“家長(zhǎng)網(wǎng)上監(jiān)控”服務(wù),通過(guò)過(guò)濾器過(guò)濾掉網(wǎng)上不健康的內(nèi)容;澳大利亞的“互聯(lián)網(wǎng)安全計(jì)劃”要求網(wǎng)站加強(qiáng)個(gè)人認(rèn)證;英國(guó)設(shè)立了專門(mén)網(wǎng)站,向家長(zhǎng)提供最新的網(wǎng)絡(luò)安全信息。

      為嚴(yán)厲打擊利用互聯(lián)網(wǎng)傳播不良信息的行為,全國(guó)“掃黃打非”工作小組辦公室、國(guó)家互聯(lián)網(wǎng)信息辦公室、工業(yè)和信息化部、公安部每年開(kāi)展一次“掃黃打非”凈網(wǎng)專項(xiàng)行動(dòng)。其公告第三項(xiàng)“各互聯(lián)網(wǎng)站、基礎(chǔ)電信運(yùn)營(yíng)企業(yè)、網(wǎng)絡(luò)接入服務(wù)企業(yè)立即開(kāi)展自查自糾,主動(dòng)清理網(wǎng)上淫穢色情信息或鏈接”。

      為落實(shí)國(guó)家相關(guān)部委及集團(tuán)總部關(guān)于互聯(lián)網(wǎng)資源信息安全的治理工作考核要求,本文將研究不良信息監(jiān)控平臺(tái)及在運(yùn)營(yíng)商中的應(yīng)用,實(shí)現(xiàn)對(duì)不良信息的智能監(jiān)測(cè)與管理,解決互聯(lián)網(wǎng)用戶綠色上網(wǎng)的問(wèn)題。

      1 系統(tǒng)架構(gòu)

      平臺(tái)通過(guò)主動(dòng)爬蟲(chóng)獲取用戶網(wǎng)絡(luò)中的文字、圖像、視頻數(shù)據(jù),利用計(jì)算機(jī)視覺(jué)相關(guān)技術(shù)(包括文字匹配算法、模式識(shí)別、深度學(xué)習(xí)、圖像指紋技術(shù)等)對(duì)網(wǎng)絡(luò)中的文本、圖像、視頻進(jìn)行自動(dòng)檢測(cè)與識(shí)別。識(shí)別的目標(biāo)包括:黃色文字、圖像與視頻、暴力恐怖圖像、反動(dòng)圖像與視頻等。平臺(tái)對(duì)發(fā)現(xiàn)不良信息內(nèi)容進(jìn)行預(yù)警,同時(shí)為用戶提供掃描檢測(cè)報(bào)告和相關(guān)的統(tǒng)計(jì)分析和管理功能。

      圖1 系統(tǒng)架構(gòu)圖

      如圖1 所示,系統(tǒng)包括數(shù)據(jù)采集和預(yù)處理、內(nèi)容識(shí)別、應(yīng)用四個(gè)主要部分。

      (1)采集層

      通過(guò)鏡像、網(wǎng)絡(luò)爬蟲(chóng)或者數(shù)據(jù)共享接口獲取待處理的文字、圖像、視頻數(shù)據(jù)。網(wǎng)絡(luò)爬蟲(chóng)采用分布式并行處理方式,負(fù)責(zé)對(duì)所有的網(wǎng)站按照一定的周期進(jìn)行深度遍歷與抓取,包括采集任務(wù)調(diào)度、網(wǎng)站內(nèi)容遍歷、視頻下載、集群運(yùn)行狀態(tài)監(jiān)控等模塊。

      (2)預(yù)處理層

      通過(guò)協(xié)議還原、內(nèi)容解析、內(nèi)容去重等方式對(duì)采集的數(shù)據(jù)進(jìn)行預(yù)處理。

      (3)處理層

      主要對(duì)采集并預(yù)處理后的數(shù)據(jù)進(jìn)行識(shí)別分析,包括文字識(shí)別、圖像視頻模式識(shí)別、圖像視頻指紋比對(duì)識(shí)別三個(gè)主要功能。

      (4)應(yīng)用層

      主要實(shí)現(xiàn)垃圾彩信監(jiān)測(cè)分析功能、不良信息審核功能、黑白名單管理、違規(guī)內(nèi)容告警、系統(tǒng)自學(xué)習(xí)、IP/域名自動(dòng)歸并、域名模糊封堵、網(wǎng)址位置精確定位、網(wǎng)站內(nèi)容分析識(shí)別策略管理。

      2 主要技術(shù)

      2.1 爬蟲(chóng)采集

      通過(guò)對(duì)數(shù)據(jù)進(jìn)行基礎(chǔ)協(xié)議解析及處理,并按照支持的協(xié)議范圍,對(duì)數(shù)據(jù)包中的文本、圖片數(shù)據(jù)進(jìn)行還原,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)出口高速流量的數(shù)據(jù)內(nèi)容爬取,同時(shí)解析出關(guān)聯(lián)的URL 域名、訪問(wèn)URL 的源IP 地址、目的IP 地址、源訪問(wèn)端口、目的端口、訪問(wèn)時(shí)間等信息以供后續(xù)處理使用。主要包括域名爬蟲(chóng)、URL 爬蟲(chóng)、IP 段爬蟲(chóng)。

      域名爬蟲(chóng):對(duì)添加到系統(tǒng)的網(wǎng)站地址進(jìn)行主動(dòng)爬取,并通過(guò)自動(dòng)鏈接提取模塊完成子任務(wù)的提取,從而實(shí)現(xiàn)深度遍歷式爬取,支持文本、圖片、視頻、各類附件。

      URL 爬蟲(chóng):需要與訪問(wèn)日志端建立連接獲取URL 接口,通過(guò)URL 爬蟲(chóng)對(duì)接收的URL 進(jìn)行掃描獲取內(nèi)容,以供后續(xù)處理使用。

      IP 段爬蟲(chóng):使用IP+端口號(hào)方式爬取網(wǎng)站內(nèi)容。

      2.2 內(nèi)容去重

      根據(jù)互聯(lián)網(wǎng)長(zhǎng)尾效應(yīng),80%的訪問(wèn)請(qǐng)求20%的內(nèi)容,因此為了節(jié)約系統(tǒng)資源,需要對(duì)采集的數(shù)據(jù)預(yù)處理,去除重復(fù)信息。主要采用方法如下:

      URL 級(jí)別去重:MD5 比對(duì)法、Hash 表配合URL 壓縮法、Bloom Filter 去重。

      文件唯一編碼級(jí)別的去重:一般通過(guò)文件MD5 進(jìn)行相同文件的去重。

      文件特征的去重:使用特征提取和比對(duì)技術(shù)進(jìn)行文件相似性比對(duì)去重。

      圖像特征由全局描述子和局部描述子兩部分組成。全局描述子用于建立數(shù)據(jù)庫(kù)索引,系統(tǒng)利用全局描述子快速地從數(shù)據(jù)庫(kù)中篩選出可能相似的圖像,然后利用局部描述子進(jìn)一步計(jì)算檢索圖像與篩選出來(lái)的候選圖像的相似度,然后根據(jù)相似度從高到低將結(jié)果返回。

      圖2 圖像特征的提取過(guò)程圖

      2.3 文本識(shí)別

      關(guān)鍵字過(guò)濾:對(duì)采集獲取的文本數(shù)據(jù)編碼進(jìn)行UTF8轉(zhuǎn)碼;對(duì)轉(zhuǎn)碼后的文本數(shù)據(jù)進(jìn)行關(guān)鍵字/關(guān)鍵字組合的搜索;將搜索到的關(guān)鍵字/關(guān)鍵字組合進(jìn)行標(biāo)記并計(jì)算權(quán)重。

      語(yǔ)義分析:對(duì)采集獲取的文本數(shù)據(jù)編碼進(jìn)行UTF8 轉(zhuǎn)碼;對(duì)進(jìn)行轉(zhuǎn)碼后的文本數(shù)據(jù)進(jìn)行分詞;對(duì)分詞結(jié)果進(jìn)行統(tǒng)計(jì),生成特征向量;將特征向量輸入到文本分類模型進(jìn)行識(shí)別,得到文本是否為不良文本的識(shí)別結(jié)果,并將文本傳送至后臺(tái)。

      2.4 圖像識(shí)別

      第一層(指紋庫(kù)):利用視頻圖像指紋庫(kù)技術(shù),建立分類指紋庫(kù),包括黃色、反動(dòng)、暴力、敏感事件等。對(duì)于系統(tǒng)采集的數(shù)據(jù),首先進(jìn)行指紋快速比對(duì),發(fā)現(xiàn)與指紋庫(kù)中的數(shù)據(jù)相似的數(shù)據(jù),則直接進(jìn)行過(guò)濾處理。

      第二層(特定模式識(shí)別庫(kù)):對(duì)網(wǎng)絡(luò)中不同來(lái)源的數(shù)據(jù)進(jìn)行分級(jí)處理,對(duì)于一些特殊的圖片網(wǎng)站(如電商、人物寫(xiě)真),利用模式識(shí)別技術(shù),采集相關(guān)的樣本進(jìn)行針對(duì)性的學(xué)習(xí)與訓(xùn)練,在完成指紋識(shí)別后,先使用針對(duì)性的圖像庫(kù)訓(xùn)練模型進(jìn)行識(shí)別。

      第三層(機(jī)器學(xué)習(xí)):利用基于膚色特征的SVM 分類器進(jìn)行快速過(guò)濾?;ヂ?lián)網(wǎng)中的圖像大部分是正常圖像。膚色特征過(guò)濾器能快速過(guò)濾那些明顯非黃色的圖像。在不降低識(shí)別率的情況下,保證系統(tǒng)能快速識(shí)別正常圖像,提升系統(tǒng)的處理性能。

      第四層(深度學(xué)習(xí)):利用世界領(lǐng)先的深度學(xué)習(xí)算法,對(duì)畫(huà)面中的內(nèi)容進(jìn)行識(shí)別,當(dāng)前系統(tǒng)支持?jǐn)?shù)萬(wàn)種特定正常場(chǎng)景的圖像識(shí)別。

      第五層(人臉檢測(cè)):對(duì)于泳裝照片的識(shí)別,利用人臉識(shí)別算法識(shí)別出人臉的區(qū)域,同時(shí)對(duì)人臉周邊區(qū)域的相關(guān)分析,降低系統(tǒng)的誤判。

      2.5 視頻識(shí)別

      通過(guò)指紋特征提取及指紋比對(duì)檢索,實(shí)現(xiàn)對(duì)圖像視頻的監(jiān)測(cè)。圖像視頻匹配的核心問(wèn)題是將同一目標(biāo)在不同時(shí)間、不同分辨率、不同光照、不同位姿情況下所成的圖像相對(duì)應(yīng)。具體為:

      (1)構(gòu)建尺度空間:這是一個(gè)初始化操作,通過(guò)生成尺度空間來(lái)創(chuàng)建原始圖像的多層表示,以保證尺度不變性。

      (2)LoG 近似:使用Laplacian of Gaussian 能夠很好地找到圖像中的興趣點(diǎn)。

      (3)找到關(guān)鍵點(diǎn):利用近似我們可以找到特征點(diǎn),它們是Difference of Gaussian 圖像的極大、極小值。

      (4)除去不好的特征點(diǎn):邊界和低亮度區(qū)域是不好的特征點(diǎn),除去它們以使算法有效和魯棒,在這里使用近似Harris Corner 檢測(cè)器。

      (5)給特征點(diǎn)賦值一個(gè)方向:為每個(gè)特征點(diǎn)計(jì)算一個(gè)方向,依照這個(gè)方向做進(jìn)一步的計(jì)算,這個(gè)操作有效地取消了方向的影響,使得算法具有旋轉(zhuǎn)不變性。

      (6)生成特征:利用位置上的尺度和旋轉(zhuǎn)不變性,能夠生成一個(gè)表示,它能幫助唯一地識(shí)別特征。通過(guò)這個(gè)表示,我們可以很容易地識(shí)別尋找的特征。

      (7)指紋比對(duì)檢索:相似的圖像或視頻在經(jīng)過(guò)變化后的檢索匹配。

      圖3 圖像識(shí)別特征生成過(guò)程

      3 平臺(tái)功能

      3.1 互采集功能

      平臺(tái)需支持移動(dòng)互聯(lián)網(wǎng)GRE、HTTP、WAP1.x、WAP2.0、MMS、SMTP、POP3、FTP、Telnet 等多種協(xié)議的業(yè)務(wù)信息進(jìn)行采集和識(shí)別,并且可以根據(jù)內(nèi)容類型(文字、圖片、音視頻)進(jìn)行分類識(shí)別。

      3.2 內(nèi)容預(yù)處理

      將互聯(lián)網(wǎng)流量中大部分的重復(fù)訪問(wèn)進(jìn)行去重處理。經(jīng)過(guò)去重分析處理后的記錄在數(shù)據(jù)庫(kù)中減少90%,經(jīng)過(guò)黃色圖片智能識(shí)別系統(tǒng)審核后的嫌疑圖片占總數(shù)的1%左右,低于識(shí)別門(mén)限的小圖片被自然過(guò)濾。

      3.3 內(nèi)容識(shí)別功能

      實(shí)現(xiàn)對(duì)文本、圖片、視頻、不良網(wǎng)址的分析,通過(guò)文本內(nèi)容比對(duì)、圖片不良特征匹配、視頻指紋特征提取及比對(duì)檢索,識(shí)別不良信息。

      3.4 應(yīng)用功能

      (1)垃圾彩信監(jiān)測(cè)分析功能

      在WAP不良信息監(jiān)控系統(tǒng)上實(shí)現(xiàn)垃圾彩信監(jiān)測(cè)分析功能。

      (2)不良信息審核功能

      系統(tǒng)應(yīng)支持審核配置管理功能,通過(guò)關(guān)鍵字匹配、色情圖片識(shí)別和樣例圖片識(shí)別技術(shù),提取出網(wǎng)站中疑似的內(nèi)容違規(guī)信息,由人工對(duì)疑似違規(guī)數(shù)據(jù)進(jìn)行確認(rèn)審核。

      (3)黑白名單管理

      網(wǎng)站黑白名單庫(kù),減少系統(tǒng)資源消耗。

      (4)違規(guī)內(nèi)容告警

      系統(tǒng)支持發(fā)現(xiàn)違規(guī)內(nèi)容時(shí)自動(dòng)提供網(wǎng)頁(yè)方式的告警功能,提示審核人員及時(shí)處理。

      (5)系統(tǒng)自學(xué)習(xí)

      內(nèi)容匹配識(shí)別引擎可實(shí)現(xiàn)分類內(nèi)容的自動(dòng)識(shí)別匹配,通過(guò)人工反饋機(jī)制實(shí)現(xiàn)匹配算法的學(xué)習(xí)。

      (6)IP/域名自動(dòng)歸并

      系統(tǒng)可以自動(dòng)整理出雷同域名的IP 地址,并提出對(duì)IP 地址進(jìn)行封堵。

      (7)域名模糊封堵

      系統(tǒng)可以自動(dòng)歸并出有害域名的最親父節(jié)點(diǎn),通過(guò)與現(xiàn)網(wǎng)已建設(shè)的移動(dòng)互聯(lián)網(wǎng)惡意程序監(jiān)測(cè)封堵系統(tǒng)聯(lián)動(dòng),對(duì)這個(gè)父節(jié)點(diǎn)實(shí)施模糊封堵。

      (8)網(wǎng)址位置精確定位

      通過(guò)DNS 逆向解析功能,系統(tǒng)可以精確定位每一個(gè)URL的真實(shí)IP 地址,并通過(guò)查詢得到網(wǎng)站的物理位置。

      (9)網(wǎng)站內(nèi)容分析識(shí)別

      內(nèi)容識(shí)別策略包括關(guān)鍵字庫(kù)策略、圖像特征庫(kù)策略、不良網(wǎng)址庫(kù)策略。

      4 應(yīng)用方案

      4.1 組網(wǎng)方案

      基于現(xiàn)有上網(wǎng)日志留存系統(tǒng)或上網(wǎng)導(dǎo)航系統(tǒng),獲取上網(wǎng)話單中的URL 數(shù)據(jù),進(jìn)行互聯(lián)網(wǎng)頁(yè)面爬取,并基于現(xiàn)有系統(tǒng)已匯聚后的彩信流量,從彩信中心近端交換機(jī)鏡像流量到新增的彩信專用采集機(jī)上,在云平臺(tái)資源部署不良監(jiān)測(cè)系統(tǒng)進(jìn)行監(jiān)控。

      圖4 不良信息監(jiān)控平臺(tái)系統(tǒng)組網(wǎng)圖

      4.2 接口方案

      (1)DPI 接口

      不良信息監(jiān)控系統(tǒng)從DPI 設(shè)備中獲取指定協(xié)議的會(huì)話信息、所有被還原的文本、圖片,以及文本與圖片對(duì)應(yīng)的會(huì)話關(guān)聯(lián)信息。

      前端采集機(jī)與后臺(tái)通過(guò)SFTP 進(jìn)行通信,其中前端采集機(jī)為SFTP 客戶端,大區(qū)后臺(tái)為SFTP 服務(wù)器端。若傳輸失敗,采集機(jī)定時(shí)(可配置周期)重傳。包括數(shù)據(jù)傳輸接口、XDR上傳接口、策略同步接口、時(shí)鐘同步接口。

      (2)時(shí)鐘同步接口

      支持通過(guò)NTP 時(shí)鐘同步服務(wù)器從指定平臺(tái)同步時(shí)鐘。

      (3)網(wǎng)管接口

      在網(wǎng)絡(luò)管理需求上,系統(tǒng)前端設(shè)備網(wǎng)管接口支持SNMP、FTP 等管理協(xié)議,即數(shù)據(jù)網(wǎng)設(shè)備提供SNMP、FTP、Telnet、數(shù)據(jù)庫(kù)接口中的三種網(wǎng)絡(luò)管理接口。

      5 結(jié)束語(yǔ)

      本文針對(duì)互聯(lián)網(wǎng)不良信息泛濫的問(wèn)題,研究了不良信息監(jiān)控平臺(tái)及其在運(yùn)營(yíng)商的應(yīng)用方案。監(jiān)測(cè)系統(tǒng)的總體目標(biāo)是對(duì)用戶管轄范圍內(nèi)的目標(biāo)網(wǎng)站進(jìn)行爬蟲(chóng)搜索監(jiān)測(cè),針對(duì)互聯(lián)網(wǎng)網(wǎng)頁(yè),系統(tǒng)能自動(dòng)爬行頁(yè)面所有下級(jí)鏈接頁(yè)面,標(biāo)記其中鏈接信息,抓取頁(yè)面中的相關(guān)內(nèi)容,并對(duì)這些內(nèi)容進(jìn)行監(jiān)測(cè),包括信息采集和分類管理、信息內(nèi)容(包括文本、圖片等)監(jiān)測(cè)和匹配識(shí)別,并建立管轄范圍內(nèi)的互聯(lián)網(wǎng)監(jiān)測(cè)信息基礎(chǔ)數(shù)據(jù)庫(kù),對(duì)違規(guī)信息進(jìn)行統(tǒng)計(jì)分析,為互聯(lián)網(wǎng)信息的監(jiān)測(cè)工作提供高效的技術(shù)手段,并為互聯(lián)網(wǎng)信息數(shù)據(jù)進(jìn)行特定應(yīng)用挖掘提供基礎(chǔ)數(shù)據(jù)。

      本文結(jié)合工程實(shí)際情況提出不良信息監(jiān)控平臺(tái)建設(shè)的功能架構(gòu)和接口方案,為運(yùn)營(yíng)商構(gòu)建類似系統(tǒng)提供一些借鑒和參考。

      猜你喜歡
      爬蟲(chóng)指紋文本
      利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
      基于Python的網(wǎng)絡(luò)爬蟲(chóng)和反爬蟲(chóng)技術(shù)研究
      像偵探一樣提取指紋
      為什么每個(gè)人的指紋都不一樣
      在808DA上文本顯示的改善
      基于doc2vec和TF-IDF的相似文本識(shí)別
      電子制作(2018年18期)2018-11-14 01:48:06
      利用爬蟲(chóng)技術(shù)的Geo-Gnutel la VANET流量采集
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
      電子制作(2017年9期)2017-04-17 03:00:46
      基于自適應(yīng)稀疏變換的指紋圖像壓縮
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      大邑县| 翁源县| 上犹县| 光山县| 原阳县| 襄垣县| 通化市| 遂昌县| 莱阳市| 鹤壁市| 金昌市| 楚雄市| 潮安县| 庄浪县| 贵州省| 昌江| 噶尔县| 广汉市| 磐安县| 平定县| 诏安县| 宝应县| 泽州县| 察哈| 平武县| 宣武区| 边坝县| 宣城市| 开鲁县| 邮箱| 铜山县| 莫力| 阿荣旗| 息烽县| 天长市| 阿尔山市| 峨边| 三门峡市| 渝中区| 辰溪县| 铁力市|