摘 要:隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展、內(nèi)容的激增、全媒體技術(shù)的出現(xiàn),互聯(lián)網(wǎng)視聽節(jié)目已然成為廣大網(wǎng)民了解世界的新媒體。然而,由于互聯(lián)網(wǎng)接入門檻低,一些不法網(wǎng)站為了追求眼前利益,放松自身對網(wǎng)站內(nèi)容的自糾自查,放任網(wǎng)站傳播一些政治有害、淫穢色情、血型暴力、低俗有害等不良視聽節(jié)目,嚴(yán)重影響了青少年時期的心理健康。對此,我中心與清華紫光公司聯(lián)合開發(fā)的互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管系統(tǒng),用于監(jiān)控河南所有視聽網(wǎng)站上傳的違規(guī)、違法節(jié)目。
關(guān)鍵詞:互聯(lián)網(wǎng);有害;視聽節(jié)目;監(jiān)管
中圖分類號:TP393.09
根據(jù)截至2013年6月底CNNIC發(fā)布的中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r報告統(tǒng)計,我國國民總數(shù)為5.91億,其中互聯(lián)網(wǎng)視聽節(jié)目網(wǎng)民達(dá)到3.89億[1]。視聽節(jié)目成為廣大群眾獲取信息的主要途徑。然而,由于互聯(lián)網(wǎng)接入門檻低,一些網(wǎng)站為了追求經(jīng)濟(jì)利益,放任會員上傳、傳播一些政治有害、淫穢色情、暴力血腥等有害視聽節(jié)目。作為國家及民生重要輿論傳播及引導(dǎo)部門,對創(chuàng)建和諧穩(wěn)定、新生、綠色的網(wǎng)絡(luò)文化有不可推卸的責(zé)任。為此,在宣傳部及國家廣電總局的支持下,河南省廣電局信息網(wǎng)絡(luò)視聽節(jié)目傳播監(jiān)管中心與北京清華紫光公司,采用國內(nèi)目前先進(jìn)的搜索技術(shù)、音視頻比對技術(shù)、大規(guī)模數(shù)據(jù)分析技術(shù)聯(lián)合開發(fā)了河南互聯(lián)網(wǎng)視聽節(jié)目傳播監(jiān)管系統(tǒng),用于河南境內(nèi)互聯(lián)網(wǎng)視聽節(jié)目的傳播與監(jiān)管。
1 系統(tǒng)目標(biāo)
為盡可能實時監(jiān)管河南境域視聽節(jié)目,系統(tǒng)目標(biāo)主要包括以下幾點:(1)能在互聯(lián)網(wǎng)上常年不斷地搜索和提取符合河南境域特征的網(wǎng)站,并導(dǎo)入到本地數(shù)據(jù)庫,為節(jié)目采集、信息分析,普查河南境域網(wǎng)站突發(fā)事件提供候選;(2)能對本地數(shù)據(jù)庫所有網(wǎng)站進(jìn)行7x24小時不間斷掃描及動態(tài)監(jiān)控,及時發(fā)現(xiàn)最新焦點的更新、變化,并提取、清洗[2]、標(biāo)準(zhǔn)化節(jié)目信息,為傳播趨勢和路徑分析提供資源支持;(3)根據(jù)廣電總局同步的關(guān)鍵字庫,能對違規(guī)的視聽節(jié)目進(jìn)行自動預(yù)警,并方便監(jiān)管人員進(jìn)一步核實、上報、查處,及時遏止有害節(jié)目傳播的速度與廣度;(4)能在本地數(shù)據(jù)庫自動掃描并過濾疑似音視頻網(wǎng)站,方便人工核實及分類,支持人工判定違規(guī)網(wǎng)站及歸類,對違規(guī)網(wǎng)站的違規(guī)內(nèi)容進(jìn)行取證;(5)在敏感時期,能響應(yīng)宣傳部、廣電總局及當(dāng)?shù)卣奶栒?,對專項任?wù)的緊急處理和應(yīng)對;(6)支持對日常監(jiān)控情況的統(tǒng)計,對各類違規(guī)信息進(jìn)行全面準(zhǔn)確綜合分析的統(tǒng)計;(7)支持上述功能的同時,系統(tǒng)在設(shè)計上應(yīng)采用模塊化結(jié)構(gòu),分布式處理,要有良好的可擴(kuò)展性,技術(shù)成熟、穩(wěn)定,實用高效、操作便捷。
2 架構(gòu)設(shè)計
為保證我中心業(yè)務(wù)7x24小時網(wǎng)絡(luò)暢通無阻;網(wǎng)絡(luò)接入采用雙光纖(電信網(wǎng)通各100M);2臺ZXR10系列千兆中興路由器配置適當(dāng)?shù)穆酚刹呗载?fù)責(zé)內(nèi)外數(shù)據(jù)的收發(fā),保證線路暢通、穩(wěn)定的同時,支持網(wǎng)絡(luò)負(fù)載均衡;2臺Power V系列千兆聯(lián)想網(wǎng)御防火墻設(shè)置為透明方式僅對端口進(jìn)行限制;2臺ZXR10系列千兆中興交換機配置為VRRP的雙熱備冗余模式,確保一臺交換機宕機情況下網(wǎng)絡(luò)保持正常;2臺浪潮FS系列光通道交換機(一主一備)連接1臺浪潮AS1000系列50T磁盤存儲陣列組成系統(tǒng)主要數(shù)據(jù)存儲。24臺服務(wù)器除與光通道交換機連接外,對外網(wǎng)連接均采用雙卡雙備模式,主要有Oracle10g數(shù)據(jù)庫服務(wù)器、WEB服務(wù)器、流媒體服務(wù)器、QVOD下載服務(wù)器、HTTP下載服務(wù)器、爬蟲服務(wù)器、網(wǎng)站搜索服務(wù)器、郵件服務(wù)器等。其整體網(wǎng)絡(luò)架構(gòu)圖大致如圖1所示:
圖1 整體網(wǎng)絡(luò)架構(gòu)圖
3 系統(tǒng)功能特點
互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管系統(tǒng)采用SSH(Spring+Struts+Hibernate)[3]的B/S架構(gòu)設(shè)計模式,業(yè)務(wù)用戶通過Portal門戶即可進(jìn)行訪問和操作:查看當(dāng)日熱點節(jié)目更新及排行,最新熱點節(jié)目及違規(guī)視頻,多維度數(shù)據(jù)的圖形統(tǒng)計分析等;支持違規(guī)網(wǎng)站的人工研判,違規(guī)節(jié)目的分類、取證、下載、驗證等業(yè)務(wù)操作,同時還有權(quán)限管理、信息群發(fā)等輔助操作。系統(tǒng)采用的關(guān)鍵技術(shù)有:(1)互聯(lián)網(wǎng)視聽節(jié)目采集與搜索技術(shù)[4]。利用WebSpider(也稱網(wǎng)絡(luò)爬蟲)技術(shù),從橫向和縱向?qū)ξ抑行臄?shù)據(jù)庫中的音視頻網(wǎng)站逐次掃描,逐層獲取頁面信息,直到抓取器根據(jù)自己的策略終止抓取。通過對本中心音視頻網(wǎng)站進(jìn)行7x24小時不間斷掃描,對特定版面、特定類別的內(nèi)容實現(xiàn)自動抓取。在該過程中,為保證高效的互聯(lián)網(wǎng)抓取性能,采用快速并發(fā)的網(wǎng)頁抓取及去重策略,根據(jù)網(wǎng)站分布、響應(yīng)速度、重點級別劃分等條件進(jìn)行自動抓取均衡,綜合考慮多種因素的優(yōu)先級調(diào)度策略與等待隊列設(shè)計。(2)數(shù)據(jù)存儲技術(shù)。根據(jù)系統(tǒng)相關(guān)業(yè)務(wù)約定的節(jié)目內(nèi)容及格式,對獲得的信息數(shù)據(jù)進(jìn)行過濾、篩洗、排重、存儲。(3)信息檢索與統(tǒng)計技術(shù)。對文本、音視頻節(jié)目采用精確與模糊檢索結(jié)合的方式,提供對新增、熱播、精彩推薦、解碼評論數(shù)、排行榜、上傳時間、播放次數(shù)等節(jié)目屬性的排序;對節(jié)目激增率、熱播、擴(kuò)散性、違規(guī)性等多方面的統(tǒng)計并形成統(tǒng)計報表。(4)音頻特征提取[5]與檢索技術(shù)[6]。通過對音頻信息特征提取,實現(xiàn)對音頻文件的檢索。特定內(nèi)容的音頻信息可以多種形式,可以是特定的關(guān)鍵詞,或者特定的說話人,或者是特定的音頻片段。(5)視頻關(guān)鍵幀自動生成技術(shù)。將整段視頻分割為一個個鏡頭,在系統(tǒng)門戶頁面通過圖墻的方式展現(xiàn)給業(yè)務(wù)用戶,用戶可以在短時間內(nèi)完成對該視頻的研判。(6)節(jié)目分析初判技術(shù)。通過視頻解碼識別引擎技術(shù),對獲取到的音視頻解碼文本屬性信息、視頻底層特征進(jìn)行抽取,建立底層特征關(guān)系庫,通過關(guān)鍵字過濾、綜合判別技術(shù),對節(jié)目進(jìn)行自動分析、判定,根據(jù)需求自動歸類,并報警疑似有害及違規(guī)節(jié)目,減輕人工審核的工作量。
4 結(jié)束語
自2012年系統(tǒng)運行以來,發(fā)現(xiàn)河南境域網(wǎng)站17.3萬余,視聽網(wǎng)站900多家,查處涉嫌政治有害、淫穢色情、無證等違規(guī)網(wǎng)站171家,對整治和規(guī)范河南互聯(lián)網(wǎng)視聽網(wǎng)站起到了積極作用。但是應(yīng)對多變、復(fù)雜的互聯(lián)網(wǎng)技術(shù),現(xiàn)存互聯(lián)網(wǎng)視聽監(jiān)管系統(tǒng)尚存在以下不足:(1)網(wǎng)站搜索效率低下。對于互聯(lián)網(wǎng)上日益激增、雜亂無章、管理混亂、不按規(guī)則展示門戶的網(wǎng)站,如何高效、快速搜索定位河南境域網(wǎng)站,對網(wǎng)站搜索技術(shù)有極大挑戰(zhàn)。(2)網(wǎng)站新增節(jié)目采集難。為了采集特定視聽網(wǎng)站的節(jié)目,必須對此網(wǎng)站進(jìn)行模板定制,隨著視聽網(wǎng)站的新增,及以前視聽網(wǎng)站改版,模板的配置及修改工作量將不斷加大,如何在無需配置模板的情況下抓取節(jié)目是我們今后考慮的重點。相信,隨著互聯(lián)網(wǎng)新技術(shù)的出現(xiàn)并不斷成熟,以上不足之處會得到進(jìn)一步的改善。
參考文獻(xiàn):
[1]劉偉杰.基于互聯(lián)網(wǎng)視聽節(jié)目源的搜索與處理系統(tǒng)的探索研究[J].廣播與電視技術(shù),2013(12):37-40.
[2]李雄飛,董元方,李軍.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(第二版)[M].北京:高等教育出版社,2010:28-40.
[3]李剛.輕量級J2EE企業(yè)應(yīng)用實踐-Struts+Spring+Hibernate整合開發(fā)[M].北京:電子工業(yè)出版社,2007:337-388.
[4]葉昆.互聯(lián)網(wǎng)視聽監(jiān)管系統(tǒng)簡介[J].大眾科技,2009(10):11-13.
[5]鄭繼明,魏國華,吳渝.有效的基于內(nèi)容的音頻特征提取方法[J].計算機工程與應(yīng)用,2009(12):131-133.
[6]白云暉.基于內(nèi)容的音頻檢索[J].廣播與電視技術(shù),2007(06):30-35.
作者簡介:裴鵬真(1982.08-),男,河南偃師人,助理工程師,碩士研究生,主要研究方向:服務(wù)器開發(fā)、嵌入式多媒體開發(fā)、網(wǎng)絡(luò)視頻開發(fā)、虛擬化技術(shù)、云計算。
作者單位:河南省廣電局信息網(wǎng)絡(luò)視聽節(jié)目傳播監(jiān)管中心,鄭州 450003