何麗媛
內(nèi)蒙古自治區(qū)新聞出版廣電局監(jiān)管中心 內(nèi)蒙古 呼和浩特市 010050
違規(guī)音視頻節(jié)目的自動(dòng)識(shí)別,主要通過(guò)內(nèi)容分析系統(tǒng)來(lái)實(shí)現(xiàn)。內(nèi)容分析系統(tǒng)由特征提取模塊、數(shù)據(jù)索引模塊、自動(dòng)排重模塊、自動(dòng)摘要模、有害內(nèi)容識(shí)別與歸類(lèi)模塊幾部分構(gòu)成。
特征提取模塊的作用是將含有音視頻節(jié)目的網(wǎng)頁(yè)進(jìn)行信息數(shù)據(jù)分析,過(guò)濾掉次要信息,精確提取出重要信息并保存起來(lái)。重要信息主要指文本特征、音頻底層特征、視頻底層特征等。之后再將所有重要信息合并成一個(gè)特征庫(kù),系統(tǒng)以這個(gè)特征庫(kù)為依據(jù)對(duì)違規(guī)音視頻節(jié)目進(jìn)行檢索和分析。
文本特征提取:音視頻節(jié)目?jī)?nèi)容的文本特征大致可分為兩類(lèi),第一類(lèi)是包含在音視頻網(wǎng)頁(yè)內(nèi)的文本信息,主要有元信息特征、節(jié)目關(guān)鍵字和節(jié)目描述文本特征等;第二類(lèi)則是音視頻節(jié)目自身所包含的文本信息,即系統(tǒng)從音視頻節(jié)目中自動(dòng)識(shí)別出的文本信息。這些信息并不能直接用作數(shù)據(jù)分析,必須從這些繁雜的文本信息中將文本內(nèi)容的摘要信息抽取出來(lái),才可以使用。
音頻特征提?。簽橛行岣哌`規(guī)音頻節(jié)目的自動(dòng)識(shí)別準(zhǔn)確率,在對(duì)音頻文件進(jìn)行分析時(shí),我們無(wú)需將音頻節(jié)目的所有信息都進(jìn)行提取。而是需要將“無(wú)用信息”剔除掉,只保留一些“有用信息”,即一些有用的音頻特征來(lái)建立“音頻底層特征池”。這些構(gòu)成特征池的“有用信息”包括短時(shí)能量、過(guò)零率、語(yǔ)譜圖亮度以及梅爾尺度倒譜特征等信息。
視頻特征提?。撼槿∫曨l節(jié)目的特征是一個(gè)非常復(fù)雜的過(guò)程,相較于文本特征提取和音頻特征提取需要大量的數(shù)據(jù)運(yùn)算才可以實(shí)現(xiàn),為了節(jié)省運(yùn)算成本,需要利用一定的“技巧”。經(jīng)??匆曨l節(jié)目我們會(huì)發(fā)現(xiàn),在某一段時(shí)間內(nèi),視頻節(jié)目所呈現(xiàn)的畫(huà)面只有微小的變化,例如人物在講話的過(guò)程中只有嘴部在動(dòng)這樣的情況。因此,在面對(duì)變化不大的連續(xù)畫(huà)面幀時(shí),可以只提取出幾個(gè)關(guān)鍵幀來(lái)進(jìn)行后續(xù)處理。視頻特征提取模塊的基本流程如圖1 所示。
圖1 視頻特征提取流程圖
數(shù)據(jù)索引模塊的作用是在系統(tǒng)提取的底層特征之上建立一個(gè)高維索引,以便后續(xù)的檢索工作。在數(shù)據(jù)檢索過(guò)程中,少量的圖像和視頻數(shù)據(jù)可以簡(jiǎn)單進(jìn)行搜索。但對(duì)于大量的數(shù)據(jù)就必須建立高維索引才可以進(jìn)行檢索,形象點(diǎn)說(shuō)就是給數(shù)據(jù)建立一個(gè)目錄,想看哪些內(nèi)容,就只直接翻到那些頁(yè),這樣就可以大大提高數(shù)據(jù)檢索的效率。
通常最理想的數(shù)據(jù)檢索是將查詢點(diǎn)所對(duì)應(yīng)的近鄰點(diǎn)都安排在相近的磁盤(pán)位置上,這樣數(shù)據(jù)檢索的效率最高。然而這種情況只適用于維度較低的時(shí)候,在高維大規(guī)模情況下,會(huì)非常耗費(fèi)時(shí)間,成本很高。所以,在高維情況下,一般采用近似近鄰算法來(lái)提高搜索效率。
近似近鄰算法將數(shù)據(jù)根據(jù)距離劃分成不同的塊,這樣就縮小了搜索空間,從而達(dá)到提高搜索效率的目的。但是,當(dāng)需要查詢的點(diǎn)剛好位于兩個(gè)區(qū)塊的邊界時(shí),就會(huì)出現(xiàn)一個(gè)邊界問(wèn)題,導(dǎo)致查詢的結(jié)果可能有出入。此時(shí)就需要同時(shí)讀取共享邊界的數(shù)據(jù)塊,才能保證查詢的準(zhǔn)確度。
圖2 基于視覺(jué)特征的音視頻節(jié)目流程圖
要實(shí)現(xiàn)音視頻節(jié)目的自動(dòng)排重,首先需要將音頻中的一些特征提取出來(lái),可以利用“音頻指紋技術(shù)”來(lái)實(shí)現(xiàn)。音頻指紋就像人類(lèi)的指紋一樣是獨(dú)一無(wú)二的。而音頻指紋技術(shù)是指“通過(guò)特定的算法將一段音頻中獨(dú)一無(wú)二的數(shù)字特征以標(biāo)識(shí)符的形式提取出來(lái),用于識(shí)別海量的聲音樣本或跟蹤定位樣本在數(shù)據(jù)庫(kù)中的位置?!痹摷夹g(shù)最早應(yīng)用于音樂(lè)領(lǐng)域,利用該技術(shù),用戶只需通過(guò)一段旋律就可以找到相應(yīng)的歌曲,大大節(jié)約了查找時(shí)間。隨著技術(shù)的不斷發(fā)展,目前音頻指紋技術(shù)也被廣泛的應(yīng)用于音頻節(jié)目的自動(dòng)排重中,同時(shí)也被運(yùn)用于視頻節(jié)目的排重中,不同點(diǎn)是視頻節(jié)目的排重是借助視頻節(jié)目的伴音來(lái)實(shí)現(xiàn)的。
視頻特征的音視頻節(jié)目自動(dòng)排重,需要根據(jù)自動(dòng)排重的任務(wù)描述來(lái)進(jìn)行排重。通過(guò)自動(dòng)排重,我們可以確定不同的節(jié)目是否在在節(jié)目級(jí)別上出現(xiàn)了重復(fù)。而在節(jié)目?jī)?nèi)部,一些非鏡頭或者是較短片斷的重復(fù),則不需要在節(jié)目?jī)?nèi)部尋找匹配片斷。具體排重流程如圖2所示。
我們?cè)诨ヂ?lián)網(wǎng)觀看視頻節(jié)目的過(guò)程中,需要快進(jìn)或回放時(shí),發(fā)現(xiàn)當(dāng)光標(biāo)點(diǎn)到進(jìn)度條的某些位置時(shí),會(huì)出現(xiàn)一個(gè)圖片摘要,概括的展示了當(dāng)前片段的大致內(nèi)容。這項(xiàng)技術(shù),就是通過(guò)自動(dòng)摘要技術(shù)來(lái)實(shí)現(xiàn)的。其作用是自動(dòng)生成音視頻節(jié)目的文本和圖片摘要,并將圖片和它對(duì)應(yīng)視頻片對(duì)應(yīng)起來(lái)。用戶點(diǎn)擊圖片,系統(tǒng)就可以快速定位到需要查看的鏡頭,這樣用戶只需點(diǎn)擊摘要圖片,就可以大致了解視頻內(nèi)容,無(wú)需整段觀看,從而節(jié)約了大量時(shí)間。
該模塊的作用是將音頻、視頻節(jié)目的文本摘要和特征信息與預(yù)先設(shè)置好的特征庫(kù)進(jìn)行比較,從而將違規(guī)的有害音頻和視頻節(jié)目識(shí)別出來(lái)。然后再根據(jù)指定的程序機(jī)密性級(jí)別,對(duì)識(shí)別出的有害內(nèi)容進(jìn)行自動(dòng)分類(lèi)。
在自動(dòng)識(shí)別違規(guī)音視頻節(jié)目的過(guò)程中,內(nèi)容分析系統(tǒng)還可以設(shè)置一些不同參數(shù),自動(dòng)識(shí)別出近期發(fā)生的熱點(diǎn)話題和敏感話題。通過(guò)大量的數(shù)據(jù)分析,實(shí)現(xiàn)對(duì)這些熱點(diǎn)話題和敏感話題的實(shí)時(shí)跟蹤,方便對(duì)這些話題的時(shí)間和地點(diǎn)特征進(jìn)行統(tǒng)計(jì)分析。還可以將自動(dòng)識(shí)別出的違規(guī)音視頻節(jié)目進(jìn)行歸類(lèi),從而實(shí)現(xiàn)對(duì)輿情的分析。