陳勛,韓帥,2,劉姍姍,陽小龍
?
面向內(nèi)容網(wǎng)絡(luò)環(huán)境的視頻內(nèi)容標(biāo)識(shí)方案
陳勛1,韓帥1,2,劉姍姍1,陽小龍1
(1. 北京科技大學(xué),北京 100083;2. 中國洛陽電子裝備試驗(yàn)中心,河南 洛陽 471000)
視頻指紋技術(shù)是當(dāng)前解決海量視頻數(shù)據(jù)標(biāo)識(shí)問題的一種有效方案。首先闡述了內(nèi)容網(wǎng)絡(luò)的研究現(xiàn)狀以及存在的主要問題,尤其在內(nèi)容標(biāo)識(shí)方面的問題;然后從內(nèi)容網(wǎng)絡(luò)中的視頻內(nèi)容標(biāo)識(shí)需求出發(fā),提出視頻內(nèi)容標(biāo)識(shí)方案的設(shè)計(jì)原則,并深入分析已有方案的原理和缺點(diǎn);最后在解析視頻指紋技術(shù)概念與原理之后,設(shè)計(jì)并實(shí)現(xiàn)一種基于視頻指紋技術(shù)的視頻內(nèi)容標(biāo)識(shí)方案,其特點(diǎn)為:將時(shí)域和頻域兩種類型的視頻指紋技術(shù)進(jìn)行融合,在縮短了視頻標(biāo)識(shí)生成時(shí)間的同時(shí),提高了整體系統(tǒng)的頑健性。
內(nèi)容網(wǎng)絡(luò);內(nèi)容標(biāo)識(shí);視頻處理;視頻指紋
隨著互聯(lián)網(wǎng)技術(shù)的進(jìn)步和終端處理能力的增強(qiáng),相對(duì)于傳統(tǒng)的文字、語音和圖像等內(nèi)容形式,視頻業(yè)務(wù)已然從多樣的網(wǎng)絡(luò)內(nèi)容中脫穎而出,并成為內(nèi)容網(wǎng)絡(luò)中數(shù)據(jù)流量的主要貢獻(xiàn)者。根據(jù)思科(Cisco)公司預(yù)計(jì),到2019年,全球互聯(lián)網(wǎng)視頻的數(shù)據(jù)流量將達(dá)到105EB/月,相比2014年的25 EB/月有相當(dāng)顯著的增長。與此同時(shí),4G、Wi-Fi、小型基站的普及和5G等新技術(shù)的出現(xiàn),使得移動(dòng)互聯(lián)網(wǎng)呈現(xiàn)高速發(fā)展態(tài)勢,其業(yè)務(wù)由傳統(tǒng)的單一化形式向多元化方向發(fā)展,如移動(dòng)視頻、即時(shí)通信、移動(dòng)社交網(wǎng)絡(luò)等。華為在2017年世界移動(dòng)通信大會(huì)(MWC)上的報(bào)告顯示,預(yù)計(jì)到2021年,移動(dòng)網(wǎng)絡(luò)中的視頻流量占比將達(dá)到58%。但是爆發(fā)式的增長也帶來了種種問題,例如:視頻種類繁多,不易于管理,視頻格式與用戶終端設(shè)備不匹配,無線帶寬波動(dòng)影響用戶體驗(yàn)等,這些問題都給視頻內(nèi)容的高效分發(fā)和高體驗(yàn)質(zhì)量共享帶來了一定的挑戰(zhàn)。
目前,用戶仍然是通過傳統(tǒng)網(wǎng)頁或者相關(guān)視頻軟件來獲取所需要的視頻資源。這種獲取視頻內(nèi)容的方式,在當(dāng)前僵化的網(wǎng)絡(luò)傳輸協(xié)議下,容易受到一定的限制。比如:瀏覽器通過URL(uniform resource locator)來獲取相關(guān)網(wǎng)頁視頻信息時(shí),視頻資源將會(huì)被特定的協(xié)議、主機(jī)號(hào)以及相關(guān)文件名所綁定,導(dǎo)致資源不能夠被靈活地分享和調(diào)度。同時(shí),由于硬件設(shè)備技術(shù)的不斷發(fā)展,用戶終端的種類日益繁多,使視頻資源在這種異構(gòu)網(wǎng)絡(luò)形態(tài)下的傳播變得困難,從而出現(xiàn)用戶獲取的視頻內(nèi)容在編碼格式、呈現(xiàn)方式等方面與其終端設(shè)備能力不匹配的情況,這將影響用戶的觀看體驗(yàn)。雖然當(dāng)前網(wǎng)絡(luò)中同一內(nèi)容視頻內(nèi)容普遍存在多個(gè)不同的版本(如格式、分辨率等),由此以不同版本為不同用戶提供視頻內(nèi)容服務(wù),但是這極大地提高了視頻內(nèi)容管理和分發(fā)難度。
當(dāng)前有一種以內(nèi)容為中心的新型網(wǎng)絡(luò)架構(gòu),在解決以連接為中心的傳統(tǒng)互聯(lián)網(wǎng)架構(gòu)與當(dāng)前以信息或內(nèi)容共享為中心的網(wǎng)絡(luò)服務(wù)模式?jīng)_突的同時(shí),也解決了視頻數(shù)據(jù)分發(fā)與服務(wù)的問題。其中CNN(content-centric networking,內(nèi)容中心網(wǎng)絡(luò))和NDN(named data networking,命名數(shù)據(jù)網(wǎng)絡(luò))是兩個(gè)著名的內(nèi)容網(wǎng)絡(luò)體系結(jié)構(gòu)[1-2]。它們的共同點(diǎn)在于:都試圖將內(nèi)容和地址分離,其中內(nèi)容可以是任意形式的數(shù)據(jù)(包括視頻、文本和音樂等)。這些內(nèi)容都需要被標(biāo)識(shí),才能被用戶所使用。但在CCN/NDN新型網(wǎng)絡(luò)架構(gòu)中,所有的內(nèi)容都被同樣處理,而沒有將視頻資源進(jìn)行特殊對(duì)待,提取的標(biāo)識(shí)特征都是基于底層字節(jié)信息。因此,這導(dǎo)致同一內(nèi)容的視頻資源由于編碼的不同方式從而產(chǎn)生不同標(biāo)識(shí)特征,不利于最終的分發(fā)與管理。所以,需要一個(gè)實(shí)質(zhì)內(nèi)容感知的視頻特征提取方案,能夠給同一內(nèi)容的視頻資源提供相同的特征標(biāo)識(shí)。對(duì)此,視頻指紋技術(shù)很好地解決了上述問題,并在海量視頻數(shù)據(jù)分類與管理中取得了一定的成果。視頻指紋作為視頻資源管理保護(hù)的新手段,就像人類指紋一樣可以唯一標(biāo)識(shí)身份。同時(shí)視頻指紋也是數(shù)字視頻內(nèi)容的精簡數(shù)字化表示形式,通過對(duì)視頻進(jìn)行分析、提取、計(jì)算處理而形成的一個(gè)唯一標(biāo)識(shí)符。視頻指紋應(yīng)用廣泛,可用于視頻檢索、視頻認(rèn)證、監(jiān)視視頻廣播以及視頻過濾,當(dāng)然也能夠應(yīng)用于視頻標(biāo)識(shí)管理方面。本文設(shè)計(jì)并實(shí)現(xiàn)了一種基于時(shí)—頻域視頻指紋技術(shù)的視頻標(biāo)識(shí)方案,利用視頻指紋技術(shù)在解決視頻標(biāo)識(shí)管理問題的同時(shí),也為視頻分發(fā)與分類提供一定的便利。
隨著互聯(lián)網(wǎng)應(yīng)用的不斷發(fā)展變化,網(wǎng)絡(luò)中的資源內(nèi)容日漸繁多,基于TCP/IP的現(xiàn)有互聯(lián)網(wǎng)也逐漸暴露出許多不適應(yīng)。當(dāng)前,互聯(lián)網(wǎng)上主要暴露的問題有:不安全、移動(dòng)性差、可靠性差和靈活性差。為了解決這些問題,國內(nèi)外很多研究機(jī)構(gòu)都進(jìn)行了相關(guān)研究,并提出了對(duì)應(yīng)的解決方案。內(nèi)容中心網(wǎng)絡(luò)作為一種新型的網(wǎng)絡(luò)體系架構(gòu),其中CCN/NDN是最典型的解決方案之一。因此本文以CCN/NDN為代表闡述內(nèi)容網(wǎng)絡(luò)的技術(shù)特點(diǎn)。
CCN是Van Jacobson在2009年提出的,在CCN的基礎(chǔ)上,對(duì)CCN及其涉及的關(guān)鍵技術(shù)展開研究[3]。因此,CCN與NDN本質(zhì)上是同一種網(wǎng)絡(luò)架構(gòu)。CCN/NDN的主要思想是將信息對(duì)象作為構(gòu)建網(wǎng)絡(luò)的基礎(chǔ),分離信息的位置信息與內(nèi)容識(shí)別,通過內(nèi)容名字而不是主機(jī)IP地址獲取數(shù)據(jù),從而實(shí)現(xiàn)高效、可靠的信息分發(fā)。其目的是開發(fā)一個(gè)可以適應(yīng)當(dāng)前通信模式的新型互聯(lián)網(wǎng)架構(gòu),從以“where”為中心的架構(gòu)轉(zhuǎn)化為以用戶和應(yīng)用所關(guān)心的“what”為中心的架構(gòu)[4]。綜合參考文獻(xiàn)[5-8],CCN/NDN與當(dāng)前互聯(lián)網(wǎng)架構(gòu)相比有如下特點(diǎn)。
(1)體系結(jié)構(gòu)
雖然CCN/NDN體系結(jié)構(gòu)的外形和當(dāng)今TCP/IP 網(wǎng)絡(luò)很相似,都是沙漏模型,如圖1所示[5],但其不同是在“瘦腰”處用內(nèi)容塊(content chunk)代替了IP地址。從網(wǎng)絡(luò)的角度看,就是用對(duì)數(shù)據(jù)命名代替了對(duì)實(shí)體接口地址的命名。另外,網(wǎng)絡(luò)中內(nèi)建存儲(chǔ)功能,用來緩存經(jīng)過的數(shù)據(jù),用以縮短其他用戶訪問同樣數(shù)據(jù)的響應(yīng)時(shí)間,同時(shí)可大大減少網(wǎng)絡(luò)中的流量。
(2)緩存策略
CCN/NDN與傳統(tǒng)網(wǎng)絡(luò)的另一個(gè)不同點(diǎn)是,它充分利用了網(wǎng)絡(luò)設(shè)備存儲(chǔ)容量大、存儲(chǔ)代價(jià)小的優(yōu)勢,而適當(dāng)?shù)剡\(yùn)用緩存機(jī)制,從而使網(wǎng)絡(luò)性能得到進(jìn)一步的提升。CCN/NDN目前有很多研究集中在緩存策略的設(shè)計(jì)上,包括緩存替換策略、放置決定策略、管理技術(shù)等。現(xiàn)有大部分研究主要分成兩類:通過建立數(shù)學(xué)模型或仿真實(shí)驗(yàn)的方法,評(píng)估CCN/NDN現(xiàn)有緩存策略性能;提出新型緩存策略來提升網(wǎng)絡(luò)性能。根據(jù)參考文獻(xiàn)[9],CCN/NDN緩存具有透明性、普遍性以及細(xì)顆粒度等特點(diǎn)。
圖1 IP和CCN的比較[5]
(3)安全性
傳統(tǒng)網(wǎng)絡(luò)是通過主機(jī)到主機(jī)的鏈接進(jìn)行數(shù)據(jù)傳輸?shù)?,因此在安全方面存在很大的缺陷。在CCN/NDN中,安全機(jī)制是針對(duì)信息內(nèi)容本身的,對(duì)于每個(gè)信息對(duì)象,由發(fā)布者進(jìn)行簽名或加密,然后接受者對(duì)簽名進(jìn)行認(rèn)證或者解密,從而判斷信息的有效性。
(4)命名機(jī)制
在CCN/NDN體系中,整個(gè)網(wǎng)絡(luò)的需求是內(nèi)容,而不是主機(jī),因此網(wǎng)絡(luò)不再關(guān)心內(nèi)容存儲(chǔ)在哪里,而僅關(guān)心內(nèi)容本身。它從根本上改變了IP分組的封裝結(jié)構(gòu)和尋址方式,IP報(bào)文的分組頭不再以IP地址作為標(biāo)識(shí),而是以內(nèi)容名稱作為標(biāo)識(shí)。內(nèi)容的標(biāo)識(shí)名其實(shí)就是CCN的地址,這種標(biāo)識(shí)名是層次化的,通常由幾個(gè)部分組成,通過這種層次化的地址,可以利用類似于URL前綴機(jī)制來迅速定位所需要的信息。如“/cctv.cn/videos/WidgetA. mpg/_v(timestamp)/_s1”,其中“cctv.cn”是全網(wǎng)可識(shí)別名稱,“videos”是內(nèi)容類型,“WidgetA.mpg”是內(nèi)容名稱,“_v(timestamp)”是版本時(shí)間等信息,“_s1”是分段等信息[10-11]。可以看出,內(nèi)容名可以分為內(nèi)容名稱和分片名稱兩個(gè)部分。
通過對(duì)CCN/NDN技術(shù)特點(diǎn)的描述,內(nèi)容網(wǎng)絡(luò)主要是將內(nèi)容和地址分離,其中內(nèi)容可以是任何數(shù)據(jù)形式,這些內(nèi)容都需要被標(biāo)識(shí)后,才能夠被用戶使用。因此,如何對(duì)內(nèi)容網(wǎng)絡(luò)中的內(nèi)容信息進(jìn)行標(biāo)識(shí)是首要解決的問題。從上文中可以看出,CCN/NDN中主要采用的是分層結(jié)構(gòu)化的內(nèi)容標(biāo)識(shí)方法。這種層次性標(biāo)識(shí)方式雖然借用現(xiàn)有網(wǎng)絡(luò)中的URL格式直接對(duì)其命名,大大降低了規(guī)范命名的工作量,但是仍然存在一些問題。具體問題如下:由于采用分層結(jié)構(gòu)化的方式,在訪問時(shí)仍與DNS一樣呈樹狀的模式,這種中心化的結(jié)構(gòu)和分布式管理模式有一定沖突;內(nèi)容名字不是固定長度的,而且字符串長度也沒有上限,導(dǎo)致查找時(shí)比IP地址復(fù)雜得多;由于數(shù)據(jù)量的不斷增長,當(dāng)發(fā)布或刪除內(nèi)容時(shí)將引起路由更新,快速實(shí)時(shí)路由更新是CCN/NDN路由查找所要解決的難題;每種內(nèi)容資源都有一定的內(nèi)容信息特征,分層結(jié)構(gòu)化的標(biāo)識(shí)方式?jīng)]有考慮到不同類型內(nèi)容的差異性;視頻內(nèi)容資源作為一種數(shù)據(jù)量較大、種類多樣和信息冗余度高的內(nèi)容資源,這種特殊性并沒有被利用到標(biāo)識(shí)實(shí)現(xiàn)過程中。綜上,需要一種分布式的標(biāo)識(shí)方法來對(duì)內(nèi)容資源進(jìn)行命名,從而改進(jìn)內(nèi)容分發(fā)的靈活性。因此,視頻內(nèi)容標(biāo)識(shí)是內(nèi)容網(wǎng)絡(luò)中需要解決的問題。
與CCN/NDN的設(shè)計(jì)原則相似,在視頻內(nèi)容標(biāo)識(shí)設(shè)計(jì)時(shí),需要根據(jù)視頻內(nèi)容的特點(diǎn)來提出一套基本的設(shè)計(jì)原則。具體的原則如下[12]。
(1)感知性
根據(jù)人類視覺系統(tǒng)對(duì)視頻數(shù)據(jù)的認(rèn)知,內(nèi)容相同的視頻資源所表達(dá)和傳遞的信息是一致的,即使視頻像素有大有小、色彩有亮有暗、旋轉(zhuǎn)角度各不一致等情況發(fā)生,由于它們所表達(dá)的內(nèi)容是一樣的,因此人類的感知信息也是一樣的,從而最終生成的視頻內(nèi)容標(biāo)識(shí)也是一樣的。
(2)簡潔性
即產(chǎn)生的指紋數(shù)據(jù)量應(yīng)盡量較少,這樣可以利用視頻內(nèi)容的標(biāo)識(shí)進(jìn)行視頻分類以及管理,減少處理時(shí)所產(chǎn)生的計(jì)算量。
(3)唯一性
視頻指紋應(yīng)能唯一標(biāo)識(shí)視頻內(nèi)容,即兩個(gè)感知不同的視頻,它們的指紋序列應(yīng)該是不同的,感知相同的視頻內(nèi)容應(yīng)該具有相同的視頻指紋。
(4)頑健性
視頻指紋能夠抵抗使得內(nèi)容信息不變的攻擊操作,如噪聲、縮放、幀率變換和轉(zhuǎn)碼等,這種攻擊操作,使得底層的字節(jié)數(shù)據(jù)發(fā)生一定的變換,但其表現(xiàn)的視覺內(nèi)容仍是一樣的。因此,需要抵抗這類攻擊導(dǎo)致的視頻指紋變化的情況,保證系統(tǒng)的頑健性。
(5)高效性
生成指紋的算法復(fù)雜度要較低,降低視頻指紋生成的成本,從而加快視頻內(nèi)容資源的分發(fā)速率。
(6)便于匹配和查找
為后續(xù)的指紋匹配工作做準(zhǔn)備,生成的視頻指紋應(yīng)具有較好的數(shù)據(jù)結(jié)構(gòu)模式,這樣便于使用資源時(shí)的匹配和查找工作。
在視頻內(nèi)容標(biāo)識(shí)的研究中,已有許多典型的方案,這些方案大體上可以分為兩大類:一類是將視頻看作一個(gè)整體的數(shù)據(jù)流,通過hash算法將數(shù)據(jù)流映射成相應(yīng)的hash值,hash值即視頻內(nèi)容的標(biāo)識(shí);另一類是考慮了視頻內(nèi)容信息特征,通過一系列方法提取出視頻的內(nèi)容信息特征,基于內(nèi)容信息特征得到相應(yīng)的視頻內(nèi)容標(biāo)識(shí)。下面將描述兩種不同類型中的典型方案之一。
Walfish等人[13]闡述了雖然DNS(domain name system)是互聯(lián)網(wǎng)上最成功的技術(shù)之一,但是由于DNS結(jié)構(gòu)僵化,瀏覽器通過URL(uniform resource locator)來獲取相關(guān)網(wǎng)頁視頻信息時(shí),視頻資源將會(huì)被特定的協(xié)議、主機(jī)號(hào)以及相關(guān)文件名所綁定,這樣會(huì)導(dǎo)致資源不能夠被靈活地分享和調(diào)度。因此,Walfish等人[3]以分布式散列表(distributed hash table,DHT)為基礎(chǔ),提出了一種無語義的內(nèi)容標(biāo)識(shí)技術(shù)SFR(semantic free referencing)。這種方案用DHT將不同內(nèi)容資源映射成一個(gè)160 bit的字符串,即SFR標(biāo)簽,并嵌入該內(nèi)容標(biāo)簽記錄o-records(object records)中,o-records中也包含了該內(nèi)容數(shù)據(jù)的地址信息以及其他元信息,如圖2所示。該方案主要是利用hash表的特性,將內(nèi)容數(shù)據(jù)通過hash算法生成相應(yīng)的hash值,從而形成精簡的內(nèi)容標(biāo)識(shí)。但該方案存在的缺點(diǎn)是:沒有考慮視頻內(nèi)容數(shù)據(jù)的特征性,如同一內(nèi)容不同格式的視頻數(shù)據(jù),在底層的字節(jié)信息可能會(huì)不大一樣,這樣由hash算法所產(chǎn)生的內(nèi)容標(biāo)識(shí)將會(huì)不同,從而同一視頻內(nèi)容將會(huì)擁有不同內(nèi)容標(biāo)識(shí)值,影響視頻的分類與分發(fā);由于視頻數(shù)據(jù)量巨大,通過hash算法產(chǎn)生的hash值碰撞的概率也將提高。
圖2 內(nèi)容標(biāo)簽記錄o-records
圖3 基于關(guān)鍵幀IBR的視頻標(biāo)識(shí)生成過程
通過對(duì)上述方案的延伸,Anand等人[14]從內(nèi)容信息的角度出發(fā)提出一種基于內(nèi)容信息特征的視頻內(nèi)容標(biāo)識(shí)方案IBR(information-bound reference)。由于視頻可以看成一幀幀圖像所組成的連續(xù)有序的集合,因此該方案受到圖像特征提取的啟發(fā),將圖像上的特征提取研究方案應(yīng)用于視頻標(biāo)識(shí)上,為視頻內(nèi)容資源的標(biāo)識(shí)提供了一種有效的方案。該方案的具體過程如圖3所示。
該方案的具體過程如下。
步驟1 通過視頻鏡頭分割技術(shù)尋找出鏡頭切換點(diǎn),該切換點(diǎn)即關(guān)鍵幀,以關(guān)鍵幀為邊界點(diǎn),將原視頻分成一段段的視頻片段。
步驟2 在視頻片段中選取該段的首幀和尾幀圖像,利用圖像特征提取技術(shù)生成其IBR值(如圖3中的IBR(1)和IBR(3)),將首幀和尾幀圖像的IBR值再加上該段音頻信息的hash值合成一個(gè)IBR文件塊作為該段的IBR標(biāo)識(shí)。
步驟3 將各個(gè)段的IBR文件塊合在一起即形成原視頻文件的最終IBR標(biāo)識(shí)。其中圖像的IBR值生成過程如圖4所示。
圖像IBR大致的生成思路就是利用離散余弦變換(discrete cosine transform,DCT)提取出圖像中Y、Cb和Cr成分的頻率分量,通過一系列整合得到最終的IBR值。因此,可以看出IBR方案存在的問題是:在提取特征時(shí)加入了色彩分量,雖然提高了IBR值的有效性,但也隨之提高了運(yùn)算成本,使得生成時(shí)間變長;由于在視頻關(guān)鍵幀提取的過程中,不同的視頻鏡頭分割技術(shù)將會(huì)導(dǎo)致不同的結(jié)果,而且也沒對(duì)其所使用的技術(shù)進(jìn)行詳細(xì)闡述,因此在該過程的處理上存在著一定的爭議。
根據(jù)IBR的方案,主要思路就是通過現(xiàn)有的圖像或者視頻處理方法提取視頻的特征點(diǎn)來實(shí)現(xiàn)相應(yīng)的內(nèi)容標(biāo)識(shí)。在圖像和視頻的研究領(lǐng)域中,存在許多基于視頻特征點(diǎn)的處理技術(shù),如視頻指紋技術(shù)。在第1節(jié)中,提到了對(duì)于同一內(nèi)容視頻的不同版本數(shù)據(jù),需要唯一的特征點(diǎn)為其標(biāo)識(shí),生成同一個(gè)標(biāo)識(shí)為視頻的分類與管理提供方便。因此,在提取視頻特征點(diǎn)的過程中,需要主要考慮的是視頻的內(nèi)容特征而不是結(jié)構(gòu)特征[15-16]。而視頻指紋技術(shù)就考慮了這點(diǎn),不僅能解決IBR中存在的問題,而且能為視頻提供精簡的標(biāo)識(shí)值。因此,本文將從視頻指紋出發(fā),解析視頻指紋的原理以及一種視頻指紋的實(shí)現(xiàn)過程,從而展現(xiàn)出視頻指紋技術(shù)在內(nèi)容網(wǎng)絡(luò)中視頻內(nèi)容標(biāo)識(shí)中的應(yīng)用價(jià)值。
圖4 關(guān)鍵幀圖像IBR生成過程
視頻指紋技術(shù)是通過提取視頻內(nèi)容特征信息作為視頻標(biāo)識(shí),基于此標(biāo)識(shí)建立視頻指紋數(shù)據(jù)庫,然后通過相似性匹配算法進(jìn)行查詢、分類與管理[17]。因此,視頻指紋技術(shù)主要由兩個(gè)方面構(gòu)成:視頻指紋的提取和視頻指紋的匹配。下文描述了視頻指紋技術(shù)的概念以及技術(shù)原理,然后設(shè)計(jì)了一種基于時(shí)—頻域視頻指紋的視頻內(nèi)容標(biāo)識(shí)方案。
早在1999年,斯坦福大學(xué)的Shivakumar N和Indyk P[18]在博士論文中就如何在互聯(lián)網(wǎng)中找出盜版視頻數(shù)據(jù)為目標(biāo),提出一套盜版視頻數(shù)據(jù)檢測技術(shù)。隨著互聯(lián)網(wǎng)的發(fā)展,相關(guān)研究者希望用較少的數(shù)據(jù)成本來對(duì)視頻元數(shù)據(jù)進(jìn)行標(biāo)識(shí),利用視頻的標(biāo)識(shí)進(jìn)行基于內(nèi)容的分類,從而便于視頻數(shù)據(jù)庫的管理。由此,以Shivakumar N和Indyk P的研究成果為基礎(chǔ),不斷發(fā)展形成了現(xiàn)在的視頻指紋技術(shù),并且以關(guān)鍵技術(shù)寫入了MPEG-21標(biāo)準(zhǔn)中。視頻指紋是一個(gè)視頻對(duì)象感知特征的簡短摘要,因此它有時(shí)又被稱為視頻摘要、視頻散列、視頻身份。它是通過一定的科學(xué)算法來提取視頻內(nèi)容本身所具有的某些特征信息(如亮度、顏色、頻譜等),對(duì)這些特征信息進(jìn)行統(tǒng)計(jì)、組合等方法后形成唯一的指紋序列,通過與數(shù)據(jù)庫中指紋間的相似性匹配計(jì)算,能將視頻本身與其他不同視頻區(qū)分開來的數(shù)據(jù)。視頻指紋提取主要分為視頻預(yù)處理、特征提取、指紋建模和數(shù)據(jù)庫構(gòu)建[19]4個(gè)步驟。在這4個(gè)步驟中,細(xì)節(jié)點(diǎn)較多但在大多數(shù)研究中并沒有詳細(xì)解釋的是視頻預(yù)處理過程。因此,接下來主要對(duì)此過程進(jìn)行闡述。
在視頻預(yù)處理過程中,首先進(jìn)行的就是視頻解碼處理,將數(shù)字視頻信號(hào)流轉(zhuǎn)換成一幀幀視頻圖像,然后再對(duì)幀圖像進(jìn)行后續(xù)的處理。視頻解碼的研究已經(jīng)十分成熟,所以這里將不再重述。這里重點(diǎn)講述下后續(xù)的處理過程,為了更好地解釋該過程,先將視頻組織結(jié)構(gòu)進(jìn)行分析。一段連續(xù)的視頻,可劃分為以下結(jié)構(gòu):視頻鏡頭、視頻關(guān)鍵幀、視頻組以及視頻場景[20],如圖5所示??梢钥闯?,視頻數(shù)據(jù)有很大的冗余量存在。因此,視頻預(yù)處理一方面是為了消除這些冗余量,保留關(guān)鍵信息;另一方面是為后面的特征提取做格式上的準(zhǔn)備,從而能生成標(biāo)準(zhǔn)化指紋格式。圖5中,可見一個(gè)常用的預(yù)處理方法:視頻鏡頭邊緣檢測。這種方法的原理是通過統(tǒng)計(jì)計(jì)算(幀差法或光流法等)來尋找鏡頭突變或者漸變的時(shí)間點(diǎn),然后將整段視頻分成一個(gè)個(gè)視頻鏡頭片段,最后在一個(gè)鏡頭中選取或合成一個(gè)關(guān)鍵幀對(duì)該鏡頭進(jìn)行表示。
關(guān)于特征的提取部分,基于不同的提取方法的特性信息,其相似性計(jì)算方法也不盡相同。目前已提出的視頻指紋提取技術(shù)可分為三大類:基于時(shí)域、基于空域以及基于變換頻域的視頻指紋[21]。指紋建模,是將提取的特征進(jìn)行分析,用適合的數(shù)學(xué)工具建立起模型,以便進(jìn)行指紋匹配。
視頻指紋匹配,即在上述基于視頻指紋特征構(gòu)建的數(shù)據(jù)庫中,查詢出所需視頻的指紋數(shù)據(jù),并獲取該視頻數(shù)據(jù)資源。該問題屬于典型的查找型問題,最簡單的算法即窮舉法,但是由于現(xiàn)在視頻數(shù)據(jù)量繁多,因此運(yùn)用窮舉法來解決該問題并不可取。雖然對(duì)于視頻指紋的匹配算法研究甚少,但是對(duì)于海量文本數(shù)據(jù)或者其他類型數(shù)據(jù)的快速查找算法研究較多。因此,對(duì)于視頻指紋的匹配算法的研究,一般把視頻指紋數(shù)據(jù)看成比特串或者其他數(shù)據(jù)格式,根據(jù)已有的快速查找算法來解決問題。
圖5 視頻結(jié)構(gòu)特征
最常見的快速最近鄰查找算法是局部敏感散列(locality sensitive hashing,LSH)算法,該算法最早由Indyk等人[22]提出,后續(xù)Gionis又進(jìn)行了總結(jié)。Hu[23]根據(jù)LSH算法實(shí)現(xiàn)了一個(gè)高效的視頻檢索系統(tǒng),并證明了LSH算法在視頻指紋應(yīng)用的實(shí)效性。LSH算法初衷是為解決海量高維度數(shù)據(jù)的快速最近鄰查找問題,其主要原理是:將高維度數(shù)據(jù)通過特殊的hash函數(shù)降維到低維數(shù)據(jù),同時(shí)在一定程度上,保證原始數(shù)據(jù)的相似性不變。這樣高維數(shù)據(jù)映射到低維不同的桶位中,在桶內(nèi)進(jìn)行線性查找,從而加速了查找的效率。
對(duì)這個(gè)特殊的hash函數(shù)有以下兩個(gè)要求[23]:
? 如果(,) ≤1,則() =()的概率至少為1;
? 如果(,) ≥2,則() =()的概率至多為2。
其中(,)表示和之間的距離,1<2,()和()分別表示對(duì)和進(jìn)行hash變換。
雖然LSH提高了查找的速率,但是也降低了查找的準(zhǔn)確率。為了提高查找的準(zhǔn)確率,部分研究者進(jìn)行了研究,提出了一系列算法。最具代表的是以聚類為基礎(chǔ)的匹配算法。
根據(jù)前文視頻指紋技術(shù)原理介紹,本節(jié)對(duì)時(shí)域和頻域的視頻指紋技術(shù)進(jìn)行了融合,并提出了一種基于時(shí)—頻域視頻指紋的視頻內(nèi)容標(biāo)識(shí)方案。該方案的基本原理是:先在視頻的時(shí)間域中進(jìn)行處理,利用視頻鏡頭分割和圖像合成技術(shù)得到一段視頻的關(guān)鍵幀,然后對(duì)于每一關(guān)鍵幀進(jìn)行DCT得到頻域圖像,從頻域圖像中提取出頻域信息經(jīng)過統(tǒng)計(jì)處理得到相應(yīng)的視頻指紋,對(duì)視頻指紋進(jìn)行整合后得到最終的視頻標(biāo)識(shí)。因此該方案分為3個(gè)過程:時(shí)域處理過程,又稱視頻預(yù)處理過程;頻域處理過程;標(biāo)識(shí)生成過程。具體過程如圖6所示。
圖6 基于時(shí)—頻域視頻指紋的標(biāo)識(shí)生成總過程
針對(duì)時(shí)域處理過程,下面將對(duì)每一個(gè)步驟進(jìn)行詳盡說明,具體過程如圖7所示。
步驟1 視頻解碼。目前存在大量的編解碼標(biāo)準(zhǔn),為了適配不同的應(yīng)用環(huán)境和終端設(shè)備,視頻經(jīng)常需要被轉(zhuǎn)碼成相應(yīng)能處理的數(shù)據(jù)格式。造成同一內(nèi)容的視頻會(huì)以多種不同的編碼形式存在。不同編碼的數(shù)據(jù)具有不同的字節(jié)特征,這樣想要直接從編碼數(shù)據(jù)中提取唯一特性的指紋將變得很困難。因此,數(shù)字視頻首先需要被解碼,得到壓縮前的視頻幀序列。
圖7 視頻標(biāo)識(shí)方案時(shí)域處理過程
步驟2 幀序列分組和幀合成。這部分是大多數(shù)參考文獻(xiàn)中提到的視頻預(yù)處理過程,其目的是:剔除視頻數(shù)據(jù)中的冗余量;為后續(xù)的處理做準(zhǔn)備而進(jìn)行幀圖像標(biāo)準(zhǔn)化。本文的方案中,將步驟1得到的視頻幀序列進(jìn)行均等分組,先均等分成63組幀序列,最后的剩余作為第64組。這樣得到64組幀序列后,需要利用圖像合成技術(shù),將組內(nèi)幀序列合成一幀圖像作為關(guān)鍵幀為后續(xù)處理做準(zhǔn)備。這里所用的圖像合成技術(shù)是TIRI(temporally informative representative image)[24]技術(shù)。這種方法的原理是:將一組圖像進(jìn)行權(quán)重相加,得到一個(gè)新的圖像作為表示圖像,計(jì)算式如下:
步驟3 關(guān)鍵幀的標(biāo)準(zhǔn)化。對(duì)關(guān)鍵幀標(biāo)準(zhǔn)化是為了最終生成標(biāo)準(zhǔn)形式的視頻指紋格式。在這個(gè)標(biāo)準(zhǔn)化過程中包含兩個(gè)方面:圖像濾波和圖像尺寸縮減。圖像濾波,即在盡量保留圖像細(xì)節(jié)特征的條件下對(duì)目標(biāo)圖像的噪聲進(jìn)行抑制,是圖像預(yù)處理中不可缺少的操作,其處理效果的好壞將直接影響到后續(xù)圖像處理和分析的有效性和可靠性。本文所用的濾波器是高斯濾波器,是一種線性平滑濾波。因?yàn)槠淠茉诓黄茐膱D像原始信息的情況下抑制噪聲,所以廣泛應(yīng)用于圖像處理的降噪過程。將關(guān)鍵幀圖像降噪后,再進(jìn)行圖像的尺寸變化,生成標(biāo)準(zhǔn)化的圖像大小,本文選擇的是144 dpi ×176 dpi,這是H.323協(xié)議簇中規(guī)定的最小能表征圖像信息的圖像格式(QCIF)。
通過上述時(shí)域處理,任何視頻都將得到一個(gè)(144,176,64)的關(guān)鍵幀集合,其中144 dpi ×176 dpi是關(guān)鍵幀圖像尺寸大小,64是關(guān)鍵幀的總數(shù)。在這個(gè)關(guān)鍵幀集合的基礎(chǔ)上,這里將對(duì)其進(jìn)行頻域處理,提取出關(guān)鍵幀的頻域信息。在進(jìn)行頻域處理過程中,有3個(gè)問題需要考慮:用何種變換工具來進(jìn)行頻域轉(zhuǎn)換;提取多少頻域分量信息;如何對(duì)提取出的分量信息進(jìn)行量化。針對(duì)這3個(gè)問題,下文將一一闡述解決辦法。
目前,在圖像和視頻的頻域處理的研究中,應(yīng)用最廣泛的是DCT[25-26]。DCT是對(duì)實(shí)信號(hào)定義的一種變換,它是從離散傅里葉變換(discrete fourier transform,DFT)推導(dǎo)出來的一種變換。相比DFT而言,DCT可以減少一半以上的計(jì)算。因?yàn)镈CT具有能量集中特性,即聲音或圖像信號(hào)通過離散余弦變換后大多數(shù)信號(hào)能量集中在其低頻區(qū)域,所以DCT在聲音和圖像數(shù)據(jù)處理中得到了廣泛的使用。因此,本文也是利用DCT對(duì)關(guān)鍵幀集合進(jìn)行頻域轉(zhuǎn)換。在DCT過后的頻域矩陣中,需要選取合適大小的子矩陣作為該關(guān)鍵幀標(biāo)識(shí)信息。為了確保最終視頻指紋的簡潔性和高效性,選取的子矩陣大小不能過大或過小,過大將導(dǎo)致視頻指紋信息量過多,從而影響簡潔性,過小會(huì)導(dǎo)致提取的信息量較少,從而使得部分重要信息丟失,影響其高效性。在本文中所選取的子矩陣大小是16行× 16列,每一關(guān)鍵幀將由256位頻域分量標(biāo)識(shí)。為了得到最終的視頻指紋,最后就是將每關(guān)鍵幀的256位分量進(jìn)行量化處理得到相應(yīng)的比特串。與其他研究中的量化過程不同,本文將每一頻率分量通道看成一組序列,在每一通道中計(jì)算出每組序列的中位數(shù),根據(jù)以下計(jì)算式進(jìn)行量化:
其中,m為通道中的中位值,Ci為第i處的頻率分量,hi為量化后的值。這樣每一個(gè)視頻數(shù)據(jù)將得到一個(gè)64行×256位的比特指紋序列,圖8形象地描述了上述過程。
最后,通過hash函數(shù)對(duì)得到的視頻指紋數(shù)據(jù)進(jìn)行處理,生成最終的視頻標(biāo)識(shí)值。這種視頻標(biāo)識(shí)不僅滿足視頻內(nèi)容標(biāo)識(shí)設(shè)計(jì)原則,也解決了內(nèi)容網(wǎng)絡(luò)中視頻內(nèi)容標(biāo)識(shí)的問題。
內(nèi)容標(biāo)識(shí)一直都是內(nèi)容網(wǎng)絡(luò)中需要解決的問題,其中對(duì)于視頻這一類型內(nèi)容來說,它的內(nèi)容標(biāo)識(shí)與其他內(nèi)容相比更為復(fù)雜。視頻指紋技術(shù)是一種新型的視頻內(nèi)容標(biāo)識(shí)技術(shù)。它通過一定的科學(xué)算法來提取視頻內(nèi)容本身所具有的某些特征信息(如亮度、顏色、頻譜等),對(duì)這些特征量進(jìn)行統(tǒng)計(jì)、組合等方法處理后形成唯一的指紋序列,通過與數(shù)據(jù)庫中指紋間的相似性匹配計(jì)算,能將視頻本身與其他不同視頻區(qū)分開來的數(shù)據(jù)。本文研究了將視頻指紋技術(shù)應(yīng)用于解決內(nèi)容網(wǎng)絡(luò)中視頻內(nèi)容資源的標(biāo)識(shí)問題,提出了一種基于時(shí)—頻域視頻指紋的標(biāo)識(shí)方案,有效解決了視頻內(nèi)容在內(nèi)容網(wǎng)絡(luò)中的分類與管理問題。但隨著科技的發(fā)展,現(xiàn)有的視頻標(biāo)識(shí)方案將會(huì)在日益豐富的視頻數(shù)據(jù)中顯現(xiàn)不足。因此,在后續(xù)的工作中,還需要進(jìn)一步分析與研究。
[1] 尹浩, 袁小群, 林闖, 等. 內(nèi)容網(wǎng)絡(luò)服務(wù)節(jié)點(diǎn)部署理論綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2010, 33(9): 1611-1620.
YIN H, YUAN X Q, LIN C, et al. The survey of service nodes placement theories for content networks[J]. Chinese Journal of Computers, 2010, 33(9): 1611-1620.
[2] 唐霏. 內(nèi)容網(wǎng)絡(luò)中的緩存設(shè)計(jì)[D]. 成都: 電子科技大學(xué), 2013.
TANG F. Caching design in content network[D]. Chengdu: University of Electronic Science and Technology, 2013.
[3] 胡騫. 以內(nèi)容為中心的網(wǎng)絡(luò)中緩存技術(shù)的若干問題研究[D]. 北京: 北京郵電大學(xué), 2015.
HU Q. Research on caching technology in content centric network[D]. Beijing: Beijing University of Posts and Telecommunications, 2015.
[4] 崔現(xiàn)東. 內(nèi)容中心網(wǎng)絡(luò)網(wǎng)內(nèi)緩存策略研究[D]. 北京: 北京郵電大學(xué), 2014.
CUI X D. Research on caching strategy in content center network[D]. Beijing: Beijing University of Posts and Telecommunications, 2014.
[5] 黃韜, 劉江, 霍如, 等. 未來網(wǎng)絡(luò)體系架構(gòu)研究綜述[J]. 通信學(xué)報(bào), 2017, 35(8): 184-197.
HUANG T, LIU J, HUO R, et al. Survey of research on future network architectures[J]. Journal on Communications, 2017, 35(8): 184-197.
[6] 劉斌, 汪漪. 內(nèi)容中心網(wǎng)絡(luò)中名字查找技術(shù)的研究[J]. 電信科學(xué), 2017, 30(9): 10-17.
LIU B, WANG Y. Research on name lookup in named data networking[J]. Telecommunications Science, 2017, 30(9): 10-17.
[7] 張行功, 牛童, 郭宗明. 未來網(wǎng)絡(luò)之內(nèi)容中心網(wǎng)絡(luò)的挑戰(zhàn)和應(yīng)用[J]. 電信科學(xué), 2017, 29(8): 24-31.
ZHANG X G, NIU T, GUO Z M. Challenge and implementation of content-centric networking[J]. Telecommunications Science, 2017, 29(8): 24-31.
[8] JACOBSON V, SMETTERS D K, THORNTON J D, et al. Networking named content[C]//The 5th International Conference on Emerging Networking Experiments and Technologies, December 1-4, 2009, Rome, Italy. New York: ACM Press, 2009: 1-12.
[9] ZHANG G, LI Y, LIN T. Caching in information centric networking: a survey[J]. Computer Networks, 2013, 57(16): 3128-3141.
[10] 胡騫, 武穆清, 郭嵩. 以內(nèi)容為中心的未來通信網(wǎng)絡(luò)研究綜述[J]. 電信科學(xué), 2012, 28(9): 74-80.
HU Q, WU M Q, GUO S. A survey of content-oriented future communication network[J]. Telecommunications Science, 2012, 28(9): 74-80.
[11] 雷凱. 信息中心網(wǎng)絡(luò)與命名數(shù)據(jù)網(wǎng)絡(luò)[M]. 北京: 北京大學(xué)出版社, 2015.
LEI K. Information-centric networking (ICN) and named-data networking (NDN)[M]. Beijing: Peking University Press, 2015.
[12] 王大永. 感知視頻指紋算法研究[D]. 上海: 上海交通大學(xué), 2012.
WANG D Y. Research on perceptual video fingerprint algorithm[D]. Shanghai: Shanghai Jiao Tong University, 2012.
[13] WALFISH M, BALAKRISHNAN H, SHENKER S. Untangling the Web from DNS[C]//NSDI 2004, March 29-31, 2004, San Francisco, CA, USA. New York: ACM Press, 2004: 17.
[14] ANAND A, BALACHANDRAN A, AKELLA A, et al. Enhancing video accessibility and availability using information-bound references[J]. IEEE/ACM Transactions on Networking (TON), 2016, 24(2): 1223-1236.
[15] KIM M J, YOO C, KO Y W. Multimedia file forensics system exploiting file similarity search[J]. Multimedia Tools and Applications, 2017: 1-22.
[16] NIE X, YIN Y, SUN J, et al. Comprehensive feature-based robust video fingerprinting using tensor model[J]. IEEE Transactions on Multimedia, 2017, 19(4): 785-796.
[17] 許濤. 面向視頻管理的指紋特征提取技術(shù)研究[D]. 成都: 電子科技大學(xué), 2015.
XU T. Research on fingerprint feature extraction technology for video management[D]. Chengdu: University of Electronic Science and Technology, 2015.
[18] INDYK P, IYENGAR G, SHIVAKUMAR N. Finding pirated video sequences on the internet[R]. 1999.
[19] OUALI C, DUMOUCHEL P, GUPTA V. Robust video fingerprints using positions of salient regions[C]//2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), March 5-9, 2017, New Orleans, USA. Piscataway: IEEE Press, 2017: 3041-3045.
[20] 莊捷. 流媒體原理與應(yīng)用[M]. 北京: 中國廣播電視出版社, 2012.
ZHUANG J. Principle and application of streaming media[M]. Beijing: China Radio and Television Publishing House, 2012.
[21] LU J. Video fingerprinting for copy identification: from research to industry applications[C]// Media Forensics and Security. International Society for Optics and Photonics, January 19, 2009, San Jose, CA, USA. [S.l.:s.n.], 2009: 725402.
[22] INDYK P, MOTWANI R. Approximate nearest neighbors: towards removing the curse of dimensionality[C]//The 30th Annual ACM Symposium on Theory of Computing, May 24-26, 1998, New York, USA. New York: ACM Press, 1998: 604-613.
[23] HU S. Efficient video retrieval by locality sensitive hashing[C]// IEEE 2005 International Conference on Acoustics, Speech, and Signal Processing (ICASSP’05), March 18-23, 2005, Philadelphia, Pennsylvania, USA. Piscataway: IEEE Press, 2005: 449-452.
[24] ESMAEILI M M, FATOURECHI M, WARD R K. A robust and fast video copy detection system using content-based fingerprinting[J]. IEEE Transactions on Information Forensics and Security, 2011, 6(1): 213-226.
[25] OOSTVEEN J, KALKER T, HAITSMA J. Feature extraction and a database strategy for video fingerprinting[M]. Berlin: Springer, 2002: 117-128.
[26] COSKUN B, SANKUR B. Robust video hash extraction[C]// 2004 12th European Signal Processing Conference, Sept 6, 2004, Vienna, Austria. Piscataway: IEEE Press, 2004: 2295-2298.
Video content identification scheme in content oriented network environment
CHEN Xun1, HAN Shuai1,2, LIU Shanshan1, YANG Xiaolong1
1. University of Science and Technology Beijing, Beijing 100083, China 2. Luoyang Electronic Equipment Test Center of China, Luoyang 471000, China
Video fingerprinting technology is a video identification technology proposed for the identification of massive video data. Firstly, the research status of the content network and the main problems that exist were elaborated, especially the problems of content identification. Then design principles of the video content identification scheme were proposed from the video content identification requirements in the content network, and the principles and disadvantages of the existing solutions were analyzed in depth. Finally, a video content identification scheme based on video fingerprinting technology was designed and implemented after analyzing the concept and principle of video fingerprinting technology. The feature was: the two types of video fingerprinting technology in the time domain and frequency domain were integrated. While shortening the time for generating video tags, it also improved the robustness of the overall system.
content network, content identification, video processing, video fingerprint
TN919.85
A
10.11959/j.issn.1000?0801.2018182
陳勛(1994?),男,北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院碩士生,主要研究方向?yàn)閮?nèi)容中心網(wǎng)絡(luò)、視頻分發(fā)網(wǎng)絡(luò)。
韓帥(1988?),男,北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院碩士生、中國洛陽電子裝備試驗(yàn)中心助理工程師,主要研究方向?yàn)橐曨l編碼與傳輸、視頻分發(fā)網(wǎng)絡(luò)。
劉姍姍(1994?),女,北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院碩士生,主要研究方向?yàn)榱髅襟w技術(shù)、視頻分發(fā)網(wǎng)絡(luò)。
陽小龍(1970?),男,北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院教授、博士生導(dǎo)師,主要研究方向?yàn)榫W(wǎng)絡(luò)安全、內(nèi)容中心網(wǎng)絡(luò)、視頻分發(fā)網(wǎng)絡(luò)和新一代互聯(lián)網(wǎng)理論與技術(shù)。
2018?04?08;
2018?05?06
陽小龍,yangxl@ustb.edu.cn