蘇晨涵
摘要:視頻本身具有一定的層次結(jié)構(gòu),不同層次會產(chǎn)生不同粒度的語義,而且不同粒度的語義之間會形成一定的層次結(jié)構(gòu)。因此,視頻語義提取和標注強調(diào)語義的結(jié)構(gòu)化。為此,首先,以鏡頭為單位提取其語義,并組成鏡頭語義序列。隨后,帶有簡單時序關(guān)系的鏡頭語義序列經(jīng)過結(jié)構(gòu)化支持向量機的分析將產(chǎn)生結(jié)構(gòu)化的視頻語義;最好,將連續(xù)且內(nèi)容相關(guān)的鏡頭作為一個場景,以視頻場景為基本單位利用決策樹算法C4.5根據(jù)鏡頭的語義信息及鏡頭之間的結(jié)構(gòu)信息完成場景語義的推理。
關(guān)鍵詞:視頻語義; 語義提??; 語義標注; 結(jié)構(gòu)化關(guān)系; 結(jié)構(gòu)化支持向量機
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2014)26-6178-03
Abstract:Video has a hierarchical structure which means that different semantic with different granularity emerge among different hierarchies. Hence, it is important to extract and annotate video semantic structurally. The method adopted in this paper is divided into three phrases. First, it extracts semantic from each shot and combines into a semantic sequence. Second, with simple time series information, Struct-SVM is employed to generate structural video semantics. Finally, after combining sequential and contented-associated shots into a scene, it employs C4.5 to reduce scene semantic with structural video semantics.
Key words:video semantic; semantic extraction; semantic annotation; structural context; Struct-SVM
視頻數(shù)據(jù)所蘊含的語義信息量遠遠高于包括文本數(shù)據(jù)、音頻數(shù)據(jù)、圖像數(shù)據(jù)在內(nèi)的其它媒體數(shù)據(jù),而且視頻語義彼此依賴形成復(fù)雜的結(jié)構(gòu)關(guān)系[1-3]。隨著視頻檢索技術(shù)的發(fā)展,低粒度的、無層次的視頻語義標注模型與技術(shù)已經(jīng)滿足不了用戶與檢索技術(shù)的需求。例如用戶在檢索足球視頻時輸入的關(guān)鍵詞往往不是“裁判”、“足球”等單個鏡頭中低粒度的對象語義,而是“進球”、“犯規(guī)”、“任意球”等由視頻場景表達的高粒度的事件語義。為了更好地存儲視頻的語義內(nèi)容并利用其進行視頻檢索,研究人員構(gòu)建了許多結(jié)構(gòu)化的視頻語義模型。結(jié)構(gòu)化的視頻語義模型不僅含有從不同層次中提取的語義,語義間的關(guān)系信息也是模型中的重要內(nèi)容[3]。與之相對應(yīng)的,傳統(tǒng)的低粒度的視頻語義標注方法也就滿足不了視頻語義模型對標注內(nèi)容的要求,這就勢必要求我們找到一種方法能夠全局地分析視頻的內(nèi)部結(jié)構(gòu),然后充分利用結(jié)構(gòu)關(guān)系信息提取視頻中不同粒度的語義并進行標注。
視頻語義的結(jié)構(gòu)化提取與標注從不同層次提取視頻語義,并能夠?qū)⒄Z義間結(jié)構(gòu)化關(guān)系作為標注內(nèi)容。結(jié)構(gòu)化的視頻語義豐富了視頻語義標注的內(nèi)容,為進一步管理、檢索視頻提供良好的基礎(chǔ)。但是視頻語義的內(nèi)部結(jié)構(gòu)復(fù)雜,視頻中的“結(jié)構(gòu)歧義”給正確提取結(jié)構(gòu)化關(guān)系造成了很大的困難。所以結(jié)構(gòu)化的視頻語義提取與標注是一項很有意義的研究工作。
1 視頻語義結(jié)構(gòu)化提取與標注框架
本文建立的視頻語義的結(jié)構(gòu)化提取與標注方法分為三個階段:首先,以鏡頭為單位提取鏡頭內(nèi)的語義;然后,半監(jiān)督地利用鏡頭語義及時序信息對鏡頭之間結(jié)構(gòu)化的上下文關(guān)系進行分析,利用結(jié)構(gòu)化信息以場景為單位提取場景語義;最后,將鏡頭語義、場景語義及語義間的結(jié)構(gòu)化關(guān)系作為標注內(nèi)容對視頻進行結(jié)構(gòu)化的語義標注。因此,該方法的實現(xiàn)具有一個三層結(jié)構(gòu)的框架,其框架結(jié)構(gòu)和方法的流程如圖1所示。
2 視頻語義結(jié)構(gòu)化提取與標注實現(xiàn)過程
2.1 視頻預(yù)處理
視頻預(yù)處理主要工作為:首先,對視頻進行鏡頭分割;然后,選擇鏡頭中的某一幀作為關(guān)鍵幀代表鏡頭。
由于大部分視頻幀的默認顏色空間是RGB顏色空間,所以首先要將顏色空間轉(zhuǎn)換為跟接近人類對視覺相似性感知的HSI顏色空間。在HIS空間計算像素的顏色變化更加簡單直觀,有助于提高邊界檢測的準確率和特征的提取。然后在HIS空間中采用基于塊的鏡頭分割方法,將將視頻幀分成n個塊并對相鄰幀的對應(yīng)塊進行比較,鏡頭邊界檢測后取鏡頭內(nèi)的某一幀作為關(guān)鍵幀代表鏡頭。一般可以選擇鏡頭中間一幀作為關(guān)鍵幀。
2.2 鏡頭語義序列提取
鏡頭語義序列是分析鏡頭之間依賴關(guān)系的基本單位,正確提取鏡頭內(nèi)的語義信息,然后形成具有時間約束的語義序列是本文提出方法的重要基礎(chǔ)。提取鏡頭語義序列的主要工作為:1.提取鏡頭內(nèi)特定的語義,組成語義集W;2.從W選擇一個語義wi為關(guān)鍵語義代表該鏡頭;3.根據(jù)鏡頭的時序關(guān)系將每個鏡頭的關(guān)鍵語義組合成鏡頭關(guān)鍵語義序列Seq。
2.2.1 鏡頭語義提取
關(guān)鍵幀中的語義對象可以分為前景對象和背景對象。在進行語義檢測時首先要對關(guān)鍵幀的前景對象進行檢測并分離前景對象和背景對象,然后根據(jù)對象的不同使用相對應(yīng)的語義分析方法。前景檢測算法利用連續(xù)的若干幀像素點的變化來檢測前景與背景。對于攝像頭視角固定的視頻可以使用減背景法將前景與背景分離,例如監(jiān)控視頻;對于攝像頭視角轉(zhuǎn)動的視頻通常使用光流法進行前景檢測,例如體育競技類視頻。足球視頻在拍攝的過程中攝像頭跟蹤足球、運動員等目標物,所以使用光流法對其進行前景與背景的分割。將關(guān)鍵幀的前景與背景分開后,然后分別對不同對象使用不同的方法提取特征。計算顏色特征后再使用Canny算子進行紋理特征的提取。Canny算是目前公認最好的邊緣檢測算子,提取圖像邊緣后以5。為范圍進行劃分形成一個36維的邊緣直方圖C,同樣對得到的邊緣直方圖進行歸一化處理,獲得36維的紋理特征向量后與顏色特征一起組成72維的特征向量。
獲取特征向量后使用支持向量機SVM對標注后語義的訓(xùn)練樣本的72維特征向量進行學(xué)習(xí),然后將訓(xùn)練后的SVM對樣本進行分類,分類結(jié)果作為鏡頭的背景語義wb[∈]W。
與背景對象的語義相同,前景對象也需要提取其顏色和問題特征組成72維的特征向量。但是除了顏色和紋理特征之外形狀特征也是前景對象的重要特征。常用的形狀特征有面積Ar、周長Pe、長寬比LW、周長面積比AP等。為了克服圖像縮放造成的干擾本文選擇具有抗干擾形狀特征LW、AP及歸一化后的Ar。Ar歸一化的方法同上。這樣加上顏色和紋理特征就組成了75維的特征向量,同樣使用SVM對樣本進行學(xué)習(xí)與分類,分類結(jié)果就是該鏡頭含有的前景語義wf[∈]W。
2.2.2 鏡頭語義序列
2.4 場景語義推理
場景語義推理是場景語義標注框架的第三層,該階段的主要工作是對視頻的場景分割,然后再利用決策樹算法C4.5[8]對場景的語義進行推理。
視頻的場景是由連續(xù)的而且內(nèi)容相關(guān)的鏡頭組成,根據(jù)labelled-Seq中關(guān)系信息可以很容易地得到關(guān)鍵語義之間的依賴關(guān)系,關(guān)鍵語義間的依賴關(guān)系就是鏡頭之間的依賴關(guān)系。根據(jù)鏡頭的依賴關(guān)系就能夠?qū)⒁曨l分割為若干場景。
視頻的場景是由連續(xù)的而且內(nèi)容相關(guān)的鏡頭組成,根據(jù)labelled-Seq中關(guān)系信息可以很容易地得到關(guān)鍵語義之間的依賴關(guān)系,關(guān)鍵語義間的依賴關(guān)系就是鏡頭之間的依賴關(guān)系。根據(jù)鏡頭的依賴關(guān)系就能夠?qū)⒁曨l分割為若干場景。
將視頻分為若干場景后就能夠以場景為單位進行場景語義分析了。利用C4.5算法進行場景語義推理時,首先將場景內(nèi)各個鏡頭的語義集W中的語義作為決策屬性。但是如果僅僅只利用場景內(nèi)的鏡頭語義做為決策屬性是不夠的,還需要利用3.2.3中獲取的鏡頭間的結(jié)構(gòu)化關(guān)系信息,所以將每個語義的關(guān)系也作為C4.5的決策屬性。
3 結(jié)論
本文針對視頻結(jié)構(gòu)化語義的提取與標注問題,建立了三層的結(jié)構(gòu)化視頻語義提取與標注框架,逐層推理語義,提取了不同粒度的語義及語義之間的結(jié)構(gòu)化關(guān)系。第一層,根據(jù)鏡頭關(guān)鍵幀的視覺特征提取低粒度的鏡頭語義;第二層,通過分析不同鏡頭語義的上下文關(guān)系獲取鏡頭之間的結(jié)構(gòu)化關(guān)系;第三層,利用各個鏡頭的語義信息及鏡頭的結(jié)構(gòu)化關(guān)系信息進行高粒度的場景語義推理。一方面彌補了傳統(tǒng)只能以鏡頭為單位標注語義,不能對視頻進行多粒度的語義標注的缺陷,另一方面,還能對視頻鏡頭語義之間彼此依賴的關(guān)系信息進行分析并應(yīng)用于場景語義的推理。
參考文獻:
[1] Cheng Y, Xu D, Content-based semantic associative video model [C]. 2002 6th International Conference on Signal Processing: IEEE, 2002:727-730.
[2]Yong C, De X U. Hierarchical semantic associative video model [C]. Proceedings of the 2003 International Conference on Neural Networks and Signal Processing: IEEE, 2003:1217-1220.
[3] Unel G, Donderler M E, Ulusoy O, et al. An efficient query optimization strategy for spatio-temporal queries in video databases [J]. Journal of Systems and Software, 2004, 73(1):113-131.
[4] Carneiro G, Chan A B, Moreno P J, et al. Supervised learning of semantic classes for image annotation and retrieval [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(3):394-410.
[5] Hu W, Xie N, Li L, Zeng X, et al. A survey on visual content-based video indexing and retrieval [J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 2011, 41(6):797-819.
[6] Jiang H, Zhang M. Tennis video shot classification based on support vector machine [C]. 2011 IEEE International Conference on Computer Science and Automation Engineering (CSAE): IEEE, 2011:757-761.
[7] Yuan X, Lai W, Mei T, et al. Automatic video genre categorization using hierarchical SVM[C]. 2006 IEEE International Conference on Image Processing: IEEE, 2006:2905-2908.
[8] Yuan Y, Song Q B, Shen J Y. Automatic video classification using decision tree method [C]. 2002 International Conference on Machine Learning and Cybernetics: IEEE, 2002:1153-1157.