李 敏,劉 恒
(1.中國工程物理研究院五所,四川 綿陽621000;2.綿陽師范學院 數(shù)學與計算機科學學院,四川 綿陽621000;3.西南科技大學 信息學院,四川 綿陽621008)
將視頻信息進行抽象,用自然語言來進行描述和表達越來越受到重視,此項技術的基礎是建立合理的視頻語義模型。韓國的Lee[1]提出了視頻語義模型,表達了視頻的語義,他根據(jù)視頻的知識數(shù)據(jù)庫劃分了五層結構模型。Lilac[2]提出了基于在線事件結構的語義數(shù)據(jù)模型,可以充分表示視頻文件的各種解釋。這些探索的應用背景都主要是用于視頻檢索,并未用于對人類的行為理解。目前,視頻中人體行為理解采用的技術主要有3種:基于模版匹配的方法,基于狀態(tài)空間的方法,基于語義描述的方法。模版匹配法計算復雜度低,操作和實現(xiàn)簡單,但對噪聲以及運動時間間隔的變化相當敏感;狀態(tài)空間法對噪聲不敏感,但是該方法提取每一幀特征矢量之前都要做復雜的處理,同時行為理解要用到的迭代算法也非常復雜。目前在基于語義模型的人類行為理解的研究中,對場景敏感度關注還比較少,同時比較系統(tǒng)的完整用于人類行為理解的視頻語義模型的研究也很少。
本文提出了一種八元組視頻語義模型,該模型既考慮了場景的層次語義,又融入了三維人體語義運動模型,同時采用了分析和綜合的邏輯方法,能夠較好的克服目前人體行為理解中缺乏場景敏感度和視頻中人體各部位遮擋的問題,能夠同時滿足詳細描述視頻信息和簡單概括視頻所描述的事件的要求。
對于視頻信息提供的信息,人們的主要有兩個訴求:一是視頻數(shù)據(jù)各要素,各層次各片段單獨傳遞的信息;二是對一段視頻的統(tǒng)一的,概括的,整體的認識。建立視頻語義模型包括以下要素[3],如圖1所示。
圖1 層次化語義模型要素
在新聞學中,人們提出了6要素的觀點,時間,地點,人物,起因,經過,結果。這6個要素可以比較完整的把一個事件表述清楚,而在獲取這6個要素的過程中又必須對視頻數(shù)據(jù)各要素,各片斷進行詳細分析,本文考慮了層次化語義模型設計的要求,同時借鑒了新聞的六要素,并加入了關系和推理兩個元素,從而構成了視頻語義模型的八元組表示方法。
設有視頻語義集合
L={L0,L1,L2,…,Li}
Li代表視頻中的一個語義節(jié)點;
定義1
Li={U,V/N,W/M,X/O,Y/P,Z/Q,C,D}其中U={Ts,Te}表示視頻觀測的起始和結束時間;
V表示視頻觀察時間段的地點實物
定義2
V=(S,vid,T,F(xiàn)1,F(xiàn)2,G1,G2,φ,λ)
W表示視頻觀察時間段的人物
W=(S,wid,T,F(xiàn)1,F(xiàn)2,G1,G2,φ,λ,action)
X表示事件起因的集合,X={x0,x1,…,xn};
Y表示事件經過的集合,Y={y0,y1,…,yn};
Z表示事件結果的集合,Z={z0,z1,…,zn};
O,P,Q均是n×n矩陣,表示各自集合元素之間的約束關系。
C表示語義節(jié)點之間的關系,包括空間關系和時間關系;
設A,B是兩個語義單元,空間關系表示為:
CS(A,B),CS∈{上,左,前,之間,包含}
時間關系表示為:
CT(A,B),CT的表達式樣如圖2所示[4]。
圖2 時間的邏輯關系
D表示語義節(jié)點之間的推理關系,包括分類推理,歸納推理,分析與綜合推理。分類推理把無規(guī)律的事物分為有規(guī)律的按照不同的特點分類事物,使事物更有規(guī)律;歸納一種推理方法,由一系列具體的事實概括出一般原理;分析是將研究對象的整體分為各個部分、方面、因素和層次,并分別地加以考察的認識活動;綜合是把分析過的對象或現(xiàn)象的各個部分、各個屬性聯(lián)合成一個統(tǒng)一的整體。
V=(S,vid,T,F(xiàn)1,F(xiàn)2,G1,G2,φ,λ)表示視頻觀察時間段的地點實物:S是單元狀態(tài)身份,vid是該實物語義點的身份,T是該實物觀測時間的三元組(vid,ts,te),F(xiàn)1是實物的靜態(tài)性質,G1是這些值的具體取值,F(xiàn)2是實物的動態(tài)性質,φ是性質轉化操作,λ是時間段轉換操作。
例如,視頻場景中有二輛汽車,在實物語義節(jié)點中的描述如下
(S,1,T,F(xiàn)1,F(xiàn)2,G1,G2,φ,λ)
φ1(color)
S={s1,s2…}是一系列單元狀態(tài)
T={[1,1,5],[1,6,8],[2,1,5]…}是一系列實物出現(xiàn)的時間點;
F1={color,length,wide,high,…};
F2={speed,track,brake,…};
G1={藍,2.8,1.7,1.6};G2={30,line,0};
φ1(color)=藍,φ2(length)=2.8,φ3(speed)=30
λ(s1)=[1,1,5],λ(s2)=[1,6,8]
W=(S,wid,T,F(xiàn)1,F(xiàn)2,G1,G2,φ,λ,action)表示觀察時間段的人物,前九個元素和場景中的實物描述一致,但是人體是復雜的運動體,場景中的行為理解非常重要也是非常復雜的是人的動作描述,為此加入action單元進行單獨描述,文中采用了三維人體運動語義模型來進行描述。
圖3所示為一個典型人體三維骨骼模型[5],
其局部節(jié)點坐標與全局節(jié)點坐標系之間的關系可以由以下式 (1)確定
圖3 人體三維骨骼模型
計算人體上每個點在模型坐標系中的坐標,可以先計算它在相應局部坐標系中的坐標,然后進行坐標變換得到全局坐標。
通過運動鏈來表達每個點的3D坐標跟各旋轉角關系,各點在全局坐標系中的位置可以用以下公式求出:(1)頸部關節(jié)點在全局坐標系中的位置
其中THHR為頸部到根節(jié)點的初始位移。
(2)左下肢各關節(jié)點在全局坐標系中位置
其中PLH,PLK,PLA,PLF分別代表左臀點,左膝點,左踝點以及左腳點,T(tx,ty,tz)為根節(jié)點到世界坐標系原點的位移,Rix為第i個節(jié)點繞x的旋轉矩陣,Riy,Riz同理。TLHR,TLKH,TLAH,TLFH分別代表坐臀部到根節(jié)點的初始平移、左膝蓋到左臀節(jié)點的初始平移、左踝部到左膝蓋的初始平移和左腳部到左踝部的初始平移。
同理可求出右下肢,左上肢,右上支各關節(jié)點在全局坐標系中的位置。
根據(jù)運動語義模型的定義,對關節(jié)點標注后的人運動圖像進行檢測,得到各關節(jié)點的位置變化值ηi(i=1,2,3…)分別表示頭、左右臀點、左右膝點、左右踝點、左右肘點、左右肩點、質心高度、運動軌跡變化等。當ηi≥Mij(Mij為閥值)時,則稱人體運動事件發(fā)生,否則是干擾。
人的行為理解實現(xiàn)取決于兩個因素,一是圖像序列特征的完整提取,主要包括、顏色、紋理、形狀、長寬比等。經過多年的發(fā)展以及MPEG-7等技術的出現(xiàn),目前在圖像序列的特征提取上技術已經相對比較成熟[6,7];二是完善的視頻語義知識庫的建立,這是一項非常艱巨和有挑戰(zhàn)的工作。視頻語義知識數(shù)據(jù)庫由兩部分組成,包括語義知識庫和語義數(shù)據(jù)庫,它們分別管理著不同項目和操作。語義知識庫記錄語義的構成方法原理和規(guī)則。語義數(shù)據(jù)庫則重點記錄基礎數(shù)據(jù)對應的簡單語義以及生成語義操作時的方式、情形、條件和數(shù)據(jù)等信息。知識數(shù)據(jù)庫是通過反饋式系統(tǒng)來豐富、修正和完善,如圖4所示。
圖4 八元組語義知識數(shù)據(jù)庫操作流程
語義知識數(shù)據(jù)庫的整體操作包括兩個方面的內容,根據(jù)特征數(shù)據(jù)進行語義查找和人工交互進行語義知識庫和語義數(shù)據(jù)庫的記錄增加。語義檢索成功則返回語義記錄,檢索失敗,則進行知識庫信息添加和數(shù)據(jù)庫信息的添加。
在視頻圖像序列中,事物是構成場景的全部元素,這些事物之間有存在著各種約束關系,語義樹結構被用來存儲這些事物,語義樹的葉節(jié)點存儲的是最終的具體事物的靜態(tài)圖像特征數(shù)據(jù)。
圖5 場景靜態(tài)數(shù)據(jù)的語義樹存儲方法
圖5 中大致描繪了場景事物的劃分,記錄添加時,則根據(jù)對事物的劃分,對語義數(shù)進行搜索,找到合適的位置進行具體實物的基本特征的記錄添加。當進行事物查找時,則從最底層的特征數(shù)據(jù)進行逆向查詢,從而一層一層獲取事物的高層語義,最后得到事物的高層的抽象分類及抽象語義。以人類為例子,從其圖像底層的外形,紋理,顏色,長寬比,可以得到其為,人類,自然事物,以及更為詳細的層次分類屬性。
人體運動包括簡單動作,組合動作以及人與人之間的相互動作。簡單動作是單個關節(jié)點運動事件的語義描述,組合動作是多個關節(jié)點組合運動事件的語義描述,人與人之間的相互動作指多個人的組合動作,比如擁抱、握手、打架、集會等。
組合動作及人與人之間的相互動作由簡單語義計算而來。定義語義邏輯運算符如下:
~ (非)、∧ (與)、∨ (或)、 (所 有)、- (存在)、 (滿足規(guī)定的條件)
根據(jù)三維人體語義模型建立原始記錄,使用人機交互接口來完成原始記錄的錄入。
事物之間的關系包括空間關系,層次關系,集合關系等。將這些合理的關系規(guī)則存儲起來,可以推理出場景的情況,以及場景的異常情況,同時也是對人的行為理解的重要依據(jù)。以事物之間的空間關系為例:
同理,事件之間的因果關系規(guī)則也作為基本的推理規(guī)則被存儲在數(shù)據(jù)庫中。
圖6中描述了視頻事件1的語義描述獲取,同理可以得到事件2,事件3,事件n的語義符號描述,再根據(jù)事件的因果規(guī)則,事件的事件規(guī)則推理,從而得到人體行為整個事件序列的完整理解與描述。
圖6 人體行為理解流程
對于人體運動關節(jié)點的跟蹤,使用的是改進的粒子濾波框架下的先跟蹤后檢測算法 (PF-TBD)[8],詳細實現(xiàn)過程在作者的另一篇論文中介紹,大致過程描述如下:
第二步:預測和更新粒子狀態(tài)變量。
第三步:計算粒子重要權值,按照式 (8)進行。
第四步,標準化的重要樣本被重新采用。
為了推測視頻的場景語義,需要對場景實物進行檢索,然后與場景靜態(tài)數(shù)據(jù)庫進行比對,從而推測場景語義。顏色的直方圖和顏色的層次描述被集合在一起去實現(xiàn)一個基于內容的圖像檢索系統(tǒng) (CBIR)。
設查找圖像P和數(shù)據(jù)庫圖像Q之間直方圖的歐幾里德距離為,顏色層次的歐幾里德距離為輪廓距離,總的權值由公式 (9)來計算
其中的聯(lián)合系數(shù)通過訓練樣本得到。
為了完善數(shù)據(jù)庫,需要選用大量視頻樣本,本文選擇的實驗樣本來自于中國科學院生物識別與安全技術研究中心 (CBSR)[9]。
定義:正面俯視300(top view)縮寫為T300,正面觀察(top view)縮寫為T,頂部俯視 (look down)縮寫為LD。
選取的樣本情況如圖7所示,每種訓練樣本選擇5組。
圖7 典型視頻樣本的選取
測試樣本選擇停車場作為場景,每種測試樣本選擇5組,分類規(guī)則和4.1一致。圖8是其中一個測試樣本。
按照圖6的處理流程,其中η都是經過了歸一化處理。部分實驗數(shù)據(jù)如圖9所示。
就目前來看,人體行為識別主流的比較成熟的技術是基于上下文無關 (Context Free Grammar-CFG)的行為識別方法[10],該方法與文中的方法進行了比較,為了準確的進行比較,另種方法輸入了相同的樣本,實驗比較情況見表1、表2。
從實驗結果比較可以看出,基于八元組視頻語義模型的識別率高于CFG約9%,并且在場景語義描述,事件整體描述上具有CFG所不具備的功能,整體性能明顯優(yōu)于基于CFG的行為識別方法。
圖8 三個角度的測試序列
圖9 部分測試序列的實驗結果
基于八元組視頻語義模型能夠跨越圖像識別的語義鴻溝,可以結合場景語義對整個視頻事件進行描述,該描述滿足人類對事件理解的各種要素。該模型和算法的識別效果整體性能都由于CFG算法。
將來的工作將致力于:大樣本訓練的并行處理方法,因為樣本直接影響到整體效果,應該研究并行計算提高樣本的訓練效率;模型算法應考慮對人的身份的識別。
表1 八元組視頻語義模型實驗結果
表2 基于CFG實驗結果
[1]Jia Ling koh,Chin Sung Lee,Arbee L P chen.Semantic video model for content-based retrieval[D].National Taiwain Normal University,2006:166-198.
[2]Lilac A E,A l Safadi.Semantic modeling for video content system[J].Computer Magazine,2010:132-139.
[3]Thanthry N,Emmuadi I,Srikumar A,et al.SVSS:Intelligent video surveillance system for aircraft[J].IEEE Aerospace and Electronic Systems Magazine,2009,24 (10):23-29.
[4]Dang Tuan Nguyen.A semantic model for building the vietnamese language query processing framework in e-library searching application[C]//Second International Conference on Machine Learning and Computing,2010:179-183.
[5]LI Zhenbo,LI Hua.3Dhuman movement model based movement biomechanics[J].System Simulation Journal,2006,18(10):2992-2994 (in Chinese).[李振波,李華.基于運動生物力學的三維人體運動模型[J].系統(tǒng)仿真學報,2006:18(10):2992-2994.]
[6]Jia S,Kong X,F(xiàn)u H,et al.Auto classification of product images based on complementary features and class descriptor[J].Journal of Electronics and information,2010,10 (1):2294-2300.
[7]JIA Shijie,GU Yuesheng,ZENG Jie.Combining multiple SVM classifiers for product images classification:A comparative study[J].International Journal of Digital Content Technology and its Applications,2011,5 (10):1-10.
[8]LIU Bo,LI Min.Detection of infrared moving small target by TBD algorithm based on particle filter[J].International Journal of Digital Content Technology and its Applications,2012:98-107.
[9]LI Ziqin.Behavior analysis database[CD].Center for Biometrics and Security Research the Institute of Automation,Chinese Academy of Sciences,2010 (in Chinese).[李子青.行為分析數(shù)據(jù)庫[CD].中科院生物識別與安全技術研究中心,2010.
[10]Ryoo M S,Aggarwal J K.Recognition of composite human activities through context-free grammar based representation[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006:1153-1160.