柳 恭,劉 龍
(蘇州大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 蘇州215006)
復(fù)雜交通場(chǎng)景中行人與車輛的行為分析一直是復(fù)雜動(dòng)態(tài)場(chǎng)景行為分析的一個(gè)非常重要的研究領(lǐng)域。目前學(xué)者對(duì)行為分析中語(yǔ)義信息提取主要是借助視頻低層特征,生成視覺(jué)單詞,而后采用類似文本的語(yǔ)義建模方法進(jìn)行行為的語(yǔ)義建模。該方法首次由Csurka等人[1]將詞袋引入計(jì)算機(jī)視覺(jué)領(lǐng)域,而后引起了學(xué)者的廣泛研究。如以稀疏時(shí)空興趣點(diǎn)作為時(shí)空局部特征的方法[2],基于視覺(jué)機(jī)制的視頻局部運(yùn)動(dòng)信息提取方法[3],基于興趣點(diǎn)跟蹤的稠密運(yùn)動(dòng)軌跡表示的運(yùn)動(dòng)信息提取[4],關(guān)注時(shí)空興趣點(diǎn)的空間位置分布的語(yǔ)義高層特征提取方法[5],基于在線判別字典學(xué)習(xí)算法的視覺(jué)詞典生成方法[6]等。而復(fù)雜交通場(chǎng)景的分析采用基于光流產(chǎn)生的目標(biāo)移動(dòng)方向特征量化構(gòu)建,同時(shí)也出現(xiàn)了高層語(yǔ)義建模的擴(kuò)展研究[7-9]。
Wang[7]等人將視頻序列劃分為一些短片段 (類似于文檔),并基于像素塊運(yùn)動(dòng)特征方向 (單詞)進(jìn)行量化,而提出一個(gè)層次主題模型,主要應(yīng)用于解決高空復(fù)雜街道視頻場(chǎng)景[7-9]。Kuettel等人[9]以及 Wang等人[7]都是在光流分析基礎(chǔ)之上建立視覺(jué)單詞模型,因此稱之為Flow視覺(jué)單詞模型。這種Flow視覺(jué)單詞模型主要提取空間特征及方向特征,由于僅包含空間信息以及方向信息,由于該單詞未包含運(yùn)動(dòng)的速度信息,無(wú)法表示目標(biāo)運(yùn)動(dòng)的速度。主要不足在于:
(1)復(fù)雜交通場(chǎng)景信息量描述不足[7-9,11]
由于Flow視覺(jué)單詞模型通常只采用固定閾值提取光流強(qiáng)度超過(guò)該閾值的塊進(jìn)行簡(jiǎn)單的方向量化而成,這一過(guò)程丟失了場(chǎng)景中目標(biāo)運(yùn)動(dòng)過(guò)程的速度信息,從而造成場(chǎng)景行為過(guò)程分析不精確。
(2)目標(biāo)暫停造成視覺(jué)單詞丟失[8-11]
Flow視覺(jué)單詞模型在單詞建立過(guò)程不記錄特定目標(biāo)跟蹤信息,無(wú)法表達(dá)目標(biāo)運(yùn)動(dòng)過(guò)程的暫停信息,因此當(dāng)目標(biāo)暫停時(shí),目標(biāo)的視覺(jué)單詞丟失,造成運(yùn)動(dòng)目標(biāo)丟失,行為分析過(guò)程無(wú)法建模該部分信息。
本文針對(duì)Flow視覺(jué)單詞模型存在的上述問(wèn)題,設(shè)計(jì)了v-flow視覺(jué)單詞即包含{空間,速度,方向,暫停}。該方法在保留Flow視覺(jué)單詞方向信息的基礎(chǔ)上,添加速度信息和上下文運(yùn)動(dòng)暫停信息,以改善復(fù)雜交通場(chǎng)景中行為分析的精確性。在復(fù)雜交通場(chǎng)景中的實(shí)驗(yàn)證明,該詞袋能夠較完整的表達(dá)復(fù)雜交通場(chǎng)景中的目標(biāo)行為語(yǔ)義。
基于Flow視覺(jué)單詞模型,本文提出一種由空間、方向和速度3種信息構(gòu)成的新的視覺(jué)單詞模型。由于添加速度信息和上下文運(yùn)動(dòng)暫停信息,復(fù)雜交通場(chǎng)景中行為分析的精確性得到進(jìn)一步的提高。下面分別介紹v-flow視覺(jué)單詞模型中基本特征信息的描述以及單詞生成的步驟。
本文在視覺(jué)單詞中添加速度信息維度。由于無(wú)法直接預(yù)估光流強(qiáng)度的取值范圍,無(wú)法有效臨一個(gè)間隔選取問(wèn)題。為了獲得一個(gè)規(guī)模適當(dāng)?shù)膯卧~集合,對(duì)于速度維連續(xù)數(shù)據(jù)空間的離散化可以映射為一個(gè)如何有效進(jìn)行自適應(yīng)聚類的問(wèn)題,將聚出的類別設(shè)定為一個(gè)離散化間隔區(qū)間。因此速度信息的離散化求解就轉(zhuǎn)換為基于半監(jiān)督無(wú)限混合高斯模型的一個(gè)聚類問(wèn)題,所求解的離散化區(qū)間就是混合高斯模型的一個(gè)組件。離散化問(wèn)題的映射模型為
其中uj、sj分別為組件j的均值和方差,πj為其混合系數(shù),其中N為高斯分布,其中k為混合組件數(shù)即單詞個(gè)數(shù),在該模型中k趨向于無(wú)窮大 (在實(shí)際實(shí)驗(yàn)中一般設(shè)置k為一個(gè)較大值即可),模型通過(guò)吉布斯采樣的方法來(lái)自動(dòng)生成混合組件個(gè)數(shù)。其中的某一數(shù)據(jù)ci屬于j類的后驗(yàn)概率為
其中組件的合并概率為
對(duì)其求解可以通過(guò)吉布斯采樣,構(gòu)建采樣鏈,即采用MCEM算法迭代求解直至收斂。其中組件聚焦參數(shù)α影響新類生成個(gè)數(shù),通常保證α/(n+α)的值控制在0.4%左右,其中n為數(shù)據(jù)個(gè)數(shù)。β為形狀參數(shù),為控制其個(gè)數(shù)較為有效的參數(shù),通常選定為5-6之間。當(dāng)聚焦參數(shù)α變大,聚類個(gè)數(shù)會(huì)變少。當(dāng)β值變大時(shí),高斯形狀會(huì)變得扁平,聚類個(gè)數(shù)開(kāi)始下降。其中收斂終止條件通常采用固定迭代次數(shù)的方法,本文中結(jié)束條件為迭代1000次。其算法下所示。
輸入:速度值樣本數(shù)據(jù)點(diǎn)1:N輸出:聚類中心開(kāi)始For n=1:N依據(jù)式 (2)、式 (3)采樣當(dāng)前數(shù)據(jù)點(diǎn)i End更新組件數(shù)k更新混合組件權(quán)重πj=Nj/(N+α)更新未知組件權(quán)重π=α/(N+α)For j=1:k更新uj更新sj End迭代直至收斂
在實(shí)現(xiàn)離散化后,我們按照速度值從小到大的順序,將速度信息分為慢速、中速和高速幾大類,現(xiàn)記作V={vlow,vmoderate,vhogh}。經(jīng)過(guò)大量試驗(yàn)即將生成的速度離散化信息回寫畫面,我們發(fā)現(xiàn)慢速通常為行人運(yùn)動(dòng)速度或者是車輛等較大較快目標(biāo)即將停止前的運(yùn)動(dòng)速度,中速為大部分車輛等運(yùn)動(dòng)目標(biāo)通常行駛條件下的運(yùn)動(dòng)速度,高速為車輛的運(yùn)動(dòng)目標(biāo)在接近或超過(guò)正常行駛的運(yùn)動(dòng)速度,超高速點(diǎn)數(shù)極少,通常發(fā)生在車輛運(yùn)動(dòng)過(guò)程中,回溯畫面我們可以此類單詞通常為運(yùn)動(dòng)目標(biāo)行駛過(guò)快,可以認(rèn)為是運(yùn)動(dòng)目標(biāo)超速行駛的異常事件。
在復(fù)雜交通場(chǎng)景中,運(yùn)動(dòng)目標(biāo)在運(yùn)動(dòng)過(guò)程中可能會(huì)減速到靜止,然后繼續(xù)運(yùn)動(dòng)。這種行為是一種比較普遍的現(xiàn)象,但傳統(tǒng)的視覺(jué)單詞建模無(wú)法表達(dá)該信息[7-9],因此一個(gè)運(yùn)動(dòng)目標(biāo)的行為在停止之后繼續(xù)停止之前的行為通常被識(shí)別成兩個(gè)不同的行為軌跡。為了解決這種運(yùn)動(dòng)目標(biāo)中間停止缺乏信息描述的問(wèn)題,專門增加停詞信息來(lái)描述運(yùn)動(dòng)目標(biāo)的這種狀態(tài)信息,現(xiàn)記作V={vstop}。
通過(guò)對(duì)運(yùn)動(dòng)目標(biāo)運(yùn)動(dòng)停止過(guò)程的狀態(tài)分析,發(fā)現(xiàn)目標(biāo)以一定的速度運(yùn)動(dòng)到停止過(guò)程實(shí)質(zhì)是一個(gè)從較高光流值下降到低光流值的過(guò)程,在即將停止時(shí)刻幀圖像會(huì)產(chǎn)生一個(gè)全低速光流區(qū)域塊。因此,如果某一塊聯(lián)通區(qū)域的光流值在t1時(shí)刻均從屬于低速點(diǎn),則向前遍歷t-PRE幀,如果此幀存在中高速點(diǎn),則此幀對(duì)應(yīng)區(qū)域被設(shè)定為觀察區(qū)域,在后續(xù)幾幀的觀察區(qū)域中如果發(fā)現(xiàn)低速區(qū)域丟失,則將該設(shè)定區(qū)域標(biāo)識(shí)為停詞區(qū)域,即目標(biāo)可能從運(yùn)動(dòng)變成暫時(shí)靜止。為了其連續(xù)性,如果前一幀為停詞且當(dāng)前速度仍小于低速閾值vT,則繼續(xù)標(biāo)為停詞。其停詞定義為
為了便于比較提出的v-flow視覺(jué)單詞生成算法在行為分析中的性能,本文選擇數(shù)據(jù)集 Hospedales ICCV09[10]作為實(shí)驗(yàn)數(shù)據(jù)集。該數(shù)據(jù)庫(kù)截取自倫敦某街道岔口的交通視頻,視頻畫面大小為360(288,25幀每秒,視頻時(shí)長(zhǎng)2小時(shí)。該數(shù)據(jù)集由文獻(xiàn)[10]第一次引用,后期該領(lǐng)域的相關(guān)文獻(xiàn)[7-10]等均引用該數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析。選擇該數(shù)據(jù)集可以比較方便與現(xiàn)有的相關(guān)文獻(xiàn)的方法進(jìn)行對(duì)比,同時(shí)由于該數(shù)據(jù)集相對(duì)較典型,容易進(jìn)行量化分析。為了充分驗(yàn)證提出的v-flow視覺(jué)單詞生成算法對(duì)復(fù)雜交通場(chǎng)景中不同行為信息的描述,本實(shí)驗(yàn)采樣將交通場(chǎng)景行為聚類訓(xùn)練結(jié)果數(shù)據(jù)回寫畫面進(jìn)行一個(gè)直觀的驗(yàn)證。本文采用與Kuettel等人方法[8]中相同模型 (HDP模型)進(jìn)行一個(gè)直觀的比較。在模型訓(xùn)練過(guò)程中,HDP模型中超參均采用相同參數(shù),參數(shù)設(shè)置與文獻(xiàn)[8]中的設(shè)置一致,迭代次數(shù)均采用1000次以保證算法完全收斂。在訓(xùn)練完成后,對(duì)訓(xùn)練模型中生成的主題回寫到訓(xùn)練視頻幀畫面中進(jìn)行一個(gè)直觀的對(duì)比,實(shí)驗(yàn)結(jié)果如圖1和圖2所示。圖1中畫面交通線路圖給出了這個(gè)點(diǎn)場(chǎng)景中存在的行為軌跡,從圖1中可以看出,Kuettel等人方法[8]聚類結(jié)果為7類,其中1、2、3、4類分別為車輛在主干道上的行駛路線。5、6、7為行人路線。
本文提出的算法聚類效果如圖2所示,其方向箭頭表示停止前其目標(biāo)的運(yùn)動(dòng)方向。從圖2中可以看出,提出的v-flow算法聚類個(gè)數(shù)為16個(gè),同時(shí)從表3也可以看出,Kuettel等人方法[8]中的每一個(gè)類都能在v-flow算法中找到相關(guān)類,同時(shí)v-flow算法可以看到更多原本無(wú)法表示的一些數(shù)據(jù)信息,如v-flow算法的2與Kuettel等人方法[8]的1相比,可以發(fā)現(xiàn)車輛運(yùn)動(dòng)過(guò)程中在左上角末端區(qū)域,車速漸漸開(kāi)始下降,同時(shí)有一定的停滯現(xiàn)象,同時(shí)從v-flow算法7、11、13畫面可以看到該交通區(qū)域中左半?yún)^(qū)域道路呈現(xiàn)出了較大的紅色區(qū)域,即存在較嚴(yán)重的交通擁堵情況,回溯原實(shí)驗(yàn)幀畫面進(jìn)行驗(yàn)證,在第800、41062、44360、69262幀畫面出均出現(xiàn)了較嚴(yán)重的擁堵事件,其對(duì)應(yīng)幀畫面如圖3所示。同時(shí)可以從圖2畫面中發(fā)現(xiàn)一些關(guān)于行人過(guò)馬路時(shí)的細(xì)節(jié)信息。從v-flow算法畫面4中可以看到在馬路兩旁行人行走路徑中,行人的速度為綠色即慢速行走,在道口過(guò)馬路時(shí)為黃色即中速行走,這與現(xiàn)實(shí)中行人在過(guò)馬路時(shí)會(huì)加快自己的行進(jìn)速度的現(xiàn)象相吻合,同時(shí)在畫面3、6、15中可以看到在人行道上存在少量的藍(lán)色運(yùn)動(dòng)箭頭,回溯試驗(yàn)畫面,我們發(fā)現(xiàn)在第19612、64237、75112、37462幀等處均發(fā)現(xiàn)有行人快速穿行馬路,其對(duì)應(yīng)幀如圖4所示,畫面中均有一個(gè)或多個(gè)人行走速度較快,和多數(shù)行人相比行走速度較快。如上述分析所示我們可以發(fā)現(xiàn)本文方法可以解決目標(biāo)運(yùn)動(dòng)過(guò)程中運(yùn)動(dòng)速度細(xì)節(jié)信息,運(yùn)動(dòng)停止信息完整的表達(dá)出來(lái),而這是以前方法無(wú)法實(shí)現(xiàn)的。聚類結(jié)果相似類別人工對(duì)應(yīng)表見(jiàn)表1。
圖1 Kuettel等人方法[8]行為分析實(shí)驗(yàn)結(jié)果
表1 聚類結(jié)果相似類別人工對(duì)應(yīng)表
上述實(shí)驗(yàn)將本文提出v-flow視覺(jué)單詞于傳統(tǒng)的flow視覺(jué)單詞進(jìn)行在復(fù)雜交通場(chǎng)景行為分析的對(duì)比。從對(duì)比中可以得出如下結(jié)論,相比于傳統(tǒng)的flow視覺(jué)單詞本文的vflow視覺(jué)單詞能夠?qū)?fù)雜場(chǎng)景中行為進(jìn)行更多細(xì)節(jié)的建模,能夠?qū)\(yùn)動(dòng)目標(biāo)的速度信息進(jìn)行一個(gè)較為合理的表達(dá),其離散化結(jié)果與實(shí)際運(yùn)動(dòng)狀態(tài)結(jié)構(gòu)具有一定匹配度。通過(guò)利用目標(biāo)運(yùn)動(dòng)上下文速度信息,引入目標(biāo)暫停標(biāo)注,能夠有效的建模場(chǎng)景目標(biāo)的暫停信息。從畫面上可以得到本文算法能夠?qū)\(yùn)動(dòng)過(guò)程中細(xì)節(jié)信息進(jìn)行更加具體的表述而非僅僅一個(gè)軌跡方向。在一定層度上解決了文獻(xiàn)[8-11]中無(wú)法描述運(yùn)動(dòng)過(guò)程的速度信息以及目標(biāo)暫停造成的零速目標(biāo)丟失問(wèn)題。
圖2 v-flow視覺(jué)單詞行為分析實(shí)驗(yàn)結(jié)果
圖3 較嚴(yán)重的擁堵事件回溯幀
圖4 行人快速穿馬路時(shí)間回溯幀
本文提出的v-flow視覺(jué)單詞算法通過(guò)自適應(yīng)速度量化算法以及非基于跟蹤的目標(biāo)暫停自動(dòng)標(biāo)注算法加入速度信息以及目標(biāo)暫停上下文信息,解決了Kuettel等人方法[7-11]中缺乏目標(biāo)運(yùn)動(dòng)信息,目標(biāo)零速丟失問(wèn)題,復(fù)雜行為鑒別信息不足的問(wèn)題。在今后的研究中可以基于視覺(jué)中的連續(xù)特征,將視覺(jué)單詞進(jìn)行一定的軟化以及對(duì)軟化的單詞進(jìn)行主題建模的結(jié)合,減少目標(biāo)建模過(guò)程中的信息損失。同時(shí)針對(duì)視點(diǎn)移動(dòng)情況下,在視覺(jué)單詞中如何攜帶較準(zhǔn)確的空間信息也是一個(gè)非常值得研究的課題。
[1]Yang Y B,Pan L Y,Gao Y,et al.Visual word coding based on difference maximization[J].Neurocomputing,2013.
[2]Chakraborty B,Holte M B,Moeslund T B,et al.Selective spatio-temporal interest points[J].Computer Vision and Image Understanding,2012,116 (3):396-410.
[3]Escobar M J,Kornprobst P.Action recognition via bio-inspired features:The richness of center-surround interaction[J].Computer Vision and Image Understanding,2012:593-605.
[4]Wang H,Klaser A,Schmid C,et al.Action recognition by dense trajectories[C]//Colorado:IEEE Conference on Computer Vision and Pattern Recognition,2011:3169-3176.
[5]Yan X S,Luo Y P.Recognizing human actions using a new descriptor based on spatial-temporal interest points and weighted-output classifier[J].Neurocomputing,2012,87 (15):51-61.
[6]WANG Bin,WANG Yuanyuan,XIAO Wenhua,et al.Human altion recognition based on discrimination sparse coding video Repres[J].Robot,2012,34 (6):745-750 (in Chinese).[王斌,王媛媛,肖文華,等.基于判別稀疏編碼視頻表示的人體動(dòng)作識(shí)別[J].機(jī)器人,2012,34 (6):745-750.]
[7]Wang X,Ma X,Grimson E.Unsupervised activity perception by hierarchical Bayesian models[C]//Minnesota,USA:Proc of IEEE Computer Society Conference on Computer Vision and Patter Recognition,2007:1-8.
[8]Kuettel D,Breitenstein M,Gool L V,et al.What's going on?Discovering spatio-temporal dependencies in dynamic scenes[C]//In CVPR,2010:1951-1958.
[9]Wang X,Ma X,Grimson E.Unsupervised activity perception in crowded and complicated scenes using hierarchical Bayesian models[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009 (31):539-555.
[10]Hospedales T,Gong S,Xiang T.A markov clustering topic model for mining behavior in video[C]//Florida,USA:IEEE Conference on Computer Vision,2009:1165-1172.
[11]Hospedales T,Gong S,Xiang T.Video beha-viour mining using a dynamic topic model[J].International Journal of Computer Vision,2012,98 (3):303-323.