方朝暉+鐘平
摘要:大范圍視頻中人的行為識別主要面臨視頻場景大、目標小、分辨率低、特征不明顯等難點。充分利用視頻圖像中包含的圖像特征和空-時上下文信息是解決這些難點問題的有效途徑。隱條件隨機場模型(HCRF)包含的隱變量層使其具有豐富的表示能力,同時自身還具有統(tǒng)一對觀察圖像和標記中的上下文信息建模的能力。因此將HCRF模型引入大范圍視頻中人的行為識別,重點研究通過l_2和l_1正則化訓(xùn)練方法得到的HCRF模型在解決過擬合和實現(xiàn)稀疏化時的性能。在此基礎(chǔ)上,引入l_(1/2)正則化訓(xùn)練方法,提出新的面向人的行為識別的HCRF模型,進一步提高模型的稀疏化和識別性能。利用典型的大范圍視頻數(shù)據(jù)庫UT-TOWER對研究的方法進行了全面測試,實驗結(jié)果驗證了提出的l_(1/2)正則化HCRF模型在提高識別正確率、模型稀疏性和計算效率方面的優(yōu)勢。
關(guān)鍵詞:大范圍視頻;人的行為識別;隱條件隨機場
中圖分類號:TP391.1 文獻標識碼:A 文章編號:1007-9416(2017)01-0076-02
近年來,大范圍視頻由于其場景直觀、發(fā)現(xiàn)問題及時、信息量充足、利于取證保存的特點正越來越多地被應(yīng)用于軍事和生活領(lǐng)域。許多發(fā)達國家還針對大范圍視頻的研究,建立了無人機視頻系統(tǒng)、高層建筑視頻監(jiān)控系統(tǒng)等大量的數(shù)據(jù)平臺。而對視頻圖像中的目標進行行為識別,就能夠在不耗費人力資源的情況下從視頻中獲取大量的信息,這是現(xiàn)階段研究大范圍視頻的關(guān)鍵。而且在對視頻中的目標進行行為識別時,往往面臨大范圍視頻場景大、目標小、分辨率低、特征不明顯等難點。充分利用視頻圖像中的空間和時間的上下文信息進行行為建模和識別是解決上述難點問題的有效途徑。
本文主要研究和正則化訓(xùn)練方法對HCRF模型用于大范圍視頻中人的行為識別的影響。在此基礎(chǔ)上研究HCRF模型訓(xùn)練的正則化方法和高效實現(xiàn)。本文接下來的內(nèi)容包括:第二章構(gòu)建面向大范圍視頻中人的行為識別的HCRF模型;第三章研究構(gòu)建的HCRF模型的不同正則化訓(xùn)練方法,并提出新的基于正則化的HCRF模型;第四章利用實際數(shù)據(jù)測試研究方法的性能;第五章對研究工作進行總結(jié)與展望。
1 面向大范圍視頻中人的行為識別的HCRF模型
1.1 HCRF模型的構(gòu)建
面向大范圍視頻中人的行為識別主要實現(xiàn)對輸入的一段包含幀的視頻數(shù)據(jù),估計其包含的目標對應(yīng)的行為語義標記x。假設(shè)隱變量序列,HCRF模型構(gòu)建給定觀測數(shù)據(jù),語義標記和隱變量的聯(lián)合后驗概率為
其中每個h_j,j∈[1,m]屬于隱標記空間H,隱變量它可能表示的是視頻各幀所對應(yīng)的基元動作類型,φ(x,h,y;θ)為定義在基團上的勢函數(shù),θ為模型(勢函數(shù))中包含的模型參數(shù)利用公式(1),可以得到給定觀察數(shù)據(jù),對應(yīng)的標記的后驗概率為
結(jié)合大范圍視頻圖像的特點,本文定義的勢函數(shù)為
其中V1表示視頻幀節(jié)點特征向量的元素索引,V2表示無向圖中邊特征向量的元素索引,f(1,l),f(2,l)表示節(jié)點特征和雙位置邊特征的提取函數(shù),θ(1,l),θ(2,l)∈θ分別表示節(jié)點參數(shù)和邊參數(shù)。特征函數(shù)f_1在模型中依賴于單隱變量,特征函數(shù)f2則依賴于兩個隱變量。
1.2 HCRF模型的訓(xùn)練
給定包含個訓(xùn)練樣本的訓(xùn)練集,HCRF模型訓(xùn)練就是估計使如下目標函數(shù)極大的模型參數(shù):
(4)式中表示的是對數(shù)似然函數(shù),R(θ)是正則化項,由參數(shù)(θ)的先驗分布構(gòu)建。利用梯度法尋找最優(yōu)的參數(shù)值,關(guān)鍵是計算似然函數(shù)項和正則化項關(guān)于參數(shù)的梯度。
經(jīng)過推導(dǎo),似然函數(shù)L_i (θ)關(guān)于θ_(1,l)的偏導(dǎo)數(shù)為:
似然函數(shù)L_i (θ)對θ_(2,l)求偏導(dǎo)為:
(5)式和(6)式中的各項邊緣概率可以通過置信度傳播方法(BP算法)高效計算。
1.3 HCRF模型的推斷
HCRF模型推斷是給定一個新的測試樣本,利用訓(xùn)練得到的模型參數(shù),通過如下公式得到測試樣本的標記:
其中邊緣分布可由公式(2)和BP算法計算得到。
2 實驗結(jié)果
在采用HCRF對視頻建模之前,實驗采用3DHOG算法提取表述每一視頻幀的圖像特征。另外,HCRF模型中隱變量的狀態(tài)數(shù)也是一個重要的參數(shù)。設(shè)置隱變量的狀態(tài)數(shù)為3,5,7,10,15和20,通過大量實驗表明,當(dāng)隱變量的狀態(tài)數(shù)為10時實驗結(jié)果較優(yōu),因此之后的實驗都采用該設(shè)置。
2.1 不同正則化方法性能比較
當(dāng)HCRF模型的訓(xùn)練過程不包含正則化項時,在UT-Tower數(shù)據(jù)庫上行為識別的準確率為89.81%。推斷錯誤的行為種類比較分散,除c1和c7外,其余都出現(xiàn)了標記錯誤的情況。通過l_2正則化訓(xùn)練得到的HCRF模型的性能:在UT-Tower數(shù)據(jù)庫上行為識別的準確率為91.67%。相比于非正則化的情況,在標記的整體準確率上有著顯著的提高,但出錯的行為類別還是很多,除c1,c3,c7外,其余類別均出現(xiàn)了推斷錯誤的情況。通過l_1正則化訓(xùn)練得到的HCRF模型的性能:在UT-Tower數(shù)據(jù)庫上行為識別的準確率為91.67%。相比于l_2正則化訓(xùn)練得到的HCRF模型,l_1正則化雖然在整體準確率上并沒有顯著提高,但出錯的行為類別數(shù)有明顯的減少,只有c4,c6和c8出現(xiàn)了標記錯誤。提出的l_(1/2)正則化HCRF模型,在UT-Tower數(shù)據(jù)庫上行為識別的準確率為93.52%,相比于l_2和l_1正則化方法來說,其不僅是在整體準確率還是在出錯的行為類別方面,其功能都有著較為明顯的提高。
2.2 正則化參數(shù)對結(jié)果的影響
進一步通過實驗研究正則化參數(shù)對結(jié)果的影響。針對l_2正則化方法,對λ=0.1,0.3,0.5,0.7,0.9等多種情況進行了實驗。針對l_1正則化和l_(1/2)正則化方法,研究了正則化參數(shù)取值為0.01,0.1,0.2,1,10等數(shù)值時的模型性能。從結(jié)果中可以看出:隨著λ的增加,模型的準確率表現(xiàn)出先增后減少的趨勢,l_2正則化方法在λ=0.7左右達到準確率的最大值,而l_1正則化和l_(1/2)正則化方法在λ=0.1左右取得最優(yōu)的結(jié)果。
針對l_1正則化和l_(1/2)正則化,進一步分析訓(xùn)練得到模型的稀疏性,即根據(jù)正則化參數(shù)λ的變化,統(tǒng)計模型中參數(shù)的為零的個數(shù)。結(jié)果表明:在λ值相等的情況下通過l_(1/2)正則化得到的模型的稀疏性要高于通過l_1正則化得到的模型,并且隨著λ值的增加,無論是l_1還是l_(1/2)正則化方法得到的模型會越來越稀疏。針對l_1和l_(1/2)正則化,隨著λ值的增加,模型的參數(shù)越來越稀疏,而準確率卻是先增后減:剛開始的準確率的增加是由于參數(shù)的稀疏化減少了過擬合現(xiàn)象的發(fā)現(xiàn),但隨著λ值進一步的增加,參數(shù)會越來越稀疏,導(dǎo)致一部分有用的參數(shù)也被稀疏掉,使得有用的信息丟失,導(dǎo)致準確率降低。
3 結(jié)語
本文研究了基于HCRF模型的大范圍視頻中人的行為識別方法。大量的實驗表明,本文提出的l_(1/2)正則化HCRF模型取得了優(yōu)于通過l_1和l_2正則化方法得到的模型的識別性能。下一步的工作,可以進一步擴充實驗場景和數(shù)據(jù),進一步驗證研究方法的推廣性能。另外,對HCRF模型的隱變量進行多樣化,提高隱變量的表達能力,從而提高行為識別的準確率,也是一個值得深入研究的課題。
參考文獻
[1]劉建磊,馮大政,張莉.基于梯度信息的C-V模型圖像分割算法[J].光電子.激光,2010(03).
[2]田國會,吉艷青,黃彬.基于多特征融合的人體動作識別[J].山東大學(xué)學(xué)報(工學(xué)版),2009(05):43-47.
[3]敦文杰,穆志純.基于特征融合的人臉人耳多生物身份鑒別[J].天津大學(xué)學(xué)報(自然科學(xué)與工程技術(shù)版),2009(07):636-641.