王俊文 劉力 李林
摘要:行人檢測是目標(biāo)檢測中重要研究課題之一,已經(jīng)在智能監(jiān)控、智能汽車控制、智能搜索、智能機(jī)器人等領(lǐng)域得到廣泛應(yīng)用。該文從人體的結(jié)構(gòu)、運(yùn)動(dòng)、外表等獨(dú)特姿態(tài)特征研究角度出發(fā),通過分析HOG、HOF、CSS等特征提取算法,與快速HIKSVM分類算法相結(jié)合,設(shè)計(jì)多特征融合分類器,研究人體的結(jié)構(gòu)信息、運(yùn)動(dòng)信息、外表信息等對行人檢測算法的影響及其互補(bǔ)關(guān)系。實(shí)驗(yàn)表明三種信息特征具有較好的互補(bǔ)作用,在0.1FPPI評估條件下漏檢率為43.75%。
關(guān)鍵詞:行人檢測;特征提取;分類;SVM
中圖分類號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)22-0166-03
行人檢測是目標(biāo)檢測中重要研究課題之一,已經(jīng)在智能監(jiān)控、智能汽車控制、智能搜索、智能機(jī)器人等領(lǐng)域得到廣泛應(yīng)用,具有重要的研究意義和社會(huì)意義。行人與其他目標(biāo)不同,是非剛體,行人服飾、姿態(tài)多樣化導(dǎo)致類內(nèi)差異很大;其次,行人生活的環(huán)境的天氣好壞,光照強(qiáng)弱,異物遮擋,人與人之間的遮擋等均影響著行人檢測系統(tǒng)的最終檢測效果。為了克服這些影響因素,本文采用多特征融合的方法進(jìn)行特征提取和基于快速的直方圖交互核函數(shù)(HIK)的SVM進(jìn)行分類,研究實(shí)驗(yàn)多特征對行人檢測算法的相互影響。
1 人體特征提取算法
特征提取是貫穿整個(gè)行人檢測研究過程。從樣本特征集提取,到利用特征集分類訓(xùn)練,最終到檢測識(shí)別。它是行人檢測算法性能的重要影響因素。
為了選擇魯棒性強(qiáng)、顯著區(qū)別于其他種類目標(biāo)的人體特征,我們根據(jù)行人檢測的進(jìn)展情況,選擇梯度方向直方圖HOG、光流HOF、顏色自相似性CSS三個(gè)特征,作為本文的研究對象。
1.1 HOG特征提取算法
HOG(梯度方向直方圖)是行人檢測最典型的算法之一,提出之后一度成為行人檢測研究的基礎(chǔ)。HOG最初是由Dalal & Triggs et al[4]提出的,作者利用局部區(qū)域梯度信息的分布,表示局部區(qū)域內(nèi)目標(biāo)的梯度結(jié)構(gòu)和邊緣,進(jìn)而表征出目標(biāo)的外部形狀。將一幅圖像窗口劃分成有規(guī)則的Cell(細(xì)胞),根據(jù)Cell中每個(gè)像素的梯度方向,對每一個(gè)Cell構(gòu)造含有若干個(gè)bin(直方圖組數(shù))的梯度方向直方圖,其中每個(gè)bin中的梯度幅值之和為該bin的響應(yīng)值。所有Cell的直方圖得到的響應(yīng)值串聯(lián)結(jié)合在一起形成了HOG描述子。為了克服光照和陰影等的影響,將若干個(gè)Cell組合成一個(gè)block,并且block之間互有重疊,對block內(nèi)的數(shù)據(jù)進(jìn)行歸一化。
1.2 HOF特征提取算法
Dalal et al[6]為了用靜態(tài)的外觀捕獲大量可利用的邊界周圍信息,基于流的描述符應(yīng)該更多地集中在捕獲內(nèi)部或相對運(yùn)動(dòng)的補(bǔ)充信息。流之間的不同可以通過成對的相鄰區(qū)域的之間的差異來計(jì)算。這個(gè)差異信息與HOG不同,不一定是相鄰的點(diǎn)和基于方向的流差矢量的角度投票,也不一定是空間導(dǎo)數(shù)位移方向,而是用更大尺度的空間差異取代簡單的對x,y方向求導(dǎo),還有可能是不同的幾個(gè)方向。本文采取的編碼表是IMHd2,是由Stefan Walk et al[5]提出的。IMHd2碼表含義是:表示行人在圖像中位置的變化,分別是水平方向、豎直方向、主對角線方向和副對角線方向等四個(gè)運(yùn)動(dòng)方向,例如一個(gè)2x2Cells的塊Block,該塊有4個(gè)直方圖,每個(gè)直方圖存放每個(gè)方向下的對應(yīng)兩個(gè)Cell的差異。Dalal稱這種類型的編碼表為積分運(yùn)動(dòng)直方圖IMH(Internal Motion Histograms)。把這種類型的編碼表所產(chǎn)生的特征描述子叫作HOF(Histograms of Flow)。
1.3 CSS特征提取算法
CSS,全稱是color-self similarity,被稱為局部顏色自相似性特征,是由Stefan Walk et al[5]提出的。行人的外形除了梯度邊緣信息和運(yùn)動(dòng)信息外還有自身的顏色信息。人體大概可以分為頭部,左、右上肢,上身,左、右下肢等六個(gè)區(qū)域,這六個(gè)區(qū)域內(nèi)部局部相似度大。為了減少檢測偏差,我們利用魯棒性強(qiáng)局部顏色直方圖,以64x128圖像為例,無重疊的將檢測窗口分為D=8x16=128個(gè)8x8大小的塊block,用三線性插值求得128個(gè)局部顏色直方圖。本文實(shí)驗(yàn)在HSV顏色空間中,每個(gè)塊得到3x3x3的直方圖,兩個(gè)塊的直方圖的相似性即形成一個(gè)特征。我們將第1個(gè)塊與其后127個(gè)塊分別求相似性,第2個(gè)塊與其后126個(gè)塊同樣的分別求相似性,以此類推,產(chǎn)生D(D-1)/2 = 8128維特征。
2 快速HIKSVM分類算法
在最新的分類器算法評估中,性能最好的SVM核函數(shù)構(gòu)成的分類器是線性(Linear)和直方圖交互(Histogram Intersection Kernel, HIK)的SVM[7]。
線性核函數(shù)的SVM在行人檢測中最為普遍,因?yàn)樗坏斜容^好的分類性能,而且訓(xùn)練和分類速度都很快,基本上能夠滿足實(shí)時(shí)應(yīng)用的條件。一般地,若用SVM訓(xùn)練得到m個(gè)支持向量,支持向量的維數(shù)為n維。則目標(biāo)判別的時(shí)間復(fù)雜度為O(n)。
非線性核函數(shù)的SVM通常在分類性能上效果會(huì)更好,但是諸如徑向基和多項(xiàng)式核函數(shù)在一個(gè)樣本進(jìn)行分類時(shí),隨著支持向量數(shù)目的增加需求的時(shí)間會(huì)線性增加,并且在實(shí)際應(yīng)用中,特別是有大量分類樣本時(shí)會(huì)異常耗時(shí)。然而,在非線性核函數(shù)中,HIK函數(shù)分類的時(shí)間隨支持向量數(shù)目增加成對數(shù)增加,不會(huì)成線性增加趨勢。如果對支持向量數(shù)據(jù)進(jìn)行預(yù)處理,則分類的時(shí)間復(fù)雜度會(huì)變小,只是對內(nèi)存空間要求高。下面我們通過推導(dǎo)驗(yàn)證HIK核函數(shù)的這一特點(diǎn)。
3 實(shí)驗(yàn)分析
3.1 關(guān)于快速HIKSVM分類器的性能分析
從表1可以看出快速HIKSVM的檢測速率與線性SVM相比仍然有較大差距,但與普通HIKSVM相比耗時(shí)縮減了幾百倍。從表2中看出,同樣的測試集,正確檢測人數(shù)(TP)增加了30個(gè),查全率從75.3%提高到80.7%。換一個(gè)比較維度,如圖1所示,在0.1FPPI情況下,漏檢率減少了5.42%,快速HIKSVM分類性能更為突出。因此在檢測速率折衷前提下,HIKSVM查全率更高。
3.2 基于快速HIKSVM的多特征分類分析
本文對HOG、HOGF(HOG+HOF)、HOGS(HOG+CSS)、HOGFS(HOG+HOF+CSS)四種多特征融合訓(xùn)練的分類器的性能進(jìn)行分析,分別對INRIA集的實(shí)況評估圖片進(jìn)行測試,從表3簡單得出:HOGFS準(zhǔn)確檢測到的人數(shù)多,誤檢少,漏檢少,正是滿足一個(gè)魯棒的分類器所具備的屬性。但是這是粗略的分析,分類器性能好壞需要用FPPI評估方法對四種實(shí)驗(yàn)結(jié)果進(jìn)行具體的評估。
評測結(jié)果按照FPPI- miss rate曲線圖(如圖2)和分類器漏檢率相互比較的柱狀圖(如圖3)來分析:
(1)HOGF分類器比特征單一的HOG分類器性能有了很大的提高,在0.02FPPI情況下,提高了大約10%;平均漏檢率減少了3.35%。表明,運(yùn)動(dòng)信息對行人檢測性能有極大促進(jìn)作用,可以很好地對表面特征形成互補(bǔ)。
(2)同樣,HOGS分類器的平均漏檢率也減少了4.03%,比HOGF性能還要好,說明顏色自相似性對梯度信息更能起到互補(bǔ)作用。
(3)既然HOGF和HOGS分類器都有不錯(cuò)的檢測性能,我們對二者性能也做了比較,當(dāng)0.02 (4)最后我們把HOG、HOF和CSS三種特征結(jié)合在一起,顯示HOG-HOF-CSS(以下簡稱HOGFS)的性能比HOGF和HOGS都要好,平均漏檢率分別減少了2.05%和1.37%。當(dāng)0.02 4 結(jié)論 結(jié)果表明運(yùn)動(dòng)信息特征HOF和顏色自相似性特征CSS能與梯度信息HOG形成互補(bǔ),最好的結(jié)果是在0.1FPPI情況下漏檢率為43.75%。相比單一的HOG分類器,性能提高了5.4%。說明基于HIKSVM的多特征融合的方法能夠提升行人檢測的準(zhǔn)確率。 參考文獻(xiàn): [1] 姜夕凱, 蘇松志, 李紹滋,等. 基于單張靜態(tài)圖像的人體行為識(shí)別方法綜述[J]. 漳州師范學(xué)院學(xué)報(bào):自然科學(xué)版, 2011, 24(4): 23-26. [2] 陸軍, 李鳳玲, 姜邁. 攝像機(jī)運(yùn)動(dòng)下的動(dòng)態(tài)目標(biāo)檢測與跟蹤[J]. 哈爾濱工程大學(xué)學(xué)報(bào), 2008, 29(8): 831-835. [3] Hu T, Zheng M, Li J, et al. Scene-adaptive moving detection with machine learning based on clustering[C]. IEEE 14th International Conference on High Performance Computing and Communication & IEEE 9th International Conference on Embedded Software and Systems (HPCC-ICESS), 2012: 1782-1787. [4] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2005: 886-893. [5] Walk S, Majer N, Schindler K, et al. New features and insights for pedestrian detection[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2010: 1030-1037. [6] Dalal N, Triggs B, Schmid C. Human detection using oriented histograms of flow and appearance[M]. Computer Vision – ECCV 2006. Springer Berlin Heidelberg, 2006: 428-441. [7] Maji S, Berg A C, Malik J. Classification using intersection kernel support vector machines is efficient[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2008: 1-8. 【通聯(lián)編輯:代影】