【摘要】人體檢測是近年來計算機視覺領(lǐng)域的研究熱點,基于統(tǒng)計學(xué)習(xí)的人體檢測技術(shù)又是人體檢測技術(shù)領(lǐng)域的研究重點。而在基于統(tǒng)計學(xué)習(xí)的人體檢測技術(shù)中,Dalal等人提出的基于梯度方向直方圖(Histograms of Oriented Gradient,HOG)的人體檢測具有更好的檢測性能,本文對2005-2013年這段時間內(nèi)的基于梯度直方圖的人體檢測技術(shù)的研究現(xiàn)狀進行綜述。首先對人們提出的各種方法進行分類描述,指出各種方法的優(yōu)缺點,然后總結(jié)HOG在人體檢測方面的經(jīng)驗,最后對基于HOG的人體檢測技術(shù)的未來進行展望。
【關(guān)鍵詞】人體檢測;梯度直方圖;塊
1.引言
人體檢測是研究如何讓計算機以人的思維方式從圖像或視頻中找出人體所在區(qū)域的技術(shù)。其應(yīng)用涉及圖片、公共安全、車載系統(tǒng)、智能機器人、視覺監(jiān)控、行為分析等領(lǐng)域。近年來,也應(yīng)用在航拍圖像、地震災(zāi)害營救等新興領(lǐng)域中。目前人體檢測的方法主要有:基于確定人體模型的方法;基于模板匹配的方法;基于統(tǒng)計分類的方法。由于人體的非剛性及姿態(tài)的多變形,前兩種方法實現(xiàn)比較困難。
2.基于HOG的人體檢測技術(shù)
使用HOG作為人體檢測特征描述符的基本思想是:人體的局部外觀和形狀可以很好地用人體的局部強度梯度分布和邊緣方向的分布來描述,即使沒有相應(yīng)梯度或邊緣位置的精確信息。由此可以看出,HOG是一種局域描述符,它通過將圖像均勻的分成相鄰的小塊,然后在所有的小塊內(nèi)統(tǒng)計各方向的梯度直方圖。為了有效的提取人體輪廓,Dalal使用分塊重疊描述人體,因此在一定程度上可以抑制平移、旋轉(zhuǎn)和部分遮擋帶來的影響。
3.基于改進梯度計算模板的檢測
李林等人對HOG做了如下的改進,首先利用[-0.5,-0.5,0,0.5,0.5]的微分模板,在更大的3×3單元中生成了81維的行向量,在小塊移動的時候采取了1/3的重疊率,一個64×128的檢測窗口中有84個小塊,最后生成了6804維的行向量。Dalal在每個小塊中采用L2歸一化特征,為了加快速度該方法在每個小塊中采用L1歸一化方法。實驗表明,這種方法比Dalal等人提出的提取HOG的方法包含更多的行人信息。
4.基于改進block塊的算法
Dalal等人提出的基于HOG的人體檢測首先是從劃分出來的各個小的block塊中提取出特征向量,然后經(jīng)過處理后送入分類器。因此,如何提取出能夠準確而又完整的表達人體的特征向量是極為關(guān)鍵的一步。Dalal等人提出的基于HOG的提取人體特征向量的方法雖然能夠比較精確的提取出人體的特征向量,但是存在特征向量維數(shù)大、檢測時間較長的問題。因此,很多學(xué)者對如何提取合適的特征向量,減少特征向量中的冗余信息進行了研究,主要有一下幾個方面的改進:
(1)周金芝、孟凡輝、曾春等人將整個人體圖像依據(jù)人體肢干在人體運動過程中的運動幅度大小分割成若干個部分。這樣就可以提取人體運動過程中主要的特征向量,剔除一些不必要的信息。因為,一般來說,行人姿態(tài)的變化主要表現(xiàn)在四肢處HOG的變化,頭部與肢干部分的HOG相對比較穩(wěn)定而且軀干中央?yún)^(qū)域的HOG對分類幾乎沒有什么影響。
(2)石志強等人提出了基于HOG和block權(quán)重的方法,通過在提取人體特征向量的過程中引入block權(quán)重的概念,通過合理的篩選block,組成人體的特征向量。因為并不是所有的檢測窗口都包含目標信息,真正包含信息的是人體邊緣處的block塊。
(3)汪成亮等人提出基于高斯混合模型和主成份分析方法的人體檢測。首先利用高斯混合模型剔除掉部分背景圖像,在減少負例樣本誤檢率的同時提高檢測速度。同時提出一種基于主成分分析(PCA)降維的梯度方向直方圖(HOG)的描述子,它在不降低識別率的前提下,很大程度地提升了偵測窗口的分類速度。實驗驗證了混合高斯模型與PCA-HOG相結(jié)合顯著提升了人體檢測速度。但缺點是高斯混合在背景減除的過程中計算量較大。
5.基于HOG快速人體檢測算法
劉東升等人提出了基于HOG的快速人體檢測算法,這種方法把整幅圖像當作一個檢測窗口計算其梯度值并將其存入一個二維數(shù)組,當遍歷圖像時,只需要根據(jù)索引得到梯度值進行方向上的投影,這樣可以降低運算量,因此提高了檢測速度。
6.基于改進HOG算法的主要應(yīng)用
(1)蘇海明等人提出了基于頭部特征的人體檢測,人體檢測主要用于視頻監(jiān)控中,而在視頻監(jiān)控中通過俯拍讀取的主要是人體的頭部圖像,這時取行人的頭部作為block塊,并在其上進行HOG特征提取。
(2)為了快速定位車輛前的行人,郭烈等人提出一種基于腿部感興趣區(qū)域梯度方向直方圖(HOG)特征的行人檢測方法。將可能存在行人腿部的區(qū)域作為感興趣區(qū)域,然后在該感興趣域提取梯度方向直方圖特征,有效地降低了特征向量的維數(shù)。因為在檢測過程中僅掃描可能存在行人腿部的圖像的下半部分,并在整幅圖像的感興趣塊內(nèi)計算HOG特征,這有助于減少復(fù)雜背景對行人檢測的干擾,進一步簡化了檢測過程。
(3)針對在現(xiàn)實生活中的許多場景中人都只有上半身可見,如被沙發(fā)遮擋、坐在游艇里、站在花叢中等等,F(xiàn)errari等人提出了一個主要針對上半身正面姿態(tài)的解決方法。首先要求手動指定一個矩形區(qū)域包含人的頭部和肩部作為初始化信息,進而將圖像劃分為幾個區(qū)域,再在這些區(qū)域里提取HOG特征。
7.總結(jié)及其展望
人體檢測技術(shù)雖然已取得了飛速的發(fā)展,但由于人體的非剛性特性及人與人總之間的相互遮擋以及光照變化等的影響,使得人體檢測仍然面臨很大的挑戰(zhàn)。就目前的人體檢測技術(shù)而言,基于梯度方向直方圖的人體檢測技術(shù)具有更好的檢測性能,首先,由于HOG在圖像的局部方格單元上操作,所以能夠?qū)D像的幾何的光學(xué)的形變能夠保持很好的不變性。其次,在粗的空域抽樣、精細的方向抽樣以及較強的局部光學(xué)歸一化等條件下,只要行人大體上能夠保持直立的姿勢,可以容許行人有一些細微的肢體動作,這些細微的肢體動作可以被忽略而不影響檢測效果。但HOG也存在特征向量維數(shù)較大,檢測速度較慢等缺點?;谝陨系膬?yōu)缺點,未來的基于HOG的人體檢測技術(shù)的研究需要從以下幾個方面著手:
(1)檢測窗口問題
目前大部分基于HOG的人體檢測的研究都采用Dalal在2003年的CVPR會議上提出的大小為64×128的檢測窗口,把整個圖片作為一個整體來處理,這樣做的好處是訓(xùn)練數(shù)據(jù)庫的標注只需用矩形框標出行人的區(qū)域,而缺點是無法克服部分遮擋的影響。為了解決該問題,將一個大的檢測窗口劃分為幾個小的檢測窗口,在人體的主要部位(如頭、手臂、腿)提取HOG特征,并且構(gòu)建各個部位間的幾何關(guān)系。
(2)特殊場景下的人體檢測問題
一個魯棒性高的人體檢測系統(tǒng)應(yīng)該能夠在惡劣的天氣環(huán)境(如雨雪天、霧天等)下工作,必需能對部分遮擋、分辨率低、遠距離的、攜帶大面積物件的人體進行準確檢測,并保持低誤報率。因此,應(yīng)該建立專門針對各個部位的遮擋、低分辨率和遠距離的行人測試數(shù)據(jù)庫。
(3)檢測速度慢的問題
Dalal等人提出的基于HOG的人體檢測在特征向量的提取時,特征向量的維數(shù)很大,因此,如何在此基礎(chǔ)上引入主成分分析法、Boosted Cascade等算法,對不包含人體信息的區(qū)域進行排除,剔除掉大量冗余信息,將通用的人體檢測算法遷移到特殊場景中,使得人體檢測技術(shù)在檢測的過程中通過自學(xué)習(xí)提高性能將是未來的研究重點。
總之,人體檢測是當今計算機視覺領(lǐng)域的核心難點問題,該問題的解決具有重要的理論意義和良好的應(yīng)用前景。雖然吸引了大量的研究人員投入到該領(lǐng)域的研究,也取得了一定的成效,但要有效的解決真實復(fù)雜場景下的人體檢測問題,還有待進一步的研究。
參考文獻
[1]蘇松志,李紹滋,陳淑媛.行人檢測技術(shù)綜述[J].電子學(xué)報,2012,40(4):814-819.
[2]周健.基于梯度方向直方圖的快速人體檢測算法[D].天津:天津大學(xué),2009.
[3]曾春,李曉華,周激流.基于感興趣區(qū)梯度方向直方圖的行人檢測[J].2009,35(24):182-184.
[4]DalalN,TriggsB.Histogramsoforientedgradientshuman detection[C]ComputerVisionand Pattern Recognition(CVPR05).San Diego:IEEE Computer Society,2005,1:886-893.
[5]康戰(zhàn)波.災(zāi)難現(xiàn)場的人體檢測技術(shù)研究[D].哈爾濱:哈爾濱工程大學(xué),2011.