吳成豪 莫緒言 徐瑩瑩 黃強
【摘 要】行人再識別是智能視頻監(jiān)控中的一項關鍵任務,是近年來計算機視覺領域中一直備受關注的研究熱點,適用于安防以及公共場所尋人等技術領域。特征提取是行人再識別技術中存在的核心問題之一。對現(xiàn)有的基于特征表示的行人再識別方法進行評述,并對現(xiàn)有的行人再識別方法進行了分類,分析其中主要方法的優(yōu)缺點。最后針對主要問題、現(xiàn)有技術以及未來研究方向,分析了行人再識別技術的未來發(fā)展趨勢。
【關鍵詞】行人再識別;行人檢測;深度學習;計算機視覺
一、行人再識別發(fā)展歷史
(一)引言
行人再識別可定義為: 在無重疊的視頻監(jiān)控網(wǎng)絡中,對于攝像頭中給定的某個行人,判斷其是否出現(xiàn)在其他攝像頭中的過程。它是一種自動的目標識別技術,是智能視頻監(jiān)控和人體行為分析等應用中的重要步驟。隨著我國智能視頻分析需求的亟需提高,行人再識別技術的需求應運而生。行人外觀易受穿著、遮擋、視角以及遮擋的影響,同時視頻圖像存在分辨率低、光照變換的影響,使得行人再識別成為計算機視覺領域中最具挑戰(zhàn)性的問題之一。
(二)發(fā)展歷史
行人再識別的研究起始于二十世紀九十年代中期。近年來,隨著高校、研究所以及一些廠商的研究持續(xù)深入,行人再識別技術得到了飛速的發(fā)展。
行人檢測在計算機視覺領域的許多應用中起著至關重要的作用,例如視頻監(jiān)控、汽車駕駛員輔助系統(tǒng)、人體的運動捕捉系統(tǒng)等。圖像的行人檢測方法可以分成兩大類:輪廓匹配和表觀特征。表觀特征又被定義成圖像特征空間(也叫做描述算子),它可以分為整體法、局部法、特征點對法。
在整體法中,Papageorgiou和Poggio[1]提出了Haar小波(HWs)特征,并用SVM訓練行人,其中包括了行人的正面和背面。Viola和Jones[2]采用級聯(lián)AdaBoost學習算法(即選擇超過一定閾值的弱分類器組成強分類器的算法)提取基本Haar-like特征和擴展的兩個Haar-like特征,用于視頻監(jiān)控的行人檢測。Levi和Weiss[3]則提出邊緣方向直方圖(edge orientation histograms,簡稱EOHs)進行人臉檢測。Haar-like可以通過圖像積分圖方法加快運算速度。Dalal和Triggs等人提出了梯度方向直方圖特征(histogram of oriented gradient,簡稱HOG)。HOG基于梯度信息并允許塊間相互重疊,因此對光照變化和偏移不敏感,能有效地刻畫人體的邊緣特征。然而HOG也有其缺點:特征維度高,大量的重疊和直方圖統(tǒng)計,使得特征的計算速度慢;遮擋處理能力較差;未利用顏色、形狀和紋理等特征。針對這些缺點,近年來一些研究者提出了更多的行人特征,有COV,Integral Channel Feature,ACF,GGP等。Chen等人提出韋伯特征(Weber local descriptor,簡稱WLD)。WLD由兩部分組成:激勵(differential excitation)和方向(orientation)。
局部法的主要思想是將人體看成是部位的組合。Mohan等人將人體劃分為頭、下半身、左右胳膊這4個部位,取各個部位分類器的響應值作為支持向量機的輸入,構建一個組合的多層次分類器來檢測行人。
Edgelet特征描述的是人體的輪廓特征。它將人體分為幾個部分來訓練,每個部分都使用adaboost算法訓練一個強分類器;在分類時,利用4個部分的聯(lián)合概率進行決策。該算法在出現(xiàn)遮擋的情況下仍然有很好的表現(xiàn),缺點是特征的計算比較復雜。
Wu提取圖像的edgelet特征用于檢測靜態(tài)圖像中的人體,對組成人體的各個部分分別建立模型,每一個edgelet描述人體的某個部位的輪廓,然后再用adaboost算法篩選出最有效的一組edgelet來描述人的整體。Wu定義了3種edgelet,包括直線型、弧形和對稱型。這類方法分別檢測窗口的局部區(qū)域,然后再綜合這些區(qū)域的檢測結果來做最終的判決。優(yōu)點是能更好地處理遮擋以及行人姿勢的多樣性。
二、現(xiàn)有行人再識別方法
為了克服行人再識別中的許多問題,國內(nèi)外涌現(xiàn)出了大量的行人再識別方法。這些方法大致可以分為四類方法:直接法、間接法、深度學習、顯著性學習。
(一)直接法
直接法利用視覺特征對行人建立一個魯棒性和區(qū)分性的表示,直接利用行人特征,然后根據(jù)傳統(tǒng)的相似性度量算法(歐氏距離、巴氏距離等)來度量行人之間的相似度。
1.基于matching-CNN的方法
針對一般所獲得的行人特征表示難以有效區(qū)分匹配對和非匹配的問題,提出了一種特征增強的方法。針對不能完全利用行人圖片的底層視覺特征的問題,提出了將HSV顏色特征和LBP紋理特征,在利用特征增強后進行有效結合的方法。此外,由于當前研究行人再識別問題所用到的公開數(shù)據(jù)庫數(shù)據(jù)量都相當少,而人工制作、標注大規(guī)模的專用數(shù)據(jù)庫過程非常繁重,本文提取了利用海量無標簽、非結構化的網(wǎng)絡視頻對模型進行進一步調整的方法,有效地利用了大量數(shù)據(jù)資源中所包含的隱藏信息。
2.基于特征融合與改進神經(jīng)網(wǎng)絡的方法
為了獲得基于突出性顏色名稱的顏色描述(SCNCD)特征對于光照變化較好的魯棒性,提出了融合SCNCD特征和對于視角變化魯棒性高的局部最大出現(xiàn)概率(LOMO)表觀特征的方法; 將圖像劃分為多個重疊塊,并提取塊特征;引入動量項。這樣有助于基于突出性顏色名稱的顏色描述(SCNCD)特征,獲得對于光照變化較好的魯棒性。優(yōu)點是融合后的特征識別能力明顯高于原特征的識別能力,且改進后的神經(jīng)網(wǎng)絡收斂速度明顯提高。
3.基于韋伯局部算子和顏色特征的方法
該方法[11]在分析韋伯局部算子(WLD)差分激勵分量和方向分量的基礎上,用圓形鄰域的差分激勵表現(xiàn)圖像的紋理特性,然后用LBP(局部二值模式)編碼的方向分量表現(xiàn)圖像邊緣方向,再用HSV顏色空間直方圖表現(xiàn)圖像顏色信息以及紋理信息, 統(tǒng)計韋伯局部特征算子的圓形鄰域差分激勵直方圖,最后串聯(lián)特征。WLD不僅能夠有效提取圖像的紋理特征,且對光照和噪聲有較強的魯棒性。解決了精度高的行人再識別特征數(shù)值復雜、提取困難的問題。
4.基于耦合特征空間學習的方法
在耦合特征學習算法的基礎上,提出了一種基于聯(lián)合圖正則化耦合特征空間學習的行人再識別算法。算法分為訓練階段和測試階段,在訓練階段進行投影矩陣訓練,利用l2,1范數(shù)和跡范數(shù)進行偶合特征提取并使用聯(lián)合圖正則項對投影矩陣進行局部約束,使得投影后特征空間具有相關性和局部性;在測試階段,對不同攝像頭條件下獲取的行人圖像進行特征提取得到不同的特征子空間,利用訓練得到的投影矩陣將不同的特征子空間投影到一個耦合的共同特征空間,在這個共同特征空間上對不同攝像條件下獲得的圖像進行距離度量,根據(jù)度量結果判斷是否是同一個行人,并得出再識別結果。同時設計并實現(xiàn)了一個行人再識別系統(tǒng),將行人再識別技術的基本流程和該方法綜合應用于這個系統(tǒng)中,在具有挑戰(zhàn)性的行人再識別數(shù)據(jù)集中實現(xiàn)了對目標行人圖像的再識別,通過導入目標行人圖像,能從候選集中查找出該行人對應的再識別圖像,并進行結果顯示。
(二)間接法
間接法主要是學習得到一個分類器或一個排序模型。間接法代表性的算法有距離測度學習、支持向量機、遷移學習和流形排序算法。
1.基于距離度量的方法
反應樣本特性,性能較好,但需要大量的訓練樣本數(shù)據(jù)。同時訓練數(shù)據(jù)需要人工標定,所以帶來的成本非常高。現(xiàn)有的距離測度學習算法學習一種馬氏距離形式的距離函數(shù),其本質上是學習一個投影矩陣。但是在投影時,其對不同監(jiān)控視頻的行人圖像特征向量采用同一投影變換,很難消除不同監(jiān)控視頻的特征差異[4]。
2.基于自適應度量學習的方法
提出了基于自適應度量學習(AML)的行人再識別方法。與正常處理所有負樣本的常規(guī)度量學習方法不同的是,AML基于它們與探針的距離將負樣本自適應地分為三組,并對它們給予不同的關注。良好可分離的負樣本容易被丟棄以減輕數(shù)據(jù)不平衡并加速學習過程,通過加強負樣本的影響,AML可以更好地挖掘正樣本和負樣本之間的辨別信息,從而生成更有效的度量。除此之外,由于基于度量學習的方法傾向于在高維特征空間中過擬合,在測試階段盲目相信學習的度量可能會產(chǎn)生不理想的結果,該方法提出了一個探針特定重新排名(PSR)框架,以細化由學習的度量測量的初始結果。與直接計算成對距離不同,PSR考慮在排名前100的圖庫圖像中的鄰域信息以做出魯棒決定,PSR通過考慮測試期間圖庫圖像之間的鄰域關系進一步提高了性能,從而具有良好的魯棒性和優(yōu)越性。
3.基于視覺感知模型的方法
針對行人再識別問題的影響因素,提出一種基于視覺感知模型的行人再識別方法。該方法根據(jù)行人的局部對稱性將行人分為頭部、軀干和腿部,分別以行人的軀干和腿部的垂直對稱軸為中心建立基于感知均勻顏色空間CIELAB的局部加權空間直方圖,結合貝葉斯框架下基于局部統(tǒng)計特征的顯著區(qū)域檢測方法描述行人外觀特征。兩種特征分別采用不同的距離測度計算相似度,并通過自適應選取權值的方法進行線性融合。該方法的行人再識別性能良好,對視覺相似的行人目標的識別有一定的優(yōu)勢。
(三)深度學習法
深度學習在圖像識別、語音識別、自然語言處理等多個領域取得了優(yōu)異的效果。相比于傳統(tǒng)人工提取特征的方法,深度神經(jīng)網(wǎng)絡通過從數(shù)據(jù)中自動學習到更能表征圖像的特征并進行分類,更具實際意義。將深度學習應用到行人再識別上已經(jīng)成為當前的研究熱點,但基于深度學習的行人再識別算法需要非常大的訓練數(shù)據(jù)庫,導致訓練時間長,此外還需要針對特定問題搭建相應的模型,因此不利于該方法的推廣。同時,深度學習方法中還存在調置參數(shù)缺乏理論性指導,具有較大主觀性的問題。
1.基于深度學習的方法
提出了一種基于深度學習的方法[5],設計了一種針對端到端行人再識別的預訓練網(wǎng)絡模型,該模型結合了驗證和分類兩種網(wǎng)絡結構,并利用空間池化操作對不同尺度的輸入圖片進行特征歸一化。在此基礎上用ResNet-50網(wǎng)絡結構對端到端的行人再識別網(wǎng)絡結構進行改進。之后在caffe深度學習框架上訓練改進的模型并進行多組實驗,包括預訓練模型的有效性、不同特征維度對網(wǎng)絡模型效果的影響、在不同大小的候選集、低分辨率和遮擋子集下的性能分析,以及與當前比較先進的算法進行對比。運用該方法訓練出來的模型能夠學習到具有較高魯棒性的特征,大幅度提高了行人再識別的識別率[5]。
(四)顯著性學習
基于顯著性學習的行人再識別方法近年來也受到研究者的廣泛興趣。人們可以通過行人的一些顯著信息來識別行人,但顯著性學習的行人再識別算法在行人姿態(tài)變化的情況下, 顯著性區(qū)域會出現(xiàn)偏移或者消失,導致識別效果較差。
1.基于多方向顯著性權值學習的方法
針對當前行人再識別匹配塊的顯著性外觀特征不一致的問題,提出一種基于多向顯著性相似度融合學習的行人再識別算法。首先用流形排序估計目標的內(nèi)在顯著性,并融合類間顯著性得到圖像塊的顯著性;然后根據(jù)匹配塊的4種顯著性分布情況,通過多向顯著性加權融合建立二者的視覺相似度,同時采用基于結構支持向量機排序的度量學習方法獲得各方向顯著性權重值,形成圖像對之間全面的相似度度量。本文算法能夠實現(xiàn)大場景非重疊多攝像機下的行人再識別,具有較高的識別力和識別精度,且對背景變化具有較強的魯棒性。
三、總結與展望
綜上所述,行人再識別領域的研究仍然面臨著很多的挑戰(zhàn),基于深度圖像的人體部位識別技術對于上肢的識別效果還有待提高,如何解決復雜多變的姿勢對識別的干擾,特別是當一些部位被遮擋時。由于行人在人群中有時候會被隱藏或者會被其他行人所遮擋,身影重疊,就會導致截取不到所需要的行人特征,難以識別。目前提出了無視野重疊區(qū)域的跨攝像機行人跟蹤技術,但是由于在實際的交通監(jiān)控環(huán)境中存在復雜的背景、行人間遮擋、攝像機拍攝視角和攝像機間自身屬性差異等因素干擾,使得無視野重疊區(qū)域的跨攝像機行人跟蹤面臨著巨大的困難與挑戰(zhàn)。所以未來需要結合行人檢測、跟蹤和再識別算法研究出可更好的輔助于無視野重疊區(qū)域的跨攝像機行人跟蹤的算法。在多鏡頭行人再識別中,我們需要對每個檢測對象的所有圖像進行處理,因此通過設計更高效的關鍵頓選擇方案能夠減少再識別的計算時間。由于姿勢和光照等因素的變化使不同相機中所得行人的外形具有明顯變化,較難提取不變性特征,導致識別率偏低問題。針對行人再識別精度低的難題,未來需要結合行人檢測、跟蹤和再識別算法研究出可更好的輔助于無視野重疊區(qū)域的跨攝像機行人跟蹤的算法。需要更多的研究人員投入到這一項極其具有研究價值、應用前景的領域中來。未來需要研究發(fā)明出性價比較高的儀器方便試驗技術研究。
相信隨著機器學習、模式識別和圖像處理等相關領域研究的不斷發(fā)展,計算機計算能力不斷增強,行人再識別技術會走向成熟,走向更廣泛的實際應用。
【參考文獻】
[1] Papageorgiou C, Poggio T. A trainable system for object detection.Int l Journal of Computer Vision, 1600,28(1):15-24.
[2] Viola P, Jones MJ, Snow D. Detecting pedestrians using patterns of motion and appearance. In: Proc. of the Intl Conf.on Computer Vision. 1603. 725-731..
[3] Levi K, Weiss Y. Learning object detection from a small number of examples:The importance of good features. In: Proc. of the IEEE Conf.on Computer Vision and Pattern Recognition. 1604.53-60.
[4] 俞婧,仇春春,王恬,許金鑫.基于距離匹配的行人再識別技術綜述[J/OL].微處理機,1616,3
[5] 焦旭輝.基于深度學習的行人再識別技術研究[D].西南交通大學,1617.