郭秋滟, 李 欣
(1. 西昌學(xué)院 汽車與電子工程學(xué)院, 四川 西昌 615013; 2. 清華大學(xué) 深圳研究生院, 廣東 深圳 518055)
?
一種深度模型行人檢測方法
郭秋滟1, 李 欣2
(1. 西昌學(xué)院 汽車與電子工程學(xué)院, 四川 西昌 615013; 2. 清華大學(xué) 深圳研究生院, 廣東 深圳 518055)
提出一種新的深度模型,通過多個階段的后向傳播來聯(lián)合訓(xùn)練多階段分類器實現(xiàn)行人檢測。該模型可將分類器的得分圖輸出存儲在局部區(qū)域中,并將其作為上下文信息來支持下一階段的決策。通過設(shè)計具體的訓(xùn)練策略,深度模型可對硬性樣本進行挖掘來分階段訓(xùn)練網(wǎng)絡(luò),進而模擬串聯(lián)分類器。此外,每個分類器可在不同的難度水平上處理樣本,并通過無監(jiān)督預(yù)訓(xùn)練和專門安排的各階段有監(jiān)督訓(xùn)練來對優(yōu)化問題正規(guī)化,提高了行人檢測的可靠性。理論分析表明該訓(xùn)練策略有助于避免過擬合?;?個數(shù)據(jù)集(Caltech, ETH和TUD-Brussels)的實驗結(jié)果也驗證了該方法優(yōu)于當前其他最新算法。
串聯(lián)式分類器; 行人檢測; 深度模型; 上下文信息
行人檢測[1-2]是多種重要應(yīng)用領(lǐng)域基本的計算機視覺問題之一。由于存在視角變化、姿態(tài)、光照、遮擋等各種挑戰(zhàn),行人檢測難度很大,只簡單利用一種整體分類器難以有效實現(xiàn)行人檢測。例如,側(cè)面視角下行人視覺線索不同于正面視角下的視覺線索。單個檢測器難以有效同時捕獲兩個視覺線索。為了處理行人復(fù)雜的外觀變化,許多方法選擇一組分類器分階段做出行人和非行人決策[3]。不同分類器負責(zé)不同樣本。串聯(lián)式分類器往往采取序列訓(xùn)練策略。使用早先階段無法有效分類的硬性樣本來訓(xùn)練后續(xù)階段的分類器。
直觀來說,因為這些分類器通過緊密交互可以產(chǎn)生協(xié)同作用,所以我們希望對這些分類器進行聯(lián)合優(yōu)化。此外,雖然早期分類器無法對硬性樣本做出最終決策,但是它們的輸出所提供的上下文信息可用于支持后續(xù)階段的決策。然而,由于參數(shù)太多,訓(xùn)練樣本相對較少,所以分類器容易出現(xiàn)訓(xùn)練數(shù)據(jù)過擬合問題。為了對大量分類器參數(shù)進行聯(lián)合訓(xùn)練,本文提出一種深度模型,既可對這些分類器進行聯(lián)合學(xué)習(xí),又可防止訓(xùn)練過程同時出現(xiàn)過擬合問題。
對行人檢測問題已展開了研究,如文獻[4]針對單幅圖像中的行人檢測問題,提出了基于自適應(yīng)增強算法(Adaboost) 和支持向量機(SVM)的兩級檢測方法, 應(yīng)用粗細結(jié)合的思想有效提高檢測的精度。文獻[5] 提出了一種新的顏色自相似度特征(CSSF),在顏色通道上計算兩個選定的矩形塊的比值衡量自相似性。文獻[6]針對HOG特征檢測準確率高、計算量大的特點,通過對HOG特征的結(jié)構(gòu)進行調(diào)整,提出了使用Fisher特征挑選準則來挑選出有區(qū)別能力的行人特征塊,得到MultiHOG特征。文獻[7-20]提出多種特征來提升行人檢測性能。這些方法利用尺寸可變滑動窗口來掃描圖片,進而將行人檢測看成一種分類任務(wù)。人們已經(jīng)提出了多種生成性和區(qū)分性分類方法。生成性方法,如文獻[7-9],計算一個窗口圍住一位行人的概率。區(qū)分性分類器,比如文獻[10-13]中的boosting分類器和文獻[14-16]中的SVM,試圖通過參數(shù)來將陽性和陰性樣本分開。因為行人外觀具有多樣性,所以多篇文獻利用了混合模型[17-19],混合模型通過有監(jiān)督或無監(jiān)督聚類來訓(xùn)練分類器。近期,深度模型已經(jīng)成功應(yīng)用于手寫數(shù)字識別、對象分割、人臉識別和場景理解、對象檢測和識別領(lǐng)域。文獻[20-24]利用深度模型進行多階段特征的無監(jiān)督學(xué)習(xí)。然而,他們沒有在每個階段添加額外的分類器,而且分類得分沒有在不同階段之間作為上下文信息進行傳輸。因此,構(gòu)建了深度模型和多階段分類器間的聯(lián)系,進而對串聯(lián)分類器進行聯(lián)合優(yōu)化,有效地提高了行人檢測的可靠性,最后仿真實驗結(jié)果也表明了該方法的優(yōu)越性。
1.1 特征準備
(1)
圖1給出了31個箱子的區(qū)分性功率。丟棄了區(qū)分性最低的6個箱子。因此,利用每個區(qū)塊有25個維度的HOG特征來降低計算量。
圖1 31維HOG特征的區(qū)分性(DPk值見圖下)
為了利用局部區(qū)域中的上下文信息,本文深度模型采用11個金字塔3 × 3空間局部區(qū)域中的檢測得分。因為一個行人窗口包含15 × 5 × 36特征,所以通過利用15 × 5 × 36過濾器來過濾局部17 × 7 × 36特征金字塔,可以獲得具體某一金字塔的3 × 3檢測得分。圖2給出了從3種窗口尺寸中構(gòu)建特征圖的一個示例。鑒于篇幅所限,我們這里只給出了11個金字塔中的3個金字塔。
圖2 規(guī)模不同的3個特征金字塔中構(gòu)建特征圖
1.2 基于深度學(xué)習(xí)架構(gòu)的推理
圖3給出了深度學(xué)習(xí)架構(gòu)。整個架構(gòu)基于圖2所示的特征圖。我們對同一特征圖f采用不同的過濾器Fi然后獲得不同的得分圖si。在該圖中,有2層隱藏層,采用了3個分類器。為了方便起見,我們將輸入層得分圖s0看成是h0。
圖3 深度學(xué)習(xí)架構(gòu)
將這些節(jié)點連接起來的權(quán)重分為3種:①Fi+1表示第i層用于過濾特征圖及獲得得分圖si+1的分類器。②Wh,i表示將隱藏節(jié)點hi-1和hi連接起來的權(quán)重(轉(zhuǎn)移矩陣)。③Ws,i表示將得分圖si和隱藏節(jié)點hi連接起來的權(quán)重。因為輸入s0被看成是h0,所以h0和h1間的權(quán)重矩陣表示為Wh,1。
輸入特征圖f有11個金字塔,每個金字塔為17 × 7 × 36特征。該輸入可用于不同層訓(xùn)練的多個分類器中。在推理階段,分類器Fi+1可對特征圖f進行過濾,并輸出得分圖si+1:
(2)
其中:?表示過濾操作。通過利用線性SVM訓(xùn)練而得的分類器F0過濾特征圖f,可獲得初始得分圖s0。F0固定,s0可用作上下文檢測得分信息。
利用式(2)求得得分圖si后,si和hi-1可與hi中的隱藏節(jié)點完全相連,于是有:
(3)
(4)
最后,窗口包含行人的概率為:
(5)
1.3 深度模型的分階段訓(xùn)練
算法1對訓(xùn)練步驟進行了總結(jié)。算法包括兩步。首先通過去除所有層中的追加分類器來訓(xùn)練深度模型,以便到達優(yōu)質(zhì)初始化點。對經(jīng)過簡化的上述模型進行訓(xùn)練可避免過擬合。然后,挨個增加每一層上的分類器。在每個階段t,對直到第t層的所有當前分類器進行聯(lián)合優(yōu)化。每一輪優(yōu)化可在先前訓(xùn)練階段到達的優(yōu)質(zhì)初始點周圍發(fā)現(xiàn)一個更優(yōu)局部最小值。
步驟1.1(算法1中的第1和2行):采用文獻[25]中的逐層無監(jiān)督預(yù)訓(xùn)練方法來訓(xùn)練連環(huán)隱藏轉(zhuǎn)移矩陣Wh,i+1。在該步驟中,設(shè)置Ws,i+1=0,F(xiàn)i+1=0且i=0,…,L。
步驟1.2(算法1第3行):BP用于微調(diào)所有Wh,i+1,其中Ws,i+1=0,且Fi+1=0。
步驟2.1(算法1第4行):對過濾器Fi+1(i=0,…,L)進行隨機初始化,以便搜索出下一步中的區(qū)分性信息。
步驟2.2(算法1中的第5~7行):通過BP后向傳播逐步對串聯(lián)過濾器Fi+1(i=0,…,L)進行訓(xùn)練。在階段t,對直到第t層的分類器Fi+1和權(quán)重Ws,i+1(?i≤t)進行聯(lián)合更新。
算法1:分階段訓(xùn)練。
線性SVM濾波器:W0
隱藏層數(shù)量:L
輸出:轉(zhuǎn)移矩陣:Wh,i+1,Ws,i+1
新濾波器:Fi+1,i=0,…,L
將Ws,i+1和Fi+1中的元素設(shè)置為0;
對所有轉(zhuǎn)移矩陣Wh,i+1進行無監(jiān)督預(yù)訓(xùn)練;
通過BP來微調(diào)所有轉(zhuǎn)移矩陣Wh,i+1,同時保持Ws,i+1和Fi+1為0;
對Fi+1隨機初始化;
fort=0 toLdo
利用BP來更新第0層至第t層間的參數(shù),即Fi+1,Wh,i+1,Ws,i+1,0≤i≤t;
end
輸出Wh,i+1,Ws,i+1,Fi+1,i=0,…,L
1.4 理論分析
1.4.1 步驟1的分析
因為Ws,i設(shè)為0,故步驟1可看成是利用輸入s0、隱藏節(jié)點hi和標識y對深度置信網(wǎng)絡(luò)(DBN)[25]進行訓(xùn)練。步驟1.1用于進行無監(jiān)督預(yù)訓(xùn)練,步驟1.2用于微調(diào)。在該步驟中,DBN網(wǎng)絡(luò)利用線性SVM獲得的上下文得分圖作為輸入來訓(xùn)練樣本。該DBN網(wǎng)絡(luò)可對大部分樣本進行正確分類。
1.4.2 步驟2的分析
步驟2訓(xùn)練策略的屬性描述如下:
(6)
(7)
將第n個訓(xùn)練樣本表示為xn。將其標簽估計表示為yn,其真實標簽表示為ln。算法1中的步驟2.2對式(7)中的參數(shù)Θi進行訓(xùn)練。在循環(huán)t開始時,Ws,i+1=0。如果yn=ln,即訓(xùn)練樣本已經(jīng)被正確分類,則對樣本xn來說式(7)中的dθi,j為0。因此,先前階段被正確分類的樣本不會影響參數(shù)更新。對于被錯誤分類的樣本,估計誤差越大,dθi,j的值越大。參數(shù)更新主要取決于被錯誤分類的樣本的影響。因此,在訓(xùn)練策略下,每個階段引入一個新的分類器來幫助處理被錯誤分類的樣本,而正確分類的樣本不會對新的分類器產(chǎn)生影響。這就是本文多階段訓(xùn)練的核心思想。
(2) 在步驟2.2第t階段對t+1個分類器(即i=0,…,t時它們的參數(shù)Θi)進行聯(lián)合優(yōu)化,以便這些分類器可更好地互相之間展開協(xié)作。
(3) 深度模型可保留特征的上下文信息及檢測得分。卷積分類器Fi利用上下文特征(用金字塔覆蓋行人周圍較大區(qū)域的特征),以獲得得分圖。得分圖是第2層上下文信息,我們將得分在局部區(qū)域的分布傳輸給下個隱藏層。不同層中的得分圖聯(lián)合處理分類任務(wù)。傳統(tǒng)的串聯(lián)分類器往往丟失這些信息。如果檢測窗口在早先串聯(lián)階段被否決,則其特征和檢測得分無法用于下一階段。
(4) 整個訓(xùn)練階段有助于避免過擬合。首先采取非監(jiān)督方式對轉(zhuǎn)移矩陣Wh,i進行預(yù)訓(xùn)練,這可提高泛化能力。有監(jiān)督分階段訓(xùn)練可認為是向參數(shù)施加正規(guī)化約束,即在早期訓(xùn)練策略中要求部分參數(shù)為0。在每個階段,利用先前訓(xùn)練策略到達的優(yōu)質(zhì)點對整個網(wǎng)絡(luò)初始化,追加的濾波器對被錯分的硬性樣本進行處理。在先前訓(xùn)練策略中有必要設(shè)置Ws,t+1=0且Ft+1=0;否則,它將成為標準的BP。在標準的BP中,即使是簡單的訓(xùn)練樣本也可能對各個分類器造成影響。不會根據(jù)它們的難度水平將訓(xùn)練樣本分配給不同的分類器。整個模型的參數(shù)空間很大,很容易進行過擬合。
在訓(xùn)練和測試階段,利用HOG和CSS特征及一個線性SVM分類器來生成得分圖作為底層的輸入。利用一個保守閾值來修剪樣本,降低計算量。在3×3窗口中生成每一層的得分圖,將11個金字塔與對齊后的最大得分圖進行融合,作為得分圖中心。與文獻[14]類似,我們利用對數(shù)平均丟失率來衡量總體性能,其中對數(shù)平均丟失率表示范圍在10-2~100且在對數(shù)空間均衡分布的9個FPPI率的均值,并利用文獻[14]中的評估代碼繪出丟失率和每幅圖像的錯判量(FPPI)之間的關(guān)系。
2.1 總體性能
在如下3個公共數(shù)據(jù)集上進行實驗:Caltech數(shù)據(jù)集、ETHZ數(shù)據(jù)集及TUD-Brussels 數(shù)據(jù)集。我們只關(guān)注合適的子集,即含有50像素或更高、未遮擋或部分遮擋的行人圖像。深度模型(ContDeepNet)行人檢測方法與目前較為典型的行人檢測算法做比較:VJ[21], Shapelet[18], PoseInv[14], ConvNet-U-MS[20],FtrMine[11], HikSvm[15], HOG[7], MultiFtr[24], Pls[19],HogLbp[23], LatSvm-V1[12],LatSvm-V2[13],MultiFtr+CSS[22],FPDW[11],ChnFtrs[10],DN-HOG[16],MultiFr+Motion[22],MultiResC[17],CrossTalk[9], Contextual Boost[8]。
2.1.1 Caltech數(shù)據(jù)集的性能比較
使用Caltech訓(xùn)練數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),并用Caltech測試數(shù)據(jù)集進行測試。圖4給出了實驗結(jié)果。被比較算法已經(jīng)采用了多種特征,比如Haar-like特征、形狀子特征( shapelet )、HOG、LBP和CSS。其中,文獻[8,13]采用基于部位的模型、文獻[7,23]采用線性SVM、文獻[15]采用內(nèi)核SVM、文獻[8,9,10,21]采用串聯(lián)分類器、文獻[16,20]采用深度模型、文獻[12]中的MultiResC和文獻[8]中的上下文增強(Contextual-Boost)算法與本文類似,采用HOG+CSS作為特征。上下文增強(Contextual-Boost)算法雖然采用串聯(lián)分類器,但是沒有對分類器進行聯(lián)合優(yōu)化,它們的對數(shù)平均丟失率為48%。所有現(xiàn)有算法中,這兩種算法的對數(shù)平均丟失率最低。與MultiResC和上下文增強(Contextual-Boost)算法相比,ContDeepNet算法的對數(shù)平均丟失率下降到45%,性能提升了3%。
圖4 Caltech測試數(shù)據(jù)集的性能比較
2.1.2 ETHZ數(shù)據(jù)集的性能比較
圖5給出了對ETHZ行人數(shù)據(jù)集的實驗結(jié)果。與大多數(shù)算法利用INRIA訓(xùn)練數(shù)據(jù)集進行訓(xùn)練并利用ETHZ數(shù)據(jù)集進行測試類似,深度模型也利用INIRA訓(xùn)練數(shù)據(jù)集進行訓(xùn)練。ConvNet-U-MS表示文獻[20]中給出的卷積網(wǎng)絡(luò)模型運行結(jié)果。ConvNet-U-MS是當前所有算法中對數(shù)平均丟失率最低的算法,但是與ConvNet-U-MS相比,ContDeepNet方法的對數(shù)平均丟失率為48%,性能提升了2%。ConvNet-U-MS利用一種深度模型來學(xué)習(xí)低層次特征,但是它既沒有利用上下文得分,也沒有利用多階段分類器。
圖5 ETHZ數(shù)據(jù)集的性能比較
2.1.3 TUD-Brussels數(shù)據(jù)集的性能比較
圖6給出了TUD-Brussels行人數(shù)據(jù)集的實驗結(jié)果。利用INRIA訓(xùn)練數(shù)據(jù)集進行模型訓(xùn)練。本文算法的對數(shù)平均丟失率為63%。有部分算法的性能優(yōu)于本文算法。這些算法利用的特征更多。性能最優(yōu)的MultiFtr+Motion[22]算法利用了運動特征。
圖6 TUD數(shù)據(jù)集的性能比較
2.2 架構(gòu)比較
采用不同架構(gòu)時的實驗結(jié)果,比較兩種3層深度網(wǎng)絡(luò)的性能。第1個網(wǎng)絡(luò)表示為DeepNetNoFilter,未額外采用分類器。第2種網(wǎng)絡(luò)即為本文采用了3個額外分類器的ContDeepNet網(wǎng)絡(luò)。兩種網(wǎng)絡(luò)在其他方面均相同,利用Caltech訓(xùn)練數(shù)據(jù)集進行訓(xùn)練,利用Caltech測試數(shù)據(jù)集進行測試。如圖7所示,當包含額外分類器時,對數(shù)平均丟失率下降了6%。
圖8給出了被ContDeepNet正確分類但是被DeepNetNoFilter錯誤分類的檢測樣本。這些樣本是從兩種算法300個檢測樣本中選擇出來的檢測得分最高的樣本。追加的分類器有助于本文深度模型處理硬性樣本。例如,公交燈、輪胎和樹干的虛警現(xiàn)象被正確排除,側(cè)視、模糊、被遮擋的行人和行進中的自行車的漏警現(xiàn)象被正確檢測出來。
圖7 不同深度架構(gòu)對Caltech測試數(shù)據(jù)集的性能比較
圖8 被DeepNet-NoFilter錯誤分類但被ContDeepNet正確分類的檢測結(jié)果
2.3 訓(xùn)練策略的比較
在架構(gòu)與ContDeepNet相同、但訓(xùn)練策略不同的條件下展開一組實驗。其中,BP表示整個網(wǎng)絡(luò)只利用BP策略進行訓(xùn)練,不經(jīng)逐層預(yù)訓(xùn)練對所有參數(shù)隨機初始化,然后通過后向傳播來對所有轉(zhuǎn)移矩陣和過濾器進行同步更新。PretrainTransferMatrix-BP算法采用文獻[26]中的方法對所有轉(zhuǎn)移矩陣進行無監(jiān)督預(yù)訓(xùn)練,然后通過BP方法對整個網(wǎng)絡(luò)進行微調(diào)。Multi-stage表示本文所提訓(xùn)練策略,它采用逐階段BP策略而不是標準BP策略來訓(xùn)練整個網(wǎng)絡(luò)。圖9的實驗結(jié)果證明了本文訓(xùn)練策略的有效性。
圖9 架構(gòu)與ContDeep-Net相同但訓(xùn)練策略不同時對Caltech測試數(shù)據(jù)集的運行結(jié)果
提出了一種新的多階段上下文深度模型,并針對行人檢測設(shè)計了專門的訓(xùn)練策略。該模型可對串聯(lián)分類器進行模擬。來自特征圖和得分圖的金字塔上下文信息可在串聯(lián)分類器中傳播。通過多階段后向傳播,對深度模型中的所有分類器進行聯(lián)合訓(xùn)練。通過無監(jiān)督預(yù)訓(xùn)練和專門設(shè)計的多階段有監(jiān)督訓(xùn)練策略,避免過擬合,有效提高了行人檢測的準確性。下一步工作重點是對復(fù)雜背景下人體動作識別進行研究,提出一種基于定位的人體聯(lián)合姿態(tài)跟蹤和動作識別算法。
[1] 蘇松志, 李紹滋, 陳淑媛, 等. 行人檢測技術(shù)綜述[J]. 電子學(xué)報, 2012, 40(4): 814-820.
[2] 陳 銳, 彭啟民. 基于穩(wěn)定區(qū)域梯度方向直方圖的行人檢測方法[J]. 計算機輔助設(shè)計與圖形學(xué)學(xué)報, 2012, 24(3): 372-377.
[3] Benenson R, Mathias M, Timofte R,etal. Pedestrian detection at 100 frames per second[C]∥Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. IEEE, 2012: 2903-2910.
[4] 種衍文, 匡湖林, 李清泉. 一種基于多特征和機器學(xué)習(xí)的分級行人檢測方法[J]. 自動化學(xué)報, 2012, 38(3): 375-381.
[5] 曾波波, 王貴錦, 林行剛. 基于顏色自相似度特征的實時行人檢測[J]. 清華大學(xué)學(xué)報(自然科學(xué)版), 2012, 52(4): 571-574.
[6] 田仙仙, 鮑 泓, 徐 成. 一種改進 HOG 特征的行人檢測算法[J]. 計算機科學(xué), 2014, 41(9): 320-324.
[7] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR2005). IEEE, 2005: 886-893.
[8] Ding Y, Xiao J. Contextual boost for pedestrian detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR2012). IEEE, 2012: 2895-2902.
[9] Dollár P, Appel R, Kienzle W. Crosstalk cascades for frame-rate pedestrian detection [M]. Computer Vision. Springer Berlin Heidelberg, 2012: 645-659.
[10] Dollár P, Tu Z, Perona P,etal. Integral Channel Features [J].BMVC. 2009, 2(3): 510-518.
[11] Dollár P, Tu Z, Tao H,etal. Feature mining for image classification[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR2007). IEEE, 2007: 1-8.
[12] Felzenszwalb P, McAllester D, Ramanan D. A discriminatively trained, multiscale, deformable part model[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR2008). IEEE, 2008: 1-8.
[13] Felzenszwalb P F, Girshick R B, McAllester D,etal. Object detection with discriminatively trained part-based models [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.
[14] Lin Z, Davis L S. A pose-invariant descriptor for human detection and segmentation [M]. Computer Vision. Springer Berlin Heidelberg, 2008: 423-436.
[15] Maji S, Berg A C, Malik J. Classification using intersection kernel support vector machines is efficient[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2008). IEEE, 2008: 1-8.
[16] Ouyang W, Wang X. A discriminative deep model for pedestrian detection with occlusion handling[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR2012). IEEE, 2012: 3258-3265.
[17] Park D, Ramanan D, Fowlkes C. Multiresolution models for object detection [M]. Computer Vision-ECCV 2010. Springer Berlin Heidelberg, 2010: 241-254.
[18] Sabzmeydani P, Mori G. Detecting pedestrians by learning shapelet features[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR2007). IEEE, 2007: 1-8.
[19] Schwartz W R, Kembhavi A, Harwood D,etal. Human detection using partial least squares analysis[C]∥IEEE 12th international conference on Computer vision. IEEE, 2009: 24-31.
[20] Sermanet P, Kavukcuoglu K, Chintala S,etal. Pedestrian detection with unsupervised multi-stage feature learning[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR2013). IEEE, 2013: 3626-3633.
[21] Viola P, Jones M J, Snow D. Detecting pedestrians using patterns of motion and appearance [J]. International Journal of Computer Vision, 2005, 63(2): 153-161.
[22] Walk S, Majer N, Schindler K,etal. New features and insights for pedestrian detection[C]∥IEEE conference on Computer vision and pattern recognition (CVPR2010). IEEE, 2010: 1030-1037.
[23] Wang X, Han T X, Yan S. An HOG-LBP human detector with partial occlusion handling[C]∥12th International Conference on Computer Vision. IEEE, 2009: 32-39.
[24] Wojek C, Schiele B. A performance evaluation of single and multi-feature people detection [M]. Pattern Recognition. Springer Berlin Heidelberg, 2008: 82-91.
[25] Hinton G, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets [J]. Neural Computation, 2006, 18(7): 1527-1554.
Research on a Pedestrian Detection Scheme Based on Deep Model
GUOQiu-yan1,LIXin2
(1. School of Automotive and Electronic Engineering, Xichang College, Xichang 615013, China;2. Graduate School of Shenzhen, Tsinghua University, Shenzhen 518055, China)
The existing pedestrian detection schemes are based on cascaded classifiers, hence it has too many parameters and low reliability of detection. In this paper, we propose a new deep model that can jointly train multi-stage classifiers through several stages of back propagation to achieve pedestrian detection. It keeps the score map output by a classifier within a local region, and uses it as contextual information to support the decision at the next stage. Through a specific design of the training strategy, this deep architecture is able to simulate the cascaded classifiers by mining hard samples to train the network stage-by-stage. However, each classifier handles samples with different difficulty levels, and unsupervised pre-training and specifically designed stage-wise supervised training are used to regularize the optimization problem for the reliability of pedestrian detection. Both theoretical analysis and experimental results show that the training strategy helps to avoid over-fitting. Experimental results on three datasets (Caltech, ETH and TUD-Brussels) show that the presented approach outperforms the state-of-the-art approaches.
cascaded classifiers; pedestrian detection; deep model; contextual information
2015-07-06
國家自然科學(xué)基金項目資助(61371138/F010403)
郭秋滟(1981-),女,四川隆昌人,講師,研究方向:圖像處理、計算機視覺。
E-mail: 929138392@qq.com
TP 391
A
1006-7167(2016)08-0121-06