徐 輝,李海翔,唐世軒,劉威龍,王雨晨
(1.內(nèi)蒙古智能煤炭有限責(zé)任公司,內(nèi)蒙古鄂爾多斯 017100;2.中國(guó)礦業(yè)大學(xué)信息與控制工程學(xué)院,江蘇徐州 221116)
行人檢測(cè)是一項(xiàng)綜合技術(shù),涉及人工智能、模式識(shí)別和圖像處理等多個(gè)領(lǐng)域,可應(yīng)用于駕駛輔助系統(tǒng)、視頻監(jiān)控、智能交通等[1]。隨著煤礦機(jī)械化、自動(dòng)化程度的提高,信息化和智能化成為安全高效綠色現(xiàn)代化煤礦的發(fā)展方向,其中煤礦井機(jī)器人是減少煤礦井下作業(yè)人員的有效措施[2-3]。在礦井危險(xiǎn)區(qū)域機(jī)器人的巡檢中,為避免在工作面里行進(jìn)中的人員與機(jī)器設(shè)備危險(xiǎn)接近造成生產(chǎn)事故,基于圖像的可視化行人檢測(cè)成為要解決的關(guān)鍵問(wèn)題。
由于圖像和視頻中的環(huán)境條件是多樣的,從不同角度拍攝到的行人姿態(tài)也會(huì)發(fā)生變化,且圖像或視頻中的行人行為動(dòng)作各異,具有多樣性等特點(diǎn),目前在各類應(yīng)用中對(duì)行人進(jìn)行檢測(cè)與識(shí)別的準(zhǔn)確性仍有一定的提升空間[4]。
行人檢測(cè)算法若按照算法實(shí)現(xiàn)原理進(jìn)行區(qū)分,大致可分為兩大類:基于運(yùn)動(dòng)檢測(cè)的行人檢測(cè)算法和基于機(jī)器學(xué)習(xí)的行人檢測(cè)算法[5]。其中基于機(jī)器學(xué)習(xí)的行人檢測(cè)算法是目前行人檢測(cè)算法的主流研究方向。2005 年,在著名的學(xué)術(shù)會(huì)議CVPR 上,Dalal 等[6]提出了基于提取圖像的方向梯度直方圖(Histogram of Oriented Gradients,HOG)特征,并使用支持向量機(jī)(Support Vector Machine,SVM)分類器進(jìn)行分類識(shí)別的行人檢測(cè)算法;之后,便有學(xué)者參考了Viola 等[7]提出的VJ(Viola-Jones,VJ)人臉檢測(cè)器的設(shè)計(jì)思想,提出了將HOG 特征與自適應(yīng)增強(qiáng)(Adaboost)分類器進(jìn)行結(jié)合的行人檢測(cè)算法,以提高算法運(yùn)行速度;Ojala等[8]提出了局部二值模式(Local Binary Pattern,LBP)特征提取算法,并將其應(yīng)用于紋理識(shí)別方向;Wang等[9]將LBP特征與HOG特征結(jié)合,并使用SVM 分類器分類,提出了HOG-LBP 行人檢測(cè)算法;隨著Krizhevsky等[10]將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于較大規(guī)模的圖像分類問(wèn)題中以來(lái),研究者們發(fā)現(xiàn)基于深度學(xué)習(xí)方法所提取的特征比傳統(tǒng)的人造特征具有層次表達(dá)能力更好且魯棒性更佳等優(yōu)勢(shì),紛紛開(kāi)始從事基于深度學(xué)習(xí)的檢測(cè)方法的研究。Angelova 等[11]根據(jù)Adaboost 算法中級(jí)聯(lián)分類器的思想,提出了一種基于級(jí)聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)算法,實(shí)現(xiàn)了快速排除圖像中的大部分背景區(qū)域的效果;Ouyang 等[12]提出聯(lián)合深度學(xué)習(xí)(Joint Deep)算法,即基于一種混合策略,將HOG特征與級(jí)聯(lián)樣式表(Cascading Style Sheets,CSS)特征融合并使用SVM 分類器分類來(lái)設(shè)計(jì)第一級(jí)檢測(cè)器對(duì)樣本預(yù)過(guò)濾,再使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行接下來(lái)的判斷。
在眾多行人檢測(cè)算法中,HOG-LBP行人檢測(cè)算法由于其在檢測(cè)精度以及處理被遮擋問(wèn)題等方面的優(yōu)秀表現(xiàn),引起了眾多學(xué)者的極大關(guān)注。但是,HOG 特征對(duì)于梯度空間特性描述不佳。而LBP 特征的二值編碼策略使得其對(duì)于光照和噪聲的魯棒性有待提高,并且非線性內(nèi)核SVM分類器的算法復(fù)雜度較大,檢測(cè)的實(shí)時(shí)性也需要改進(jìn)。本文基于HOG-LBP 算法框架,并針對(duì)以上問(wèn)題,提出了一種基于級(jí)聯(lián)特征分類器的行人檢測(cè)算法。其中,為有效表征梯度空間特征,本文算法計(jì)算了圖像的方向梯度共生直方圖(Cooccurrence Histograms of Oriented Gradients,CoHOG)[13]特征。同時(shí),為了提高算法對(duì)光照和噪聲的魯棒性,計(jì)算了圖像的魯棒局部二值模式(Robust Local Binary Pattern,RLBP)[14]特征。最后基于以上特征提取方法,以此構(gòu)建了一種實(shí)時(shí)性較強(qiáng)的將多級(jí)特征弱分類器級(jí)聯(lián)的分類器,實(shí)現(xiàn)最終的對(duì)行人目標(biāo)的分類與檢測(cè)。對(duì)于檢測(cè)窗口的融合,采用軟性非極大值抑制(soft-Non Max Suppressed,soft-NMS)[15]算法,避免了在處理行人之間出現(xiàn)部分黏連或遮擋的情況時(shí),容易將其中一個(gè)行人的檢測(cè)窗口誤去除的問(wèn)題。
由于圖像中光照與噪聲變化,圖像局部灰度差異較大,傳統(tǒng)的LBP 特征無(wú)法反映出這一局部差異變化,此時(shí)特征的光照與噪聲魯棒性較差,對(duì)于局部細(xì)節(jié)特征描述效果一般。
Ojala[16]證明通過(guò)將LBP 特征的中心像素替換為局部量化閾值可有效解決以上問(wèn)題。在特征提取中有時(shí)需要中心像素的特定信息,為在提高噪聲魯棒性和單個(gè)像素的信息之間取得平衡,定義了一個(gè)加權(quán)局部灰度(Weighted Local Gray,WLG):
式中:g為中心像素點(diǎn)的灰度值;gi(i=0,1,…,8)為相鄰像素點(diǎn)的灰度值;α為可被設(shè)置的一個(gè)參數(shù),用于平衡特征的兩種特性。
定義函數(shù)s(u),進(jìn)行計(jì)算:
則RLBP可表示為:
式中:s為符號(hào)函數(shù);u=gp-WLG 為相鄰像素點(diǎn)的灰度值與加權(quán)局部灰度值的差;gc為中心像素點(diǎn)的灰度值;gp(p=0,…,P -1)為一個(gè)半徑為R的圓上相鄰像素點(diǎn)的灰度值;P為在此圓上的相鄰像素的總數(shù);gci(i=0,…,8)為gc的相鄰像素點(diǎn)的灰度值。Bodla[15]已證明,當(dāng)α=7 時(shí),RLBP 算子不僅在復(fù)雜的光照和視點(diǎn)變化條件下表現(xiàn)更穩(wěn)定,而且抗噪聲的性能較好。
CoHOG特征使用成對(duì)的漸變方向作為單位,從中構(gòu)建直方圖,以下將此直方圖稱為共生矩陣。
相鄰梯度方向的組合可以詳細(xì)描述目標(biāo)的形狀,有助于提高算法的行人檢測(cè)精度[17]。通過(guò)數(shù)學(xué)式形式,共生矩陣C定義在一幅尺寸大小為n×m的圖像I上,可由偏移量(x′,y′)參數(shù)化為:
式中:參數(shù)(x′,y′)為一對(duì)坐標(biāo)偏移量。
由于CoHOG特征是一種基于梯度的直方圖特征描述子,因此它具有與HOG特征相同的抗變形和光照變化的魯棒性。CoHOG特征具體可按以下過(guò)程進(jìn)行計(jì)算:
通過(guò)式(4)計(jì)算共生矩陣,如圖1 所示為本文所使用的偏移量。偏移量小于大的實(shí)線圓圈,中心的小白色圓圈為零偏移,其與其他30 個(gè)黑色圓圈為一組。因?yàn)樵谟?jì)算共生矩陣時(shí),其中一半的偏移量與另一半相同,所以僅使用一半偏移量便可進(jìn)行計(jì)算,即可以獲得包括一個(gè)零偏移在內(nèi)的31 個(gè)偏移量。共生矩陣是針對(duì)每個(gè)小區(qū)域進(jìn)行計(jì)算的[13],小矩形區(qū)域平鋪為互補(bǔ)重疊的3 ×6 的網(wǎng)格區(qū)域。將圖像所有共生矩陣的分量連接成一個(gè)向量,即圖像的CoHOG特征向量。
圖1 本文使用的共生矩陣偏移量
傳統(tǒng)的非極大值抑制算法(Non Max Suppressed,NMS)[19],是在當(dāng)所輸出的檢測(cè)窗口重疊面積較大時(shí)(高于某個(gè)閾值),將置信度最高的檢測(cè)窗口作為最終輸出窗口,其他檢測(cè)窗口則直接舍棄。這種方法雖然簡(jiǎn)單快速,但在處理行人之間出現(xiàn)部分黏連或遮擋的情況時(shí),容易將其中一個(gè)行人的檢測(cè)窗口誤去除。
為了避免此類現(xiàn)象的發(fā)生,提高檢測(cè)率,在進(jìn)行檢測(cè)窗口融合時(shí)采用soft-NMS算法。soft-NMS算法平滑處理置信度評(píng)分:
式中:M 為當(dāng)前得分最高的檢測(cè)窗口;Nt為重疊抑制閾值,取0.7;bi為當(dāng)前比較序列的檢測(cè)窗口;iou 為兩個(gè)窗口的交并比。
上述函數(shù)會(huì)將高于閾值Nt的置信度評(píng)分si衰減為與M重疊窗口的線性函數(shù)的值。因此,與M相距較遠(yuǎn)的所輸出的矩形檢測(cè)框不會(huì)被影響,而將更大的懲罰分配給與M 相距較近的所輸出的矩形檢測(cè)框。當(dāng)出現(xiàn)檢測(cè)窗口重疊且懲罰函數(shù)不是連續(xù)的時(shí),可能導(dǎo)致排序的矩形檢測(cè)框列表突發(fā)性改變的情況。當(dāng)無(wú)重疊情況發(fā)生時(shí),連續(xù)懲罰函數(shù)應(yīng)未施加懲罰,并且在高重疊處的懲罰應(yīng)該很高。此外,當(dāng)重疊較低時(shí),因?yàn)镸不應(yīng)該影響與其重疊度非常低的檢測(cè)窗口的分?jǐn)?shù),所以懲罰函數(shù)應(yīng)該逐漸增加懲罰。當(dāng)檢測(cè)框bi與M 的重疊且交并比與1 接近時(shí),bi應(yīng)當(dāng)受到顯著的懲罰。綜上原因,soft-NMS算法將高斯懲罰函數(shù)加入式(5):
式中,D為級(jí)聯(lián)分類器的檢測(cè)率。
Soft-NMS也是一種貪婪的算法,并沒(méi)有找到全局最佳的檢測(cè)框重新評(píng)分。檢測(cè)窗口的重新評(píng)分以貪婪的方式進(jìn)行,因此不會(huì)抑制具有高局部得分的那些檢測(cè)窗口。如圖2 所示為傳統(tǒng)的NMS 算法與soft-NMS算法輸出檢測(cè)窗口的對(duì)比圖,其中圖2(a)為融合前的窗口輸出效果圖,圖2(b)為傳統(tǒng)NMS 算法處理效果圖,圖2(c)為soft-NMS算法處理效果圖。在融合前的效果圖中,不同行人分別被若干窗口包括。為解決此問(wèn)題,融合了傳統(tǒng)NMS算法。但是在行人遮擋的情況下,算法僅選擇置信度最高的檢測(cè)窗口,發(fā)生了誤去除現(xiàn)象,soft-NMS算法在傳統(tǒng)NMS算法的基礎(chǔ)上避免了窗口誤去除的問(wèn)題,提高了檢測(cè)率。
圖2 改進(jìn)前后窗口融合效果對(duì)比
基于HOG-LBP 算法框架,若直接將CoHOG 特征和RLBP特征進(jìn)行串行融合,則生成的最終圖像特征描述子維度過(guò)高,對(duì)于算法實(shí)時(shí)性影響較大,基于對(duì)檢測(cè)速度改進(jìn)的思路,本節(jié)設(shè)計(jì)一種級(jí)聯(lián)的特征分類器算法實(shí)現(xiàn)檢測(cè)。
如果僅使用單一特征對(duì)最簡(jiǎn)單的AdaBoost 弱分類器進(jìn)行訓(xùn)練,那么可將此弱分類器稱為單個(gè)特征上的弱分類器(a Weak Classifier upon a Single Feature,WCSF)[20]。通過(guò)樣本集的訓(xùn)練可找到最佳分類閾值,該閾值取決于最小分類誤差標(biāo)準(zhǔn)。參考AdaBoost 的方法,在INRIA數(shù)據(jù)庫(kù)中提取RLBP特征和CoHOG特征生成兩個(gè)特征集,并分別訓(xùn)練兩個(gè)WCSF。與AdaBoost弱分類器不同,本節(jié)弱分類器的最優(yōu)閾值計(jì)算不僅取決于最小分類誤差準(zhǔn)則,還取決于正樣本最大檢測(cè)率。對(duì)于弱分類的訓(xùn)練步驟[19]如下:
步驟1對(duì)于特征f,計(jì)算N個(gè)正負(fù)訓(xùn)練樣本的特征值。
步驟2對(duì)特征值進(jìn)行排序以生成特征值表。
步驟3對(duì)1≤i≤N中的元素i:計(jì)算所有正樣本的權(quán)重之和T+;所有負(fù)樣本的權(quán)重之和T-;計(jì)算第i個(gè)元素之前所有正樣本的權(quán)重之和;計(jì)算第i個(gè)元素之前所有負(fù)樣本的權(quán)重之和。
步驟4選擇第i-1 個(gè)元素和第i個(gè)元素之間的值作為閾值,此時(shí)弱分類器的分類誤差和正樣本檢測(cè)率分別為:
步驟5若通過(guò)步驟4 僅計(jì)算得一個(gè)閾值Ti滿足以上條件,則Ti就是最佳閾值T;若同時(shí)計(jì)算出多個(gè)閾值滿足條件,則需要使用式(8)計(jì)算出各閾值對(duì)應(yīng)的值,最佳閾值為具有最大正樣本檢測(cè)率的閾值。
Zhang等[20]提出了兩層級(jí)聯(lián)分類器,具有高分類速度的簡(jiǎn)單特征分類器放在第1 層中,而具有慢速的復(fù)雜特征分類器放在第2 層中,以提高檢測(cè)速度?;诖怂枷?,在本小節(jié)中,級(jí)聯(lián)順序由特征提取的計(jì)算復(fù)雜度決定。當(dāng)簡(jiǎn)單特征分類器位于復(fù)雜分類器的前面時(shí),前一個(gè)分類器過(guò)濾掉的負(fù)前景對(duì)象將不會(huì)被后一個(gè)分類器處理。因此,作為復(fù)雜特征分類器的輸入的對(duì)象的數(shù)量減少,并且計(jì)算時(shí)間也減少。RLBP 特征在計(jì)算效率上相對(duì)CoHOG 特征有著較大優(yōu)勢(shì),本小節(jié)將4 級(jí)RLBP特征級(jí)聯(lián)分類器串聯(lián)1 級(jí)CoHOG 特征分類器作為預(yù)處理環(huán)節(jié)添加到最終的CoHOG-RLBP特征分類器之前,最后一級(jí)CoHOG-RLBP 特征分類器使用的是串聯(lián)融合的CoHOG-RLBP 特征,廣義上此分類器仍為WCSF,因此該弱分類器訓(xùn)練方法與前5 級(jí)弱分類器相同,這樣就構(gòu)成了一個(gè)6 級(jí)級(jí)聯(lián)分類器。如圖3 所示,為本文分類器設(shè)計(jì)與算法流程圖。本文最終提出基于級(jí)聯(lián)特征分類器的行人檢測(cè)算法(以下稱為級(jí)聯(lián)CoHOG-RLBP算法)。
圖3 基于級(jí)聯(lián)特征分類器的行人檢測(cè)算法
為對(duì)算法各改進(jìn)部分的有效性進(jìn)行驗(yàn)證,在HOG-LBP算法框架下將CoHOG特征分別和LBP特征與RLBP特征融合,使用SVM 分類器分類,構(gòu)建兩種對(duì)比算法:CoHOG-LBP 算法和CoHOG-RLBP 算法,選取HOG算法[5]、HOG-LBP算法[9]來(lái)作為對(duì)比算法,通過(guò)比較在INRIA 行人數(shù)據(jù)集測(cè)試集上的分類結(jié)果以及畫(huà)出各算法關(guān)于INRIA 行人數(shù)據(jù)集的DET(Detection Error Tradeoff)曲線來(lái)進(jìn)行對(duì)比,以論證本文所提出算法在檢測(cè)性能上的優(yōu)越性,同時(shí)比較各算法檢測(cè)效果的優(yōu)劣。
實(shí)驗(yàn)所采用硬件平臺(tái)為一臺(tái)處理器為Intel(R)Core(TM)i7-7800X CPU @ 3.50 Hz 的臺(tái)式機(jī),顯卡為雙NVIDIA Corporation GP102[GeForce GTX 1080 Ti],操作系統(tǒng)為Ubuntu 18.04.1 LTS。實(shí)驗(yàn)實(shí)現(xiàn)算法所用軟件平臺(tái)為Matlab R2016b。
為驗(yàn)證本文算法的優(yōu)越性,比較各算法在INRIA行人數(shù)據(jù)庫(kù)上的分類準(zhǔn)確率與召回率,得到如表1 所示的分類準(zhǔn)確率與召回率匯總情況。由表1 可知,將CoHOG-LBP算法和CoHOG-RLBP算法與傳統(tǒng)算法進(jìn)行比較,準(zhǔn)確率和召回率均有所提升,其中CoHOG-RLBP提升幅度較大,可知CoHOG特征和RLBP特征相較于傳統(tǒng)的HOG 特征和LBP 特征對(duì)算法的檢測(cè)精度均具有提升作用。將本文算法與CoHOG-RLBP算法進(jìn)行比較,兩種算法的準(zhǔn)確率與召回率均幾乎持平。綜上,本文所使用的特征提取方法與傳統(tǒng)算法相比在檢測(cè)精度上具有明顯優(yōu)勢(shì),且本文算法所使用的級(jí)聯(lián)特征分類器與傳統(tǒng)的將特征融合與SVM分類器相結(jié)合的算法相比并不會(huì)造成檢測(cè)精度下降。
表1 各算法分類準(zhǔn)確率和召回率匯總
圖4 所示為各算法的檢測(cè)誤差權(quán)衡(Detection Error Tradeoff,DET)曲線對(duì)比圖,表示給定樣本圖像數(shù)目為N的樣本集中(其中每張圖像可能存在也可能不存在目標(biāo),且已對(duì)存在的目標(biāo)進(jìn)行標(biāo)定),錯(cuò)誤判定圖像中的目標(biāo)則計(jì)為錯(cuò)誤正例(false positive)。橫坐標(biāo)是每個(gè)樣本中的錯(cuò)誤正例的次數(shù)(false positive per image,F(xiàn)PPI);縱坐標(biāo)為漏檢率(miss rate)。行人檢測(cè)算法的DET曲線越偏向坐標(biāo)系的左下方就越表明算法的識(shí)別精度越好。由圖4 實(shí)驗(yàn)結(jié)果可得到與表1 相同結(jié)論,可驗(yàn)證本文算法所使用的特征有效提高了檢測(cè)精度,且級(jí)聯(lián)特征分類器對(duì)檢測(cè)精度并不會(huì)有較大影響。
圖4 不同算法DET曲線對(duì)比圖
圖5 所示為各場(chǎng)景下本文算法對(duì)行人目標(biāo)的檢測(cè)效果圖。圖5(a)為噪聲較多圖像較模糊的場(chǎng)景,圖5(b)為光照不均且部分區(qū)域光線較為昏暗的場(chǎng)景,圖5(c)為背景與前景均較為復(fù)雜的場(chǎng)景,本文算法基本可準(zhǔn)確檢測(cè)出圖中各行人目標(biāo),對(duì)光照和噪聲具有較強(qiáng)的魯棒性。
圖5 不同場(chǎng)景下級(jí)聯(lián)CoHOG-RLBP算法檢測(cè)圖
本文使用INRIA 行人數(shù)據(jù)庫(kù)的測(cè)試集的正樣本集進(jìn)行速度對(duì)比實(shí)驗(yàn)。由于測(cè)試集正樣本集共288 張圖片,當(dāng)中圖片大小不同且其中大多數(shù)像素尺寸為480 ×640 的行人圖片,則選取其中211 張圖像像素尺寸為480 ×640 的圖片組成新的測(cè)試集,進(jìn)行運(yùn)行速度對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)運(yùn)行行人檢測(cè)算法10 次,計(jì)算這10次實(shí)驗(yàn)的平均每幀檢測(cè)時(shí)間作為評(píng)價(jià)標(biāo)準(zhǔn)。實(shí)驗(yàn)結(jié)果見(jiàn)表2。
由表2 可知,本文算法由于在分類器設(shè)計(jì)上使用了6 級(jí)級(jí)聯(lián)特征弱分類器,大幅提升了算法的檢測(cè)速度,本文算法在檢測(cè)實(shí)時(shí)性上具有明顯優(yōu)勢(shì)。綜合算法的檢測(cè)精度性能,本文所提出的基于級(jí)聯(lián)特征分類器的行人檢測(cè)算法與傳統(tǒng)算法相比性能有大幅度的提升,本文所設(shè)計(jì)的分類器不僅可以明顯提升行人檢測(cè)算法的檢測(cè)速度,而且不會(huì)影響對(duì)算法的檢測(cè)精度產(chǎn)生負(fù)影響。
表2 各算法平均檢測(cè)時(shí)間匯總
本文基于HOG-LBP 行人算法框架,提出了一種基于級(jí)聯(lián)特征分類器的行人檢測(cè)算法。本文分別提取圖像的CoHOG特征與RLBP特征,同時(shí)針對(duì)檢測(cè)實(shí)時(shí)性問(wèn)題設(shè)計(jì)了一種包含4 級(jí)RLBP特征弱分類器、1 級(jí)CoHOG特征弱分類器及1 級(jí)CoHOG-RLBP 融合特征弱分類器在內(nèi)的6 級(jí)級(jí)聯(lián)特征分類器實(shí)現(xiàn)最終分類,并使用soft-NMS 算法進(jìn)行檢測(cè)窗口融合。本文算法有效提高了檢測(cè)精度,對(duì)噪聲和光照具有較好的魯棒性,能夠很好描述行人與背景之間的梯度空間特性,而且具有較好的檢測(cè)實(shí)時(shí)性,本文算法相較傳統(tǒng)算法具有顯著的優(yōu)越性。
但是本文算法所使用的CoHOG 特征維數(shù)較高,可嘗試使用對(duì)其進(jìn)行改進(jìn)或做降維處理來(lái)進(jìn)一步提升算法的檢測(cè)速度。并且,相較于深度學(xué)習(xí)方法,本文算法在檢測(cè)精度上仍具有改進(jìn)空間。在未來(lái)研究中,可嘗試使用深度學(xué)習(xí)的方法進(jìn)行檢測(cè),來(lái)進(jìn)一步提高檢測(cè)精度。