郭繼昌,李翔鵬
(天津大學(xué)電氣自動(dòng)化與信息工程學(xué)院 天津 南開(kāi)區(qū) 300072)
近年來(lái),隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,智能視頻監(jiān)控系統(tǒng)己在商場(chǎng)、學(xué)校、火車站等公共場(chǎng)所大量應(yīng)用,以保障社會(huì)有序穩(wěn)定運(yùn)行。人數(shù)統(tǒng)計(jì)是智能視頻監(jiān)控領(lǐng)域的一個(gè)具有現(xiàn)實(shí)意義的研究方向,也是計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)和難點(diǎn)之一。準(zhǔn)確統(tǒng)計(jì)監(jiān)控場(chǎng)景中的人數(shù)在公安防控、商業(yè)信息采集以及配置社會(huì)資源和設(shè)施上具有重要意義。
行人統(tǒng)計(jì)使用的方法主要有基于目標(biāo)檢測(cè)的人數(shù)統(tǒng)計(jì)方法和基于特征回歸的人數(shù)統(tǒng)計(jì)方法,這兩類方法均用到了有監(jiān)督的機(jī)器學(xué)習(xí)思想,此外還有基于無(wú)監(jiān)督學(xué)習(xí)的跟蹤軌跡聚類[1]方法等。在有監(jiān)督學(xué)習(xí)方法中,基于HOG[2]算法檢測(cè)行人是被廣泛使用的方法之一,該方法通過(guò)計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域的梯度方向直方圖來(lái)構(gòu)成行人特征,此外還有提取行人頭部、面部特征和模板匹配的檢測(cè)方法,如LBP算法[3],DPM算法[4],再使用機(jī)器學(xué)習(xí)中SVM分類器以及Adaboost級(jí)聯(lián)分類器[3]訓(xùn)練出行人分類器進(jìn)而識(shí)別和檢測(cè)行人。此類方法在行人遮擋嚴(yán)重以及光照不足時(shí),精度較差;基于特征回歸的方法則通過(guò)提取區(qū)域的紋理等特征,然后采用核函數(shù)實(shí)現(xiàn)紋理特征到人數(shù)的回歸映射。此類方法可以有效的降低行人互相遮擋對(duì)檢測(cè)的影響,但是人群分布特征很難使用數(shù)學(xué)特征完全描述,影響統(tǒng)計(jì)準(zhǔn)確性。
近幾年,隨著深度學(xué)習(xí)理論的日趨成熟以及硬件設(shè)備性能的提升,使得卷積神經(jīng)網(wǎng)絡(luò)成為計(jì)算機(jī)視覺(jué)與模式識(shí)別領(lǐng)域的一個(gè)有力工具。文獻(xiàn)[5]將卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化后應(yīng)用于目標(biāo)分類,在ImageNet圖像數(shù)據(jù)庫(kù)上的測(cè)試中取得了令人滿意的結(jié)果。文獻(xiàn)[6]提出了R-CNN(regionproposal-CNN)算法并創(chuàng)建了在GPU上運(yùn)行的Caffe框架,成為近年深度學(xué)習(xí)中實(shí)現(xiàn)目標(biāo)檢測(cè)的經(jīng)典算法之一。文獻(xiàn)[7]采用卷積神經(jīng)網(wǎng)絡(luò)將人群的分布特征提取后投入訓(xùn)練,用網(wǎng)絡(luò)生成的模型估計(jì)視頻中行人數(shù)量,成為深度學(xué)習(xí)應(yīng)用于行人檢測(cè)的一個(gè)實(shí)例。這些算法雖然提取到了有效的行人特征并建立了精確的預(yù)測(cè)模型,但仍然不能很好地解決遮擋和光照變化以及人群分布不均等因素對(duì)檢測(cè)的影響。
為了解決上述問(wèn)題,在提取監(jiān)控視頻中行人特征之前需要考慮到實(shí)際場(chǎng)景中的情況,如人群分布聚集不規(guī)律、行人間存在相互遮擋、光照度偏暗以及雨霧天氣等復(fù)雜的室外環(huán)境因素的影響。本文針對(duì)以上問(wèn)題對(duì)現(xiàn)有算法做出選擇和改進(jìn),提出結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和密度分布特征的人數(shù)統(tǒng)計(jì)算法,將不同的特征提取算法應(yīng)用在其對(duì)應(yīng)的場(chǎng)景中,從而有效解決了上述干擾因素,增加了算法統(tǒng)計(jì)精度。
行人統(tǒng)計(jì)的關(guān)鍵在于尋找含有行人的區(qū)域并提取其特征。由于人群分布的隨意性使得特定時(shí)間段內(nèi)場(chǎng)景中人群不規(guī)律聚集,稠密度不均。為了提高精度,本文提出在不同稠密度的場(chǎng)景下分別使用不同的特征提取方法:在人數(shù)密集的場(chǎng)景下,人和人之間存在遮擋,人群呈團(tuán)塊區(qū)域狀分布,此時(shí)采用提取區(qū)域紋理、密度分布特征的方法來(lái)估計(jì)行人數(shù)量;在人群稀少的場(chǎng)景中,使用統(tǒng)計(jì)回歸方法來(lái)估計(jì)人數(shù)誤差會(huì)很大,此時(shí)采用行人識(shí)別的方法可以簡(jiǎn)單快捷的來(lái)統(tǒng)計(jì)人數(shù)。因此,本文的行人統(tǒng)計(jì)算法分為行人識(shí)別和特征回歸兩部分,以應(yīng)對(duì)不同復(fù)雜度的人群場(chǎng)景。
圖1 人數(shù)統(tǒng)計(jì)算法框架結(jié)構(gòu)示意圖
本文算法將視頻中的人群依據(jù)稠密度分割成若干團(tuán)塊,統(tǒng)計(jì)各團(tuán)塊的像素?cái)?shù)和周長(zhǎng),取中值作為閾值θ,像素?cái)?shù)和周長(zhǎng)小于該閾值則記為稀疏人群團(tuán)塊,反之為密集人群團(tuán)塊。對(duì)于稀疏人群場(chǎng)景,在使用卷積神經(jīng)網(wǎng)絡(luò)提取行人特征之前,加入選擇搜索算法對(duì)行人所處區(qū)域進(jìn)行預(yù)判,剔除冗余特征。為了避免光照變化對(duì)行人定位造成干擾,首先采用Retinex算法[8]對(duì)場(chǎng)景去噪,并利用HSV顏色空間中各個(gè)分量相互分離對(duì)光照變化不敏感的特性,將行人場(chǎng)景由RGB顏色空間轉(zhuǎn)換為HSV顏色空間后再判斷行人位置和特征提取。在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí),采用柵極損失函數(shù)[9]分塊訓(xùn)練網(wǎng)絡(luò),可以增加算法對(duì)行人局部位置的識(shí)別,從而有效減少遮擋對(duì)識(shí)別的影響。對(duì)于密集人群場(chǎng)景,在訓(xùn)練中設(shè)置描述子來(lái)標(biāo)注行人目標(biāo),再選擇線性映射將特征向量轉(zhuǎn)換為密度值并構(gòu)建人群密度分布圖,借助其良好的描述人群分布信息的能力以提高回歸模型統(tǒng)計(jì)人數(shù)的精確度。算法的流程圖如圖1。
在稀疏場(chǎng)景中,人與人之間有間隔距離或者輕微遮擋,此時(shí)適用于對(duì)單個(gè)行人目標(biāo)進(jìn)行的檢測(cè)和識(shí)別算法,該場(chǎng)景下的行人識(shí)別算法分為3個(gè)步驟:1) 使用Retinex算法對(duì)場(chǎng)景去噪后轉(zhuǎn)換至HSV顏色空間,并采用選擇搜索算法[10]找到包含行人的區(qū)域和位置;2) 使用柵極損失函數(shù)分塊訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)提取行人局部區(qū)域特征;3) 使用局部分類器判斷提取出的特征是否為行人目標(biāo)。
在行人檢測(cè)識(shí)別中,輸入卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)精確與否決定了提取出的行人特征質(zhì)量的好壞,本文借鑒目標(biāo)識(shí)別中的R-CNN算法,在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)之前采用選擇搜索算法對(duì)行人區(qū)域進(jìn)行預(yù)判和選擇,使得訓(xùn)練目標(biāo)更具針對(duì)性。考慮到行人場(chǎng)景容易受到光照變化的影響,本文將選擇搜索算法進(jìn)行了改進(jìn)。從表1[11]可以看出,HSV顏色空間對(duì)光強(qiáng),陰影和高光變化的穩(wěn)定性最強(qiáng),因?yàn)镠SV顏色空間是將白色光區(qū)域沿著RGB模型對(duì)角向黑色光區(qū)域投射得到,在這個(gè)空間中色調(diào)H和飽和度S分量與明度V是分離開(kāi)來(lái)的,因而對(duì)光照變化影響很小。圖2是行人區(qū)域定位結(jié)果圖。
表1 不同顏色空間對(duì)光照變化的穩(wěn)定性
圖2 行人區(qū)域預(yù)判結(jié)果示意圖
有監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)可以進(jìn)行多層卷積運(yùn)算,通過(guò)反復(fù)迭代訓(xùn)練以及反向傳播等方式調(diào)整權(quán)值和參數(shù)。網(wǎng)絡(luò)結(jié)構(gòu)通常包含卷基層、池化采樣層和全連接層。其中對(duì)卷積層和池化采樣層模塊的設(shè)計(jì)是特征提取的關(guān)鍵步驟,此外為了保證有效完成對(duì)卷積神經(jīng)網(wǎng)絡(luò)的回歸訓(xùn)練,損失函數(shù)的選擇也至關(guān)重要。使用它提取目標(biāo)區(qū)域中的行人特征,在大量行人數(shù)據(jù)集上訓(xùn)練后可以建立精確的預(yù)測(cè)模型。
2.2.1 柵極損失函數(shù)
傳統(tǒng)的損失函數(shù)是直接根據(jù)整個(gè)圖片的信息特征計(jì)算損失函數(shù)(global loss),使得訓(xùn)練出的神經(jīng)網(wǎng)絡(luò)適于全局目標(biāo)的識(shí)別。而柵極損失函數(shù)整合局部與整體特征,將最后一個(gè)卷積層的特征圖劃分為n×n的小柵極,每個(gè)小柵極看成一個(gè)單獨(dú)的區(qū)域(blocks),單獨(dú)按同樣的方式計(jì)算每一個(gè)小區(qū)域的損失函數(shù),將整個(gè)區(qū)域的損失函數(shù)加和作為最終損失函數(shù),以強(qiáng)化每個(gè)小柵極區(qū)域的獨(dú)立判別能力。如果行人的身體或者臉的一部分被遮擋住,其余子塊可以將該區(qū)域沒(méi)有遮擋住的部分輸入檢測(cè)器,這樣降低了遮擋對(duì)檢測(cè)的影響。
圖3 柵極損失函數(shù)原理圖
設(shè)定x表示 f×r×c維的最后一層卷積層r列c行的特征向量圖,f表示濾波器的數(shù)量,本文將x分割為 f×n×n格非重疊的小柵極區(qū)域 fi,i = 1 ,2,… ,N ,其中并選用鉸鏈損失函數(shù)(hinge loss):
式 中 , θ = [ ω1, ω2, … ,ωN, b1,b2,… ,bN];m為 常 數(shù)1/N,表示每個(gè)柵極區(qū)域?qū)Ψ诸愗暙I(xiàn)相等;y∈{-1,1}是分類標(biāo)簽;ωi和bi是第i塊的權(quán)值向量和偏置參數(shù)。為了避免每個(gè)局部子分類器輸出相似冗余的分類結(jié)果,把每個(gè)分類器賦予相應(yīng)權(quán)重將每個(gè)局部區(qū)域的損失函數(shù)聯(lián)結(jié)起來(lái),通過(guò)局部分類器共享權(quán)值的算法。設(shè)權(quán)值 ω = [ω1, ω2,… ,ωN],偏置b=∑ibi,損失函數(shù)變?yōu)椋?/p>
式中,N代表柵極的個(gè)數(shù);ωi與bi是最后一個(gè)特征圖對(duì)應(yīng)的整體權(quán)值參數(shù); b = b1+ b2+…+ bN為其對(duì)應(yīng)偏置項(xiàng);公式的第一項(xiàng)代表了特征圖上的整個(gè)損失;第二項(xiàng)代表了每一個(gè)柵極的損失;λ是一個(gè)平衡系數(shù),權(quán)衡全局與局部損失的大小。訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)時(shí)使用梯度下降算法對(duì)該損失函數(shù)進(jìn)行優(yōu)化。
使用該損失函數(shù)訓(xùn)練時(shí)可以讓神經(jīng)網(wǎng)絡(luò)獲得更加豐富和差異化的局部中層特征,建立高效的行人模型。該算法細(xì)化了卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)部位,增加了行人的局部位置檢測(cè)和識(shí)別,有效提升了對(duì)部分遮擋行人的檢測(cè)率。同時(shí),相比常規(guī)全局損失函數(shù),柵極損失函數(shù)雖然增加了N-1層的權(quán)重和偏置參數(shù),但因?yàn)闄?quán)重ω在全局和局部分類器中共享,且全局權(quán)重向量是由局部權(quán)重向量串聯(lián)起來(lái)組建的,全局偏置也是通過(guò)加和局部偏置來(lái)獲得,因而沒(méi)有額外的增加整體計(jì)算時(shí)間。
2.2.2 卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
本文在行人數(shù)據(jù)集上對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行反復(fù)迭代訓(xùn)練并調(diào)整權(quán)值參數(shù)后確定了針對(duì)提取行人特征的網(wǎng)絡(luò)結(jié)構(gòu)。該網(wǎng)絡(luò)結(jié)構(gòu)包含了2個(gè)5×5卷基層,分別有64和128個(gè)卷積核,1個(gè)4×4池化層,在每層卷積后利用糾正線性單元(rectified linear unit, ReLU)[12]函數(shù)激活,增加模型訓(xùn)練時(shí)的收斂速度。選用高斯零均值標(biāo)準(zhǔn)差為0.01的隨機(jī)數(shù)初始化權(quán)重,在卷基層后加入約束上限為0.1的棄權(quán)算法(dropout)[13],將不滿足權(quán)值L2范數(shù)上限約束的隱含層節(jié)點(diǎn)舍棄,以減弱神經(jīng)元節(jié)點(diǎn)間的聯(lián)合適應(yīng)性,增強(qiáng)網(wǎng)絡(luò)的泛化能力;引入柵極損失函數(shù)作為神經(jīng)網(wǎng)絡(luò)的損失函數(shù)來(lái)增加檢測(cè)對(duì)遮擋的魯棒性,從PETS2009和UCSD原始數(shù)據(jù)集中隨機(jī)摳取大小為64×64的行人局部子圖像塊,用以訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。本文采用的卷積神經(jīng)網(wǎng)絡(luò)框架如圖4所示。
圖4 行人識(shí)別卷積神經(jīng)網(wǎng)絡(luò)框架圖
2.2.3 分類器的選擇
算法的最后一個(gè)步驟是將深度神經(jīng)網(wǎng)絡(luò)提取的特征投入到分類器中進(jìn)行判別,以確定該輸入?yún)^(qū)域是否為行人樣本。本文將傳統(tǒng)的SVM分類器改為基于局部的姿勢(shì)分類器(part-based pose-specific classifiers)[14],以配合柵極損失函數(shù)檢測(cè)出的行人臉或軀干等局部區(qū)域,以提高網(wǎng)絡(luò)的分類精度,取得了良好的效果。
在網(wǎng)絡(luò)訓(xùn)練結(jié)束后,即可使用該神經(jīng)網(wǎng)絡(luò)算法生成的模型對(duì)低密度行人團(tuán)塊進(jìn)行檢測(cè),以得到該團(tuán)塊中人數(shù)。
當(dāng)在行人數(shù)量較多的密集場(chǎng)景下,人與人之間的遮擋重疊現(xiàn)象會(huì)很嚴(yán)重,通過(guò)檢測(cè)每個(gè)行人來(lái)計(jì)數(shù)的方法將不再適用,這時(shí)就需要尋求回歸的方法來(lái)解決這個(gè)問(wèn)題。研究表明,低密度和高密度人群在圖像紋理特征上表現(xiàn)為粗、細(xì)兩種不同模式。因此對(duì)于密集人群團(tuán)塊,可通過(guò)分析圖像紋理特征來(lái)獲得相應(yīng)人群的信息。灰度共生矩陣GLCM(graylevel co-occurrence matrix)是常用的紋理特征之一[15],一般計(jì)算其0°、90°和135°方向上的對(duì)比度、熵、方差等特征,然后結(jié)合主成分分析進(jìn)行選取。最后將提取的多維特征采用核函數(shù)建立回歸模型[16]以估計(jì)行人數(shù)量。為了更加精確描述人群分布信息,本文提取了場(chǎng)景中的行人密度分布特征并將其融合至紋理特征中,建立從數(shù)學(xué)特征到實(shí)際人數(shù)的映射模型,取得了良好的統(tǒng)計(jì)效果。
文獻(xiàn)[17]提出了一種通過(guò)統(tǒng)計(jì)圖像中目標(biāo)像素值來(lái)生成密度圖的方法。在訓(xùn)練中設(shè)置描述點(diǎn)來(lái)標(biāo)注目標(biāo),使目標(biāo)的每個(gè)像素都有一個(gè)實(shí)值特征向量來(lái)描述其局部外觀,在本文中,這些特征用SIFT視覺(jué)詞典定義,再選擇一個(gè)線性映射,將每一個(gè)像素的特征向量變換為密度值,該點(diǎn)的密度值大小通過(guò)像素密度函數(shù)值得到。然后采用線性映射進(jìn)行系數(shù)優(yōu)化,以便使映射出的密度函數(shù)與真實(shí)密度函數(shù)盡可能一致,并對(duì)映射系數(shù)采用二次正則化約束,防止過(guò)擬合。學(xué)習(xí)完成后,只需要提取每個(gè)像素的特征向量乘以學(xué)到的對(duì)應(yīng)線性系數(shù)即可得到該點(diǎn)密度值,并在任意形狀的區(qū)域中進(jìn)行密度集成,即可得到行人的密度分布圖。
在構(gòu)建行人密度分布特征圖的過(guò)程中采用了圖像檢索中構(gòu)建行人視覺(jué)詞典的算法,訓(xùn)練中設(shè)置了特征描述子把圖像中的行人描述為一組關(guān)鍵點(diǎn)的集合,使用K-means聚類算法對(duì)局部特征描述子聚類,聚類的中心是視覺(jué)詞匯,將聚類中心特征向量化表示,生成對(duì)應(yīng)碼字。各個(gè)視覺(jué)詞匯組成視覺(jué)詞典,對(duì)應(yīng)碼字集合組成碼書(shū),即構(gòu)成視覺(jué)詞典,詞典容量的大小由所含單詞數(shù)量決定。行人的每個(gè)局部特征均會(huì)被對(duì)應(yīng)到視覺(jué)詞典中某個(gè)詞匯,這種映射關(guān)系通過(guò)衡量局部特征和詞匯間的歐氏距離來(lái)實(shí)現(xiàn),然后通過(guò)直方圖統(tǒng)計(jì)詞典中視覺(jué)詞匯出現(xiàn)的頻次,生成與原矩陣大小相同的特征描述向量,即詞袋,圖5描述了行人視覺(jué)詞典的構(gòu)建過(guò)程。
圖5 行人詞典構(gòu)建方法
為了方便將特征向量值與行人密度分布的對(duì)應(yīng)關(guān)系直觀表達(dá)出來(lái),本文將其轉(zhuǎn)換為可視化的密度特征圖。使用文獻(xiàn)[18]定義的點(diǎn)密度分布函數(shù)PSF(point spread function),將行人像素點(diǎn)的特征向量值轉(zhuǎn)換為點(diǎn)密度數(shù)值,公式如下:
式中,(p,q)表示要計(jì)算的像素點(diǎn)所在位置;(x,y)為其周圍鄰域的點(diǎn);( p,q)為高斯核;代表了點(diǎn)(x,y)周圍的行人特征點(diǎn)的密集程度,即鄰域像素點(diǎn)對(duì)應(yīng)的特征向量值的大小。轉(zhuǎn)換完成后將不同大小的密度值使用不同深淺的色度一一對(duì)應(yīng)構(gòu)成行人密度分布圖,圖6為在UCSD數(shù)據(jù)集上建立的行人密度分布特征圖。
圖6 行人密度分布特征圖
由式(3)將行人圖像中每個(gè)像素的特征向量值轉(zhuǎn)換為密度分布函數(shù)值,因此該密度分布函數(shù)值可以與紋理特征融合構(gòu)成人群密度分布特征。
核函數(shù)的選取需要根據(jù)數(shù)據(jù)的分布信息和規(guī)律來(lái)選取,使用單一的核函數(shù)顯然不能精確地對(duì)數(shù)據(jù)特征進(jìn)行描述。本文描述行人的紋理特征以及密度分布特征入手,從不同方面提取多層次多類型的特征描述子,這些特征分別獨(dú)立提供了行人的信息,因此核函數(shù)的選擇需要適應(yīng)多種特征。本文采用lp準(zhǔn)則多核回歸函數(shù)[19]來(lái)實(shí)現(xiàn)從多類數(shù)學(xué)特征到實(shí)際人數(shù)的估計(jì)。lp準(zhǔn)則多核支持向量機(jī)的數(shù)學(xué)模型可表達(dá)如下:
本算法提取了密集人群的紋理特征,實(shí)驗(yàn)選擇了300幅PETS2009數(shù)據(jù)集中的行人場(chǎng)景圖像,當(dāng)θ取0°、90°、135°方向時(shí)計(jì)算每個(gè)密集團(tuán)塊的灰度共生矩陣,并求出對(duì)比度、熵、能量3個(gè)特征值,構(gòu)成大小為2 700的數(shù)據(jù)樣本矩陣。經(jīng)過(guò)主成分分析后,選取了包含信息量最多,對(duì)圖像紋理特征貢獻(xiàn)最大的水平、豎直、對(duì)角線方向的對(duì)比度特征作為人群紋理特征,并與密度分布特征融合構(gòu)成描述密集人群分布信息的4維特征指標(biāo)。在多核回歸函數(shù)中,針對(duì)算法提取的不同行人特征種類設(shè)置了4個(gè)核函數(shù),經(jīng)過(guò)訓(xùn)練后輸出核函數(shù)的多核加權(quán)值,建立起從人群分布特征到實(shí)際人數(shù)的映射,完成密集場(chǎng)景下的人數(shù)統(tǒng)計(jì)。
為了驗(yàn)證所提的結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和軌跡預(yù)測(cè)的行人統(tǒng)計(jì)算法在復(fù)雜環(huán)境下的有效性,本文在UCSD和PETS2009監(jiān)控視頻中獲取的圖像序列上進(jìn)行了實(shí)驗(yàn),這兩個(gè)行人數(shù)據(jù)集中的人群密度各不相同且分布具有隨時(shí)間變化的性質(zhì),此外攝像頭采集視頻的角度各不相同,是理想的用以測(cè)試算法精度的數(shù)據(jù)集。此外,本文還利用自己采集的霧天行人視頻數(shù)據(jù)集來(lái)驗(yàn)證算法對(duì)光照和惡劣環(huán)境的適應(yīng)性。實(shí)驗(yàn)結(jié)果驗(yàn)證了所提算法的有效性和魯棒性。
實(shí)驗(yàn)的硬件平臺(tái)為i7×10核,3.4 GHZ工作站,內(nèi)存為64 GB,顯卡為GTX-Titan X,內(nèi)含GPU,系統(tǒng)為Ubuntu14.04,卷積神經(jīng)網(wǎng)絡(luò)在Caffe開(kāi)源框架下實(shí)現(xiàn)。文獻(xiàn)[20]中方法的對(duì)比實(shí)驗(yàn)在MATLAB 2015b環(huán)境下實(shí)現(xiàn),文獻(xiàn)[21]方法的對(duì)比實(shí)驗(yàn)在Visual Studio 2010環(huán)境下實(shí)現(xiàn),并調(diào)用OpenCV庫(kù)函數(shù)。
UCSD數(shù)據(jù)集的圖片分辨率為258×158,如圖7所示;PETS2009數(shù)據(jù)集的圖片分辨率為768×576,如圖8所示。為了保證卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練和學(xué)習(xí)的有效性,對(duì)兩個(gè)場(chǎng)景數(shù)據(jù)分別抽取1 000幅圖像采樣歸一化為256×128統(tǒng)一大小,手工標(biāo)注其中的500張并采用本文算法構(gòu)建人群密度分布圖特征,用以訓(xùn)練回歸模型。之后從這500幅已標(biāo)注的圖像中隨機(jī)抽取1 000張64×64規(guī)格的子圖像,用以訓(xùn)練柵極損失函數(shù)提取行人局部特征,用剩下500幅圖像進(jìn)行測(cè)試。
算法在UCSD、PETS2009數(shù)據(jù)集上的測(cè)試效果如圖7和圖8所示,在自己采集霧天數(shù)據(jù)集上測(cè)試效果如圖9所示,實(shí)驗(yàn)結(jié)果證明所提算法在不同場(chǎng)景下均具有準(zhǔn)確的人數(shù)統(tǒng)計(jì)精度。
圖7 UCSD數(shù)據(jù)集測(cè)試效果
圖8 PETS2009數(shù)據(jù)集測(cè)試效果
圖9 霧天數(shù)據(jù)集測(cè)試效果
通過(guò)圖7a和圖8可以看出,本文算法識(shí)別出了最左側(cè)、最右側(cè)被遮擋住的行人,當(dāng)行人相互重疊時(shí)常規(guī)算法無(wú)法檢測(cè)出整體行人,但采用本文所提出的柵極損失函數(shù)以及分塊訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的方法后,即可針對(duì)遮擋行人局部進(jìn)行檢測(cè)識(shí)別統(tǒng)計(jì)。在霧天數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提Retinex去噪算法和轉(zhuǎn)換顏色空間算法消除了場(chǎng)景中雨霧和光照度不足等因素對(duì)人數(shù)統(tǒng)計(jì)的干擾。對(duì)密集人群團(tuán)塊,提取團(tuán)塊灰度共生矩陣的水平、豎直和對(duì)角線方向的對(duì)比度作為人群紋理特征指標(biāo),融合3.1節(jié)中構(gòu)建出如圖6的人群密度分布特征,使用多核回歸函數(shù)進(jìn)行估計(jì)。最終,加上不同密度團(tuán)塊中人數(shù)即為場(chǎng)景中統(tǒng)計(jì)出的總?cè)藬?shù)。算法在UCSD和PETS2009數(shù)據(jù)集上的統(tǒng)計(jì)結(jié)果如圖10、圖11所示。
圖10 UCSD數(shù)據(jù)集統(tǒng)計(jì)結(jié)果
圖11 PETS2009數(shù)據(jù)集統(tǒng)計(jì)結(jié)果
行人統(tǒng)計(jì)的評(píng)價(jià)指標(biāo)用準(zhǔn)確性衡量,其中準(zhǔn)確性使用平均絕對(duì)誤差(mean absolute error, MAE)和平均均方誤差(mean squared error, MSE)和計(jì)算。表2和表3是現(xiàn)有的其他算法和本文算法在這兩個(gè)數(shù)據(jù)集上測(cè)試的比較結(jié)果。
表2 UCSD數(shù)據(jù)集對(duì)比實(shí)驗(yàn)指標(biāo)評(píng)價(jià)
表3 PETS2009數(shù)據(jù)集對(duì)比實(shí)驗(yàn)指標(biāo)評(píng)價(jià)
通過(guò)對(duì)比實(shí)驗(yàn)結(jié)果圖可以得出,相比較近年人數(shù)統(tǒng)計(jì)領(lǐng)域內(nèi)其他學(xué)者提出的算法,本文算法在PETS2009和UCSD數(shù)據(jù)集上的測(cè)試結(jié)果在準(zhǔn)確率上有顯著的提升,相比較文獻(xiàn)[7]的研究結(jié)果,精度提高了12%,驗(yàn)證了所提算法的有效性。可以看出當(dāng)人群密度由低到高變化時(shí),使用本算法得到的人數(shù)統(tǒng)計(jì)結(jié)果均與場(chǎng)景中真實(shí)人數(shù)相差較小,折線圖位置較接近,證明了本文構(gòu)建的密度分布圖有良好的描述人群分布信息的能力,增加了特征回歸模型的精度。在不同數(shù)據(jù)集上進(jìn)行測(cè)試時(shí)算法性能并沒(méi)有隨之下降或改變,也證明了算法對(duì)不同密度的行人場(chǎng)景均有適應(yīng)性,能應(yīng)對(duì)較為復(fù)雜的環(huán)境和人群分布情況。相比文獻(xiàn)[21]的算法,在大規(guī)模人群場(chǎng)景中行人形狀輪廓不明顯,難以剔除周圍行人造成的干擾,不適用于人頭檢測(cè)的算法;反之在低密度人群場(chǎng)景中,稀疏行人并不具備紋理密度等概率分布特征,此時(shí)識(shí)別檢測(cè)算法準(zhǔn)確迅速,其精度優(yōu)于文獻(xiàn)[23]中概率估計(jì)算法。
在行人監(jiān)控視頻中,由于行人遮擋、場(chǎng)景光照變化、人群分布不均等因素的影響使得現(xiàn)有算法難以準(zhǔn)確統(tǒng)計(jì)視頻中人數(shù)。針對(duì)以上問(wèn)題,本文將場(chǎng)景中分布不均的行人根據(jù)密度劃分并提出基于卷積神經(jīng)網(wǎng)絡(luò)識(shí)別和密度特征回歸相結(jié)合的人數(shù)統(tǒng)計(jì)算法。為了避免光照變化和雨霧天氣對(duì)算法造成干擾,本文將場(chǎng)景去噪增強(qiáng)處理后,轉(zhuǎn)換到HSV顏色空間中預(yù)判行人位置并提取特征。提出了柵極損失函數(shù)分塊訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的算法,實(shí)現(xiàn)了對(duì)遮擋行人局部位置的識(shí)別。提出了融合行人密度分布特征的回歸算法以增加統(tǒng)計(jì)的精度。
實(shí)驗(yàn)證明在相同場(chǎng)景下,本文所提方法優(yōu)于其他同類方法,但本文未完全考慮距離遠(yuǎn)近對(duì)團(tuán)塊大小的影響以及非行人目標(biāo)出現(xiàn)時(shí)的情況,在未來(lái)的工作中將尋求更優(yōu)的方法來(lái)提升算法性能。
電子科技大學(xué)學(xué)報(bào)2018年6期