鄒阿金,李承駿,陳越鋒
(1.廣東海洋大學(xué)電子與信息工程學(xué)院電子信息工程系,湛江524088;2.廣東海洋大學(xué)電子與信息工程學(xué)院通信工程系,湛江524088;3.廣東海洋大學(xué)電子與信息工程學(xué)院自動化系,湛江524088)
人數(shù)檢測在現(xiàn)代社會具有廣泛的應(yīng)用,諸如學(xué)校、地鐵站、商場等公共場合的人流量統(tǒng)計,其中安全問題尤其重要,這就需要人為地對檢測到的視頻信息進行實時統(tǒng)計和分析理解,此項目適用于公安或保障部門對特定場景進行人流量控制,以防擁堵和意外的發(fā)生。如果商場加入人流量檢測系統(tǒng),就能定量分析出商場哪些消費區(qū)的人流多,進而改變商場的購物區(qū)結(jié)構(gòu),促進消費,提高經(jīng)濟效益;城市內(nèi)如發(fā)生突發(fā)事故,造成交通擁堵,疏散人流也可以根據(jù)市內(nèi)人流分布圖,制定合理的方案??偟膩碚f,人流量檢測在當(dāng)今社會有著十分深遠的意義,由于計算機技術(shù)的迅猛發(fā)展,計算機硬件的支持度越來越廣,能訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)的層數(shù)也越來越深;卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的一個代表,近年的發(fā)展十分迅速,其權(quán)值共享的連接方式大大減少了訓(xùn)練所需要的參數(shù)數(shù)量,降低了網(wǎng)絡(luò)的輸入維度,使得網(wǎng)絡(luò)具有更高的魯棒性,同時還有效地抑制了過擬合的問題[1],目前許多神經(jīng)網(wǎng)絡(luò)的構(gòu)建都是基于卷積網(wǎng)絡(luò)的變形和改進。
人群密集度的檢測,主要通過調(diào)用現(xiàn)場監(jiān)控的攝像頭來獲得監(jiān)控的圖像信息,然后對圖像里的內(nèi)容進行分析,進而得到該地區(qū)的人流密集度。一般在不同場景之中,都會配備最少一個攝像頭,可以通過監(jiān)控前景的邊緣和前景的像素來實現(xiàn)場景的人群密度的估量。近年來,用神經(jīng)網(wǎng)絡(luò)提取人物特征的方法已經(jīng)在人物檢測、人物識別領(lǐng)域得到廣泛應(yīng)用[1],對于相同的樣本,卷積神經(jīng)網(wǎng)絡(luò)會隨著層數(shù)的增加而提高模型的穩(wěn)定性和精確度,但是同時也存在梯度消失的現(xiàn)象,模型的精度不升反降,利用殘差網(wǎng)絡(luò)的殘差塊能很好地解決這個問題。深度殘差網(wǎng)絡(luò)在ILSVRC和COCO的分類比賽之中獲得了五項第一的好成績[2],這些研究表明,網(wǎng)絡(luò)層越深,輸入層和輸出層的聯(lián)系越近,對于分類的效果也就更加地好,所以如果單純要提高目標識別的精度,基于卷積神經(jīng)網(wǎng)絡(luò),只需要把網(wǎng)絡(luò)層的深度增加即可,殘差塊的提出給現(xiàn)在的研究帶來了許多創(chuàng)新。
對訓(xùn)練使用的樣本數(shù)據(jù),進行ROI感受視野區(qū)標記,分為大、中、小的三類數(shù)據(jù)集,初始的輸入數(shù)據(jù)為250×200,另外還用了25×20的小樣本圖片,每次對于新的輸入,進行放大、縮小處理得到三種尺度的圖片。使用wider face提供的數(shù)據(jù)(如圖1所示)作為樣本輸入網(wǎng)絡(luò)之中,其中包含已做好標記的人臉框數(shù)據(jù)。對于不同距離的人臉檢測,由于遠近的關(guān)系,會產(chǎn)生人臉模糊度高,清晰度不夠的現(xiàn)象,這里還添加了上下文的數(shù)據(jù),如圖2所示,對于不清晰的人物,則加以上下文的判斷(人物的特征如:手、足、脖子,等等)。
圖1 基于ROI的人臉數(shù)據(jù)
圖2 人物上下文數(shù)據(jù)
目前密集人群識別精度不高的主要原因是:識別模型提取的特征不夠多,模型魯棒性不夠好。為了解決特征樣本不夠的問題,制作多尺度的圖片;小尺寸的圖片可以幫助檢測小目標,大尺寸的可以包含更豐富信息。采用傳統(tǒng)的方法建立一個應(yīng)用于精細離散圖像金字塔的單尺度模型,如圖3所示,對圖片進行不同分辨率的處理,并完成放大和縮小的操作,每次對輸入的圖片,通過放大和縮小,得到三幅不同尺度的圖片;針對不同的對象尺度構(gòu)建了不同的檢測器(在訓(xùn)練的數(shù)據(jù)相對小的情況下,這種方法可能會有較大的誤差);以此訓(xùn)練多種尺度混合的檢測器,在識別時基于不同的分辨率,用非最大抑制(Non Maximum Suppression)來獲得最終結(jié)果。
圖3 圖像金字塔模型
圖像金字塔,是一種透視的觀點,以多分辨率來解釋圖像,現(xiàn)實之中也因為拍攝的距離,對于得到的數(shù)據(jù)有多種的尺度,要實現(xiàn)遠近模糊的識別,可將圖像數(shù)據(jù)集按照圖像金字塔的原理,采樣得到不同的分辨率作為拓展的訓(xùn)練集,大大提高了模型的魯棒性。
圖4 人臉數(shù)據(jù)裁剪原理
圖4中是部分的特征,圖中虛線框內(nèi)的范圍越大代表感受的視野越大,即隨著ResNet的層數(shù)的增加,在提取特征的時候,不同尺度圖片提取到的特征有所不同,以下是本方法的測試結(jié)論。
(1)增加更多的上下文信息(感受野)有助于檢測;
(2)對于小人臉,483×483的訓(xùn)練性能不好,精度下降,這是過擬合造成的現(xiàn)象;
(3)對于大人臉,更大的感受野帶來的提升已經(jīng)不是很明顯;結(jié)論是不同尺度目標檢測都使用同樣大小的感受野.91×291。
模型是用ResNet-101網(wǎng)絡(luò)訓(xùn)練獲得的,將每兩個卷積層后的輸出分為兩條路,其中一條直接進入weight layer下一層,另外一條路直接作為下一個卷積層的輸入??梢詫崿F(xiàn)隨著網(wǎng)絡(luò)深度的增加而訓(xùn)練精度逐層提高,不會出現(xiàn)退化的現(xiàn)象。因為第二條路直接將低緯度的特征直接輸入到下一個網(wǎng)絡(luò)之中,不會因為卷積而丟失了數(shù)據(jù),大大提高了模型的準確性。殘差塊的原理如圖5所示:
圖5 殘差塊原理圖
它有兩層,公式(1)中的σ表示的是非線性函數(shù)ReLU。
然后通過一個shortcut,和第二個ReLU,獲得輸出y:
當(dāng)需要對輸入和輸出維數(shù)進行變化時(如改變通道數(shù)目),可以在shortcut時對x做一個線性變換Ws,如公式(3)所示,然而實驗證明x已經(jīng)足夠了,不需要再進行維度變換,除非需求是某個特定維度的輸出。
對于每個層,都包含了卷積層和歸一化的操作,最后通過激勵函數(shù)ReLU的操作,將數(shù)據(jù)輸出到下一層。有了快捷通道,可將低緯度的信息直接輸入到下一個層之中。對于7×7的數(shù)據(jù)輸入,卷積核選用3×3的矩陣,中間銜接數(shù)個殘差塊,最后經(jīng)過全局平均池化層進入全連接層。
目標檢測從R-CNN到Fast R-CNN,再到Faster R-CNN(候選區(qū)生成,特征提取,分類,位置精修),YO?LO利用單一的CNN網(wǎng)絡(luò),從像素到目標的候選框以概率的形式輸出,達到了端到端優(yōu)化的一個目標,大大提高了處理的速度[3-4]。
YOLO V2的檢測非???,這是它的優(yōu)點,因為沒有復(fù)雜的檢測過程,只需要將圖像輸入到網(wǎng)絡(luò)就可以得到檢測結(jié)果,YOLO可以實現(xiàn)快速的檢測任務(wù),標準版本的YOLO的檢測速度在高配置的GPU上能達到45fps,更快的Fast YOLO的檢測速度可以達到155fps,YOLO是mAP是其他實時檢測系統(tǒng)的兩倍以上。
YOLO V2先對分類網(wǎng)絡(luò)進行了fine tune,相比較YOLO V1的版本,YOLO V2參考了Fast R-CNN的方法,不是單純的利用全連接層的數(shù)據(jù)完成邊框的檢測,YOLO V2使用了一種叫anchor boxes的候選框,它的原理是在一幅圖中,對于每個人物可能在的圖像的位置,建立9個候選窗口(有三種面積和三種比例的組合),這就說明了YOLO V2為能夠做到識別和定位。
圖6 YOLO候選框原理
YOLO V2采用的是GoogleNet的網(wǎng)絡(luò)結(jié)構(gòu),雖然精度略低于VGG-16,但是它的實時性非常優(yōu)秀,適合于應(yīng)用開發(fā),而且它具有定位和識別的功能,在一張圖片中可以快速找到目標人物所在的位置。所以對于做產(chǎn)品應(yīng)用是非常合適的。
對于密集環(huán)境的人數(shù)統(tǒng)計,例如考勤、人數(shù)評估等,需要較為精密的統(tǒng)計;ResNet-101層的網(wǎng)絡(luò)層次較深,可以識別出800~1000人的環(huán)境,對于一般情況下的密集人數(shù)統(tǒng)計是沒有問題的,可以直接統(tǒng)計出人群的密度。在GTX960的顯卡上,用CPU識別用了10秒,GPU時間可以大大縮短,達到了3秒內(nèi),這里因為網(wǎng)絡(luò)層的結(jié)構(gòu)并不能達到實時,但是許多應(yīng)用是不需要實時的,對于統(tǒng)計來說,主要是省去了人為計數(shù)的麻煩。
圖7 密集人頭檢測
圖7所示的密集人頭識別,是根據(jù)淺層卷積神經(jīng)網(wǎng)絡(luò)提取人物低層特征,并采用卷積層將已提取的高層特征和低層特征進行融合,一般的遮掩和小人臉的檢測都可以實現(xiàn),精度可以達到90%以上,本文根據(jù)適應(yīng)的場景使用不同的算法完成了識別系統(tǒng)的設(shè)計,其中人數(shù)統(tǒng)計采用YOLO V2的功能進行實現(xiàn),在人流量相對少,且要求實時性高的環(huán)境之下,可以實現(xiàn)人物識別和位置跟蹤,如圖8所示。
圖8 YOLO V2人物檢測
鑒于在非受限條件下人臉圖像分類準確度低的問題,本文應(yīng)用ResNet-101網(wǎng)絡(luò)和YOLO實時性檢測技術(shù),完成了人臉識別,該方法的計算量小,所以易于實時處理,此外還提出了利用線性神經(jīng)網(wǎng)絡(luò)恢復(fù)圖像殘差的超分辨算法,檢驗了現(xiàn)有算法的效率與精度;現(xiàn)階段對于高精度、高效率的檢測需求十分的迫切,在軟件上集合了兩者的功能,可以實現(xiàn)不同需求的識別;實驗表明,該方法能夠有效地提高不使用大數(shù)據(jù)集時非受限條件下人臉圖像分類精度。