周林林,胡曉君,張魯殷,賈偉光,楊陽(yáng),丁祥,張雪飛,楊東東
(山東科技大學(xué)電子通信與物理學(xué)院,山東 青島 266590)
目前人物身份屬性識(shí)別問題在計(jì)算機(jī)視覺技術(shù)中應(yīng)用較少,Song 等人在2011年提到通過人物服裝及其背景完成對(duì)職業(yè)的預(yù)測(cè)[1]。他們通過對(duì)人類服裝外觀與周圍環(huán)境之間建立一個(gè)模型,實(shí)現(xiàn)了對(duì)人物職業(yè)的初步預(yù)測(cè)。但是這種方法只應(yīng)用在圖像領(lǐng)域上。隨著視頻監(jiān)控系統(tǒng)的完善和普及,目前更需要在監(jiān)控視頻中完成對(duì)人物的檢測(cè)以及對(duì)人物特定身份屬性的自動(dòng)識(shí)別[2]。
現(xiàn)實(shí)生活中,很多場(chǎng)景都需要對(duì)人物特定身份屬性進(jìn)行識(shí)別,比如在監(jiān)獄監(jiān)視罪犯的活動(dòng)范圍,交通系統(tǒng)中檢測(cè)交警位置,醫(yī)院禁止普通人員進(jìn)入等。這些人物身份特征非常明顯,最為顯著的是制服的款式與制服的顏色差異。傳統(tǒng)的圖像檢測(cè)算法大多人工進(jìn)行特征提取,不僅耗時(shí)耗力而且過程困難,深度學(xué)習(xí)是一種無監(jiān)督學(xué)習(xí),通過大量數(shù)據(jù)自動(dòng)學(xué)習(xí)特征[3]。區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Rcnn)[4]、快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Fast- rcnn)的出現(xiàn)[5],使深度學(xué)習(xí)在圖像上的應(yīng)用成為研究熱點(diǎn)。本文提出了基于深度學(xué)習(xí)加速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)算法(Faster rcnn)進(jìn)行特定人物身份屬性的自動(dòng)識(shí)別[6]。該算法通過對(duì)人物身份屬性的典型特征自動(dòng)提取快速區(qū)分出監(jiān)控視頻中的人物屬性[7],提高了識(shí)別的速度和準(zhǔn)確率,達(dá)到了進(jìn)行視頻實(shí)時(shí)監(jiān)測(cè)的目的并且具有高魯棒性??梢灶A(yù)測(cè)的屬性包括警察、罪犯、醫(yī)生、護(hù)士等。
Rcnn是由Ross Girshick在2014年提出的基于候選區(qū)域的卷積神經(jīng)網(wǎng),該算法在voc2007數(shù)據(jù)集上的準(zhǔn)確率提高到53%。算法采用選擇性搜索方法生成特征建議窗口并對(duì)其進(jìn)行歸一化處理,每張圖片大約生成2000個(gè)建議窗口,卷積神經(jīng)網(wǎng)(CNN)將2000個(gè)227*227大小的建議窗口送入CNN提取特征,用支持向量機(jī)(SVM)分類器對(duì)CNN輸出特征分類,判斷人物屬性,用邊界框(bounding box)回歸值校正原來的建議窗口位置,生成預(yù)測(cè)窗口的坐標(biāo)。圖1.1是基于監(jiān)控環(huán)境背景下的RCNN框架流程圖。
圖1 .1 rcnn框架
加速卷積神經(jīng)網(wǎng)絡(luò)算法(Faster rcnn)是RCNN系列中對(duì)快速區(qū)域卷積神經(jīng)網(wǎng)(Fast rcnn)算法的改進(jìn)。雖然快速區(qū)域卷積神經(jīng)網(wǎng)檢測(cè)效果良好,但是在特征區(qū)域的選擇上仍然采用的是selective search的方法[8]。加速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)主要在提取建議窗口上做了改進(jìn),它采用共享卷積網(wǎng)組成了RPN(region proposal network)進(jìn)行建議窗口的選擇。Faster rcnn由RPN和Fast rcnn聯(lián)合網(wǎng)絡(luò)組成。圖1.2為快速區(qū)域卷積網(wǎng)的框架圖,圖1.3為加速區(qū)域卷積神經(jīng)網(wǎng)的框架圖。Faster rcnn在該人物身份屬性識(shí)別中分為四個(gè)部分:候選區(qū)域的生成;特征提?。环诸?;多任務(wù)損失函數(shù)及邊框回歸,在加速區(qū)域卷積神經(jīng)網(wǎng)框架下統(tǒng)一實(shí)現(xiàn)。對(duì)比快速區(qū)域卷積神經(jīng)網(wǎng)框架圖,新增了區(qū)域建議生成網(wǎng)絡(luò)(Region Proposal Net)。
圖1 .2 Fast rcnn識(shí)別框架
圖1 .3 Faster rcnn識(shí)別框架
在加速區(qū)域卷積神經(jīng)網(wǎng)里送入帶有人物身份屬性標(biāo)注信息的圖片,經(jīng)過五層卷積網(wǎng)(convnet)生成特征圖,一部分進(jìn)入?yún)^(qū)域建議網(wǎng)(Region Proposal Net),另一部分經(jīng)過卷積進(jìn)入池化層(Roi Pooling layer),進(jìn)入?yún)^(qū)域建議網(wǎng)的特征圖生成建議窗口傳送至池化層,經(jīng)過兩個(gè)全連接層(FC)使每個(gè)建議窗口生成固定尺寸的特征圖,最后通過Softmax分類器進(jìn)行屬性分類并進(jìn)行邊框回歸,生成預(yù)測(cè)窗口的坐標(biāo)。
圖1 .4 RPN框架圖
在Rcnn和Fast rcnn中,特征區(qū)域都是由selective search的算法來實(shí)現(xiàn)的,但是該提取建議框的方法是在CPU上完成的,不能完全利用GPU的高度并行提取能力,所以在加速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)算法中使用GPU進(jìn)行建議窗口的提取,提出了區(qū)域建議RPN(region proposal network)這一概念。圖1.4為RPN如何提取身份屬性建議窗口的流程圖。
(1)帶有屬性信息標(biāo)簽圖經(jīng)過ImageNet網(wǎng)絡(luò)的五層卷積層輸出維度是13*13*256的特征圖送入RPN網(wǎng)絡(luò)。
(2)使用3*3的滑動(dòng)窗口在特征圖上進(jìn)行卷積滑動(dòng),每個(gè)滑動(dòng)窗口通過卷積層映射為256維的特征向量。每個(gè)滑動(dòng)窗口有k個(gè)窗口(anchors),每個(gè)窗口會(huì)映射到原圖所對(duì)應(yīng)的位置,產(chǎn)生W(width)×H(highth)×k個(gè)區(qū)域建議。Anchors是三種不同尺度,長(zhǎng)寬比的參考窗口,三種尺度為{1282,2562,5122},三種長(zhǎng)寬比為1:1,1:2,2:1}。256維特征向量連接兩個(gè)卷積層,窗口回歸層(reg layer)和窗口分類層(cls layer)。在cls層,產(chǎn)生的區(qū)域建議和目標(biāo)區(qū)域(groud truth)進(jìn)行一個(gè)IOU計(jì)算,如果IOU>0.7則判斷為目標(biāo),如果IOU<0.3則判斷為背景。在reg層,通過回歸過程的訓(xùn)練,使得區(qū)域建議盡可能的接近groud truth,最后將建議區(qū)域接入到ROI pooling layer中進(jìn)行全連接。
本實(shí)驗(yàn)是基于監(jiān)控環(huán)境下的識(shí)別檢測(cè),分類檢測(cè)的目標(biāo)是警察犯人這兩種典型身份。實(shí)驗(yàn)運(yùn)行環(huán)境是在基于Linux系統(tǒng)的caffe框架下進(jìn)行的。
獲得包含身份屬性信息的5萬張圖像,構(gòu)建數(shù)據(jù)集,采用圖像標(biāo)注技術(shù)對(duì)收集圖像進(jìn)行特征標(biāo)注[9]。用MATLAB工具進(jìn)行人物身份的標(biāo)注,同時(shí)生成人物身份屬性的坐標(biāo)信息,人物屬性標(biāo)簽(警察、犯人),生成VOC2007格式的數(shù)據(jù)集。圖2.1為數(shù)據(jù)集標(biāo)注示意圖,紅框標(biāo)記為犯人,綠框標(biāo)記為警察。數(shù)據(jù)集中包含訓(xùn)練樣本4萬張,測(cè)試樣本一萬張。
圖2.1 標(biāo)注示意圖
圖2 .2為設(shè)計(jì)區(qū)域生成RPN流程圖,設(shè)計(jì)合適的rpn訓(xùn)練網(wǎng)絡(luò)需要在加速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)算法里設(shè)置網(wǎng)絡(luò)參數(shù)。在data層把num_classes設(shè)置為3類,犯人+警察+背景,在cls_score層把num_output設(shè)置為3,在bbox_pred層把num_output設(shè)置為12,為檢測(cè)類別個(gè)數(shù)的四倍。
Faster rcnn 算法是基于imagenet網(wǎng)絡(luò)現(xiàn)有模型下的繼續(xù)訓(xùn)練。
(1)首先利用imagenet網(wǎng)絡(luò)對(duì)RPN網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,通過五層卷積網(wǎng)進(jìn)行預(yù)訓(xùn)練,得到特征區(qū)域。
(2)同時(shí)進(jìn)行的fast rcnn部分的網(wǎng)絡(luò)預(yù)訓(xùn)練,用在RPN中得到的區(qū)域建議進(jìn)行端對(duì)端的微調(diào)網(wǎng)絡(luò)訓(xùn)練。
(3)微調(diào)后得到的fast rcnn 網(wǎng)絡(luò)重新初始化RPN網(wǎng)絡(luò),共享和fast rcnn提取特征圖的卷積層,設(shè)置網(wǎng)絡(luò)學(xué)習(xí)率為0,得到新的區(qū)域建議。
(4)固定共享卷積層,利用上一步得到的區(qū)域建議重新微調(diào) fast rcnn,一個(gè)完整的加速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成。
訓(xùn)練步驟分四步,設(shè)置的每一步的迭代次數(shù)為40000,20000,40000,20000,學(xué)習(xí)率設(shè)置為0.001。為了更好的分析每個(gè)階段是如何進(jìn)行對(duì)身份屬性的特征提取,將每個(gè)過程的圖片特征提取做了可視化處理,圖2.3是特征圖可視化。第一張是測(cè)試圖片經(jīng)過imagenet網(wǎng)絡(luò)的第五層卷積層后的特征圖,第二張為rpn過程的輸出的特征圖。
圖2 .3 特征圖可視化
圖2 .4 測(cè)試曲線
表1 與快速區(qū) 域卷積神經(jīng)網(wǎng)準(zhǔn)確率對(duì)比
圖2.4給出人物身份屬性識(shí)別模型的loss曲線圖,顯示犯人的檢測(cè)準(zhǔn)確率在0.828,警察的檢測(cè)準(zhǔn)確率在0.708。表一是兩種網(wǎng)絡(luò)在準(zhǔn)確率和檢測(cè)速度上的對(duì)比。相比于快速區(qū)域卷積神經(jīng)網(wǎng),犯人的識(shí)別準(zhǔn)確率從0.670提升到0.828,警察的準(zhǔn)確率從0.579提升到0.708。在檢測(cè)速度上,快速區(qū)域卷積神經(jīng)網(wǎng)檢測(cè)一張圖片的速度在2s左右,而加速區(qū)域卷積神經(jīng)網(wǎng)檢測(cè)速度在0.04s左右。分析得到加速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)與快速區(qū)域卷積神經(jīng)網(wǎng)相比,在準(zhǔn)確率和檢測(cè)速度上都有顯著提升。
圖2.5 模型檢測(cè)圖
圖2 .5是身份屬性檢測(cè)識(shí)別圖。可以看到在目標(biāo)的識(shí)別還有準(zhǔn)確率上都有很好的效果,不過因?yàn)閿?shù)據(jù)集有限,監(jiān)控鏡頭比較模糊,出現(xiàn)漏檢情況,需要后續(xù)豐富訓(xùn)練數(shù)據(jù)集,提高人物身份屬性識(shí)別準(zhǔn)確率。
本文通過基于深度學(xué)習(xí)中加速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)框架實(shí)現(xiàn)了監(jiān)控系統(tǒng)下的人物身份屬性識(shí)別,并且與快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)在檢測(cè)速度和準(zhǔn)確率上進(jìn)行了對(duì)比。本文對(duì)警察犯人兩種人物身份屬性進(jìn)行了實(shí)驗(yàn),證實(shí)了算法的可行性。利用該算法可以完成對(duì)醫(yī)生、病人、警察、犯人、交警、行人等人物身份屬性的自動(dòng)識(shí)別,并且應(yīng)用在實(shí)際中。但是因?yàn)楸O(jiān)控視頻很多不清晰,給檢測(cè)識(shí)別造成了一定的困難。而且識(shí)別率有待進(jìn)一步提升,解決的辦法是不斷增加數(shù)據(jù)集,增加樣本數(shù)量,提升模型的識(shí)別準(zhǔn)確率。
[1] Z. Song, M. Wang, X. Hua, et al. Predicting occupation via human clothing and contexts[C]. Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011, pp. 1084-1091
[2] 駱云志, 劉治紅 . 視頻監(jiān)控技術(shù)發(fā)展綜述 [J]. 兵工自動(dòng)化, 2009, 28(1):1-3.Luo Yunzhi, Liu Zhihong. Overview of video surveillance technology development [J]. Ordnance Industry Automation, 2009, 28 (1): 1-3.
[3] 尹寶才, 王文通, 王立春. 深度學(xué)習(xí)研究綜述[J]. 北京工業(yè)大學(xué)學(xué)報(bào), 2015(1):48-59.Yin Baocai, Wang Wentong, Wang Lichun.A Review of Deep Learning Research [J] .Journal of Beijing University of Technology, 2015 (1):48-59.
[4] Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]// Computer Vision and Pattern Recognition. IEEE, 2014:580-587.
[5] Girshick R. Fast R-CNN[J]. Computer Science, 2015
[6] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks.[C]// International Conference on Neural Information Processing Systems. MIT Press, 2015:91-99.
[7] 楊德培. 視頻監(jiān)控中人物屬性識(shí)別方法的研究[D]. 電子科技大學(xué), 2016.Yang Depei.Video monitoring character recognition method [D]. University of Electronic Science and Technology, 2016.
[8] Uijlings J R, Sande K E, Gevers T, et al. Selective Search for Object Recognition[J]. International Journal of Computer Vision, 2013, 104(2):154-171.
[9] 盧漢清, 劉靜 . 基于圖學(xué)習(xí)的自動(dòng)圖像標(biāo)注 [J]. 計(jì)算機(jī)學(xué)報(bào), 2008, 31(9):1629-1639.LU Han-Qing, LIU Jing.Automatic Image Annotation Basd on Graph Learning [J] .Journal of Computer China, 2008,31(9): 1629-1639.