陳桂安 王笑梅 劉鴻程
摘? ?要:在多標(biāo)簽行人屬性識(shí)別的問題中,為了充分利用標(biāo)簽之間的相關(guān)性,解決傳統(tǒng)方法識(shí)別準(zhǔn)確率低和效率慢的問題,提出了一個(gè)多標(biāo)簽卷積神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)在一個(gè)統(tǒng)一的網(wǎng)絡(luò)框架下識(shí)別行人多個(gè)屬性。把行人的多個(gè)屬性看作是一個(gè)序列,然后構(gòu)建了一個(gè)時(shí)序分類模型。提出的方法不僅避免了復(fù)雜的多輸入MLCNN網(wǎng)絡(luò),也不需要多次訓(xùn)練單標(biāo)簽分類模型。實(shí)驗(yàn)結(jié)果表明,本文方法準(zhǔn)確率均優(yōu)于SIFT+SVM和多輸入的MLCNN模型,平均準(zhǔn)確率達(dá)到了90.41%。
關(guān)鍵詞:多標(biāo)簽分類;神經(jīng)網(wǎng)絡(luò);行人屬性;深度學(xué)習(xí);
中圖分類號:TP391.41? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Pedestrian Attributes Recognition Based on Multi-label Neural Network
CHEN Gui-an?覮,WANG Xiao-mei,LIU Hong-cheng
(Shanghai Normal University,Shanghai 200234,China)
Abstract:In the problem of multi-label pedestrian attributes recognition,in order to make full use of the correlation between labels and solve the problem of low recognition accuracy and low efficiency of traditional methods,a multi-label convolutional neural network is proposed,which is in a network. Identify multiple attributes of pedestrians under a unified network framework. We consider multiple attributes of a pedestrian as a sequence and then construct a time series classification model. The proposed method not only avoids the complicated multi-input MLCNN network,but also does not need to train the single-label classification model multiple times. The experimental results show that the accuracy of the proposed method is better than that of SIFT+SVM and multi-input MLCNN model,and the average accuracy rate is 90.41%.
Key words:multi-label classification;neural network;pedestrian attributes;deep learning
分類任務(wù)是計(jì)算機(jī)視覺、模式識(shí)別和圖像處理領(lǐng)域的一個(gè)基本任務(wù),而多標(biāo)簽分類任務(wù)作為其中的一種也很有研究價(jià)值。比如,在監(jiān)控場景下,常常會(huì)用行人的性別、年齡、發(fā)色等特征來進(jìn)行人物檢索[1-2]、人物識(shí)別[3-4]、面部驗(yàn)證[5]和人物再識(shí)別[6]等。通常情況下,公共場所的監(jiān)控?cái)z像頭為了覆蓋比較廣的區(qū)域,都會(huì)被安裝在較遠(yuǎn)的位置,因此獲得的行人分辨率比較低。然而這種情況下的行人屬性因其光照不變性和對比度不變性,仍然有很好的應(yīng)用價(jià)值。
行人屬性分類問題中有三個(gè)主要的挑戰(zhàn)。首先,由于多樣的衣服、復(fù)雜的背景和不同的鏡頭角度,屬性的類內(nèi)變化比較大。其次,不同的屬性位于圖片中不同的位置,比如頭發(fā)通常位于圖片的上方,鞋位于圖片的下方等,造成了提取特征比較困難。第三,這是一個(gè)多標(biāo)簽的問題,不是單純的多分類,且標(biāo)簽之間有一定的相關(guān)性。因此,很多現(xiàn)有的分類算法都不適用,即便是有一些多分類網(wǎng)絡(luò)也有其挑戰(zhàn)性。
多標(biāo)簽識(shí)別問題目前主要是各個(gè)標(biāo)簽分開處理。如:朱旭鋒等[7]提出基于多不變量和多分類器融合的識(shí)別方法;李新德等[8]提出基于 Hu 矩、PNN 和 DSmT 融合的方法;Hussein 等[9]提出轉(zhuǎn)換特征和模糊聚類的飛機(jī)識(shí)別方法;Zhu 等[10]提出基于優(yōu)化的 BoW 模型識(shí)別方法;Li 等[12]提出 PCNN 模型用于飛機(jī)識(shí)別。行人屬性識(shí)別中一個(gè)比較受歡迎的方法是用手工提取特征(sift[12]等)然后用SVM去單獨(dú)的分類各個(gè)屬性[6,13-15]。但這不能很好的解決上述的三個(gè)問題,因?yàn)槭止ぬ崛〉奶卣饔杏邢薜谋磉_(dá)能力而數(shù)據(jù)集類內(nèi)變化太復(fù)雜,也不能夠應(yīng)用內(nèi)間的相關(guān)性信息。Jiangqing Zhu等[16]提出了一個(gè)多輸入的多標(biāo)簽分類網(wǎng)絡(luò)(MLCNN)來進(jìn)行行人屬性識(shí)別。受Xiang Bai等[17]在研究場景文字識(shí)別所使用模型的啟發(fā),本文使用了一個(gè)時(shí)序模型來實(shí)現(xiàn)行人屬性多標(biāo)簽分類,該網(wǎng)絡(luò)以ResNet50[18]為基礎(chǔ)以及連接時(shí)序分類(CTC)[19]的損失函數(shù)來輸出序列。該網(wǎng)絡(luò)是直接用圖像像素訓(xùn)練而不是手工特征,并且能識(shí)別多個(gè)屬性。通過在PETA[13]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,取得了良好的識(shí)別效果。
1? ?材料和方法
1.1? ?行人屬性數(shù)據(jù)集
有很多用于監(jiān)控研究的公開行人屬性數(shù)據(jù)集,比如VIPeR,PRID,GRID,APiS,and PETA,PETA是最新的數(shù)據(jù)集,包含65個(gè)屬性標(biāo)簽,一共19000張圖片,分辨率最小為17x39,最大為169x365。19000張圖片中共包含有8705個(gè)行人,每個(gè)行人用61個(gè)二分類屬性標(biāo)簽和4個(gè)多分類屬性標(biāo)簽打標(biāo),部分示例如圖1所示
1.2? ?ResNet
卷積神經(jīng)網(wǎng)絡(luò)因其強(qiáng)大的特征表達(dá)能力和提取能力在圖片分類領(lǐng)域取得了很高的準(zhǔn)確率,如今,它的應(yīng)用延申到了圖像分析的各個(gè)領(lǐng)域,本課題采用深度卷積神經(jīng)網(wǎng)絡(luò)的方法,研究行人屬性多標(biāo)簽分類識(shí)別。
加深網(wǎng)絡(luò)以獲取更高的準(zhǔn)確率的同時(shí)也使得網(wǎng)絡(luò)變得難以優(yōu)化,因?yàn)樗赡芤鹛荻认Щ蛱荻缺ǖ膯栴},以及越深的網(wǎng)絡(luò)反而效果越差的退化問題。
ResNet[18]解決了這個(gè)問題,并且獲得了2015年ILSVRC第一名。它通過擬合殘差映射而不是原始映射,以及在層之間添加多個(gè)連接。這些新的連接跳過各個(gè)層并執(zhí)行標(biāo)識(shí),而不增加任何新參數(shù),或簡單的1×1卷積。特別是,該網(wǎng)絡(luò)是基于對構(gòu)建塊的重復(fù)使用,網(wǎng)絡(luò)的深度取決于使用的構(gòu)建塊的數(shù)量。該模塊由三個(gè)卷積塊組成,分別是 1×1卷積塊,3×3卷積塊接著又是1×1卷積塊,并且將第一個(gè)卷積的輸入連接到第三個(gè)卷積的輸出,每個(gè)卷積塊包含一層batch normalization層、激活層和卷積層,如圖2所示。對于我們的問題,我們使用了具有50層的ResNet50。
圖1? ? PETA行人圖片示例
圖2? ? ResNet的基本構(gòu)建單元
1.3? ?標(biāo)簽序列概率
采用Graves等人[19]提出的連接時(shí)序分類(CTC)中定義的條件概率。該概率是在每幀預(yù)測y = y1,…,yT的標(biāo)簽序列l(wèi)上定義的,并且它忽略了每個(gè)標(biāo)簽具體的位置。因此,當(dāng)我們使用這個(gè)概率的負(fù)對數(shù)似然作為目標(biāo)函數(shù),我們只需要圖像及其相應(yīng)的標(biāo)簽序列,避免標(biāo)記各個(gè)序列元素的位置。
CTC的公式簡單的描述如下:輸入是序列y = y1,…,yT,T是序列長度。這里每一個(gè)yt∈R[L],是集合L′ = LU‘—上的一個(gè)可能分布,L包含所有任務(wù)中的所有標(biāo)簽,‘—表示空格。一個(gè)序列到序列的映射函數(shù)B是定義在上π∈L′T的。B通過移除相同的標(biāo)簽和空格將π映射到I,例如B將“-hh-e-ll-oo-”(‘-表示空格)映射為“hello”。然后,一個(gè)條件概率定義為所有被B映射到I的π的和:
p(l | y) = ■? p(π | y)? ? ? ?(1)
π的概率是p(π | y) = ■Tt=1ytπt,ytπt表示在t時(shí)刻有標(biāo)簽πt的概率。由于大量的指數(shù)求和,直接計(jì)公式算式(1)是不可行的,但是可以用[19]中描述的前向-后向算法有效的計(jì)算出來。
1.4? ?網(wǎng)絡(luò)結(jié)構(gòu)
研究網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示:
圖3? ?網(wǎng)絡(luò)結(jié)構(gòu)圖
ResNet_input圖片大小為160 × 80 × 3,經(jīng)過ResNet50卷積提取特征后,ResNet_output大小為5 × 3 × 2048,Reshape輸出大小為30 × 1024,全連接層Dense將Reshape得到的30 × 1024輸出特征進(jìn)行全連接,輸出大小為30 × 53,其中,30是時(shí)間序列的時(shí)刻,53是分類數(shù)。最后,用全連接層的輸出和真實(shí)標(biāo)記通過CTC公式計(jì)算損失并對網(wǎng)絡(luò)進(jìn)行優(yōu)化。
1.5? ?算法驗(yàn)證
所使用的數(shù)據(jù)集是行人屬性數(shù)據(jù)集PETA。PETA數(shù)據(jù)集是由10個(gè)子集構(gòu)成如:VIPER,PRID,GRID以及CAVIAR4REID等,因此,PETA是一個(gè)包含不同鏡頭角度、光照、分辨率和場景的復(fù)雜數(shù)據(jù)集。
如果相應(yīng)屬性的樣本量過少則會(huì)導(dǎo)致數(shù)據(jù)不平衡,因此我們忽略了及其不平衡的屬性選擇樣本量大于1500的26個(gè)二分類屬性如表1所示。因此每張圖對應(yīng)26個(gè)標(biāo)簽共53個(gè)分類,其中除了26個(gè)正反類以外還有一類為CTC中的空格‘-。實(shí)驗(yàn)中把圖片大小調(diào)增為180×90,然后用隨機(jī)裁剪,隨機(jī)翻轉(zhuǎn),隨機(jī)旋轉(zhuǎn)等策略擴(kuò)充數(shù)據(jù)集,隨機(jī)裁剪的大小為160×80,裁剪后的圖片大小與裁剪前的圖片相差不大,一般不會(huì)造成圖片信息的損失。
表1? ?26類屬性識(shí)別精度對比表,粗體字表示最好的表現(xiàn)
實(shí)驗(yàn)平臺(tái)為i5-6500 CPU,NVIDIA GTX 1070 GPU以及16GB內(nèi)存的服務(wù)器。訓(xùn)練數(shù)據(jù)為11400張圖片,驗(yàn)證數(shù)據(jù)和測試數(shù)據(jù)各3800張。訓(xùn)練時(shí),先用ImageNet參數(shù)初始化ResNet50,再用PETA數(shù)據(jù)去訓(xùn)練。采用隨機(jī)梯度下降法(SGD)優(yōu)化網(wǎng)絡(luò),初始學(xué)習(xí)率為0.001,momentum為0.9,batch大小為32,訓(xùn)練50個(gè)epoch。
為了驗(yàn)證本文提出方法的有效性,本文使用了兩個(gè)對比模型。第一個(gè)是ikSVM[20],使用的特征和[13]中類似,它有2784個(gè)維度,包括8個(gè)顏色通道,如RGB,HSV和YCbCr,以及在亮度通道上使用Gabor和Schmid濾波器獲得的21個(gè)紋理通道。第二個(gè)是MLCNN[16],用滑動(dòng)窗策略把圖片分割成多個(gè)小圖,然后輸入到多輸入的神經(jīng)網(wǎng)絡(luò)里自動(dòng)提取特征,并用此特征進(jìn)行分類。
2? ?分? ?析
實(shí)驗(yàn)結(jié)果如表1,26個(gè)屬性中有24個(gè)是本文方法的分類準(zhǔn)確率更高。本文方法的平均準(zhǔn)確率為90.41%,高于ikSVM的81.01%和MLCNN的85.83%。這些結(jié)果表明本文的方法在大部分屬性上都優(yōu)于ikSVM和MLCNN。ikSVM是對每個(gè)屬性單獨(dú)的訓(xùn)練分類器,因此在某些屬性上ikSVM的準(zhǔn)確率要高一點(diǎn),MLCNN雖然是對多個(gè)屬性聯(lián)合訓(xùn)練,但是多輸入的網(wǎng)絡(luò),其復(fù)雜度要高很多,訓(xùn)練參數(shù)也很多,因此訓(xùn)練難度更大。本文把多屬性當(dāng)作是一個(gè)序列結(jié)合CTC loss設(shè)計(jì)了一個(gè)單輸入的時(shí)序網(wǎng)絡(luò),使用ResNet50充分發(fā)揮深度網(wǎng)絡(luò)特征表達(dá)能力強(qiáng)的優(yōu)勢,使得多標(biāo)簽的分類準(zhǔn)確率很高,用ImageNet預(yù)訓(xùn)練參數(shù)初始化ResNet50,大大提升了訓(xùn)練速度。因此,本文方法在大部分屬性分類中取得了更高的表現(xiàn)。
3? ?結(jié)? ?論
提出了一個(gè)用于行人屬性分類的多標(biāo)簽分類網(wǎng)絡(luò),該網(wǎng)絡(luò)通過CNN自動(dòng)提取特征,并且能夠預(yù)測多個(gè)屬性。在PETA數(shù)據(jù)集上的實(shí)驗(yàn)表明了該網(wǎng)絡(luò)在行人屬性分類上有很好的效果。未來的研究目標(biāo),在網(wǎng)絡(luò)中加入多尺度特征融合以應(yīng)對數(shù)據(jù)集中圖片大小相差比較大的問題,進(jìn)一步提升分類效果。
參考文獻(xiàn)
[1]? ? JAHA E S,NIXON M S. Analysing soft clothing biometrics for retrieval[C]. Biometric Authentication,2014:234—245.
[2]? ? DANTCHEVA A,SINGH A,ELIA P,et al. Search pruning in video surveillance systems:eficiency-reliability tradeoff[C]// IEEE International Conference on Computer Vision Workshops,2012.
[3]? ? JAIN A K,DASS S C,NANDAKUMAR K. Soft biometric traits for personal recognition systems[M]// Biometric Authentication,2004.
[4]? ? DANTCHEVA A,DUGELAY J L,ELIA P. Person recognition using a bag of facial soft biometrics (BoFSB)[C]// IEEE International Workshop on Multimedia Signal Processing,2010.
[5]? ? KUMAR N. Attribute and simile classifiers for face verification[C]// IEEE International Conference on Computer Vision. IEEE,2010.
[6]? LAYNE R,HOSPEDALES T M,GONG S. Towards person identification and re-identification with attributes[C]// European Conference on Computer Vision,2012.
[7]? ? 朱旭鋒,馬彩文.基于多不變量和多分類器融合的飛機(jī)識(shí)別[J].儀器儀表學(xué)報(bào),2011,32(7):1621—1627.
[8]? ?LI X D,YANG W D,JEAN D. An Airplane Image Target′s Multi-feature Fusion Recognition Method[J]. 自動(dòng)化學(xué)報(bào),2012,38(8):1298—1307.
[9]? ? HUSSEIN G T,REDDY S E. Satellite remote sensing image based aircraft recognition using transform features and detect fuzzy clustering[J].International Journal of Engineering Science and Computing,2016:4590—4594.
[10]? ZHU X,MA B,GUO G,et al. Aircraft type classification based on an optimized bag of words model[C]// Guidance,Navigation & Control Conference,2017.
[11]? LI H,JIN X,YANG N,et al. The recognition of landed aircrafts based on PCNN model and affine moment invariants[J]. Pattern Recognition Letters,2015,51(C):23-29.
[12] YAN T W,GARCIA-MOLINA H. SIFT:a tool for wide-area information dissemination[C]// Usenix Technical Conference,1995.
[13] DENG Y B,LUO P,CHEN C L,et al. Pedestrian Attribute Recognition At Far Distance[C]// the ACM International Conference. ACM,2014.
[14]? JAHA E S,NIXON M S. Soft biometrics for subject identification using clothing attributes[C]// IEEE International Joint Conference on Biometrics,2014.
[15] AN L,CHEN X,KAFAI M,et al. Improving person re-identification by soft biometrics based reranking[C]// Seventh International Conference on Distributed Smart Cameras,2014.
[16]? ZHU J,LIAO S,LEI Z,et al. Multi-label convolutional neural network based pedestrian attributeclassification[J]. Image & Vision Computing,2017,58(C):224-229.
[17]? SHI B,BAI X,YAO C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,39(11):2298-2304.
[18]? HE K,ZHANG X,REN S,et al. Deep residual learning for image recognition[EB/OL]. https://arxiv.org/abs/1512.03385,2015.
[19] GRAVES A,SANTIAGO F,GOMEZ F. Connectionist temporal classification:labelling unsegmented sequence data with recurrent neural networks[C]// International Conference on Machine Learning,ACM,2006.
[20]? DENG Y,LUO P,LOY C C,et al. Learning to recognizepedestrian attribute[EB/OL]. https://arxiv.org/abs/1501.00901,2015