吳 銳,劉 宇,馮 凱1,
(1.武漢郵電科學(xué)研究院,武漢 430074;2.南京烽火星空通信發(fā)展有限公司,南京 210019)
(*通信作者電子郵箱WuRui_sh@163.com)
行人屬性識別任務(wù)的目標(biāo)是識別圖片中的行人所包含的屬性,便于以結(jié)構(gòu)化信息數(shù)據(jù)描述目標(biāo)行人。在絕大多數(shù)的應(yīng)用場景下,該任務(wù)被看作是對行人的所有屬性標(biāo)簽進行二分類的多標(biāo)簽分類任務(wù)。該任務(wù)面臨的主要挑戰(zhàn)之一是屬性識別所需的特征通常是局部的細(xì)粒度特征和行人的整體特征的結(jié)合,因為在低分辨率圖像中一些需要識別的細(xì)粒度局部屬性(如眼鏡屬性等)在行人圖像中所占的面積往往非常小,需要通過細(xì)粒度特征才能識別出該屬性是否存在;而某些抽象屬性(如行人朝向?qū)傩缘龋﹦t需要通過行人的整體特征來判斷。因此為了能夠更準(zhǔn)確地識別出是否存在某個屬性,顯著性的局部特征和良好的整體特征都至關(guān)重要。同時,行人的某些屬性的特征在空間上具有依賴性,在語義上通常是存在相互關(guān)聯(lián)關(guān)系(如性別屬性和短裙屬性),可以利用這種關(guān)系提高屬性間的識別效果。
本文利用深度神經(jīng)網(wǎng)路,提出了一種基于由空間自注意力和通道自注意力機制組成的雙域自注意力機制的行人屬性識別模型,通過空間自注意力提取更可分辨屬性的局部特征和捕獲空間特征間的依賴性,這有利于屬性識別的非局部相關(guān)特征;然后,使用通道注意力提取通道間語義的相關(guān)性,從而提升一些具有關(guān)聯(lián)性的屬性的識別效果。而且,本文將注意力特征和整體特征進行融合,可以使本文模型更好地識別不同粒度的屬性。另外,本文采用加權(quán)損失函數(shù)和添加批歸一化(Batch Normalization,BN)層的雙重機制,緩解了數(shù)據(jù)樣本不平衡所導(dǎo)致的少樣本屬性識別準(zhǔn)確率低的問題。實驗結(jié)果表明,本文所提出的模型可以有效地提升屬性識別準(zhǔn)確率。
傳統(tǒng)的特征提取通常是基于手工設(shè)計特征提取方法。手工設(shè)計特征的方法通常是通過提取圖像中的方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征[1]或統(tǒng)計顏色直方圖[2]的形式作為圖像的表征,需要針對應(yīng)用任務(wù)的不同設(shè)計不同的濾波器或提取策略。近年來,深度學(xué)習(xí)在利用多層非線性變換進行自動特征提取方面取得了成功,特別是在計算機視覺、語音識別和自然語言處理等領(lǐng)域,取得了令人矚目的成績。Sudowe 等[3]提出的ACN(Attributes Convolutional Net)模型使用AlexNet網(wǎng)絡(luò)對特征提取,對每個屬性設(shè)置一個分類器的方式實現(xiàn)屬性識別。Abdulnabi等[4]將行人屬性當(dāng)作多任務(wù)識別工作,提出的多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(Multi-Task Convolutional Neural Network,MTCNN)模型在共享特征池的基礎(chǔ)上設(shè)立了多個任務(wù),每個任務(wù)對應(yīng)一個屬性的識別工作。以上方法只提取了行人圖像的整體特征,而行人屬性識別可以看成一種細(xì)粒度的多標(biāo)簽分類任務(wù),屬性局部的特征顯著性與識別的效果正相關(guān)。增強局部特征顯著性可以通過分割行人圖片提取局部特征的方式,如:文獻[5-7]等先提取出行人各個軀干部位的局部特征,使用局部特征和局部特征間的依賴進行局部屬性識別;文獻[8]中將行人圖像水平切割成多個區(qū)域,對每個區(qū)域特征進行編碼-解碼,從而使局部的特征更顯著化,更有利于局部屬性的識別。另一種方式則是利用注意力機制,通過特征對識別屬性的重要性分配權(quán)重。典型方法有首次將注意力機制應(yīng)用于屬性識別任務(wù)的空間正則化網(wǎng)絡(luò)(Spatial Regularization Network,SRN)[9],提出多向注意力機制的Hydraplus-Net[10],以及融合了局部特征方式和注意力機制方式的JVRKD(Join Visual-semantic Reasoning and Knowledge Distillation)[11]等。
在計算機視覺任務(wù)中,特征之間存在相互依賴關(guān)系,而卷積操作只是一種局部區(qū)域的操作,為了獲得局部區(qū)域之外的特征,需要通過卷積層的堆疊以增大深層神經(jīng)元的感受野,這會導(dǎo)致卷積神經(jīng)網(wǎng)絡(luò)設(shè)計的難度增加,從而導(dǎo)致基于該網(wǎng)絡(luò)進行特征提取的模型的復(fù)雜度增加。受圖片濾波領(lǐng)域的非局部均值去噪濾波算法[12]的思想的啟發(fā),Wang等[13]提出了Non-Local 網(wǎng)絡(luò)用于對視頻分類。文獻[14]中則結(jié)合Transformer[15]和Non-Local 的思想,提出自注意力機制解決非局部特征依賴的問題。在圖像分類和行人重識別任務(wù)中,文獻[16]和文獻[17]中也分別使用了自注意力機制。但文獻[14-16]中的方法只針對特征的空間域提取依賴關(guān)系,沒有使用通道間的關(guān)聯(lián)性信息,而通道信息往往與語義的相關(guān)性較大,從文獻[17]的分類效果中也得到了證明。因此,融合空間域注意力和通道域注意力的混合域注意力方法[18-20]應(yīng)運而生。
本文模型的整體架構(gòu)如圖1 所示,在ResNet50[21]的基礎(chǔ)上加入了用于行人屬性識別任務(wù)的模塊。
圖1 本文模型的整體架構(gòu)Fig.1 Overall architecture of the proposed method
首先,在基礎(chǔ)特征提取階段,使用ResNet50 的conv1、conv2_x、conv3_x、conv4_x(x 表示該層子序列的統(tǒng)稱)模塊作為特征提取網(wǎng)絡(luò),所提到的特征隨后經(jīng)過一個通道自注意力模塊(Channel Self-Attention Model,CSAM),該模塊的主要作用是整合提取到的中層特征,抑制非必要的特征,顯著化利于行人屬性識別的中層特征。
然后,網(wǎng)絡(luò)被拆分為整體特征提取和注意力特征提取的雙分支網(wǎng)絡(luò)。雙分支網(wǎng)絡(luò)都使用ResNet50 的conv5_x 模塊作為高層語義特征提取模塊,且提取到的特征都分別通過全連接(Full Connection,F(xiàn)C)層進行降維至1× 1024 維,減少模型參數(shù)量以降低過擬合的風(fēng)險。主要區(qū)別在于:
1)注意力特征提取分支主要偏向于提取具有關(guān)聯(lián)性特征和更有利于屬性識別的局部性特征。該分支主要由降維模塊和注意力模塊組成:降維模塊包括2 個1× 1 卷積層(分別位于conv5_x 和注意力模塊之間和注意力模塊和全局池化模塊之間)和1 個全連接層(位于該分支的輸出端);注意力模塊包括空間自注意力模塊(Spatial Self-Attention Model,SSAM)和CSAM(詳見2.2節(jié))。SSAM 能夠捕捉和顯著化到空間中具有關(guān)聯(lián)性的特征,CSAM 則捕捉具有通道抽象語義的局部特征,將兩種注意力特征融合,優(yōu)勢互補,更有利于對具有關(guān)聯(lián)性和局部細(xì)粒度性的行人屬性進行識別。
2)整體特征提取分支主要偏向于對行人整體的特征進行提取。與ResNet50 的結(jié)構(gòu)相似,該分支由conv5_x 模塊提取得到14 × 14 × 2 048 維的特征直接使用全局平均池化(Global Average Pooling,GAP)的方式,從而使該分支提取到的特征包含行人的整體信息特征。
最后,將行人整體特征和注意力特征通過向量拼接(Concatenate,CAT)進行融合,經(jīng)過BN 層對屬性樣本進行平衡化處理,再使用全連接層作為分類器,實現(xiàn)對行人屬性的多標(biāo)簽分類。
2.2.1 空間自注意力模塊
空間自注意力模塊的結(jié)構(gòu)如圖2 所示,首先將上一層得到的特征圖X∈RC×H×W分別送入3 個卷積模塊得到特征圖三元組(Q,K,V) ∈RC×H×W,將Q和K進行維度壓縮成RC×N的矩陣(N=H×W),經(jīng)過轉(zhuǎn)置相乘即可求得特征圖間的相關(guān)矩陣特征S∈RN×N,經(jīng)過Softmax權(quán)值對S的每個元素si,j歸一化后,得到注意力系數(shù)矩陣Z∈RN×N,Z中的每個元素zj,i(式(1))代表區(qū)域j受元素i的影響程度。將Z和V乘積后的特征與輸入特征X融合后得到空間注意力特征Y∈RC×H×W。
通過系數(shù)矩陣Z與維度壓縮后的特征圖V進行矩陣乘積得到注意力特征A∈RC×N,將A擴維重塑得到注意力特征圖B∈RC×H×W。接著,在空間自注意力模塊的最后階段,利用一個可學(xué)習(xí)的參數(shù)λ融合注意力特征B∈RC×H×W和輸入特征X∈RC×H×W,得到空間自注意力模塊的最終輸出Y∈RC×H×W,即
參照文獻[12]的設(shè)定,在模型的開始訓(xùn)練階段,參數(shù)λ的初始值設(shè)置為0;隨著模型訓(xùn)練過程的進行,參數(shù)λ逐漸學(xué)習(xí)合適的值以更好地融合B和X。
圖2 空間自注意力模塊結(jié)構(gòu)Fig.2 Spatial self-attention module structure
2.2.2 通道自注意力模塊
通道自注意力模塊(如圖3)的建模方式與空間注意力思想相似,輸入特征X∈RC×H×W,將X進行維度壓縮得到E,F(xiàn),G∈RC×N,E和F轉(zhuǎn)置相乘得到T∈RC×C,接著利用Softmax得到通道注意力系數(shù)矩陣U,但與空間注意力不同,得到的系數(shù)矩陣只關(guān)注通道間的影響程度,因此U∈RC×C。在通道自注意力模塊中,生成E、F、G的過程中并沒有經(jīng)過卷積操作,從而能更好地保留通道圖間的關(guān)系。
由U和G得到注意力特征圖M∈RC×H×W。M再經(jīng)過可學(xué)習(xí)的參數(shù)θ與原始輸入X加權(quán)求和,得到通道域最終的輸出O∈RC×H×W。
圖3 通道自注意力模塊結(jié)構(gòu)Fig.3 Channel self-attention module structure
無論是PETA 還是RAP 數(shù)據(jù)集,都存在比較嚴(yán)重的屬性樣本不平衡的情況,這使模型在訓(xùn)練階段的權(quán)重調(diào)整更偏向于包含多樣本的屬性,從而出現(xiàn)包含多樣本的屬性識別準(zhǔn)確率高,而少樣本屬性識別準(zhǔn)確率較低的現(xiàn)象。對多樣本進行前采樣和少樣本過采樣是圖像多分類任務(wù)中常用的手段,但這并不適用于行人屬性識別任務(wù)。因為在圖像多分類任務(wù)中,對圖像的標(biāo)注通常是單標(biāo)簽,可以通過控制單個標(biāo)簽的數(shù)量平衡樣本;但行人屬性分類任務(wù)是一張圖片對應(yīng)一個包含多個標(biāo)簽值的長向量,不可以對標(biāo)簽向量中的某個標(biāo)簽單獨進行數(shù)量控制,因此無法使用過采樣或欠采樣的方法控制樣本平衡。
針對樣本不平衡的問題,如式(5)所示,本文采用對損失函數(shù)進行加權(quán)的策略,讓少樣本的屬性在訓(xùn)練過程中施加更大的影響。
其中:N表示數(shù)據(jù)集的樣本數(shù);wl表示根據(jù)設(shè)計的策略對第l個屬性的加權(quán)權(quán)重;yil表示行人xi的第l個屬性的真實標(biāo)簽,存在為1,否則為0;σ為超參數(shù),本文中設(shè)定為表示行人xi的第l個屬性的預(yù)測概率。計算式如下:
此外,本文還在模型的特征提取后添加了一個批歸一化(BN)層,通過BN 層參數(shù)的學(xué)習(xí),進一步降低了樣本不平衡的影響。通過對比實驗證明(詳見3.2 節(jié)),加權(quán)損失策略的加入,可以使基準(zhǔn)模型在PETA 和RAP 數(shù)據(jù)集上的平均準(zhǔn)確率(mean Accuracy,mA)值分別提高2.02 個百分點和1.94 個百分點,這表明通過加權(quán)損失的方式平衡樣本可以使單個屬性的識別準(zhǔn)確率有所提升。BN 層的加入也可以使模型識別效果有小幅度地提升,mA 值分別提升了0.42 個百分點和0.26個百分點。
為了測試本文模型的有效性,在兩大公開的數(shù)據(jù)集PETA和RAP上進行訓(xùn)練和測試。
1)PETA 數(shù)據(jù)集[22]由從10 個小規(guī)模行人數(shù)據(jù)集收集的19 000張人圖像組成。整個數(shù)據(jù)集被隨機分為三個不重疊的部分:9 500個用于訓(xùn)練,1 900個用于驗證,7 600個用于測試。由于屬性樣本不平衡現(xiàn)象的存在,一般選取35 個屬性標(biāo)注中樣本比例大于5%的屬性用于評測,35個屬性如表1所示。
表1 PETA數(shù)據(jù)集的35個屬性Tab.1 Thirty-five attributes of PETA dataset
2)RAP數(shù)據(jù)集[23]包含來自26個室內(nèi)監(jiān)控攝像頭的41 585 張圖像,每個圖像都有69 個二進制屬性和3 個多類屬性。根據(jù)官方協(xié)議,整個數(shù)據(jù)集被分割成33 268 張訓(xùn)練圖像和8 317 張測試圖像,對其中的51 個二值屬性進行了識別性能評價,51個屬性如表2所示。
量化對比的評價指標(biāo)使用通用的基于標(biāo)簽(Label-based)的平均準(zhǔn)確率(mean Accuracy,mA)指標(biāo)和基于實例(Example-based)的準(zhǔn)確率(Accuracy,Acc)指標(biāo)、精確率(Precision,Prec)指標(biāo)、召回率(Recall,Rec)指標(biāo)以及F1 值指標(biāo)23]。
本文做了兩組實驗對比:實驗一對比了基準(zhǔn)網(wǎng)絡(luò)ResNet50和本文所提出的各個模塊在兩個數(shù)據(jù)集測試集上的指標(biāo)效果;實驗二則是將本文模型與當(dāng)前的一些行人屬性識別模型的量化評價指標(biāo)結(jié)果進行對比。
3.2.1 實驗相關(guān)設(shè)置
在本次實驗中,輸入到模型的圖像大小為224 × 224,在將圖像輸入到網(wǎng)絡(luò)之前,所有圖像都通過減去平均值和除以每個顏色通道的標(biāo)準(zhǔn)差進行標(biāo)準(zhǔn)化。數(shù)據(jù)擴增上,只在訓(xùn)練過程中采用了隨機翻轉(zhuǎn)隨機旋轉(zhuǎn)的數(shù)據(jù)增強方法,測試時不使用任何的變換。為了獲得更多的特征信息,所有的實驗的基礎(chǔ)網(wǎng)絡(luò)ResNet50 均使用了ImageNet[24]訓(xùn)練的權(quán)重作為初始權(quán)重,且均去除了ResNet conv5_x的下采樣操作,即conv5_x的輸出特征圖大小為14×14。優(yōu)化網(wǎng)絡(luò)的優(yōu)化器采用隨機梯度 下 降(Stochastic Gradient Descent,SGD),其中動量(Momentum)和權(quán)值衰減(Weight decay)參數(shù)分別設(shè)為0.9 和0.000 5。初始學(xué)習(xí)率為0.001,在Pytorch 框架下使用ReduceLROnPlateau 類以驗證集損失作為標(biāo)準(zhǔn)調(diào)整學(xué)習(xí)率衰減,衰減系數(shù)為0.1。
表2 RAP數(shù)據(jù)集的51個屬性Tab.2 Fifty-one attributes of RAP dataset
3.2.2 方法有效性實驗
在本組實驗中,本文通過在基準(zhǔn)網(wǎng)絡(luò)ResNet50 上分別依次添加權(quán)損失策略(wl)、BN 層和雙域自注意力模塊(Twodomain Self-attention Module,TSM),對比驗證每個方法對屬性識別的增益程度。在PETA 和RAP 數(shù)據(jù)集上的實驗結(jié)果如表3 所示,表中加粗的內(nèi)容表示該指標(biāo)下的最好結(jié)果,下劃線表示排在第二的結(jié)果。
表3 PETA和RAP數(shù)據(jù)集上各模塊有效性對比 單位:%Tab.3 Effectiveness comparison of different modules on PETA and RAP dataset unit:%
由表3 可以看出,對損失函數(shù)根據(jù)樣本數(shù)量的權(quán)重進行加權(quán)(+wl)后,在兩個數(shù)據(jù)集上,mA指標(biāo)分別比基準(zhǔn)模型提高了1.57 個百分點和1.94 個百分點;加入BN 層(+wl+BN)也可以使模型的識別效果有小幅度的增益(mA指標(biāo)增益幅度分別為0.42個百分點和0.26個百分點);在添加了BN層模型的基礎(chǔ)上加入本文所提出的空間自注意力模塊和通道自注意力模塊,在兩個數(shù)據(jù)集中可以使每個評價指標(biāo)值都有所提升,mA指標(biāo)分別提升了1.92 個百分點和1.85 個百分點,Acc 則有3.12個百分點和2.21個百分點的增幅。
總的來說,本文模型相較基準(zhǔn)模型ResNet50,在PETA 和RAP 數(shù)據(jù)集上mA 指標(biāo)分別提升了3.91 個百分點和4.05 個百分點,Acc 指標(biāo)分別提升了3.92 個百分點和1.6 個百分點。在圖4中,通過對比基準(zhǔn)模型ResNet50和本文模型在PETA數(shù)據(jù)集的35 個屬性和RAP 數(shù)據(jù)集的51 個屬性分別的識別準(zhǔn)確率,可以看出本文模型對絕大部分屬性的識別效果都有所提升,特別是對基準(zhǔn)模型識別準(zhǔn)確率低的屬性提升比較明顯,而這部分屬性通常是數(shù)據(jù)集中的少樣本屬性。其中,圖4 的縱坐標(biāo)表示識別的準(zhǔn)確率,橫坐標(biāo)表示屬性的編號,該編號與表1和表2的屬性編號分別對應(yīng)。
圖4 基準(zhǔn)模型和本文模型在PETA和RAP上各屬性的識別準(zhǔn)確率Fig.4 Recognition accuracy for different attributes by baseline and proposed models on PETA and RAP
3.2.3 與其他模型的對比
該實驗對比了一些基于PETA 和RAP 數(shù)據(jù)集訓(xùn)練和測試的模型方法,主要有PGDM(Posed Guided Deep Model)[5],VSGR(Visual-Semantic Graph Reasoning net)[7]、HPNet(Hydra Plus Net)[10]、DeepMAR(Deep Multi-Attribute Recognization model)[25]、LGNet(Location Guided Network)[26]、MPAR(Multistage Pedestrian Attribute Recognition method)[27]、RCRA(Recurrent Convolutional and Recurrent Attention model)[28]和IA2Net(Image-Attribute reciprocally guided Attention Network)[29]。其中DeepMAR 只提取行人的全局特征,PGDM 和LGNet通過行人局部區(qū)域網(wǎng)絡(luò)提取行人不同部位的局部特征,RCRA 和IA2Net將注意力機制運用在網(wǎng)絡(luò)模型之中,MPAR 通過階段訓(xùn)練和優(yōu)化損失的方式對基準(zhǔn)模型進行了更改。
通過與現(xiàn)有的行人屬性識別模型作對比得出,本文模型在幾項評價指標(biāo)上的效果都非常具有競爭力,綜合性能優(yōu)于其他行人屬性識別模型,具體如表4、5 所示,其中“—”表示該模型對應(yīng)的文獻中沒有給出具體數(shù)據(jù),粗體和下劃線的意義與實驗一設(shè)定相同。
為了觀察空間自注意力模塊和通道自注意力模塊在識別行人屬性時所主要關(guān)注的特征,了解每個自注意力模塊對屬性識別過程中起到什么作用,利用Grad-CAM(Gradient Class Activation Map)[30]方法對兩個模塊的輸出的特征圖的類別激活圖進行可視化,如圖5 所示,分別是使用模型識別行人是否有“HandBag”屬性和“Female”屬性,圖中第一列Input 表示輸入到網(wǎng)絡(luò)中的圖片,第二列CSAM 表示通道自注意力模塊輸出特征的類別激活圖,第三列SSAM 表示空間自注意力模塊輸出特征的類別激活圖。
表4 PETA上不同模型效果對比 單位:%Tab.4 Effect comparison of different models on PETA unit:%
表5 RAP上不同模型效果對比 單位:%Tab.5 Effect comparison of different models on RAP unit:%
圖5 識別HandBag和Female屬性注意力模塊的類別激活圖Fig.5 Class activation maps of attention module to recognizing HandBag and Female attributes
對于HandBag 屬性,通常只需要關(guān)注行人手部區(qū)域的特征即可判定是否存在該屬性,與其他區(qū)域特征相關(guān)性不大。因此在圖5(a)中,空間注意力和通道注意力都只關(guān)注了局部的特征。將兩者特征融合可以使局部特征更顯著,更利于HandBag屬性的識別。
如圖5(b)所示,與只需要關(guān)注局部區(qū)域的HandBag 屬性不同,F(xiàn)emale屬性是非局部性質(zhì)的抽象屬性,往往需要結(jié)合多個語義特征來判定。在這種情況下,通道自注意力機制的關(guān)注區(qū)域處于行人頭發(fā)和裙擺的局部區(qū)域,即關(guān)注長發(fā)語義特征和裙子語義特征,其中行人頭發(fā)區(qū)域獲得的關(guān)注度比裙擺區(qū)域獲得的關(guān)注度更高;而空間自注意力機制所關(guān)注的區(qū)域更偏向于大范圍的特征區(qū)域,即更偏向于通過行人服飾等特征判定是否是“女性”屬性。通過將空間自注意力模塊和通道自注意力模塊提取到的特征進行融合,可以使兩者進行優(yōu)勢互補,提高屬性的識別準(zhǔn)確度。
通過觀察自注意力模塊的可視化結(jié)果可以得出:1)對于只需要局部特征且與其他區(qū)域語義關(guān)聯(lián)性弱的細(xì)粒度屬性,空間自注意力模塊和通道自注意力模塊關(guān)注的特征都集中在該屬性的局部區(qū)域,融合兩個模塊提取到的特征可以使局部特征更顯著化;2)對于需要借助其他語義特征信息才能識別出的屬性,空間自注意力模塊關(guān)注的特征是大范圍的、與屬性空間關(guān)聯(lián)性強的特征,通道自注意力模塊關(guān)注的特征是局部的、與屬性語義關(guān)聯(lián)性強的特征,融合兩個模塊提取到的特征可以優(yōu)勢互補,獲得更好的識別效果。
針對行人屬性識別任務(wù)中不同屬性對特征粒度和特征依賴性需求不同的問題,本文提出了使用空間自注意力機制提取空間的依賴性特征,使用通道自注意力機制提取通道間特征的語義相關(guān)性信息,并將融合后的自注意力特征與行人的整體特征進一步融合,以滿足不同粒度屬性的特征需求,從而得到更好的屬性識別效果。實驗結(jié)果顯示,本文模型在PETA和RAP 兩大行人屬性數(shù)據(jù)集中都可以提升屬性的識別效果。不過由于空間自注意力是對特征圖像素級的權(quán)重分配,需要計算每個像素間的相關(guān)性,導(dǎo)致該模塊計算量較大,本文模型也為此只將其用于特征圖尺寸較小的深層特征中;同樣地,通道自注意力也需要計算每個通道間特征的相關(guān)性,計算量也比較大。因此,未來的研究可以圍繞降低空間自注意力機制和通道自注意力機制的計算量上展開。