閆昊雷,李小春,張仁飛,張 磊,邱浪波,王 哲
(1.空軍工程大學(xué)信息與導(dǎo)航學(xué)院,西安,710077;2.武警陜西省總隊(duì),西安,710054;3.陜西省信息化工程研究院,西安,710061;4.陸軍裝備部,北京,100000)
隨著我國(guó)“智慧城市”“智慧軍營(yíng)”的建設(shè)發(fā)展,以視頻傳感器為前端信息獲取來(lái)源,結(jié)合人工智能技術(shù)進(jìn)行后臺(tái)信息處理的方法受到研究人員的廣泛關(guān)注。行人重識(shí)別是一種應(yīng)用于數(shù)據(jù)庫(kù)中查詢特定行人的方法,即對(duì)輸入行人圖像進(jìn)行解析,提取圖像外部特征,根據(jù)這些特征,可進(jìn)行跨區(qū)域的行人匹配,尋找特定對(duì)象,極大地節(jié)省后臺(tái)信息處理人員的時(shí)間和精力,可廣泛應(yīng)用于抓捕逃犯、不明身份人員進(jìn)入軍事涉密區(qū)域的跟蹤和定位等軍事場(chǎng)景和智能安防、無(wú)人超市等民用場(chǎng)景,但由于現(xiàn)實(shí)場(chǎng)景的復(fù)雜多變,不同相機(jī)存在質(zhì)量差異,行人特征受外部環(huán)境影響較大,影響檢測(cè)準(zhǔn)確度。因此,行人重識(shí)別算法研究現(xiàn)如今仍具有挑戰(zhàn)性[1]。以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的深度學(xué)習(xí)方法因其強(qiáng)大的識(shí)別效果受到研究人員青睞,該方法通過(guò)形成深層神經(jīng)網(wǎng)絡(luò)對(duì)圖像提取特征,然后進(jìn)行圖像的分類和檢索,避免傳統(tǒng)手工算法中依靠人類尋找圖像特征帶來(lái)提取效果不佳的影響。具體來(lái)說(shuō),行人重識(shí)別在深度學(xué)習(xí)中的研究思路就是將輸入圖像通過(guò)深層神經(jīng)網(wǎng)絡(luò),由網(wǎng)絡(luò)提取特征加以利用,達(dá)到快速捕獲其他視頻傳感設(shè)備下的該行人圖像[2]。
注意力機(jī)制作為嵌入在神經(jīng)網(wǎng)絡(luò)模型中的一種模塊,幫助網(wǎng)絡(luò)識(shí)別圖像的關(guān)鍵特征,忽略冗余背景特征。融入注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型對(duì)圖像特征提取效果更好,因此引發(fā)研究人員的廣泛關(guān)注。如Hu[3]等人提出的SENet將各通道降維后壓縮為對(duì)特征圖的權(quán)重,從通道維度尋找與特征圖間的關(guān)系。Chen[4]對(duì)注意力機(jī)制中復(fù)雜的高階統(tǒng)計(jì)信息進(jìn)行建模和利用,從而捕捉行人之間的細(xì)微差異。宋曉花[5]等人將通過(guò)含有注意力模塊的主干網(wǎng)絡(luò)后的特征圖進(jìn)行多尺度融合,獲取不同尺度下的特征信息。Liu[6]等人通過(guò)將圖像劃分為不同窗口的形式,降低了運(yùn)算量,將自注意力[7]融入目標(biāo)檢測(cè)算法中。Zhang[8]等人通過(guò)卷積操作尋找特征圖空間維度和通道維度的相互關(guān)系,形成注意力權(quán)重。當(dāng)前,對(duì)注意力機(jī)制研究主要是集中在模塊的改進(jìn)和創(chuàng)新上,而對(duì)多尺度的注意力模塊融合仍有待研究。由于目標(biāo)全局特征不足以充分描述行人圖像的細(xì)節(jié)信息,故可根據(jù)先驗(yàn)知識(shí),尋求行人身體各部位之間在圖像上的排列規(guī)律,即行人圖像可看作是從頭部到腿部的有規(guī)律的排列,沿用循環(huán)神經(jīng)網(wǎng)絡(luò)可提取出序列上下文信息的思路,盡管行人每個(gè)身體部位在不同圖像中并不總是位于相同的位置,但所有行人身體部位仍可以按身體排列規(guī)則進(jìn)行建模。長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)是門控循環(huán)神經(jīng)網(wǎng)絡(luò)的一種,其引入自循環(huán)方法,以產(chǎn)生梯度長(zhǎng)時(shí)間持續(xù)流動(dòng)的路徑,通過(guò)門控自循環(huán)的權(quán)重,累積的時(shí)間尺度可以動(dòng)態(tài)地改變。為進(jìn)一步尋找行人圖像各局部特征間關(guān)系,本文在融入多尺度注意力模塊的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)基礎(chǔ)上,連接LSTM[9]提取行人圖像各區(qū)域間的序列特征關(guān)系。
針對(duì)上述問(wèn)題,本文提出一種基于多尺度注意力融合和雙向LSTM的行人重識(shí)別算法(MAFLNet),該算法基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),使模型通過(guò)卷積網(wǎng)絡(luò)在融入注意力機(jī)制有效提取圖像特征時(shí),同時(shí)關(guān)注不同像素區(qū)域之間的獨(dú)特的序列關(guān)系。最后使用難采樣三元組損失函數(shù)[10]和交叉熵?fù)p失函數(shù)在CUHK03[11]和Market1501[12]數(shù)據(jù)集上對(duì)該網(wǎng)絡(luò)進(jìn)行訓(xùn)練,檢驗(yàn)算法有效性。
注意力機(jī)制在圖像處理和自然語(yǔ)言處理領(lǐng)域已經(jīng)得到廣泛應(yīng)用,如:圖像分類[13]、圖像描述[14]、物體檢測(cè)[15]、行人重識(shí)別[16]。現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)無(wú)法根據(jù)輸入圖像提取特定目標(biāo)的特征信息,而注意力機(jī)制能夠作用于圖像的中間層特征,幫助模型提取圖像所包含的具有辨識(shí)度的關(guān)鍵特征。常見(jiàn)的注意力主要有空間注意力和通道注意力。空間注意力旨在提升關(guān)鍵區(qū)域的特征表達(dá),將原始圖片中的空間信息變換到高維空間中并保留關(guān)鍵信息,為每個(gè)區(qū)域生成權(quán)重掩膜并加權(quán)輸出;通道注意力能夠?qū)ふ也煌ǖ缹?duì)于特征圖的相關(guān)性,通過(guò)神經(jīng)網(wǎng)絡(luò)自動(dòng)獲取各通道的權(quán)重,強(qiáng)化重要通道特征并抑制非重要通道特征。
在圖像語(yǔ)義理解方面,選擇性注意力和自注意力通過(guò)不同方式完成特征提取。選擇性注意力模塊以模型中間層特征為依據(jù),通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)注意力權(quán)重,并與原特征圖融合,從而達(dá)到加強(qiáng)重要特征而抑制非相關(guān)成分的目的。而自注意力則從圖像自身特點(diǎn)出發(fā),減少對(duì)外部信息的依賴,盡可能地利用特征內(nèi)部固有的信息進(jìn)行注意力的交互。其通過(guò)embedding變換生成Key、Query和Value,根據(jù)前兩項(xiàng)計(jì)算權(quán)重系數(shù),然后再針對(duì)該權(quán)重對(duì)Value加權(quán)求和,完成對(duì)Query位置特征的調(diào)整。
為進(jìn)一步獲取區(qū)域特征間的關(guān)系,本文采用循環(huán)神經(jīng)網(wǎng)(RNN)獲取圖像的上下文信息。LSTM結(jié)構(gòu)如圖1所示。
圖1 LSTM單元結(jié)構(gòu)
圖1中,在2個(gè)輸入中,上面的輸入是單元的記憶狀態(tài)ct-1,下面的輸入是上一層的輸出ht-1。在2個(gè)輸出中,上面的輸出是下一個(gè)單元的記憶狀態(tài)ct,下面的輸出是當(dāng)前層的輸出ht。中間結(jié)構(gòu)的3個(gè)Sigmoid激活函數(shù)代表3個(gè)門控制單元,由于Sigmoid函數(shù)的輸出是0~1,因此可以實(shí)現(xiàn)控制閥機(jī)制。ft為遺忘門輸出,主要用于對(duì)于上一個(gè)節(jié)點(diǎn)的輸出進(jìn)行選擇性遺忘;it為輸入門的輸出的值,由St和ht-1控制。輸出門ot用于輸出隱藏狀態(tài)ht,tanh為激活函數(shù)。
本文采取基于多尺度注意力融合的方法的卷積神經(jīng)網(wǎng)絡(luò)獲取圖像的全局特征,循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM獲取局部特征之間相互關(guān)系的方法共同對(duì)輸入圖像進(jìn)行特征提取。思想框架如圖2所示,其中,長(zhǎng)方體表示特征圖。具體來(lái)說(shuō),首先將輸入圖像通過(guò)基于多尺度通道注意力融合的卷積神經(jīng)網(wǎng)絡(luò)ResNet50,用以提取全局特征,然后根據(jù)行人各部位構(gòu)造在圖像中具有的規(guī)律性,對(duì)全局特征序列等份分割后獲取相應(yīng)的局部特征序列,接著通過(guò)雙向LSTM網(wǎng)絡(luò)尋找各局部特征之間的相互關(guān)系。對(duì)通過(guò)卷積神經(jīng)網(wǎng)絡(luò)獲取的全局特征和循環(huán)神經(jīng)網(wǎng)絡(luò)獲取的局部特征使用交叉熵?fù)p失函數(shù)和難采樣三元組損失函數(shù)共同進(jìn)行訓(xùn)練。
圖2 多尺度注意力融合模塊和LSTM的改進(jìn)網(wǎng)絡(luò)模型(MAFLNet)
本文通道注意力模塊選為SE block作為研究對(duì)象,將原始圖像通過(guò)含有融合多尺度通道注意力模塊的ResNet50卷積網(wǎng)絡(luò),提取輸入圖像的全局特征后,通過(guò)難三元組損失函數(shù)和交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練。由于卷積神經(jīng)網(wǎng)絡(luò)在處理不同通道維度的特征圖中所賦予的各通道權(quán)重也有所不同,故可在注意力融合模塊中,對(duì)不同通道下的特征圖像進(jìn)行融合,即對(duì)輸入的特征圖在通道維度進(jìn)行切分和組合操作,使不同通道維度下的注意力有效融合。多尺度注意力融合模塊主要結(jié)構(gòu)如圖3所示,為方便闡述,對(duì)網(wǎng)絡(luò)中間層的批歸一化層和ReLU激活函數(shù)予以省略。主要步驟如下:假設(shè)輸入特征圖為X∈RC×H×W,其中C為圖像通道數(shù),H為圖像高度,W為圖像寬度。
圖3 多尺度注意力融合模塊
為提高模型的預(yù)測(cè)準(zhǔn)確度,進(jìn)一步使網(wǎng)絡(luò)理解局部特征間相互關(guān)系,使用雙向LSTM可分別從特征向量的起始點(diǎn)和終點(diǎn)雙向移動(dòng),用于在二維圖像上獲取上、下、左、右4個(gè)方向的信息,為獲取更準(zhǔn)確的上下文信息,本文算法在設(shè)計(jì)中將隱藏層設(shè)為兩層,其具體結(jié)構(gòu)如圖4所示。將通過(guò)多尺度注意力融合網(wǎng)絡(luò)獲取的全局特征向量進(jìn)行水平分割后,得到該圖像各局部特征所對(duì)應(yīng)的特征向量,將所得向量輸入至兩層雙向LSTM網(wǎng)絡(luò),以獲取局部特征之間的相互關(guān)系。然后,將所有特征向量連接在一起作為最終的行人局部特征。 具體地,由卷積網(wǎng)絡(luò)所得的輸出X′∈RC×H×W,其中C為特征圖的通道數(shù),H為圖像高度,W為圖像寬度。為獲取圖像垂直方向的序列關(guān)系,首先使用全局平均池化操作將圖像寬度壓縮至一維,得到X1∈RC×H×1,然后對(duì)X1進(jìn)行等份分割,從而產(chǎn)生H個(gè)通道數(shù)為C的特征向量,再將每個(gè)特征序列通過(guò)兩層雙向LSTM網(wǎng)絡(luò),生成U個(gè)特征向量,從而更好地表示特征序列連接關(guān)系。最后,將所有特征向量連接在一起作為最終的行人局部特征關(guān)系表示向量,再通過(guò)全連接層進(jìn)行分類,最后使用交叉熵?fù)p失函數(shù)對(duì)模型進(jìn)行訓(xùn)練。
圖4 雙向LSTM結(jié)構(gòu)
本文算法基于Python的深度學(xué)習(xí)框架Pytorch,使用英偉達(dá)3090顯卡進(jìn)行模型訓(xùn)練和評(píng)估測(cè)試。在訓(xùn)練中,為提升模型魯棒性,對(duì)數(shù)據(jù)集采取3種數(shù)據(jù)增強(qiáng)方法,即隨機(jī)擦除、隨機(jī)裁剪和水平翻轉(zhuǎn)。模型訓(xùn)練輪數(shù)設(shè)置為400,采用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.000 8,經(jīng)過(guò)每40輪訓(xùn)練,將學(xué)習(xí)率降低為原先的0.5倍,難采樣三元組損失函數(shù)中的超參數(shù)設(shè)置為0.3。在訓(xùn)練和測(cè)試中,每個(gè)batch設(shè)置為64,并采用余弦距離計(jì)算樣本間的距離。
為檢驗(yàn)本文算法的有效性,選用公開(kāi)數(shù)據(jù)集Market1501和CUHK03作為本次實(shí)驗(yàn)的數(shù)據(jù)集。
Market1501:該數(shù)據(jù)集包含751個(gè)行人的12 936張圖像用于訓(xùn)練,750個(gè)行人的19 732張圖像用于測(cè)試。 所有圖像均由5臺(tái)高分辨率相機(jī)和1臺(tái)低分辨率相機(jī)拍攝。
CUHK03:該數(shù)據(jù)集含有 1 467 個(gè)不同的人物,由 5 對(duì)攝像頭采集,其中訓(xùn)練集包含767個(gè)行人的7 670張圖像,測(cè)試集包含700個(gè)行人的7 000張圖像。
為使各算法具有可比較性,實(shí)驗(yàn)中采取相同的實(shí)驗(yàn)環(huán)境和參數(shù),并采用mAP和Rank-1作為評(píng)價(jià)標(biāo)準(zhǔn)。Rank-k通過(guò)計(jì)算前k個(gè)結(jié)果中預(yù)測(cè)正確的個(gè)數(shù)來(lái)表示算法準(zhǔn)確性,如Rank-1表示預(yù)測(cè)出的圖像中第1張正確的概率。mAP則反映了算法在整個(gè)測(cè)試集上的準(zhǔn)確率。
為檢驗(yàn)?zāi)P陀行?,文中使用文獻(xiàn)[17]的在ImageNet網(wǎng)絡(luò)上預(yù)訓(xùn)練模型ResNet50作為本次實(shí)驗(yàn)的baseline,將本文算法和當(dāng)前典型的其他行人重識(shí)別算法進(jìn)行對(duì)比,檢驗(yàn)算法的有效性和準(zhǔn)確率。為檢驗(yàn)各環(huán)節(jié)對(duì)算法性能的影響,將網(wǎng)絡(luò)架構(gòu)分解為融入SE block的baseline、融入多尺度注意力融合模塊網(wǎng)絡(luò)(MAFNet)和多尺度注意力融合和雙向LSTM的網(wǎng)絡(luò)(MAFLNet)進(jìn)行消融實(shí)驗(yàn),以驗(yàn)證多尺度注意力融合模塊和雙向LSTM網(wǎng)絡(luò)在行人重識(shí)別算法的有效性。
本文算法和其他當(dāng)前基于注意力模塊的行人重識(shí)別算法實(shí)驗(yàn)結(jié)果如表1所示,通過(guò)實(shí)驗(yàn)結(jié)果對(duì)比發(fā)現(xiàn),在CUHK03和Market1501數(shù)據(jù)集上,baseline的特征提取效果一般,mAP分別只有69%和83.7%,Rank-1分別為73.8%和94.2%,而本文所提出的MAFLNet算法mAP分別達(dá)到77.2%和87.1%,Rank-1達(dá)到79.4%和95.4%,在mAP值平均提高5.8%,Rank-1平均提高3.4%,和其他算法進(jìn)行對(duì)比,準(zhǔn)確率也有較大提升。
表1 本文算法和其他算法對(duì)比
為消除各環(huán)節(jié)間的相互影響,按照實(shí)驗(yàn)方案分為3個(gè)部分進(jìn)行消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2所示。通過(guò)結(jié)果發(fā)現(xiàn),使用SE block后,mAP在2個(gè)數(shù)據(jù)集上分別提高至71.2%和85.5%,Rank-1提升至73.8%和94.2%,表明該通道注意力模塊可有效獲取相應(yīng)通道權(quán)重,提取通道重要信息;在該網(wǎng)絡(luò)后添加雙向LSTM網(wǎng)絡(luò),mAP在2個(gè)數(shù)據(jù)集上分別提高至72.5%和86%,Rank-1提升至75.8%和94.5%。通過(guò)融合注意力模塊的網(wǎng)絡(luò)后,雙向LSTM網(wǎng)絡(luò)根據(jù)行人圖像特點(diǎn),進(jìn)一步學(xué)習(xí)輸出特征序列的上下文信息,使模型預(yù)測(cè)準(zhǔn)確率進(jìn)一步提升。采用MAFNet對(duì)輸入圖像進(jìn)行特征提取,mAP在2個(gè)數(shù)據(jù)集上分別提高至75.6%和86.4%,Rank-1提升至78.4%和94.8%,表明相較于基于SE blcok的單一尺度注意力網(wǎng)絡(luò),基于SE block的多尺度注意力模塊可學(xué)習(xí)特征圖在多個(gè)尺度下的通道信息權(quán)重并進(jìn)行融合,在保證不低于單一尺度下的特征提取效果情況下,進(jìn)一步挖掘不同尺度下的通道信息,從而關(guān)注重要特征而忽略冗余特征;為進(jìn)一步驗(yàn)證和提升模型提取效果,在該網(wǎng)絡(luò)后加入雙向LSTM結(jié)構(gòu),形成本文算法MAFLNet。實(shí)驗(yàn)結(jié)果表明,mAP在2個(gè)數(shù)據(jù)集上分別提高至77.2%和87.1%,Rank-1提升至79.4%和95.4%,說(shuō)明各分支結(jié)構(gòu)均可提升模型預(yù)測(cè)精準(zhǔn)度,多尺度注意力模塊可有效引導(dǎo)模型關(guān)注關(guān)鍵特征,雙向LSTM結(jié)構(gòu)能有效獲取圖像的局部特征間的關(guān)系。
表2 各環(huán)節(jié)網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果
為進(jìn)一步直觀感受各網(wǎng)絡(luò)特征提取效果,對(duì)各個(gè)環(huán)節(jié)訓(xùn)練出的網(wǎng)絡(luò)進(jìn)行可視化處理,如圖5所示。通過(guò)熱點(diǎn)圖可看出,本文算法MAFLNet更能關(guān)注行人的關(guān)鍵性特征,忽略冗余的背景特征,因此預(yù)測(cè)效果較好。
圖5 網(wǎng)絡(luò)熱點(diǎn)圖
本文提出一種基于多尺度融合和雙向LSTM的行人重識(shí)別算法,旨在將多尺度下注意力模塊進(jìn)行融合,提取與單一尺度不同的且更為關(guān)鍵的特征,后采用雙向LSTM網(wǎng)絡(luò)尋找圖像上下文信息,并通過(guò)交叉熵?fù)p失函數(shù)和難采樣三元組損失函數(shù)進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果表明本文算法的有效性,提高了行人重識(shí)別算法的準(zhǔn)確度。由于本文算法在同一數(shù)據(jù)集下進(jìn)行訓(xùn)練和測(cè)試,模型泛化能力較弱。因此,有關(guān)模型的遷移學(xué)習(xí)仍有進(jìn)一步研究空間。