閆昊雷,李小春,張仁飛,邱浪波
1(空軍工程大學(xué) 信息與導(dǎo)航學(xué)院,西安 710077)
2(武警陜西省總隊(duì),西安 710054)
3(陜西省信息化工程研究院,西安 710061)
E-mail:410538774@qq.com
隨著信息社會的發(fā)展,通過視頻傳感器監(jiān)控環(huán)境成為保障人民生命財(cái)產(chǎn)安全的重要手段之一.由于現(xiàn)實(shí)場景中受視頻傳感器像素低、現(xiàn)實(shí)環(huán)境復(fù)雜等因素影響,人臉識別技術(shù)無法進(jìn)行跨區(qū)域的檢測和識別,因此,行人重識別技術(shù)應(yīng)運(yùn)而生.其通過對輸入目標(biāo)的行人圖像進(jìn)行解析,可識別目標(biāo)行人衣著、外形、攜帶物等特征,根據(jù)這些特征,算法可快速定位該目標(biāo)所處監(jiān)控下的實(shí)時(shí)具體位置,即完成第2次識別.這項(xiàng)技術(shù)極大的節(jié)省人員時(shí)間和精力,可廣泛應(yīng)用于智能安保、抓捕逃犯、丟失兒童尋找等現(xiàn)實(shí)場景中.但由于現(xiàn)實(shí)場景的復(fù)雜多變,視頻傳感器固定觀察某處地域,無法獲取全域行人的正面圖像,且行人圖像極易被障礙物遮擋,因此只能獲取行人的部分圖像,導(dǎo)致對行人特征的判別力不強(qiáng),影響檢測準(zhǔn)確度.因此,行人重識別算法研究現(xiàn)如今仍具有挑戰(zhàn)性[1].
行人重識別算法研究分為兩大類:基于傳統(tǒng)方法和基于深度學(xué)習(xí)方法.傳統(tǒng)方法主要有手工設(shè)計(jì)特征和距離度量兩種.手工提取特征的算法有LOMO[2]、HOG[3]、LBP[4]等.主要是從圖像的顏色、紋理、梯度、形狀等因素出發(fā),尋求不同角度下的特征提取手段.度量學(xué)習(xí)方法主要有LMNN[5]算法、XQDA[6]算法和顯著性加權(quán)度量學(xué)習(xí)[7]等,其根據(jù)特征之間的不同距離進(jìn)行計(jì)算,從而提取出有用特征.由于傳統(tǒng)方法有一定的局限性,很難處理不同視頻傳感器拍攝的行人存在的姿態(tài)、背景、光線、尺度不同等問題,近年來,隨著深度學(xué)習(xí)理論研究的蓬勃興起和硬件計(jì)算能力的快速發(fā)展,有學(xué)者開始探索基于深度學(xué)習(xí)的行人重識別算法,并逐漸取得一系列成果[8].與傳統(tǒng)做法不同,利用深度學(xué)習(xí)解決行人重識別問題融合了特征提取與度量學(xué)習(xí)兩個(gè)過程,在自動(dòng)提取更有判別性特征的同時(shí),將特征映射到更好的度量空間.基于深度學(xué)習(xí)的行人重識別網(wǎng)絡(luò)模型由卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,它可以從原始的圖像中提取豐富的語義特征,其將行人重識別看作目標(biāo)分類和檢索任務(wù),分為表征學(xué)習(xí)和度量學(xué)習(xí).表征學(xué)習(xí)通過預(yù)測行人的ID,計(jì)算分類誤差損失.度量學(xué)習(xí)通過輸入多張圖片,網(wǎng)絡(luò)將這些圖片映射到不同的特征空間,使得同類圖片之間的距離盡可能小,不同圖片之間距離盡可能的大.
基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)可以自主提取圖像特征,但隨著網(wǎng)絡(luò)層的增多會出現(xiàn)梯度消失現(xiàn)象,導(dǎo)致特征提取效果的下降,而ResNet[9]在卷積神經(jīng)網(wǎng)絡(luò)中融入殘差結(jié)構(gòu),可以使網(wǎng)絡(luò)向更深層延續(xù)下去,但帶來的影響是提取到的特征信息未被有效利用.為進(jìn)一步增強(qiáng)網(wǎng)絡(luò)利用特征信息的能力,注意力機(jī)制作為嵌入在神經(jīng)網(wǎng)絡(luò)中的一種模塊,旨在“幫助”神經(jīng)網(wǎng)絡(luò)快速定位圖像的重要信息,忽略冗余信息,從而提取出圖像的關(guān)鍵特征加以利用.通道注意力模塊是注意力機(jī)制的一種,通過從圖像通道維度進(jìn)行觀察,尋找圖像的關(guān)鍵特征.研究者們提出了一些具有創(chuàng)新性的通道注意力機(jī)制算法.如Hu[10]等人提出一種壓縮-激勵(lì)操作,通過全局平均池化將各個(gè)通道降維后壓縮為對特征圖的權(quán)重,然后將獲得的權(quán)重和原特征圖相乘,獲取新的特征圖.Wang[11]等人在壓縮通道信息的同時(shí),進(jìn)一步發(fā)掘通道之間的內(nèi)部關(guān)系,在對通道降維的同時(shí),保留與原始特征圖關(guān)系緊密的通道.Zhang[12]等人根據(jù)自注意力的思想,結(jié)合通道自身信息判斷其對于特征圖的重要性程度,提出一種關(guān)聯(lián)感知全局注意力模塊.上述方法在對通道特征提取信息時(shí)手段單一,特別是對特征圖使用全局平均池化操作,使模型忽略空間維度其他有用信息,導(dǎo)致對圖像特征的提取不夠有效.此外,由于實(shí)際場景中攝像頭角度問題和行人姿態(tài)的多樣性,導(dǎo)致在識別過程中易出現(xiàn)行人被物體遮擋的情況,此時(shí)模型只能通過部分特征進(jìn)行再識別,使得模型精準(zhǔn)度下降,因此,圖像被遮擋也是影響行人重識別準(zhǔn)確率的重要因素之一.
針對上述問題,本文提出一種融合隨機(jī)擦除和殘差注意力網(wǎng)絡(luò)的行人重識別算法,該算法基于殘差網(wǎng)絡(luò),可以使模型提取效果隨著網(wǎng)絡(luò)層的延伸不會下降,并融入改進(jìn)后的通道注意力模塊,使模型能提取重要信息,抑制冗余信息,提升網(wǎng)絡(luò)的判別能力.同時(shí),引入隨機(jī)擦除作為數(shù)據(jù)增強(qiáng)的方法,提高模型的泛化能力,解決行人圖像被遮擋的難題.最后使用難采樣三元組損失函數(shù)[13]和交叉熵?fù)p失函數(shù)共同對該網(wǎng)絡(luò)進(jìn)行訓(xùn)練,提升模型預(yù)測的準(zhǔn)確率.通過實(shí)驗(yàn),檢驗(yàn)了算法的可行性和有效性.
卷積神經(jīng)網(wǎng)絡(luò)通過對輸入圖像進(jìn)行卷積操作,將局部感受區(qū)域的思想融合到空間信息和通道信息中,提取圖像特征.ResNet-50網(wǎng)絡(luò)是卷積神經(jīng)網(wǎng)絡(luò)ResNet網(wǎng)絡(luò)的一種結(jié)構(gòu),其將殘差塊學(xué)習(xí)的思想和傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行結(jié)合,特有的殘差模塊可以使網(wǎng)絡(luò)在層數(shù)加深時(shí)仍能提取到極為豐富的語義特征,解決傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)隨著隱藏層增多而效果下降的難題,使得神經(jīng)網(wǎng)絡(luò)向更深處延展.
ResNet-50結(jié)構(gòu)如圖1所示.其中,conv_1為下采樣層,主要用于對輸入圖像信息的進(jìn)行預(yù)處理,conv2_x,conv3_x,conv4_x,conv5_x為4個(gè)layer層,用于對特征進(jìn)行提取,conv5_x的最后一個(gè)池化層和softmax函數(shù)用于分類輸出.layer層內(nèi)部中,由1×1卷積核,3×3卷積核,1×1卷積核和批歸一化層組成的結(jié)構(gòu)稱為Bottleneck,該4個(gè)layer層分別含有3,4,6,3個(gè)Bottleneck.參考Sun等人[14]的做法,本文在搭建的訓(xùn)練網(wǎng)絡(luò)中移除conv5_x的下采樣操作,旨在提高特征的判別能力.
圖1 ResNet-50結(jié)構(gòu)Fig.1 Structure of ResNet-50
圖2 隨機(jī)擦除算法示意圖Fig.2 Diagram of the random erasure algorithm
在本次實(shí)驗(yàn)中,將隨機(jī)擦除的概率E分別按0.1為間隔初始化為10個(gè)概率數(shù)值進(jìn)行對比,尋找一個(gè)最佳擦除概率.
若輸入概率E1大于該值,則輸出原圖像.否則,對圖像進(jìn)行擦除.
注意力機(jī)制的本質(zhì)來源于人類觀察事物的特性.人類視覺在感知事物時(shí)不會全部關(guān)注每個(gè)細(xì)節(jié),而是根據(jù)需求觀察注意特定的一部分,而當(dāng)人們發(fā)現(xiàn)一個(gè)場景經(jīng)常在某部分出現(xiàn)自己想觀察的東西時(shí),人們會進(jìn)行學(xué)習(xí)在將來再出現(xiàn)類似場景時(shí)把注意力放到該部分上.同樣,神經(jīng)網(wǎng)絡(luò)進(jìn)行卷積和池化的過程中,網(wǎng)絡(luò)初始默認(rèn)每個(gè)通道是同等重要的,因此引入注意力機(jī)制,使網(wǎng)絡(luò)改為關(guān)注那些更為關(guān)鍵的特征,可以提高模型預(yù)測的精準(zhǔn)度和收斂速度.
注意力機(jī)制分為硬注意力機(jī)制和軟注意力機(jī)制[16].在硬注意力機(jī)制中,權(quán)重Ai表示圖像區(qū)域ai被選中作為輸入的概率,當(dāng)區(qū)域被選中時(shí),Ai取值為1,否則為0.軟注意力機(jī)制中,權(quán)重Ai表示圖像區(qū)域ai被選中作為輸入的比例,可以通過計(jì)算出確定的加權(quán)向量.由于整個(gè)模型在確定性軟注意力機(jī)制下是可微的,因此可以使用反向傳播實(shí)現(xiàn)端到端的學(xué)習(xí).軟注意力較硬注意力相比可直接代值到模型中整體進(jìn)行訓(xùn)練,且所求的梯度可以通過注意力模塊反向傳播到模型的其它部分.因此,本文中選擇軟注意力機(jī)制作為研究對象.常見的軟注意力機(jī)制有空間注意力、通道注意力和自注意力.空間注意力模塊關(guān)注圖像哪里的特征是有意義的,通道注意力關(guān)注什么樣的特征是有意義的,自注意力機(jī)制減少對外部信息的依賴,更擅長捕捉數(shù)據(jù)或特征的內(nèi)部相關(guān)性,其分別從不同的角度對圖像進(jìn)行分析,從而選取最能代表圖像信息的特征.本文選取軟注意力機(jī)制中的通道注意力模塊作為研究對象,其原理如圖3所示.通道注意力使網(wǎng)絡(luò)從通道角度對特征圖進(jìn)行理解,按照每個(gè)特征通道的重要程度賦予各通道相應(yīng)的權(quán)重,權(quán)重學(xué)習(xí)方法如下:
圖3 通道注意力機(jī)制Fig.3 Channel attention mechanism
A=sigmoid(fc(compress(F)))
(1)
其中,F(xiàn)表示輸入特征圖.A為經(jīng)過注意力模塊后得到的注意力權(quán)重圖,fc為映射函數(shù),compress表示特征圖的壓縮方法.H和W分別為圖像的高度和寬度.得到注意力權(quán)重圖后,和輸入特征圖相乘,可得到該輸入特征圖融入通道注意力模塊后的輸出:
Y:,i,:,:=AiX:,i,:,:s.t.i∈{0,1,…,c-1}
(2)
其中,Ai為第i個(gè)向量的注意力權(quán)重,X:,i,:,:為第i個(gè)通道的輸出,C為通道數(shù)量,Y:,i,:,:為融入注意力權(quán)重后的輸出特征圖.
本文首先對輸入特征圖使用隨機(jī)擦除方法進(jìn)行數(shù)據(jù)增強(qiáng),使網(wǎng)絡(luò)可以處理行人被遮擋等特殊情況,同時(shí)增強(qiáng)網(wǎng)絡(luò)的泛化能力.然后將改進(jìn)后的通道注意力機(jī)制融入ResNet-50網(wǎng)絡(luò)形成殘差注意力網(wǎng)絡(luò),提高網(wǎng)絡(luò)對行人關(guān)鍵特征的提取能力,最后利用難采樣三元組損失函數(shù)和交叉熵?fù)p失函數(shù)共同對模型進(jìn)行訓(xùn)練,之后輸出行人重識別算法結(jié)果.
RGA-C[12]注意力模塊是一種通道注意力模塊,其在結(jié)合全局特征的同時(shí),利用局部特征自身信息和其對應(yīng)的關(guān)聯(lián)性特征聯(lián)合推斷各通道的,重要性作為通道注意力權(quán)重.對于給定的特征圖X∈RC×H×W,利用該模塊可學(xué)習(xí)一個(gè)C維的通道注意力權(quán)重.將X中各通道的維度d=H×W的特征圖作為圖模型中的一個(gè)節(jié)點(diǎn),并將X中所有節(jié)點(diǎn)構(gòu)成一個(gè)含有C個(gè)節(jié)點(diǎn)的有向全連接圖Pc.按照光柵掃描順序?qū)中的節(jié)點(diǎn)進(jìn)行標(biāo)號,將X中的一個(gè)通道表示為Pc的一個(gè)節(jié)點(diǎn),記作xi∈Rd,其中i=1,…C.節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的相互關(guān)系可由xi和xj在投影空間進(jìn)行點(diǎn)積運(yùn)算表示:
ri,j=fc(xi,xj)=θc(xi)Tφc(xj)
(3)
其中,θc和φc分別是由1×1卷積核、批歸一化層和ReLu激活函數(shù)組成的非線性映射函數(shù).可用以下公式表示:
θc(xi)=ReLU(Wθxi)
(4)
φc(xi)=ReLU(Wφxi)
(5)
圖4 RGA-C模塊Fig.4 RGA-C module
對于Pc中的第i個(gè)特征節(jié)點(diǎn)xi,向量xi描述特征本身所含信息,向量ri表示特征內(nèi)部關(guān)聯(lián)性并保留全局范圍的結(jié)構(gòu)信息,這兩個(gè)信息對推斷通道重要性均有幫助,將ri,j和ri結(jié)合在一起,構(gòu)成關(guān)聯(lián)感知特征yi:
yi=[poolc(ψc(xi)),φc(ri)]
(6)
其中,poolc表示沿著特征向量通道維度作全局平均池化操作.這里ψc和φc分別表示原始特征和其對應(yīng)關(guān)聯(lián)性特征的非線性映射函數(shù),由一個(gè)卷積核大小為1的卷積層,一個(gè)批歸一化層和一個(gè)ReLU激活函數(shù)構(gòu)成,其可表示為:
ψc(xi)=ReLU(Wψxi)
(7)
φc(ri)=ReLU(Wφri)
(8)
ai=Sigmoid(transpose(W2ReLU(W1yi)))
(9)
其中,W1和W2均由一個(gè)1×1的卷積層和一個(gè)批歸一化層實(shí)現(xiàn).W1將特征通道數(shù)量降低S1倍,W2將通道維度變?yōu)?,transpose操作通過交換次序?qū)⑽挥谕ǖ牢恢玫囊痪S向量交換至空間維度.
RGA-C將神經(jīng)網(wǎng)絡(luò)的layer層特征拆解為若干個(gè)特征節(jié)點(diǎn),然后在全局范圍內(nèi)將給定的特征節(jié)點(diǎn)和其他特征節(jié)點(diǎn)進(jìn)行相關(guān)性計(jì)算,推斷各個(gè)特征節(jié)點(diǎn)的重要性程度,有效獲取全局范圍內(nèi)的特征內(nèi)在關(guān)聯(lián)性,使模型更好尋找通道相互之間的內(nèi)部聯(lián)系,同時(shí)有效利用特征的全局結(jié)構(gòu)信息.但在Bottleneck內(nèi)部,該注意力模塊對節(jié)點(diǎn)之間的關(guān)系未有效獲取,導(dǎo)致在后續(xù)layer層的相關(guān)性計(jì)算時(shí)無關(guān)特征較多,一些不太重要的通道特征信息也參與關(guān)聯(lián)感知特征的計(jì)算,影響模型的特征提取效果.
離散余弦變換(DCT)是數(shù)字信號處理中常用的變換之一,能很好的描述描述人類語音信號和圖像信號的相關(guān)特征,也被認(rèn)為是一種準(zhǔn)最佳變換.Qin等人[17]將DCT變換應(yīng)用到目標(biāo)檢測中,取得了較好效果.以往的注意力權(quán)重計(jì)算方法是使用全局平均池化進(jìn)行對空間維度壓縮,表示的信息比較單一,獲得的權(quán)重?zé)o法較好代表各通道的重要程度.因此,在圖像頻域內(nèi)通過進(jìn)行DCT變換來選擇不同頻率從而產(chǎn)生更多的信息,通過這些信息給各個(gè)通道賦予不同的權(quán)重,使圖像經(jīng)全局平均池化后帶來通道信息量小的問題得到改善,模型能夠提取到更加關(guān)鍵的特征.二維的DCT公式如下:
s.t.h∈{0,1,…,H-1},w∈{0,1,…,W-1}
(10)
其中,f2d代表二維變換后的頻譜,H和W分別為輸入圖像的高度和寬度,x2d表示輸入圖像.
DCT的反變換可以表示為:
s.t.i∈{0,1,…,H-1},j∈{0,1,…,W-1}
(11)
對于式(10),特別的,當(dāng)輸入圖像的h和w均為0時(shí),可得:
(12)
GAP表示全局平均池化.由式(12)可知,全局平均池化實(shí)際上是圖像DCT變換后的特殊情況,即是在最低頻率分量上的值.將圖像轉(zhuǎn)換為頻域上進(jìn)行考慮,通過DCT變換,使得各通道內(nèi)部更多的信息被挖掘出來,與只使用全局平均池化相比,DCT變換可以選擇出更為豐富的通道特征.
根據(jù)式(11),可將輸入圖像信息在頻域上展開為:
(13)
由式(13)發(fā)現(xiàn),對輸入圖像采取全局平均池化操作只應(yīng)用了式中第1項(xiàng)的最低頻分量部分,未使用后面其他分項(xiàng),導(dǎo)致對提取特征仍然有用的信息被舍棄了.因此,為獲輸入圖像更多的特征,假設(shè)輸入特征圖為X∈RC×H×W,將通道分為n份,則有Xi∈RC′×H×W,,其中i∈{0,1,…,n-1},C′=C/n,給每個(gè)塊分配一個(gè)二維DCT分量,則第i個(gè)通道被壓縮后的向量可表示為:
s.t.i∈{0,1,…,n-1}
(14)
其中ui、vi為設(shè)定給通道的頻率分量,F(xiàn)reqi∈RC′為經(jīng)過壓縮后的C′維向量.對各個(gè)通道特征向量進(jìn)行結(jié)合,可得到整個(gè)特征圖壓縮后的分量:
Freq=compress(X)=cat([Freq0,Freq1,…,Freqn-1])
(15)
其中,Compress為輸入圖像壓縮方法,cat表示對圖像進(jìn)行拼接操作,將此分量送入全連接層進(jìn)行學(xué)習(xí),得到注意力權(quán)重圖:
msatt=sigmoid(fc(Freq))
(16)
其中,sigmoid表示激活函數(shù),fc表示全連接層.
由于RGA-C在特征提取過程中,layer層前的通道特征因?yàn)闆]有遵守一定的規(guī)則而不可避免地出現(xiàn)layer層前的特征信息冗余,導(dǎo)致在layer層進(jìn)行關(guān)聯(lián)感知特征提取時(shí)效率不高.為解決這個(gè)問題,在每個(gè)Bottleneck后加入DCT變換,形成RGA-FC通道注意力模塊.RGA-FC具體結(jié)構(gòu)如圖5所示.圖5中x為輸入的特征圖,layerx為網(wǎng)絡(luò)的layer層,aout為輸出的注意力權(quán)重圖,RGA-FC模塊先在Bottleneck后采用DCT變換,將通道信息按照一定的優(yōu)先級次序進(jìn)行提取,使通道重要特征表達(dá)的趨于完整,為下一步尋找通道間關(guān)聯(lián)感知特征提供重要特征,這樣RGA-C在尋找通道之間相互關(guān)系時(shí),能準(zhǔn)確得找到對特征較為重要的那些通道.
圖5 RGA-FC模塊Fig.5 RGA-FC module
交叉熵?fù)p失函數(shù)是表征學(xué)習(xí)常用的損失函數(shù)之一.損失函數(shù)如下:
(17)
其中,n為每個(gè)批次訓(xùn)練的樣本數(shù),p(yi|xi)為輸入圖像xi和其類別標(biāo)簽yi,經(jīng)過softmax函數(shù)進(jìn)行分類,xi被識別為yi類的預(yù)測概率.
三元組損失函數(shù)是度量學(xué)習(xí)中常用的損失函數(shù),難采樣基于三元組損失函數(shù)進(jìn)行改進(jìn).假設(shè)輸入圖像a和輸入圖像p為一對正樣本對,輸入圖像a和輸入圖像n為一對負(fù)樣本對.則三元組損失函數(shù)表示為:
Lt=(da,p-da,n+α)+
(18)
其中,(z)+表示max(z,0),da,p和da,n分別表示樣本a分別與正樣本p、負(fù)樣本n之間的歐式距離,α是邊距參數(shù),用來表示閾值距離.如果三元組損失函數(shù)中的正負(fù)樣本對都是簡單易區(qū)分的,不利于網(wǎng)絡(luò)的訓(xùn)練,因此選擇難樣本采樣三元組損失函數(shù)進(jìn)行模型訓(xùn)練,對于每個(gè)固定圖像a在一個(gè)訓(xùn)練批次內(nèi)選擇距離最遠(yuǎn)的正樣本圖像p和距離最近的負(fù)樣本圖像n來訓(xùn)練網(wǎng)絡(luò),增強(qiáng)網(wǎng)絡(luò)的泛化能力,從而使網(wǎng)絡(luò)學(xué)習(xí)到更好的表征.
對于每一個(gè)訓(xùn)練組,隨機(jī)挑選P個(gè)ID的行人,每個(gè)行人隨機(jī)挑選K張不同的圖片,即一個(gè)組含有P×K張圖片.之后對于組中每一張圖像a,挑選一個(gè)最難的正樣本圖像p和最難的負(fù)樣本圖像n和a組成一個(gè)三元組.定義和a為相同ID的圖片集為A,剩下不同ID的圖片圖片集為B,則難采樣三元組損失函數(shù)表示為:
(19)
其中batch為訓(xùn)練組,α為設(shè)定的閾值參數(shù),本文選取為0.3.
為了使模型獲取較好的訓(xùn)練效果,本文聯(lián)合交叉熵?fù)p失函數(shù)和難采樣三元組損失函數(shù)來共同作為所提出方法的損失函數(shù),并采用級聯(lián)方式分別進(jìn)行訓(xùn)練,總體的損失函數(shù)的形式化描述如下為:
Lall=Lid+Lth
(20)
其中,Lall為聯(lián)合損失函數(shù),Lid為交叉熵?fù)p失函數(shù),Lth為難采樣三元組損失函數(shù).
選取行人重識別公開數(shù)據(jù)集CUHK03作為本次實(shí)驗(yàn)數(shù)據(jù)集.CUHK03數(shù)據(jù)集概況如表1所示.
表1 CUHK03數(shù)據(jù)集簡介Table 1 Introduction to the CUHK03 dataset
4.2.1 Rank-k
Rank-k表示按照相似度排序后的前k張圖像中,存在與查詢圖像屬于同一ID的概率.本文實(shí)驗(yàn)中,選取Rank-1作為評價(jià)指標(biāo),即第1張圖片與查詢圖像屬于同一個(gè)ID的概率.
4.2.2 mAP
假設(shè)預(yù)測正確的樣本數(shù)為TP,預(yù)測錯(cuò)誤的樣本數(shù)為FP.則精準(zhǔn)率Precision定義為:
(21)
AP指平均精準(zhǔn)度,指該類別圖像的所有精準(zhǔn)率的和除以含有該類別目標(biāo)的圖像數(shù)量,AP的表達(dá)式為:
(22)
其中nc為含有該類別目標(biāo)的圖像數(shù)量,M為返回的圖像總數(shù),Precisionc為第i個(gè)圖像屬于該類別的精準(zhǔn)率.
mAP是模型在所有類別上預(yù)測的平均精準(zhǔn)度,由于目標(biāo)識別中有不止一個(gè)類別,因此需要對所有類別計(jì)算平均AP值.mAP的表達(dá)式為:
(23)
其中,C為總類別數(shù),APk為第k類目標(biāo)的平均精準(zhǔn)度.
為了驗(yàn)證行人重識別算法中注意力機(jī)制和隨機(jī)擦除方法的有效性,設(shè)計(jì)如下兩種方案:
方案1.通過初始化不同的隨機(jī)擦除概率E,選取融入RGA-FC注意力模塊的殘差網(wǎng)絡(luò)進(jìn)行訓(xùn)練,對比不同隨機(jī)擦除概率E下訓(xùn)練出的模型預(yù)測的精準(zhǔn)度,選定一個(gè)最佳的隨機(jī)擦除概率.
方案2.在同等訓(xùn)練環(huán)境下,將改進(jìn)后的RGA-FC模塊、ResNet-50基線網(wǎng)絡(luò)和其他通道注意力機(jī)制進(jìn)行對比,驗(yàn)證本文算法的有效性.
在相同的訓(xùn)練環(huán)境下,基于本文提出的網(wǎng)絡(luò),通過調(diào)整不同的隨機(jī)擦除概率E來測試模型,方案1實(shí)驗(yàn)結(jié)果如圖6所示.從圖6中可以看出,隨機(jī)擦除方法對模型的準(zhǔn)確度提升明顯,隨著隨機(jī)擦除概率E的提升,模型預(yù)測準(zhǔn)確率進(jìn)一步提高,均高于未采取隨機(jī)擦除方法訓(xùn)練出的模型.當(dāng)擦除概率為0時(shí),即對圖像不進(jìn)行隨機(jī)擦除時(shí),模型預(yù)測準(zhǔn)確度較低,mAP和Rank-1分別只有62%和62.9%;采取隨機(jī)擦除方法后,即使當(dāng)設(shè)置擦除概率很小(0.1)時(shí),訓(xùn)練出模型的預(yù)測效果比未采取擦除方法時(shí)均提高8個(gè)百分點(diǎn)以上.當(dāng)擦除概率為1時(shí),即對圖像必定采取擦除方法時(shí),模型預(yù)測準(zhǔn)度雖有提升,但不是最佳預(yù)測結(jié)果,這是因?yàn)閷λ休斎雸D像某區(qū)域進(jìn)行擦除時(shí),由于擦除區(qū)域的不確定性,導(dǎo)致網(wǎng)絡(luò)無法學(xué)習(xí)一個(gè)完整的行人圖像,即無法獲取輸入圖像的全局特征,導(dǎo)致提取不到關(guān)鍵特征,網(wǎng)絡(luò)學(xué)習(xí)效果下降.總的來說,通過采用隨機(jī)擦除方法對數(shù)據(jù)進(jìn)行增強(qiáng)有助于提升模型預(yù)測結(jié)果,從圖6中可以看出,當(dāng)擦除概率E設(shè)置為0.9時(shí),融合隨機(jī)擦除算法和RGA-FC注意力模塊訓(xùn)練出的模型預(yù)測效果最佳.因此,本文選取最佳的隨機(jī)擦除概率E值為0.9作為實(shí)驗(yàn)參數(shù).
圖6 概率E對實(shí)驗(yàn)效果的影響Fig.6 Influence of probability E on the experimental effect
方案2實(shí)驗(yàn)結(jié)果如表2所示.在CUHK03數(shù)據(jù)集上,本文提出的融合隨機(jī)擦除的殘差注意力模塊將Rank-1提升至80.9%,將mAP提升至78.9%.相較于同樣訓(xùn)練環(huán)境下的其他通道注意力模塊,RGA-FC模塊對通道內(nèi)重要特征的有效表示和抑制冗余特征,從而提取出豐富且重要的通道信息,彌補(bǔ)了RGA-C通道注意力模塊的不足,使模型預(yù)測準(zhǔn)確率提升明顯.
表2 方案2實(shí)驗(yàn)結(jié)果Table 2 Experimental results of program 2
本文基于ResNet-50神經(jīng)網(wǎng)絡(luò),采用隨機(jī)擦除方法模擬實(shí)際場景中行人被遮擋的現(xiàn)象,使模型泛化能力和精準(zhǔn)度得到加強(qiáng);在進(jìn)行特征提取時(shí),引入改進(jìn)的通道注意力模塊RGA-FC使模型提取到更具有判別力的行人特征;使用難采樣三元組損失函數(shù)和交叉熵?fù)p失函數(shù)共同進(jìn)行訓(xùn)練,提升了網(wǎng)絡(luò)的識別能力和識別精度.通過實(shí)驗(yàn)結(jié)果對比可知,本文所搭建的融合隨機(jī)擦除和改進(jìn)的RGA-FC注意力模塊的網(wǎng)絡(luò)在行人重識別算法中具有較強(qiáng)的競爭性.
結(jié)合復(fù)雜的現(xiàn)實(shí)環(huán)境,提出一種融合隨機(jī)擦除和殘差注意力網(wǎng)絡(luò)的行人重識別方法,改善了識別遮擋情形時(shí)行人重識別精準(zhǔn)度低的問題,增強(qiáng)了模型的魯棒性和泛化能力,可以應(yīng)用于實(shí)際場景中有物體遮擋時(shí)的行人重識別.但是由于現(xiàn)實(shí)情況復(fù)雜多變,該算法在實(shí)際場景中雖改善了遮擋問題,但不良天候、光照等因素仍會使行人圖像難以辨別,特別是在現(xiàn)實(shí)場景中,行人衣著等特征極易發(fā)生改變[20],快速準(zhǔn)確識別特征改變后的行人使得行人重識別研究仍具有挑戰(zhàn)性,因此還應(yīng)結(jié)合不同實(shí)際場景做進(jìn)一步的探索與研究.