張杰, 繆小然, 趙作鵬, 胡建峰, 閔冰冰, 高宇蒙
(1.冀中能源股份有限公司邢東礦,河北 邢臺 054000;2.中國礦業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221006)
目前井下人員監(jiān)控的研究大多止步于檢測階段[1],以區(qū)間定位為主,缺乏對區(qū)間群體人員個人身份的分類和識別。人員重識別技術(shù)作為一種基于人體特征(如服裝顏色、體型、走姿)的計(jì)算機(jī)視覺技術(shù),能夠跨時間和視角準(zhǔn)確識別和追蹤個體[2-3],可與人員檢測、跟蹤技術(shù)相結(jié)合,應(yīng)用于視頻監(jiān)控、智能安防等領(lǐng)域,對于有效預(yù)警人員違章行為、遏制井下超員生產(chǎn)具有重要意義。
煤礦井下低照度、強(qiáng)光線干擾、高濃度粉塵等特殊環(huán)境條件,以及井下人員服裝的高度相似性和臉部落煤現(xiàn)象,使得井下人員圖像在對比度和清晰度上較弱,導(dǎo)致井下弱特征人員重識別的難度增加。早期的人員重識別方法需要先手動提取圖像特征[4-6],再利用跨視圖二次判別分析(Cross-view Quadratic Discriminant Analysis,XQDA)等方法來學(xué)習(xí)最佳的相似性度量[7]。然而,手動提取特征的能力有限,導(dǎo)致人員重識別精度較低。隨著深度學(xué)習(xí)的發(fā)展,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)網(wǎng)絡(luò)能夠自動學(xué)習(xí)圖像的層次化特征表示,從大量數(shù)據(jù)中提取出關(guān)鍵特征,從而提高人員重識別準(zhǔn)確率[8-11]。孫彥景等[12]采用雙鑒別式生成對抗網(wǎng)絡(luò)對井下圖像進(jìn)行增強(qiáng)與復(fù)原,設(shè)計(jì)了一種基于全局特征描述的重識別網(wǎng)絡(luò),以解決井下作業(yè)人員身份識別問題。丁嘉婕[13]將卷積神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制融合,設(shè)計(jì)了一種基于質(zhì)量增強(qiáng)和解耦非局部注意力的井下人員重識別算法,在獲得高精度結(jié)果的同時具有較低的復(fù)雜度。張立亞等[14]提出了基于改進(jìn)度量學(xué)習(xí)的井下人員重識別方法,通過改進(jìn)的三重?fù)p失函數(shù)解決度量學(xué)習(xí)中梯度消失或梯度彌散的問題。然而,上述研究在提取井下人員圖像特征時僅集中于全局特征的提取,未充分考慮局部特征,導(dǎo)致細(xì)粒度信息遺失,在一定程度上制約了井下人員重識別準(zhǔn)確率的提升。
針對上述問題,本文提出了一種局部特征引導(dǎo)標(biāo)簽平滑與優(yōu)化的井下弱特征人員重識別方法。該方法根據(jù)全局特征和局部特征之間的k最近鄰相似性來計(jì)算圖像的特征互補(bǔ)性得分,并基于特征互補(bǔ)性得分進(jìn)行標(biāo)簽平滑與標(biāo)簽優(yōu)化,從而提高井下弱特征人員重識別準(zhǔn)確率。
局部特征引導(dǎo)標(biāo)簽平滑與優(yōu)化的井下弱特征人員重識別方法原理如圖1所示。首先,通過卷積神經(jīng)網(wǎng)絡(luò)提取井下人員的深度特征,得到特征圖。其次,對特征圖分別進(jìn)行區(qū)域均值池化與全局均值池化,得到對應(yīng)的局部特征與全局特征。接著,分類器根據(jù)不同的輸入特征進(jìn)行預(yù)測,得到初步預(yù)測結(jié)果。然后,通過計(jì)算全局特征和局部特征的k最近鄰相似性獲得特征互補(bǔ)性得分,來衡量全局特征和局部特征的相似程度。最后,基于特征互補(bǔ)性得分進(jìn)行標(biāo)簽平滑與標(biāo)簽優(yōu)化,以更新預(yù)測結(jié)果。
圖1 局部特征引導(dǎo)標(biāo)簽平滑與優(yōu)化的井下弱特征人員重識別方法原理Fig.1 Principle of local feature-guided label smoothing and optimization for re-identification of underground personnel with weak features
假設(shè)數(shù)據(jù)集D={xi},其中xi為第i(i=1,2,···,ND,ND為圖像數(shù)量)個圖像。通過卷積神經(jīng)網(wǎng)絡(luò)提取特征圖F(xi)∈RC×H×W,其中C,H,W分別為特征圖的通道數(shù)、高度和寬度。對特征圖進(jìn)行廣義均值池化,獲得全局特征;同時將特征圖均勻劃分成NP個區(qū)域RC×(H/NP)×W,并在每個區(qū)域上進(jìn)行均值池化,獲得第n(n=1,2,···,NP)個局部特征。
分別計(jì)算全局特征的交叉熵?fù)p失Lg和局部特征的交叉熵?fù)p失Lp:
式中:yi為真實(shí)標(biāo)簽;為由全局特征預(yù)測得到的預(yù)測向量;為第n個局部特征的預(yù)測向量;hφg(·),hφpn(·)分別為由全連接層和softmax函數(shù)組成的特征分類器。
計(jì)算softmax-triplet損失:
式中:∥·∥為L2范數(shù);分別為最難正樣本和負(fù)樣本的全局特征。
總的損失為
鑒于全局特征與局部特征之間具有不同的結(jié)構(gòu)相似性,常存在不可靠的互補(bǔ)信息。因此,確定互補(bǔ)信息的可靠性十分重要。為解決該問題,引入特征互補(bǔ)性得分,通過計(jì)算全局特征和局部特征的k最近鄰相似性來衡量這2種特征的相似程度。首先,對全局特征和每個局部特征分別進(jìn)行k最近鄰搜索,在每個圖像上生成(1+NP)個排名列表。然后,計(jì)算圖像xi的全局特征和第n個局部特征之間的特征互補(bǔ)性得分:
式中:Ri(fig,k),Ri(fipn,k)分別為根據(jù)和計(jì)算出的排名列表中前k個樣本的索引集合;|·|為集合的基數(shù)。
較高的特征互補(bǔ)性得分表示全局特征和局部特征具有較強(qiáng)的關(guān)聯(lián)性,并能提供可靠的互補(bǔ)信息;較低的特征互補(bǔ)性得分表示兩者的關(guān)聯(lián)性較低,會提供不可靠的互補(bǔ)信息。
由于全局特征聚類的標(biāo)簽不適合每個局部特征,局部特征的預(yù)測也不完全適合全局特征的標(biāo)簽,基于特征互補(bǔ)性得分進(jìn)行標(biāo)簽平滑與優(yōu)化來減少噪聲。
1) 標(biāo)簽平滑。通常通過相同的全局標(biāo)簽來學(xué)習(xí)特征,這樣往往忽略了局部上下文聯(lián)系,不利于訓(xùn)練。例如,有些局部特征包含與人無關(guān)的提示(如遮擋物),應(yīng)將其從訓(xùn)練中排除。因此,利用標(biāo)簽平滑法[15],根據(jù)相應(yīng)的特征互補(bǔ)性得分動態(tài)調(diào)整每個局部特征的權(quán)重,以優(yōu)化每個局部特征的標(biāo)簽。
給定圖像xi的標(biāo)簽yi,局部特征的標(biāo)簽平滑的表達(dá)式為
將平滑標(biāo)簽代入式(2),并用 Kullback-Leibler(KL)散度[16]重新計(jì)算交叉熵?fù)p失:
式中dKL(·)為KL散度運(yùn)算函數(shù)。
2) 標(biāo)簽優(yōu)化。全局特征聚類通常會忽略細(xì)粒度信息,而局部特征具有豐富的上下文特征信息,可解決全局特征聚類過程中的標(biāo)簽噪聲問題。由于區(qū)分度較低的局部特征可能會提供誤導(dǎo)性信息,根據(jù)每個特征互補(bǔ)性得分,以不同權(quán)重對局部特征的預(yù)測結(jié)果進(jìn)行匯總,從而利用更可靠的信息來完善標(biāo)簽,以作為全局特征的標(biāo)簽。具體來說,使用優(yōu)化后的標(biāo)簽作為全局特征的標(biāo)簽:
與僅捕捉整體信息的全局特征不同,式(10)中的標(biāo)簽優(yōu)化還考慮了來自局部細(xì)粒度信息預(yù)測的可靠性,該可靠性由特征互補(bǔ)性得分獲得。
將優(yōu)化標(biāo)簽代入式(1)來訓(xùn)練全局特征:
通過局部特征引導(dǎo)的標(biāo)簽優(yōu)化,全局特征可從集成的局部特征預(yù)測中學(xué)習(xí)到更豐富的細(xì)粒度信息。
總的損失為
通過標(biāo)簽平滑與標(biāo)簽優(yōu)化能有效降低噪聲帶來的影響,具有較低特征互補(bǔ)性得分的局部特征通過式(9)使用接近均勻分布的標(biāo)簽進(jìn)行訓(xùn)練,而通過式(12)訓(xùn)練的全局特征則從局部特征中捕捉可靠的細(xì)粒度信息。此外,當(dāng)所有局部特征預(yù)測的特征互補(bǔ)性得分較低時,優(yōu)化標(biāo)簽中的集成預(yù)測最終會由于標(biāo)簽平滑坍縮為均勻向量,從而提供無意義的訓(xùn)練信號,進(jìn)一步削弱噪聲標(biāo)簽的影響,使網(wǎng)絡(luò)實(shí)現(xiàn)更好的學(xué)習(xí)。
由于煤礦場景的特殊性,現(xiàn)有的公開行人重識別數(shù)據(jù)集(如Market1501和MSMT17)無法滿足井下人員重識別的需求。在現(xiàn)有公開數(shù)據(jù)集的基礎(chǔ)上,篩選出與井下人員圖像較為類似的行人圖像,并在此基礎(chǔ)上添加大量井下人員圖像,構(gòu)建數(shù)據(jù)集CoalReID,共計(jì)3 139個身份的92 876張人員圖像,其中包含公開數(shù)據(jù)集896個身份的25 894張行人圖像及2 243個身份的66 982張井下人員圖像。訓(xùn)練集與測試集分別為1 126個身份的29 356張人員圖像和2 013個身份的63 520張人員圖像。
采用在ImageNet[17]上預(yù)訓(xùn)練的ResNet-50[18]作為主干,刪除第4層之后的所有層,并添加平均池化層,使用批歸一化瓶頸(Batch Normalization Neck,BNNeck)[6]進(jìn)行全連接分類。在測試過程中,只使用全局特征進(jìn)行檢索。圖像大小調(diào)整為384×128,通過隨機(jī)翻轉(zhuǎn)、裁剪和擦除實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)[19]。訓(xùn)練采用Adam[20],權(quán)重衰減為5×10-4。設(shè)置初始學(xué)習(xí)率為3.5×10-4,每20個epoch后衰減為原來的1/10;局部特征數(shù)量為3;權(quán)重參數(shù)為0.5;計(jì)算特征互補(bǔ)性得分時的樣本數(shù)量為20。
選取平均精度均值(mean Average Precision,mAP)、平均逆置負(fù)樣本懲罰率(mean Inverse Negative Penalty,mINP)和累計(jì)匹配特征(Cumulative Matching Characteristics,CMC)的第一匹配正確率Rank-1作為評價指標(biāo)。mAP綜合考慮了查準(zhǔn)率與查全率,能夠反映方法在召回率和準(zhǔn)確率上的整體表現(xiàn)性能;mINP能夠衡量方法找到最難匹配樣本所需要的代價,反映了檢索到所有正樣本的能力;Rank-1表示檢索結(jié)果中置信度最高的人員圖像概率,能直觀反映即時檢索能力。
為驗(yàn)證基于特征互補(bǔ)性得分進(jìn)行標(biāo)簽平滑與標(biāo)簽優(yōu)化的有效性,使用AGW[11]作為基準(zhǔn)方法,在自建數(shù)據(jù)集CoalReID、公開數(shù)據(jù)集Market1501和MSMT17上進(jìn)行消融實(shí)驗(yàn),結(jié)果見表1。可看出同時添加標(biāo)簽優(yōu)化與標(biāo)簽平滑后,各項(xiàng)評價指標(biāo)均最優(yōu)。
表1 消融實(shí)驗(yàn)結(jié)果Table 1 Ablation experimental results %
將本文方法與目前主流人員重識別方法AGW,RGT&RGPG[21],SOLIDER[22],BPBreID[23],UniHCP[24],st-ReID[25],LDS[26]分別在自建數(shù)據(jù)集CoalReID、公開數(shù)據(jù)集Market1501和MSMT17上進(jìn)行性能對比,結(jié)果見表2。
表2 不同方法在各數(shù)據(jù)集上的性能對比Table 2 Performance comparison of different methods on various datasets %
從表2可看出,本文方法在自建數(shù)據(jù)集CoalReID上的mAP,Rank-1,mINP均最優(yōu),在公開數(shù)據(jù)集Market1501和MSMT17上的各項(xiàng)性能也較均衡,表明本文方法具有很好的泛化性能。
為進(jìn)一步證明本文方法在井下人員重識別上的優(yōu)越性,在自建數(shù)據(jù)集CoalReID中剔除公開行人圖像,僅對井下人員圖像進(jìn)行實(shí)驗(yàn),結(jié)果見表3。
表3 不同方法在僅包含井下人員圖像的自建數(shù)據(jù)集CoalReID上的性能對比Table 3 Performance comparison of different methods on self-built CoalReID dataset containing only underground personnel images %
對比表2和表3可知,當(dāng)自建數(shù)據(jù)集CoalReID僅包含井下人員圖像時,在公開數(shù)據(jù)集表現(xiàn)較好的主流人員重識別方法性能下降明顯,而本文方法的mAP,Rank-1,mINP相比其他方法表現(xiàn)出了明顯的優(yōu)越性,表明本文方法具有很好的魯棒性。
為直觀觀察本文方法的井下人員重識別結(jié)果,從自建數(shù)據(jù)集CoalReID中隨機(jī)選取4張井下人員圖像進(jìn)行查詢,可視化結(jié)果如圖2所示。
圖2 井下人員重識別可視化結(jié)果Fig.2 Visualization results of underground personnel re-identification
圖2中,圖像上的數(shù)字1-10表示預(yù)測結(jié)果與查詢圖像中人員相似性由高到低的排序序號;如果數(shù)字的顏色為綠色,表示預(yù)測結(jié)果與查詢圖像中人員為同一身份,為紅色則表示為不同身份??煽闯霰疚姆椒苡行?shí)現(xiàn)井下人員正確重識別。
為驗(yàn)證本文方法在實(shí)際場景中的有效性,選取在煤礦候車室、行人下山平臺及副井底候罐室3個不同場景實(shí)地拍攝的若干組視頻用于驗(yàn)證,結(jié)果如圖3所示。圖中黃色矩形框表示需要查詢的目標(biāo)人員,紅色矩形框表示重識別定位的目標(biāo)人員,綠色矩形框表示與查詢?nèi)藛T對應(yīng)的正確人員。從圖3可看出,本文方法在多數(shù)情況下能準(zhǔn)確識別目標(biāo)人員,但在人員密集的場景下會出現(xiàn)識別錯誤的情況,這是由于受到人員遮擋的影響,識別性能受到一定限制。
圖3 實(shí)際場景下人員重識別結(jié)果Fig.3 Result of personnel re-identification in actual scenarios
1) 提出了一種局部特征引導(dǎo)標(biāo)簽平滑與優(yōu)化的井下弱特征人員重識別方法。首先,通過卷積神經(jīng)網(wǎng)絡(luò)提取人員圖像的全局特征與局部特征。然后根據(jù)全局特征與局部特征之間的k最近鄰相似性來計(jì)算特征互補(bǔ)性得分。最后,基于特征互補(bǔ)性得分,對局部特征進(jìn)行標(biāo)簽平滑及對全局特征進(jìn)行標(biāo)簽優(yōu)化,解決噪聲問題,從而提高井下弱特征人員重識別的準(zhǔn)確性。
2) 實(shí)驗(yàn)結(jié)果表明,該方法在公開數(shù)據(jù)集Market1501、MSMT17和自建數(shù)據(jù)集CoalReID上的mAP,Rank-1,mINP總體優(yōu)于主流人員重識別方法,具有良好的泛化性和魯棒性,適用于井下弱特征人員重識別。
3) 未來的研究中可考慮引入更先進(jìn)的特征提取和匹配技術(shù),以提高該方法在人員密集復(fù)雜場景中的準(zhǔn)確率。