• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      行人再識(shí)別中的多尺度特征融合網(wǎng)絡(luò)

      2020-08-14 02:34:58賈熹濱SiluyeleNtazanaMazimbaWindi
      關(guān)鍵詞:全局行人卷積

      賈熹濱,魯 臣,Siluyele Ntazana,Mazimba Windi

      (北京工業(yè)大學(xué)信息學(xué)部,北京 100124)

      行人再識(shí)別,也被稱作是行人檢索,簡稱re-id. 目的是在給定的行人圖像庫中尋找一個(gè)特定行人,這個(gè)圖像庫是由幾個(gè)沒有重疊區(qū)域的攝像頭所拍攝形成的[1]. 近年來,行人再識(shí)別由于其重要的研究意義和廣泛的應(yīng)用前景得到越來越多的學(xué)者的關(guān)注和研究. 但是由于不同攝像頭采集數(shù)據(jù)時(shí)的角度差異、光照的變化以及遮擋物等影響,行人再識(shí)別的研究仍然是一個(gè)難點(diǎn)問題.

      早期視覺的行人再識(shí)別方法,主要利用手工設(shè)計(jì)的算法提取特征:Karanam等[2]采用在顏色空間建立基于不同顏色通道的紋理和顏色直方圖特征的方法,然而利用顏色特征雖然能夠快速匹配到外貌相似的行人,但是當(dāng)多個(gè)行人的衣服顏色相似時(shí)卻無法準(zhǔn)確識(shí)別;Yi等[3]則關(guān)注了行人的形狀和紋理信息,建立基于行人本身的獨(dú)有特征,但是當(dāng)行人樣本量達(dá)到一定規(guī)模時(shí),該方法同樣會(huì)因?yàn)橄嗨铺卣魈喽ビ行? 隨著深度學(xué)習(xí)在圖像識(shí)別、圖像理解領(lǐng)域的廣泛應(yīng)用,特別是對(duì)復(fù)雜對(duì)象良好的學(xué)習(xí)能力,其逐漸被應(yīng)用到行人再識(shí)別領(lǐng)域. 近年來,基于卷積神經(jīng)網(wǎng)絡(luò)的行人再識(shí)別模型取得了突破性的進(jìn)展,使得機(jī)器在行人再識(shí)別問題上的能力已經(jīng)超過了人類水平[4].

      行人再識(shí)別的主要研究方向可以分為特征提取和度量學(xué)習(xí)2類. 在特征提取方面,同時(shí)提取局部特征和全局特征已經(jīng)成為一種常見且通用的方法,并且被證明是有效的[5]. 其中一些研究工作明確地考慮了卷積神經(jīng)網(wǎng)絡(luò)中只使用高層特征帶來的細(xì)節(jié)信息丟失的問題,因此,采用了提取局部特征和多尺度融合特征的方法. Zhao等[6]提出的Spindle Net技術(shù)實(shí)現(xiàn)了以人體區(qū)域?yàn)閷?dǎo)向的人體特征分解與融合,提取了人體不同部位的局部特征后再進(jìn)行融合,然而這樣的特征提取方式很大程度上依賴于劃分人體部位模型的精確度,如果人體定位模型不準(zhǔn)確,那么將直接影響到最終的識(shí)別準(zhǔn)確率;Zhao等[7]針對(duì)行人再識(shí)別過程中的身體部位錯(cuò)位匹配導(dǎo)致識(shí)別精度有限的問題進(jìn)行研究,提取出全局特征和局部特征相結(jié)合的融合特征,同樣的,這樣的做法也會(huì)受到人體定位模型的影響;Wang等[8]則將卷積神經(jīng)網(wǎng)絡(luò)的不同階段的特征進(jìn)行全局平均池化后,將多個(gè)卷積層的特征加權(quán)求和后進(jìn)行訓(xùn)練,然而利用全局平均池化操作會(huì)帶來不同程度的細(xì)節(jié)信息的丟失,無法提取出基于細(xì)節(jié)信息區(qū)分的特征,同時(shí)在卷積神經(jīng)網(wǎng)絡(luò)中的每個(gè)階段的特征并不一定都是有用的,因此,會(huì)帶來額外的計(jì)算量,在訓(xùn)練網(wǎng)絡(luò)時(shí)勢(shì)必會(huì)帶來網(wǎng)絡(luò)收斂慢等問題.

      從國內(nèi)外研究現(xiàn)狀來看,大部分研究只使用卷積神經(jīng)網(wǎng)絡(luò)的最高層語義特征,然而最高層特征往往經(jīng)過了多次卷積和池化等操作,導(dǎo)致圖像上的很多細(xì)節(jié)信息在網(wǎng)絡(luò)的高層被丟失,因此,在面對(duì)某種案例時(shí)往往得不到理想的效果. 例如,當(dāng)2個(gè)行人的體態(tài)和衣服的顏色等特征很相似時(shí),只使用最高層特征的方法更多地關(guān)注行人的整體特征,往往不能準(zhǔn)確區(qū)分2個(gè)行人的身份. 本文提出了一個(gè)基于殘差網(wǎng)絡(luò)ResNet50改進(jìn)的多尺度特征融合網(wǎng)絡(luò),利用最后一層特征協(xié)同多個(gè)中間層特征,通過特征層融合以建模行人圖像特征. 為保證有效利用具有一定語義表達(dá)的同時(shí)不丟失細(xì)節(jié)信息的多尺度特征,本文在提取全局特征的同時(shí),采用不同特征層之間降低通道后元素相加的融合方法,確保模型在總體特征表述基礎(chǔ)上提高了對(duì)行人細(xì)節(jié)信息的表征能力,從而提升模型的識(shí)別準(zhǔn)確度.

      1 問題的提出

      雖然行人再識(shí)別的研究隨著深度學(xué)習(xí)的發(fā)展而變得迅速,但是仍然無法有效識(shí)別具有相似外貌特征的不同行人的身份;因此,如何提取出更加具有區(qū)分度的特征成為了提高模型準(zhǔn)確率的研究熱點(diǎn)[9]. 然而,常見的行人再識(shí)別數(shù)據(jù)集,如Market-1501[10]、CUHK03[11]、DukeMTMC-reID[12]等,所包含的行人圖片都是低分辨率的,難以利用像人臉這樣可以直接區(qū)別2個(gè)人身份的特征,并且由于遮擋物和行人姿態(tài)的影響,人臉并不是一個(gè)可以利用的可靠特征. 因此,行人本身的細(xì)節(jié)特征,如背包、鞋子等私人物品,成為區(qū)分外貌相似的2個(gè)人身份最好的信息.

      圖1中的2張圖片都來自Market-1501數(shù)據(jù)集. 對(duì)比后可以發(fā)現(xiàn),2個(gè)行人體態(tài)相似,而且都身著白色的短袖和牛仔短褲,但是仔細(xì)對(duì)比可以發(fā)現(xiàn),2個(gè)行人約有3處較為明顯的不同點(diǎn):

      1) 行人a的白色短袖上有明顯的logo;

      2) 行人b背著背包,并且有明顯的一根背帶;

      3) 2個(gè)行人的鞋子顏色稍有不同.

      圖上的這3處細(xì)節(jié)信息足以讓模型識(shí)別出這是2個(gè)不同身份的行人.

      在常見的特征提取的方法上,深度學(xué)習(xí)因其良好的對(duì)復(fù)雜對(duì)象的表征能力被用于圖像理解識(shí)別方向,在行人再識(shí)別領(lǐng)域也被廣泛應(yīng)用[13]. 與多數(shù)圖像理解識(shí)別的深度特征學(xué)習(xí)方法相同,其也是將待識(shí)別圖片送入卷積神經(jīng)網(wǎng)絡(luò)中,計(jì)算深度特征. 行人再識(shí)別模型也采用相似的深度網(wǎng)絡(luò)結(jié)構(gòu),提取揭示其高層表征語義的特征,用于進(jìn)一步分類計(jì)算. 但是僅使用最高層抽象特征作為整張圖片的特征表示并不能獲得很好的識(shí)別效果,原因在于卷積神經(jīng)網(wǎng)絡(luò)在不同階段編碼生成的特征具有不同的信息,高層特征包含的更多的是語義信息,因此,導(dǎo)致當(dāng)2個(gè)不同身份的行人穿的衣服顏色相近時(shí),模型無法準(zhǔn)確識(shí)別. 同樣在目標(biāo)檢測(cè)領(lǐng)域,僅使用網(wǎng)絡(luò)的最高層特征導(dǎo)致檢測(cè)小目標(biāo)時(shí)出現(xiàn)漏檢的現(xiàn)象,研究者為了提升小目標(biāo)的檢測(cè)精確度,通過提取多尺度的特征信息進(jìn)行融合,進(jìn)而提高小目標(biāo)檢測(cè)的精度. 考慮到常見的行人再識(shí)別模型同樣存在上述問題,當(dāng)2個(gè)不同身份的行人穿的衣服顏色相近時(shí),其高層語義相似,用于準(zhǔn)確區(qū)分不同行人的信息通常存在于小目標(biāo)中,僅從卷積神經(jīng)網(wǎng)絡(luò)最后一層提取出的高層特征往往丟失了很多細(xì)節(jié)信息,如行人有無背包等,導(dǎo)致模型將衣服顏色相近的不同行人分類錯(cuò)誤. 基于以上分析,本文采用多尺度特征融合模型,提出有效的融合方案,旨在提取反映細(xì)節(jié)信息的有效特征,從而提升行人再識(shí)別的精度.

      基于此,本文借鑒了特征金字塔網(wǎng)絡(luò)(feature pyramid network,FPN)[14]的思想,設(shè)計(jì)了一個(gè)多尺度特征融合網(wǎng)絡(luò),在提取行人圖片的高層語義特征的同時(shí),亦可以利用中間層提取細(xì)微細(xì)節(jié)的抽象特征. 整個(gè)模型采用了多尺度特征融合的方法,提取全局語義信息特征的同時(shí),加強(qiáng)網(wǎng)絡(luò)對(duì)小目標(biāo)的關(guān)注,使得網(wǎng)絡(luò)更多地關(guān)注細(xì)節(jié)信息. 不同于FPN網(wǎng)絡(luò),本文并未融合所有卷積層的特征,而是通過實(shí)驗(yàn)選取中間層包含細(xì)節(jié)信息更多的特征,從而提取出更加具有區(qū)分度的特征.

      2 網(wǎng)絡(luò)結(jié)構(gòu)及多尺度特征融合機(jī)制

      本文設(shè)計(jì)了一個(gè)多尺度卷積神經(jīng)網(wǎng)絡(luò)來解決只使用高層特征帶來的缺點(diǎn),整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示. 在眾多分類網(wǎng)絡(luò)中,ResNet50通過引入殘差模塊,在加深網(wǎng)絡(luò)結(jié)構(gòu)的同時(shí),有效地解決了梯度消失問題,得到了很好的識(shí)別和分類效果. 因此,本文采用的網(wǎng)絡(luò)結(jié)構(gòu)在ResNet50[15]的基礎(chǔ)上進(jìn)行改進(jìn),首先將ResNet50中4個(gè)階段的最后一個(gè)殘差結(jié)構(gòu)的特征激活圖輸出,這里每一個(gè)階段的輸出分別命名{C1,C2,C3,C4},并且將網(wǎng)絡(luò)最后一個(gè)殘差塊的卷積操作的步長改為1,保證特征圖的分辨率不會(huì)太低. 為保證有效表示行人的總體特征和小目標(biāo)的細(xì)節(jié)特征,本文設(shè)計(jì)采用自頂層向下漸進(jìn)式加和融合計(jì)算機(jī)制,具體特征融合操作描述如下:對(duì)于高維特征C4,使用卷積核大小為1的卷積核降低通道的數(shù)量得到P4;將同樣經(jīng)過降維后的C3與P4進(jìn)行元素相加的操作,得到融合后的特征P3;同理,得到P2. 考慮到由于池化操作,每一個(gè)階段得到的特征圖的分辨率并不相等,在加和操作前,將高層特征圖進(jìn)行上采樣,本文采用2倍上采樣得到與低層特征圖相等的分辨率. 利用該漸進(jìn)式特征融合計(jì)算機(jī)制得到多個(gè)包含不同尺度的融合特征,即反映不同粒度的小目標(biāo)細(xì)節(jié)特征. 本文考慮到建模細(xì)節(jié)信息的目的在于提取如配飾等小目標(biāo)對(duì)象的語義特征表示,而非低層特征,因此,本文設(shè)計(jì)采用選擇中間層與高層特征協(xié)同的特征融合計(jì)算方案,而未采用最低層的特征圖. 這里選用第2、第3和第4階段特征.

      利用上述方法,對(duì)所提取的融合特征{P4,P3,P2}和全局特征X使用共享權(quán)值的全連接層對(duì)其進(jìn)行分類. 本文使用分類損失(cross entropy loss)[16]L,總的損失函數(shù)表示為

      Ltotal=LP4+LP3+LP2+Lx

      (1)

      在訓(xùn)練過程中,為找到有效的中間層建立組合特征,本文對(duì)網(wǎng)絡(luò)不同階段輸出的特征圖采用多種組合方案,分別進(jìn)行訓(xùn)練以確定識(shí)別準(zhǔn)確率最好的特征組合,避免使用冗余的特征,減小網(wǎng)絡(luò)的參數(shù)量. 為了和同類型的模型進(jìn)行對(duì)比,當(dāng)整個(gè)網(wǎng)絡(luò)訓(xùn)練完畢后,本文同樣只采用全局特征X進(jìn)行測(cè)試.

      3 實(shí)驗(yàn)分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)庫介紹

      本文對(duì)3個(gè)主流的行人再識(shí)別數(shù)據(jù)集分別進(jìn)行了測(cè)試,包括Market-1501、CUHK03和DukeMTMC-reID. 其中,Market-1501數(shù)據(jù)集在2015年構(gòu)建并且公開,它包括由6個(gè)攝像頭拍攝到的1 501個(gè)行人和32 668個(gè)檢測(cè)到的行人矩形框,每個(gè)行人至少由2個(gè)攝像頭捕獲,在圖像庫gallery image中的行人檢測(cè)框是使用可變形組件模型(deformable parts model,DPM)檢測(cè)算法檢測(cè)得到的,其中,訓(xùn)練集有751人,包含12 936張圖像,測(cè)試集有750人,包含19 732張圖像;CUHK03數(shù)據(jù)集在2014年公開,共包含13 164張圖片(來自1 467個(gè)人),隨機(jī)挑選其中767個(gè)行人的圖像作為訓(xùn)練集,將其余的700個(gè)行人的圖像作為測(cè)試集;DukeMTMC-reID數(shù)據(jù)集包含了16 522張訓(xùn)練數(shù)據(jù)集(來自702個(gè)人)、2 228個(gè)查詢圖像(來自另外的702個(gè)人)以及17 661張圖像的搜索圖庫(gallery).

      3.2 實(shí)驗(yàn)結(jié)果分析

      本文在Market-1501、CUHK03(D)和DukeMTMC-reID數(shù)據(jù)集上對(duì)所提出的多尺度特征融合方法的有效性加以驗(yàn)證,使用隨機(jī)裁剪的方法增加樣本的多樣性,同時(shí)所有實(shí)驗(yàn)均在單張1080ti顯卡上完成,結(jié)果如表1~3所示. 首先利用ResNet50最后一層卷積層輸出的特征X(global)進(jìn)行測(cè)試,接下來利用不同的特征組合方式進(jìn)行了一系列實(shí)驗(yàn). 通過實(shí)驗(yàn)發(fā)現(xiàn),不同層之間的特征融合有效地提高了模型的識(shí)別精度. 在全局特征X的基礎(chǔ)上,{X,P4}和{X,P3}特征組合均提高了實(shí)驗(yàn)的識(shí)別精度,并且在3個(gè)數(shù)據(jù)集上,{P4,P3,X}這樣的特征組合方式都達(dá)到了最好的識(shí)別精度,但是隨著實(shí)驗(yàn)的深入,{P4,P3,P2,X}的特征組合反而出現(xiàn)了實(shí)驗(yàn)精度下降的現(xiàn)象,說明將所有的融合特征疊加并不是都有效果,P2階段的融合特征所包含的可以有效區(qū)分行人身份的信息更少,甚至?xí)档驼麄€(gè)特征的識(shí)別精度. 實(shí)驗(yàn)結(jié)果如表1~3所示.

      表1 不同的特征組合方式在Market-1501(Market)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果

      表2 不同的特征組合方式在CUHK03數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果

      表3 不同的特征組合方式在DukeMTMC-reID數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果

      與2018年提出的DaRe[8]網(wǎng)絡(luò)相比,本文提出的方法在Market-1501數(shù)據(jù)集的Rank-1[17]指標(biāo)提升了2.82%,mAP[18]指標(biāo)提升了4.32%;DukeMTMC-reID數(shù)據(jù)集的Rank-1指標(biāo)提升了5.45%,mAP指標(biāo)提升了6.40%. 實(shí)驗(yàn)結(jié)果(見表4)充分說明了本文設(shè)計(jì)的多尺度特征融合網(wǎng)絡(luò)的有效性,在提取了高層語義特征的同時(shí),充分提取了融合特征P3和P4中的細(xì)節(jié)信息,加強(qiáng)了對(duì)圖片上細(xì)節(jié)信息的關(guān)注,提高了模型的準(zhǔn)確率.

      表4 本文提出的融合算法與現(xiàn)有融合算法的比較

      3.3 特征圖可視化結(jié)果分析

      為了驗(yàn)證所提出的模型在保留全局特征的同時(shí)有效提升了對(duì)行人身上的細(xì)節(jié)特征的注意力,本文利用Grad-cam[19]可視化技術(shù)展示了不同的特征組合方式所形成的可視化圖像[20]. Grad-cam是一種類別判別的定位技術(shù),可以從任何基于卷積神經(jīng)網(wǎng)絡(luò)生成視覺解釋,而不需要架構(gòu)變更或重新訓(xùn)練. Grad-cam使用進(jìn)入網(wǎng)絡(luò)最后一層卷積層的梯度信息來理解每個(gè)神經(jīng)元對(duì)目標(biāo)決定的重要性.

      如圖3所示,由可視化圖像中顏色越深的部位表示模型在此部位學(xué)習(xí)到的特征越重要可以發(fā)現(xiàn),采用本文所提出的模型,即利用全局特征X及融合特征P4、P3所派生的{P4,P3,X}特征組合,關(guān)注到了行人衣服上的logo、背包等細(xì)節(jié)信息. 實(shí)驗(yàn)結(jié)果充分說明了所提出的特征模型對(duì)小目標(biāo)等細(xì)節(jié)信息具有更好的表示能力,在分類時(shí)起到重要的作用,從而有效提升了行人再識(shí)別的識(shí)別效果.

      為進(jìn)一步分析不同特征組合對(duì)細(xì)節(jié)信息的表征能力,本文對(duì)比了不同特征組合的可視化圖像,如圖4所示. 其中3個(gè)行人圖像采用不同特征組合的heatmap圖像,從左至右依次為原始圖像、X、{P3,X}、{P4,X}、{P3,P4,X}、{P2,P3,P4,X}的特征可視化. 如圖4(a)所示,可以發(fā)現(xiàn)采用{P4,P3,X}、{P4,P3,P2,X}組合特征,更精確地注意到了行人褲子上的logo,同時(shí){P4,P3,X}組合特征對(duì)該細(xì)節(jié)賦予了更大的權(quán)重,即在分類過程中將起到更重要作用;與之相對(duì)的是,若采用全局特征X,其重要區(qū)域,即紅色部分,明顯與行人褲子上的logo區(qū)域有一定偏離,未獲得足夠關(guān)注,而僅組合其中一層的特征,即特征組合{P4,X}和{P3,X}雖有一定改善,但還是未獲得足夠關(guān)注,同樣的在圖4(b)(c)中也有類似的現(xiàn)象. 因此,采用{P4,P3,X}組合特征,更精確地注意到了行人衣服上的logo、鞋子以及褲子信息,特別是相對(duì)于只采用全局特征的實(shí)驗(yàn),組合中間特征后,對(duì)局部細(xì)節(jié)具有一定的表征能力,從而利用細(xì)節(jié)信息提高行人再識(shí)別精度.

      總之,利用特征層可視化手段,其結(jié)果證明本文所提出的模型在識(shí)別對(duì)象具有較高相似度時(shí)不僅可以保留全局特征,并且可以注意到圖片上的細(xì)節(jié)信息,利用細(xì)節(jié)進(jìn)行輔助識(shí)別,提升了模型的識(shí)別精度.

      4 結(jié)論

      1) 本文針對(duì)行人再識(shí)別中不同目標(biāo)對(duì)象的體態(tài)、外貌非常相似時(shí)模型不易辨識(shí)等問題,提出了一個(gè)基于ResNet50的多尺度特征融合網(wǎng)絡(luò),通過利用微小細(xì)節(jié)信息,特別是不同粒度的小目標(biāo)對(duì)象信息,在提取全局特征的同時(shí)將網(wǎng)絡(luò)中間層的特征圖組合后共同訓(xùn)練,實(shí)現(xiàn)了高分辨率特征和低分辨率特征的互補(bǔ),使得提取出的特征既包含了高層語義特征又包含低層的細(xì)節(jié)信息. 在面對(duì)行人的外貌特征相似的案例時(shí),模型可以利用關(guān)注到行人對(duì)象的細(xì)節(jié)特征,如行人的背包、衣服上的logo等,足以表明行人身份的信息,提升再識(shí)別能力.

      2) 實(shí)驗(yàn)結(jié)果表明,本文所提出的模型在3個(gè)主流行人再識(shí)別數(shù)據(jù)集上,獲得了比同類型的主流行人再識(shí)別方法更高的精確度,同時(shí)通過對(duì)比分析全局特征與中間層的不同特征組合,確定了采用最高層全局特征與次高層中間特征的特征組合方式. 通過Grad-cam將實(shí)驗(yàn)結(jié)果可視化,結(jié)果顯示融合后的特征包含了更多的細(xì)節(jié)信息,提升了不同行人特征的可辨別性,進(jìn)一步驗(yàn)證了組合高層全局特征和中間特征,特別是所確定的特征組合,對(duì)細(xì)節(jié)具有更好的表征能力,證明了本文所提出的多尺度特征融合網(wǎng)絡(luò)在行人再識(shí)別應(yīng)用中的有效性.

      猜你喜歡
      全局行人卷積
      Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
      量子Navier-Stokes方程弱解的全局存在性
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      毒舌出沒,行人避讓
      意林(2021年5期)2021-04-18 12:21:17
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      路不為尋找者而設(shè)
      落子山東,意在全局
      金橋(2018年4期)2018-09-26 02:24:54
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      我是行人
      新思路:牽一發(fā)動(dòng)全局
      浏阳市| 和硕县| 万安县| 安塞县| 英超| 平潭县| 福安市| 英超| 石棉县| 永川市| 东明县| 缙云县| 仁寿县| 河北省| 临西县| 化州市| 永登县| 临西县| 上饶市| 勐海县| 常州市| 漯河市| 隆尧县| 丰宁| 通州市| 铜山县| 儋州市| 监利县| 吴堡县| 中宁县| 嘉义县| 壶关县| 来宾市| 涡阳县| 慈利县| 彰化县| 调兵山市| 广西| 宜州市| 宝应县| 六安市|