• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于顯著圖融合的無(wú)人機(jī)載熱紅外圖像目標(biāo)檢測(cè)方法

      2021-11-13 08:07:40趙興科李明磊李家松
      自動(dòng)化學(xué)報(bào) 2021年9期
      關(guān)鍵詞:行人紅外像素

      趙興科 李明磊 張 弓 黎 寧 李家松

      1.南京航空航天大學(xué)電子信息工程學(xué)院 南京 211106

      近年來(lái),以無(wú)人機(jī)(Unmanned aerial vehicles,UAV)為平臺(tái)的圖像獲取和處理技術(shù)在交通、安防和環(huán)保等領(lǐng)域得到快速發(fā)展.彩色圖像在理想光照條件下,對(duì)目標(biāo)檢測(cè)有很好的效果,可以較容易地利用深度學(xué)習(xí)技術(shù)找到圖像中興趣目標(biāo)的具體位置并識(shí)別其類別.然而,在夜間或缺乏足夠光照的情況下,基于彩色圖像的目標(biāo)檢測(cè)往往難以達(dá)到預(yù)期效果,容易造成漏檢或誤檢.紅外相機(jī)非常適合在這種條件下成像,因?yàn)樗鼈兡芨袘?yīng)到目標(biāo)物發(fā)出的輻射且不受光照條件的限制.面向行人和車輛檢測(cè)的需求,本文研究一種適用于以無(wú)人機(jī)為平臺(tái)獲取的熱紅外圖像數(shù)據(jù)智能處理算法.

      相比于彩色圖像,熱紅外圖像有著對(duì)比度低、紋理特征弱等缺點(diǎn).因此,在彩色圖像和熱紅外圖像之間存在明顯的互補(bǔ).為了開(kāi)發(fā)這種互補(bǔ)的潛力,相關(guān)學(xué)者做了大量的工作來(lái)構(gòu)建融合彩色和熱紅外圖像的數(shù)據(jù)結(jié)構(gòu)[1].但是彩色-熱紅外圖像對(duì)并不總是可用的,因?yàn)樗鼈儗?shí)時(shí)同步成像的成本很高,而且數(shù)據(jù)處理前還需要圖像配準(zhǔn)準(zhǔn)確,圖像錯(cuò)位還會(huì)降低檢測(cè)器的性能.這些原因促使本文探索只使用熱紅外圖像來(lái)進(jìn)行目標(biāo)檢測(cè)的機(jī)制.為了解決熱紅外圖像中目標(biāo)檢測(cè)的難題,本文提出使用顯著圖來(lái)進(jìn)行圖像增強(qiáng).文獻(xiàn)[2]通過(guò)在顏色、方向、運(yùn)動(dòng)和深度上與周圍環(huán)境的不同來(lái)定義特定位置的顯著性.在一個(gè)場(chǎng)景中尋找顯著物體可以理解為一種視覺(jué)注意機(jī)制,它突出了給定場(chǎng)景中屬于顯著物體的像素.因此,本文假設(shè)顯著圖和熱紅外圖像結(jié)合將幫助提升目標(biāo)檢測(cè)模型的性能.為驗(yàn)證此假設(shè),首先通過(guò)訓(xùn)練一個(gè)YOLOv3 目標(biāo)檢測(cè)模型[3]來(lái)建立評(píng)價(jià)參考基準(zhǔn),它僅使用制作的熱紅外圖像數(shù)據(jù)集來(lái)檢測(cè)目標(biāo).然后,使用BASNet[4]生成顯著圖融合熱紅外圖像,在此基礎(chǔ)上訓(xùn)練目標(biāo)檢測(cè)模型.此外,由于深度顯著性網(wǎng)絡(luò)需要對(duì)顯著性對(duì)象進(jìn)行像素級(jí)標(biāo)注,因此實(shí)驗(yàn)中使用行人及車輛的像素級(jí)掩膜對(duì)制作的熱紅外圖像數(shù)據(jù)集進(jìn)行標(biāo)注,以方便對(duì)顯著性目標(biāo)檢測(cè)的研究.

      針對(duì)無(wú)人機(jī)平臺(tái)內(nèi)存和算力的局限性,本文設(shè)計(jì)了YOLOv3-MobileNetv2 網(wǎng)絡(luò),利用輕量化網(wǎng)絡(luò)MobileNetv2[5]替代YOLOv3 原有的特征提取網(wǎng)絡(luò)DarkNet53,在大量減少網(wǎng)絡(luò)參數(shù)的同時(shí)顯著提升運(yùn)行速度.此外,使用Focal loss[6]改進(jìn)YOLOv3原有的損失函數(shù),解決正負(fù)樣本不均衡問(wèn)題,使得網(wǎng)絡(luò)專注于困難樣本的計(jì)算.

      本文的主要貢獻(xiàn)如下:

      1)首次將顯著圖用于提高無(wú)人機(jī)視角下的熱紅外圖像目標(biāo)檢測(cè)性能,通過(guò)設(shè)計(jì)不同的融合方案,深入分析了顯著圖對(duì)熱紅外圖像中行人及車輛目標(biāo)檢測(cè)的影響.

      2)以輕量化網(wǎng)絡(luò)YOLOv3-MobileNetv2 改進(jìn)原有模型,在平均精確度、模型尺寸和檢測(cè)速度方面取得了很好的平衡,即在計(jì)算資源和存儲(chǔ)資源有限的情況下實(shí)現(xiàn)了最優(yōu)的精度,將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)[7]更好地應(yīng)用于無(wú)人機(jī)場(chǎng)景中.

      1 相關(guān)工作

      目前,較少有論文探討利用無(wú)人機(jī)結(jié)合熱成像技術(shù)進(jìn)行目標(biāo)檢測(cè)的深度學(xué)習(xí)方法.本節(jié)回顧了在目標(biāo)檢測(cè)、顯著性檢測(cè)以及模型壓縮和加速等領(lǐng)域的相關(guān)工作.

      1.1 目標(biāo)檢測(cè)

      在過(guò)去的20年里,大量的研究工作致力于彩色圖像中的行人及車輛檢測(cè).于雪松等[8]針對(duì)人體運(yùn)動(dòng)跟蹤領(lǐng)域中的自遮擋現(xiàn)象,提出了一種基于概率模型的行人四肢自遮擋檢測(cè)算法.該算法通過(guò)馬爾科夫模型和橢圓膚色模型將行人四肢自遮擋狀態(tài)的識(shí)別轉(zhuǎn)換為計(jì)算自遮擋狀態(tài)轉(zhuǎn)換概率的過(guò)程.實(shí)驗(yàn)表明,該方法具有較高的準(zhǔn)確性.Dollár 等[9]提出了采用積分通道特征(Integral channel feature,ICF)和Boosting 算法相結(jié)合的方法,提升了車輛檢測(cè)的效果.與傳統(tǒng)的檢測(cè)算法相比,近幾年CNN在目標(biāo)檢測(cè)上取得了重大的突破.基于CNN的目標(biāo)檢測(cè)算法主要分為兩大類:一階和二階目標(biāo)檢測(cè)算法.它們之間的主要區(qū)別在于是否存在提取候選區(qū)域的級(jí)聯(lián)模塊.二階目標(biāo)檢測(cè)算法中具有代表性的是R-CNN(Region CNN)系列檢測(cè)算法[10-12],它們通過(guò)使用級(jí)聯(lián)模塊可以使網(wǎng)絡(luò)有針對(duì)性地檢測(cè)疑似目標(biāo)區(qū)域的物體,但由于多了這樣的級(jí)聯(lián)模塊,提升精度的同時(shí)會(huì)使得模型的復(fù)雜度升高,在檢測(cè)速度上低于一階檢測(cè)算法,不適用于無(wú)人機(jī)上的實(shí)時(shí)目標(biāo)檢測(cè).一階目標(biāo)檢測(cè)算法雖然在檢測(cè)精度上表現(xiàn)欠佳,但其檢測(cè)速度非???其中最具有代表性的是Redmon 等[13-14]提出的YOLO(You only look once)系列目標(biāo)檢測(cè)算法,該算法將圖像劃分成S×S的格子,每個(gè)格子負(fù)責(zé)目標(biāo)中心在該格子的目標(biāo)檢測(cè),利用回歸思想同時(shí)完成檢測(cè)與識(shí)別.基于此,本文采用YOLOv3 算法作為無(wú)人機(jī)載熱紅外圖像中行人及車輛目標(biāo)檢測(cè)識(shí)別的基礎(chǔ)模型.

      近年來(lái),基于無(wú)人機(jī)的交通監(jiān)控系統(tǒng)研究十分活躍.Ruhé 等[15]使用無(wú)人機(jī)采集了城市道路車輛信息,結(jié)合地理信息系統(tǒng)(Geographic information system,GIS)平臺(tái),對(duì)地面交通狀況進(jìn)行預(yù)測(cè),完成流量、車速等信息的提取.文獻(xiàn)[16]通過(guò)安裝在高架平臺(tái)上的攝像機(jī)模擬無(wú)人機(jī)的視角,提出一種基于Haar 特征的人體部位檢測(cè)器.為提高無(wú)人機(jī)道路檢測(cè)的實(shí)時(shí)性和魯棒性,文獻(xiàn)[17]提出一種基于改進(jìn)的圖割(Graph cut)算法的道路檢測(cè)方法,針對(duì)航拍圖像各個(gè)區(qū)域具有不同對(duì)比度的特點(diǎn),將單一的圖像全局對(duì)比度矩陣替換為局部對(duì)比度矩陣.

      隨著熱紅外成像技術(shù)的廣泛應(yīng)用,越來(lái)越多的研究專注于利用熱紅外圖像實(shí)現(xiàn)對(duì)行人及車輛的有效檢測(cè).熱紅外圖像與普通的可見(jiàn)光圖像相比差異明顯,熱紅外圖像有著紋理特征不明顯、成像對(duì)比度低、噪聲較多等特點(diǎn),這些物理特性使得熱紅外場(chǎng)景下的目標(biāo)檢測(cè)一直都具有挑戰(zhàn)性.針對(duì)這一問(wèn)題,目前的主流方法是將熱紅外圖像和可見(jiàn)光圖像融合,結(jié)合兩種圖像互補(bǔ)性優(yōu)勢(shì),獲得對(duì)于場(chǎng)景全面準(zhǔn)確的圖像描述.張秀偉等[18]提出了一種基于Co-motion 的可見(jiàn)光與熱紅外圖像序列自動(dòng)融合方法,引入Co-motion 運(yùn)動(dòng)統(tǒng)計(jì)特征來(lái)解決異源圖像序列融合問(wèn)題,從而避開(kāi)了異源圖像相似圖像特征提取和精確運(yùn)動(dòng)檢測(cè)的難題.Li 等在文獻(xiàn)[19]中設(shè)計(jì)了光照感知的神經(jīng)網(wǎng)絡(luò),它自適應(yīng)地融合了彩色和熱紅外子網(wǎng)絡(luò),并根據(jù)光照條件采用加權(quán)方案融合結(jié)果.在文獻(xiàn)[20]中,作者引入了區(qū)域重建網(wǎng)絡(luò),利用CNN 對(duì)可見(jiàn)光與熱紅外數(shù)據(jù)之間的關(guān)系進(jìn)行建模,然后將這些特征輸入到多尺度檢測(cè)網(wǎng)絡(luò)中進(jìn)行魯棒的目標(biāo)檢測(cè).

      然而,可見(jiàn)光對(duì)光照變化以及其他環(huán)境影響較為敏感,尤其是在夜間,采用可見(jiàn)光獲取圖像的方法將完全不可用,故可見(jiàn)光與熱紅外圖像融合也無(wú)從談起.此外,同時(shí)獲取同一場(chǎng)景的可見(jiàn)光與熱紅外圖像需要兩種不同的傳感器,圖像采集過(guò)程較為復(fù)雜,對(duì)設(shè)備要求較高.在此背景下,本文研究?jī)H使用熱紅外圖像進(jìn)行目標(biāo)檢測(cè),在克服夜間低能見(jiàn)度并實(shí)現(xiàn)全天候檢測(cè)的同時(shí),簡(jiǎn)化檢測(cè)過(guò)程,通過(guò)算法的優(yōu)化提高檢測(cè)效果.

      1.2 顯著性檢測(cè)

      顯著性目標(biāo)檢測(cè)的目的是突出圖像中最明顯的目標(biāo)區(qū)域,它可以引導(dǎo)機(jī)器視覺(jué)系統(tǒng)將有限的資源分配給少數(shù)幾個(gè)顯著區(qū)域,為后續(xù)的視覺(jué)處理提供極大的便利.從理論研究的層面來(lái)說(shuō),可以把圖像的顯著性檢測(cè)研究分為兩大方向,即數(shù)據(jù)驅(qū)動(dòng)的顯著性檢測(cè)和目標(biāo)驅(qū)動(dòng)的顯著性檢測(cè).數(shù)據(jù)驅(qū)動(dòng)的圖像顯著性區(qū)域檢測(cè)算法主要關(guān)注由圖像底層特征本身所引起的視覺(jué)刺激,這類算法由內(nèi)部數(shù)據(jù)驅(qū)動(dòng),與目標(biāo)任務(wù)無(wú)關(guān).與此相反,目標(biāo)驅(qū)動(dòng)的顯著性檢測(cè)算法主要關(guān)注與任務(wù)相關(guān)的圖像內(nèi)容,顯著性檢測(cè)的結(jié)果受到檢測(cè)任務(wù)的決定性支配.

      Itti 等[21]最早提出認(rèn)知視覺(jué)注意模型,該模型提取場(chǎng)景中的特征顯著圖并采用線性合并的方式整合為總顯著圖,以贏者通吃(Winner takes all)和返回抑制相結(jié)合的方式來(lái)引導(dǎo)視覺(jué)注意焦點(diǎn)的選擇和轉(zhuǎn)移.Hou 等[22]提出基于頻域的譜殘差法,對(duì)圖像進(jìn)行二維傅里葉變換后得到頻域的相位譜和幅度譜,作者認(rèn)為頻譜域上的統(tǒng)計(jì)奇異對(duì)應(yīng)圖像的異常區(qū)域,因此該區(qū)域的物體顯著性高.利用深度學(xué)習(xí)技術(shù)進(jìn)行顯著性檢測(cè)是近年來(lái)的研究趨勢(shì).He 等[23]提出了一種新的超像素方法,稱為Super-CNN,可以有效地學(xué)習(xí)顯著性的內(nèi)部表示.與傳統(tǒng)的卷積網(wǎng)絡(luò)相比,該網(wǎng)絡(luò)能夠?qū)W習(xí)分層對(duì)比度特征,通過(guò)多尺度網(wǎng)絡(luò)結(jié)構(gòu)檢測(cè)顯著性區(qū)域.Hou 等[24]提出了一種快速的顯著性檢測(cè)方法,在整體嵌套邊緣檢測(cè)的基礎(chǔ)上,增加了一種高層信息指導(dǎo)低層信息的跳層連接結(jié)構(gòu),從而構(gòu)建了一種簡(jiǎn)單、有效、快速的端對(duì)端的顯著性物體檢測(cè)網(wǎng)絡(luò).張芳等[25]設(shè)計(jì)實(shí)現(xiàn)了一種全卷積神經(jīng)網(wǎng)絡(luò)與低秩稀疏分解相結(jié)合的顯著性檢測(cè)方法,將圖像分解為代表背景的低秩矩陣和對(duì)應(yīng)顯著區(qū)域的稀疏噪聲,結(jié)合利用全卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到的高層語(yǔ)義先驗(yàn)知識(shí),檢測(cè)圖像中的顯著區(qū)域.本文使用了目前最先進(jìn)的網(wǎng)絡(luò)BASNet 生成熱紅外圖像的顯著圖,并在第3.3.1 節(jié)中進(jìn)行結(jié)果評(píng)估.

      1.3 模型壓縮和加速

      雖然現(xiàn)在CNN 的特征提取能力隨著網(wǎng)絡(luò)層數(shù)的加深正在不斷地提升,但在實(shí)際工程中還需要考慮模型尺寸和模型預(yù)測(cè)速度.深度CNN 結(jié)構(gòu)包含幾十層甚至上百層的網(wǎng)絡(luò),有著大量的權(quán)重參數(shù),如何調(diào)整其結(jié)構(gòu)以在準(zhǔn)確度、尺寸和速度之間實(shí)現(xiàn)最佳平衡已經(jīng)成為一個(gè)很受關(guān)注的研究領(lǐng)域.

      為了解決這個(gè)問(wèn)題,眾多輕量化網(wǎng)絡(luò)結(jié)構(gòu)紛紛被提出.SqueezeNet[26]提出了一種稱作Fire 的模塊,它分為兩個(gè)部分:一個(gè)由1×1 卷積核構(gòu)成的壓縮層以及一個(gè)由1×1 和3×3 卷積核組成的擴(kuò)張層.通過(guò)使用這種模塊,SqueezeNet 能在保持模型精度不損失的情況下達(dá)到50 倍壓縮率.ShuffleNet[27]充分利用了分組卷積和通道混洗進(jìn)一步提高模型效率,在減少計(jì)算量的同時(shí)解決了組間信息流通問(wèn)題.而Google 提出的MobileNet 系列模型[28-29]是專門針對(duì)移動(dòng)和嵌入式設(shè)備開(kāi)發(fā)的輕量級(jí)CNN 結(jié)構(gòu).MobileNetv1 采用一種深度可分離卷積的高效卷積方法來(lái)提升運(yùn)算速度.深度可分離卷積將一個(gè)標(biāo)準(zhǔn)卷積分解成兩步來(lái)實(shí)現(xiàn),第1 步是深度卷積,即對(duì)每個(gè)輸入通道用單個(gè)卷積核進(jìn)行卷積運(yùn)算;第2 步是一個(gè)1×1 卷積,即逐點(diǎn)卷積,負(fù)責(zé)通過(guò)計(jì)算輸入通道間的線性組合來(lái)構(gòu)建新的特征.通過(guò)深度卷積和逐點(diǎn)卷積兩個(gè)步驟實(shí)現(xiàn)卷積層,其參數(shù)僅約為普通卷積的1/9.在此基礎(chǔ)上,MobileNetv2 加入了反向殘差和線性瓶頸模塊構(gòu)成了更高效的基本模塊.傳統(tǒng)的殘差結(jié)構(gòu)特征通道維度先縮減后擴(kuò)展,即先用一個(gè)1×1 卷積來(lái)降低通道維度,目的是減小計(jì)算量.而 MobileNetv2 使用深度卷積替換了3×3 標(biāo)準(zhǔn)卷積,雖然極大地減少了計(jì)算量和參數(shù)量,但提取的特征也會(huì)相對(duì)減少,如果再進(jìn)行壓縮,能提取的特征將更少,影響模型的準(zhǔn)確度.因此采用反向殘差結(jié)構(gòu),先對(duì)通道進(jìn)行擴(kuò)展,深度卷積能提取更多特征,保證模型準(zhǔn)確度.線性瓶頸就是去掉了低維度輸出層后面的非線性激活層,目的也是為了在兼顧參數(shù)量和計(jì)算復(fù)雜度的同時(shí)實(shí)現(xiàn)較高的準(zhǔn)確度.MobileNetv3 采用了新的非線性激活層hswish,使用互補(bǔ)的網(wǎng)絡(luò)搜索方法搜索得到輕量級(jí)的網(wǎng)絡(luò).相較于之前的版本,MobileNetv3 雖然實(shí)現(xiàn)了性能提升,但設(shè)計(jì)及訓(xùn)練過(guò)程復(fù)雜.本文使用MobileNetv2 改進(jìn)原有的YOLOv3 模型,滿足無(wú)人機(jī)場(chǎng)景下的應(yīng)用需要.

      2 算法

      2.1 使用YOLOv3 檢測(cè)結(jié)果作為評(píng)價(jià)基準(zhǔn)

      本文采用的目標(biāo)檢測(cè)基礎(chǔ)模型是YOLOv3 模型,首先用它來(lái)僅處理熱紅外圖像,進(jìn)行行人及車輛的檢測(cè)任務(wù),將這類檢測(cè)的結(jié)果作為后續(xù)模型改進(jìn)的評(píng)價(jià)基準(zhǔn).YOLOv3 將圖片劃分為S×S的網(wǎng)格,各網(wǎng)格只負(fù)責(zé)檢測(cè)中心落在該網(wǎng)格的目標(biāo),每個(gè)網(wǎng)格需要預(yù)測(cè)三個(gè)尺度的邊界框和類別信息,一次性預(yù)測(cè)所有區(qū)域所含目標(biāo)的邊界框、目標(biāo)置信度以及類別概率.與之前的YOLO 算法相比,YOLOv3采用了精度更高的DarkNet53 作為圖像特征提取網(wǎng)絡(luò),設(shè)計(jì)了目標(biāo)多尺度檢測(cè)結(jié)構(gòu),對(duì)無(wú)人機(jī)視角下小目標(biāo)的檢測(cè)具有很好的效果.本文在采集制作的熱紅外圖像數(shù)據(jù)集上訓(xùn)練YOLOv3 模型作為行人及車輛檢測(cè)基準(zhǔn),結(jié)果如表1所示.

      表1 采用不同方法所得到結(jié)果的比較Table 1 Comparison of results from different techniques

      2.2 使用顯著圖融合熱紅外圖像改進(jìn)行人及車輛檢測(cè)

      本文提出從熱紅外圖像中提取顯著圖來(lái)使行人及車輛檢測(cè)器獲得更豐富的像素間關(guān)系.在無(wú)人機(jī)航拍圖像中背景復(fù)雜的情況下,顯著圖的使用會(huì)使行人及車輛在圖像中與周圍環(huán)境的差別更大.然而,顯著圖拋棄了熱紅外圖像中所有可用的紋理信息.為了解決這個(gè)問(wèn)題,本文將熱紅外圖像與其對(duì)應(yīng)的顯著圖融合.

      2.2.1 深度顯著性網(wǎng)絡(luò)BASNet 提取顯著圖

      深度CNN 結(jié)構(gòu)在顯著目標(biāo)檢測(cè)(即顯著圖生成)上已有應(yīng)用,并取得了不錯(cuò)的性能.但是之前的絕大多數(shù)工作都關(guān)注在興趣目標(biāo)區(qū)域的準(zhǔn)確率上,而不是邊界的質(zhì)量上.無(wú)人機(jī)視角下目標(biāo)的形態(tài)與地面視角成像時(shí)的差異較大,因而熱紅外圖像具有邊界幾何特性弱的特點(diǎn).本文提出使用顯著圖進(jìn)行的目標(biāo)檢測(cè)增強(qiáng),其邊界將會(huì)對(duì)圖像增強(qiáng)效果產(chǎn)生較大影響.因此,使用更關(guān)注邊界質(zhì)量的BASNet網(wǎng)絡(luò)[4]作為生成顯著目標(biāo)的基礎(chǔ)網(wǎng)絡(luò).

      如圖1所示,BASNet 是一個(gè)新的預(yù)測(cè)-優(yōu)化網(wǎng)絡(luò).該架構(gòu)由一個(gè)類似于U-Net 的密集監(jiān)督的編譯碼網(wǎng)絡(luò)和一個(gè)額外的殘差優(yōu)化模塊組成,分別負(fù)責(zé)顯著圖預(yù)測(cè)和顯著圖優(yōu)化.在編碼-解碼網(wǎng)絡(luò)中,前面的編碼網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取,使用池化方法得到了分辨率逐步變小的高層語(yǔ)義特征;后面的解碼網(wǎng)絡(luò)部分則負(fù)責(zé)將高層語(yǔ)義信息逐步還原放大,從而逐步獲得大分辨率的特征圖,最終輸出和原圖一樣大小的粗糙的顯著圖.在編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)之間有直連結(jié)構(gòu),將相同分辨率的特征圖相加,從而讓最終的輸出的特征圖能夠同時(shí)兼顧低級(jí)和高級(jí)的特征.此外,為了優(yōu)化粗糙的顯著圖中存在的區(qū)域和邊界缺陷,BASNet 設(shè)計(jì)了一個(gè)新的殘差優(yōu)化模塊,該模塊通過(guò)學(xué)習(xí)粗糙的顯著圖和真實(shí)值之間的殘差來(lái)優(yōu)化預(yù)測(cè)的輸出.這個(gè)優(yōu)化模塊的輸出就是最終輸出的顯著圖,如圖1 中放大的視圖展示了粗糙的和優(yōu)化后的顯著圖.

      圖1 BASNet 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Architecture of boundary-aware salient object detection network:BASNet

      與其他的顯著圖預(yù)測(cè)網(wǎng)絡(luò)不同,BASNet 在每層損失函數(shù)的設(shè)計(jì)上,使用了交叉熵、結(jié)構(gòu)相似性損失、交并比(Intersection over union,IoU)損失這三種的混合損失L,使網(wǎng)絡(luò)更關(guān)注于邊界質(zhì)量,而不是像以前那樣只關(guān)注區(qū)域精度.損失函數(shù)的表達(dá)式為

      其中,Lbce代表交叉熵?fù)p失,對(duì)應(yīng)著像素級(jí)的監(jiān)督.Lssim是結(jié)構(gòu)相似性損失,對(duì)應(yīng)著區(qū)域級(jí)的監(jiān)督.Liou是交并比損失,對(duì)應(yīng)著顯著圖級(jí)的監(jiān)督.各項(xiàng)損失的具體數(shù)學(xué)形式參見(jiàn)文獻(xiàn)[4].

      2.2.2 使用顯著圖融合熱紅外圖像

      在獲得顯著圖后(如圖2(a)所示),本文設(shè)計(jì)了兩類圖像融合方案,即:1)用顯著圖分別替換了熱紅外圖像的紅色(R)、綠色(G)、藍(lán)色(B)三個(gè)通道中的一個(gè)通道,如圖2(b)~2(d)所示,每個(gè)替換方式都對(duì)應(yīng)了一個(gè)新的融合圖像,這些融合圖像的目標(biāo)檢測(cè)性能也存在差異,實(shí)驗(yàn)中將對(duì)其進(jìn)行分析;2)將顯著圖與熱紅外圖像的三個(gè)通道亮度值分別在像素級(jí)別上直接按各自0.5 的權(quán)重比例融合,如圖2(e)所示.顯著圖與熱紅外圖像的融合在突出圖像中行人及車輛目標(biāo)的同時(shí)保留了圖像中的紋理信息,如圖3所示.通道融合之后,為比較顯著圖對(duì)行人及車輛檢測(cè)的影響,繼續(xù)利用熱紅外圖像中提取的顯著圖以及使用上述兩類方法生成的與顯著圖融合的熱紅外圖像分別訓(xùn)練沒(méi)有改進(jìn)的YOLOv3 網(wǎng)絡(luò)模型.

      圖2 使用顯著圖增強(qiáng)熱紅外圖像的流程((a)使用BASNet 網(wǎng)絡(luò)生成熱紅外圖像的顯著圖;(b)~(d)分別是用顯著圖替換熱紅外圖像三通道中的一個(gè)通道;(e)將顯著圖與熱紅外圖像在三個(gè)通道分別進(jìn)行像素級(jí)別上直接融合)Fig.2 The fusion of the thermal image and its saliency map((a)Using BASNet to generate the saliency map of a thermal image;(b)to(d)replacing each of three channels of the thermal image with the saliency map;(e)Fusion of the thermal image and the duplicated saliency maps at pixel-level)

      圖3 測(cè)試集中使用顯著圖增強(qiáng)的熱紅外行人(第1 行和第2 行)及車輛(第3 行和第4 行)圖像((a)原始熱紅外圖像;(b)顯著圖;(c)使用顯著圖替換熱紅外圖像R 通道;(d)使用顯著圖替換熱紅外圖像G 通道;(e)使用顯著圖替換熱紅外圖像B 通道;(f)熱紅外圖像與顯著圖的三個(gè)通道分別進(jìn)行像素級(jí)直接融合)Fig.3 Thermal images and generated saliency maps for pedestrian(top 2 rows)and vehicle(bottom 2 rows)images from the test set((a)Original thermal images;(b)Saliency maps;(c)Replacing red channel of thermal images with saliency maps;(d)Replacing green channel of thermal images with saliency maps;(e)Replacing blue channel of thermal images with saliency maps;(f)Direct fusion of saliency maps and thermal images at pixel-level)

      2.3 使用MobileNetv2 改進(jìn)YOLOv3 模型

      基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法計(jì)算開(kāi)銷和模型參數(shù)體量巨大,難以部署在計(jì)算和存儲(chǔ)資源有限的無(wú)人機(jī)平臺(tái)上.針對(duì)這一問(wèn)題,本文以輕量化目標(biāo)分類網(wǎng)絡(luò)MobileNetv2 為基礎(chǔ),提出了一種新型超輕量化目標(biāo)檢測(cè)網(wǎng)絡(luò)模型.將MobileNetv2 的平均池化層和最后一個(gè)卷積層去掉,使其替換YOLOv3網(wǎng)絡(luò)中原有的DarkNet53 網(wǎng)絡(luò).同時(shí),YOLOv3-MobileNetv2 沿用了DarkNet53 的連接規(guī)則,即分別將MobileNetv2 中分辨率為輸入圖像的8 倍和16 倍下采樣的特征層中的最后一層作為細(xì)粒度特征與檢測(cè)網(wǎng)絡(luò)中上采樣之后的高級(jí)語(yǔ)義特征融合,增強(qiáng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)能力[30],這對(duì)無(wú)人機(jī)航拍圖像中的小目標(biāo)檢測(cè)具有重要意義.深度可分離卷積可以使網(wǎng)絡(luò)在保證準(zhǔn)確度的同時(shí)獲得較小的模型尺寸和較低的計(jì)算復(fù)雜度.因此,采用深度可分離卷積替換YOLOv3-MobileNetv2 檢測(cè)網(wǎng)絡(luò)中占據(jù)大量參數(shù)的3×3 卷積操作.最后根據(jù)需要識(shí)別的目標(biāo)類別和先驗(yàn)框的尺寸對(duì)模型進(jìn)行了修改,完成了輕量化模型YOLOv3-MobileNetv2 的網(wǎng)絡(luò)設(shè)計(jì).最終的YOLOv3-MobileNetv2 結(jié)構(gòu)中只有3 個(gè)標(biāo)準(zhǔn)卷積,采用了21 個(gè)深度可分離卷積模塊,結(jié)構(gòu)如圖4所示.

      圖4 YOLOv3-MobileNetv2 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 Architecture of YOLOv3-MobileNetv2

      此外,YOLOv3 檢測(cè)過(guò)程會(huì)產(chǎn)生兩個(gè)問(wèn)題.1)極度不平衡的正負(fù)樣本比例,其候選樣本生產(chǎn)方式會(huì)使正負(fù)樣本相差巨大,而且大部分的負(fù)樣本都是易分樣本;2)梯度被易分樣本主導(dǎo),雖然這些樣本的損失值很低,但是數(shù)量眾多,對(duì)于損失依舊有很大貢獻(xiàn),從而導(dǎo)致收斂效果不夠好.因此,本文在損失函數(shù)中使用Focal loss 改進(jìn)原有的交叉熵,如式(2)所示.

      其中,pt為預(yù)測(cè)的概率值,α與β均為可以調(diào)節(jié)的超參數(shù),在本文中,α取0.5,β取2.

      3 實(shí)驗(yàn)

      3.1 數(shù)據(jù)集及評(píng)估方法

      通常為了訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)模型,需要大量的數(shù)據(jù)樣本.然而,目前并沒(méi)有公開(kāi)可用的針對(duì)無(wú)人機(jī)視角下行人及車輛的熱紅外數(shù)據(jù)集.除此之外,對(duì)圖像進(jìn)行顯著性目標(biāo)檢測(cè)也需要對(duì)顯著性對(duì)象進(jìn)行像素級(jí)標(biāo)注,需要較大的工作量.因此,本文在實(shí)驗(yàn)環(huán)節(jié)采用現(xiàn)有設(shè)備制作了無(wú)人機(jī)載熱紅外圖像行人及車輛數(shù)據(jù)集,方便相關(guān)技術(shù)的進(jìn)一步研究.

      實(shí)驗(yàn)使用大疆無(wú)人機(jī)DJIM600 PRO 搭載FLIR 熱紅外相機(jī)Vue Pro 采集行人及車輛熱紅外圖像數(shù)據(jù),無(wú)人機(jī)飛行高度20~40 m,圖像分辨率640×512 像素.值得注意的是,熱紅外相機(jī)接收到的原始圖像只有亮度,為單通道灰度圖像.為方便行人及車輛目標(biāo)檢測(cè)的研究,將接收到的熱紅外圖像經(jīng)過(guò)溫度映射后轉(zhuǎn)換為RGB 格式三通道偽彩色圖像,單通道灰度圖像中像素值0 映射為藍(lán)色,像素值255 映射為紅色,中間平滑漸變,即使用顏色的冷暖色調(diào)來(lái)顯示低溫和高溫區(qū)域.

      無(wú)人機(jī)攜帶熱紅外成像儀分別在白天和夜間采集數(shù)據(jù),共獲得熱紅外圖像2 434 幅,其中包含3 555個(gè)行人實(shí)例和3 189 個(gè)車輛實(shí)例.使用圖像標(biāo)注工具Labelme 手動(dòng)標(biāo)注這些圖像,用以生成訓(xùn)練BASNet 所需要的顯著性目標(biāo)邊緣像素級(jí)標(biāo)注.同時(shí),使用LabelImg 標(biāo)注圖像,用以生成訓(xùn)練YOLOv3 及YOLOv3-MobileNetv2 所需要的目標(biāo)邊框標(biāo)注.此外,創(chuàng)建了541 幅帶有類似標(biāo)注的圖像,用于驗(yàn)證本文的深度顯著性檢測(cè)網(wǎng)絡(luò)和改進(jìn)的目標(biāo)檢測(cè)網(wǎng)絡(luò),其中包含1 213 個(gè)行人實(shí)例和667個(gè)車輛實(shí)例.圖5 顯示了4 組所制作數(shù)據(jù)集的示例圖像和標(biāo)注.訓(xùn)練集和測(cè)試集每幀圖像中行人及車輛的分布如圖6所示.第3.3.1 節(jié)的測(cè)試結(jié)果表明,該數(shù)據(jù)集在行人及車輛顯著性目標(biāo)檢測(cè)中可以取得相當(dāng)好的效果.

      圖5 行人及車輛熱紅外數(shù)據(jù)集標(biāo)注示例Fig.5 Sample annotations from pedestrian and vehicle thermal dataset

      圖6 訓(xùn)練集和測(cè)試集中行人及車輛的分布Fig.6 Distribution of pedestrian and vehicle in training images and test images

      為了對(duì)行人及車輛檢測(cè)結(jié)果進(jìn)行評(píng)估,本文使用AP 值和每秒幀率(Frame per second,FPS)分別作為精度和速度的評(píng)價(jià)指標(biāo).此外,使用F 度量值(F-measure,Fβ)和平均絕對(duì)誤差(Mean absolute error,MAE)來(lái)評(píng)估模型的顯著性檢測(cè)結(jié)果.其中,Fβ是精確率(Precision)和召回率(Recall)在非負(fù)權(quán)重β下的加權(quán)調(diào)和平均值,Fβ越高則模型越好,具體計(jì)算為

      其中,β2一般取值為0.3.

      MAE 用來(lái)直接計(jì)算模型輸出的顯著圖與其對(duì)應(yīng)的真實(shí)值之間的像素誤差

      其中,W和H分別為圖像的寬和高,和分別為輸出的顯著圖和其對(duì)應(yīng)的真實(shí)值二值化后的像素值.

      3.2 網(wǎng)絡(luò)模型實(shí)現(xiàn)細(xì)節(jié)

      3.2.1 使用YOLOv3 及YOLOv3-MobileNetv2分別進(jìn)行行人及車輛檢測(cè)

      本文在有8 GB 內(nèi)存的NVIDIA 1080ti GPU上對(duì)YOLOv3 及YOLOv3-MobileNetv2 模型進(jìn)行訓(xùn)練,使用雙線性插值將圖像尺寸由640×512 像素調(diào)整為416×416 像素后輸入網(wǎng)絡(luò)模型.在Microsoft COCO數(shù)據(jù)集上預(yù)先訓(xùn)練YOLOv3 及YOLOv3-MobileNetv2 骨干網(wǎng)絡(luò),并在3.1 節(jié)中描述的熱紅外圖像數(shù)據(jù)集上進(jìn)行100 個(gè)回合(Epoch)的微調(diào).此外,設(shè)置批量大小(Batch size)為8,初始學(xué)習(xí)率為0.001,使用Adam 優(yōu)化器自適應(yīng)調(diào)整學(xué)習(xí)率.IoU 閾值設(shè)置為0.5,經(jīng)過(guò)非極大值抑制(Non-maximum suppression,NMS)操作后輸出最終的預(yù)測(cè)結(jié)果.

      3.2.2 深度顯著性網(wǎng)絡(luò)BASNet

      本文使用像素級(jí)標(biāo)注的熱紅外圖像對(duì)BASNet 進(jìn)行訓(xùn)練,并保持了與原始論文中相同的網(wǎng)絡(luò)架構(gòu).在訓(xùn)練階段,首先將訓(xùn)練集中每幅圖像尺寸調(diào)整為256×256 像素,通過(guò)隨機(jī)翻轉(zhuǎn)和裁剪來(lái)對(duì)訓(xùn)練集圖像做增強(qiáng)操作.使用ResNet-34 網(wǎng)絡(luò)的權(quán)值來(lái)初始化特征提取網(wǎng)絡(luò)的參數(shù),解碼網(wǎng)絡(luò)從0 開(kāi)始訓(xùn)練,學(xué)習(xí)率為0.01.在不使用驗(yàn)證集,批量大小為8 的情況下,經(jīng)過(guò)6 萬(wàn)次迭代損失函數(shù)收斂,整個(gè)訓(xùn)練過(guò)程耗時(shí)約7 小時(shí).在測(cè)試階段,同樣將輸入圖像尺寸調(diào)整為256×256 像素,并將其輸入到網(wǎng)絡(luò)中得到預(yù)測(cè)的顯著圖.然后,將降采樣的顯著圖重新調(diào)整為原始輸入圖像的尺寸.這兩個(gè)調(diào)整過(guò)程都使用雙線性插值.

      3.3 結(jié)果和分析

      3.3.1 深度顯著性網(wǎng)絡(luò)BASNet 在熱紅外圖像數(shù)據(jù)集上的檢測(cè)效果

      為了給接下來(lái)的圖像顯著圖研究提供一個(gè)有效的支撐,首先評(píng)估了BASNet 在標(biāo)注的無(wú)人機(jī)航拍熱紅外行人及車輛顯著性數(shù)據(jù)集的測(cè)試集上的性能.評(píng)估結(jié)果表明,Fβ為0.767,MAE 為0.008,從中可以看出該模型的檢測(cè)效果是十分優(yōu)異的.BASNet 對(duì)熱紅外圖像進(jìn)行處理,檢測(cè)提取出其中的行人及車輛目標(biāo),目標(biāo)像素值為255,背景像素值為0,以二值圖像的形式輸出.使用該模型生成的掩膜可以在圖3(b)中看到.由于熱紅外圖像以溫度作為成像基礎(chǔ),因此圖像中部分與目標(biāo)溫度相近的物體不可避免地對(duì)檢測(cè)結(jié)果造成影響,形成顯著目標(biāo)的誤判,例如圖3(b)第1 幅圖像最左邊區(qū)域中的高溫物體被誤檢為顯著目標(biāo).但此類現(xiàn)象在實(shí)際應(yīng)用中產(chǎn)生頻率較低,且隨著訓(xùn)練集樣本的豐富由此對(duì)目標(biāo)檢測(cè)造成的影響可以忽略不計(jì).

      3.3.2 目標(biāo)檢測(cè)的定量分析

      在使用YOLOv3 和YOLOv3-MobileNetv2 分別訓(xùn)練熱紅外圖像、顯著圖和通過(guò)不同的融合技術(shù)增強(qiáng)的熱紅外圖像之后,接下來(lái)對(duì)檢測(cè)結(jié)果進(jìn)行性能評(píng)估.經(jīng)過(guò)比較可以發(fā)現(xiàn),顯著圖對(duì)行人及車輛檢測(cè)精度的提升有明顯效果,而YOLOv3-Mobile-Netv2 網(wǎng)絡(luò)則顯著提高了模型的檢測(cè)速度.表1 中總結(jié)了本文所提算法的檢測(cè)性能,下一節(jié)將對(duì)一些重要的結(jié)果做進(jìn)一步的分析.

      3.3.2.1 使用YOLOv3 作為檢測(cè)網(wǎng)絡(luò)

      1)只使用熱紅外圖像.首先使用YOLOv3 訓(xùn)練熱紅外圖像作為檢測(cè)基準(zhǔn),模型大小為235 MB.實(shí)驗(yàn)結(jié)果表明行人及車輛的AP 值分別為83.6%和87.3%,檢測(cè)幀率為20 幀/s.從實(shí)驗(yàn)結(jié)果中不難看出,受限于無(wú)人機(jī)場(chǎng)景下內(nèi)存不足、算力有限的特點(diǎn),現(xiàn)有的YOLOv3 算法無(wú)論是模型尺寸還是檢測(cè)速度、識(shí)別準(zhǔn)確度都無(wú)法滿足實(shí)際應(yīng)用的需要,由此證實(shí)了采用顯著圖融合增強(qiáng)熱紅外圖像以及使用MobileNetv2 改進(jìn)YOLOv3 算法的必要性.此外,由于場(chǎng)景中溫度差別較大,熱紅外圖像中車輛的成像效果比行人更好,這也是造成行人及車輛AP 值差異的深層次原因.

      2)只使用顯著圖.只使用顯著圖進(jìn)行行人及車輛檢測(cè),其AP 值分別為77.1%和82.0%,相較于基準(zhǔn)下降了6.5%和5.3%,檢測(cè)幀率為21 幀/s.此外,實(shí)驗(yàn)中發(fā)現(xiàn)該方法導(dǎo)致了大量的誤檢和漏檢,影響了精度.這表明,雖然顯著圖具有一定的應(yīng)用潛力,但是它作為二值圖像,只是突出了圖像中的顯著物體,并不具備任何紋理特征,一方面使得深度卷積神經(jīng)網(wǎng)絡(luò)無(wú)法在圖像中獲取豐富的信息進(jìn)行目標(biāo)位置、大小和類別的判斷;另一方面容易造成形狀大小相似的物體被錯(cuò)誤檢測(cè)為同一類目標(biāo).尤其是當(dāng)數(shù)據(jù)樣本不足時(shí),提取顯著圖的誤差與目標(biāo)檢測(cè)的誤差累加,將造成檢測(cè)精度的大幅下降.因此僅僅使用顯著圖來(lái)完成目標(biāo)檢測(cè)的任務(wù)往往達(dá)不到理想的精度要求.

      3)使用顯著圖增強(qiáng)的熱紅外圖像.本文設(shè)計(jì)了兩種方案來(lái)完成熱紅外圖像與顯著圖的融合增強(qiáng).實(shí)驗(yàn)結(jié)果表明,方案1 中使用顯著圖替換熱紅外圖像的R 通道后,行人及車輛的AP 值為92.7%和93.2%,分別比基準(zhǔn)提高了9.1%和5.9%,檢測(cè)幀率為20 幀/s.使用顯著圖替換熱紅外圖像的G 通道后,行人及車輛的AP 值為93.8%和95.6%,分別比基準(zhǔn)提高了10.2%和8.3%,檢測(cè)幀率為18 幀/s.使用顯著圖替換熱紅外圖像的B 通道后,行人及車輛的AP 值為90.5%和97.2%,分別比基準(zhǔn)提高了6.9%和9.9%,檢測(cè)幀率為19 幀/s.方案2 中將熱紅外圖像與顯著圖進(jìn)行0.5 比例的像素級(jí)加權(quán)融合后,行人及車輛的AP 值為94.4%和97.8%,分別比基準(zhǔn)提高了10.8%和10.5%,檢測(cè)幀率為20 幀/s.更直觀的比較如圖7(a)所示.

      圖7 不同檢測(cè)模型的平均精確度比較Fig.7 Comparison of average precisions of different detection models

      這些提升可以用圖8 中的可視化示例來(lái)解釋,圖8 中,使用顯著圖增強(qiáng)后的熱紅外圖像突出了場(chǎng)景中的行人和車輛,幫助檢測(cè)器在低對(duì)比度的情況下識(shí)別目標(biāo).此外,不難看出,使用像素級(jí)加權(quán)融合的方案要優(yōu)于圖像通道替換方案,這是因?yàn)閳D像通道替換過(guò)程中損失了部分有用的像素信息,破壞了圖像原來(lái)的結(jié)構(gòu).而像素級(jí)加權(quán)融合是在保留熱紅外圖像和顯著圖通道結(jié)構(gòu)的基礎(chǔ)上,對(duì)行人和車輛區(qū)域進(jìn)行增強(qiáng),對(duì)非目標(biāo)的背景區(qū)域進(jìn)行抑制.同時(shí),由于輸入圖像尺寸沒(méi)有發(fā)生變化,因此兩種方案中檢測(cè)幀率都與基準(zhǔn)大致相同.

      圖8 行人及車輛檢測(cè)示例(1~3 列為行人,4、5 列為車輛)((a)原始熱紅外圖像+YOLOv3;(b)原始熱紅外圖像+YOLOv3-MobileNetv2;(c)顯著圖+YOLOv3-MobileNetv2;(d)~(f)分別是使用顯著圖替換熱紅外圖像R、G、B 通道+YOLOv3-MobileNetv2;(g)熱紅外圖像與顯著圖進(jìn)行像素級(jí)直接融合+YOLOv3-MobileNetv2)Fig.8 Sample results from pedestrian detection on images 1~3 and vehicle detection on images 4 and 5 from methods:((a)Thermal images + YOLOv3;(b)Thermal images + YOLOv3-MobileNetv2;(c)Saliency maps + YOLOv3-MobileNetv2;(d)~(f)represent replacing one of R,G,and B channel of thermal images by saliency maps + YOLOv3-MobileNetv2;(g)Direct fusion of saliency maps and thermal images at pixel-level + YOLOv3-MobileNetv2)

      3.3.2.2 使用YOLOv3-MobileNetv2 作為檢測(cè)網(wǎng)絡(luò)

      實(shí)驗(yàn)結(jié)果表明,改用YOLOv3-MobileNetv2 網(wǎng)絡(luò)后,在保持平均精確度不發(fā)生明顯變化的同時(shí)大幅提高了模型的檢測(cè)速度,而網(wǎng)絡(luò)模型的大小得到了極大的精簡(jiǎn).這是因?yàn)閅OLOv3-MobileNetv2 沿用了YOLOv3 多尺度預(yù)測(cè)、預(yù)測(cè)邊框偏移量而不是直接預(yù)測(cè)邊框的大小和位置、采用多重標(biāo)簽分類等優(yōu)點(diǎn),以輕量化卷積替代原先數(shù)量多、參數(shù)量大的標(biāo)準(zhǔn)卷積,從而取得速度、精度、模型大小的平衡.在綜合性能表現(xiàn)最好的像素級(jí)加權(quán)融合方案上,行人及車輛的AP 值為90.3%和93.0%,相較于未改進(jìn)的YOLOv3 網(wǎng)絡(luò)訓(xùn)練熱紅外圖像的檢測(cè)基準(zhǔn)分別提升了6.7%和5.7%,而檢測(cè)幀率則由20 幀/s變?yōu)?2 幀/s,提升了60%,模型大小由235 MB 變?yōu)?7 MB,減小了58%.其他各項(xiàng)方案的AP 值及幀率、模型大小變化如表1 和圖7(b)所示.

      3.3.3 融合顯著圖的目標(biāo)檢測(cè)分析

      圖8 給出了使用上述技術(shù)在不同設(shè)置下對(duì)5 組圖像的檢測(cè)結(jié)果.通過(guò)圖8(a)與圖8(b)的比較,可以看出YOLOv3-MobileNetv2 在檢測(cè)精度上與YOLOv3相近.由圖8 可以看到,用于圖像增強(qiáng)的顯著圖8(c)-1 和圖8(c)-4 有助于捕獲原始熱紅外圖像圖8(b)-1 和圖8(b)-4 中出現(xiàn)的行人及車輛的漏檢,這顯示出顯著圖應(yīng)用于復(fù)雜場(chǎng)景中目標(biāo)檢測(cè)的潛力.在融合了熱紅外圖像之后,圖8(c)-2 中漏檢的行人在圖8(d)-2、圖8(e)-2 和圖8(g)-2 中被成功捕獲.在這里需要注意的是,使用顯著圖替換熱紅外圖像B 通道的圖8(f)-2 依然沒(méi)有檢測(cè)到行人,表明此方法在行人檢測(cè)性能上略低于其他方法,這與在表1 中得到的結(jié)果是一致的.使用顯著圖分別替換熱紅外圖像三個(gè)通道后顯著物體在圖像中的對(duì)比度及顯著程度是不同的,這也是造成檢測(cè)結(jié)果出現(xiàn)些許差異的深層次原因.利用圖8(b)-5 中的熱紅外圖像信息,圖8(c)-5 中漏檢的車輛在圖8(d)-5~8(g)-5 中均被成功捕獲.以上結(jié)果顯示出熱紅外圖像與顯著圖之間的互補(bǔ)性,從而證明了本文關(guān)于融合顯著圖提高熱紅外圖像目標(biāo)檢測(cè)精度的假設(shè).

      在圖8(c)-3 中,可以看到顯著圖中最左邊的行人被誤檢為車輛,而圖8(b)-3 中的熱紅外圖像中很少發(fā)生這種誤檢.因此,將熱紅外圖像與顯著圖結(jié)合后,檢測(cè)器能夠排除這種錯(cuò)誤.在圖8(b)-3 中,由于與周圍環(huán)境溫度相近,熱紅外圖像中沒(méi)有檢測(cè)出最下方的行人,而圖8(c)-3 中的顯著圖很好地突出了這個(gè)區(qū)域,幫助檢測(cè)器將其成功捕獲(參見(jiàn)圖8(d)-3~8(g)-3).尤其需要關(guān)注的是,無(wú)論是熱紅外圖像(圖8(b)-3)還是顯著圖像(圖8(c)-3),都將左起第二處區(qū)域中兩個(gè)相互重疊的行人檢測(cè)為同一個(gè)人,而通過(guò)將兩種圖像融合增強(qiáng)后,在圖8(d)-3、圖8(f)-3 和圖8(g)-3 中成功地將這兩個(gè)行人分別檢測(cè)出來(lái),表明熱紅外圖像與顯著圖的結(jié)合大大提高了重疊目標(biāo)的檢測(cè)性能.

      4 結(jié)論

      面向行人和車輛兩類典型目標(biāo),本文利用無(wú)人機(jī)平臺(tái)采集制作熱紅圖像數(shù)據(jù)集,并對(duì)其進(jìn)行邊界框標(biāo)注和像素級(jí)標(biāo)注.利用深度學(xué)習(xí)的方法,提取熱紅外圖像的顯著圖.將熱紅外圖像與提取的顯著圖進(jìn)行結(jié)合,通過(guò)通道替換以及像素級(jí)加權(quán)等多種圖像融合方案,在熱紅外圖像輸入目標(biāo)檢測(cè)的深度神經(jīng)網(wǎng)絡(luò)之前進(jìn)行圖像增強(qiáng).融合圖像為行人及車輛檢測(cè)模型提供互補(bǔ)信息,從而顯著提高目標(biāo)檢測(cè)的性能.此外,通過(guò)使用輕量化網(wǎng)絡(luò)YOLOv3-MobileNetv2 替代原先的檢測(cè)網(wǎng)絡(luò),在保持平均精確度基本不變的前提下,提升了模型的檢測(cè)速度,降低了模型的尺寸,使其可以更好地應(yīng)用于無(wú)人機(jī)場(chǎng)景下的行人及車輛檢測(cè).

      猜你喜歡
      行人紅外像素
      趙運(yùn)哲作品
      藝術(shù)家(2023年8期)2023-11-02 02:05:28
      像素前線之“幻影”2000
      網(wǎng)紅外賣
      閃亮的中國(guó)紅外『芯』
      金橋(2021年4期)2021-05-21 08:19:20
      毒舌出沒(méi),行人避讓
      意林(2021年5期)2021-04-18 12:21:17
      “像素”仙人掌
      TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應(yīng)用
      電子制作(2019年7期)2019-04-25 13:17:14
      路不為尋找者而設(shè)
      我是行人
      基于快速遞推模糊2-劃分熵圖割的紅外圖像分割
      嘉荫县| 鄂伦春自治旗| 通河县| 温宿县| 内江市| 彭州市| 扶余县| 广南县| 威信县| 永和县| 石嘴山市| 樟树市| 逊克县| 蕲春县| 台山市| 阿拉善左旗| 澄迈县| 玛沁县| 宁波市| 冷水江市| 石景山区| 香格里拉县| 和平县| 获嘉县| 哈尔滨市| 石家庄市| 仪征市| 资溪县| 东平县| 定西市| 城固县| 清水河县| 安乡县| 沙湾县| 乌拉特中旗| 安国市| 许昌县| 临安市| 襄樊市| 泉州市| 武宁县|