張 睿,李允臣,王家寶,李 陽,苗 壯
(陸軍工程大學 指揮控制工程學院,江蘇 南京 210007)
目標檢測是指獲得圖像或視頻中物體的位置坐標,并判斷其類別。紅外目標檢測是目標檢測的一個重要分支,在自動駕駛、安防監(jiān)控、軍事偵察等領(lǐng)域都有廣泛的應用。尤其是在軍事領(lǐng)域,紅外目標檢測可用于對武裝人員、軍事車輛等各類目標進行偵察監(jiān)視,有著非常重要的軍事價值。
2014年以來,基于深度學習的目標檢測算法通過構(gòu)建復雜的神經(jīng)網(wǎng)絡,并運用反向傳播算法更新網(wǎng)絡參數(shù),自動高效地提取物體的復雜特征,在目標檢測領(lǐng)域取得了巨大成功。基于深度學習的目標檢測算法通??煞譃閮呻A段目標檢測算法和單階段目標檢測算法。兩階段目標檢測的代表算法主要有R-CNN(Region-based Convolutional Neural Network)系列,包括:R-CNN[1]、Fast R-CNN[2]、Faster R-CNN[3]、FPN[4]、Cascade R-CNN[5]等。其檢測流程為先將圖像輸入神經(jīng)網(wǎng)絡提取特征,再采用一定算法生成大量候選區(qū)域并篩選,然后對篩選的區(qū)域內(nèi)可能包含的目標進行分類和定位,如圖1(a)所示。兩階段檢測算法精度較高,但速度較慢。為了提高檢測速度,出現(xiàn)了以YOLO(You Only Look Once)系列[6-13]和SSD(Single Shot multi-box Detector)系列[14-15]為代表的單階段目標檢測算法。單階段目標檢測算法省去了候選區(qū)域生成階段,用神經(jīng)網(wǎng)絡對圖像提取特征后,直接通過回歸分析得到目標的類別和位置坐標,如圖1(b)所示。單階段目標檢測算法精度雖然略低于兩階段目標檢測算法,但具有明顯的速度優(yōu)勢,可進行實時檢測。
(a)兩階段目標檢測算法
(b)單階段目標檢測算法圖1 基于深度學習的目標檢測算法
上述深度學習算法最初均應用于可見光領(lǐng)域。近年來,人們開始將深度學習算法引入紅外目標檢測領(lǐng)域,并取得了不少成果。雖然在可見光目標檢測領(lǐng)域,已有較多文章對深度學習目標檢測算法進行了系統(tǒng)綜述,但在紅外目標檢測領(lǐng)域,相關(guān)綜述還比較缺乏。因此,該文主要圍繞針對紅外目標的深度學習檢測算法研究進展進行綜述,以促進紅外目標檢測技術(shù)的發(fā)展。
紅外圖像是由紅外成像設備通過測量物體向外輻射的熱紅外線得到的,與可見光圖像的成像原理差異較大。受紅外圖像的成像機制影響,紅外目標檢測面臨的困難和挑戰(zhàn)主要有五個方面:
(1)數(shù)據(jù)集資源缺乏。由于紅外成像設備價格較為昂貴,且紅外圖像數(shù)據(jù)集大多用于特殊領(lǐng)域,導致研究者可獲取的紅外圖像數(shù)據(jù)集資源較少。近年來,雖然有一些紅外目標檢測數(shù)據(jù)集公開發(fā)布,但數(shù)據(jù)規(guī)模與可見光數(shù)據(jù)集相比,差距還很大。
(2)背景干擾大。在城市環(huán)境中,背景熱源多,紅外目標與背景熱源難以區(qū)分,而在野外環(huán)境中,樹木植被的紅外影像較為雜亂,紅外目標的形狀輪廓等特征易被破壞,紅外目標很容易淹沒在背景中而難以辨別。
(3)圖像分辨率低??梢姽獬上裨O備大多采用高清攝像頭,拍攝的可見光圖像分辨率較高。而紅外圖像的分辨率一般在640×512像素甚至更低,導致紅外目標的像素分辨率較低,占有的像素面積小,可利用的目標特征少。
(4)紋理細節(jié)不足。由于紅外圖像類似于灰度圖,缺乏顏色信息,且物體的溫度分布大多是漸變的,導致紅外目標紋理細節(jié)信息不足,成像較模糊。
(5)弱小目標檢測難。在高空或遠距離拍攝條件下,紅外目標尺寸非常小,有時呈現(xiàn)為點狀或斑點狀,不僅缺乏顏色、紋理信息,還缺乏形狀信息,特征信息極少,導致漏檢及虛警率較高。
基于深度學習的目標檢測算法在誕生之初主要用于可見光目標檢測,而紅外目標與可見光目標成像差異較大,因此,相應的深度學習檢測算法并不完全適用。所以,在將可見光領(lǐng)域深度學習目標檢測算法用于紅外目標檢測時,應針對紅外數(shù)據(jù)集和紅外目標特點進行改進。
深度學習方法高度依賴大規(guī)模數(shù)據(jù)集,而紅外數(shù)據(jù)集規(guī)模一般較小,可供訓練的目標樣本少。對此,可進行數(shù)據(jù)增強處理,通過水平/垂直翻轉(zhuǎn)、旋轉(zhuǎn)、縮放、隨機裁剪、改變對比度、增加噪聲干擾、圖像混合和利用GAN生成偽紅外圖像等方法,設法增加圖像數(shù)量和目標樣本數(shù)量。
趙曉楓等[16]、Zhang X X等[17]在自建的小規(guī)模紅外目標數(shù)據(jù)集上,采用旋轉(zhuǎn)、裁剪、改變對比度等方法來擴充樣本數(shù)量。李北明等[18]則引入Mosaic和Copy-paste兩種方法進行數(shù)據(jù)增強。Mosaic數(shù)據(jù)增強是使用多張圖片經(jīng)過隨機裁剪、縮放,拼接在一起,Copy-paste數(shù)據(jù)增強則是將原圖中的目標經(jīng)過隨機尺度的縮放后,重新粘貼到圖像的任意位置,兩種方法均可有效增加訓練樣本數(shù)量。吳晗等[19]則嘗試使用CycleGAN通過風格遷移生成偽紅外圖像,并在CycleGAN中添加了通道和空間注意力,從而實現(xiàn)了紅外數(shù)據(jù)樣本的有效擴充。但基于GAN的圖像生成方法,還存在模型崩塌的問題,訓練較為困難,且生成的偽紅外圖像與真實紅外圖像存在一定差異。
數(shù)據(jù)增強的方法雖然可提升網(wǎng)絡模型的泛化能力和魯棒性,但可能改變數(shù)據(jù)的真實分布,引入數(shù)據(jù)噪聲,造成目標的誤檢。
對于規(guī)模較小的紅外數(shù)據(jù)集,即使經(jīng)過數(shù)據(jù)增強,可能仍然無法滿足復雜的神經(jīng)網(wǎng)絡對大量訓練數(shù)據(jù)的需求。對此,可采用遷移學習的方法來進一步彌補訓練數(shù)據(jù)的不足,提高模型的泛化能力和檢測精度。
遷移學習是將其他領(lǐng)域的知識轉(zhuǎn)移到新的領(lǐng)域的一種方法。通過將模型在大規(guī)模的數(shù)據(jù)集上預訓練,使模型具備一定的先驗知識,而后將預訓練模型在其他領(lǐng)域的數(shù)據(jù)集上進行再學習,進一步調(diào)整網(wǎng)絡參數(shù)達到最優(yōu),即可使模型適應新的任務。Zhang X X等先在大規(guī)模的航拍可見光車輛數(shù)據(jù)集上進行預訓練,然后將預訓練模型在航拍紅外車輛數(shù)據(jù)集上進行再訓練。由于所利用的數(shù)據(jù)均為航拍車輛數(shù)據(jù),目標相似度較高,取得了較好的檢測效果。王悅行等[20]利用計算機仿真生成大量的邊緣、輪廓、紋理等特征相似的仿真紅外艦船,然后利用特征自適應遷移學習方法,實現(xiàn)從仿真紅外艦船到真實紅外艦船的跨域知識遷移。李維鵬等[21]在利用大規(guī)模的可見光數(shù)據(jù)集預訓練的基礎上,還進一步利用大量的未標注紅外圖像對網(wǎng)絡進行半監(jiān)督學習調(diào)優(yōu),并提出了特征相似度加權(quán)的偽監(jiān)督損失函數(shù),從而更充分地利用了未標注紅外圖像數(shù)據(jù)。
遷移學習的方法能夠利用其他領(lǐng)域的數(shù)據(jù),輔助提升模型在紅外領(lǐng)域的檢測性能。但在將其他領(lǐng)域的數(shù)據(jù)知識遷移到紅外領(lǐng)域時,需要考慮跨域知識的匹配問題,否則,可能將錯誤的知識引入模型,給模型帶來不確定性。
針對紅外目標特征較弱且背景干擾大的問題,引入視覺注意力機制,可較好抑制背景噪聲干擾。同時,注意力機制還能在一定程度上彌補數(shù)據(jù)樣本的不足,即使只有少量的數(shù)據(jù)樣本,也能提取到有效的紅外目標特征。
人類視覺在觀察整幅圖像時,會將注意力聚焦于某些關(guān)鍵目標區(qū)域,而忽略大部分背景區(qū)域。深度學習中的注意力機制通過模仿人類視覺,將重要的通道或位置區(qū)域賦予更大的權(quán)重,從而獲得通道或空間位置注意力,相關(guān)注意力模塊如圖2所示。
Hu J等[22]提出SE(Squeeze and Excitation)注意力模塊,也稱通道注意力模塊,如圖2(a)所示。其通過全局平均池化將特征圖壓縮,并通過全連接層和激活函數(shù)學習得到不同特征通道的權(quán)重,再對各通道加權(quán),從而增強有效通道的信息。李向榮等[23]在YOLOv4的特征金字塔融合過程中加入SE模塊,來增加有效特征通道的融合比重。代牮等[24]則在YOLOv5的骨干網(wǎng)中添加SE模塊,在特征提取過程中抑制森林等復雜背景對紅外弱小目標的干擾。
SE注意力模塊只考慮了通道的重要程度,沒有考慮空間位置的重要程度,而位置信息是捕獲目標結(jié)構(gòu)的關(guān)鍵。Woo S等[25]提出CBAM模塊(Convolutional Block Attention Module),如圖2(b)所示。其在通道注意力中增加了一個并行的最大池化層,進一步增強了通道注意力,而后在通道維度進行最大池化和平均池化壓縮,從而獲得空間注意力信息。陳皋等[26]在YOLOv3骨干網(wǎng)DarkNet-53中加入CBAM模塊,在僅使用小規(guī)模紅外數(shù)據(jù)集訓練的情況下,檢測精度超過了大規(guī)模數(shù)據(jù)預訓練的模型。Du S J等[27]將CBAM中的7×7普通卷積改為空洞卷積,設計了Dilated CBAM,減少了對目標紋理細節(jié)的依賴。
(a)SE注意力模塊 (b)CBAM注意力模塊 (c)CA注意力模塊
Hou Q B等[28]認為CBAM模塊無法獲得長程依賴關(guān)系,于是將通道注意力分解為水平和垂直注意力,并沿兩個方向獲取特征圖的遠程依賴關(guān)系,將空間坐標信息整合到通道注意力中,得到坐標注意力(Coordinate Attention)。胡焱等[29]在YOLOv5s中特征信息豐富的Dark5階段引入坐標注意力模塊,對低分辨率的紅外行人目標檢測取得較好效果。
除以上注意力機制外,楊其利等[30]模仿人類視覺,采用滑動窗口對圖像進行掃描采樣,以緩解弱小點狀紅外目標檢測中的正負樣本不平衡問題。楊子軒等[31]提出解耦注意力機制(Factor Decoupled Attention),其先通過分子因解機獲取全局通道注意力,再通過局部平均池化和局部最大池化獲取更細粒度的局部注意力,最后通過多尺度卷積獲取不同感受野的空間注意力。FDA方法通過將全局和局部注意力機制融合,對紅外弱小目標檢測效果較好。
相關(guān)注意力模塊可靈活嵌入網(wǎng)絡模型中,對提升模型性能有較好效果,而且其參數(shù)量和計算量成本也不大,性價比較高。但在模型不同位置,注意力模塊帶來的性能提升并不相同,有時效果提升并不明顯,還可能降低檢測速度。
由于紅外圖像本身分辨率低,紅外弱小目標特征少,而且神經(jīng)網(wǎng)絡在提取特征的過程中,還會對圖像不斷進行下采樣處理,導致目標信息出現(xiàn)丟失,給紅外弱小目標檢測帶來不利影響。對此,采用多尺度特征融合的方法,可以有效增強紅外弱小目標的特征,提高對弱小紅外目標的檢測精度。
多尺度特征融合方法可分為兩類:一是將網(wǎng)絡模型不同層次的多尺度特征圖進行融合。在深度神經(jīng)網(wǎng)絡中,深層次的特征圖包含豐富的全局語義信息,而淺層次的特征圖包含豐富的局部細節(jié)信息。通過將深層與淺層的特征圖融合,可兼顧獲取目標的全局語義信息和局部細節(jié)信息。二是在網(wǎng)絡同一層次中構(gòu)建具有多感受野的多分支結(jié)構(gòu),提取目標的不同尺度的局部特征,然后將多尺度特征進行融合,從而更全面地捕獲目標特征。
圖3 特征金字塔網(wǎng)絡
圖4 路徑聚合金字塔
Lin T Y等提出特征金字塔網(wǎng)絡FPN(Feature Pyramid Network),如圖3所示。其將深層特征圖自上而下逐層上采樣后與淺層特征圖融合,并在高分辨率的淺層特征圖上檢測小目標,有效提高了小目標的檢測精度。Liu S等[32]提出路徑聚合網(wǎng)絡PANet(Path Aggregation Network),其在FPN自上而下融合的基礎上,增加了自下而上的融合路徑,將底層的細節(jié)位置信息進一步傳至上層特征圖。YOLOv4借鑒PANet結(jié)構(gòu),設計了PAFPN(Path Aggregation Feature Pyramid Network)結(jié)構(gòu),如圖4所示。劉楊帆等[33]、林健等[34]進一步將金字塔層數(shù)擴展為4層,以檢測紅外弱小目標。舒朗等[35]將特征金字塔中的殘差連接改為DenseNet式的密集連接,以保留更豐富的特征信息。朱子健等[36]則將特征金字塔的上采樣操作改為反卷積,以更好地還原紅外弱小目標的細節(jié)特征。盛大俊等[37]針對紅外裝甲車輛邊緣輪廓較清晰的特點,設計了語義特征提取模塊、上下文聚合模塊、邊緣感知融合模塊,對特征金字塔的多尺度特征進一步融合,以提取裝甲車輛的輪廓細節(jié)信息和邊緣語義信息。
Liu S T等[38]通過采用不同尺寸的卷積核和不同膨脹系數(shù)的空洞卷積構(gòu)成多分支結(jié)構(gòu),提出感受野網(wǎng)絡RFBNet(Receptive Field Block Net),如圖5所示,有效增強了網(wǎng)絡的特征提取能力。顧燕等[39]在Faster R-CNN骨干網(wǎng)中使用膨脹系數(shù)為1、2、3的空洞卷積,從而獲得3×3、5×5、7×7三種不同大小的感受野。朱子健等在YOLOv3骨干網(wǎng)的殘差模塊中并行添加一個3×3最大池化分支和一個1×1卷積分支,提出了PaRNet(Parallel Residual Network)。蔣昕昊等[40]則在特征金字塔融合之后引入RFB模塊,并減少膨脹系數(shù),以適應紅外弱小目標檢測任務。高凡等[41]則借鑒Inception網(wǎng)絡的多分支結(jié)構(gòu),設計了PMFPSNet(Parallel Multi Feature Path Network)。樓哲航等[42]將YOLOX的骨干網(wǎng)改為Swin Transformer,以獲取全局感受野特征,并在頸部和檢測頭采用卷積模塊提取局部特征,通過融合全局和局部特征,對紅外小目標檢測取得較好效果。
圖5 感受野網(wǎng)絡
多尺度特征融合的方法,雖然能夠有效增強紅外弱小目標特征,提高檢測精度,但多層金字塔結(jié)構(gòu)和多分支結(jié)構(gòu)都會增加模型的參數(shù)量和計算量,降低訓練和推理速度。
紅外目標受紅外成像機制的制約,其本身的特征信息不足。對此,通過融合可見光圖像或其他模態(tài)圖像,利用不同模態(tài)圖像的互補信息增強紅外目標的特征,可使紅外目標檢測更加準確可靠。
圖6 雙分支融合檢測網(wǎng)絡
Geng K K等[43]基于Faster R-CNN進行改進,設計了一個由紅外分支和可見光分支組成的雙分支融合檢測網(wǎng)絡,如圖6所示。其采取特征級的融合方式,將兩種模態(tài)圖像的特征圖拼接后,通過卷積模塊融合,有效提高了低辨識度條件下的紅外目標檢測精度。Liu J Y等[44]采用基于GAN的方法,設計了一個目標感知對抗學習網(wǎng)絡(TarDAL Network),實現(xiàn)了對紅外與可見光圖像的自適應融合。該網(wǎng)絡由一個生成器、兩個目標感知鑒別器以及YOLOv5檢測網(wǎng)絡組成。其中,生成器用于對紅外與可見光圖像融合,兩個鑒別器分別用來鑒別紅外圖像的目標信息和可見光圖像的紋理信息,實現(xiàn)了紅外特征和可見光特征的自適應融合。Sun Y M等[45]基于Faster R-CNN提出了一個由可見光分支、紅外分支和融合分支組成的三分支檢測網(wǎng)絡UA-CMDet。其同時采用特征融合和決策結(jié)果融合的方法,同時利用單模態(tài)分支和特征融合分支進行檢測,并根據(jù)檢測結(jié)果進行聯(lián)合決策,取得了最優(yōu)效果。趙明等[46]則采用基于CycleGAN的方法,先利用紅外圖像生成偽可見光圖像,再對紅外和偽可見光圖像分別提取特征,并構(gòu)建特征金字塔,而后對特征金字塔進行加權(quán)融合,在自動駕駛紅外目標檢測上取得了較好效果。趙興科等[47]則利用BASNet生成紅外圖像的顯著圖,再將顯著圖與紅外圖像融合。由于顯著圖有較清晰的邊界,融合后的圖像使紅外目標更加清晰,對復雜背景環(huán)境下的紅外目標檢測效果較好。
多模態(tài)圖像融合的方法,能夠有效彌補紅外圖像特征信息的不足,但成對的多模態(tài)數(shù)據(jù)集的采集、篩選、標注等工作量大,數(shù)據(jù)資源獲取成本較高。同時,多模態(tài)圖像融合檢測網(wǎng)絡一般由多個單模態(tài)檢測網(wǎng)絡構(gòu)成,整體參數(shù)量和計算量較大,檢測速度較慢,在實際應用時存在一定局限性。
深度神經(jīng)網(wǎng)絡雖然性能優(yōu)異,但其模型復雜,參數(shù)量、計算量大。為了將紅外目標檢測模型部署在資源受限的移動端,就必須對模型進行輕量化改進。目前,研究者主要是借鑒MobileNet[48]、EfficientNet[49]、GhostNet[50]等輕量級網(wǎng)絡的設計方法,設法減少網(wǎng)絡深度和模型大小。
針對航拍紅外車輛實時檢測任務,Liu X F等[51]基于YOLOv3進行改進,除最大池化下采樣層外,Dark 1/2/3/4只保留1層卷積,Dark 5保留5層卷積,將53層的DarkNet壓縮為只有15層的極簡模型。秦鵬等[52]用EfficientNet代替YOLOv3骨干網(wǎng),提出Effi-YOLOv3模型,其在FLIR數(shù)據(jù)集上的檢測精度超過了YOLOv3,而參數(shù)量僅為YOLOv3的1/3。李北明等則用GhostNet代替YOLOv5的骨干網(wǎng),并運用特征知識蒸餾的方法,使用Scaled-YOLOv4[53]指導該網(wǎng)絡學習。其僅有1.9 M的參數(shù)量,但在紅外數(shù)據(jù)集上的精度和速度都超過了YOLOv5-s模型。趙興科等借鑒MobileNetv2網(wǎng)絡,提出了輕量的YOLOv3-MobileNetv2模型。
目前,相關(guān)輕量化改進方法雖然減小了模型規(guī)模,提高了檢測速度,但在模型精度和泛化能力上,與大模型仍有一定差距。
現(xiàn)有的目標檢測數(shù)據(jù)集多為可見光圖像數(shù)據(jù)集,例如PASCAL VOC數(shù)據(jù)集、MS-COCO數(shù)據(jù)集、UA-DETRAC數(shù)據(jù)集等,而紅外數(shù)據(jù)集資源相對較少,制約了紅外目標檢測的研究開展。為便于其他研究者開展研究,現(xiàn)將可公開獲取的紅外目標檢測數(shù)據(jù)集資源梳理匯總?cè)缦?如表1所示。
(1)OSU Thermal Pedestrian Database[54]:是美國俄亥俄州立大學制作的道路監(jiān)控紅外行人檢測數(shù)據(jù)集。
(2)VEDAI[55]:是衛(wèi)星航拍目標檢測數(shù)據(jù)集,提供了512×512和1 024×1 024兩種分辨率的圖像。
(3)KAIST[56]:是韓國科學技術(shù)高級研究院下屬實驗室制作的自動駕駛紅外行人檢測數(shù)據(jù)集。
(4)CVC-14[57]:是西班牙巴塞羅那自治大學發(fā)布的道路紅外行人檢測數(shù)據(jù)集。
(5)SCUT FIR Pedestrian Dataset[58]:是由華南理工大學制作的夜間道路行人檢測數(shù)據(jù)集。
(6)FLIR ADAS:是由生產(chǎn)紅外熱成像儀系統(tǒng)的FLIR SYSTEMS公司制作的夜間道路紅外目標數(shù)據(jù)集。
(7)NPU_CS_UAV[51]:是西北工業(yè)大學制作的無人機航拍車輛檢測數(shù)據(jù)集。
(8)LLVIP[59]:是北京郵電大學制作的微弱光線條件下的道路行人檢測數(shù)據(jù)集。
(9)Dim-small Aircraft[60]:是國防科技大學制作的小型無人機目標檢測數(shù)據(jù)集。
(10)DroneVehicle[45]:是天津大學制作的無人機航拍車輛檢測數(shù)據(jù)集。
(11)M3FD[44]:是大連理工大學制作的自動駕駛道路目標檢測數(shù)據(jù)集。
基于深度學習的紅外目標檢測研究雖取得一定進展,但距離滿足人們需求仍有差距,未來還有很大的發(fā)展空間。結(jié)合當前發(fā)展現(xiàn)狀,就未來發(fā)展方向展望如下:
深度學習的發(fā)展高度依賴大規(guī)模數(shù)據(jù)集,而目前公開的紅外目標檢測數(shù)據(jù)集規(guī)模還比較小,且種類較少,與可見光領(lǐng)域相比差距還很大,難以支持大型模型的學習訓練。因此,從紅外目標檢測的長遠發(fā)展來看,建立紅外目標檢測的大規(guī)模數(shù)據(jù)集基準是必不可少的基礎性工作,尤其是在自動駕駛、視頻監(jiān)控、軍事偵察等重要應用領(lǐng)域。
在軍事等某些特殊領(lǐng)域,獲取紅外圖像的難度較大,可供訓練的數(shù)據(jù)樣本比較有限,采用遷移學習的方法可有效彌補數(shù)據(jù)的不足。但不同領(lǐng)域的數(shù)據(jù)通常有不同的域知識,如何實現(xiàn)跨域的知識遷移是遷移學習面臨的重要問題。因此,尋找不同數(shù)據(jù)域之間的某些共同特征,以及不同域知識自適應遷移的方法,將是未來應用遷移學習的關(guān)鍵。
多模態(tài)圖像融合的紅外目標檢測方法,可有效提高目標檢測的準確性和魯棒性,也是未來的一個重要發(fā)展方向。未來可關(guān)注以下幾個方面:(1)多模態(tài)圖像的跨域自適應融合??梢姽鈭D像雖然可以為紅外圖像提供互補信息,但當可見光圖像質(zhì)量較差時,如果盲目的融合,可能對檢測產(chǎn)生負面影響。未來可基于GAN的方法,或借鑒圖像融合領(lǐng)域的一些先進做法,探索多模態(tài)圖像的自適應融合檢測方法。(2)基于GAN的偽多模態(tài)圖像融合檢測。多模態(tài)圖像數(shù)據(jù)不僅獲取成本較高,而且在軍事等特殊領(lǐng)域,獲取目標的多模態(tài)圖像難度較大。對此,基于GAN的方法生成偽多模態(tài)圖像,而后進行融合檢測,有很大的發(fā)展?jié)摿Α?3)單分支的融合檢測網(wǎng)絡。多分支的融合檢測網(wǎng)絡,難以在移動端部署,單分支的融合檢測網(wǎng)絡在未來更有發(fā)展?jié)摿Α?/p>
在實際應用中,目標檢測模型往往需要部署在存儲及計算資源受限的邊緣終端設備上。目前,模型輕量化研究雖取得一定進展,但檢測精度較低,還有很大提升空進。因此,如何在保持較高檢測精度的前提下實現(xiàn)紅外目標檢測模型的輕量化,是未來應用部署的一個重要發(fā)展方向。對此,可借鑒可見光領(lǐng)域的輕量化改進方法,例如網(wǎng)絡剪枝、參數(shù)量化、重參數(shù)化方法、知識蒸餾等。
紅外目標檢測可適應弱光、無光、逆光等復雜光照環(huán)境,能夠有效彌補可見光目標檢測的不足,在民用、軍事的諸多領(lǐng)域都有非常重要的應用價值。該文對紅外目標檢測面臨的困難和挑戰(zhàn)進行了詳細分析,并從數(shù)據(jù)增強、遷移學習、視覺注意力機制、多尺度特征融合、多模態(tài)圖像融合和輕量化改進等方面,系統(tǒng)分析了基于深度學習的紅外目標檢測改進方向。在實際任務中,應根據(jù)任務需求和紅外數(shù)據(jù)集特點,靈活采用多種方法,以達到模型大小、精度和速度的均衡。針對紅外數(shù)據(jù)集資源獲取困難的問題,對現(xiàn)有的公開數(shù)據(jù)集資源進行了系統(tǒng)梳理匯總。最后,結(jié)合當前發(fā)展現(xiàn)狀和未來實際需求,對基于深度學習的紅外目標檢測發(fā)展方向進行了展望,可為其他研究者提供參考。