鄧天民,王 麗,劉旭慧
(重慶交通大學(xué) 交通運輸學(xué)院,重慶 400074)
行人目標(biāo)檢測作為先進(jìn)駕駛輔助系統(tǒng)和智能汽車領(lǐng)域的關(guān)鍵技術(shù)之一,是計算機視覺領(lǐng)域的研究熱點,與可見光成像相比,紅外成像不易受光照及惡劣天氣環(huán)境的影響,依靠檢測目標(biāo)和檢測背景之間的溫差和輻射頻率差進(jìn)行檢測,識別偽裝目標(biāo)能力優(yōu)于可見光成像,具有一定的真?zhèn)伪鎰e的能力,紅外成像對夜間及惡劣氣候的環(huán)境適應(yīng)性遠(yuǎn)遠(yuǎn)強于可見光成像,可以為行人檢測提供全天候的數(shù)據(jù)?;谏疃葘W(xué)習(xí)的目標(biāo)檢測方法具有強大的自適應(yīng)能力和特征提取能力,越來越多的學(xué)者開始使用深度學(xué)習(xí)的方法來檢測紅外圖像中的行人,目前,基于深度學(xué)習(xí)的紅外圖像行人檢測算法主要分為兩類:
1) 兩階段檢測算法:此類算法需要先生成預(yù)選框,然后對預(yù)選框進(jìn)行回歸和分類。典型算法有R-CNN[1]、Fast R-CNN[2]、Faster R-CNN[3]等。如車凱等[4]針對紅外圖像行人目標(biāo)細(xì)節(jié)少,提取特征的計算量大等問題,結(jié)合Fast R-CNN提出了一種自適應(yīng)的ROI區(qū)域提取算法,在保證紅外圖像行人識別準(zhǔn)確率的同時適當(dāng)減少網(wǎng)絡(luò)所生成的ROI區(qū)域的數(shù)量,大幅降低了計算量,加快了紅外圖像行人檢測的速度;然后選取3種不同尺度的先驗框計算其置信度,對結(jié)果的坐標(biāo)進(jìn)行加權(quán)。該特征融合算法較大程度提升了紅外圖像中行人檢測的可靠性和準(zhǔn)確性。兩階段檢測算法雖然準(zhǔn)確率高,但存在計算量大、運算速度慢等缺點,不能滿足紅外圖像行人檢測實時性的要求。
2) 一階段檢測算法:此類算法不生成預(yù)選框預(yù)測物體的位置與類別,典型的算法有YOLO(you only look once)系列算法[5-9]以及單擊多盒檢測器(single shot multi box detector,SSD)[10]等。一階段檢測算法提高了紅外圖像行人檢測的速度,促進(jìn)了紅外圖像行人檢測技術(shù)的發(fā)展,如Heo等[10]針對夜間拍攝的遠(yuǎn)紅外圖像中的行人檢測問題,將YOLOv2和自適應(yīng)布爾圖構(gòu)建的顯著性特征圖的先驗特征結(jié)合起來,使行人目標(biāo)具有比背景更高的顯著性,在遠(yuǎn)紅外圖像數(shù)據(jù)集上獲得了有競爭力的結(jié)果,并且檢測速度遠(yuǎn)快于其他檢測算法;王殿偉等[11]針對YOLOv3網(wǎng)絡(luò)對紅外視頻進(jìn)行行人檢測時存在漏檢率高、精度低的情況,提出了一種改進(jìn)YOLOv3的算法。首先對候選框進(jìn)行聚類分析,采用不同分辨率的圖像對訓(xùn)練過的網(wǎng)絡(luò)進(jìn)行微調(diào),并使用不同尺寸的圖像對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,通過實驗對比分析,該方法在紅外圖像行人檢測上取得了良好的效果。
針對紅外圖像行人檢測算法中復(fù)雜背景行人誤檢率高、密集行人目標(biāo)檢測精度低、遠(yuǎn)景小目標(biāo)行人漏檢等問題,以及紅外圖像行人檢測算法需要較高檢測速度的需求,本文首先結(jié)合高效通道注意力(efficient channel attention module,ECAM)[12],提出意力特征提取模塊(Attention feature extraction module,AFEM),以此來抑制無關(guān)背景信息,加強關(guān)鍵特征信息的提取;其次,結(jié)合感受野模塊(receptive field block,RFB)[13]設(shè)計了多尺度特征融合模塊,實現(xiàn)不同尺度間特征信息的高效融合,提升密集行人目標(biāo)的檢測精度;最后,增加檢測層,提取小目標(biāo)行人的關(guān)鍵信息,加強目標(biāo)檢測器對遠(yuǎn)景小目標(biāo)的特征提取能力。
本文以YOLOv5算法為基準(zhǔn),提出了基于注意力及特征融合的紅外行人檢測算法(AFFM-YOLO),通過提出的注意力特征提取模塊AFEM、多尺度特征融合模塊MFFM以及四尺度特征檢測方法來提升基準(zhǔn)模型YOLOv5在紅外行人目標(biāo)檢測任務(wù)中的表現(xiàn),AFFM-YOLO整體結(jié)構(gòu)如圖1所示,在主干網(wǎng)絡(luò)(Backbone)中融入由殘差網(wǎng)絡(luò)及高效通道注意力ECAM級聯(lián)而成的注意力特征提取模塊AFEM,能有效抑制紅外圖像中無關(guān)背景信息的干擾,提高基準(zhǔn)算法的特征提取能力和檢測效率;在Neck中嵌入多尺度特征融合模塊MFFM,MFFM中引入感受野模塊RFB,RFB具有不同尺寸卷積核以及不同空洞率的空洞卷積,將兩者進(jìn)行級聯(lián)組合,能夠有效融合不同尺度間的特征信息,獲得紅外圖像中不同尺寸的局部特征信息,同時增大路徑聚合網(wǎng)絡(luò)(path aggregation network,PAN)中模型的感受野,有效提升密集行人目標(biāo)的檢測精度;最后,改進(jìn)基線算法預(yù)測端,增加大尺度檢測層,采用4種不同尺寸的特征圖來檢測不同大小的紅外圖像行人目標(biāo),強化目標(biāo)檢測器對遠(yuǎn)景小目標(biāo)的表征能力,提高紅外遠(yuǎn)景小目標(biāo)檢測準(zhǔn)確率。
圖1 AFFM-YOLO網(wǎng)絡(luò)
特征提取網(wǎng)絡(luò)中,圖像經(jīng)過多層卷積后,提取出目標(biāo)特征位置信息與語義信息,對于復(fù)雜背景下的紅外圖像,目標(biāo)檢測器由于受到無關(guān)背景信息的干擾,即使經(jīng)過了多層卷積,也很難提取到目標(biāo)的重要特征信息。
通道注意力機制能根據(jù)學(xué)習(xí)到的注意力權(quán)重進(jìn)行加權(quán)處理,對相關(guān)性低的特征信息給予較低的權(quán)重,否則給予較高的權(quán)重,以此削弱圖像中不重要的背景信息的干擾,分離出重要信息。然而,現(xiàn)有通道注意力機制為實現(xiàn)更好的性能,大多致力于開發(fā)更復(fù)雜的注意模塊,不可避免地增加了模型的復(fù)雜度,高效通道注意力模塊ECAM能夠有效避免維度縮減,實現(xiàn)一種不降維的局部跨通道交互策略,并能自適應(yīng)地選擇一維卷積核的大小,提升性能的同時降低了模型的復(fù)雜度。紅外圖像中背景相對復(fù)雜,為更好地提取紅外圖像中行人目標(biāo)的特征信息,弱化無關(guān)背景信息的干擾,本文結(jié)合殘差網(wǎng)絡(luò)及高效通道注意力ECAM,提出了一種用于紅外圖像行人特征提取的注意力特征提取模塊AFEM,如圖2所示。
圖2 注意力特征提取模塊
注意力特征提取模塊AFEM中,輸入網(wǎng)絡(luò)的特征圖首先分為了2個分支,一個分支經(jīng)過了多個殘差結(jié)構(gòu)堆疊和2個標(biāo)準(zhǔn)卷積層,另一個僅經(jīng)過一個基本卷積模塊,將2個分支進(jìn)行concat操作,該模塊是對殘差特征進(jìn)行學(xué)習(xí)的主要模塊。在不降低維度的情況下,將過concat操作后的特征輸入ECAM中,進(jìn)行全局平均池化(global average pooling,GAP)操作,得到1×1×C的全局描述特征,增強關(guān)鍵信息的特征提取能力。在此基礎(chǔ)上,執(zhí)行大小為k的快速一維卷積Conv1d來進(jìn)行特征提取,實現(xiàn)局部跨通道交互學(xué)習(xí),并采用sigmoid函數(shù)生成每個通道的權(quán)重比,對相關(guān)性較高的特征信息賦予較高的權(quán)重,否則賦予較低的權(quán)重。最后,將原始輸入特征與通道權(quán)重結(jié)合,得到具有通道注意力的特征。以此削弱圖像中不重要的背景信息的干擾,分離出重要信息。
殘差結(jié)構(gòu)可以有效避免特征網(wǎng)絡(luò)中深度過深導(dǎo)致的梯度消散問題,結(jié)合ECAM,能夠進(jìn)一步聚焦于圖像的判別性區(qū)域,從而提升特征網(wǎng)絡(luò)的整體性能。其中k與通道維數(shù)有關(guān),表示局部跨通道交互的范圍,通道維數(shù)越大,交互的范圍就越大。通過與通道維數(shù)相關(guān)的函數(shù)自適應(yīng)確定k值,即:
(1)
式中:c表示通道數(shù);|t|odd為距離t最近的奇數(shù);γ和b為超參數(shù)。
ECA運算表示為:
(2)
路徑聚合網(wǎng)絡(luò)PAN自下向上傳遞目標(biāo)位置信息,將強位置特征從淺層傳遞到深層,使得網(wǎng)絡(luò)底層信息更容易傳遞到高層頂部,縮短了信息傳播路徑,同時利用低層特征的精準(zhǔn)定位信息,其中C3結(jié)構(gòu)由3個CBS模塊和Concat模塊構(gòu)成,增加特征圖信息,提高模型學(xué)習(xí)目標(biāo)中心位置信息的能力。人類視覺系統(tǒng)中,對于同一幅圖像的不同區(qū)域,視網(wǎng)膜的敏感程度不同,在注視區(qū)域中心,視覺敏感程度最高,在外圍區(qū)域,敏感度遠(yuǎn)低于注視中心,可以突出注視區(qū)域的信息。受人類視覺感知系統(tǒng)的啟發(fā),感受野模塊RFB考慮視覺感受野大小和偏心率之間的關(guān)系,模擬人類的視覺感知,以擴大網(wǎng)絡(luò)模型感受野,提取到網(wǎng)絡(luò)中的高判別性信息。
紅外圖像中行人目標(biāo)中心位置信息很重要,基于此,將基線算法的路徑聚合網(wǎng)絡(luò)中每個參數(shù)和最后預(yù)測的P2、P3、P4與P5特征層的C3模塊與RFB組合,構(gòu)成多尺度特征融合模塊(multi-scale feature fusion module,MFFM),MFFM如圖3所示,將C3模塊輸出特征圖輸入RFB中,RFB對特征圖進(jìn)行1×1卷積操作來減少通道數(shù),并分別進(jìn)行1×1、3×1和3×3卷積運算以模擬不同尺度的感受野,在輸入至空洞率為1、3、5的3×3空洞卷積層后,將這些不同感受野特征進(jìn)行融合,以提升紅外圖像中不同尺寸行人的細(xì)節(jié)紋理特征。最后,結(jié)合輸入特征圖與感受野擴展融合后的特征圖,輸送至網(wǎng)絡(luò)結(jié)構(gòu)的目標(biāo)預(yù)測模塊。MFFM利用不同大小感受野的卷積核捕獲特征圖中大量特征信息,以此來獲得網(wǎng)絡(luò)結(jié)構(gòu)中不同尺寸的局部特征信息,有效融合不同尺度間的特征信息的同時,增大路徑聚合網(wǎng)絡(luò)中模型的感受野,提升感受野中心低層特征的重要性,進(jìn)而提升整體網(wǎng)絡(luò)的檢測精度,更有利于檢測紅外圖像行人這類中心位置信息重要的目標(biāo)。
圖3 多尺度特征融合模塊
紅外圖像中行人特征提取的豐富性和具體程度與其占用的像素尺寸基本成正比,而遠(yuǎn)景紅外圖像中行人目標(biāo)所占的像素尺寸小,基線算法中的下采樣倍數(shù)比較大,很難從較深的特征圖中學(xué)習(xí)到遠(yuǎn)景小目標(biāo)的特征信息,基線算法中的三尺度目標(biāo)檢測難以滿足紅外圖像遠(yuǎn)景行人小目標(biāo)的檢測輸出,導(dǎo)致整體檢測精度下降,故在基線算法基礎(chǔ)上增加上采樣次數(shù),使得特征圖繼續(xù)擴大,利用更低層的特征信息,增加了特征層之間的互補性。四尺度目標(biāo)檢測如圖4所示,采用4個不同尺度(20×20,40×40,80×80和160×160)的特征圖來進(jìn)行紅外圖像行人檢測,增加上采樣次數(shù)后,得到一個含有更多細(xì)節(jié)信息的大尺度特征圖,更多的語義信息將被利用,也能從網(wǎng)絡(luò)中較低層的特征映射圖中獲得檢測目標(biāo)更細(xì)粒度的信息,增強模型對遠(yuǎn)景紅外圖像行人小目標(biāo)特征的敏感度,提升網(wǎng)絡(luò)對行人小目標(biāo)的檢測能力。
圖4 四尺度目標(biāo)檢測
本文實驗軟、硬件平臺配置如表1所示。
表1 實驗平臺配置
本文實驗在FLIR數(shù)據(jù)集上進(jìn)行,該數(shù)據(jù)集采集于美國加州圣巴巴拉的街道和高速公路,數(shù)據(jù)集中包含雨、霧等多種氣候變化,以及60%日間圖像和40%的夜間圖像,背景有城市、山脈、隧道等,圖像背景相對復(fù)雜,且該數(shù)據(jù)集的場景中行人目標(biāo)受到不同程度的遮擋,加大了檢測的難度。FLIR數(shù)據(jù)集中包括4個類別標(biāo)簽:person、car、bicycle以及dog,本文實驗剔除無關(guān)標(biāo)簽信息,僅保留所需的person標(biāo)簽,在剔除無效數(shù)據(jù)以及多余標(biāo)簽圖像后剩余10 219張圖片,并將數(shù)據(jù)集分為訓(xùn)練集7 664張、驗證集1 021張和測試集1 534張。
本文實驗只包括一個類別,故采用平均精度(average precision,AP)及每秒檢測圖片的幀數(shù)(frames per second,FPS)來評估AFFM-YOLO算法的性能,AP值是指P-R曲線圍成的面積,用于評價目標(biāo)檢測算法的檢測性能,P-R左下方的面積越大,AP值越高,表示算法對該數(shù)據(jù)集的效果越好;FPS指每秒檢測圖片的幀數(shù),用于評價目標(biāo)檢測算法的檢測速度,FPS值越大,表明算法檢測速度越快,在計算AP之前需要先計算準(zhǔn)確率(precision)及召回率(recall),計算公式如下:
(3)
(4)
AP計算公式如下:
(5)
式中:AP表示P-R曲線面積;TP表示正確檢測框數(shù)量;FP表示誤檢框數(shù)量;FN表示漏檢框數(shù)量。
2.4.1實驗結(jié)果
實驗過程中模型參數(shù)設(shè)置如表2所示。
表2 實驗參數(shù)設(shè)置
實驗結(jié)果如圖5、圖6、圖7所示,從圖5中可以看出,相較于基線算法,AFFM-YOLO算法的總損失值明顯降低,且擁有更快的收斂速度,充分表明AFFM-YOLO算法能夠有效減少預(yù)測框與真實框之間的差距,更加精準(zhǔn)地回歸預(yù)測框取得了較好的訓(xùn)練結(jié)果;由圖6、圖7可知,相較于基線算法,AFFM-YOLO算法的召回率以及檢測精度均有提升,可以看出,AFFM-YOLO算法在整體性能上優(yōu)于基線算法。
2.4.2對比實驗結(jié)果與分析
為驗證AFFM-YOLO算法對紅外圖像行人目標(biāo)的檢測性能,在FLIR數(shù)據(jù)集上與兩階段目標(biāo)檢測算法Faster R-CNN以及一階段目標(biāo)檢測算法SDD、YOLOv3的AP值和檢測速率進(jìn)行對比,結(jié)果如表3所示。
圖6 召回率變化曲線
圖7 AP變化曲線
表3 FLIR數(shù)據(jù)集實驗結(jié)果
從表3可以看出,與其他先進(jìn)算法相比,AFFM-YOLO算法的綜合性能最優(yōu),對比FLIR數(shù)據(jù)集的AP值可以看出,AFFM-YOLO算法取得了89.1%的最高平均檢測精度,相比基線算法,AP值提升了2.4%;對比FLIR數(shù)據(jù)集的FPS值可以看出,AFFM-YOLO算法檢測速度雖然低于最高的基線算法,但其檢測速度遠(yuǎn)高于其他常用紅外圖像行人檢測算法,且其檢測速度達(dá)到66.67 frames/s,滿足實時檢測的要求。相比于其他常用紅外圖像行人目標(biāo)檢測算法,AFFM-YOLO算法在提升檢測精度的同時兼顧檢測速度,具有最佳的檢測效果,更有利于應(yīng)用在實際相關(guān)領(lǐng)域中。
圖8、圖9、圖10為基線算法及AFFM-YOLO算法在FLIR數(shù)據(jù)集上的部分檢測對比圖,可以看出,AFFM-YOLO算法在復(fù)雜背景、密集行人目標(biāo)以及遠(yuǎn)景紅外行人小目標(biāo)的檢測效果均優(yōu)于基線算法。
圖8 復(fù)雜背景檢測結(jié)果
對比圖8(a)、圖8(b)可以發(fā)現(xiàn),當(dāng)圖像中背景較為復(fù)雜時,基線算法存在誤檢的問題,AFFM-YOLO算法在減弱噪聲干擾的同時增強網(wǎng)絡(luò)中感興趣的特征,具有較強的抗干擾能力,并從大量特征信息中分離出更有利于紅外圖像行人目標(biāo)檢測的信息,有效改善了誤檢的問題。
圖9 密集遮擋人群檢測結(jié)果
對比圖9(a)、圖9(b)可以發(fā)現(xiàn),當(dāng)紅外圖像中行人較為密集,且行人間存在相互遮擋時,基線算法檢測精度較低,且容易出現(xiàn)誤檢的情況,AFFM-YOLO算法則利用不同大小卷積核的感受野來獲取大量不同尺度行人的特征信息,并有效融合不同感受野間的特征信息,提升了網(wǎng)絡(luò)感受野中心低層特征信息的重要性,進(jìn)而提升整體網(wǎng)絡(luò)對密集遮擋行人的檢測精度,避免誤檢。
圖10 遠(yuǎn)景小目標(biāo)檢測結(jié)果
對比圖10(a)、圖10(b)可以發(fā)現(xiàn),對于遠(yuǎn)景小目標(biāo)行人檢測,基線算法存在較多漏檢情況,而AFFM-YOLO算法通過改善檢測尺度,增加大尺度檢測層,能夠進(jìn)行精準(zhǔn)識別。綜上所述,在處理紅外圖像行人檢測任務(wù)時,相較于基線算法,AFFM-YOLO算法有更明顯的優(yōu)勢,對于背景復(fù)雜、密集行人目標(biāo)以及遠(yuǎn)景小目標(biāo)行人圖像具備更強的檢測能力,有效減少了漏檢、誤檢等現(xiàn)象。
2.4.3消融實驗結(jié)果與分析
為驗證本文中所提出的注意力特征提取模塊AFEM、多尺度特征融合模塊MFFM以及四尺度目標(biāo)檢測層在紅外圖像行人檢測任務(wù)中的有效性,以YOLOv5為基線算法,在FILR數(shù)據(jù)集上進(jìn)行了驗證分析,召回率、AP、FPS為評價指標(biāo),消融實驗結(jié)果如表4所示。
表4 消融實驗結(jié)果
消融實驗結(jié)果表明:將注意力特征提取模塊AFEM嵌入基線算法的骨干網(wǎng)絡(luò)后,算法的AP值提升至87.1%,且檢測速度不變,證明AFEM模塊在一定程度上抑制了無關(guān)背景信息,能從大量特征信息中分離出更有利于行人目標(biāo)檢測的信息。將多尺度特征融合模塊MFFM嵌入基線算法的頸部網(wǎng)絡(luò)后,算法的AP值提升至87%,召回率大幅提升,相比基線模型提高了1.7%,這表明MFFM能獲得不同尺度的局部特征信息,有效融合不同感受野特征,提升感受野中心低層特征的重要性,進(jìn)而提升網(wǎng)絡(luò)的檢測精度。將四尺度目標(biāo)檢測層添加至網(wǎng)絡(luò)目標(biāo)檢測后,召回率及AP值相比于基線算法均有較大提升,AP值與召回率均提升了1.5%,充分表明四尺度目標(biāo)檢測增加了特征層之間的互補性,增強紅外圖像底層特征圖對遠(yuǎn)景小目標(biāo)特征的描述能力,能從網(wǎng)絡(luò)中更深層次的特征圖中學(xué)習(xí)到遠(yuǎn)景小目標(biāo)行人的特征信息,提升網(wǎng)絡(luò)的檢測精度。AFEM與MFFM同時嵌入基線算法后,算法的AP值提升至87.9%,召回率大幅提升,相比基線模型提高了2.6%,增強關(guān)鍵信息的特征提取能力的同時提升了網(wǎng)絡(luò)感受野,抑制了無關(guān)背景信息的影響,有效融合了不同尺度間的特征信息。同時增加AFEM、MFFM以及四尺度目標(biāo)檢測到基線算法中后,召回率及AP值相比于基線算法均有較大提升,AP值提升了2.4%,召回率提升了2.9%,AP值與召回率分別提升至89.1%與81.5%。綜上所述,在處理紅外圖像行人目標(biāo)檢測任務(wù)時,相比于基線算法,AFFM-YOLO算法對于紅外圖像中背景復(fù)雜、密集行人及遠(yuǎn)景小目標(biāo)行人具備更強的檢測能力,有效減少了誤檢、漏檢等現(xiàn)象,能夠較好地指導(dǎo)紅外圖像行人目標(biāo)檢測任務(wù)。
為有效提升紅外圖像行人目標(biāo)檢測效果,以YOLOv5為基線算法,在主干網(wǎng)絡(luò)Backbone中融合注意力特征提取模塊AFEM,提高算法的特征提取能力,有效抑制無關(guān)背景信息;在頸部Neck的路徑聚合網(wǎng)絡(luò)PAN中嵌入多尺度特征融合模塊MFFM,利用不同感受野的卷積核捕獲不同尺度行人的豐富信息,融合不同尺度行人間的特征信息,提升密集行人目標(biāo)的檢測精度。通過四尺度進(jìn)行檢測,采用4種不同尺寸的特征圖檢測不同大小的目標(biāo),強化目標(biāo)檢測器對遠(yuǎn)景下小目標(biāo)的表征能力,提高紅外小目標(biāo)檢測準(zhǔn)確率。在FLIR數(shù)據(jù)集的實驗結(jié)果表明,AFFM-YOLO算法達(dá)到89.1%的檢測精度和66.67 frames/s的檢測速度,能夠很好地應(yīng)對紅外圖像中復(fù)雜背景、行人目標(biāo)密集以及遠(yuǎn)場景小目標(biāo)行人的檢測任務(wù)。