周李兵, 陳曉晶, 賈文琪, 衛(wèi)健健, 葉柏松, 鄒盛
(1. 中煤科工集團(tuán)常州研究院有限公司,江蘇 常州 213015;2. 天地(常州)自動(dòng)化股份有限公司,江蘇 常州 213015;3. 南京航空航天大學(xué) 機(jī)電學(xué)院,江蘇 南京 210016)
目前,我國(guó)煤礦多采用人工駕駛運(yùn)輸車(chē)輛。鑒于井下巷道環(huán)境復(fù)雜,作業(yè)人員繁多,駕駛員在疲勞駕駛或者誤操作的情況下,容易造成車(chē)輛碰撞和側(cè)翻等運(yùn)輸事故,威脅井下作業(yè)人員生命安全,影響生產(chǎn)效率?,F(xiàn)階段,我國(guó)煤礦開(kāi)采技術(shù)正處于由傳統(tǒng)開(kāi)采轉(zhuǎn)向智能化開(kāi)采的關(guān)鍵時(shí)期。礦用運(yùn)輸車(chē)輛無(wú)人化作為智慧礦山建設(shè)的重要一環(huán),很大程度上決定了煤礦開(kāi)采的智能化程度[1]。礦用無(wú)人駕駛車(chē)輛的工作環(huán)境光照條件復(fù)雜,導(dǎo)致行人檢測(cè)易出現(xiàn)漏檢和誤檢現(xiàn)象,降低了礦用無(wú)人駕駛車(chē)輛的可靠性。
由于井下光照條件復(fù)雜,難以利用可見(jiàn)光對(duì)環(huán)境中的行人輪廓成像,在逆光和弱光情況下,需要聯(lián)合其他圖像傳感器對(duì)環(huán)境中的行人目標(biāo)成像,獲取更多行人特征信息。紅外攝像頭通過(guò)補(bǔ)充紅外線(xiàn)對(duì)場(chǎng)景成像,可以在復(fù)雜光照或弱光條件下工作,采集的圖像為灰度圖像。可見(jiàn)光攝像頭可以提供場(chǎng)景中的細(xì)節(jié)紋理,具有更高的分辨率,且可見(jiàn)光圖像更加契合人類(lèi)的視覺(jué)系統(tǒng)。因此,可以通過(guò)融合紅外和可見(jiàn)光圖像,將紅外線(xiàn)反射信息和細(xì)節(jié)紋理信息融合于可見(jiàn)光圖像中,解決單個(gè)傳感器的不足,改善目標(biāo)檢測(cè)效果。
紅外與可見(jiàn)光圖像融合方法主要分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法[2]。傳統(tǒng)方法中,多尺度變換融合方法[3]是目前該領(lǐng)域研究最廣泛、應(yīng)用最多的方法?;诙喑叨茸儞Q的圖像融合方法主要通過(guò)一組變換和逆變換模型來(lái)融合圖像,典型的方法包括金字塔變換、小波變換[4]、非下采樣輪廓波變換(Non-Subsampled Contourlet Transform,NSCT)[5-9]和邊緣保持濾波器等[10]。多尺度變換融合方法隨著分解層數(shù)增多,會(huì)導(dǎo)致圖像邊緣和紋理模糊,同時(shí)融合時(shí)間也會(huì)增加。
深度學(xué)習(xí)方法具有強(qiáng)大的數(shù)據(jù)處理能力、抗干擾能力和自適應(yīng)能力,因此近年來(lái)被廣泛應(yīng)用于圖像融合領(lǐng)域。目前,基于深度學(xué)習(xí)的圖像融合方法主要包括卷積神經(jīng)網(wǎng)絡(luò)方法[11-15]、生成對(duì)抗網(wǎng)絡(luò)方法[16-18]和基于Transformer的方法[19-20]。Liu Yu等[14]通過(guò)卷積神經(jīng)網(wǎng)絡(luò)計(jì)算拉普拉斯變換中的高斯金字塔和拉普拉斯系數(shù),然后重構(gòu)出融合圖像。Li Hui等[15]首先通過(guò)殘差連接設(shè)計(jì)了一種由卷積層、融合層和Dense塊組成的編碼器,有助于從源圖像中提取更多特征。王志社等[17]提出了一種基于可見(jiàn)光和紅外圖像的交互式注意力生成對(duì)抗融合算法,通過(guò)在融合層次上設(shè)計(jì)一種可學(xué)習(xí)的注意力機(jī)制來(lái)構(gòu)建局部特征間的長(zhǎng)距離關(guān)系。Li Jing等[20]提出了一種卷積導(dǎo)向變換框架,通過(guò)卷積特征提取模塊提取局部特征,再利用Transformer 特征提取模塊對(duì)圖像的長(zhǎng)距離依賴(lài)關(guān)系進(jìn)行構(gòu)建。深度學(xué)習(xí)方法可以實(shí)現(xiàn)多樣性特征表達(dá)且泛化性強(qiáng),但特征融合策略和特征提取模型的設(shè)計(jì)是難點(diǎn),融合模型的性能在很大程度上受到二者的影響。多數(shù)深度學(xué)習(xí)方法難以平衡可見(jiàn)光和紅外圖像中的特征,導(dǎo)致融合圖像中細(xì)節(jié)信息模糊。
針對(duì)上述問(wèn)題,本文設(shè)計(jì)了一種基于多注意力機(jī)制的可見(jiàn)光和紅外圖像融合算法(Image Fusion Algorithm based on Multiple Attention Modules,IFAM)。首先采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)可見(jiàn)光和紅外圖像提取圖像特征;然后通過(guò)空間注意力和通道注意力模塊對(duì)提取出來(lái)的特征進(jìn)行交叉融合,同時(shí)利用特征中的梯度信息計(jì)算2個(gè)注意力模塊輸出特征的融合權(quán)值,根據(jù)權(quán)值融合2個(gè)注意力模塊的輸出特征;最后通過(guò)反卷積變換對(duì)圖像特征進(jìn)行還原,得到最終的融合圖像。
井下行人數(shù)據(jù)集構(gòu)建流程如圖1所示。首先使用可見(jiàn)光和紅外傳感器采集井下視頻,將視頻分解為圖像幀;然后采用弱光增強(qiáng)算法EnlightenGAN[21]對(duì)圖像幀中的可見(jiàn)光圖像進(jìn)行弱光增強(qiáng),使之能夠恢復(fù)為高對(duì)比度圖像;最后對(duì)圖像中的行人目標(biāo)進(jìn)行標(biāo)注,完成井下行人數(shù)據(jù)集構(gòu)建[22]。
圖1 井下行人數(shù)據(jù)集構(gòu)建流程Fig. 1 Construction process of underground pedestrian dataset
可見(jiàn)光圖像傳感器采用Intel d435i攝像頭,采集圖像為三通道(RGB),分辨率為640×640。為了保證圖像融合時(shí)尺寸一致,紅外傳感器采用USB2.0紅外夜視攝像頭,采集圖像為單通道,分辨率為640×640。攝像頭采集圖像時(shí)的位置如圖2所示。為了使2個(gè)攝像頭之間的相對(duì)位置固定,設(shè)計(jì)了傳感器安裝支架,支架左側(cè)為可見(jiàn)光攝像頭,右側(cè)為紅外攝像頭,攝像頭底部與支架之間采用螺栓固定。通過(guò)標(biāo)定2個(gè)傳感器外部參數(shù),使采集的可見(jiàn)光和紅外圖像內(nèi)容一致。攝像頭采集的數(shù)據(jù)通過(guò)USB數(shù)據(jù)線(xiàn)傳輸至計(jì)算機(jī)。采集數(shù)據(jù)時(shí),使用強(qiáng)磁力磁板將傳感器支架固定在礦用智能車(chē)輛前車(chē)蓋上。
圖2 攝像頭位置Fig. 2 Location of the cameras
井下采集的部分可見(jiàn)光和紅外圖像如圖3所示。對(duì)比2組圖片可以發(fā)現(xiàn):可見(jiàn)光圖像中細(xì)節(jié)豐富,包含了場(chǎng)景中行人的色彩信息和背景信息;紅外圖像不受背景光照影響,可以在弱光情況下對(duì)行人輪廓成像,但是缺乏背景和行人的色彩信息,成像距離近。
圖3 可見(jiàn)光和紅外圖像Fig. 3 Visible images and infrared images
為了測(cè)試特有工況下融合算法的可行性,需要對(duì)井下采集到的圖像進(jìn)行標(biāo)注。選用標(biāo)注軟件LabelImg進(jìn)行手工標(biāo)注,標(biāo)注時(shí)會(huì)對(duì)標(biāo)注內(nèi)容生成對(duì)應(yīng)的XML格式標(biāo)簽文件。數(shù)據(jù)集標(biāo)注信息包括目標(biāo)類(lèi)別(行人)、目標(biāo)邊界框的中心點(diǎn)坐標(biāo)、高和寬。LabelImg標(biāo)注界面如圖4(a)所示,標(biāo)注后生成的標(biāo)簽文件如圖4(b)所示。井下行人數(shù)據(jù)集中共10 000張圖像,其中可見(jiàn)光和紅外圖像各5 000張。將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,分別包含8 000,2 000張圖像。
圖4 井下數(shù)據(jù)標(biāo)注Fig. 4 Underground data annotation
2.1.1 算法框架
IFAM算法主要包含編碼網(wǎng)絡(luò)(Encoder Block)、特征融合模塊(Information Preservation Weighted Channel and Spatial Attention,ICS)和解碼網(wǎng)絡(luò)(Decoder Block)3個(gè)部分,其中編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)構(gòu)成了自編碼-解碼網(wǎng)絡(luò),如圖5所示。首先,通過(guò)1個(gè)卷積層將源圖像通道數(shù)從3增加到64,再送到1個(gè)級(jí)聯(lián)了4個(gè)編碼塊的編碼網(wǎng)絡(luò)中分別提取特征;其次,在ICS中對(duì)提取的特征進(jìn)行融合;然后,將融合特征饋送到包含6個(gè)解碼塊的解碼網(wǎng)絡(luò)中;最后,經(jīng)過(guò)重構(gòu)得到融合后的圖像。
圖5 IFAM算法框架Fig. 5 IFAM algorithm framework
本文中的圖像融合屬于特征級(jí)融合,因此特征融合策略很重要。設(shè)計(jì)了一種ICS融合策略,使用通道注意力模塊和空間注意力模塊對(duì)圖像特征中的空間和紋理信息進(jìn)行關(guān)注,使得融合圖像中兼具可見(jiàn)光圖像的背景信息和紅外圖像的紋理信息。此外,以往的研究中一般對(duì)特征平均融合,缺乏針對(duì)性,因此,本文計(jì)算特征中梯度信息的豐富度,并對(duì)2種圖像特征的豐富度求加權(quán)均值,得到融合權(quán)值。以圖像特征梯度信息為依據(jù)計(jì)算自適應(yīng)的融合權(quán)值,可使融合圖像更為合理。
2.1.2 自編碼-解碼網(wǎng)絡(luò)
自編碼-解碼網(wǎng)絡(luò)配置信息見(jiàn)表1,包含預(yù)處理層、編碼網(wǎng)絡(luò)、解碼網(wǎng)絡(luò)和后處理層4個(gè)部分。編碼網(wǎng)絡(luò)包含4個(gè)串行連接的編碼塊,每個(gè)編碼塊中有2個(gè)卷積層,如圖6(a)所示。對(duì)輸入特征進(jìn)行鏡像填充,經(jīng)過(guò)一個(gè)卷積核大小為3×3的卷積,最后對(duì)卷積中的神經(jīng)元隨機(jī)失活,得到第1個(gè)卷積層模型。第2個(gè)卷積層中卷積核大小為1×1。解碼網(wǎng)絡(luò)中有6個(gè)解碼塊,如圖6(b)所示。解碼塊的整體結(jié)構(gòu)與編碼塊基本相同,不同的是將卷積層中的Dropout替換為ReLU激活函數(shù)。6個(gè)解碼塊分別屬于3個(gè)層次,最下面一層接收的特征通道數(shù)最多。同一層的解碼塊之間從左至右側(cè)邊連接,上一層的解碼塊接收下一層的輸出。
表1 自編碼-解碼網(wǎng)絡(luò)配置信息Table 1 Configuration information of self-encoding and decoding network
圖6 編碼塊和解碼塊結(jié)構(gòu)Fig. 6 Structure of the encoding blocks and the decoding blocks
2.1.3 基于多注意力機(jī)制的特征融合策略
注意力機(jī)制是人類(lèi)視覺(jué)系統(tǒng)的主要特性之一。視覺(jué)信號(hào)被分成多個(gè)通道送入人腦視覺(jué)中樞系統(tǒng),注意力機(jī)制可以根據(jù)不同視覺(jué)任務(wù)幫助視覺(jué)系統(tǒng)從復(fù)雜的通道中過(guò)濾出關(guān)鍵信息。根據(jù)這一特性,S. Woo等[23]提出了一種簡(jiǎn)單有效的注意力模塊,促使卷積神經(jīng)網(wǎng)絡(luò)從通道和空間2個(gè)方面對(duì)特征施加不同注意力權(quán)值,從而細(xì)化特征[24]?;诙嘧⒁饬C(jī)制的特征融合策略如圖7所示,其中包含通道注意力模塊、空間注意力模塊和信息保留度權(quán)值3個(gè)部分。
圖7 基于多注意力機(jī)制的特征融合策略Fig. 7 Feature fusion strategy based on multi attention mechanism
1) 通道注意力模塊。通過(guò)計(jì)算2個(gè)特征圖中不同通道的權(quán)值,得到通道注意力權(quán)值矩陣,如圖8所示[25]。
圖8 通道注意力模塊Fig. 8 Channel attention module
將輸入特征通過(guò)一個(gè)卷積和歸一化組合的卷積層,再進(jìn)行全局池化,得到初始化全局權(quán)值向量:
式中:Ik為源圖像,k∈{1,2},I1為紅外光源圖像,I2為可見(jiàn)光源圖像;G(·)為逐通道平均全局池化函數(shù);Φi為4個(gè)編碼塊從可見(jiàn)光和紅外圖像中提取出的特征圖,i∈{1,2,3,4},Φi∈RCi×Wi×Hi,Ci,Wi,Hi分別為特征圖Φi的通道數(shù)、寬度和高度。
初始全局權(quán)值向量經(jīng)過(guò)Softmax函數(shù)計(jì)算得到2個(gè)輸入特征對(duì)應(yīng)的權(quán)值向量。為了與輸入特征逐點(diǎn)相乘,將權(quán)值向量拓展到與輸入特征大小一致。將輸入特征與拓展后的權(quán)值逐通道相乘相加,得到通道注意力模塊的融合輸出特征:
式中ε為防止分母為0的常量,ε=0.0001。
2) 空間注意力模塊。該模塊利用特征的空間關(guān)系生成空間注意力權(quán)值矩陣,如圖9所示。文獻(xiàn)[26]研究表明沿著通道軸施加池化操作可以有效突出顯示信息區(qū)域。針對(duì)三維特征圖Φi,通道注意力模塊關(guān)注的是特征的每一個(gè)向量中的關(guān)系,而空間注意力模塊關(guān)注的是特征的每一個(gè)平面中的關(guān)系。
圖9 空間注意力模塊Fig. 9 Spatial attention module
對(duì)特征逐通道求和,得到初始化全局權(quán)值矩陣:
初始化全局權(quán)值矩陣經(jīng)過(guò)L1范數(shù)和Softmax函數(shù)后取加權(quán)平均,得到最終的空間注意力權(quán)值矩陣;再將權(quán)值矩陣的維度通過(guò)復(fù)制方式擴(kuò)展到Ci維;最后將拓展后的權(quán)值和輸入特征分別相乘相加,得到空間注意力模塊的輸出特征[27]:
3) 信息保留度權(quán)值。源圖像中的信息保留度越大,該源圖像對(duì)最終融合圖像的影響也越大,融合特征中應(yīng)該多保留一些該源圖像的特征。為了再次融合通道注意力模塊和空間注意力模塊的輸出特征,本文提出根據(jù)梯度信息估算2個(gè)融合特征中的信息保有度,再根據(jù)信息保有度計(jì)算2個(gè)融合特征再次融合的權(quán)值。圖像梯度是一種基于局部空間結(jié)構(gòu)的度量[28],具有較小的感受野,易計(jì)算和存儲(chǔ)[29]。信息保留度Rz的計(jì)算公式為
引入wIk表示自適應(yīng)權(quán)值,則2個(gè)注意力模塊輸出特征的融合權(quán)值為
式中:f(·)為Softmax函數(shù),其作用是將2個(gè)信息保留度限制在0~1之間;Rc,Rs分別為通道注意力模塊和空間注意力模塊的信息保留度。
2.1.4 損失函數(shù)設(shè)計(jì)
設(shè)計(jì)損失函數(shù)時(shí)主要考慮結(jié)構(gòu)相似損失Lstructure和空間相似損失Lspectral。結(jié)構(gòu)相似損失主要約束源圖像中的紋理信息,空間相似損失主要約束源圖像中的像素信息??傮w損失函數(shù)為
式中α和β分別為L(zhǎng)spectral,Lstructure的系數(shù)。
結(jié)構(gòu)相似性度量(Structural Similarity Index Measure,SSIM) 是衡量圖像相似性的主要評(píng)價(jià)指標(biāo)之一,被廣泛應(yīng)用于圖像融合的損失函數(shù)中,本文使用SSIM約束紅外圖像、可見(jiàn)光圖像與融合圖像之間的相似性。
結(jié)構(gòu)相似損失計(jì)算公式為
式中T為輸入圖像Ik與重構(gòu)圖像Uk的SSIM。
空間相似損失計(jì)算公式為
式中:Uk為重構(gòu)圖像;||·||F為F范數(shù)。
考慮到井下圖像數(shù)據(jù)并不豐富,在訓(xùn)練編碼-解碼網(wǎng)絡(luò)時(shí)先使用大型數(shù)據(jù)集COCO2014[30]中的圖像進(jìn)行預(yù)訓(xùn)練,獲得初始網(wǎng)絡(luò)權(quán)值,再加入井下圖像對(duì)網(wǎng)絡(luò)權(quán)值進(jìn)行微調(diào)。訓(xùn)練時(shí),損失函數(shù)中系數(shù)α和β分別取1和100。
可見(jiàn)光圖像和紅外圖像的格式不同,前者為彩色圖像,后者為灰度圖像。2個(gè)源圖像通道不同,不能直接融合。為了融合彩色可見(jiàn)光圖像和灰色紅外圖像,本文設(shè)計(jì)了多通道可見(jiàn)光圖像和單通道紅外圖像融合策略,融合流程如圖10所示。
圖10 多通道和單通道圖像融合流程Fig. 10 Fusion flow of multi-channel and single-channel image
將可見(jiàn)光圖像分解到Y(jié)CbCr圖像空間,該圖像空間包含3個(gè)分量,分別是亮度分量Y(luminance)、藍(lán)色色度分量Cb(blue hue)和紅色色度分量Cr(red hue)。從圖10可看出,結(jié)構(gòu)細(xì)節(jié)主要在亮度分量中,并且亮度分量中包含的信息比另外2個(gè)色度分量包含的信息更豐富。因此,將YCbCr空間的亮度分量與紅外圖像進(jìn)行融合,得到融合后的亮度分量。之后,通過(guò)逆變換函數(shù)將2個(gè)色度分量與融合后的亮度分量融合,并轉(zhuǎn)換到RGB圖像空間。
采用5個(gè)指標(biāo)來(lái)分析融合圖像的質(zhì)量,包括信息熵[31](Entropy,EN)、梯度融合度量指標(biāo)[32](QAB/F)、融合視覺(jué)信息保真度[33](Visual Information Fidelity for Fusion,VIFF)、聯(lián)合結(jié)構(gòu)相似性度量(The union Structural Similarity Index Measure,SSIMu)和標(biāo)準(zhǔn)方差(Standard Deviation,SD)。
EN通過(guò)計(jì)算融合圖像中的信息量來(lái)評(píng)價(jià)融合圖像質(zhì)量。EN和圖像的質(zhì)量成正比,即EN值越大,圖像質(zhì)量越高。EN為
式中:X為圖像的灰度級(jí)數(shù)量;hl為圖像的歸一化直方圖。
梯度融合度量指標(biāo)QAB/F的作用是衡量源圖像和融合圖像之間邊緣信息的保有量[34],具體表示圖像A和B融合為圖像F的給定融合過(guò)程的歸一化加權(quán)性能度量,其計(jì)算公式為
式中:(n,m)為像素坐標(biāo);N,M分別為F的長(zhǎng)和寬;QAF,QBF為邊緣信息保存值, 0≤QAF≤1,0≤QBF≤1,0對(duì)應(yīng)于邊緣信息完全丟失,1對(duì)應(yīng)于邊緣信息保留完整;WA(n,m),WB(n,m)分別為QAF和QBF的權(quán)值系數(shù);分別為融合后圖像與源圖像的相對(duì)邊緣強(qiáng)度和邊緣方向。
VIFF是基于視覺(jué)信息保真度提出的融合圖像質(zhì)量評(píng)估算法,其數(shù)值與圖像的質(zhì)量成正比。VIFF為
式中:pK為加權(quán)系數(shù);VK(A,B,F)為第K個(gè)子帶的融合評(píng)估值。
SSIMu是在結(jié)構(gòu)相似度的基礎(chǔ)上演變而來(lái),用于評(píng)估融合圖像和源圖像的結(jié)構(gòu)相似度。SSIMu為
SD的作用是衡量圖像清晰度。SD與圖像清晰度成正比,即SD越大,圖像對(duì)比度越高,圖像越清晰。SD為
式中g(shù)mean為圖像F的灰度均值。
IFAM在RoadScene數(shù)據(jù)集[35]和TNO[36]數(shù)據(jù)集上的融合結(jié)果如圖11所示。其中第1,3,4組為弱光圖像,第2組為逆光圖像。經(jīng)過(guò)對(duì)比可以看出,融合后的圖像中同時(shí)具備了可見(jiàn)光圖像中的背景紋理和紅外圖像中的行人輪廓特征信息,經(jīng)過(guò)圖像融合后,圖像中的行人信息更加明顯,可以為行人檢測(cè)網(wǎng)絡(luò)提供更加充分的特征信息。
圖11 可見(jiàn)光圖像和紅外圖像融合結(jié)果Fig. 11 Fusion results of visible images and infrared images
IFAM在井下數(shù)據(jù)集上的融合結(jié)果如圖12所示。經(jīng)過(guò)對(duì)比可以看出,在弱光環(huán)境下,紅外圖像可以彌補(bǔ)可見(jiàn)光的缺點(diǎn),并且不受環(huán)境中其他光源(如手電光)的影響。在弱光條件下融合后的圖像中行人輪廓依舊明顯。
圖12 井下可見(jiàn)光和紅外圖像融合結(jié)果Fig. 12 Fusion results of underground visible images and infrared images
選用5種性能優(yōu)異的圖像融合算法進(jìn)行對(duì)比分析,分別為L(zhǎng)LF-IOI[37]、NDM[38]、PA-PCNN[39]、TA-cGAN[40]和U2fuse[29],結(jié)果見(jiàn)表2??煽闯?,本文提出的IFAM的SD和SSIMu分別為88.015 5和0.791 6,高于其他算法,EN,QAB/F,VIFF分別為4.901 3,0.169 3,1.413 5。從指標(biāo)數(shù)據(jù)可知,通過(guò)通道和空間注意力機(jī)制融合圖像特征可以避免可見(jiàn)光的紋理信息被紅外圖像的灰度信息淡化,使得融合圖像中的結(jié)構(gòu)信息更加明顯;信息保留度權(quán)值能夠平衡可見(jiàn)光和紅外圖像特征在融合特征中的占比,避免圖像模糊。
表2 圖像融合算法在井下數(shù)據(jù)集上的指標(biāo)數(shù)據(jù)Table 2 Index data of image fusion algorithm on underground dataset
第1個(gè)消融實(shí)驗(yàn)?zāi)康氖亲C明融合策略中3個(gè)模型之間組合的合理性,分析不同注意力模塊組合對(duì)融合結(jié)果的影響。通道注意力模塊可以保留更多結(jié)構(gòu)信息,但降低了圖像前景和背景之間的對(duì)比度。空間注意力模塊可以獲得良好的對(duì)比度,但模糊了紋理信息。通道和空間注意力改善了紋理的模糊效果,但忽略了對(duì)比度。本文提出的基于多注意力機(jī)制的特征融合策略不僅改善了紋理信息,還提高了前景和背景的對(duì)比度。針對(duì)通道注意力模塊、空間注意力模塊和信息保留度權(quán)值模塊的消融實(shí)驗(yàn)結(jié)果見(jiàn)表3??煽闯?,基于多注意力機(jī)制的特征融合策略的EN,SD,VIFF,SSIMu優(yōu)于其他組合。與單個(gè)注意力模塊相比,具有信息保留權(quán)值的特征融合策略取得了更顯著的效果。
表3 基于多注意力機(jī)制的特征融合策略中各模塊消融實(shí)驗(yàn)結(jié)果Table 3 Experimental results of ablation of each module in feature fusion strategy based on multi attention mechanism
第2個(gè)消融實(shí)驗(yàn)?zāi)康氖翘骄繐p失函數(shù)中2個(gè)超參數(shù)的最佳值組合,即α和β最佳組合。實(shí)驗(yàn)中,α設(shè)置為0.1,0.5,1,β設(shè)置為1,10,100,1 000。不同α和β組合下IFAM的實(shí)驗(yàn)結(jié)果見(jiàn)表4。可看出,當(dāng)α<0.5且β<100時(shí),在5個(gè)指標(biāo)上綜合表現(xiàn)較差;當(dāng)α=1,β=1 000時(shí),雖然融合圖像的SD和QAB/F較大,但是其他3個(gè)指標(biāo)較小,因?yàn)榫植苛炼鹊脑黾訉?dǎo)致結(jié)構(gòu)信息被覆蓋,使得融合圖像更加模糊。綜合對(duì)比結(jié)果,α=1和β=100是最佳組合。
表4 不同α和β組合下IFAM的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of IFAM under different combinations of α and β
1) 提出了用于井下智能車(chē)輛行人檢測(cè)的圖像融合算法IFAM。首先采用自編碼器對(duì)可見(jiàn)光和紅外圖像進(jìn)行特征提取,其次采用空間注意力機(jī)制和通道注意力機(jī)制融合從可見(jiàn)光和紅外圖像中提取的特征,然后采用基于梯度信息方法計(jì)算空間注意力機(jī)制和通道注意力機(jī)制輸出特征的融合權(quán)值,融合2個(gè)注意力機(jī)制處理后的特征,最后通過(guò)解碼器還原出融合圖像。
2) 在RoadScene數(shù)據(jù)集、TNO數(shù)據(jù)集及井下數(shù)據(jù)集上的融合結(jié)果表明,IFAM能夠有效融合圖像,經(jīng)IFAM融合后的圖像中同時(shí)具備可見(jiàn)光圖像中的背景紋理和紅外圖像中的行人輪廓特征信息,在弱光條件下融合后的圖像中行人輪廓依舊明顯。
3) 對(duì)比分析結(jié)果表明,經(jīng)IFAM融合后圖像的EN,SD,QAB/F,VIFF,SSIMu分別為4.901 3,88.521 4,0.169 3,1.413 5,0.806 2,整體性能優(yōu)于同類(lèi)的LLF-IOI、NDM等算法。
4) 消融實(shí)驗(yàn)結(jié)果表明:與單個(gè)注意力模塊相比,具有信息保留權(quán)值的多注意力特征融合策略取得了更顯著的效果;損失函數(shù)中超參數(shù)α=1,β=100是最佳組合。