張 薇, 汪雷丹, 劉曉亮, 李坤煌
(1.廣東粵港供水有限公司, 廣東 深圳 518021;2.深圳高度創(chuàng)新技術(shù)有限公司, 廣東 深圳 518000)
水利工程建設(shè)旨在加強水資源保護(hù),為人們的安全用水和社會的可持續(xù)發(fā)展提供保障。東江-深圳供水工程(簡稱“東深供水工程”)是黨中央為解決香港地區(qū)同胞飲水困難而興建的跨流域大型調(diào)水工程。在工程建設(shè)過程中,需要管理的設(shè)備多、涉及范圍廣,為保證工程的順利實施,需要對這些設(shè)備進(jìn)行安全監(jiān)管。隨著無人機(jī)領(lǐng)域的訊速發(fā)展,配備無人機(jī)自動巡檢系統(tǒng)的無人機(jī)飛行器可自動進(jìn)行巡查工作,通過配套的AI(人工智能)項目,可以實現(xiàn)圖像的目標(biāo)識別,如識別水面懸浮物等,但是無人機(jī)拍攝的照片會受到環(huán)境等因素的干擾,影響對目標(biāo)物的準(zhǔn)確識別。圖像融合是圖像處理和計算機(jī)視覺應(yīng)用中的一項重要技術(shù),已在目標(biāo)識別、視頻監(jiān)督和圖像增強等方面有較好的應(yīng)用[1-3]。本文提出基于深度特征提取的紅外與可見光圖像融合算法。首先,引入滾動引導(dǎo)濾波對源紅外與可見光圖像進(jìn)行多級分解,以提取更多的細(xì)節(jié)邊緣信息。其次,針對基礎(chǔ)層引入PCANet網(wǎng)絡(luò)進(jìn)行特征提取,指導(dǎo)基礎(chǔ)層融合;針對細(xì)節(jié)層采用拉普拉斯濾波、高斯濾波和引導(dǎo)濾波指導(dǎo)細(xì)節(jié)層融合。最后,將融合之后的基礎(chǔ)層與細(xì)節(jié)層疊加重構(gòu),得到最后的融合結(jié)果。該算法模型具有較好的泛化性,通過遷移學(xué)習(xí)可應(yīng)用于水利工程無人機(jī)自動巡檢系統(tǒng)的安全監(jiān)測。
通過圖像融合,同一場景的不同模態(tài)圖像可以合并為單一的融合圖像。融合后的圖像可以提供更全面的場景信息,更有利于人類和機(jī)器的感知?;诙喑叨茸儞Q(Multi-Scale Transformation,MST)的融合算法是目前最主要的紅外與可見光圖像融合算法[4]。比較常見的該類型算法有基于曲波變換(Curvelet Transform,CVT)算法[5]、基于雙樹復(fù)小波變換(Dual-Tree Complex Wavelet Transform, DTCWT)算法[6]、基于Tetrolet變換算法[7]及基于非下采樣輪廓波變換(Non-Sampled Contourlet Transform,NSCT)算法[8]等。由于上述算法都是利用預(yù)先定義的基函數(shù)提取圖像特征,所以對源圖像的細(xì)節(jié)紋理信息等重要特征的提取效果不好,并且MST算法是將源圖像投影到頻率域,增大了計算復(fù)雜性。JIAN等[9]將滾動引導(dǎo)濾波器(Rolling Guided Filtering,RGF)[10]用于圖像融合,充分利用該濾波器平滑小尺度結(jié)構(gòu)和大尺度結(jié)構(gòu)邊緣恢復(fù)特性分解源圖像,很好地保留了源圖像細(xì)節(jié)邊緣信息。基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的算法在紅外與可見光圖像融合方面具有很強的特征提取能力。ZHOU等[11]使用預(yù)訓(xùn)練網(wǎng)絡(luò)VGG-19提取源圖像的特征信息,從而使得融合圖像保留更多的細(xì)節(jié)特征和結(jié)構(gòu)信息。MA等[12]將生成式對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)用于紅外與可見光圖像融合,用生成網(wǎng)絡(luò)生成融合圖像,而對抗網(wǎng)絡(luò)使融合圖像具有更多的細(xì)節(jié)信息。CHAN[13]等提出一種更簡單、高效的深度學(xué)習(xí)網(wǎng)絡(luò)——PCANet,該網(wǎng)絡(luò)在圖像處理方面具有很好的特征信息提取性能[14]。
RGF同時具有尺度感知和邊緣保護(hù)的特性,并且其迭代收斂速度比較快,用其對源圖像進(jìn)行分解,能夠有效保留目標(biāo)的細(xì)節(jié)邊緣信息[10]。該濾波器包括兩個主要步驟:平滑小尺度結(jié)構(gòu)和大尺度結(jié)構(gòu)邊緣恢復(fù)。
第一步使用高斯濾波器獲取原始引導(dǎo)圖像,可以有效去除源圖像I中的小尺度結(jié)構(gòu),源圖像I在中心像素a處的高斯濾波可表示如下:
其中:a和b分別表示中心像素和相鄰像素,N表示中心像素a處相鄰像素b的集合。根據(jù)尺度空間理論,結(jié)構(gòu)尺度參數(shù)σs可以定義為高斯核的最小標(biāo)準(zhǔn)偏差,G表示原始引導(dǎo)圖像。
第二步使用聯(lián)合雙邊濾波器進(jìn)行迭代式邊緣恢復(fù),該濾波器具有計算高效和邊緣保留較好等特性。這一步是一個迭代過程,恢復(fù)的圖像Jt被迭代更新,初始圖像J1是高斯平滑的圖像G。第t次迭代可表示如下:
(2)
迭代操作在保留大尺度結(jié)構(gòu)邊緣的同時,能很好地平滑不相關(guān)的細(xì)節(jié)。滾動引導(dǎo)濾波操作可定義如下:
U=RGF(I,σs,σr)
(3)
其中:RGF(·)表示滾動引導(dǎo)濾波函數(shù),通過改變參數(shù)σs和σr,可以對源圖像進(jìn)行平滑處理,實現(xiàn)一系列不同尺度的分層,U是滾動濾波器的輸出圖像,I是輸入圖像。
本文引入RGF將源紅外與可見光圖像分別分解為基礎(chǔ)層和多個細(xì)節(jié)層,與其他多尺度分解方法相比,該方法能夠最大限度地利用源圖像中的相關(guān)細(xì)節(jié)信息。假設(shè)有兩張已經(jīng)預(yù)配準(zhǔn)源紅外與可見光圖像,其表示為Ik,k∈{1,2}。對于每一張源圖像Ik,基礎(chǔ)層可表示如下:
(4)
(5)
(a)源紅外圖像
(b)基礎(chǔ)層
(c)細(xì)節(jié)層
(d)源可見光圖像
(e)基礎(chǔ)層
(f)細(xì)節(jié)層
基礎(chǔ)層中還殘余有用的低頻信息,卷積神經(jīng)網(wǎng)絡(luò)能夠有效提取圖像中的信息,但考慮到卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練時間較長、調(diào)參比較復(fù)雜等,CHAN等[13]提出了一種簡單、高效的能夠適應(yīng)不同任務(wù)和數(shù)據(jù)的深度學(xué)習(xí)網(wǎng)絡(luò)PCANet。該網(wǎng)絡(luò)采用主成分分析的方法學(xué)習(xí)多級濾波器組,不需要調(diào)節(jié)復(fù)雜參數(shù)和解決復(fù)雜數(shù)值優(yōu)化問題,因此其網(wǎng)絡(luò)結(jié)構(gòu)簡單且性能高效。PCANet框架圖如圖2所示。
圖2 PCANet框架圖Fig.2 PCANet framework chart
對于每張M×N大小的輸入圖像,PCANet通過一個K1×K2大小的滑動窗口(一般選取窗口大小為3、5、7個像素的正方形)獲取輸入圖像的局部特征,并將獲取的這些塊組合在一起,即xi,1,xi,2,…,xi,MN∈K1K2,其中xi,j是輸入圖像Ii里面的第j個向量塊。將獲取的每個塊減去其平均值,實現(xiàn)去均值操作,處理之后得到其中是輸入圖像Ii中的第j個去均值塊。將全部輸入源圖像(K表示輸入源圖像數(shù)量)執(zhí)行同樣的處理,并將得到的結(jié)果放在一起,即
(6)
假設(shè)第i層使用濾波器個數(shù)為Si,則第一層濾波器個數(shù)為S1。根據(jù)主成分分析法,可得最小重構(gòu)誤差:
(7)
其中:U表示X通過第一層濾波器S1特征值所對應(yīng)的特征向量組合而成的特征矩陣,IS1表示S1×S1大小的單位矩陣。由此可得PCA濾波器如下:
(8)
圖3 PCANet處理過程Fig.3 Processing procedures of PCANet
圖像融合需要將兩幅源圖像中具有視覺意義的信息整合到一副圖像中,可以通過給源圖像的細(xì)節(jié)層分配適當(dāng)?shù)臋?quán)重(不重要信息的像素分配低權(quán)重,重要信息的像素分配高權(quán)重)實現(xiàn)。人類視覺系統(tǒng)識別圖像的細(xì)節(jié)層信息比其基礎(chǔ)層敏感,本文采用基于顯著圖的權(quán)值圖融合細(xì)節(jié)層。如圖4所示,將拉普拉斯濾波應(yīng)用于每張源圖像,以獲得高通圖像Hk:
圖4 GF處理結(jié)果Fig.4 GF processing results
Hk=Ik×L
(9)
其中:L是一個大小為3×3拉普拉斯濾波;Hk絕對值的局部平均值,用于構(gòu)建顯著圖Sk:
Sk=|Hk|×grg,σg
(10)
其中:g是大小為(2rg+1)(2σg+1)的高斯低通濾波,參數(shù)rg和σg設(shè)置為5。
顯著圖可以很好地提供源圖像中的細(xì)節(jié)信息。接下來,比較顯著圖以確定權(quán)值圖,如公式(11)所示:
(11)
假設(shè)引導(dǎo)濾波的輸出圖像V是引導(dǎo)圖像G在以像素p為中心的局部窗口wp中的線性變換模型,即
Vq=apGq+bp,?q∈wp
(12)
其中:在窗口wp內(nèi),線性系數(shù)ap和bp都是常數(shù),并且可以通過最小化輸出圖像V和輸入圖像I之間的平方差進(jìn)行估計:
(13)
其中,ε表示正則化參數(shù)。利用線性回歸[16]求解公式(13),得到線性系數(shù)ap和bp的結(jié)果如下:
(14)
(15)
因此,為了讓對應(yīng)的權(quán)重圖具有與源圖像相似的平滑度和銳化度(圖4),以源圖像Ik作為引導(dǎo)圖像,對每個權(quán)值圖Pk進(jìn)行引導(dǎo)濾波處理,即
(16)
最終目標(biāo)是在主觀視覺和客觀效果上對融合結(jié)果進(jìn)行改進(jìn)。考慮到不同類型的層包含不同的特征信息,在重構(gòu)階段,針對基礎(chǔ)層和細(xì)節(jié)層分別進(jìn)行。
(17)
(18)
將融合的基礎(chǔ)層和細(xì)節(jié)層疊加,得到最終的融合結(jié)果:
F=Fb+Fd
(19)
融合算法框架圖如圖5所示。假設(shè)紅外與可見光圖像已經(jīng)預(yù)配準(zhǔn),本文主要針對兩張待融合源紅外與可見光圖像,并且當(dāng)采用多張源圖像時,融合算法的策略類似。本文所提融合算法的具體步驟如下。
圖5 融合算法框架圖 Fig.5 The framework diagram of the proposed image fusion algorithm
(4)將融合的細(xì)節(jié)層與基礎(chǔ)層進(jìn)行疊加,獲取最終的融合圖像為F。
本文采用的實驗平臺為AMD(R) Ryzen(R)5 3500X Geforce RTX 2070 SUPER 8 GB卡、16 GB 3200 MHz內(nèi)存,在Windows 10專業(yè)版的64位操作系統(tǒng)上用MATLAB2020a進(jìn)行仿真實驗。實驗測試數(shù)據(jù)通過無人機(jī)調(diào)度平臺采集數(shù)據(jù)集和在TNO數(shù)據(jù)集[17]上選擇的三組典型紅外與可見光圖像,即Nato_Camp、Bristol_Queen′s_Road和UN_Camp。
圖6為第一組已經(jīng)預(yù)配準(zhǔn)Nato_Camp紅外與可見光融合對比結(jié)果。圖6(a)和圖6(b)分別表示第一組測試源圖像。圖6(c)至6(h)分別表示不同紅外與可見光融合的結(jié)果??梢钥闯?DTCWT的融合方法整體對比度較差,目標(biāo)物邊緣比較模糊,融合質(zhì)量很差;LatLRR的融合方法中植物細(xì)節(jié)顯示較差,目標(biāo)物周圍存在偽影;NSCT_SR的融合方法可以很好地突出目標(biāo)物,但圖中植物的像素與源紅外圖像像素差異較大,表明該融合方法過多地將可見光信息引入融合圖像,使得視覺效果變差;VGG-19、ResNet50和本文所提方法的融合結(jié)果相對較好,并且采用本文提出的方法時圖中的房屋和人物邊緣信息保持較好、對比度較高且紋理細(xì)節(jié)較為清晰。
圖7為第二組已經(jīng)預(yù)配準(zhǔn)Bristol_Queen′s_Road紅外與可見光融合對比結(jié)果。圖7(a)和圖7(b)分別表示第二組測試源圖像。圖7(c)至圖7(h)分別表示不同紅外與可見光融合方法的結(jié)果??梢钥闯?上述融合方法基本能夠保留圖像中的目標(biāo)人物和房屋邊緣結(jié)構(gòu)信息,但采用本文所提方法的圖中框內(nèi)的人物和房屋窗戶細(xì)節(jié)信息上保留較完整,清晰度較高,具有很好的可視性。
圖8為第三組已經(jīng)預(yù)配準(zhǔn)UN_Camp紅外與可見光融合對比結(jié)果。圖8(a)和圖8(b)分別表示第三組測試源圖像。圖8(c)至圖8(h)分別表示不同紅外與可見光融合方法的結(jié)果??梢钥闯?DTCWT的融合方法整體比較泛白,圖中框內(nèi)的天空處缺失紅外圖像的細(xì)節(jié)信息,屋頂邊緣結(jié)構(gòu)信息缺失;LatLRR的融合方法圖中框內(nèi)的目標(biāo)細(xì)節(jié)信息缺失,從而導(dǎo)致顯示不夠清晰,對比度較差;NSCT_SR的融合方法圖中框內(nèi)的天空發(fā)生了變形,并且引入過多的偽影,清晰度非常差;VGG-19和ResNet50的融合方法在結(jié)構(gòu)信息上保持完整,噪聲較少,但對比度較低;本文所提的融合方法可以很好地整合來自源圖像的互補信息,有效保留大部分來自源圖像的結(jié)構(gòu)和細(xì)節(jié)信息,清晰度和對比度較高。
(a)源紅外圖像
(b)源可見光圖像
(d)LatLRR
(f)VGG-19
(g)ResNet50
(h)本文方法
(a)源紅外圖像
(b)源可見光圖像
(c)DTCWT
(d)LatLRR
(e)NSCT_SR
(f)VGG-19
(g)ResNet50
(h)本文方法
(a)源紅外圖像
(b)源可見光圖像
(c)DTCWT
(d)LatLRR
(e)NSCT_SR
(f)VGG-19
(g)ResNet50
為了對實驗結(jié)果進(jìn)行定量評價,本文采用互信息(Mutual Information,MI)[19]、差異相關(guān)和(Sum of Correlations of Differences,SCD)[20]、信息熵(Entropy,EN)[21]、多尺度結(jié)構(gòu)相似度測量(Multiscale Structural Similarity Measure,MS-SSIM)[22]和標(biāo)準(zhǔn)差(Standard Deviation,SD)[23]等經(jīng)典評價指標(biāo)對實驗結(jié)果進(jìn)行分析。其中,MI主要通過比較融合圖像與源圖像之間的相關(guān)程度表示融合圖像包含源圖像的目標(biāo)信息量,而且MI越大,表明融合結(jié)果包含目標(biāo)信息量越多,其融合效果就越好;EN主要是基于信息論的角度評價融合圖像所包含源圖像的信息量,EN越大,則表明信息量越多,融合效果越好,但該指標(biāo)值會受到噪聲的影響,融合圖像中的噪聲越多,該值也會越大;SCD主要是通過差異相關(guān)性之和評價融合結(jié)果,同樣SCD的值越大,表明融合的效果越好;MS-SSIM主要通過衡量結(jié)構(gòu)信息評價融合結(jié)果,其值越大,表明融合圖像效果越好,圖像結(jié)構(gòu)越接近源圖像;SD主要用來衡量融合結(jié)果對比度效果,SD的值越大,表明融合結(jié)果對比度高和視覺更好。本文選取三組對比實驗,客觀評價結(jié)果如表1所示。
由表1可知,與其他五種方法相比,本文提出的方法在評價指標(biāo)EN、MI、MS-SSIM、SCD和SD都表現(xiàn)出不同程度的領(lǐng)先優(yōu)勢,尤其評價指標(biāo)SD和SCD領(lǐng)先較多,表明本文方法的融合結(jié)果具有高對比度,融合圖像信息與源圖像具有很強的相關(guān)性,證明本文所提算法具有有效性。
本文提出一種將深度特征提取與滾動引導(dǎo)濾波結(jié)合的多模態(tài)圖像融合算法,可用于無人機(jī)自動巡檢系統(tǒng)。通過開展實驗,與目前主流的紅外與可見光圖像融合算法進(jìn)行對比,本文所提方法在突出源圖像目標(biāo)物體和保留完整的邊緣細(xì)節(jié)方面具有很好優(yōu)勢。實驗結(jié)果表明,本文所提方法在信息熵、互信息、多尺度結(jié)構(gòu)相似度測量、標(biāo)準(zhǔn)差和差異相關(guān)和等客觀評價指標(biāo)上具有明顯的領(lǐng)先優(yōu)勢,主觀評價具有較好的可視性,有利于后續(xù)開展目標(biāo)識別和探測等任務(wù)。下一階段的研究重點將放在分解層數(shù)的自適應(yīng)選擇上,為減少噪聲、偽影和保留更多的有效細(xì)節(jié)信息,制定更加有效的融合規(guī)則。