王書(shū)朋,蔣 藝
(西安科技大學(xué) 通信與信息工程學(xué)院,陜西 西安 710054)
由于成像設(shè)備受光學(xué)鏡頭景深的限制,只能對(duì)聚焦區(qū)域內(nèi)的物體產(chǎn)生清晰的圖像,而聚焦區(qū)域以外的物體在圖像中都是模糊的[1]。為了克服物理設(shè)備的限制,多聚焦圖像融合技術(shù)將來(lái)自同一場(chǎng)景的兩幅或多幅聚焦區(qū)域不同的圖像進(jìn)行融合生成單幅全聚焦圖像,使同一場(chǎng)景下的所有目標(biāo)都清晰地呈現(xiàn)出來(lái),從而便于人們后期對(duì)圖像進(jìn)行分析和處理。然而現(xiàn)有的多聚焦圖像融合算法通常難以準(zhǔn)確地區(qū)分聚焦區(qū)域和非聚焦區(qū)域,導(dǎo)致融合圖像中聚焦區(qū)域的邊界處有偽影的現(xiàn)象。針對(duì)該問(wèn)題,該文擬提出一種新的多聚焦圖像融合方法。
現(xiàn)有的多聚焦圖像融合方法可以分為三類(lèi):基于空間域的方法、基于變換域的方法和基于深度學(xué)習(xí)的方法?;诳臻g域的方法[2-3]主要是依據(jù)某種清晰度指標(biāo),直接從源圖像中選擇清晰的部分組合成融合圖像,但這類(lèi)方法容易受到噪聲的影響,融合結(jié)果中通常存在塊效應(yīng)問(wèn)題[4]?;谧儞Q域的方法是通過(guò)某種變換將圖像分解成不同頻帶的系數(shù),然后選取不同的融合規(guī)則得到融合系數(shù),最后通過(guò)逆變換生成融合圖像。如基于多尺度變換的方法[5-6]、基于稀疏表示的方法[7]等。這類(lèi)方法比基于空間域的方法能更好地提取圖像的邊緣和輪廓等特征,但圖像分解過(guò)程中會(huì)缺失部分高頻分量的信息,融合結(jié)果中易產(chǎn)生振鈴效應(yīng)[8]。近年來(lái),機(jī)器學(xué)習(xí)及深度學(xué)習(xí)理論不斷發(fā)展[9-10]。Liu等人[11]將CNN引入到多聚焦圖像融合中,通過(guò)訓(xùn)練CNN模型直接生成焦點(diǎn)圖,克服了手動(dòng)設(shè)計(jì)聚焦區(qū)域檢測(cè)方法的難題。多聚焦圖像融合的關(guān)鍵是準(zhǔn)確區(qū)分源圖像中的聚焦區(qū)域和非聚焦區(qū)域。魯棒主成分分析(robust principal component analysis,RPCA)是一種新的聚焦點(diǎn)檢測(cè)算法,該算法可以將圖像分解成代表背景的低秩分量和代表圖像顯著性特征的稀疏分量。楊明偉等人[12]用RPCA分解源圖像得到稀疏分量,然后對(duì)稀疏分量進(jìn)行三方向一致性和區(qū)域生長(zhǎng)法處理。Zhang等人[13]用引導(dǎo)濾波器對(duì)稀疏分量進(jìn)行處理得到增強(qiáng)圖像,用增強(qiáng)圖像與源圖像之前的差值圖像提取背景區(qū)域,從而確定聚焦區(qū)域的位置。盡管這類(lèi)方法可以避免振鈴效應(yīng),提高了融合決策圖的準(zhǔn)確性,但基于像素值取大和空間頻率的融合規(guī)則沒(méi)有得到最優(yōu)的聚焦區(qū)域檢測(cè)結(jié)果,融合圖像中有嚴(yán)重的塊效應(yīng),且聚焦區(qū)域的邊界有暈影的現(xiàn)象。
為解決上述問(wèn)題,該文提出了一種基于RPCA的多聚焦圖像融合方法。該方法首先通過(guò)RPCA將源圖像分解為低秩和稀疏分量。針對(duì)低秩分量,利用CNN構(gòu)建權(quán)重圖,可以較好地區(qū)分聚焦區(qū)域和非聚焦區(qū)域。對(duì)于稀疏分量,采用基于拉普拉斯能量和的方法構(gòu)建稀疏分量的融合決策圖,然后用引導(dǎo)濾波器優(yōu)化決策圖,使決策圖的邊緣與源圖像保持一致,避免偽輪廓。從主觀和客觀兩個(gè)方面將所提算法與其他七種經(jīng)典算法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,所提方法可以準(zhǔn)確區(qū)分聚焦區(qū)域和非聚焦區(qū)域,融合圖像中聚焦區(qū)域的邊界清晰且不會(huì)引入偽影。
為了解決主成分分析(PCA)魯棒性不佳的問(wèn)題,Wright等人[14]提出了魯棒主成分分析(RPCA)理論,它的基本思想是數(shù)據(jù)矩陣在最優(yōu)化準(zhǔn)則下可以表示為一個(gè)低秩矩陣和一個(gè)系數(shù)矩陣的和。假設(shè)有一個(gè)輸入矩陣I∈NH×W,那么該矩陣可以分解為:
I=L+S
(1)
其中,L是低秩矩陣,S是稀疏矩陣,輸入矩陣I的大小為H×W。
與其他稀疏表示方法類(lèi)似,RPCA采用核規(guī)范作為近似稀疏約束:
(2)
其中,rank(?)是矩陣的秩,‖?‖0是0范數(shù)矩陣,λ是加權(quán)參數(shù)且λ>0。
在一般情況下,這種分解是NP難問(wèn)題。由于一個(gè)矩陣的秩與它的非零奇異值的個(gè)數(shù)相等,可以用矩陣的核范數(shù)近似代替矩陣的秩,用0范數(shù)等價(jià)為1范數(shù),則稀疏矩陣可以轉(zhuǎn)化為以下凸優(yōu)化問(wèn)題:
(3)
圖1 多聚焦圖像的RPCA分解
為了準(zhǔn)確地檢測(cè)源圖像中的聚焦區(qū)域,提出了基于RPCA的多聚焦圖像融合方法。該方法的框圖如圖2所示。
圖2 算法框圖
首先,輸入兩幅聚焦區(qū)域不同的源圖像IA和IB,用RPCA對(duì)這兩幅源圖像進(jìn)行分解,得到低秩分量LA、LB和稀疏分量SA、SB。然后,針對(duì)低頻分量包含源圖像整體結(jié)構(gòu)和細(xì)節(jié)的特性,采用基于CNN的融合規(guī)則構(gòu)建決策圖。針對(duì)稀疏分量包含聚焦區(qū)域的邊緣和紋理特性,采取基于引導(dǎo)濾波[15]改進(jìn)的拉普拉斯能量和(SML)的融合規(guī)則。最后,將融合后的低秩分量FL和稀疏分量FS重構(gòu)得到融合圖像F,即F(i,j)=FL(i,j)+FS(i,j),(i,j)為像素點(diǎn)的位置。
低秩圖像包含源圖像大部分的結(jié)構(gòu)和能量,一般的融合規(guī)則很難準(zhǔn)確地區(qū)分聚焦區(qū)域和非聚焦區(qū)域的邊界。實(shí)際上,在多聚焦圖像融合過(guò)程中,決策圖的生成可以看成二分類(lèi)問(wèn)題,CNN對(duì)解決這類(lèi)問(wèn)題是有效的[11]。因此通過(guò)圖3中的CNN模型對(duì)低秩分量進(jìn)行特征提取和分類(lèi),將低秩圖像利用滑窗技術(shù)分成大小為16×16的圖像塊,卷積層和池化層用于特征提取,全連接層用于分類(lèi)。然后判斷兩幅低秩圖像相同位置處的圖像塊哪個(gè)是清晰的,哪個(gè)是模糊的。最終得到低秩分量的融合決策圖。
圖3 CNN模型
為了降低網(wǎng)絡(luò)訓(xùn)練的復(fù)雜度,文中的CNN模型為暹羅網(wǎng)絡(luò)[16],使兩個(gè)分支獲得相同的權(quán)重,每個(gè)分支包含了三個(gè)卷積層和一個(gè)最大池化層[11],第三個(gè)卷積層的輸出特征圖可以表征不同源圖像聚焦區(qū)域的特征。如果輸入圖像塊過(guò)大,可能同時(shí)包含聚焦區(qū)域和非聚焦區(qū)域,會(huì)導(dǎo)致聚焦邊界的誤判。當(dāng)圖像塊過(guò)小時(shí),圖像中包含的特征信息過(guò)少,可能會(huì)降低圖像分類(lèi)的準(zhǔn)確性,所以該文將訓(xùn)練的圖像塊大小設(shè)為16×16。卷積核的大小及步長(zhǎng)分別為3×3和1,池化層的池化因子和跨度分別為2×2和2,將每個(gè)分支得到的256個(gè)特征級(jí)聯(lián)后與256維特征向量全連接,最后再與2維特征向量全連接。經(jīng)Softmax層分類(lèi)后,輸出值的大小即為這一對(duì)輸入圖像塊的聚焦屬性。
基于CNN的低秩分量融合規(guī)則步驟如下:首先將兩幅RPCA分解得到的低秩圖像LA和LB輸入到訓(xùn)練好的CNN模型中進(jìn)行焦點(diǎn)檢測(cè)得到得分圖Smap,Smap中的每個(gè)系數(shù)表示來(lái)自兩個(gè)低秩圖像相同位置處的一對(duì)圖像塊的聚焦特性。當(dāng)Smap∝1時(shí),說(shuō)明LA聚焦,LB散焦;當(dāng)Smap∝0時(shí),說(shuō)明LA散焦,LB聚焦。
然后對(duì)得分圖進(jìn)行閾值分割得到初始的二值圖像:
(4)
(5)
最后,利用所獲得的決策圖融合低秩圖像,得到低秩融合圖像FL。
FL(i,j)=DL(i,j)LA(i,j)+
(1-DL(i,j))LB(i,j)
(6)
流程如圖4所示。
圖4 基于CNN的低秩圖像融合
傳統(tǒng)的圖像清晰度檢測(cè)的方法有方差、空間頻率和SML等,文獻(xiàn)[17]從主觀和客觀評(píng)價(jià)兩個(gè)方面證明,SML比其他清晰度檢測(cè)的方法具有更好的性能。所以該文對(duì)稀疏分量采用基于SML的融合規(guī)則。
首先分別計(jì)算稀疏分量SA和SB的SML值,得到SMLA和SMLB。像素點(diǎn)(i,j)處的SML值可通過(guò)如下公式計(jì)算:
(7)
其中,局部窗口的大小為m×n,文中m=n=3。拉普拉斯算子ML定義為:
(8)
其中,I(i,j)是像素點(diǎn)(i,j)處的像素值。
然后根據(jù)如下公式得到稀疏分量的初始融合決策圖G:
(9)
然而,初始決策圖中部分像素會(huì)出現(xiàn)不連貫的現(xiàn)象,因此需要對(duì)初始決策圖進(jìn)行優(yōu)化處理。引導(dǎo)濾波[7]是一種邊緣保持濾波器,具有較好的保留邊緣和去除噪聲的能力。該文用引導(dǎo)濾波器對(duì)決策圖G進(jìn)行平滑濾波,提高決策圖的空間一致性,公式如下:
DS=Guidedfilter(I,G,R,eps)
(10)
其中,DS是通過(guò)引導(dǎo)濾波器處理后的稀疏分量決策圖,I是引導(dǎo)圖像。為了使決策圖的邊緣與源圖像保持一致,該文用兩幅源圖像的均值作為引導(dǎo)圖像,即I=(IA+IB)/2。R表示引導(dǎo)濾波器的半徑,R值越大,平滑效果越好,但邊緣保持能力下降。eps表示正則化參數(shù),eps值越大,濾波效果越明顯。該文將R設(shè)為7,eps設(shè)為0.01。
最后,通過(guò)下式可得融合后的稀疏分量FS:
FS(i,j)=DS(i,j)SA(i,j)+
(1-DS(i,j))SB(i,j)
(11)
為了驗(yàn)證所提算法的有效性,從主觀視覺(jué)感知和客觀評(píng)價(jià)指標(biāo)兩個(gè)方面將文中方法與七種方法進(jìn)行比較,包括基于非下采樣輪廓波變換的方法[5](NSCT)、基于NSCT與SR相結(jié)合的方法[7](NSCT-SR)、基于引導(dǎo)濾波的方法[18](GF)、基于密度尺度不變特征變換的方法[3](DSIFT)、基于稀疏分解和背景檢測(cè)的方法[13](RPCA)、基于脈沖耦合神經(jīng)網(wǎng)絡(luò)的方法[10](PCNN)、基于卷積神經(jīng)網(wǎng)絡(luò)的方法[11](CNN)。實(shí)驗(yàn)選取了2種不同類(lèi)型的灰度圖像[18]進(jìn)行對(duì)比分析。
CNN模型的訓(xùn)練樣本是由ILSVRC 2012中的自然圖像生成的。將每個(gè)源圖像使用標(biāo)準(zhǔn)偏差為2,大小為7×7的高斯濾波器處理后,獲得五種具有不同模糊程度的模糊圖像。對(duì)于每類(lèi)模糊圖像和源圖像,隨機(jī)采樣20對(duì)大小為16×16的圖像塊,總共獲得100萬(wàn)對(duì)清晰和模糊的圖像塊。用Softmax損失函數(shù)作為網(wǎng)絡(luò)的目標(biāo)函數(shù),用隨機(jī)梯度下降法最小化損失函數(shù)。在訓(xùn)練過(guò)程中,批處理的大小設(shè)置為128。使用Xavier算法[14]初始化每個(gè)卷積層的權(quán)重,學(xué)習(xí)率為0.000 1。
圖5是“pepsi”圖像及不同方法的融合結(jié)果。從圖5(c)和(d)中可以看出,NSCT和NSCT-SR方法使融合圖像丟失了部分邊緣信息,可樂(lè)瓶左側(cè)的輪廓模糊。GF方法的融合圖像中桌子的底部細(xì)節(jié)保留不完整。DSIFT方法可以較好地提取源圖像中大部分的細(xì)節(jié)。圖5(g)顯示,基于RPCA的方法錯(cuò)誤提取了源圖像中條形碼的聚焦區(qū)域,融合圖像的視覺(jué)效果最差。PCNN的融合圖像有重影。圖6是圖5中方框區(qū)域的放大圖。NSCT和NSCT-SR算法在圖6(c)(d)中聚焦區(qū)域的偽輪廓是明顯的。DSIFT和RPCA算法使字母的邊界有一些擴(kuò)展,且RPCA算法的空間連續(xù)性較差,PCNN的融合結(jié)果中字體嚴(yán)重模糊。CNN和文中方法不會(huì)引入偽影,融合結(jié)果具有較高的視覺(jué)質(zhì)量。
圖5 源圖像“pepsi”及不同方法的融合結(jié)果
圖6 圖5中方框區(qū)域的放大圖
圖7是源圖像“office”及不同方法的融合結(jié)果。NSCT和NSCT-SR方法在融合圖像中的電腦區(qū)域引入了明顯的偽影,DSIFT、RPCA和PCNN方法使鬧鐘邊界處有不同程度的模糊,部分細(xì)節(jié)丟失并引入較多的人造紋理。CNN的融合結(jié)果中桌子邊緣不清晰。圖8是圖7中方框區(qū)域的放大圖。除所提算法以外,其余七種算法在人的頭部都引入了偽邊界,還有一些白色的偽影,人耳的輪廓模糊,圖像視覺(jué)質(zhì)量較差。文中方法的結(jié)果圖對(duì)比度較高,人耳和頭部細(xì)節(jié)保留完整,輪廓清晰,圖像融合效果更好。
圖7 源圖像“office”及不同方法的融合結(jié)果
圖8 圖7中方框區(qū)域的放大圖
為了定量評(píng)估不同融合方法的性能,選擇三種客觀評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估:結(jié)構(gòu)相似性[19](SSIM)、基于人類(lèi)視覺(jué)感知的度量[20](QCB)、邊緣梯度算子[21](QAB/F)。其中,SSIM根據(jù)圖像的結(jié)構(gòu)評(píng)估融合圖像和源圖像之間的相似性,SSIM值越大,融合結(jié)果與源圖像的結(jié)構(gòu)相似度越高。QCB是描述圖像視覺(jué)特性的度量,QCB值越大,圖像的對(duì)比度越高,視覺(jué)效果越好。QAB/F通過(guò)度量融合結(jié)果包含源圖像的邊緣信息量來(lái)評(píng)估融合性能,QAB/F值越大,融合圖像中包含的邊緣信息量越多。
表1列出了上述三種融合圖像的客觀評(píng)價(jià)結(jié)果。文中方法在QCB和QAB/F兩種指標(biāo)上都取得了最大值,說(shuō)明基于文中方法的融合結(jié)果中包含充分的紋理細(xì)節(jié)信息。其中有兩幅圖像在指標(biāo)SSIM上并未取得最大值,但是與最大值之間的差距較小,說(shuō)明融合圖像與源圖像在結(jié)構(gòu)上保持良好的一致性。這是因?yàn)槔肦PCA對(duì)圖像進(jìn)行分解,增強(qiáng)了算法的魯棒性。同時(shí)設(shè)計(jì)了基于卷積神經(jīng)網(wǎng)絡(luò)和SML的融合規(guī)則,提高了決策圖的準(zhǔn)確性,使融合圖像更符合人類(lèi)視覺(jué)感知。
表1 不同圖像融合結(jié)果的客觀指標(biāo)
提出了一種基于RPCA分解的多聚焦圖像融合方法。首先利用RPCA將源圖像分解為低秩和稀疏分量。然后利用基于CNN的融合規(guī)則得到低秩分量的融合決策圖,可以更好地提取圖像的細(xì)節(jié)信息。對(duì)于稀疏分量,采用基于SML值取大的方法構(gòu)建決策圖,再用引導(dǎo)濾波器對(duì)決策圖進(jìn)行優(yōu)化,提高了決策圖的空間一致性。最后通過(guò)重構(gòu)得到最終的融合圖像。將所提方法與七種經(jīng)典方法進(jìn)行比較,從主觀和客觀的分析結(jié)果可以表明,所提方法能準(zhǔn)確地提取聚焦區(qū)域,充分保留了源圖像的細(xì)節(jié)信息,融合結(jié)果更自然。