翟 浩,莊 毅
(南京航空航天大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,南京 211106)
在數(shù)碼攝影中,由于光學(xué)透鏡的有限景深,很難獲得一幅所有相關(guān)目標都聚焦的全聚焦圖像.一般情況下,只有位于焦平面上的目標是聚焦的或者清晰的,而位于焦平面其它位置例如焦平面之前或者之后的目標則都是離焦的或者模糊的.多聚焦圖像融合技術(shù)是是一種有效的可以合成相同場景下不同聚焦設(shè)置采集到的多幅源圖像,獲得一幅單一的具有擴展景深的融合圖像.目前,多聚焦圖像融合技術(shù)已經(jīng)應(yīng)用到了大量的應(yīng)用領(lǐng)域,例如顯微成像、數(shù)碼攝影、視頻監(jiān)控以及計算機視覺等領(lǐng)域[1].近些年,出現(xiàn)了大量的多聚焦圖像融合方法.根據(jù)空間域的不同,這些融合方法大致可以分為兩大類:基于變換域的方法和基于空域的方法[2].
基于變換域的融合方法一般主要包括三個步驟:分解、融合和重構(gòu).基于稀疏特征矩陣分解和形態(tài)學(xué)濾波的多聚焦圖像融合方法被提出來[3].該方法通過將源圖像進行稀疏特征分解形成稀疏特征矩陣,然后對該稀疏特征矩陣進行加權(quán)形成一個臨時矩陣,最后對該臨時矩陣進行形態(tài)學(xué)濾波,再結(jié)合基圖像,形成最終的融合圖像.接著,基于圖像分解的多聚焦圖像融合方法被提出來[4],該方法通過使用改進的迭代重加權(quán)分解算法將源圖像分解成卡通分量和紋理分量,然后對卡通分量和紋理分量分別進行融合,形成最終的融合圖像.此外,基于多級形態(tài)分量分析和支持向量機的多聚焦圖像融合方法被提出來[5],該方法通過使用多級形態(tài)分量分析分解源圖像,并從自然層提取特征向量.然后使用訓(xùn)練過的二類支持向量機對這些特征向量進行分類,最后融合系數(shù)形成最終的融合圖像.這類融合方法極易導(dǎo)致最終的融合圖像產(chǎn)生對比度或者清晰度下降的問題.
同基于變換域的方法相比,在基于空域的融合方法中,融合規(guī)則直接應(yīng)用到像素、子塊和區(qū)域的.根據(jù)聚焦度量方法,選擇具有較高清晰度的像素、子塊或者區(qū)域進行重構(gòu)來形成最終的融合圖像.一種基于四叉樹結(jié)構(gòu)利用權(quán)重聚焦度量的多聚焦圖像融合方法被提出來[6],根據(jù)有效的四叉樹分解策略,把源圖像分解成四叉樹結(jié)構(gòu)下最優(yōu)尺寸的子塊,采用權(quán)重修改拉普拉斯和來檢測清晰區(qū)域,并將這些清晰區(qū)域組合成全聚焦圖像.接著,基于多尺度形態(tài)學(xué)聚焦度量尋找邊界的多聚焦圖像融合方法被提出來[7].該方法通過采用一種形態(tài)學(xué)聚焦度量方法來獲取邊界區(qū)域和非邊界區(qū)域,然后采用融合方法對邊界區(qū)域和非邊界區(qū)域分別進行融合.其中,最具代表性的是基于梯度信息的方法[7-8]和基于深度學(xué)習(xí)的方法[9-11].在基于空域的融合方法中,由于分割區(qū)域的形狀或者聚焦度量準則難以確定,所以基于空域的融合方法通常很難精確的獲得精確的分割邊界,并且最終的融合圖像在分割邊界附近將會產(chǎn)生嚴重的偽影效果.
針對以上問題,利用拉普拉斯能量和CNN的多聚焦圖像融合方法被提出來,該方法的優(yōu)勢主要體現(xiàn)在以下三方面.第一,直接采用源圖像中的像素進行融合,克服了融合圖像中清晰度或者對比度下降的問題.第二,采用拉普拉斯能量作為聚焦度量法則,可以有效的提取源圖像中的細節(jié)信息,這對于選擇更高清晰度的子塊至關(guān)重要.第三,由于訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)模型具有很強的學(xué)習(xí)子塊相對聚焦度的能力,因此該方法可以獲得非常精確的分割邊界.
目前,卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用于計算機視覺的大量應(yīng)用領(lǐng)域,例如臉部檢測[12]、臉部識別[13]、超分辨率[14]以及塊相似性對比[15]等等.受卷積神經(jīng)網(wǎng)絡(luò)模型在特征提取和分類中具有強大能力的啟發(fā),利用拉普拉斯能量和CNN的多聚焦圖像融合方法被提出來.在本研究中主要探討兩幅源圖像的融合問題,多幅源圖像的融合問題可以按照兩幅源圖像的融合順序依次進行融合.提出方法的框架如圖1所示.從圖1中可以看出,提出的方法主要包括5個階段:聚焦度量、CNN聚焦、二值分割、小區(qū)域濾波和融合階段.
接下來,詳細的展示多聚焦圖像的融合過程,將采用Lytro數(shù)據(jù)集中的“child”圖像作為實驗對象,提出方法的融合過程如圖2所示.首先對源圖像進行聚焦度量,分別獲得兩幅源圖像對應(yīng)的聚焦信息圖.根據(jù)柵欄掃描的順序,采用滑動窗口依次獲取聚焦信息圖的對應(yīng)子塊.同理,通過滑動窗口的不斷采樣,用于獲得聚焦信息圖中所有的樣本數(shù)據(jù).把這些樣本數(shù)據(jù)反饋至訓(xùn)練后的CNN模型,獲得這些樣本數(shù)據(jù)的預(yù)測標簽值.對這些標簽值重新排列成源圖像的尺寸,獲得聚焦圖.最后,對聚焦圖進行二值分割和小區(qū)域濾波的處理,獲得一個正則化的最終決策圖.根據(jù)最終決策圖對兩幅源圖像進行融合,形成最終的融合圖像.
圖1 提出方法的框架
圖2 提出方法的融合過程
根據(jù)文獻[16]中的客觀度量,EOL是空域融合方法中首選的聚焦度量方法.對于每個像素,計算獲得的EOL作為該子塊拉普拉斯的局部平均值.因此,獲得聚焦信息圖的公式如式(1)所示.其中H是平均濾波器,?和2分別表示卷積運算和拉普拉斯運算.對于濾波器H,高斯濾波器的尺寸為5*5,并且靠近局部窗口中心的拉普拉斯值大于遠離局部窗口中心的拉普拉斯值.具體的計算公式如式(2)所示.對于由兩個變量i和j構(gòu)成的一幅數(shù)字圖像,拉普拉斯是最簡單的各向異性的導(dǎo)數(shù)運算.
M=H?(2×I),
(1)
(2)
聚焦信息圖展示的是源圖像的高頻信息,在清晰區(qū)域具有較大的值而在模糊區(qū)域具有較小的值.兩幅源圖像的聚焦信息圖如圖2所示,清晰區(qū)域包含更多的細節(jié)信息,而模糊區(qū)域則是相反的.在對聚焦信息圖計算完后,創(chuàng)建訓(xùn)練樣本集來對CNN模型進行優(yōu)化.對于每一對源圖像,采用滑動窗口的方式依次獲取對應(yīng)的聚焦信息圖子塊.
多聚焦圖像融合問題可看作是一個二類分類的問題.為此,使用大量的訓(xùn)練樣本數(shù)據(jù)作為訓(xùn)練對象,每個相同場景的對應(yīng)子塊作為一組訓(xùn)練數(shù)據(jù).對于一個樣本{pA,pB}當(dāng)pA比pB更加清晰,則該樣本被認定為正向樣本,并且該樣本的標簽值設(shè)定為1.反之,當(dāng)pB比pA更加清晰,則該樣本被認定為負向樣本,并且該樣本的標簽值設(shè)定為0.使用常用的灰度多聚焦圖像集作為訓(xùn)練樣本數(shù)據(jù).對于彩色圖像,首先要轉(zhuǎn)化成灰度圖像.對于每對多聚焦圖像對,隨機從多聚焦圖像集中選取尺寸為16*16的塊作為采樣數(shù)據(jù).在本研究中,最終的訓(xùn)練樣本數(shù)據(jù)共包含500 000個正向樣本和500 000個負向樣本.
首先,面臨的重要問題就是窗口尺寸的問題.當(dāng)窗口尺寸過大或者過小,生成的聚焦圖都不會很理想,只有合適的窗口尺寸才能獲得最好的效果.當(dāng)窗口尺寸過大,活躍窗口更容易同時包含聚焦區(qū)域和離焦區(qū)域,導(dǎo)致融合圖像的分割邊界不精確.當(dāng)窗口尺寸過小,CNN模型的分類準確率會降低,這樣會導(dǎo)致大量的標簽誤選.基于以上考慮以及窗口尺寸的實驗,當(dāng)設(shè)置窗口的尺寸為16*16時,獲得的聚焦圖效果最好.
其次,當(dāng)使用CNN時,需要先確定CNN的網(wǎng)絡(luò)結(jié)構(gòu).提出方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示.該CNN的網(wǎng)絡(luò)結(jié)構(gòu)共包含5層,其中包含1個輸入層,3個卷積層和1個最大池層.第1層是輸入層.輸入是聚焦信息圖對應(yīng)的子塊,其尺寸為16*16.第2層是卷積層.使用尺寸為3*3和幅度為1的卷積核對輸入子塊進行卷積.卷積后獲得16個特征圖,其中特征圖的尺寸為14*14.第3層是卷積層.同樣使用尺寸為3*3和幅度為1的卷積核對第2層輸出的特征圖進行卷積運算.卷積后獲得32個特征圖,其中特征圖的尺寸為12*12.第4層是最大池層.使用尺寸為2*2和幅度為2的下采樣核來對第3層輸出的特征圖進行最大池運算,池運算后可以獲得32個特征圖,其中特征圖的尺寸為6*6.第5層是卷積層,使用尺寸為3*3和幅度為1的卷積核對第4層的特征圖進行卷積運算.卷積后獲得64個特征圖,其中特征圖的尺寸為4*4.接下來,對每個分支的64個特征圖進行連接形成一個尺寸為[2 048,1]的特征向量F1.然后對該特征向量進行全連接運算,形成一個尺寸為[2,1]的特征向量F2.最后使用Softmax函數(shù)對該特征向量F2進行計算,形成尺寸為[2,1]的特征向量F3.該特征向量F3的每個值分別表示屬于各個類的概率.
在訓(xùn)練過程中,對于一個樣本數(shù)據(jù),首先把該樣本數(shù)據(jù)先轉(zhuǎn)化成活躍窗口WA和WB,然后采用前向傳播和反向傳播兩個階段來進行卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)優(yōu)化.卷積層的前向傳播見式(3).其中,Xi為第i個輸入特征圖,Kij為第i個輸入特征圖和第j個輸出特征圖對應(yīng)的卷積核,而bj為第j個輸出特征圖的偏置值.此外,n為輸入特征圖的個數(shù),f函數(shù)為Relu激活函數(shù),并且符號×表示的是卷積運算.
(3)
前向傳播過程中的池化層可以看作是一個下采樣層.對于下采樣層來說,輸入特征圖和輸出特征圖的個數(shù)是相同的,只是輸出特征圖的尺寸變小了.池化層的運算一般有兩種:最大池和平均池.池化層的運算一般是對輸入圖像的不同子塊獲取其最大值或者平均值,來作為該子塊的輸出值.每個輸出圖都有一個乘性偏置β和一個加性偏置b.池化層的前向傳播見式(4).其中,down()表示一個下采樣函數(shù).
(4)
(5)
全部訓(xùn)練集上的誤差其實就是每個樣本誤差的總和,因此N個樣本的總誤差如式(6)所示.
(6)
假設(shè)W表示所有待優(yōu)化參數(shù)組成的向量.若能從中找出一組參數(shù)W*來最小化EN,那么該組參數(shù)W*則為所要尋找的最優(yōu)參數(shù),如式(7)所示.
(7)
由于EN中的參數(shù)過多,所以一般的方法很難求得其最小值.對此,一般都是使用梯度下降的方法來進行求解,具體求解過程如式(8)所示.其中,α為學(xué)習(xí)效率.EN直接對參數(shù)求導(dǎo)是十分復(fù)雜的,所以先用EN對輸入加權(quán)和求導(dǎo),在用輸入加權(quán)和對參數(shù)求導(dǎo).至此,卷積神經(jīng)網(wǎng)絡(luò)的所有參數(shù)優(yōu)化完成.
(8)
將多聚焦源圖像對反饋至訓(xùn)練后的CNN模型,獲得一個聚焦圖.此時的聚焦圖中還存在一些誤判的標簽.采用“選擇最大”的策略來對聚焦圖進行進一步的修正,有助于去除聚焦圖中一些誤判的標簽,進一步完善聚焦圖.使用設(shè)定的閾值來對聚焦圖進行分割形成二值圖,詳細的計算過程如式(9)所示.其中,M表示聚焦圖,B表示二值圖,并且T表示設(shè)定的閾值.本文中設(shè)定的閾值為0.5.
(9)
此時,二值圖中仍然存在一些類似“孔洞”的小區(qū)域,通過小區(qū)域濾波可以有效的處理這些“孔洞”問題.具體來說,在二值圖中小于閾值面積的區(qū)域需要進行反轉(zhuǎn).通常情況下,當(dāng)圖像中區(qū)域的面積<0.01×H×W時,該區(qū)域相對于整幅圖像來說屬于較小的區(qū)域.其中,H和W分別表示每幅源圖像的高度和寬度.因此,把區(qū)域面積尺寸<0.01×H×W的區(qū)域認定為小區(qū)域,通過對這些小區(qū)域的去除形成最終決策圖.
最后,根據(jù)最終決策圖提供的權(quán)重分配圖,對多聚焦源圖像進行融合.具體的融合規(guī)則如式(10)所示.其中,多聚焦源圖像分別為A、B,最終決策圖為D,而最終的融合圖像為F.如果多聚焦源圖像是彩色圖像,使用最終決策圖的分配權(quán)重分別對彩色圖像的各個通道進行融合.最后,重新組合各個融合后的通道形成最終的融合圖像.
F(x,y)=A(x,y)×D(x,y)+B(x,y)×
(1-D(x,y)).
(10)
在本實驗中,提出方法的有效性主要是通過兩組不同的公開圖像數(shù)據(jù)集進行驗證.第一組采用的是常用的灰度圖像數(shù)據(jù)集,包含20對不同尺寸的常用多聚焦灰度圖像對.第二組采用的是Lytro彩色多聚焦圖像數(shù)據(jù)集,共包含20對尺寸為520*520的彩色圖像.圖4展示了本文所采用的部分灰度多聚焦圖像數(shù)據(jù)集和Lytro彩色多聚焦圖像數(shù)據(jù)集.與最近提出的一些圖像融合方法PCNN[17]、PC[18]、FFIF[19]、BFM[7]和CNN[9]進行對比,來展示提出方法的優(yōu)越性.
近年來,對融合圖像的質(zhì)量進行評價,提出了許多客觀度量指標.本文所采用的客觀度量指標包括以下4個.第1個指標采用的是歸一化互信息指標[20]QNMI.該度量指標主要是測量源圖像和融合圖像的相關(guān)程度,即源圖像傳遞到融合圖像的原始信息量.QNMI的公式如式(11)所示,其中H(IA)、H(IB)和H(IF)分別表示源圖像A、B和融合圖像F的信息熵,而MI(IA,IF)和MI(IB,IF)表示的是源圖像A、B與融合圖像F的互信息.
(11)
圖4 部分多聚焦圖像數(shù)據(jù)集
第3個指標采用的是基于結(jié)構(gòu)相似性的度量指標[22]QSSIM.該指標主要是用來度量源圖像和融合圖像的結(jié)構(gòu)相似性.QSSIM的式如(13)所示,并且λ(w)的式如(14)所示.其中,s(A|w)和s(B|w)是A和B在局部窗口w的活躍程度.
(13)
(14)
第4個指標采用的是基于人類視覺度量的指標[23]QHP,該指標主要是用來度量源圖像和融合圖像的人類視覺系統(tǒng)中主要特征的相似性.全局質(zhì)量圖QGDM的公式如(15)所示,其中,QAF(i,j)表示從源圖像A傳遞到融合圖像F的對比度,QBF(i,j)與QAF(i,j)的定義是相同的.λA和λB分別是QAF(i,j)和QBF(i,j)的顯著圖.全局質(zhì)量圖QGDM的平均值作為QHP的度量值,如式(16)所示.
QGQM(i,j)=λA(i,j)QAF(i,j)+λB(i,j)QBF(i,j),
(15)
(16)
2.2.1 視覺效果對比
展示提出的方法可以生成具有良好視覺效果的融合圖像,分別選擇具有代表性的灰度圖像“disk”和Lytro彩色圖像“child”進行實驗.以“disk”為實驗對象,本文方法與其它圖像融合方法的實驗結(jié)果如圖5所示.從圖5中可以看出,PCNN方法的融合圖像在鐘表的邊框產(chǎn)生了較為嚴重的失真,并且也伴有明顯的對比度下降.PC方法中的融合圖像在鐘表的邊框上方產(chǎn)生了大面積的模糊效果.QT方法的融合圖像則是在鐘表的上邊框產(chǎn)生了小面積的模糊效果,而且在鐘表的左表框產(chǎn)生了兩個嚴重的缺口.BFM方法的融合圖像在鐘表邊框上方產(chǎn)生了較為嚴重的偽影.FFIF方法的融合圖像在鐘表的左邊框產(chǎn)生了兩個較為嚴重的缺口.CNN方法的融合圖像在鐘表的左邊框產(chǎn)生了明顯的偽影效果.同其它的圖像融合方法相比,提出的方法則是展現(xiàn)了較好的融合效果.
圖5 不同圖像融合方法的“disk”融合效果
對本文方法的融合性能進行測試,有必要對彩色圖像數(shù)據(jù)集Lytro進行實驗驗證.以“child”圖像作為實驗對象,不同圖像融合方法的實驗結(jié)果如圖6所示.從圖6中可以看出,PCNN方法的融合圖像具有明顯的失真.PC方法的融合圖像在耳朵上方和分界區(qū)域出現(xiàn)了大面積的模糊效果.QT方法的融合圖像在一些區(qū)域產(chǎn)生了明顯的偽影效果.BFM方法的融合圖像不僅在耳朵上方產(chǎn)生了嚴重的模糊效果,而且在分界區(qū)域也產(chǎn)生了明顯的偽影效果.FFIF方法的融合圖像在很多區(qū)域都產(chǎn)生了嚴重的偽影效果.CNN和提出方法的融合效果較好,具有良好的視覺效果.不同圖像融合方法的性能通過對不同融合方法的最終決策圖進行展示,如圖7所示.從圖7中可以看出,與其它圖像融合方法相比,CNN和提出的方法獲得了更精確的最終決策圖.
圖6 不同圖像融合方法的“child”融合效果.
2.2.2 定量比較
更加客觀的對不同圖像融合方法的性能進行對比,使用QNMI、QG、QSSIM和QHP等4個評價指標來評價不同圖像融合方法的性能優(yōu)劣.對于灰度多聚焦圖像數(shù)據(jù)集,不同圖像融合方法的客觀度量指標的平均值如表1所示,每一項評價指標中最好的結(jié)果用粗體表示.從表1中可以看出,本文提出方法的實驗結(jié)果優(yōu)于其它圖像融合方法.
圖7 不同圖像融合方法的最終決策
表1 不同圖像融合方法在灰度多聚焦圖像集的客觀度量結(jié)果
對于Lytro彩色圖像數(shù)據(jù)集,不同圖像融合方法的客觀度量指標的平均值如表2所示.從表2可以看出,提出的融合方法在Lytro數(shù)據(jù)集上也展現(xiàn)出了較好的實驗結(jié)果.更清晰的展示提出方法的優(yōu)越性,對兩個數(shù)據(jù)集進行整體分析.其中,不同圖像融合方法在整個數(shù)據(jù)集上的客觀度量指標的平均值如表3所示.
2.2.3 中間融合結(jié)果以及多幅源圖像的融合
提出的方法在多聚焦圖像融合的有效性,對6對多聚焦源圖像的中間融合結(jié)果進行展示,如圖8所示.從二值圖可以看出,聚焦圖中的大部分像素都進行了準確的分類,只有平滑區(qū)域的一些標簽做出了誤判.采用小區(qū)域濾波技術(shù)可以完美的去除二值圖中的誤判標簽.從最終的決策圖可以看出,不僅聚焦圖中的所有像素都進行了準確的分類,而且在聚焦區(qū)域和離焦區(qū)域之間獲得了精準的分割邊界.
表2 不同圖像融合方法在Lytro數(shù)據(jù)集的客觀度量結(jié)果
表3 不同圖像融合方法對整個數(shù)據(jù)集的客觀度量結(jié)果
圖8 部分多聚焦圖像的中間融合結(jié)果
對于兩幅以上的多聚焦源圖像進行融合,提出的方法同樣是適用的.展示提出的方法對于兩幅以上的多聚焦源圖像的融合問題,采用Lytro數(shù)據(jù)集中的三幅源圖像進行實驗.三幅多聚焦源圖像和最終的融合圖像如圖9所示.從圖9中可以看出,在沒有引入偽影的前提下,所有源圖像中的聚焦區(qū)域都集成到了最終的融合圖像當(dāng)中.
圖9 三幅多聚焦源圖像的融合
2.2.4 參數(shù)討論
對于窗口尺寸的問題,選擇常用的滑動窗口尺寸4*4、8*8、16*16和32*32進行實驗.當(dāng)窗口尺寸為4*4和8*8時,由于活躍窗口包含的信息較少,所以在聚焦圖中存在大量的標簽誤選.反之,當(dāng)窗口尺寸為32*32時,雖然活躍窗口包含的信息更加豐富,有助于提高聚焦圖中預(yù)測標簽的準確率,但是較大的窗口容易導(dǎo)致聚焦區(qū)域之間的分割邊界不精確.只有當(dāng)窗口尺寸為16*16時,聚焦區(qū)域之間的分割邊界才很精確.此時,雖然在聚焦區(qū)域內(nèi)仍然存在少量的誤選標簽,但是這些誤判的標簽可以通過小區(qū)域濾波進行去除.對于整個數(shù)據(jù)集,不同窗口尺寸的實驗結(jié)果如表4所示.從表4可以看出,當(dāng)窗口尺寸為16*16時,提出的方法獲得的融合效果是最好的.
表4 不同窗口尺寸的實驗結(jié)果
對于二值分割的閾值問題,選取主要的分割閾值0、0.25、0.5、0.75和1進行實驗.當(dāng)分割閾值為0.25或者0.75時,與分割閾值0.5相比,不僅聚焦區(qū)域之間的分割邊界不精確,而且聚焦區(qū)域內(nèi)存在更多的誤判標簽.當(dāng)分割閾值為0或者1時,與分割閾值0.25或0.75相比,獲得聚焦圖的實驗結(jié)果更差.對于整個數(shù)據(jù)集,不同分割閾值的實驗結(jié)果如表5所示.從表5可以看出,當(dāng)分割閾值為0.5時,提出的方法可以獲得最好的融合效果.
表5 不同分割閾值的實驗結(jié)果
在本文中,利用拉普拉斯能量和卷積神經(jīng)網(wǎng)絡(luò)的多聚焦圖像融合方法被提出來.該方法的新穎之處在于拉普拉斯能量算子可以有效的提取源圖像中的聚焦信息,并且訓(xùn)練后的CNN模型根據(jù)提取的聚焦信息可以準確的區(qū)分清晰子塊和模糊子塊.清晰子塊和模糊子塊的聚焦特征完全不同,并且訓(xùn)練后的CNN模型具有很好的分類能力.在經(jīng)過大量的樣本訓(xùn)練后,對于給定的多聚焦源圖像對,提出的方法可以產(chǎn)生精確度很高的聚焦圖.在經(jīng)過二值分割和小區(qū)域濾波后獲得精準的決策圖.根據(jù)最終的融合圖像可以看出,提出的方法不僅精確的提取了源圖像中的聚焦區(qū)域,而且獲得了精確的分割邊界.實驗結(jié)果表明無論從融合圖像的視覺效果還是從客觀評價指標來看,提出的方法均優(yōu)于已有的其它融合方法.在未來,深度學(xué)習(xí)的方法會進一步促進多聚焦圖像融合技術(shù)的發(fā)展.