陳紹兵,陶青川,余艷梅
(四川大學(xué)電子信息學(xué)院,成都 610065)
21世紀(jì)以來,遙感圖像的研究由于諸多高分辨率的衛(wèi)星的發(fā)射得到了巨大的進(jìn)展,國外的Landsat,Sentinel,WorldView,QuickBird,Geo-Eye-1等系列衛(wèi)星已經(jīng)得到了很好的衛(wèi)星影像[1],并且在遙感圖像處理領(lǐng)域有了很快速的發(fā)展。相比于國外,國內(nèi)發(fā)展就比較緩慢,1999年10月14日,我國與巴西在航天領(lǐng)域首次合作成功發(fā)射“資源一號(hào)”衛(wèi)星[2],2013年4月26日,我國首發(fā)高分辨率衛(wèi)星——高分一號(hào)。這些衛(wèi)星的相繼發(fā)射使得我國在多光譜與高時(shí)間分辨率結(jié)合的光學(xué)遙感技術(shù)方面取得了重要的奠基。衛(wèi)星捕捉到的遙感圖像分成兩類,一類是具有高分辨率的全色圖像(PAN),另一類是具有低分辨率的多光譜圖像(LRMS)。隨著研究的需要,如何得到高分辨率的多光譜圖像成為了一個(gè)重要的研究方向,其本質(zhì)就是將得到的全色圖像和多光譜圖像進(jìn)行融合,得到高質(zhì)量的多光譜圖像(HRMS),這一融合的過程就叫“全銳化”(Pan-sharpening),如圖1所示。
圖1 遙感圖像“全銳化”過程
多源遙感圖像融合發(fā)展至今,誕生出了許多不同的算法,大致可分為三類:
(1)像素層數(shù)據(jù)融合。原理是根據(jù)像素基于一定的規(guī)則進(jìn)行像素級融合。比較經(jīng)典的算法是分量替換(component substitution,CS),它是通過分離空間信息和光譜信息,將高分辨率的空間信息替換為PAN圖像的空間信息,從而實(shí)現(xiàn)全銳化的處理。
(2)特征層數(shù)據(jù)融合。相較于像素層的融合可以提取出更多的表示遙感圖像的幾何特征,將這些特征進(jìn)行分層處理,低層的特征分辨率高,包含更多的位置、細(xì)節(jié)信息,高層的特征有更強(qiáng)的語義信息,但分辨率低,對兩者的優(yōu)點(diǎn)進(jìn)行融合是這種算法的研究所在。張等人[3]提出了一種優(yōu)化的貝葉斯估計(jì)多源融合的算法,針對基礎(chǔ)貝葉斯進(jìn)行優(yōu)化,得到了更好的融合效果。還有聚類分析,神經(jīng)網(wǎng)絡(luò)都是解決這一特征層融合的算法。
(3)決策層數(shù)據(jù)融合。它是通過多個(gè)傳感器監(jiān)測同一個(gè)目標(biāo),每個(gè)傳感器完成基本的預(yù)處理等操作,然后由決策層融合判定需要哪些數(shù)據(jù)。Jeon等人[4]采用聯(lián)合似然和主體加權(quán)的方法進(jìn)行決策數(shù)據(jù)融合,使分類效果得到明顯的改善。
最近幾年,深度學(xué)習(xí)由于卷積神經(jīng)網(wǎng)絡(luò)的提出飛速發(fā)展,誕生出了很多經(jīng)典的模型:VGG[5]、ResNet[6]、GAN[7]等優(yōu)秀的網(wǎng)絡(luò)模型結(jié)構(gòu)都在各自的領(lǐng)域里表現(xiàn)出了良好的效果,這也為本文后面的遙感圖像的融合奠定了基礎(chǔ)。GAN在遙感圖像融合方面也出現(xiàn)了不同的應(yīng)用,Yang等人[8]提出了將GAN網(wǎng)絡(luò)運(yùn)用到遙感圖像融合的領(lǐng)域中,得到了比以前傳統(tǒng)方法更好的效果。Ma等人[9]設(shè)計(jì)了兩個(gè)判別器來分別訓(xùn)練遙感圖像的光譜信息和空間信息,最后融合來生成高質(zhì)量的遙感圖像。Liu等人[10]則將GAN網(wǎng)絡(luò)的輸入變成了兩分支結(jié)構(gòu)從而很好的提取出了LRMS和PAN圖像各自的特征,實(shí)驗(yàn)結(jié)果表明效果較好。
前面提到的算法雖然能夠得到HRMS圖像,但是對于一些細(xì)節(jié)的紋理部分,依然存在不細(xì)致的問題,這是因?yàn)樵谔崛D像的特征時(shí),沒有根據(jù)圖像的區(qū)域整體提取上下文的特征?;谶@個(gè)問題,本文對于以前的網(wǎng)絡(luò)進(jìn)行改進(jìn),得到了更高空間分辨率的HRMS圖像。這篇文章的主要貢獻(xiàn)如下:
(1)本文在輸入圖像特征提取部分,加入了提取上下文信息的結(jié)構(gòu),能夠更好的提取到圖像的細(xì)節(jié)特征。
(2)本文評估了判別器的不同配置,確定了判別器的殘差模塊層數(shù)。
(3)本文證明了在常用的數(shù)據(jù)集上得到了很好的效果。
GAN的基本原理其實(shí)與一般的神經(jīng)網(wǎng)絡(luò)類似,唯一的區(qū)別在于GAN分為生成器和判別器兩個(gè)網(wǎng)絡(luò)。本文令G為生成器,D為判別器,G通過接收一個(gè)隨機(jī)的噪聲z作為輸入,生成的噪聲圖片為G(z)。D判斷G的輸入是否為真,x是輸入的圖片,D(x)是判別的概率。在訓(xùn)練過程中,生成器G的目的就是盡量生成真實(shí)的圖片去欺騙判別網(wǎng)絡(luò)D,而D的目標(biāo)就是盡量把G生成的圖片與真實(shí)圖片區(qū)分開。這樣,G和D就形成了一個(gè)“動(dòng)態(tài)博弈”的過程。最終的理想博弈結(jié)果就是,G生成了可以以假亂真的圖片G(z),判別器D難以判別G生成的圖片,最終D(x)=0.5。
最后,其原理公式[7]描述如下:
其中V是D和G的極大極小值函數(shù)。
本文網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖2所示。主要的網(wǎng)絡(luò)結(jié)構(gòu)是基于GAN的,同時(shí)受到文獻(xiàn)[10]的啟發(fā),兩分支的GAN比單分支的GAN效果更好,所以本文也采用兩分支的GAN作為基礎(chǔ)架構(gòu),并在其基礎(chǔ)上引入了Resblock[6],改進(jìn)了特征提取的效果。整個(gè)訓(xùn)練的流程從左邊開始,輸入兩個(gè)圖像LRMS和PAN到生成器中融合成全銳化的圖像,即HRMS。然后,HRMS和真實(shí)的圖像再輸入到判別器中進(jìn)行判別,判斷HRMS是真或假。兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)互相對抗博弈,從而使生成器生成的圖像更加接近真實(shí)圖像。
生成器的目的就是生成最逼真的假HRMS來欺騙判別器,與一般的GAN不同,遙感圖像有兩種類型的圖片,因此要分別進(jìn)行特征提取處理。如圖2中左邊的虛線框所示,生成器由Concat連接模塊和多個(gè)Resblock[6]殘差模塊組成,因?yàn)橐酝腉AN網(wǎng)絡(luò)都只是通過簡單的卷積來提取特征,沒有很好的處理局部上下文之間的聯(lián)系,而殘差模塊在每三層卷積后融入了最上層的特征,提取到了細(xì)節(jié)的紋理信息。
圖2 整體網(wǎng)絡(luò)結(jié)構(gòu)
Resblock由兩部分組成:①Convblock,它把最上層的特征x再進(jìn)行卷積提取得到x(shortcut),將其加入到最后一層作為輸出,如圖3所示。②Idblock,它是直接將最上層的特征x加入到最后一層作為輸出,如圖4所示。同時(shí)在每層卷積后本文使用了泄露整形線性單元LeakyReLU[11],這種激活函數(shù)可以很好的處理小于0的特征值,防止了在訓(xùn)練時(shí)梯度消失的問題。本文使用一個(gè)Convblock加兩個(gè)Idblock合成為一個(gè)Resblock作為生成器的基礎(chǔ)特征提取單元。
圖3 Convblock模塊
圖4 Idblock模塊
與生成器類似,本文也采用了Resblock殘差模塊來組成,開始設(shè)計(jì)的時(shí)候本文首先使用的是VGG[5]的架構(gòu)作為判別器的基礎(chǔ),結(jié)果發(fā)現(xiàn)生成器很快就收斂了,說明判別器判別能力比較弱,無法訓(xùn)練得到最好的結(jié)果。所以本文將其替換為Resblock殘差模塊以便更好的判別生成器的輸入。與生成器有點(diǎn)不同,判別器是一個(gè)Convblock和一個(gè)Idblock合成為Resblock作為基礎(chǔ)的特征提取單元。判別器結(jié)構(gòu)如圖2右邊虛線框所示。
為了更好的平衡生成器和判別器之間的訓(xùn)練,本文采用了文獻(xiàn)[10]的損失函數(shù)作為訓(xùn)練。生成器和判別器的損失函數(shù)如下所示:
其中,N是一批訓(xùn)練樣本的數(shù)量,α和β是超參數(shù),X和Y分別是LRMS和PAN圖像,Θ是模型的參數(shù)集合,P是理想的HRMS圖像。
因?yàn)樾l(wèi)星進(jìn)行采集沒有真實(shí)的圖像作為對照,如同文獻(xiàn)[10],根據(jù)Wald等人[13]提出的將LRMS下采樣作為一個(gè)更低質(zhì)量的圖像進(jìn)行輸入,而原來的LRMS圖像就作為真實(shí)圖像作為對比。數(shù)據(jù)集采用QuickBird(QB)和WorldView-2(WV-2)。兩個(gè)數(shù)據(jù)集都由9對圖像構(gòu)成,8對作為訓(xùn)練,1對作為測試,由于遙感圖像尺寸很大,本文將LRMS和PAN分別裁剪成64×64和256×256的大小,批次設(shè)置成2。裁剪過后兩個(gè)數(shù)據(jù)集分別為25038和11552萬張圖像樣本。
訓(xùn)練的環(huán)境是TensorFlow來實(shí)現(xiàn)的代碼,訓(xùn)練的GPU是英偉達(dá)GTX1080ti。本文使用Adam優(yōu)化器來進(jìn)行模型的優(yōu)化訓(xùn)練,初始訓(xùn)練率設(shè)為0.0002且動(dòng)量設(shè)為0.5。
本文使用5個(gè)大多數(shù)先進(jìn)方法使用的評價(jià)指標(biāo)來評估融合后的圖像效果,這些指標(biāo)都顯示了融合圖像的優(yōu)劣。
(1)SAM[14]。光譜角圖(spectral angle mapper,SAM)是將圖像中的每個(gè)像元的光譜視為一個(gè)高維向量,通過計(jì)算兩向量間的夾角來度量光譜間的相似性,夾角越小,兩光譜越相似。計(jì)算公式如下:
其中t和r是兩個(gè)光譜向量,此數(shù)值越小越好。
(2)CC。相關(guān)系數(shù)(correlation coefficient,CC)表明了兩幅圖像的相關(guān)程度,定義如下:
其中,X和F是兩幅輸入的圖像,大小為M×N,此數(shù)值越大越好。
(3)SCC[15]。空間相關(guān)系數(shù)(spatial correlation coefficient,SCC)表示的是兩幅圖像的空間信息相關(guān)程度,與CC相似,此數(shù)值越高越好。計(jì)算公式如下:
其中G和F分別表示LRMS和PAN圖像,μF和μG分別代表兩種圖像的均值。
(4)ERGAS[16]。綜合相對無量綱全局誤差(erreur relative globale adimensionnelle desynthese,ERGAS),定義如下:
其中,h∕l是PAN圖像與LRMS圖像像素尺寸比,RMSE(k)和μ(k)是RMSE和第k個(gè)通道的均值,此數(shù)值越小越好。
(5)Q4[17]。Q4是Q的四頻帶延伸,定義如下:
Z1和Z2是LRMS圖像的譜向量組成的四元數(shù),μZ1和μZ1是Z1和Z2的均值,σ表示協(xié)方差。
根據(jù)前人的經(jīng)驗(yàn)[6],Resnet-101比Resnet-50表現(xiàn)結(jié)果要好,而且一般認(rèn)為網(wǎng)絡(luò)結(jié)構(gòu)越深能夠獲取到的特征越豐富,更能夠擬合模型,識(shí)別出好的結(jié)果。然而,在本文的實(shí)驗(yàn)中,本文分別測試了判別器1-4層的Resblock模塊,每一個(gè)Resblock模塊由一個(gè)Convblock模塊,一個(gè)Idblock模塊和LeakyReLU層組成。本文固定生成器的結(jié)構(gòu)不變,通過修改判別器的結(jié)構(gòu)來測試殘差模塊層數(shù)對整個(gè)GAN的影響,如表1所示,“-1”表示用了一個(gè)Resblock模塊,以此類推,“-4”用了4個(gè)Resblock模塊。根據(jù)在QB和WV-2上的結(jié)果可以看到,雖然增加層數(shù)會(huì)提高整體的效果,但是太多的層數(shù)反而會(huì)降低表現(xiàn)效果。原因在于GAN不同于以往的深度神經(jīng)網(wǎng)絡(luò),它并不是一方能夠主導(dǎo)結(jié)果,而是生成器和判別器兩方的共同作用才能得到優(yōu)質(zhì)的圖片。因此,重點(diǎn)是在于平衡兩者間的能力,可以從表1中看到,在將層數(shù)增加到第二層時(shí),在QB數(shù)據(jù)集上的CC、SCC和Q4的數(shù)值達(dá)到了最高,分別為0.9908、0.9920和0.9914。與之相比的WV-2數(shù)據(jù)集也是類似的效果,但是卻是使用一層殘差模塊效果最好,可能是因?yàn)樵摂?shù)據(jù)集的光譜信息不如QB數(shù)據(jù)集上的復(fù)雜。
表1 消融實(shí)驗(yàn)
為了能夠體現(xiàn)出本文方法的優(yōu)勢,本文將與其他的銳化方法作比較,其中包括SFIM[18],Brovey[19],IHS[20],GS[21],GSA[22],PNN[12],Pan-Net[8]和PSGAN[10]。表2和表3分別是在QB和WV-2數(shù)據(jù)集上的比較結(jié)果??梢院苊黠@的看出本文的方法有非常好的效果,在QB數(shù)據(jù)集上,CC、SCC、ERGAS和Q4都得到了最高的得分。PanNet[8]在SAM上取得了最好的得分,同樣證明了它的網(wǎng)絡(luò)在光譜的融合上也是很好的。在WV-2數(shù)據(jù)集上的結(jié)果顯示,本文的效果是最好的,而且空間分辨率普遍得分都比較高,因?yàn)檫@個(gè)數(shù)據(jù)集整體細(xì)節(jié)不是很多,所以融合效果表現(xiàn)良好。
表2 在QB數(shù)據(jù)集上的比較結(jié)果
表3 在WV-2數(shù)據(jù)集上的比較結(jié)果
圖5和圖6分別是在QB和WV-2數(shù)據(jù)集上各種方法輸出的可視化結(jié)果圖,輸出的都是可見的圖片。其中(a)到(l)分別是低質(zhì)量的多光譜圖像、全色圖像、SFIM方法融合的結(jié)果、Brovey方法融合的結(jié)果、IHS方法融合的結(jié)果、GS方法融合的結(jié)果、GSA方法融合的結(jié)果、PNN方法融合的結(jié)果、PanNet方法融合的結(jié)果、PSGAN方法融合的結(jié)果、本文的方法融合的結(jié)果和真實(shí)的高質(zhì)量多光譜圖像。
圖5 在QB數(shù)據(jù)集上的可視化結(jié)果
圖6 在WV-2數(shù)據(jù)集上的可視化結(jié)果
可以明顯的看到所有的方法都利用了PAN圖像的高頻細(xì)節(jié)的信息,能夠?qū)⒋诵畔⑷谌氲浇Y(jié)果圖像中。但是在QB數(shù)據(jù)集上,除了本文方法和PSGAN方法,其他方法對于光譜信息的提取都出現(xiàn)了一些問題。SFIM方法的圖像整體偏暗,Brovey、IHS、GS和PanNet整體上雖然接近真實(shí)的圖像,但它們都沒有很好的處理光譜信息,看起來尤為的粗糙。PSGAN的整體是很接近真實(shí)圖像,但是從評估的數(shù)據(jù)來看依然有一些瑕疵。而本文的方法在PSGAN基礎(chǔ)上進(jìn)行了改進(jìn),在特征提取層很好的利用光譜信息平滑處理,使得與真實(shí)圖像更加地接近。其主要原因就是本文利用了圖像的上下文信息,很好地模擬了局部圖像的細(xì)節(jié)部分。在WV-2數(shù)據(jù)集上,Brovey、IHS和GS因?yàn)闆]能調(diào)整好光譜信息導(dǎo)致整個(gè)圖像都偏淡藍(lán)色,所以光譜信息的處理對于遙感圖像的融合是非常重要的。
本文提出了一種基于GAN的遙感圖像融合的方法,并在QB和WV-2數(shù)據(jù)集上進(jìn)行融合實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文的方法能在這兩個(gè)數(shù)據(jù)集上得到更加接近真實(shí)圖像的融合結(jié)果,評估數(shù)值結(jié)果較好。消融實(shí)驗(yàn)證明了殘差模塊層數(shù)對整個(gè)網(wǎng)絡(luò)特征提取的影響,兩層的殘差模塊更適合QB數(shù)據(jù)集,一層的殘差模塊更適合WV-2數(shù)據(jù)集。因此,要根據(jù)合適的數(shù)據(jù)集進(jìn)行調(diào)整。在未來的研究中,本文會(huì)加入其他的改進(jìn)處理來進(jìn)一步優(yōu)化網(wǎng)絡(luò)的結(jié)構(gòu),讓圖像的光譜融合效果更好。