陳 磊,陳 穎,李文舉,石艷嬌
(上海應(yīng)用技術(shù)大學(xué),上海 201418)
RGB和NIR傳感器是在不同任務(wù)中經(jīng)常同時(shí)使用的兩種傳感器,例如人臉檢測(cè)、對(duì)象跟蹤、土地覆蓋分類和無人駕駛汽車。對(duì)于遙感圖像,捕獲的RGB圖像最接近人類的視覺,但是會(huì)受到光照和大氣條件等的嚴(yán)重影響,而NIR圖像對(duì)于天氣條件會(huì)有更高的魯棒性。兩者都有其各自的優(yōu)勢(shì),通過配準(zhǔn)可以更加高效地使用其互補(bǔ)信息。由于NIR和RGB圖像是在不同波段下通過不同的成像機(jī)制獲取的,所以NIR和RGB圖像之間存在很大的幾何差異和不同的輻射強(qiáng)度。這可能會(huì)使常規(guī)的依賴強(qiáng)度和漸變的配準(zhǔn)方法失效。
目前,許多基于特征點(diǎn)的算法[1]在光學(xué)配準(zhǔn)問題中達(dá)到了很好的效果,但在NIR和RGB遙感圖像配準(zhǔn)中并不理想?;趨^(qū)域的方法對(duì)于定義相似性度量標(biāo)準(zhǔn)要求較高。常用相似性度量方法有歸一化互相關(guān)(NCC)[2]和互信息(MI)[3]。NCC主要用于光學(xué)圖像配準(zhǔn),但是在NIR和RGB圖像配準(zhǔn)中表現(xiàn)不佳,MI則在不同模式的圖像配準(zhǔn)中有廣泛的應(yīng)用[4]。
由于不同的傳感器成像條件的差異會(huì)引起各種非線性變化,人工標(biāo)注的特征及上述方法無法很好地進(jìn)行NIR和RGB圖像的配準(zhǔn)。與人工標(biāo)注的特征相比,深度學(xué)習(xí)獲得的特征[5-7]在遙感圖像領(lǐng)域的使用越來越多,大多是用于檢測(cè)和分類。遙感圖像配準(zhǔn)也已經(jīng)使用卷積網(wǎng)絡(luò)和全連接網(wǎng)絡(luò)[8-10],這些方法成功用于相同模式的遙感圖像配準(zhǔn)。但是在NIR和RGB遙感圖像配準(zhǔn)中存在以下三個(gè)問題。
首先由于平滑卷積的特性導(dǎo)致特征提取網(wǎng)絡(luò)的最后幾層會(huì)忽略圖像的低級(jí)特征。尤其對(duì)于遙感圖像,其低級(jí)的紋理等特征也具有很重要的作用。其次,當(dāng)前網(wǎng)絡(luò)對(duì)于NIR和RGB圖像匹配的能力不足。最后是深度學(xué)習(xí)經(jīng)常出現(xiàn)由于損失函數(shù)設(shè)計(jì)單一造成的過擬合問題。如常用的交叉損失[11],它們的目標(biāo)都是單一的最大化負(fù)樣本及最小化正樣本間的距離。
對(duì)于遙感圖像的特殊性,比如當(dāng)前幾乎所有的遙感圖像都經(jīng)過地理編碼。通過經(jīng)緯度的編碼遙感圖像的地理定位已經(jīng)限定在一定的范圍內(nèi),但是由于空間姿態(tài)角的不精確測(cè)量總會(huì)導(dǎo)致地理定位錯(cuò)誤,例如Worldview-2,PRISM或QuickBird等光學(xué)衛(wèi)星圖像的絕對(duì)地理精度范圍在4到30m[8]。這樣就可以在有限的搜索區(qū)域內(nèi)通過基于區(qū)域的方法去檢測(cè)匹配點(diǎn)對(duì)。
針對(duì)這三個(gè)問題和遙感NIR和RGB圖像配準(zhǔn)的特殊性,本文主要工作和貢獻(xiàn)如下:首先,為了有效利用低級(jí)特征,增強(qiáng)NIR和RGB圖像之間的匹配能力,提出了一種創(chuàng)新的殘差塊改進(jìn)密集連接暹羅網(wǎng)絡(luò)結(jié)構(gòu);其次,引入了用于光學(xué)圖像和紅外圖像的模板匹配框架[12],通過模版匹配方案將匹配好的圖像塊用于配準(zhǔn)后期的變換;最后,為了防止過擬合,使用改進(jìn)的增強(qiáng)交叉熵?fù)p失函數(shù)來提高不同數(shù)據(jù)集上網(wǎng)絡(luò)的學(xué)習(xí)能力。通過對(duì)本文提出的模型與近幾年的模型進(jìn)行定量和定性分析,驗(yàn)證了本文算法的優(yōu)越性。
本文采用殘差塊改進(jìn)的密集連接暹羅網(wǎng)絡(luò)提取遙感圖像特征,并改進(jìn)了損失函數(shù)以增強(qiáng)網(wǎng)絡(luò)的性能。最后使用網(wǎng)絡(luò)輸出的得分圖進(jìn)行配準(zhǔn)變換。
暹羅網(wǎng)絡(luò)有三種變形結(jié)構(gòu)。第一種是兩幅圖像分別輸入兩個(gè)共享權(quán)值的相同結(jié)構(gòu)網(wǎng)絡(luò),輸出兩幅圖像的相似性得分,如SCNN[9];第二種結(jié)構(gòu)與第一種結(jié)構(gòu)的輸入輸出相同,區(qū)別在于網(wǎng)絡(luò)權(quán)值不共享,如H-Net[13];第三種結(jié)構(gòu)是將兩幅圖像通過通道堆疊的形式輸入同一網(wǎng)絡(luò),輸出為兩幅圖像的相似性得分,如文獻(xiàn)[14, 15]。對(duì)于NIR和RGB圖像的匹配,文獻(xiàn)[14]表明,在近距離NIR和RGB圖像匹配方面,通道堆疊網(wǎng)絡(luò)優(yōu)于前兩種暹羅網(wǎng)絡(luò)。針對(duì)以上分析,本文采用第三種通道堆疊的暹羅網(wǎng)絡(luò)結(jié)構(gòu)。
圖1 殘差塊改進(jìn)的密集連接暹羅網(wǎng)絡(luò)結(jié)構(gòu)
為了利用網(wǎng)絡(luò)底層低級(jí)特征來增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力,本文在通道堆疊的暹羅網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上增加了殘差結(jié)構(gòu)和跨層輸入的密集連接結(jié)構(gòu)。如圖1所示,網(wǎng)絡(luò)的輸入是將遙感圖像R、G、B和NIR四個(gè)通道進(jìn)行堆疊。該網(wǎng)絡(luò)有六個(gè)卷積層、兩個(gè)殘差塊,兩個(gè)最大池化層和兩個(gè)全聯(lián)接層。每個(gè)卷積層都經(jīng)過線性整流函數(shù)(ReLU)進(jìn)行激活。其計(jì)算式為
f(m)=max(0,m)
(1)
其中當(dāng)輸入m<0時(shí),f取0,當(dāng)m≥0時(shí)f取m。
為了剔除圖像的低層無用信息,網(wǎng)絡(luò)從殘差塊開始進(jìn)行密集連接。這樣既保留了低層的有用信息,又充分利用了高層信息,增強(qiáng)了網(wǎng)絡(luò)的學(xué)習(xí)能力。網(wǎng)絡(luò)中殘差塊首先將經(jīng)過卷積和最大池化的堆疊圖像進(jìn)行低層信息的處理,處理后的信息不僅直接傳入下一層,還傳入更深的網(wǎng)絡(luò)層。即當(dāng)前層的輸入是前面幾層級(jí)聯(lián)之后再輸入的信息。
網(wǎng)絡(luò)中的殘差學(xué)習(xí)單元可以表示為
xl+1=f(h(xl)+F(xl,Wl))
(2)
其中xl和xl+1分別表示第l個(gè)殘差單元的輸入和輸出,F(xiàn)是殘差函數(shù),表示學(xué)習(xí)到的殘差,Wl為第l個(gè)殘差單元學(xué)習(xí)到的權(quán)值,f是ReLU激活函數(shù)。從而得到從淺層l到深層L的學(xué)習(xí)特征為
(3)
整體網(wǎng)絡(luò)結(jié)構(gòu)如下:網(wǎng)絡(luò)1、3、5層為卷積層,均有64個(gè)通道和3×3的卷積核;第2、4層為兩個(gè)殘差塊;第六層使用1×1卷積核融合多個(gè)層級(jí)的信息以輸出具有256通道的特征圖。最后兩個(gè)卷積層用于進(jìn)一步調(diào)整這些多級(jí)特征的相互依賴性。全聯(lián)接層(FC)用于將二維特征圖壓縮為一維向量,最后一個(gè)全連接層通過Sigmoid函數(shù)將向量轉(zhuǎn)換為標(biāo)量(相似性分?jǐn)?shù))。通道數(shù)、每個(gè)層的內(nèi)核大小以及FC層的長(zhǎng)度均顯示在圖1中。
在機(jī)器學(xué)習(xí)領(lǐng)域中,為了提高模型的可識(shí)別性,經(jīng)常采取最大化正樣本和負(fù)樣本之間的距離這一策略。對(duì)于二進(jìn)制交叉熵,它獲得的相似分基本上都是接近0或1,這可能會(huì)導(dǎo)致模型過擬合[16]。為了防止模型過擬合,并且提高匹配精度,本文損失函數(shù)設(shè)計(jì)如下:
二進(jìn)制交叉熵(BinaryCrossEntropy, BCE)表示為
BCE=-qloga-(1-y)log(1-a)
(4)
其中a和q是二進(jìn)制交叉熵的兩個(gè)變量,這兩個(gè)變量差距越少,損失函數(shù)將會(huì)越小。為了更好地表示數(shù)據(jù)集的分布,本文以t和p分別為數(shù)據(jù)集標(biāo)簽的原始分布和預(yù)測(cè)分布。從而得到二進(jìn)制交叉熵?fù)p失函數(shù)Loss
Loss(t,p)=-plogt-(1-p)log(1-t)
(5)
為了提高匹配精度,在二進(jìn)制交叉熵?fù)p失的基礎(chǔ)上引入均勻分布方法,使其相似度曲線更加平滑,而不是都接近0和1。另外,為了防止過擬合,將標(biāo)簽正則化作為損失函數(shù)
Loss(t′,p)=(1-ε)Loss(t,p)+εLoss(u,p)
(6)
Loss(t′,p)是最終的增強(qiáng)交叉熵?fù)p失,其中t′是標(biāo)簽的正則分布,Loss(t,p)代表常規(guī)交叉熵?fù)p失。Loss(u,p)為第二損失項(xiàng),即平滑項(xiàng),測(cè)量均勻分布u與預(yù)測(cè)分布p之間的偏差。通過使用平滑參數(shù)ε對(duì)兩個(gè)損失進(jìn)行加權(quán),最終的損失函數(shù)會(huì)使相似度得分的分布曲線更平滑。
圖2 整體配準(zhǔn)流程
本文NIR和RGB圖像配準(zhǔn)模型整體流程分為兩個(gè)主要步驟,分別為模型訓(xùn)練階段和模版配準(zhǔn)階段。具體過程如圖2所示。
1) 模型訓(xùn)練階段:
模型訓(xùn)練階段進(jìn)行特征塊的搜集和匹配。為了獲得更多的訓(xùn)練樣本,在待配準(zhǔn)圖像中檢測(cè)出(M*M像素)子圖像作為待配準(zhǔn)圖像塊。由于經(jīng)過地理編碼的圖像對(duì)之間的偏移量不大,圍繞待配準(zhǔn)圖像塊相同位置在參考圖像上繪制出[(M+s)*(M+s)]的搜索框圖像塊。將待配準(zhǔn)圖像塊和搜索框圖像塊輸入到網(wǎng)絡(luò)中,輸出兩圖像塊的相似性得分。
2) 模版配準(zhǔn)階段:
模版配準(zhǔn)階段進(jìn)行外點(diǎn)的移除和最終配準(zhǔn)。通過網(wǎng)絡(luò)學(xué)習(xí)得到圖像每個(gè)位置的相似度得分,并逐像素滑動(dòng)生成相似性得分圖。如圖3所示,得分圖中間黃色較亮點(diǎn)為得分高(接近于1),周圍藍(lán)色較暗部分為得分低(接近于0)。然后將這些得分最高的位置作為正確匹配點(diǎn),將得分低的位置作為外點(diǎn)進(jìn)行移除。由于圖像對(duì)之間的偏移,實(shí)際未配準(zhǔn)的圖像得分最大部分往往不在其中心。故將分?jǐn)?shù)最大位置與其相對(duì)中心的偏移量假定為待配準(zhǔn)圖像特征點(diǎn)和參考圖像特征點(diǎn)地理位置之間的偏移量。最后通過將待配準(zhǔn)圖像變換到參考圖像上,對(duì)過濾后的匹配點(diǎn)進(jìn)行最終配準(zhǔn)。
圖3 相似性得分圖示例
實(shí)驗(yàn)數(shù)據(jù)包括Landsat 8衛(wèi)星捕獲的五對(duì)NIR和RGB圖像,大小為7000*7000像素。為了評(píng)估訓(xùn)練模型在不同情況下的性能,五對(duì)圖像包含不同的采集季節(jié)和地理位置(表1)。為了證明本文方法的泛化能力,只有第1對(duì)和第2對(duì)包含訓(xùn)練樣本,其它3對(duì)圖像作為測(cè)試樣本。
表1 實(shí)驗(yàn)數(shù)據(jù)集
本文通過均勻裁剪第1對(duì)和第2對(duì)中的圖像生成訓(xùn)練樣本集。在第1對(duì)或第2對(duì)上分別裁剪出6089和6084個(gè)64×64像素的圖像塊作為正樣本,對(duì)于負(fù)樣本,通過對(duì)每個(gè)正樣本做隨機(jī)移動(dòng)視差來生成。將生成的正負(fù)樣本隨機(jī)選出10%的驗(yàn)證集和10%測(cè)試集。
實(shí)驗(yàn)使用的硬件配置如下:處理器為Quad-Core Intel Core i5 2.3GHz;內(nèi)存(RAM)為8.0GB;開發(fā)工具為Python。在本文的實(shí)驗(yàn)中,訓(xùn)練時(shí)超參數(shù)都采用如下相同設(shè)置:使用128的batch size和隨機(jī)梯度下降(SGD)優(yōu)化器對(duì)所有網(wǎng)絡(luò)進(jìn)行96個(gè)epoch的訓(xùn)練,初始學(xué)習(xí)率為1×10-3,動(dòng)量為0.9。每10個(gè)epoch學(xué)習(xí)率降低0.1倍。將訓(xùn)練圖像和測(cè)試圖像的像素值歸一化為(0,1),再輸入網(wǎng)絡(luò)。
在本文實(shí)驗(yàn)中,分別使用定量指標(biāo)和視覺指標(biāo)進(jìn)行評(píng)估。定量的指標(biāo)使用特征點(diǎn)與真實(shí)位置的均方根誤差(Root Mean Square Error, RMSE)、平均正確匹配率(Average Match Rate, AMR)和運(yùn)行時(shí)間,視覺指標(biāo)使用相似性得分圖和配準(zhǔn)后圖像與參考圖像生成的棋盤格圖像。MR即正確匹配數(shù)與所有參考點(diǎn)數(shù)之間的比率。AMR就是五個(gè)數(shù)據(jù)集上MR的平均值。
為了更好地顯示本文方法的配準(zhǔn)的效果,本文以棋盤格形式展示配準(zhǔn)結(jié)果,并與密集連接網(wǎng)絡(luò)方法和MI方法進(jìn)行對(duì)比。如圖4所示,a顯示了本文方法的配準(zhǔn)結(jié)果,圖中可以清晰地看出,圖像各處銜接自然流暢,河流等地形邊緣線都幾乎沒有偏移。為了更好地比較密集連接網(wǎng)絡(luò)方法、MI方法和本文方法(b和c中從左到右)的配準(zhǔn)效果,b和c中顯示了從a中紅框和藍(lán)框位置繪制的放大子圖像。從b和c中可以看出,由于對(duì)復(fù)雜地形的識(shí)別力不足,MI方法和密集連接網(wǎng)絡(luò)方法配準(zhǔn)效果不好,配準(zhǔn)結(jié)果中河流等地形線仍出現(xiàn)錯(cuò)位。本文方法配準(zhǔn)結(jié)果中河流等地形邊緣線銜接更加準(zhǔn)確。從而證明了本文方法可以用于NIR和RGB遙感圖像配準(zhǔn),并獲得了較好的效果。
圖4 棋盤格顯示的配準(zhǔn)結(jié)果
為了驗(yàn)證本文方法在網(wǎng)絡(luò)結(jié)構(gòu)上的優(yōu)勢(shì)以及損失函數(shù)改進(jìn)的有效性,在第二個(gè)實(shí)驗(yàn)中,本文方法分別與暹羅網(wǎng)絡(luò)、偽暹羅網(wǎng)絡(luò)、雙通道網(wǎng)絡(luò)、密集連接網(wǎng)絡(luò)以及本文方法在改進(jìn)損失函數(shù)前的結(jié)果進(jìn)行比較。默認(rèn)情況下,將閾值設(shè)置為0.5,如果算法預(yù)測(cè)的匹配分?jǐn)?shù)高于閾值,則將NIR和RGB圖像塊對(duì)視為“匹配”。從表2可以看出,由于通道堆疊結(jié)構(gòu)的優(yōu)勢(shì),雙通道網(wǎng)絡(luò)比其它兩種暹羅網(wǎng)絡(luò)結(jié)構(gòu)準(zhǔn)確率更高。由于加入了密集連接結(jié)構(gòu),文獻(xiàn)[20]使用最新的密集連接網(wǎng)絡(luò)準(zhǔn)確率有提升。本文用殘差塊替換普通的卷積塊后,AMR比密集連接網(wǎng)絡(luò)提高了3.43%,改進(jìn)損失函數(shù)后,AMR在原有基礎(chǔ)上再次提高了2.65%,達(dá)到了94.93%,驗(yàn)證了本文網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)改進(jìn)的有效性。在運(yùn)行時(shí)間方面,本文方法接近1.5ms,也獲得了較好的效果。
表2 網(wǎng)絡(luò)性能和損失函數(shù)改進(jìn)性能
為了更加直觀地顯示本文方法在網(wǎng)絡(luò)訓(xùn)練上的優(yōu)勢(shì),第三個(gè)實(shí)驗(yàn)中,改進(jìn)的網(wǎng)絡(luò)在數(shù)據(jù)集Pair1上進(jìn)行訓(xùn)練,并通過訓(xùn)練準(zhǔn)確度曲線的形式與最新的密集連接網(wǎng)絡(luò)[20]方法進(jìn)行了比較。訓(xùn)練模型損失函數(shù)和匹配準(zhǔn)確率如圖5所示,藍(lán)色為密集連接網(wǎng)絡(luò)的結(jié)果,橙色為本文網(wǎng)絡(luò)結(jié)果。從圖中可以看出本文網(wǎng)絡(luò)與密集連接網(wǎng)絡(luò)相比,由于使用了殘差塊改進(jìn),在相同的訓(xùn)練次數(shù)下得到了更小的損失值和更高的準(zhǔn)確度。
圖5 訓(xùn)練模型損失函數(shù)和匹配準(zhǔn)確率
為了更加直觀地顯示本文方法在圖像塊匹配上的準(zhǔn)確性,第四個(gè)實(shí)驗(yàn)采用相似性得分圖的形式將本文方法與密集連接網(wǎng)絡(luò)方法和傳統(tǒng)MI方法進(jìn)行比較。
為了避免偶然性結(jié)果,實(shí)驗(yàn)從數(shù)據(jù)集中隨機(jī)選取4個(gè)不同地形的測(cè)試圖像對(duì)比較。如圖6所示,從左到右依次為RGB參考圖像、密集連接網(wǎng)絡(luò)方法得分圖、本文方法得分圖(中間)、MI方法得分圖和NIR待配準(zhǔn)圖像。為了更好的測(cè)試,本文采用已配準(zhǔn)的圖像對(duì),因此理想的得分圖應(yīng)該是中心位置有一個(gè)高峰值(黃色亮處),周圍的其它位置都保持低峰(藍(lán)色暗處)。如圖6所示,本文方法和MI方法的測(cè)試結(jié)果都表現(xiàn)為黃色高峰值在中心,其它部分為藍(lán)色低峰,但本文方法高峰更加集中,表明可分辨性更好。密集連接網(wǎng)絡(luò)方法在地形特征差異不大時(shí)表現(xiàn)良好,但對(duì)于第2幅包含了陸地和海洋的圖像,由于其對(duì)復(fù)雜圖像的識(shí)別力不足,密集連接網(wǎng)絡(luò)方法得分圖在很多情況下都出現(xiàn)了高峰值,無法找到正確配準(zhǔn)位置。實(shí)驗(yàn)結(jié)果表明本文方法具有更強(qiáng)的魯棒性和準(zhǔn)確度。
圖6 相似性得分圖比較
針對(duì)NIR和RGB遙感圖像配準(zhǔn),提出了一種新的深度學(xué)習(xí)方法。該方法使用殘差塊改進(jìn)的密集連接暹羅網(wǎng)絡(luò)來學(xué)習(xí)圖像塊之間的共同特征,確定匹配點(diǎn)位置,然后根據(jù)找到的匹配點(diǎn)對(duì)待配準(zhǔn)圖像做仿射變換,獲得最后的配準(zhǔn)結(jié)果。在各種NIR和RGB圖像數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文方法要優(yōu)于傳統(tǒng)方法和其它神經(jīng)網(wǎng)絡(luò)方法。證明了將衛(wèi)星遙感圖像的低級(jí)特征應(yīng)用于高層是有效的。實(shí)驗(yàn)結(jié)果也證明了深度學(xué)習(xí)在多模式遙感圖像配準(zhǔn)尤其是NIR和RGB圖像配準(zhǔn)的潛力。
將本文方法運(yùn)用到其它的多模式的遙感圖像配準(zhǔn)(如:合成孔徑雷達(dá)(SAR)、熱紅外(TIR)等),或者多時(shí)相遙感圖像,是未來工作所關(guān)注的一個(gè)方向。