葉發(fā)茂, 羅威, 蘇燕飛, 趙旭青, 肖慧, 閔衛(wèi)東
(南昌大學(xué)信息工程學(xué)院,南昌 330031)
通過(guò)遙感圖像配準(zhǔn)可以獲取同一場(chǎng)景中不同時(shí)間、不同類(lèi)型的遙感圖像之間的空間變換關(guān)系,因此圖像配準(zhǔn)是遙感圖像融合或變化檢測(cè)等許多遙感任務(wù)中不可或缺的部分。
一般來(lái)說(shuō),遙感圖像配準(zhǔn)方法大致可以分為基于圖像灰度的方法和基于圖像特征的方法2種[1]。其中,基于圖像灰度的方法是通過(guò)計(jì)算待配準(zhǔn)圖像與參考圖像之間像素灰度的最大相似性,尋找相似性度量最大的幾何變換,最常用的相似性度量有互相關(guān)和互信息[2]。然而,基于圖像灰度的方法相似性度量計(jì)算量大,易受紋理干擾?;趫D像特征的方法通過(guò)檢測(cè)明顯且穩(wěn)定的匹配特征來(lái)估計(jì)圖像之間的幾何變換,可大大減少圖像配準(zhǔn)過(guò)程中的計(jì)算量,且能夠克服基于圖像灰度的方法對(duì)圖像灰度敏感等缺點(diǎn),已經(jīng)成為遙感圖像配準(zhǔn)研究的主要發(fā)展方向[3]。張謙等[3]采用尺度不變特征變換(scale-invariant feature transform, SIFT)特征和由粗到精的多級(jí)匹配策略進(jìn)行多源遙感圖像配準(zhǔn); 李少毅等[4]利用加速穩(wěn)健特征(speeded up robust features, SURF)進(jìn)行彩色遙感圖像配準(zhǔn); Yang等[5]利用格陵蘭冰蓋上的冰面河流特征配準(zhǔn)高精度衛(wèi)星圖像。但這些低層特征表達(dá)能力有限,易受到旋轉(zhuǎn)角度、縮放倍數(shù)和亮度等因素干擾,從而有可能導(dǎo)致配準(zhǔn)失敗。
隨著深度學(xué)習(xí)方法的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)[6-7]已在圖像分類(lèi)[8]、圖像檢索[9-10]和目標(biāo)識(shí)別[11]等領(lǐng)域得到廣泛應(yīng)用,并取得令人矚目的成績(jī)。在這些應(yīng)用中,從利用大規(guī)模數(shù)據(jù)集ImageNet預(yù)訓(xùn)練的CNN模型中提取的中高層特征比常見(jiàn)的低層特征表現(xiàn)得更優(yōu)秀,具有更好的性能。為了充分利用CNN強(qiáng)大的特征提取和表示能力,并克服低層特征的不穩(wěn)定性、提高配準(zhǔn)的可靠性,本文對(duì)應(yīng)用CNN特征進(jìn)行圖像配準(zhǔn)的性能開(kāi)展研究。首先,研究和分析了不同的CNN中的全連接層特征和不同聚合大小的卷積層特征; 接著,研究了利用這些特征進(jìn)行遙感圖像配準(zhǔn)的方法; 然后,通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法的可行性; 最后,通過(guò)定量方法分析其在圖像的旋轉(zhuǎn)角度、縮放倍數(shù)和亮度分別變換時(shí)的性能,并與傳統(tǒng)SIFT特征的性能進(jìn)行了對(duì)比分析。
CNN模仿了動(dòng)物視覺(jué)皮層組織神經(jīng)元之間的連接模式,是一種多層前饋人工神經(jīng)網(wǎng)絡(luò)的深層學(xué)習(xí)結(jié)構(gòu)[12]。該模型可以直接輸入原始圖像,因其避免了對(duì)圖像的復(fù)雜前期預(yù)處理而得到了更為廣泛的應(yīng)用,是眾多科學(xué)領(lǐng)域,特別是圖像分類(lèi)、識(shí)別領(lǐng)域研究熱點(diǎn)之一。CNN一般由多個(gè)卷積層、池化層和全連接層相互連接而成。卷積層利用各種卷積核對(duì)輸入進(jìn)行卷積運(yùn)算,提取各種特征; 池化層通過(guò)池化操作對(duì)輸入進(jìn)行降維,從而減少網(wǎng)絡(luò)參數(shù)的數(shù)量; 全連接層通常是CNN的最后部分,是一種傳統(tǒng)的多層感知器網(wǎng)絡(luò),其每一個(gè)神經(jīng)元都與前一層的每一個(gè)神經(jīng)元相連接。網(wǎng)絡(luò)最后輸出輸入圖像的高層特征,經(jīng)過(guò)分類(lèi)器統(tǒng)計(jì)計(jì)算,輸出該輸入圖像所對(duì)應(yīng)類(lèi)別標(biāo)簽的概率。
本文采用的AlexNet模型[6]是一個(gè)簡(jiǎn)單但富有競(jìng)爭(zhēng)力的CNN模型。它由5個(gè)卷積層、3個(gè)池化層和3個(gè)全連接層組成。AlexNet模型架構(gòu)如圖1所示,圖中Conv為卷積層,Pool為池化層,各層下方數(shù)字為輸出特征圖的大小及個(gè)數(shù),如Conv1層的輸出由94個(gè)55像素×55像素的特征圖組成,F(xiàn)C為全連接層,下方數(shù)字為維數(shù)。
CNN能夠提取不同層次的特征,并且這些特征的層次從前往后依次增加。本文從AlexNet模型中提取配準(zhǔn)特征。由于AlexNet模型的最后一層(FC8層)的1 000維特征是來(lái)自ImageNet的1 000個(gè)類(lèi)別的后驗(yàn)概率分?jǐn)?shù),其通常用于分類(lèi),因此舍棄FC8層,采用4 096個(gè)維數(shù)的FC7和FC6層的輸出用于CNN的遙感圖像配準(zhǔn)。
全連接層特征是復(fù)雜的高層特征,可以在一定程度上視為全局特征。由于卷積層特征在遙感圖像檢索等領(lǐng)域表現(xiàn)出比全連接層特征更好的性能[13],因此需對(duì)各種維數(shù)的卷積層特征進(jìn)行遙感圖像配準(zhǔn)分析。
卷積層輸出的是一個(gè)由h×w×d個(gè)元素組成的三維張量T。其中,h×w為特征圖的大小,d為特征圖的個(gè)數(shù)。T包含h×w個(gè)向量,每個(gè)向量是一個(gè)d維深度描述符。令x表示d維深度描述符,可以得到T={x(i,j)},其中(i,j)是一個(gè)特定的矩陣(i∈{1,…h(huán)},j∈{1,…w},x(i,j)∈Rd)。然后,將T扁平化為h×w行d列的二維特征矩陣n,則卷積層特征可以定義為
F=(x1,x2,…,xn)。
(1)
卷積層特征維數(shù)較高,因此不宜直接用作遙感圖像配準(zhǔn)的相似度量。因此采用平均池化來(lái)將這些卷積層特征聚合成緊湊的特征[14-15]。
圖1所示的AlexNet模型的Conv5層輸出是256個(gè)大小為13像素×13像素的特征圖。為了獲得不同維數(shù)的配準(zhǔn)特征,利用4種不同大小的池化核對(duì)Conv5層進(jìn)行池化,并得到了6×6×256(Agg1),4×4×256(Agg2),2×2×256(Agg3)和1×1×256(Agg4)這4種維數(shù)的聚合CNN特征。
為了使得從AlexNet模型提取的特征更適合遙感圖像配準(zhǔn),本文建立了一個(gè)配準(zhǔn)數(shù)據(jù)庫(kù)對(duì)預(yù)先訓(xùn)練的AlexNet模型進(jìn)行微調(diào)。首先,人工配準(zhǔn)16組遙感圖像; 然后,從這些圖像對(duì)中提取數(shù)量N=3 756個(gè)64像素×64像素的“種子”圖像對(duì),每一個(gè)“種子”圖像對(duì)都被聲明為代表它自己的一個(gè)類(lèi); 最后,為了擴(kuò)展這些類(lèi),將K=210個(gè)隨機(jī)變換應(yīng)用于每個(gè)“種子”對(duì),每個(gè)變換都是由旋轉(zhuǎn)、縮放和亮度的3個(gè)隨機(jī)變換組成的。因此,在建立的數(shù)據(jù)集中,包含N個(gè)類(lèi)別的圖像,每個(gè)類(lèi)別包含2K個(gè)樣本,這些樣本按大約8∶2的比例隨機(jī)分成訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。
在微調(diào)過(guò)程中,利用預(yù)先訓(xùn)練的AlexNet模型初始化權(quán)重,學(xué)習(xí)速率設(shè)為0.001,動(dòng)量值為0.9,權(quán)值衰減值設(shè)為0.000 5。
基于CNN特征的配準(zhǔn)流程如圖2所示。
圖2 基于CNN特征的圖像配準(zhǔn)流程
首先,對(duì)參考圖像和待配準(zhǔn)圖像采用SIFT方法檢測(cè)特征點(diǎn); 其次,截取以特征點(diǎn)為中心的尺寸為64像素×64像素的圖像作為特征點(diǎn)的特征圖像,并將其輸入到微調(diào)的AlexNet模型中來(lái)獲取特征點(diǎn)的CNN特征; 然后,根據(jù)特征點(diǎn)的CNN特征進(jìn)行匹配,獲取同名點(diǎn); 最后,根據(jù)同名點(diǎn)計(jì)算變換參數(shù),進(jìn)行圖像變換和重采樣。
為了驗(yàn)證利用CNN特征進(jìn)行遙感圖像配準(zhǔn)的可行性,對(duì)4對(duì)不同類(lèi)型的遙感圖像進(jìn)行了實(shí)驗(yàn),其結(jié)果見(jiàn)圖3和圖4。
(a) P-A參考圖像 (b) P-A待配準(zhǔn)圖像 (c) P-A圖像配準(zhǔn)結(jié)果
(d) P-B參考圖像 (e) P-B待配準(zhǔn)圖像 (f) P-B圖像配準(zhǔn)結(jié)果
(a) P-C參考圖像 (b) P-C待配準(zhǔn)圖像 (c) P-C圖像配準(zhǔn)結(jié)果
(d) P-D參考圖像 (e) P-D待配準(zhǔn)圖像 (f) P-D圖像配準(zhǔn)結(jié)果
前2對(duì)遙感圖像(P-A和P-B)與用于微調(diào)AlexNet模型的訓(xùn)練圖像的類(lèi)型相同,是多波段合成的彩色遙感圖像; 另外2對(duì)圖像(P-C和P-D)是Landsat TM單波段圖像。圖3(c)和(f)分別為圖像P-A和P-B圖像利用FC6特征進(jìn)行配準(zhǔn)得到的棋盤(pán)鑲嵌結(jié)果圖像; 圖4(c)和(f)分別為P-C和P-D圖像對(duì)應(yīng)的棋盤(pán)鑲嵌結(jié)果圖像。從配準(zhǔn)結(jié)果圖像中可以看到圖像上的邊緣和區(qū)域等地方是完全重疊的。因此可知,CNN的特征不僅可以用于與訓(xùn)練圖像一致的遙感圖像配準(zhǔn),而且可以用于與其不同類(lèi)型的遙感圖像配準(zhǔn)。
為了對(duì)遙感圖像配準(zhǔn)的性能進(jìn)行定量分析,采用以下3種評(píng)價(jià)準(zhǔn)則來(lái)對(duì)本文方法進(jìn)行評(píng)估。
(2)
2)RMSLOO(均方根保留1)表示留一交互驗(yàn)證的RMSE[16]。該值越低越好。
3)Nred,即冗余控制點(diǎn)的數(shù)量,其等于匹配方法檢測(cè)到的正確同名點(diǎn)的數(shù)量。數(shù)量越多越好。
利用以上評(píng)價(jià)準(zhǔn)則對(duì)SIFT特征、FC特征(FC7,F(xiàn)C6)和聚合卷積特征(Agg1, Agg2, Agg3, Agg4)的配準(zhǔn)性能進(jìn)行比較分析。在4個(gè)圖像對(duì)上利用這些特征進(jìn)行配準(zhǔn)的精度如表1所示。其中fine-tuning表示微調(diào)的特征,pre-trained表示預(yù)訓(xùn)練的特征。
表1 不同特征的圖像配準(zhǔn)精度
可以看出,微調(diào)的FC6特征的RMSall和RMSLOO的值較低,因此其配準(zhǔn)性能比其他特征要好。其與傳統(tǒng)SIFT相比,RMSall平均減少26.5%,RMSLOO平均減少23.7%,平均每張圖多匹配25.3個(gè)正確點(diǎn)。在聚合的卷積特性中,Agg1特征和Agg2特征的表現(xiàn)明顯優(yōu)于Agg4特征。與Agg4特征相比,Agg1特征和Agg2特征的RMSall和RMSLOO平均都減少50%以上。Agg1特征平均每張圖多匹配20個(gè)正確點(diǎn),而Agg2特征平均每張圖多匹配35.5個(gè)正確點(diǎn)。因此聚合卷積特性的性能受其特征維數(shù)大小的影響。另外,比較微調(diào)特征和預(yù)訓(xùn)練特征的配準(zhǔn)結(jié)果,可發(fā)現(xiàn)微調(diào)的特征配準(zhǔn)效果要好于預(yù)訓(xùn)練特征。其中,微調(diào)后的FC7, FC6和Agg2特征效果提升最明顯,微調(diào)后的FC6特征相比于微調(diào)前的FC6特征RMSall平均減少18.31%,RMSLOO平均減少15.19%,每張圖平均多匹配近3個(gè)正確點(diǎn)。微調(diào)后的FC7特征相比于微調(diào)前的FC7特征的RMSall平均減少23.90%,RMSLOO平均減少29.07%,每張圖平均多匹配近5個(gè)正確點(diǎn)??梢?jiàn)通過(guò)自定義數(shù)據(jù)集進(jìn)行模型微調(diào)可以提高圖像配準(zhǔn)的性能。
為了進(jìn)一步評(píng)估微調(diào)的CNN配準(zhǔn)特征(FC7,F(xiàn)C6,Agg2)和SIFT特征對(duì)各種圖像變換的魯棒性,對(duì)以上4個(gè)測(cè)試圖像對(duì)分別進(jìn)行旋轉(zhuǎn)、縮放和亮度不同大小變換,并根據(jù)Nred分析這些特征在不同變換下配準(zhǔn)精度變化的情況。結(jié)果如圖5所示。對(duì)大多數(shù)圖像來(lái)說(shuō),CNN特征的Nred比SIFT特征平均提升了20%以上,其中P-C圖像對(duì)的Nred甚至翻了一倍; 微調(diào)的FC特征在所有變換中都比SIFT表現(xiàn)得更好,Nred平均增加了近50%; 而微調(diào)的Agg2,除了當(dāng)旋轉(zhuǎn)角度大于28°時(shí),在大多數(shù)變換中都優(yōu)于SIFT,Nred平均增加了40.11%。因此,微調(diào)后的FC特征對(duì)圖像的各種變換具有更強(qiáng)的魯棒性。
(a) P-A圖像旋轉(zhuǎn) (b) P-A圖像縮放 (c) P-A圖像亮度變換
(d) P-B圖像旋轉(zhuǎn) (e) P-B圖像縮放 (f) P-B圖像亮度變換
(g) P-C圖像旋轉(zhuǎn) (h) P-C圖像縮放 (i) P-C圖像亮度變換
(j) P-D圖像旋轉(zhuǎn) (k) P-D圖像縮放 (l) P-D圖像亮度變換
1)在AlexNet模型中,全連接層FC6特征相對(duì)于其他特征在遙感圖像配準(zhǔn)方面具有更好的性能。
2)對(duì)于大多數(shù)變換,微調(diào)后的CNN特征比SIFT特征具有較好的配準(zhǔn)效果,微調(diào)后的CNN特征具有更強(qiáng)的魯棒性。
3)通過(guò)自定義數(shù)據(jù)集對(duì)CNN網(wǎng)絡(luò)進(jìn)行微調(diào)可以提高CNN特征在遙感圖像配準(zhǔn)中的性能。
目前,已有許多更為復(fù)雜的CNN網(wǎng)絡(luò)被提出。在后續(xù)的研究中,將進(jìn)一步研究和比較這些CNN網(wǎng)絡(luò)中的各種特征在遙感圖像配準(zhǔn)中的性能。