曹哲,馮珊珊,孫顯,洪文?
(1 中國科學(xué)院空天信息創(chuàng)新研究院 中國科學(xué)院空間信息處理與應(yīng)用系統(tǒng)技術(shù)重點(diǎn)實(shí)驗(yàn)室, 北京 100190;2 中國科學(xué)院大學(xué), 北京 100049)
合成孔徑雷達(dá)(synthetic aperture radar,SAR)是一種主動(dòng)式微波遙感系統(tǒng)[1]。1951年,美國研究人員首先提出SAR的概念,60年代之后各種星載或機(jī)載SAR被相繼研制和推出[2]。1979年,中國的第一幅SAR圖像由中國科學(xué)院電子學(xué)研究所得到。在這之后,國內(nèi)對(duì)于SAR的研究逐漸深入,取得了長(zhǎng)足的發(fā)展。SAR不受光照條件、氣候和一些其他環(huán)境因素的限制,可以滿足更多實(shí)際的需求,同時(shí)SAR可以獲取更豐富的目標(biāo)信息,因此在對(duì)地觀測(cè)任務(wù)上相較于傳統(tǒng)光學(xué)遙感器更具優(yōu)勢(shì),這也使得SAR在各個(gè)領(lǐng)域的應(yīng)用越來越廣泛[3]。
與傳統(tǒng)SAR系統(tǒng)固定的收發(fā)方式相比,極化SAR系統(tǒng)可以同時(shí)獲取同一目標(biāo)在不同極化脈沖下的散射特征,地物反射回來的微波經(jīng)過系統(tǒng)檢測(cè)后得到極化散射矩陣,該矩陣涵蓋了豐富的極化散射信息。但極化SAR在提供豐富散射信息的同時(shí)也增加了數(shù)據(jù)的復(fù)雜度,豐富多樣的極化散射特征也使地物信息的準(zhǔn)確提取和處理更為困難[4]。
極化SAR所含有的豐富的地物信息,使得極化SAR智能解譯逐漸引起國內(nèi)外研究人員的關(guān)注。極化SAR地物分類是極化SAR智能解譯中非常重要的一環(huán),它通過提取豐富的極化SAR特征來獲取像素的地物標(biāo)簽從而實(shí)現(xiàn)像素級(jí)的分類任務(wù)。極化SAR地物分類先進(jìn)行特征的提取,獲得更有效的地物目標(biāo)的信息,然后利用提取到的特征進(jìn)行分類。隨著SAR智能解譯的不斷發(fā)展,基于隨機(jī)森林[5]、貝葉斯方法、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等分類算法被應(yīng)用于SAR圖像分類。Demirhan和Salor[6]使用改進(jìn)的徑向基函數(shù)進(jìn)行特征提取而后送入SVM中進(jìn)行分類。Hou等[7]使用基于分解特征的超像素方法克服了斑點(diǎn)噪聲。上述基于機(jī)器學(xué)習(xí)的方法需要進(jìn)行特征工程,如通過極化目標(biāo)分解等方法提取特征后再調(diào)用算法。而這類特征通常需要根據(jù)具體問題進(jìn)行具體設(shè)計(jì),對(duì)先驗(yàn)知識(shí)的依賴程度較高,對(duì)不同數(shù)據(jù)、不同地物目標(biāo)的適應(yīng)性較差,表征能力往往不盡如人意。因此,如何使提取的特征更具泛化性引起了學(xué)者的廣泛關(guān)注。
近年來,神經(jīng)網(wǎng)絡(luò)在模式識(shí)別的各個(gè)領(lǐng)域取得了較好的成果。神經(jīng)網(wǎng)絡(luò)具有從大量數(shù)據(jù)中以分層的方式自主學(xué)習(xí)特征表示的能力,而不需要基于領(lǐng)域特定知識(shí)設(shè)計(jì)手工特征[8],這為極化SAR地物分類提供了新的手段。Chen等[9]通過多層字典對(duì)和自編碼器提取特征,使提取的特征更加抽象。Liu等[10]提出一種鄰域保留神經(jīng)網(wǎng)絡(luò)模型用于極化SAR分類,通過聯(lián)合加權(quán)策略保留像素的空間依賴性。Zhu等[11]創(chuàng)新性地提出基于目標(biāo)像素灰度下降的圖卷積神經(jīng)網(wǎng)絡(luò)來對(duì)地物進(jìn)行分類。Zhang等[12]提出復(fù)數(shù)CNN模型,以直接適用于極化SAR數(shù)據(jù)的復(fù)數(shù),并在極化SAR分類中取得很好的效果。但是,基于神經(jīng)網(wǎng)絡(luò)的地物分類方法也存在一個(gè)問題:為了學(xué)習(xí)到更好的表示,神經(jīng)網(wǎng)絡(luò)通過增加網(wǎng)絡(luò)維度構(gòu)建高維特征空間用于地物分類,但高維特征往往包含大量冗余信息并互相干擾,使得分類邊界不明確,從而導(dǎo)致訓(xùn)練難度增加和分類精度下降。
針對(duì)上述問題,從傳統(tǒng)的提取極化特征的極化目標(biāo)分解的思想出發(fā),本文提出一種基于圖像分割和EM算法的低秩重構(gòu)網(wǎng)絡(luò)(low-rank-reconstruction-net,LRR-Net)。LRR-Net首先通過一段卷積神經(jīng)網(wǎng)絡(luò)提取高維特征圖,而后通過EM算法得到一組具有以下特點(diǎn)的基:每個(gè)基都可以反映某一類地物的特征,最大程度地還原信息;數(shù)量要少,基之間互不相似,不會(huì)包含冗余信息。通過這組基對(duì)高維特征進(jìn)行一個(gè)低秩重構(gòu),使得高維空間中的特征重新嵌入到低維空間上,而后利用重構(gòu)的信息進(jìn)行像素級(jí)的圖像分割。低秩重構(gòu)網(wǎng)絡(luò)LRR-Net不僅僅適用于全極化SAR圖像的地物分類,對(duì)于非全極化的SAR圖像以及光學(xué)遙感圖像的地物分類同樣適用,具有普適性。本文基于高分三號(hào)全極化數(shù)據(jù)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,在保證分類精度的前提下,參數(shù)量顯著減少。
極化SAR圖像因其含有地物目標(biāo)物理散射機(jī)理的信息,不同地物目標(biāo)的極化散射特性存在差異。對(duì)于全極化圖像,其豐富的極化散射特征就是通過極化目標(biāo)分解方法提取到的。極化目標(biāo)分解理論的主要思想是將一個(gè)散射矩陣分解成幾個(gè)能反映不同散射機(jī)制的矩陣的線性組合,而不同地物在極化散射特性存在差異,在不同散射機(jī)制下的分量大小不同,從而達(dá)到區(qū)分地物的目的。如Pauli基是一組完備正交基,在互易的條件下可以表示為
(1)
以上分別代表奇次散射、偶次散射、π/4偶次散射的散射機(jī)制,利用在Pauli基下的散射能量大小即可進(jìn)行分類識(shí)別。從圖1可以看出,經(jīng)過Pauli分解后生成的偽彩色圖可以很清晰地區(qū)分不同地物目標(biāo)。
圖1 Pauli偽彩色圖Fig.1 Pauli pseudo-color image
受此啟發(fā),神經(jīng)網(wǎng)絡(luò)在高維的特征存在信息冗余,如果通過類似極化目標(biāo)分解的方法對(duì)高維信息降維得出一組基,再利用這組基對(duì)高維信息進(jìn)行重構(gòu)。那么重構(gòu)后的高維信息的分類邊界會(huì)更加清晰,不需要再去堆疊卷積層進(jìn)行信息提純,從而可以大大降低神經(jīng)網(wǎng)絡(luò)的計(jì)算量。極化目標(biāo)分解是已知幾種散射機(jī)制,可以直接通過計(jì)算得到不同散射機(jī)制下的分量大小,但輸入圖像通過 卷積神經(jīng)網(wǎng)絡(luò)提取到特征圖后,已知的只有每個(gè)像素的高維特征,想要對(duì)高維特征進(jìn)行低秩重構(gòu),基和在每個(gè)基下的分量大小都是需要求解的變量。對(duì)于這種含有隱變量的模型參數(shù)求解,可以采用EM算法的思想。具體地,本文采用類似求解K-means的方法來求解低秩重構(gòu)模塊的模型參數(shù)。
EM算法是一種迭代優(yōu)化策略,是一種啟發(fā)式的迭代方法。最初是為了解決數(shù)據(jù)缺失情況下的參數(shù)缺失問題,即通過迭代完成對(duì)隱變量模型的參數(shù)估計(jì)[13]。其計(jì)算方法是每一次迭代都分為2步,第1步為E-step,根據(jù)樣本,估計(jì)出隱變量的值,即樣本屬于每個(gè)分布的概率;第2步為M-step,依據(jù)上一步估計(jì)出的隱變量利用最大似然求解模型參數(shù),然后反復(fù)迭代,直至最后收斂。
如果優(yōu)化目標(biāo)是非凸的,EM算法的特性可以使優(yōu)化目標(biāo)收斂到一個(gè)局部最優(yōu)解,而當(dāng)優(yōu)化目標(biāo)是凸的時(shí)候,EM算法可以保證收斂到全局最優(yōu)解,這點(diǎn)同梯度下降法相同。
K-means算法是EM算法的一個(gè)特例。K-means問題的目的是要將樣本{x1,x2,……,xn}分成K個(gè)簇,這里的隱變量就是每個(gè)樣本所屬的類別,而模型的參數(shù)為K個(gè)質(zhì)心。按照EM算法的流程,首先初始化K個(gè)質(zhì)心為μ1,μ2,……,μk,之后進(jìn)行E-step,依據(jù)當(dāng)前質(zhì)心計(jì)算每個(gè)樣本屬于哪個(gè)簇:
zn=argmin‖xn-μk‖2.
(2)
M-step:根據(jù)分類后的樣本重新計(jì)算每個(gè)簇的質(zhì)心:
(3)
重復(fù)計(jì)算E-step和M-step直至收斂。
在神經(jīng)網(wǎng)絡(luò)中,假定輸入的特征圖為X∈H×W×C,其中H和W分別為特征圖的寬和高,C為特征維度。在神經(jīng)網(wǎng)絡(luò)中,特征維度C會(huì)隨著卷積核的增多而不斷增加,在后面較深的層數(shù)能到上百維甚至千維的特征,這對(duì)于一個(gè)幾分類的任務(wù)來說,是過完備的,高維數(shù)據(jù)的分類邊界更為復(fù)雜,會(huì)使分類變得低效,大大增加分類難度。
極化目標(biāo)分解方法用一組基去描述極化SAR圖像的散射特征,而不同地物在不同基下的分量不同從而達(dá)到區(qū)分地物的目的。低秩重構(gòu)模塊(LRR Unit)從基分解的思想出發(fā),找出一組緊湊的基,找到高維數(shù)據(jù)在低維空間的映射,在不增加參數(shù)量的情況下使代表不同地物的特征區(qū)分更明顯,便于后續(xù)分類。具體地,像素點(diǎn)在每個(gè)基下的權(quán)重可以看作隱變量,基可以看作K-means中的質(zhì)心。低秩重構(gòu)模塊結(jié)構(gòu)如圖2所示。
圖2 低秩重構(gòu)模塊Fig.2 Low-rank reconstruction unit
特征圖進(jìn)入低秩重構(gòu)模塊先進(jìn)行變換,把像素個(gè)數(shù)記為N=H×W,特征圖變?yōu)閄∈N×C。假定重構(gòu)后的基有K個(gè),那么基初始化值為μ∈K×C。E-step:估計(jì)隱變量Z∈N×K,即每個(gè)基對(duì)像素的權(quán)重。這里與K-means不同的是,K-means的隱變量是硬指定,即每個(gè)樣本(像素點(diǎn))只能來自一個(gè)類別(基),而這里是軟指定,每個(gè)樣本(像素點(diǎn))都有一定的概率屬于每個(gè)類別(基)。M-step:在E-step的基礎(chǔ)上更新基μ。在E-step和M-step迭代T步后,隱變量Z和基μ已經(jīng)近似收斂。與K-means不同,低秩重構(gòu)模塊還需要一步來利用更新后的Z和μ來對(duì)X進(jìn)行重構(gòu)。R-step:重構(gòu)X為XO。低秩重構(gòu)模塊流程如表1。
表1 低秩重構(gòu)模塊Table 1 Low-rank reconstruction unit
核函數(shù)ψ(xn,μk)這里有多種選擇,如內(nèi)積、歐氏距離、RBF核等,在實(shí)驗(yàn)中發(fā)現(xiàn)[14],核函數(shù)的選擇對(duì)結(jié)果影響不大,這里選用指數(shù)內(nèi)積exp(aTb),那么隱變量Z可以表示為X與μ的內(nèi)積外加一個(gè)Softmax層:
Z=Softmax(X·μ).
(4)
同樣地,仿照K-means算法求μ的方法,μ為X在隱變量Z上的加權(quán)平均。重構(gòu)后的XO,特征圖之間表示同類地物的差距變小,而表示不同類的差距變大。即經(jīng)過重構(gòu)后的特征圖,雖然大小仍為N×C,但是信息純度更高,每張圖的語義信息相較之前更加豐富,不再需要堆疊更多的卷積層去學(xué)習(xí)更深層的信息即可對(duì)地物進(jìn)行有效的區(qū)分。換句話說,低秩重構(gòu)模塊在不增加參數(shù)運(yùn)算量的情況下完成了卷積層提取深度特征的作用。同時(shí),低秩重構(gòu)模塊用整張圖全局信息來做EM迭代的,可以直接捕捉遠(yuǎn)程依賴,相當(dāng)于一個(gè)全圖尺寸的卷積核,與卷積層的局部感受野相比更具優(yōu)勢(shì)。
LRR-Net的整體框架如圖3所示,全極化圖像經(jīng)過預(yù)處理之后,首先經(jīng)過一個(gè)卷積神經(jīng)網(wǎng)絡(luò)作為用于提取特征圖,利用卷積神經(jīng)網(wǎng)絡(luò)的特性,提取深層特征并映射特征到高維空間,本文使用的backbone是Resnet[15]。
圖3 低秩重構(gòu)網(wǎng)絡(luò)Fig.3 Low-rank reconstruction net
第二步特征圖經(jīng)過通道注意力模塊[16]。特征圖首先通過全局平均池化來來壓縮空間信息,每個(gè)通道獲得一個(gè)值,之后經(jīng)過全連接層和非線性層融合各個(gè)特征圖的信息,學(xué)習(xí)通道之間的聯(lián)系。第1個(gè)全連接層是把C個(gè)通道壓縮,來降低計(jì)算量,再第2個(gè)全連接層恢復(fù)回C個(gè)通道。最后經(jīng)過Sigmoid獲取到每個(gè)通道的權(quán)重,通過乘法逐通道地加權(quán)到先前的特征圖,完成對(duì)特征重分布。通道注意力模塊可以讓神經(jīng)網(wǎng)絡(luò)捕獲通道之間的關(guān)系,獲得每個(gè)通道維度的重要性,改變?nèi)值臄?shù)值分布從而讓低秩重構(gòu)模塊更好地收斂。
之后經(jīng)過一個(gè)不含ReLU激活函數(shù)的1×1卷積層。ReLU激活函數(shù)
(5)
這里不含ReLU激活函數(shù)的原因是為了讓參數(shù)取值范圍回到負(fù)無窮到正無窮的范圍。如果不加這一層,基的取值范圍也會(huì)因?yàn)镽eLU的值域在正區(qū)間被限制,與卷積層的參數(shù)相比喪失了一半的表征能力。
之后經(jīng)過低秩重構(gòu)模塊,經(jīng)過幾次迭代后參數(shù)收斂得到重構(gòu)后的特征圖,實(shí)現(xiàn)特征從的重構(gòu)。同時(shí)為了減少過擬合,加入了按通道隨機(jī)丟棄的二維Dropout,提升網(wǎng)絡(luò)的穩(wěn)定性。最后一個(gè)1×1卷積層用來將維度縮減到與類別數(shù)量相同以便后續(xù)計(jì)算損失函數(shù)進(jìn)行網(wǎng)絡(luò)參數(shù)更新。
本文采用的極化SAR數(shù)據(jù)集來自中國的高分三號(hào)衛(wèi)星。高分三號(hào)于2016年8月10日發(fā)射成功,2017年1月23日正式投入使用。中國首顆分辨率達(dá)到1 m的C頻段多極化合成孔徑雷達(dá)衛(wèi)星,是高分專項(xiàng)“天眼工程”中唯一一顆“雷達(dá)星”[17]。
為了對(duì)模型進(jìn)行訓(xùn)練與測(cè)試,本文利用帶人工標(biāo)注標(biāo)簽的QPSI全極化波段的杭州地區(qū)的數(shù)據(jù)集,除去背景之外,標(biāo)簽共有6類,分別為:水體,建筑物,工業(yè)區(qū),林草地,土地&裸地,其他。在此之前極化SAR的數(shù)據(jù)集如AIRSAR的L波段的舊金山地區(qū)數(shù)據(jù)或Flevoland地區(qū)數(shù)據(jù),這類數(shù)據(jù)往往只有一張標(biāo)注的圖片,數(shù)據(jù)量的稀缺使得神經(jīng)網(wǎng)絡(luò)較傳統(tǒng)方法并沒有太大優(yōu)勢(shì),且極容易過擬合,在一些論文中已經(jīng)可以達(dá)到99%左右的準(zhǔn)確率。而該數(shù)據(jù)集共有500×4張全極化圖像,每張圖像的大小為512像素×512像素,可以很好地驗(yàn)證不同神經(jīng)網(wǎng)絡(luò)圖像分割方法的有效性,避免了數(shù)據(jù)稀缺帶來的影響,相較其他數(shù)據(jù)集更具說服力。每張圖片的標(biāo)簽均是人工標(biāo)注,可信度較高。每個(gè)樣本包含4個(gè)通道的圖像以及人工標(biāo)注的真值圖片,如圖4所示。
圖4 SAR原始圖像以及真值標(biāo)注Fig.4 SAR image and ground truth
為驗(yàn)證本文方法的有效性,將LRR-Net的地物分類結(jié)果與圖像分割的經(jīng)典模型FCN[18]以及近幾年的典型模型PSPNet[19]和DeeplabV3[20]模型比較。FCN是語義分割的基本框架,后續(xù)的算法都是在這個(gè)基礎(chǔ)上改進(jìn)而來。PSPNet通過加入金字塔模塊聚合基于不同區(qū)域的上下文信息,這也成為了后續(xù)很多網(wǎng)絡(luò)的基本模塊。DeeplabV3加入了多尺度空洞卷積的模塊,最大程度地減少了信息的丟失。以上幾個(gè)網(wǎng)絡(luò)的思想都在圖像分割領(lǐng)域產(chǎn)生了重大影響,將結(jié)果與它們作比較具有較高的說服力。同時(shí),為保持變量的統(tǒng)一性,PSPNet、DeepLabV3和LRR-Net使用的基礎(chǔ)特征提取網(wǎng)絡(luò)均為Resnet50。神經(jīng)網(wǎng)絡(luò)的計(jì)算量復(fù)雜度一般使用FLOPs或MACC來衡量。FLOPs全稱為floating point operations,即浮點(diǎn)運(yùn)算數(shù),而MACC全稱為multiply-accumulate operations,即乘加運(yùn)算數(shù)。MACC會(huì)把一次浮點(diǎn)乘法和一次浮點(diǎn)加法當(dāng)做一次運(yùn)算,因此一般來說FLOPs是MACC的2倍,本文使用MACC來評(píng)估模型復(fù)雜度。當(dāng)輸入圖像大小為512×512時(shí),PSPNet的計(jì)算量復(fù)雜度為184 G MACC,DeeplabV3的計(jì)算量復(fù)雜度為171 G MACC,F(xiàn)CN的計(jì)算量復(fù)雜度為160 G MACC而LRR-Net的計(jì)算量復(fù)雜度僅為137 G MACC,大大減少了神經(jīng)網(wǎng)絡(luò)運(yùn)算的復(fù)雜度,這也是LRR-Net特性的體現(xiàn)。
PSPNet在backbone之后鏈接了多尺度感受野的金字塔結(jié)構(gòu)來提取更具語義的特征從而提升分割精度,如圖5所示。多尺度的融合雖然對(duì)分割精度的提升有效,但每個(gè)尺度都會(huì)增加一倍的計(jì)算量,融合之后的特征圖維度更是高達(dá)2 048維。同樣地,DeeplabV3計(jì)算復(fù)雜度的增加主要是使用了多尺度的空洞卷積堆疊卷積層來獲取更多特征。而LRR-Net中,特征圖經(jīng)過低秩重構(gòu)模塊之后每張圖的類內(nèi)差距變小而類間差距變大,等于完成了深層特征提取,因此不需要后面連接更多卷積層,大大降低復(fù)雜度。
本文利用高分三號(hào)QPSI全極化波段進(jìn)行實(shí)驗(yàn),輸入圖像的位置為30.3°N,120.4°E。經(jīng)過預(yù)處理后裁剪成500張長(zhǎng)和寬都為512像素的圖像,真實(shí)地物標(biāo)簽分為6類,分別為水體,建筑物,工業(yè)區(qū),林草地,土地&裸地,以及其他。本文按照4∶1的比例隨機(jī)劃分訓(xùn)練集和測(cè)試集,經(jīng)過對(duì)輸入數(shù)據(jù)的歸一化等預(yù)處理之后輸入網(wǎng)絡(luò)。具體參數(shù)為,初始學(xué)習(xí)率1e-2, 批訓(xùn)練大小為8,使用帶有權(quán)重衰減的隨機(jī)梯度下降發(fā)進(jìn)行訓(xùn)練weightdecay=1e-4,同時(shí)學(xué)習(xí)率的衰減采用poly策略,具體為
(6)
圖5 PSPNet結(jié)構(gòu)Fig.5 Structure of PSPNet
本文進(jìn)行的所有實(shí)驗(yàn)均在Pytorch深度學(xué)習(xí)框架下進(jìn)行,CUDA版本為10.1,系統(tǒng)為Ubuntu16.04,GPU為2張顯存為11 GB的GeForceRTX 2080Ti。
為客觀評(píng)價(jià)算法的有效性和優(yōu)越性,本文采用像素準(zhǔn)確率(AP)、平均像素準(zhǔn)確率(AMP)、平均交并比(MIoU)對(duì)結(jié)果進(jìn)行評(píng)估。假定有k+1類(k個(gè)目標(biāo)類和1個(gè)背景類)。具體地,pii表示真正例, 即實(shí)際為i類預(yù)測(cè)也為i類的像素個(gè)數(shù),pij表示假負(fù)例,即實(shí)際為i類卻預(yù)測(cè)錯(cuò)為j類的像素個(gè)數(shù),pji表示假正例,即實(shí)際為j類卻錯(cuò)誤分為i類的像素個(gè)數(shù)。像素準(zhǔn)確率AP為分類正確的像素點(diǎn)數(shù)和所有的像素點(diǎn)數(shù)的比值:
(7)
考慮到數(shù)據(jù)集中每一類的樣本量可能會(huì)非常不均勻,引入平均像素準(zhǔn)確率MPA。平均像素準(zhǔn)確率為每一類分類正確的像素點(diǎn)數(shù)和該類的所有像素點(diǎn)數(shù)的比例然后求平均
(8)
平均交并比MIoU為計(jì)算每一類的IoU然后求平均:
(9)
低秩重構(gòu)模塊的迭代次數(shù)T是一個(gè)超參數(shù),在不同迭代次數(shù)下模型表現(xiàn)如表2所示。
表2 不同迭代次數(shù)的模型表現(xiàn)Table 2 Performance of models with different iterations
在迭代次數(shù)T≥3后,迭代次數(shù)的增加對(duì)模型基本沒有影響,因此模型默認(rèn)值選擇T=3,與FCN、PSPNet、DeepLabV3進(jìn)行實(shí)驗(yàn)結(jié)果的比較。
表3的結(jié)果表明,LRR-Net像素準(zhǔn)確率和平均交并比上優(yōu)于其他算法,但是在平均像素準(zhǔn)確率上卻低于PSPNet和DeepLabV3,原因在于LRR-Net在占比較多的地物類別如林草地能實(shí)現(xiàn)更高的準(zhǔn)確率,但在占比較小的地物如裸地或工業(yè)區(qū)容易產(chǎn)生錯(cuò)誤分類,而PSPNet和DeepLabV3在不同地物表現(xiàn)更加平均。需要強(qiáng)調(diào)的是,LRR-Net在參數(shù)量更小的情況下實(shí)現(xiàn)了更高的精度。
表3 高分三號(hào)數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Comparison on GF-3 dataset
為了更直觀地對(duì)比算法對(duì)地物分類的效果,圖6列出了各網(wǎng)絡(luò)的分類結(jié)果圖。從左到右依次為:SAR偽彩色圖、真值標(biāo)簽、FCN、PSPNet、DeeplabV3、LRR-Net的分類結(jié)果。淺藍(lán)色(0,255,255)代表水體,黃色(255,0,0)代表建筑物,綠色(0,255,0)代表林草地,藍(lán)色(0,0,255)代表工業(yè)區(qū),紅色(255,0,0)代表土地裸地,白色(255,255,255)代表其他。從圖中可以看出,F(xiàn)CN因?yàn)閰?shù)量的不足,導(dǎo)致網(wǎng)絡(luò)表征能力不夠,出現(xiàn)了大量錯(cuò)分誤分的情況。LRR-Net、PSPNet和DeepLabV3在整體表現(xiàn)差距不大,但在細(xì)節(jié)上卻有差異。分類結(jié)果中的黑色方框表明了各網(wǎng)絡(luò)在細(xì)節(jié)上的不同??梢钥闯鯨RR-Net因?yàn)檫M(jìn)行了低秩重構(gòu),在分類邊界上更加清晰,表現(xiàn)更好,相比PSPNet和DeeplabV3能夠?qū)崿F(xiàn)更連貫的分類,從而提高了整體的分類精度。
為了進(jìn)一步證明低秩重構(gòu)模塊的合理性,本文將隱變量Z即基分解后的圖可視化。隨機(jī)地選取幾張測(cè)試集的圖片輸入,并將它們經(jīng)過網(wǎng)絡(luò)的基分解后的隱變量圖可視化。
由1.3可知,隱變量Z的大小為N×K,其中N=H×W,K為基的個(gè)數(shù),是一個(gè)超參數(shù),本文設(shè)置為64??梢暬蟮碾[變量如圖7所示,最左側(cè)是標(biāo)注好的地物標(biāo)簽,右邊5列則是經(jīng)過低秩重構(gòu)模塊后基的可視化圖中的5個(gè)。從圖中可以看出,可視化的基分解圖已經(jīng)可以收斂到具有特定語義類別的概念。這與本文在序言中所提到的基的特點(diǎn)一致,即數(shù)量少且具有代表性,能夠獨(dú)立地表示出一種具有高層語義的特征。因此,經(jīng)過這些基重構(gòu)后的特征圖也同樣具有深層語義的特征,避免了添加卷積層帶來的冗余計(jì)算量。
圖7 基分解圖可視化Fig.7 Visualization of base decomposition images
極化SAR地物分類一直是遙感領(lǐng)域研究的重點(diǎn)與難點(diǎn)。本文提出一個(gè)基于圖像分割和EM算法的低秩重構(gòu)網(wǎng)絡(luò)模型LRR-Net。相比于現(xiàn)有的神經(jīng)網(wǎng)絡(luò)的圖像分割模型,本文的模型從傳統(tǒng)的極化SAR基分解和低秩重構(gòu)的角度出發(fā),以更少的參數(shù)量實(shí)現(xiàn)了更高的精度,完成了傳統(tǒng)極化SAR處理方法與神經(jīng)網(wǎng)絡(luò)的有機(jī)結(jié)合,且不受數(shù)據(jù)限制,可以用在各類有標(biāo)簽的圖像分割問題處理上。針對(duì)卷積神經(jīng)網(wǎng)絡(luò)出現(xiàn)的高維信息冗余問題,從極化目標(biāo)分解的理念出發(fā),使用EM算法對(duì)高維空間的信息進(jìn)行低秩重構(gòu),從而解決了這一問題,并在高分三號(hào)數(shù)據(jù)集上達(dá)到了接近88%的準(zhǔn)確率。
雖然LRR-Net在參數(shù)量下降的前提下實(shí)現(xiàn)了更高的精度,但仍有一些問題值得研究。例如,在樣本量較小的地物上LRR-Net的分類精度相對(duì)較低,在分類的平衡性上表現(xiàn)不足。因此在后續(xù)的研究工作中,將繼續(xù)探索此類問題的解決方法。