康 璇,李 暉,黃 林
(廈門理工學(xué)院 計算機(jī)與信息工程學(xué)院,福建 廈門 361024)
積雪是冰凍圈中覆蓋范圍最廣、最活躍的要素之一[1],對全球氣候變化、生態(tài)環(huán)境和社會經(jīng)濟(jì)具有重要的影響作用[2-3]。季節(jié)性的積雪融水是河川徑流的主要補(bǔ)給來源,也是西部干旱地區(qū)主要的淡水資源[4]。近年來,隨著全球氣候變暖,全球積雪的持續(xù)時間和覆蓋范圍明顯減少[3],準(zhǔn)確的積雪識別和監(jiān)測對氣候變化、災(zāi)害評估、融雪動態(tài)監(jiān)測和生態(tài)環(huán)境安全具有重要意義。積雪多分布于高海拔、高緯度山區(qū)[4],傳統(tǒng)的積雪研究方法數(shù)據(jù)獲取難度大。遙感技術(shù)的出現(xiàn)為大范圍、高精度積雪識別監(jiān)測提供了新的可能。與光學(xué)遙感相比,SAR具有穿透云霧、全天時全天候積雪監(jiān)測和部分穿透性等能力,在積雪遙感領(lǐng)域得到廣泛應(yīng)用[5-7]。
目前,僅利用SAR圖像單一特征對積雪進(jìn)行識別,由于SAR圖像中相干斑噪聲的影響,積雪散射系數(shù)的測量產(chǎn)生很大偏差,濾波過程中也會損失積雪部分信息,導(dǎo)致積雪識別結(jié)果較為破碎。因此,結(jié)合后向散射系數(shù)和多種極化特征的積雪識別有待進(jìn)一步探索。鑒于此,本文選取瑪納斯河流域典型區(qū)域作為研究區(qū),結(jié)合雷達(dá)后向散射特征和多種極化分解特征,利用機(jī)器學(xué)習(xí)方法開展多特征分層組合的積雪識別研究,分析不同特征在積雪識別中的作用,以期為極化SAR數(shù)據(jù)山區(qū)積雪識別提供研究思路。
瑪納斯河流域位于新疆天山中段北麓,準(zhǔn)噶爾盆地南部,北緯43°20′~45°55′,東經(jīng)85°00′~87°00′,是準(zhǔn)噶爾內(nèi)陸區(qū)冰川規(guī)模最大的內(nèi)陸河。流域內(nèi)地勢由東南向西北傾斜,最高海拔為5 243 m,最低為256 m,海拔高程3 600 m以上大部分區(qū)域為冰川和永久性積雪覆蓋,平均雪線為3 970 m?,敿{斯河為干旱區(qū)典型的山盆結(jié)構(gòu),水汽來源少、降水稀少、氣候干旱,屬于典型的溫帶大陸性干旱半干旱氣候。流域內(nèi)積雪在大陸性氣候條件作用下,具有密度低、含水量少、厚度薄等特點[15],平均積雪覆蓋率1月—2月達(dá)到最高,3月開始消融,4月中旬消融結(jié)束,8月積雪面積達(dá)到最低。冰雪融水是瑪納斯河主要的徑流補(bǔ)給,占瑪納斯河年徑流量的47%,是天山北坡重要的水源[16],研究區(qū)位置如圖1所示。
圖1 研究區(qū)位置Fig.1 Location of the study area
本文采用全極化Radarsat-2影像作為數(shù)據(jù)源,成像波段為C波段,成像模式為精細(xì)全極化(括HH,HV,VH和VV四種極化方式),產(chǎn)品模式為單視復(fù)數(shù)據(jù)(Single Look Comple,SLC),獲取時間為2013年12月13日,入射角為43.45°,距離向像元4.733 m,方位向像元4.799 m。對數(shù)據(jù)進(jìn)行多視、濾波、地理編碼和輻射定標(biāo)等預(yù)處理,采用Refind Lee濾波進(jìn)行降噪處理,窗口大小設(shè)置為5*5,獲得Radarsat數(shù)據(jù)的后向散射系數(shù)如圖2所示。根據(jù)2013年12月積雪期野外同步觀測數(shù)據(jù),顯示研究區(qū)該日期有降雪。
(a) HH后向散射系數(shù)
(b) HV后向散射系數(shù)
(c) VH后向散射系數(shù)
(d) VV后向散射系數(shù)圖2 Radarsat后向散射系數(shù)(2013年12月13日)Fig.2 Radarsat backscattering coefficient (December 13,2013)
高分一號衛(wèi)星(簡稱GF-1衛(wèi)星)是我國高分辨率對地觀測系統(tǒng)的首發(fā)星。GF-1衛(wèi)星搭載的WFV相機(jī)包含藍(lán)、綠、紅和近紅外4個波段,空間分辨率16 m,重訪周期4 d。研究選用2013年12月14日GF-1數(shù)據(jù)作為參考影像,如圖1所示,對數(shù)據(jù)進(jìn)行輻射定標(biāo)、大氣校正及圖像裁剪,獲得研究區(qū)地表反射率。
(1) 后向散射特征提取
(1)
(2)
(2) 極化分解及極化特征提取
Pauli分解[19]將散射矩陣S分解為各Pauli基矩陣的復(fù)數(shù)形式的加權(quán)和,每個Pauli基矩陣對應(yīng)一種基本的散射機(jī)制,公式如下:
(3)
Freeman分解[20]在Van Zyl的基礎(chǔ)上,以極化協(xié)方差矩陣為分解對象,將其分解為表面散射、體散射和二面角散射3種散射機(jī)理。該方法以物理實際為基礎(chǔ),分別對3種基本散射機(jī)理進(jìn)行建模,可以較好地描述自然散射體。該極化協(xié)方差矩陣可表示為:
(4)
式中,fs,fd,fv分別代表面散射、二面角散射和體散射分量貢獻(xiàn)值。
(5)
Yamaguchi分解[22]為了更廣泛地適用于散射體具有復(fù)雜幾何散射結(jié)構(gòu)的情況,在Freeman分解基礎(chǔ)上,引入了第4種散射分量——螺旋體散射,彌補(bǔ)了Freeman分解無法用于不對稱問題的缺陷。
全極化SAR數(shù)據(jù)不僅能夠反映不同地物的后向散射系數(shù)信息差異,還包含豐富的極化信息,對積雪識別具有重要作用。為探索目標(biāo)極化分解特征、后向散射特征及交叉極化和同極化比值和差值對積雪識別的貢獻(xiàn),本研究將處理全極化Radarsat-2后得到的20個特征圖像(如表1所示)進(jìn)行不同組合,得到3種特征集(如表2所示)。
表1 基于Radarsat-2影像特征參數(shù)Tab.1 Image feature parameters based on Radarsat-2
表2 分類特征集Tab.2 Classification feature set
① 基于極化分解特征的積雪識別
② 基于極化和散射特征的積雪識別
2.3.1 分類方法
隨機(jī)森林(Random Forest,RF)算法是以決策樹為基本分類器的集成學(xué)習(xí)方法[23],該方法采用Bagging方法為每棵決策樹抽取一組獨立同分布的樣本集,對樣本集進(jìn)行訓(xùn)練產(chǎn)生決策樹,最終結(jié)果通過決策樹投票表決確定。與其他機(jī)器學(xué)習(xí)算法相比,RF算法在處理高維數(shù)據(jù)時可訓(xùn)練少量樣本建立分類規(guī)則,抑制過擬合現(xiàn)象的產(chǎn)生,且對異常值和噪聲數(shù)據(jù)具有很好的魯棒性和穩(wěn)定性[23-24]。同時,RF算法具有特征優(yōu)選的能力,將未參與訓(xùn)練的袋外數(shù)據(jù)(Out-Of-Bag,OOB)作為測試樣本,計算單棵決策樹的OOB誤分率,估計每個特征的重要性。本研究將決策樹數(shù)目設(shè)為100,每棵決策樹的特征數(shù)m計算如下:
m=sqr(M),
(6)
式中,M為用于分類的特征總數(shù)。由于RF在處理高維度特征分類時性能表現(xiàn)優(yōu)異,具有訓(xùn)練速度快、準(zhǔn)確率高等優(yōu)點,在SAR圖像分類領(lǐng)域得到廣泛應(yīng)用,本文選擇隨機(jī)森林算法進(jìn)行積雪識別。
圖3 本文算法流程Fig.3 Flow chart of the proposed algorithm
2.3.2 精度評價
研究參考GF-1光學(xué)影像,選擇和確定積雪和非積雪樣本,樣本點盡可能均勻分布在研究區(qū)內(nèi)。在GF-1影像上選取訓(xùn)練樣本,其中積雪樣本55個區(qū)域,非積雪樣本66個區(qū)域。在GF-1衛(wèi)星影像上,隨機(jī)生成200個驗證樣本,其中積雪樣本94個,非積雪樣本106個。利用混淆矩陣計算精度指標(biāo)和調(diào)和平均值F1(F-Measure),對3.2節(jié)的分類結(jié)果進(jìn)行精度評價。精度指標(biāo)包含精度總體精度(Overall Accuracy,OA)、Kappa系數(shù)(Kappa Coefficient)、生產(chǎn)者精度(Producer’s Accuracy,PA)和用戶精度(User’s Accuracy,UA);F1表示PA和UA的調(diào)和平均值,計算如下[25]:
(7)
(1) 極化特征分析
全極化SAR能夠獲得目標(biāo)的散射矩陣、極化協(xié)方差矩陣和極化相干矩陣,這些極化散射矩陣綜合了地物目標(biāo)的極化、相位和能量特性,能夠?qū)ι⑸溥^程中目標(biāo)的極化變化信息進(jìn)行完整的記錄和描述[26-27]。極化目標(biāo)分解是基于目標(biāo)的散射矩陣、協(xié)方差矩陣或相干矩陣,將復(fù)雜的目標(biāo)散射過程分解為多個簡單散射機(jī)制之和,從而提取極化特征參數(shù),用于地物分類識別。
圖4 極化分解假彩色合成圖(R(P_dblF_dblHY_dbl),G(P_volF_volAY_vol),B(P_oddF_oddFig.4 Polarization decomposition false color composite(R(P_dblF_dblHY_dbl),G(P_volF_volAY_vol),B(P_oddF_odd
(2) 后向散射特征分析
分別提取積雪和非積雪的后向散射特征值,如圖5所示。
圖5 積雪和非積雪的后向散射特征值Fig.5 Backscattering features of snow and non-snow
為了進(jìn)一步探究積雪與非積雪可分離性,對4種后向散射強(qiáng)度進(jìn)行頻率分布統(tǒng)計分析(如圖6所示)。
(a) HH極化
(b) VV極化
(c) HV極化
(d) VH極化圖6 積雪、非積雪不同后向散射系數(shù)頻率分布Fig.6 Frequency distribution of different backscattering coefficients of snow and non-snow
根據(jù)頻率分布可以看出,積雪和非積雪均呈現(xiàn)單峰,積雪在4種后向散射強(qiáng)度中保持最高。對于同極化,積雪后向散射強(qiáng)度主要集中在-25~-5 dB,低于-14 dB,積雪后向散射強(qiáng)度高于非積雪,在-14 dB以上,積雪后向散射強(qiáng)度低于非積雪。在交叉極化條件下,積雪后向散射強(qiáng)度集中在-30~-15 dB之間,在-25 dB以下,積雪后向散射強(qiáng)度高于非積雪,高于-25 dB,積雪后向散射強(qiáng)度低于非積雪。由此,可將后向散射強(qiáng)度作為積雪識別分類特征。
為了檢驗本文方法的有效性,對3個特征集分別使用RF、SVM、神經(jīng)網(wǎng)絡(luò)(Neural Networks,NNS)和最小距離分類(Minimum Distance Classification)4種分類器進(jìn)行分類對比,分類結(jié)果如圖7~圖10所示。
圖7 隨機(jī)森林在3個特征集的積雪識別結(jié)果Fig.7 Snow cover recognition results of random forest in three feature sets
圖8 支持向量機(jī)在3個特征集的積雪識別結(jié)果Fig.8 Snow recognition results of SVM in three feature sets
圖9 最小距離分類在3個特征集的積雪識別結(jié)果Fig.9 Snow recognition results of minimum distance classification in three feature sets
圖10 神經(jīng)網(wǎng)絡(luò)在3個特征集的積雪識別結(jié)果Fig.10 Snow recognition results of NNS in three feature sets
圖7~圖10分別為RF、SVM、最小距離分類和NNS利用特征集T1,T2和T3的積雪識別結(jié)果。對比發(fā)現(xiàn),RF和NNS的整體識別效果優(yōu)于SVM和最小距離分類。與RF結(jié)果相比,在研究區(qū)北部,NNS的識別結(jié)果較為破碎,少數(shù)積雪像元被誤判,沒有很好地將農(nóng)田輪廓分出。在SVM識別結(jié)果中,西南部山區(qū)識別結(jié)果出現(xiàn)一些細(xì)碎斑點,非積雪像元被識別為積雪像元。最小距離分類整體識別效果最差,大量積雪范圍被高估。
表3 不同分類方法識別結(jié)果Tab.3 Recognition results of different classification methods
使用RF分類器,分別利用特征集T1,T2和T3進(jìn)行積雪識別,結(jié)果如圖7(a)~(c)所示。從分類結(jié)果可以看出,通過T1,T2,T3特征集基本可以將積雪與非積雪部分區(qū)分開,但在局部區(qū)域識別結(jié)果存在差異。僅利用目標(biāo)極化特征T1進(jìn)行分類(圖7(a)),積雪識別范圍較完整,但積雪內(nèi)部區(qū)域出現(xiàn)細(xì)小斑塊;加入4種后向散射特征T2(圖7(b))及Diff和Ratio(圖7(c))后,各分類結(jié)果圖中斑塊均有所減少,獲得的積雪區(qū)域較為完整。從整體識別結(jié)果看,基于極化特征T1的識別結(jié)果積雪區(qū)域存在大量破碎斑塊;與T1特征集對比,加入全極化后向散射特(T2后的識別結(jié)果積雪區(qū)域較為完整,但仍存在少量細(xì)小碎塊);在以上特征的基礎(chǔ)上添加Diff和Ratio(T3),對積雪的識別效果最好,分類結(jié)果破碎度有所降低。
對分類結(jié)果進(jìn)行精度評價,混淆矩陣如表4所示,精度對比如圖11所示。對比發(fā)現(xiàn),在3種特征組合的分類精度中,僅利用極化特征T1進(jìn)行分類,積雪和非積雪的分類精度均偏低,二者之間存在一定程度的混淆,積雪和非積雪的生產(chǎn)者精度分別為77.66%和77.36%,F(xiàn)1分別為0.76和0.78,總體分類精度為77.50%,Kappa系數(shù)僅0.55。加入4種全極化后向散射特征T2后,整體分類精度有所提高,積雪和非積雪的生產(chǎn)者精度分別提高3.19%和2.83%,F(xiàn)1均提高了0.03,總體分類精度提高至80.50%,Kappa系數(shù)提高至0.61。結(jié)合極化特征、后向散射特征以及Diff、Ratio特征(T3)分類,總體分類精度和Kappa系數(shù)最高,分別為83.00%和0.66,積雪和非積雪的生產(chǎn)者精度和用戶精度均達(dá)到最高,F(xiàn)1值均高于0.80,與僅利用極化特征T1相比均提高了0.06。綜上,通過對比3種特征集的分類結(jié)果,利用特征集T3總體分類精度最高,分類效果最佳,其次為特征集T2,特征集T1的分類精度最低。
表4 分類結(jié)果的混淆矩陣Tab.4 Confusion matrix of classification results
(a) 用戶精度
(b) 生產(chǎn)者精度
(c) 調(diào)和平均值
(d) 總體精度+Kappa系數(shù)圖11 分類精度對比Fig.11 Comparison of classification accuracy
為了進(jìn)一步對積雪識別結(jié)果進(jìn)行分析和討論,在研究區(qū)內(nèi)分別選取3個典型區(qū)域(A,B,C),同時引入2013年12月14日GF-1光學(xué)影像,使用近紅外波段(R)、紅波段(G)和綠波段(B)進(jìn)行波段組合,如圖12所示。將前述隨機(jī)森林分類結(jié)果與GF-1影像進(jìn)行對比發(fā)現(xiàn):① A區(qū)位于研究區(qū)西北部,土地類型主要為農(nóng)田和少量村莊,地勢平坦。由于12月14日的GF-1影像在A區(qū)有大面積云遮掩,選擇Pauli分解彩色合成圖像進(jìn)行對比。在對比3種特征集識別結(jié)果發(fā)現(xiàn),基于特征集T2和T3積雪識別精度較特征集T1高,農(nóng)田輪廓較為清晰,但部分積雪范圍被低估,特征集T1識別精度最低,非積雪區(qū)域被低估,出現(xiàn)較多誤分結(jié)果。② B區(qū)位于研究區(qū)西部,地勢較為平坦,土地覆蓋主要為草地和林地。對比3種特征集識別結(jié)果,特征集T3積雪識別效果最好,積雪和非積雪邊界較為清晰,特征集T1和特征集T2積雪范圍大致被識別,但積雪內(nèi)部出現(xiàn)很多細(xì)小非積雪斑塊,較多積雪被誤分,可能是由于地表覆蓋較為復(fù)雜,對雷達(dá)散射信號產(chǎn)生影響。③ C區(qū)位于研究區(qū)東南部,下墊面為高覆蓋度草地,地勢起伏較大。受地形起伏影響,該區(qū)域有陰影和疊掩現(xiàn)象,對SAR基于3種特征集識別結(jié)果有很多破碎斑塊,非積雪范圍被誤分,特征集T3識別結(jié)果相對較好,草地回波散射對積雪識別產(chǎn)生一定影響,導(dǎo)致整體識別精度效果較低。
圖12 積雪識別結(jié)果局部分析Fig.12 Local analysis of snow cover recognition
本文以新疆瑪納斯河流域為研究區(qū),C波段全極化Radarsat-2影像作為數(shù)據(jù)源,結(jié)合后向散射特征和不同極化目標(biāo)分解得到的極化特征組成特征集,利用RF方法分別對極3種不同特征組合進(jìn)行積雪和非積雪識別分類研究,實現(xiàn)該研究區(qū)內(nèi)積雪范圍制圖。
本研究基于多種極化分解特征和后向散射特征結(jié)合,用于山區(qū)積雪識別,雖然識別精度有所提高,但本文僅使用了幾種極化特征,如何獲得SAR圖像中更豐富極化信息,提取對積雪識別更優(yōu)的特征值,還需要做更深層次的研究。