程騰輝,范文義,2*,吳國明
(1.東北林業(yè)大學 林學院,哈爾濱 150040;2.森林生態(tài)系統(tǒng)可持續(xù)經(jīng)營教育部重點實驗室(東北林業(yè)大學),哈爾濱 150040)
合成孔徑雷達(synthetic aperture radar , SAR)具備全天時、全天候的成像能力,可以與光學遙感相互補充,在部分區(qū)域SAR數(shù)據(jù)優(yōu)于光學遙感數(shù)據(jù)[1]。使用單時相極化SAR(polarimetric SAR,PolSAR)數(shù)據(jù)進行分類研究是SAR的重要研究方向之一,現(xiàn)階段已經(jīng)取得了比較好的成果[2-9]。然而,單時相極化SAR影像在森林、城市和森林城市混雜區(qū)域的分類效果并不理想,主要原因是受到相干斑噪聲和地形等的影響[10]。SAR數(shù)據(jù)早年的獲取方式主要是單極化、單時相、單波段,隨著SAR技術的發(fā)展,多種SAR傳感器已經(jīng)研發(fā)并投入使用,SAR數(shù)據(jù)的獲取方式包括了多極化、多時相、多波段和多角度等多種方式,SAR數(shù)據(jù)源的多樣性為散射機制類似區(qū)域土地覆蓋類型分類提供了更多的可能性,也為數(shù)據(jù)的應用方法提供了更多的機遇。
隨機森林(Random forest,RF)是一種機器學習算法,該方法采用決策樹作為基礎技術支撐[11],在處理多種類型和高維數(shù)據(jù)集時具有高精度和抗過擬合的優(yōu)點[12],可以有效地降低分類問題中維數(shù)過大、局部極小等問題,在SAR影像土地覆蓋類型分類研究中廣泛應用[13-16]。使用單時相、多時相PolSAR、干涉SAR(interferometric SAR,InSAR)、多時相InSAR影像進行土地覆蓋類型分類研究在國內外已經(jīng)產生了部分研究成果,但是,基于多時相PolInSAR(polarimetric interferometric SAR,PolInSAR)數(shù)據(jù)的分類研究,尤其是將時相極化分解信息融合進行分類的研究還比較少見。相關學者利用多時相InSAR數(shù)據(jù)提取不同時相影像的干涉相干性和后向散射系數(shù),根據(jù)干涉相干系數(shù)分析地物類型、林分疏密度之間的差別,對土地覆蓋類型和林分疏密分類取得了可用于實際應用的分類結果[17-21]。李明澤等[22]采用多時相PolSAR和SPOT數(shù)據(jù),提出了融合多時相PolSAR數(shù)據(jù)和光學數(shù)據(jù)的林分類型識別方法,結果表明綜合采用多時相數(shù)據(jù)的極化分解參數(shù)對于林分類型的識別有很好的制圖效果。Fu等[23]使用Sentinel-1B、Sentinel-2A多時相雙極化數(shù)據(jù)對紅河國家級自然保護區(qū)進行濕地分類研究,提出了一種基于對象的RF結合衛(wèi)星圖像數(shù)據(jù)的濕地分類方法,結果表明該方法在對森林林分類型進行分類識別的結果最好。
以上研究中已經(jīng)有利用單時相極化分解、多時相干涉相干性、多時相極化分解特征相結合進行地物類型分類的研究,但尚未有綜合考慮將多時相干涉相干性和多時相極化分解特征結合應用于分類。因此,本文將干涉相干性引入到多時相極化分解,結合經(jīng)典的RF分類方法,在時相因素不同的情況下,比較了不同分類方案的分類精度,實現(xiàn)了一種基于多時相、全極化的RF土地覆蓋類型分類方法。
研究區(qū)位于河北省圍場縣境內,處于內蒙古高原的邊緣(42°22′~42°31′ N,116°53′~117°31′ E),地形地貌組合為高原-波狀丘陵山地, 包括塞罕壩機械林場和御道口牧場的大部分區(qū)域,氣候介于半濕潤和半干旱之間,是寒溫帶大陸性季風氣候[24]。研究區(qū)地表覆蓋類型多樣,包括林地、灌草、農田、水體、城市及建筑用地等,其中植被覆蓋率達80%以上,主要由白樺(Betulaplatyphylla)、華北落葉松(Larixprincipis-rupprechtii)、山楊(Populusdavidiana)、油松(Pinustabuliformis)、云杉(Piceaasperata)和樟子松(Pinussylvestrisvar.mongolica)等組成,并且灌草和林分、不同林分混雜分布,呈現(xiàn)明顯的分布不連續(xù)性、破碎性。7—9月是林分生長季,7月11日林分生長基本完成,處于生長旺季,9月19日落葉松和闊葉林均已開始出現(xiàn)大面積落葉。本文采用1景衛(wèi)星圖像范圍覆蓋區(qū)域開展土地覆蓋類型分類研究工作,研究區(qū)位置如圖1所示。
本研究采用日本JAXAALOS-2衛(wèi)星PolSAR數(shù)據(jù),數(shù)據(jù)的獲取間隔時間為14 d。由于部分重訪日期獲取影像失敗,因此獲取了塞罕壩地區(qū)5個時相的PALSAR全極化Level1.1級產品數(shù)據(jù),每幅影像的方位向、距離向分辨率分別為2.64、2.86 m,影像的具體參數(shù)見表1。該數(shù)據(jù)為L波段數(shù)據(jù),受時間相干性的影響較輕,在植被覆蓋區(qū)仍然可得到有效的PolInSAR數(shù)據(jù)。
表1 ALOS-2 PALSAR數(shù)據(jù)主要參數(shù)
為了獲取分類所需的高精度訓練樣本及檢驗樣本,地面調查數(shù)據(jù)主要由2020年土地利用分類圖、2020年森林資源調查小班資料和2021年8月研究區(qū)森林類型野外調查數(shù)據(jù)組成。森林資源二類調查小班資料和土地利用分類圖來源于河北省塞罕壩機械林場,森林類型野外調查數(shù)據(jù)完成樣地調查90塊。對森林資源二類調查小班資料中單一樹種的小班進行整理,主要是將所有闊葉林類型、灌草等土地覆蓋類型相同的小班進行合并,并將面積較小且未在分類系統(tǒng)中的小班(如裸巖,礦地等)拆分去除。同時,結合野外調查數(shù)據(jù)共獲得584個參考樣點,其中,落葉松104個、針葉混交林73個、灌草99個、闊葉林107個、水體61個、農田79個、建筑61個,對主要樹種和樣地點分布較為集中的區(qū)域進行精準定位,以確保獲得的地表實測數(shù)據(jù)的可靠性。由于地面實測時間和影像數(shù)據(jù)獲取時間不完全相同,通過調查該地區(qū)土地覆蓋類型變化,只有部分林分進行了間伐,林分密度略有變化。因此,可以認為影像獲取時間和實測數(shù)據(jù)獲取時間之間土地覆蓋類型沒有發(fā)生變化,不影響最后的分類結果。地面調查數(shù)據(jù)樣地分布如圖1所示。
圖1 研究區(qū)地理位置及樣點分布
本研究參照《TD/T 1010—2015土地利用動態(tài)遙感監(jiān)測規(guī)程》[24],同時綜合考慮研究區(qū)的地表特征和多時相PolInSAR數(shù)據(jù)的地物識別能力,對研究區(qū)采用兩級分類。在一級分類系統(tǒng)中分為其他類型和有林地;在二級分類系統(tǒng)中,其他類型又分為農田、水體、建筑和灌草。有林地中落葉松、樺樹、山楊和油樟松(樟子松和油松)是研究區(qū)的主要樹種和未來發(fā)展的目標樹種,云杉、山杏、榆樹和柞樹等樹種占地面積相對較少,因此將樺樹、山楊、柞樹等闊葉林樹種合并為闊葉林類型,將云杉和油樟松合并為針葉混交林類型。最終,將分類系統(tǒng)劃分為:灌草、落葉松、針葉混交林、闊葉林、水體、農田和建筑7類。
2.2.1 后向散射和干涉相干性特征參數(shù)提取
每個時相的后向散射系數(shù)和不同時相PolInSAR影像之間的干涉相干性是本文進行地物分類的重要參數(shù)。后向散射系數(shù)是回波強度的度量,干涉相干性度量了兩幅單時相單視復數(shù)(single temporal single look complex,single-temporal SLC)的相關程度。兩者主要與地表地物類型和地物散射方式相關,后者還代表了主輔影像獲取時間間隔內地物目標的變化信息,兩者均可獨立進行部分地物類型識別。兩幅影像s1和s2之間的干涉相干性γ定義為[24]
(1)
式中:H代表共軛轉置;γ的取值范圍為[0,1]。
2.2.2 極化分解特征參數(shù)提取
極化SAR在成像過程中,不同地物對電磁波產生不同的散射特性,如:地面和水體主要是發(fā)生表面散射;農作物、森林等則易于產生體散射。極化相干矩陣能夠記錄并描述地物的散射特性,而極化分解是利用散射矩陣、相干矩陣或協(xié)方差矩陣實現(xiàn)提取地物目標散射特性的重要方法。因此,極化分解參數(shù)是地物目標的散射特征,是極化SAR圖像分類、地表參數(shù)反演等應用的重要依據(jù)。采用目標分解獲取極化散射信息是利用單時相極化SAR數(shù)據(jù)進行土地覆蓋類型分類的重要研究方法[2,25-27],采用極化相干矩陣作為目標分解的初始特征。利用PolSARpro_v6.0.2進行極化分解參數(shù)的提取,通過查閱文獻篩選取用該軟件中提供的12種極化分解方法,共81個極化分解參數(shù)用于下一步的分類,具體見表2。
表2 ALOS-2 PALSAR數(shù)據(jù)極化分解初步篩選參數(shù)
2.2.3 分類特征組合與分類器選擇
按照3種方案組合提取到的特征,3種方案分別是:①單時相獨立分類(包括5個時相后向散射系數(shù)、干涉相干性)共7種特征組合;②單時相極化分解結合后向散射、干涉相干性方案共15種特征組合;③多時相極化分解結合后向散射、干涉相干性方案共4種特征組合,見表3。
表3 分類特征組合方式
初步篩選得到的極化分解方法雖然分解模型和思路不同,但提取到的極化特征之間可能存在一定的相關性,如果采用初步篩選的所有極化分解特征,就可能會增加冗余信息,因此需要對初步篩選的極化分解特征再次篩選。并且5個時相的后向散射系數(shù)和干涉相干性之間也可能存在一定的相關性,同樣需要對這些特征進行篩選。
隨機抽取地面調查數(shù)據(jù)中每類的50%作為訓練樣本,其余作為檢驗樣本。對每種組合方式采用scikit-learn提供的RF分類器進行土地覆蓋類型分類。RF分類器首先對分類特征進行重要性評估,評價標準為平均不純度減少(Mean Decrease in Impurity,MDI),將分類特征按照評估結果進行排序,逐一進行篩選得到分類精度最高的特征個數(shù)。
2.2.4 分類結果精度評價標準
使用混淆矩陣計算生產者精度(PA)、用戶精度(UA)、總精度(OA)和Kappa系數(shù)4個指標以進行精度評價。其中Kappa系數(shù)計算公式為
(2)
式中:K為Kappa系數(shù);p0為混淆矩陣對角線樣本之和與總樣本數(shù)的比值,即OA。
方案1的7種特征組合結合RF分類器分類的Kappa系數(shù)隨特征數(shù)量的變化,如圖2(a)所示,Kappa系數(shù)的最大值均不是在特征數(shù)量最多時獲取,證明RF特征篩選是有效的。就不同時相而言,獲得最優(yōu)分類精度所使用極化分解特征的數(shù)量和類別均不相同,證明時相信息對分類結果產生了影響。單時相分類在7月11日(林木生長初期)獲得最高分類精度,總體精度為87.33%,Kappa系數(shù)為0.851 0,但使用單一時相極化分解特征進行分類落葉松和針葉混交林之間存在嚴重的混分,落葉松的生產者精度、針葉混交林的用戶精度均低于65%,不能滿足目前的實際運用要求;單獨使用后向散射或干涉相干性時,雖具備一定程度的時相信息,但總體分類精度均低于80%,也不滿足實際需要。
在方案2中增加一部分時相特征(后向散射、干涉相干性),結合不同時相下的極化分解特征進行分類結果的Kappa系數(shù)變化如圖2(b)所示。相較于方案1的7種分類方法,方案2各方法總體精度的增幅為3%~7%。對比方案2中15種分類結果發(fā)現(xiàn),后向散射系數(shù)結合單時相極化分解能夠明顯提高總體分類精度,其中b711方法在15種分類結果中最優(yōu),總體精度為90.75%,Kappa系數(shù)為0.891 4,但落葉松和針葉混交林之間的混分現(xiàn)象仍然非常嚴重,落葉松的生產者精度、針葉混交林的用戶精度均低于70%;干涉相干性結合單時相極化分解明顯提高落葉松和針葉混交林之間的分類精度,落葉松生產者精度最高為68.97%,針葉混交林最高為77.78%;兩者融合結合單時相極化分解雖然能進一步提高2種樹種的分類精度,但仍低于80%。因此,該方案在實際生產應用中仍然存在一定的缺憾,需要尋找更高精度的分類方案。
綜合單時相不同極化分解方法仍然不能解決主要樹種和次要樹種之間的混分現(xiàn)象,分類精度無法進一步提升以滿足實際生產的需求,因此,進一步增加時相信息,結合多時相極化分解、后向散射和干涉相干性,最終得到最優(yōu)的分類精度,見表4。
表4 多時相、多特征結合的分類精度
對比3種方案的所有分類精度可知,單獨融合多時相極化分解特征相對于單時相極化分解,總體分類精度提高了1.71%,Kappa系數(shù)提高了0.020 2,增幅并不明顯;將多時相后向散射和干涉相干性結合多時相極化分解特征,即方案3中bcpsp方法,總體分類精度達到93.84%,Kappa系數(shù)為0.927 6。相較于方案1和方案2中的方法分類精度均有較大的提升,總體精度和Kappa系數(shù)的增幅分別為3.09%~18.5%、0.036 2~0.217 6。并且落葉松的生產者精度為75.41%,針葉混交林的用戶精度為80.56%,主要樹種和次要樹種的分類精度得到提高,基本上滿足實際生產的需要。
3種方案均顯示Kappa系數(shù)隨參與分類特征數(shù)量的增加而增長,但當特征數(shù)量增加到30個之后Kappa系數(shù)的增長趨勢變緩;當Kappa系數(shù)達到最大值之后,增加參與分類的特征數(shù)量,Kappa值呈現(xiàn)緩慢下降趨勢,如圖2所示,其中,(a)為方案1,(b)、(c)、(d)為方案2;(e)為方案3。對分類精度產生重要影響的主要集中在MDI值較大的部分,后續(xù)增加的特征不僅無助于分類,甚至還增大了分類噪聲。
篩選3種方案當中分類結果較好的如圖3所示,對于塞罕壩地區(qū)灌草、農田、落葉松、針葉混交林和闊葉林混雜分布調查,圖3(c)與實際情況最為符合,這進一步證明了采用bcpsp方法結合RF分類器的有效性。
圖3 3種方案最優(yōu)結果
本文以河北省圍場縣塞罕壩機械林場和御道口牧場為研究區(qū),對所獲的多時相PolInSAR數(shù)據(jù)進行輻射定標、配準(兩兩配準)和濾波等預處理,得到1個具有多時相信息的后向散射強度、干涉相干性和極化分解參數(shù)多特征數(shù)據(jù)集。將經(jīng)過1次篩選的極化分解數(shù)據(jù)、后向散射、干涉相干系數(shù)組合形成3種研究方案,并結合RF分類器進行二次特征篩選、分類,最終得到了基于多時相全極化、干涉SAR的最優(yōu)隨機森林土地覆蓋類型分類方法。通過對3種方案進行比較分析,得到以下結論。
(1)對于類似塞罕壩地區(qū),灌草、農田和不同林分混雜分布的地區(qū),單時相極化分解不足以支持林分類型分類的精確應用,如不能獲取多時相數(shù)據(jù),在生長季的初期是最佳的土地覆蓋類型識別時間。
(2)分類精度在RF重要性評估的前30個特征提升較快,當極化特征繼續(xù)增加時分類精度的提升趨勢減緩,達到最高后反而開始降低。
(3)綜合多時相、多特征數(shù)據(jù)可以很好地將不同林分類型區(qū)分開來。本文提出的方法得到的總體分類精度為93.84%,Kappa系數(shù)為0.927 6,比最優(yōu)單時相(7月11日)極化分解分類結果提升了6.51%,取得了可用于實際生產應用的分類結果。
本研究是將多時相PolInSAR應用于塞罕壩地區(qū)土地覆蓋類型分類和林分類型識別,雖然得到了一些初步的結論,但是仍然有許多問題要在未來解決,如對提取到的分類特征并未做全面的冗余分析;對于全極化數(shù)據(jù)還可以嘗試提取紋理特征、不同時相之間的相關系數(shù)等作為分類參數(shù)。因此,在未來的研究中可就分類特征篩選和進一步分析干涉相干對林分類型識別的敏感性進行更深層次的研究。