楊麗萍,王 彤,蘇志強,侯成磊,馮 瑞
(1.長安大學 地質工程與測繪學院,陜西 西安 710054;2.長安大學 地球科學與資源學院,陜西 西安 710054; 3.山東農業(yè)工程學院 國土資源與測繪工程學院,濟南 250100)
土壤水分影響水、能量以及生物地球化學循環(huán),是氣象、水文、生態(tài)和農業(yè)系統(tǒng)的關鍵參數[1-4]。傳統(tǒng)的土壤水分含量通常是基于實際地面點測量或田間地面氣象站監(jiān)測得到[5],受站點數量限制,不適于大范圍土壤水分監(jiān)測。遙感技術具有監(jiān)測范圍廣、時效快、分辨率高、動態(tài)性等優(yōu)點,為大范圍土壤水分監(jiān)測提供了有效的技術手段[6]。荒漠綠洲是干旱區(qū)生態(tài)環(huán)境保護的重要屏障,開展干旱荒漠綠洲區(qū)土壤水分遙感反演研究具有特殊的重要意義。
合成孔徑雷達(synthetic aperture radar,SAR)具有全天候、全天時成像的特點,由于雷達波可以穿透植被覆蓋地表,因而在植被覆蓋地表土壤水分估算中備受關注。全極化合成孔徑雷達(polarimetric SAR,PolSAR)的出現以及目標極化分解等極化信息提取技術的快速發(fā)展,進一步有力地推動了基于SAR數據的土壤水分反演模型與方法的研究[7]。由于土壤和植被的后向散射信息疊加在SAR信號中,從而使植被覆蓋地區(qū)土壤水分的反演更加復雜化[8]。為了獲取與土壤水分相關的地表散射分量,前人提出了密歇根微波冠層散射模型(michigan microwave canopy scattering,MIMICS)[9]等植被散射理論模型以及水云模型(water cloud model,WCM)[10]和Roo模型[11]等植被散射的經驗-半經驗模型,在實踐中取得了較好的效果。但是,此類模型僅利用了SAR的后向散射信息,同時,地表粗糙度的精確測量一直以來都是理論模型的主要限制因素,而經驗-半經驗模型局限于校準的有效范圍,且計算過程較為復雜,使其外推能力受到一定限制。因此,如何建立更為有效的植被覆蓋地表土壤水分反演的雷達遙感模型已成為國內外學者普遍關注的焦點。近年來,在模型輸入參數提取與建模方法等方面均有重大進展。
PolSAR影像中包含了散射目標的幾何特征、后向散射特征及其極化特征,與單極化和多極化SAR相比,在目標探測識別、紋理特征和參數提取等方面優(yōu)勢突出。國外很多學者基于PolSAR目標極化分解方法,提取多種極化特征參數,進行土壤水分反演。Bourgeau-Chavez等[12]利用H-A-α分解、Freeman-Durden分解和van Zyl分解等方式提取極化特征,建立逐步回歸模型,對美國阿拉斯加州燒毀的黑云杉林進行了土壤水分反演。Wang等[8]利用Hajnsek分解、Freeman-Durden分解以及An&Yang分解等方法提取極化特征,反演了油菜花、玉米及大豆等農作物覆蓋區(qū)的土壤水分,均方根誤差(root mean square error,RMSE)為6%,并對極化散射分量的影響機理進行了分析。在我國,PolSAR數據及目標極化分解技術已在目標探測識別和分類等領域得到了較為廣泛的應用[13-14],但在土壤水分反演方面的工作相對薄弱,有待進一步探討。
與水分反演的傳統(tǒng)模型相比,以人工神經網絡(artificial neural network, ANN)、支持向量機(support vector machine,SVM)和隨機森林(random forest,RF)等為代表的機器學習模型具有所調參數少、可集成多因素、學習高度復雜的非線性映射等特點,近年來在土壤水分反演中得到了廣泛應用。李奎等[15]利用雙極化SAR數據,提出了一種改進的卷積神經網絡模型,反演了四川盆地中部的土壤水分。王雅婷等[16]基于PolSAR數據,利用SVM反演了內蒙古烏審旗稀疏植被區(qū)的土壤水分,發(fā)現考慮粗糙度影響的SVM模型具有一定適用性。包青嶺等[17]利用RF分類方法得到了對水分影響較大的特征參數,為干旱區(qū)快速估算土壤水分含量提供了參考。李平湘等[18]將Cloude-Potttier分解和Freeman-Durden分解等得到的極化特征參數用于ANN、SVM及RF模型,在河北省定興縣土壤水分反演中取得了較好的效果。綜上可見,隨著雷達極化技術的快速發(fā)展,PolSAR數據的應用日益廣泛,機器學習為充分利用PolSAR數據開展土壤水分反演提供了新的思路,但在允許多因素輸入的同時也可能會造成信息“冗余”,因此有必要對因子降維方法進行深入探討,以提高水分反演精度。
為此,本文采用Radarsat-2 PolSAR數據,以內蒙古西部的極端干旱荒漠綠洲——額濟納綠洲為研究區(qū),通過標準強度和相位處理,基于H-A-α分解、Freeman-Durden分解、van Zyl分解和An & Yang分解等極化分解技術,提取后向散射系數和極化特征參數,以平均精度減少(mean decrease accuracy,MDA)為指標進行參數重要性評估與特征組合,再通過方差膨脹指數(variance inflation factor,VIF)對各組合進行多重共線性檢驗,對未通過檢驗的組合進行主成分分析(principal component analysis,PCA),以實現因子降維。在此基礎上,采用RF算法對比分析不同特征組合方案的土壤水分反演精度,以評價各個參數組合方案以及PCA降維在干旱荒漠綠洲區(qū)土壤水分反演中的效果與適用性,為干旱荒漠綠洲區(qū)土壤水分反演提供方法參考。
額濟納綠洲位于黑河下游內蒙古自治區(qū)西部(見圖1),東臨走廊北山,西至馬鬃山,南為巴丹吉林沙漠,北為蒙古國。該區(qū)域屬于典型的溫帶大陸性氣候,由于地處歐亞大陸腹地,年均降水量約34 mm[19],潛在蒸發(fā)量約3 700 mm~4 000 mm[20],屬于極度干旱區(qū),在氣候變化和人類活動的共同影響下,徑流量不斷減少,植被衰退,沙塵暴頻發(fā),水資源問題突出。
圖1 研究區(qū)位置圖(紅色方框表示影像位置)Fig.1 Location of the study area(The red box indicates the image location)
采用2017年8月24日的全極化Radarsat-2單視復數(single look complex,SLC)影像,分辨率為8 m,影像覆蓋范圍如圖1中紅色方框所示。利用ENVI5.3.1對影像進行了多視、濾波等處理,提取了雷達后向散射系數;同時利用PolSAR5.0軟件基于H-A-α分解、Freeman-Durden分解、van Zyl分解和An&Yang分解提取了雷達極化特征參數。
衛(wèi)星過境期間在研究區(qū)共布設40個野外采樣點,采用分層取樣的方法同步采集土壤樣品。本文采用0~10 cm表層土壤樣品,在實驗室通過烘干法分析得到土壤水分含量。采樣點土地利用類型主要包括草地、耕地和林地。其中,草地采樣點主要位于河流灘涂,耕地為分布于綠洲東南部的哈密瓜地,林地包括胡楊林、梭梭林以及檉柳等,主要位于胡楊林區(qū)、苗圃中心以及公路兩側。由于各種地類主要特征的影響機制不盡相同,故本文分別針對草地、耕地、林地以及總體樣本展開研究。
參考前人成果[12, 18],首先采用5種方法提取特征參數,即采用標準強度和相位處理提取后向散射系數,利用H-A-α分解、Freeman-Durden分解、van Zyl分解和An&Yang分解分別提取散射分量。然后根據特征參數的MDA重要性評分提取各類樣本重要性評分前3、前4、前6、前11及所有特征的相關參數,經多重共線性檢驗及PCA降維,實現變量優(yōu)化組合。最后進行模型構建和模型性能綜合評價。技術路線如圖2所示。
圖2 方法流程圖Fig.2 Flowchart of the methodology
圖2中,虛線方框內為14種模型參數輸入方案。其中,single、dual和quad 3種方案分別表示單極化(σHH)、雙極化(σHH和σHV)和全極化(σHH、σHV、σVH和σVV)后向散射系數;其次為4種極化分解分量,FD分解代表Freeman-Durden分解,VZ分解代表van Zyl分解,AY分解代表An&Yang分解;M3、M4、M6、M11和MALL 5種方案分別代表重要性評分前3、前4、前6、前11和全部參數參與的組合方案;M11+PCA和MALL+PCA分別表示M11和MALL經過主成分降維的組合方案。
目標極化分解技術通過對目標散射矩陣和散射相關矩陣進行分解,提取目標的散射特征參數,以進行地物目標相關參數反演[21]。極化分解技術分為單視數據相干分解和多視數據非相干分解,本文在提取特征參數之前對PolSAR數據進行多視處理,目的在于抑制噪聲,平衡距離向和方位向精度。多視數據非相干分解包括基于特征值的非相干分解和基于模型的非相干分解。Cloude-Pottier分解是典型的基于特征值的分解技術,從PolSAR數據中分離出單個散射分量[22],隨后又引入熵H、反熵A和平均散射角α等特征參數[7],即H-A-α分解。研究表明,基于模型的非相干分解對于植被覆蓋區(qū)土壤水分反演潛力巨大,因此,Freeman和Durden[23]以相對光滑的布拉格散射系數作為表面散射分量,將來自兩個具有不同介電常數正交表面的后向散射作為二面角分量,將具有隨機散射方向的偶極子作為體散射分量,提出了Freeman-Durden分解。van Zyl等[24]認為Freeman-Durden分解對體散射分量有所高估,故經修正重新進行了散射分量的分解。安文韜[21]利用去定向、新體散射模型以及功率限制等技術解決了Freeman-Durden分解中存在的體散射高估以及負功率問題?;谝陨?種極化分解方法,得到多種極化特征參數。此外,對Radarsat-2數據進行預處理后,得到雷達后向散射系數,一并用于后續(xù)分析,各參數如表1所示。
基于上述方法共提取了24個特征參數,為避免多維數據信息冗余造成“維數災難”,通過特征剔除進行參數優(yōu)化組合,以期在保證運算精度的同時提高運算效率,實現參數降維。首先,通過MDA評分檢測出各類樣本特征參數的重要性順序;其次,利用方差分析的VIF判斷參數間的多重共線性問題;最后,根據PCA分析,結合MDA重要性順序對參數進行剔除,最終實現參數降維?,F對各方法簡要介紹如下。
表1 特征參數Tab.1 Characteristic parameters
MDA評分是通過隨機打亂某一參數的取值,根據袋外數據(out of bag,OOB)誤差的平均精度下降程度,判斷該參數重要性的一種評價方法。
VIF代表方差膨脹因子,其數學表達式為[12]
(1)
PCA可使所有變量重新組合,形成一個新的正交二維空間,據其聚類程度判斷參數間是否具有較強的相關性。
RF模型是Breiman在2001年提出的一種機器學習模型,RF是一系列基于二進制規(guī)則的決策樹,決定了因變量與其相關變量的關系[25]。該算法為非線性集成算法,具有減少偏差和過擬合的能力,且更能容忍異常值和噪聲。RF的優(yōu)點在于可以準確描述因變量與自變量間的復雜關系。將特征參數作為自變量,土壤水分作為因變量建立RF模型。Ntree和Mtry是RF模型的關鍵參數,分別表示決策樹的數量和節(jié)點分裂時輸入的特征變量數。本文經大量實驗發(fā)現, 當Ntree設定為2 000時,OOB誤差變化趨于穩(wěn)定,故本研究中Ntree值采用2 000;而隨著Mtry值增大,OOB誤差隨之增大,故Mtry值采用2代入模型運算。但當只有一個特征輸入模型時,Mtry采用1進行運算。本文以輸入數據的2/3作為訓練集進行訓練,將剩余1/3數據作為驗證集進行模型精度評估。
圖3為草地、耕地、林地以及總樣本中各特征參數的重要性評分。
從后向散射系數來看,兩種交叉極化方式的后向散射系數在草地、耕地以及總樣本中都表現出較大的精度下降水平;而在林地樣本中,雖然交叉極化后向散射系數相對于同極化后向散射系數MDA有所下降,但相差不大,可能是由于林地樣本所含植被種類較多所致??傮w而言,后向散射系數呈現出相對重要的水平,尤其對于耕地樣本,交叉極化后向散射系數高居前二,表明后向散射系數對土壤水分反演有著相對重要的作用。
對于H-A-α分解來說,α分量表示從表面散射到二面角散射的平均散射機制,在耕地、林地和總樣本中,α、RVI特征和表面散射分量評分相對較高,說明其對土壤水分反演的貢獻較高;RVI特征對于草地樣本貢獻較低,可能是由于研究區(qū)草地覆蓋量較少所致;而Pedestal、Serd、Derd、AL和Asymetry等特征MDA變化也相對顯著,說明分布式目標的結構更為復雜。Mattia[26]認為隨著粗糙度增加,去極化行為增加,對極化狀態(tài)敏感性降低,而反射波的FP可以有效地改善這一現象。SE可以定量評價散射矩陣的可靠性,可用來確定極化分解窗口的大小。
對于Freeman-Durden、van Zyl和An&Yang3種均由表面散射、二面角散射以及體散射3種散射分量組成的分解方式來說,3種不同植被覆蓋的樣本中各分量的總體變化趨勢比較明顯。對于草地樣本,體散射和二面角散射貢獻較大,二面角散射貢獻尤其突出,同時,Derd相對Serd較高,說明對草地貢獻相對重要的特征為二面角散射特征;對于耕地樣本,表面散射貢獻相對突出;對于林地樣本, van Zyl和An&Yang分解的3種散射分量趨勢一致,即體散射貢獻最大,二面角散射次之,表面散射貢獻最小,而Freeman-Durden分解3分量的重要性順序與前兩者完全相反。對于總樣本,Freeman-Durden、van Zyl分解的3種散射分量重要性評分趨勢表現出一致性,而An&Yang分解則不同,可能是由于總樣本地表覆蓋多樣化所致。
圖3 各類樣本特征參數的MDA重要性評分Fig.3 Importance score of characteristic parameters of different samples
基于VIF多重共線性檢驗發(fā)現,上述多個特征參數之間有著較高程度的相關性,個別特征參數的相關性達到0.9以上,因此在特征組合的過程中會出現多重共線性現象。本文的目的在于盡可能降低特征組合的多重共線性程度,以減少信息冗余,實現數據降維,提高反演精度。
經多重共線性檢驗發(fā)現,M11和MALL兩種方案,VIF大于10,說明存在顯著的多重共線性問題。其余特征組合,如M3、M4和M6的VIF在合理范圍內,所以下文將利用PCA對這兩種存在顯著多重共線性問題的方案進行改善。
對輸入的所有特征參數作主成分分析,得到相關系數矩陣。本文所采用的特征參數為24個,對相關矩陣中特征之間相關性大于0.9的特征個數進行統(tǒng)計,分別得到M11和MALL特征參數相關性統(tǒng)計圖(見圖4和圖5)。篩選出相關性大于0.9、且個數大于3的特征,若相關系數矩陣顯示以上特征之間互相相關,則根據圖3的MDA評分保留重要性評分最高的特征。
圖4 M11特征參數相關性統(tǒng)計圖Fig.4 Correlation statistical graph of M11 characteristic parameters
在M11方案中,對于草地樣本,PV-d分量的特征相關個數為4個,將此特征剔除;對于耕地樣本,H、Pedestal、Serd等與之相關性大于0.9的特征個數超過3個且為互相關關系,根據MDA評分表保留相對重要的Pedestal,其余剔除;對于林地樣本,相關性大于0.9的特征個數超過3個的特征有7個且互相相關,保留其中相對較重要的Serd特征,其余剔除;對于總體樣本,PF-v分量的特征相關個數為4個,將此特征剔除。
圖5 MALL特征參數相關性統(tǒng)計圖Fig.5 Correlation statistical graph of MALL characteristic parameters
在MALL方案中,對于草地樣本,α、H、AL、Pedestal、FP、Serd、RVI、PV_d和PA_v的特征相關性個數高于3,前7者互相關,后2者互相關,根據重要性評分,保留前7者中的H和后2者中的PA_v特征,其余剔除;對于耕地樣本,α、H、AL、Asymetry、Pedestal、FP、Serd和RVI與其他因子相關性大于0.9的特征個數超過3個且均互為相關關系,故除Asymetry外,其余剔除;林地樣本中,α、H、AL、Pedestal、FP、Serd、RVI、PF_v、PV_s、PV_d、PV_v、PA_d和PA_v等特征的相關性特征個數超過3,且前7者互相關,后6者互相關,故保留Serd和PA_v;總體樣本中,H、AL、Pedestal、Serd和PF_v的特征相關性個數大于3,前4者為互相關,保留重要性評分較高的AL,其余剔除。依據以上思路可得到最終輸入特征,即對M11和MALL進行PCA降維后的特征。
基于以上分析,分別將草地、耕地、林地和總體樣本的14種特征組合方案輸入RF模型進行土壤水分反演。以訓練集、驗證集的決定系數(determination coefficient,R2)和均方根誤差RMSE作為模型精度評價指標,各模型精度如圖6所示。
由圖6可見,RF模型訓練集的R2均在0.8左右,只有耕地樣本的single方案和林地樣本的single、dual方案R2略低,可能是由于特征輸入過少,導致模型沒有很好地捕捉到數據信息,從而導致欠擬合;訓練集的RMSE在2%左右,體現出RF模型訓練數據的有效性。驗證集R2在0.5左右,相對于訓練集有明顯下降,說明數據存在一定的過擬合現象,RMSE在3%左右,但結合訓練集和驗證集整體來看,依然能夠體現RF對于土壤水分反演的有效性。
對于單極化、雙極化和全極化參數來說,由圖6可見,全極化數據反演土壤水分RMSE稍有降低,表明全極化數據反演土壤水分的有效性。比較后向散射系數和四種極化分解得到的極化特征參數可見,除草地樣本外,4種極化分解特征參數驗證集的RMSE均相對較低,體現出極化分解參數相較于后向散射系數對水分反演具有一定優(yōu)越性。
對比4種極化分解參數的驗證集精度,除耕地樣本外,基于特征值的H-A-α分解參數的RMSE高于基于模型的Freeman-Durden、An&Yang以及van Zyl分解參數,體現出基于模型的目標極化分解對于土壤水分反演的巨大潛力。
對比M3方案和3種3分量極化分解方法,從驗證集可見,除林地外,M3方案的R2相對于極化分解方法均有所提高,RMSE均有所降低,體現出重要性評分對特征選擇的有效性;同時,對比M11方案和由11個特征組成的H-A-α分解方案的RMSE和R2發(fā)現,M11相對精度更高,說明重要性選擇是有意義的。
對比M3、M4、M6、M11方案,以耕地樣本為例,其驗證數據集的RMSE分別為3.933%、3.835%、3.813%和3.503%,在MDA特征選擇的基礎上增加特征,確實會對模型精度有積極作用,使精度有所提高。然而,當輸入全部特征時,RMSE為3.943%,精度并未進一步提高,除草地樣本的M4方案外,草地、林地及總樣本呈現相同的規(guī)律,表明輸入特征個數的不斷增加并不能提高模型準確度,反而會造成“維數災難”,在增加模型復雜度的同時,精度也會有所損失。
進一步對比M11與M11+PCA、MALL與MALL+PCA方案發(fā)現,除耕地樣本的訓練集R2略有減小外,經過PCA優(yōu)化的方案,R2均有所提高,RMSE均有所下降??梢?經過MDA評分以及多重共線性檢驗和PCA特征降維,不僅可以實現模型簡化,還可達到提高精度的目的。
本文基于Radarsat-2 C波段全極化雷達數據,針對草地、耕地、林地以及總體樣本等不同情況,利用標準強度和相位處理以及多種目標極化分解方法,提取特征參數,采用MDA、多重共線性檢驗以及PCA法進行優(yōu)化降維,以訓練集、驗證集的決定系數R2和均方根誤差RMSE為指標,綜合評價了不同組合方案下各模型的土壤水分反演精度。主要結論如下:①相較于單極化single方案和雙極化數據dual方案,采用全極化數據的quad方案在一定程度上有助于提高水分反演精度;與后向散射信息相比,基于極化特征參數的模型水分反演精度相對較高,與基于特征值的H-A-α分解的特征參數相比,基于模型的Freeman-Durden、An&Yang以及van Zyl分解的特征參數在土壤水分反演中具有更大的潛力。②M3方案和3種三分量極化分解方案、 M11和由11個特征組
圖6 模型精度對比Fig.6 Comparison of model accuracy
成的H-A-α分解方案的精度對比表明,在輸入特征個數相同的情況下,經MDA重要性評分的M3和M11方案精度較高,體現出MDA重要性評分的有效性。適度增加特征個數對模型精度有積極影響,但參數過多會出現多重共線性問題。③經過MDA重要性評分以及多重共線性檢驗和PCA優(yōu)化降維的M11+PCA與MALL+PCA方案精度明顯提高,說明PCA分析不僅具有提高模型精度的作用,而且可實現降維,為模型“減重”,提高運算效率。
本文經過實驗發(fā)現,基于特征優(yōu)化降維的RF模型在干旱荒漠綠洲區(qū)土壤水分研究中具有較高的可行性。但是,由于野外條件及實測樣本數量的限制,可能會在一定程度上對模型精度有所影響,同時,模型的外推能力尚需要進一步驗證。