盛艷芳, 買買提·沙吾提, 何旭剛, 李榮鵬
(1.新疆大學地理與遙感科學學院,新疆 烏魯木齊 830017; 2.新疆大學新疆綠洲生態(tài)重點實驗室,新疆 烏魯木齊 830017; 3.新疆大學智慧城市與環(huán)境建模自治區(qū)普通高校重點實驗室,新疆 烏魯木齊 830017)
關鍵字:Google earth engine (GEE); 特征優(yōu)化; J-M距離; 特征集
新疆是世界六大果品生產帶之一和久負盛名的“瓜果之鄉(xiāng)”[1]。自2018年開始以“南疆特色林果提質增效,助力脫貧攻堅”舉措[2]為基礎,全力推進林業(yè)扶貧工作,南疆林果業(yè)規(guī)??焖贁U張,林果面積每年增加百萬畝,形成環(huán)塔里木盆地林果主產區(qū)等林果基地,在推進新疆脫貧攻堅方面具有重要作用。然而,南疆林果業(yè)種植面積大、地塊較為破碎、果糧間作種植模式普遍存在,傳統(tǒng)的果園種植面積監(jiān)測方式已經難以滿足當前林果業(yè)快速發(fā)展的實際需求。
近年來,隨著遙感(多光譜、中高分辨率影像)的廣泛使用,以及機器學習算法、谷歌地球引擎(Google earth engine,GEE)云計算平臺不斷發(fā)展,遙感技術在林果業(yè)信息提取、長勢監(jiān)測和估產等方面發(fā)揮了重要作用[3-6]。利用 Sentinel[7]、HJ[8]、GF[9]系列等衛(wèi)星影像,采用隨機森林(RF)[10]、支持向量機(SVM)[11]、BP神經網絡(BP)[12]等分類技術對小麥、玉米等常見的農作物進行種植面積信息提取[13]。RF分類在調查果園分布的應用和研究中廣泛使用[14-17]。另外,大部分研究主要集中在江西[18]、浙江[19]、福建[20]等丘陵地區(qū),并且研究對象也僅局限于柑橘等蕓香科果樹。目前對于西北干旱區(qū)果樹,尤其是新疆地區(qū)果園的遙感監(jiān)測缺乏深入研究。
基于現狀,還需要加強對果樹遙感分類的研究,不斷增加遙感影像、改進面積與分布信息的提取方法以適應技術發(fā)展要求,實現快速提取果園面積空間分布狀況的目的。本研究通過中高分辨率衛(wèi)星影像,充分挖掘多源衛(wèi)星遙感特征量,發(fā)展基于GEE平臺和機器學習的果園智能識別技術,突破高精度果園空間分布遙感制圖的技術瓶頸,為果園種植面積空間分布調查和定期動態(tài)更新提供技術支持。
渭干河-庫車河三角洲綠洲(渭-庫綠洲)是目前新疆重要的林果產業(yè)基地,位于新疆塔里木盆地(圖1),是典型的沖積扇綠洲,屬暖溫帶大陸性干旱氣候,平均氣溫10.0 ℃,日照2 845~2 977 h/a,光熱資源充裕,年降水量59 mm。相對充足的水分、熱量,形成得天獨厚的光、熱等自然資源,有利于果樹生長。
圖1 研究區(qū)示意圖
遙感數據源于GEE平臺,包括Sentinel-2多光譜影像和Sentinel-1雷達影像(表1)。預處理包括:軌道參數標定、熱噪聲去除、輻射定標、地形校正、后向散射系數提取等,通過GEE內嵌算法統(tǒng)一坐標系確保不同數據源之間的幾何配準精度,空間分辨率統(tǒng)一重采樣至10 m。使用平臺JavaScript語言構建模型進行果園信息提取識別。
表1 本研究使用的遙感數據
野外數據:分別在2021年5月26日至6月3日、2022年6月28日至7月7日進行 2次野外實地考察,結合研究區(qū)域地物類型以及相關國家標準(GB/T 21010-2017)確定研究區(qū)地物為:果園、建設用地、林地、草地、水域、耕地、其他地物,共獲得典型地物樣點920個。此外,使用Google earth影像結合野外獲得的典型地物樣本點進行目視解譯來擴充樣本數量,使樣本點均勻分布在整個綠洲內部,最終樣本總數為1 139個,訓練集和驗證集比例為7∶3。
本研究基于GEE平臺,使用Sentinel-1和Sentinel-2數據,計算得到6類特征,使用3種特征優(yōu)化方法結合隨機森林分類(Random forest,RF),確定提取果園信息的最優(yōu)特征集(圖2)。
圖2 技術路線圖
1.3.1 分類特征參數和特征優(yōu)化方法 通過計算得到光譜特征、植被指數特征、紅邊特征、紋理特征、極化特征和物候特征構建分類特征集[21],共包含42個子特征(表2)。
表2 分類特征參數
1.3.2 特征集優(yōu)化
1.3.2.1 基于J-M距離的特征集優(yōu)化 J-M距離衡量不同地物類型在波段間分離能力,對各地物類型的可分性進行定量分析,并據此進行特征集優(yōu)化[22]。表達式為:
JM=2(1-e-B)
式中B表示某一特征的巴氏距離(Bhattacharyya distance)。不同種類樣本的巴氏距離同時樣本滿足正態(tài)分布的時為
式中ek表示某類特征的均值,δk2表示某類特征的方差。
1.3.2.2 基于隨機森林屬性重要度的特征集優(yōu)化 隨機森林分類器(RF)是一種非參數分類器,由一組決策樹組成,具有便捷的特征選擇算法[23]。利用RF中的屬性重要度,進行有效數據降維,根據得分由高至低對特征集進行優(yōu)化。
1.3.2.3 分類方案制定和精度驗證 本研究利用GEE平臺中最優(yōu)棵樹選擇,最終確定待生成的決策樹(Ntree)數目值為100。為了說明有利于果園信息提取的最佳特征,設計了23種試驗方案(表3)。
表3 分類方案
1.3.3 精度驗證 研究結果表明,總體精度(OA)與Kappa系數在遙感分類精度驗證中是最基本、最能衡量分類結果的指標[24]。其中OA是指被正確分類的像元之和占所有地類像元總數的百分比,Kappa系數表明分類結果與驗證樣本數據之間的一致性。因此本研究使用OA、Kappa系數作為總體分類精度評價體系,使用統(tǒng)計年鑒數據對提取的果園種植面積信息進行驗證。
為了確定果園信息提取的最佳時間窗口,使用Sentinel-2數據,綜合研究區(qū)域典型地物樣本點建立歸一化植被指數(NDVI)時間序列曲線,以及使用Timesat3.3軟件提取植被物候特征。
NDVI時間序列曲線,反映了植被與非植被在2020年NDVI變化特征[25]。如圖3所示,非植被(建設用地、裸地、水域)的NDVI值全年較低。3月植被(果園、林地、耕地、草地)NDVI最小(NDVI<0.1);3-6月植被NDVI開始快速上升,其中果園上升速度最快,NDVI最高,尤其在5月遠高于其他地物(NDVI>0.35);6-8月,植被NDVI逐漸增長至峰值,即生長旺盛期;8月裸地、建設用地、草地、果園、林地、耕地NDVI均開始下降,果園與林地NDVI相近。
圖3 2020年歸一化植被指數(NDVI)時間序列曲線
植被物候信息如圖4A所示,5月果園NDVI高于所有其他植被,結合圖4B可知果園生長季在5月(a點)開始,此時果園在所有植被中NDVI最大(NDVI>0.4);而后所有植被的NDVI繼續(xù)增加至生長季中期(6-7月),7月中旬所有植被的NDVI達到最大值,即各植被均到達生長旺盛期(NDVI>0.4);8月開始所有植被的NDVI逐漸下降,10月生長季結束,NDVI迅速下降。
A圖為4種主要植被物候曲線圖;B圖為果園物候信息點圖。物候特征a~k見表2。
為了探討雷達數據在果園信息提取中的作用,基于2020年全年12期的Sentinel-1雷達遙感影像,由VV、VH極化數據算出典型地物的后向散射系數,得到典型地物后向散射特征時間序列(圖5)。類型不同的地物,散射特征隨著生長發(fā)育期的變化表現出不同的散射機制[26]。
圖5 2020年VV與VH極化后向散射系數時間序列曲線
從時間尺度,以及不同極化方式上來看,VV后向散射系數變化特征相比于VH顯著。果樹的萌芽期和展葉期在4-5月,在VV極化中果園與耕地區(qū)分不明顯,趨勢幾乎一致,在VH極化中5月果園略高于耕地。本研究果園中的果樹與林地中的樹木存在一定的相似性,極化數據在不同類型作物的識別中具有較好的識別效果[27];林地在VV極化方式下,1-3月與果園的后向散射系數趨勢一致,在4月開始有所區(qū)分,林地后向散射系數高于果園,峰值在6月達到-6.99 dB,在VH極化中,至8月前都有較好的分離性,因此提取果園信息的最佳時間點在5-7月。
最后,綜合Sentinel-1極化影像后向散射特征和Sentinel-2多光譜影像計算得到的NDVI時間序列與物候特征,可以確定5月為果園信息提取的最佳時間窗口。
2.2.1 分類方案特征集優(yōu)選 所有特征排列組合形成不同的分類方案,并通過篩選得到17個特征方案(表3),使用RF分類(圖6)。在原始特征組合而成的分類方案中,所有方案總體精度均達到了80%以上,總體精度排列前三的方案分別是G12、G4、G17。
G1、G2、G3、G4、G5、G6、G7、G8、G9、G10、G11、G12、G13、G14、G15、G16、G17見表3。
2.2.2 基于J-M距離與屬性重要度的特征集優(yōu)化 獲取J-M距離和屬性重要度對各特征的評分,依據2種評價方法,依次加入特征,觀察果園的分類總體精度變化(圖7)。2種方法表現出一些類似的特點,隨著所用特征數逐漸增加,總體精度表現為快速增長,當特征數達到10即B6處時,總體精度開始趨于穩(wěn)定,特征數達到40即B8_contrast時能達到最優(yōu)精度約89%。
根據圖7,按照6個特征類別進行分類統(tǒng)計(表4)。通過對比,在兩種優(yōu)化的方法中,紋理特征的可分離性,對分類貢獻度均較高,紋理作為物體表面的一種基本屬性廣泛存在自然界中,是描述和識別物體的一種極為重要的特征[28],果園因其均勻、粗糙等紋理特征明顯不同于其他地類,尤其是與林地間的差別較大。
A:J-M距離優(yōu)化方法;B:屬性重要度優(yōu)化方法。a1:B8_asm;a2:B8_ent;a3:NDVIre3;a4:B8_idm;a5:a;a6:B8_sent;a7:e;a8:EVI;a9:d;a10:B6;a11:b;a12:B11;a13:f;a14:NDWI;a15:VV;a16:B8a;a17:B7;a18:B8;a19:NDVIre1;a20:B12;a21:VH;a22:NDVI;a23:NDre2;a24:NDre1;a25:B5;a26:B3;a27:B4;a28:B1;a29:B9;a30:NDVIre2;a31:j;a32:g;a33:B2;a34:i;a35:k;a36:h;a37:c;a38:B8_var;a39:B8_diss;a40:B8_contrast;a41:B10;a42:B8_corr。a、b、c、d、e、f、g、h、i、j、k、NDVIre1、NDVIre2、NDVIre3、NDre1、NDre2、B1、B2、B3、B4、B5、B6、B7、B8、B8A、B9、B10、B11、B12、B8_asm、B8_contrast、B8_corr、B8_var、B8_idm、B8_diss、B8_sent、B8_ent、NDVI、EVI、NDWI、VV、VH見表2。
表4 特征優(yōu)化表
2種方法中排名靠前的物候特征是a、b、e,即生長季開始、生長季結束、生長季中期,它們可以直接反映植被的生長信息。所以紋理特征與物候特征相比其他特征更能凸顯不同植被間的差異,更好突出果園與其他植被之間的差異[29]。
按照優(yōu)化后的特征集,對原始特征組合中精度較高的方案G4、G12、G17依次優(yōu)化。如表5所示,其中精度最高的方案G17JM,總體精度比優(yōu)化前的方案高2.05個百分點,其次方案G12JM的總體精度比G12高1.16個百分點;方案G4、G4JM、G4VIP總體精度均未達到90%,因此參與的特征數較少時,識別效果較差。
表5 分類精度對比
總體而言,使用J-M距離優(yōu)化的方案總體精度均較高,相比于原始特征組合方案有1~2個百分點的提升,比使用屬性重要度優(yōu)化的高1~3個百分點,優(yōu)化效果較好。
精度最高的3種方案如圖8所示,從空間分布上來看,果園主要分布在庫車市和新和縣;沿河流與農田交錯分布,呈片狀、由上至下扇形分布在綠洲中上部。
A、B、C分別為G12、G17JM、G17VIP方案提取的果園信息空間分布。G12、G17JM、G17VIP見表3。
為了比較分類效果,選取經實地考察并包括果園周圍常見地類(農田、林地、建設用地等)的局部區(qū)域與高分影像(1 m)對比分析(圖9)。G12方案與G17VIP方案識別效果相似,可以完整識別果園地塊,但部分其他用地被錯分為建設用地,林地識別不完整,草地提取范圍過大;G17JM方案識別效果更精細,果園地塊周圍的耕地、草地識別完整,可以將果園與林地準確分開。分類識別的果園種植面積為66 921.62 hm2,統(tǒng)計年鑒[30]中庫車、沙雅、新和果園總面積為81 066.67 hm2,面積精度為82.55%。故J-M距離優(yōu)化特征的方案G17JM總體精度最高,識別效果最好。
A為高分原始影像;B、C、D分別為G12、G17JM、G17VIP方案提取的果園信息空間分布細節(jié)圖。G12、G17JM、G17VIP見表3。
利用GEE平臺強大的數據運算和存儲能力,使用Sentinel-1/2遙感數據和RF分類算法,在果園信息提取中對特征進行優(yōu)化的研究相對較少,大多研究集中在農作物監(jiān)測方面[31],隨著GEE平臺的發(fā)展,逐漸出現不同的研究方向如湖泊面積測量[32]、沙漠化監(jiān)測[33]、黃河大尺度面積制圖[34]等,均取得較好的效果。渭庫綠洲作為典型干旱區(qū)綠洲,是新疆重要的林果產業(yè)基地。種植的人工林區(qū)域(果園)與自然林地存在區(qū)別,果園地塊破碎但邊界整齊,紋理規(guī)律,經實地調查,以及綜合采集多種果園地物,可以發(fā)現不同類型果樹物候期存在細小差別,茂盛期基本一致,可以利用茂盛期相似的紋理特征、極化特征等,對果園信息進行提取。趙安周等[35]、徐超等[36]、張禎祺等[37]、寧曉剛等[38]從中尺度上進行的動態(tài)監(jiān)測研究結果,以及本試驗為實現大面積果園動態(tài)監(jiān)測所做的研究結果,都證明了果園信息泛化、統(tǒng)一大面積提取的可行性。但是根據以往針對果園的研究中[14-16],大多使用傳統(tǒng)的監(jiān)督分類方法進行面積信息提取,在今后的研究中可以考慮更多方法的對比研究,如面向對象結合決策樹、面向對象結合隨機森林等方法;此外,Sentinel-2 數據空間分辨率為10 m,針對研究區(qū)域內相對較小的破碎果園地塊無法識別,可以嘗試精度更高的遙感影像,如GF_2等,得到更高的制圖精度。
從研究結果看,對比3種優(yōu)化方法,J-M距離優(yōu)化方法可以有效提高識別效果,這與寧曉剛等[38]的研究結果一致,充分說明使用J-M距離是進行特征優(yōu)化時優(yōu)于屬性重要度優(yōu)化方法。此外,通過總體精度變化圖發(fā)現,適用于果園信息提取的最優(yōu)特征集應最少包含10個子特征,當特征數達到10時,總體精度開始趨于穩(wěn)定,分類可以取得較好的效果。
研究結果表明,使用RF識別果園時物候、紋理、極化等特征結合J-M距離進行特征集優(yōu)化可以降低數據量、提高計算效率,使用得到的最優(yōu)特征集進行分類,總體精度與面積精度均高于80%,效果較好。本研究基本都在GEE平臺中進行并獲得了較好的分類總體精度,證明了使用GEE實時獲取渭庫綠洲果園面積動態(tài)變化的可行性,為果園面積動態(tài)監(jiān)測提供強有力的基礎。
本研究結論如下:(1)本研究共計包括23種分類方案,對比方案精度,所有精度均到達80%以上,其中精度最高的G17JM方案,其總體精度為91.25%,Kappa系數為0.89,面積精度為82.55%;(2)綜合使用NDVI時間序列曲線、物候曲線和極化時序曲線確定的窗口為5月,即5月為果園信息提取的最佳時間;(3)綜合對比3種優(yōu)化方法,J-M距離為最佳優(yōu)化方法,得到的優(yōu)化方案(G17JM)總體精度較高,且效果最好。提取果園信息的最優(yōu)特征集,具體為:B8_asm、B8_ent、B8_idm、NDVIre3、B6、B7、a、e、b、EVI、B11、B8A、B8、VV。