周欣興,趙 林,*,張文杰,譚昌偉,李剛波,石夢云,張 婷,楊 峰
(1.江蘇徐淮地區(qū)徐州農(nóng)業(yè)科學(xué)研究所,江蘇 徐州 221121;2.揚(yáng)州大學(xué) 農(nóng)學(xué)院,江蘇 揚(yáng)州 225009)
科學(xué)、快速、準(zhǔn)確地獲取果樹種植區(qū)域的信息對于果樹長勢監(jiān)測、產(chǎn)量估算和農(nóng)業(yè)生產(chǎn)來說均具有積極意義。傳統(tǒng)的人工調(diào)查方法效率低、成本高,而且在統(tǒng)計過程中不可避免地會因為一些主觀因素,如統(tǒng)計錯誤、各地標(biāo)準(zhǔn)不一致、測量工具不同等,影響統(tǒng)計調(diào)查的精度。遙感技術(shù)具有客觀、及時、大面積等優(yōu)勢,經(jīng)濟(jì)投入少,且不受地域限制,現(xiàn)已在農(nóng)業(yè)種植面積估算和種植區(qū)域優(yōu)化布局等方面得到廣泛應(yīng)用[1-3]。
目前,基于遙感技術(shù)的果樹種植區(qū)提取大多是利用果樹的光譜特征和植被指數(shù)實現(xiàn)的。羅衛(wèi)等[4]使用HJ-CCD數(shù)據(jù),綜合植被指數(shù)和地形地貌等多種信息構(gòu)建決策樹模型,實現(xiàn)了對東江源地區(qū)柑橘與臍橙的有效提取。蔣怡等[5]結(jié)合GF-1PMS影像不同分辨率下的類型數(shù)據(jù),通過可分離性分析發(fā)現(xiàn),荒草地和未成林檸檬是影響檸檬分類精度的主要原因,同時得出適當(dāng)?shù)挠跋耦A(yù)處理有助于提高監(jiān)督分類精度的結(jié)論。董芳等[6]利用蘋果花期的TM影像,基于混合像元分解法對棲霞市蘋果園地的信息進(jìn)行了提取研究。邢東興等[7]在GF-1WFV影像的基礎(chǔ)上,采用多重閾值的方法,實現(xiàn)了對石榴樹種植區(qū)的高精度辨識。為提高精度,學(xué)者還開展了基于光譜組合紋理特征的果樹提取方法研究。岳俊等[8]基于不同分辨率的GF-1數(shù)據(jù),分別采用最大似然、馬氏距離、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)4種方法,結(jié)合光譜與紋理特征實現(xiàn)了對南疆盆地主栽果樹的識別。姚新華等[9]使用冬、夏時期的兩景GF-2遙感影像,構(gòu)建了基于光譜與紋理特征的決策樹模型,為利用亞米級遙感影像開展果樹種植區(qū)提取研究提供了重要參考。一般來說,使用光譜特征和紋理信息的分類方法可以提高果樹的提取精度。近年來,基于中高分辨率衛(wèi)星數(shù)據(jù),結(jié)合時序影像進(jìn)行果樹種植區(qū)提取的研究也備受關(guān)注。
時序遙感影像不僅具有單一時相影像的光譜信息,還具有一系列時間信息,在作物分布信息提取中頗有意義。相較于Landsat-8、MODIS等數(shù)據(jù),Sentinel-2衛(wèi)星影像在時空分辨率和光譜信息量上均有一定的優(yōu)勢[10-11]。于婉婉等[12]在Sentinel-2多光譜影像基礎(chǔ)上,采用支持向量機(jī)模型與遞歸特征消除法,實現(xiàn)了對區(qū)域內(nèi)優(yōu)勢樹種的快速準(zhǔn)確識別。Zhu等[13]利用Sentinel-2時空融合影像與物候植被信息,準(zhǔn)確提取了蘋果園的空間分布特征,同時采用逐像素逆時間序列計算方法,得到研究區(qū)蘋果園的種植年限。
近些年來,機(jī)器學(xué)習(xí)技術(shù)在各領(lǐng)域得到廣泛應(yīng)用,在農(nóng)業(yè)遙感領(lǐng)域,結(jié)合機(jī)器學(xué)習(xí)算法的研究與應(yīng)用日益增多,并取得了一定的進(jìn)展[14-16]。模型構(gòu)建的本質(zhì)是在特征和目標(biāo)之間找到合適的映射關(guān)系,隨著特征工程技術(shù)研究的深入開展,機(jī)器學(xué)習(xí)模型的潛力有望進(jìn)一步提升[17]。
目前,針對作物的遙感識別主要集中在大宗作物上,關(guān)于果樹遙感識別的相關(guān)研究還相對較少。本研究選擇江蘇省徐州市豐縣大沙河流域作為研究區(qū)。研究區(qū)的地塊破碎程度高,作物種類豐富,有不少作物存在“同物異譜”現(xiàn)象,會對果樹提取造成干擾。為此,特基于2020年10月—2021年9月的多景Sentinel-2影像光譜數(shù)據(jù),利用機(jī)器學(xué)習(xí)技術(shù)構(gòu)建決策樹分類模型,識別研究區(qū)的果樹分布,并統(tǒng)計面積,以期為應(yīng)用中高分辨率遙感數(shù)據(jù)進(jìn)行果樹調(diào)查提供相關(guān)依據(jù),研究成果也可為當(dāng)?shù)氐墓麡浞N植補(bǔ)貼申領(lǐng)和生產(chǎn)布局規(guī)劃等工作提供支持。
研究區(qū)位于江蘇省徐州市豐縣南部,地理坐標(biāo)為34°28′~34°42′N,116°28′~121°47′E,主要包括大沙河流域的孫樓鎮(zhèn)、華山鎮(zhèn)、宋樓鎮(zhèn)、大沙河鎮(zhèn)、梁寨鎮(zhèn),以及大沙河林場。于不同時期進(jìn)行多次實地調(diào)查,實地調(diào)查的樣本點分布情況如圖1所示。
圖1 研究區(qū)位置
研究區(qū)地處暖溫帶半濕潤季風(fēng)氣候區(qū),四季分明,日照充足,年平均氣溫15 ℃。地形為黃泛沖積平原,地勢高亢、平坦,境內(nèi)河流原為自然河流,縱橫交錯,廢黃河經(jīng)過治理后引入長江水,形成了大沙河流域帶狀水庫。
大沙河流域土地肥沃,物產(chǎn)豐饒,擁有大面積的作物種植區(qū)域、果樹種植區(qū)域和園藝蔬菜種植區(qū)域等?;诘锰飒?dú)厚的自然條件,大沙河流域的果樹種植已有幾十年的歷史,商品特性好,是全國知名的水果生產(chǎn)基地。
Sentinel-2衛(wèi)星是歐洲“哥白尼計劃”的第二顆衛(wèi)星,共有2顆衛(wèi)星。Sentinel系列數(shù)據(jù)影像作為后起之秀,憑借其高質(zhì)量的時空分辨率與豐富的波段信息在研究與生產(chǎn)中日益受到重視[18]。本文共選擇2020年10月—2021年9月的12景影像用于試驗,影像編號為N0300_R032_T50SMD。為保證果樹種植區(qū)遙感提取的質(zhì)量,本研究選取了其中4個10 m分辨率的波段,分別為藍(lán)光(Band2,中心波長0.490 μm)、綠光(Band3,中心波長0.560 μm)、紅光(Band4,中心波長0.665 μm)和對植物敏感的近紅外波段(Band8,中心波長0.842 μm)。
植被指數(shù)是衡量作物長勢、區(qū)分作物特征類型的重要指數(shù)。在農(nóng)作物分類研究中,歸一化植被指數(shù)(NDVI)、比值植被指數(shù)(RVI)、增強(qiáng)型植被指數(shù)(EVI)、結(jié)構(gòu)密集型色素指數(shù)(SIPI)和歸一化水指數(shù)(NDWI)應(yīng)用較多[19-22]。本研究基于前述4個波段,利用上述5個植被指數(shù)開展特征分類。
上述指標(biāo)的計算方法如下:
(1)
(2)
(3)
(4)
(5)
式(1)~(5)中:VNDVI、VRVI、VEVI、VSIPI、VNDWI分別代表NDVI、RVI、EVI、SIPI、NDWI的值,ρNIR、ρR、ρG、ρB分別代表近紅外、紅光、綠光、藍(lán)光波段的反射率值。
大沙河流域主要的大田作物為小麥、玉米,另有少量水稻,其他園藝蔬菜主要包括大蒜、韭菜、菠菜等。研究區(qū)內(nèi)的果樹以蘋果樹和梨樹為主,另外還有部分桃樹。這幾類果樹在冬季進(jìn)入休眠季,2月中下旬至3月上旬萌芽,3月下旬至4月上旬陸續(xù)開花,隨后陸續(xù)坐果,7—11月為成熟階段。依據(jù)多時相Sentinel-2多光譜反射率影像,結(jié)合谷歌(Google)影像和現(xiàn)場實際調(diào)查樣點情況進(jìn)行目視解譯。在研究區(qū)內(nèi)分別選取果樹種植區(qū)樣本點、林地樣本點、草地樣本點、露天蔬菜種植區(qū)樣本點各128個用于構(gòu)建決策樹模型的訓(xùn)練集和測試集,另選取145個小麥-玉米輪作區(qū)樣本點和83個水稻種植區(qū)樣本點用于前期大田作物種植區(qū)與其他植被區(qū)的分類。地膜覆蓋和大棚設(shè)施蔬菜種植區(qū)、建筑、水體等可直接通過監(jiān)督分類掩膜去除,本文不予討論。
本研究中,用于數(shù)據(jù)處理和構(gòu)造決策樹模型的工具為Python2.7軟件[23]。作為一款開源軟件,Python憑借其豐富的功能和強(qiáng)大的庫而被越來越廣泛地應(yīng)用于機(jī)器學(xué)習(xí)的研究和試驗中,其中的Scikit-learn庫,又寫作Sklearn,是一個基于Python語言的開源機(jī)器學(xué)習(xí)工具包,可通過NumPy、Pandas、SciPy和Matplotlib等Python數(shù)值計算的庫實現(xiàn)高效的算法應(yīng)用,并且涵蓋了幾乎所有主流的機(jī)器學(xué)習(xí)算法,可高效、便捷地用于試驗[24]。本文使用的決策樹模型也選自Sklearn機(jī)器學(xué)習(xí)庫。在決策樹模型構(gòu)建中,合適的特征輸入和特征量對于最終的分類結(jié)果和模型的復(fù)雜度來說意義重大。本研究直接調(diào)用模型中的Feature_importances_屬性來獲取特征重要性,在模型擬合之前濾除不重要的特征,以期獲得更好的穩(wěn)定性與精確性。
在不加限制的情況下,決策樹會生長到衡量不純度的指標(biāo)最優(yōu),或者沒有更多的特征可用為止。這樣的決策樹往往會過擬合,即會在訓(xùn)練集上表現(xiàn)良好,在測試集上卻表現(xiàn)較差。研究中收集的樣本數(shù)據(jù)不可能和整體的狀況完全一致,因此當(dāng)決策樹對訓(xùn)練數(shù)據(jù)有了過于優(yōu)秀的解釋性,其找出的規(guī)則必然包含了訓(xùn)練樣本中的噪聲,并會造成對未知數(shù)據(jù)的擬合程度不足。為了讓決策樹有更好的泛化性,正確的剪枝策略是優(yōu)化決策樹算法的核心。Max_depth(最大深度)和Min_samples_leaf是決策樹分類模型中2個至關(guān)重要的剪枝參數(shù),其中,Max_depth的作用為限制樹的最大深度,Min_samples_leaf的作用為限定節(jié)點在分枝后的子節(jié)點中包含的訓(xùn)練樣本數(shù),這2個參數(shù)搭配使用可以使決策樹模型有更好的表現(xiàn)。
本研究所采用的技術(shù)路線如圖2所示:首先,通過分析全時期影像的光譜差異確定最佳監(jiān)測時相影像,同時,對作物種植區(qū)進(jìn)行剔除;然后,篩選輸入特征,依7∶3的比例劃分訓(xùn)練集和測試集,并在此基礎(chǔ)上,進(jìn)行模型最佳參數(shù)的探究;最后,實現(xiàn)模型的實例化,并進(jìn)行驗證。
圖2 本研究的技術(shù)路線
大沙河流域的種植結(jié)構(gòu)較為復(fù)雜。要進(jìn)行果樹種植區(qū)的有效提取,首先要剔除耕地。常規(guī)大田作物,如小麥-玉米輪作區(qū)和水稻種植區(qū)可在單一時相影像中進(jìn)行區(qū)分。每年6月份大沙河流域的耕地正處于換茬階段,通過對該月份各地物的NDVI閾值劃分,即可實現(xiàn)對耕地的有效剔除。對比研究區(qū)內(nèi)耕地、果樹園區(qū)、林地、草地和露天蔬菜種植區(qū)6月份的NDVI值(圖3)可以發(fā)現(xiàn),以NDVI值為4.5作為決策閾值即可實現(xiàn)較好的耕地區(qū)域剔除效果。
圖3 6月份研究區(qū)內(nèi)各地物的NDVI值對比
對果樹種植區(qū)遙感提取影響最大的地物為林地,蔬菜種植區(qū)、草地和果樹在遙感影像中的特征或光譜反射率等具有顯著差異,因此區(qū)分林地和果樹為研究中的重點。在Sentinel-2多光譜反射率影像中,根據(jù)實地調(diào)查與影像目視解譯,分別在1—12月的大沙河流域影像中各選出典型果樹與林地區(qū)域5個,每個區(qū)域任意選擇5個樣本點提取波段信息得出平均波段值,繪制果樹與林地在每個月份的反射率變化曲線(圖4)。結(jié)果發(fā)現(xiàn),3月份和7月份在490、560、665、842 nm波段,4月份和8月份在對植物敏感的近紅外波段,果樹和林地的反射率差異較為明顯,因此選擇上述4個月份的影像用于研究。
圖4 果樹與林地1—12月的光譜反射率對比
2.2.1 特征篩選
輸入所選定的4個月份的植被指數(shù)共20個特征(特征采用月份與植被指數(shù)以短橫線連接的形式表示,如7-NDWI代表7月份的NDWI),采用Feature_importances_屬性進(jìn)行特征的重要性判定。每個特征的重要性不同,對決策樹貢獻(xiàn)越大的,特征越重要。為了保證決策樹模型的精確度,且盡量降低復(fù)雜度,選擇重要性值排在前10位的特征輸入決策樹模型,分別為7-NDWI、8-NDWI、7-RVI、4-NDVI、4-EVI、3-SIPI、7-SIPI、3-NDVI、4-RVI和7-EVI(圖5)。
圖5 各類特征的重要性得分
2.2.2 參數(shù)選擇
本研究使用超參數(shù)的學(xué)習(xí)曲線來判斷決策樹模型的重要參數(shù),分別以經(jīng)過篩選后的特征、未經(jīng)篩選的特征(即所有特征)、3月份和7月份的植被指數(shù)、4月份和8月份的植被指數(shù)作為變量,繪制學(xué)習(xí)曲線(圖6)。可以發(fā)現(xiàn),當(dāng)把所有特征全部作為輸入變量時,模型的過擬合現(xiàn)象最為嚴(yán)重;當(dāng)僅將3月份和7月份的植被指數(shù)或4月份和8月份的植被指數(shù)作為輸入變量時,不論是在訓(xùn)練集上還是在測試集上,模型的效果都較差;用經(jīng)過特征篩選的特征作為輸入變量時,構(gòu)建的模型效果最好,且當(dāng)該模型的Max_depth參數(shù)值為5時,模型的泛化能力最佳,在訓(xùn)練集與測試集上均有良好表現(xiàn)。
A、B、C、D分別為以經(jīng)過篩選后的特征、未經(jīng)篩選的特征、3月份和7月份的植被指數(shù)、4月份和8月份的植被指數(shù)作為變量繪制的學(xué)習(xí)曲線。
網(wǎng)格搜索技術(shù)的本質(zhì)為“枚舉技術(shù)”,在Min_samples_leaf參數(shù)選擇中,輸入給定的范圍(0~50)進(jìn)行搜索,同時進(jìn)行十折交叉驗證,以獲得最佳輸入?yún)?shù)結(jié)果。運(yùn)行結(jié)果表明,Min_samples_leaf在進(jìn)行到10時即可達(dá)到最佳效果。
確定模型的輸入?yún)?shù)后,構(gòu)建決策樹模型。使用Accuracy系數(shù)作為評價指標(biāo),通過Score接口對模型做最終評價。結(jié)果顯示,所構(gòu)建的決策樹模型在訓(xùn)練集和測試集上的精度分別為0.919 4和0.875 1。通過Graphviz庫結(jié)合Tree.export_graphviz進(jìn)行決策樹模型的可視化(圖7),其中,果樹種植區(qū)的識別在決策樹模型的3條分枝上均有體現(xiàn)。
圖7 決策樹模型
基于機(jī)器學(xué)習(xí)技術(shù)下的決策樹模型,選用3、4、7、8月份共4景Sentinel-2影像,利用ENVI 5.3軟件進(jìn)行波段運(yùn)算,分別生成不同時期下的光譜植被指數(shù)單波段柵格影像圖。在果樹種植區(qū)的提取上,利用ENVI 5.3軟件建立并執(zhí)行上述決策樹模型,同時結(jié)合ArcGIS 10.7軟件實現(xiàn)不同分枝提取結(jié)果的融合,最終實現(xiàn)如圖8所示的果樹種植區(qū)面積提取??梢钥闯?,研究區(qū)的果樹種植區(qū)基本上圍繞在大沙河兩岸,多為連片種植,東部與西北部的果樹種植地塊較為零碎。統(tǒng)計果樹種植區(qū)的像元數(shù)量,根據(jù)像元的分辨率測算出大沙河流域的果樹種植面積為6 838 hm2。上述空間分布監(jiān)測結(jié)果與現(xiàn)場調(diào)查情況基本一致。
圖8 果樹種植區(qū)的遙感提取結(jié)果
為客觀、定量評估決策樹分類模型對果樹種植面積的提取效果,本研究采用除訓(xùn)練集與測試集外的實測樣本點,結(jié)合在線高分辨率影像數(shù)據(jù)經(jīng)目視解譯選取的混合樣本點,同遙感提取結(jié)果進(jìn)行對比,使用混淆矩陣分別計算Kappa系數(shù)、用戶精度和制圖精度。結(jié)果顯示,Kappa系數(shù)為0.87,用戶精度和制圖精度分別為92.91%和90.77%。通過驗證樣本點信息發(fā)現(xiàn),圍繞大沙河兩岸的果樹信息基本上都能被正確提取出,得益于標(biāo)準(zhǔn)化與規(guī)模化的果樹種植,該區(qū)域的提取結(jié)果非常理想;錯分現(xiàn)象主要分布在宋樓鎮(zhèn)西南部與梁寨鎮(zhèn)西南部,實地調(diào)研發(fā)現(xiàn),上述地塊的種植結(jié)構(gòu)較為復(fù)雜且零散,受異物同譜現(xiàn)象影響出現(xiàn)錯分和漏分,部分林地的光譜指數(shù)因與果樹相似而導(dǎo)致產(chǎn)生錯分??偟膩砜矗狙芯康腻e分率、漏分率較低。測試集與訓(xùn)練集得分和混淆矩陣2種精度驗證的結(jié)果均說明,本研究的果樹種植區(qū)遙感提取模型識別精度較高,可以實現(xiàn)對區(qū)域內(nèi)果樹空間分布的遙感監(jiān)測。
當(dāng)前,植物信息的獲取主要基于光學(xué)衛(wèi)星數(shù)據(jù)開展,通過分析影像光譜反射率的變化來判斷作物分布情況,并通過構(gòu)建植被指數(shù)來提取作物。其局限性在于,在同一時期,果樹和其他植物之間存在“異物同譜”現(xiàn)象,因此,簡單地依據(jù)單時相影像和光譜特征并不能很好地區(qū)分各類地物[25-26]。本研究使用覆蓋果樹植物全生育期的Sentinel-2時序影像,計算關(guān)鍵識別時期的植被指數(shù)作為輸入特征,結(jié)合Python框架下的機(jī)器學(xué)習(xí)技術(shù)來構(gòu)建最佳決策樹模型,配合決策樹分類方法,較為理想地實現(xiàn)了區(qū)分果樹與其他地表植物的效果,可有效提取果樹種植區(qū)域面積,總體精度較高。
本研究發(fā)現(xiàn),3月份、4月份、7月份和8月份是關(guān)鍵識別時期,果樹種植區(qū)域與林地之間的差異性較大。其可能原因在于,3、4月份正值果樹花期,7、8月份果樹已從坐果期進(jìn)入果實膨大期乃至成熟期,因此在光譜上與林地表現(xiàn)出較強(qiáng)的差異性。研究發(fā)現(xiàn),用于構(gòu)建決策樹識別模型的變量并非越多越好,將全部特征(即不經(jīng)過特征篩選)用作變量所構(gòu)建的模型,雖然在訓(xùn)練集上表現(xiàn)出較好的結(jié)果,但在測試集上卻表現(xiàn)很差。數(shù)據(jù)冗余、噪聲干擾,導(dǎo)致模型朝著過擬合的方向發(fā)展;因此,有效的特征篩選十分必要??紤]到受云雨天氣等的影響,4個月份的影像數(shù)據(jù)都能獲取的概率并不高,本研究僅選取3、7月份或4、8月份的遙感數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其在訓(xùn)練集和測試集上的表現(xiàn)都較差。這說明,結(jié)合多時相的遙感數(shù)據(jù)可以更有效地進(jìn)行目標(biāo)地物的提取。
以往基于遙感的地物分類研究,大多在人工經(jīng)驗的基礎(chǔ)上進(jìn)行數(shù)據(jù)分析和閾值劃分,進(jìn)而繪制決策樹[27]。對于光學(xué)遙感來說,通過分析果樹與其他植物光譜反射率的情況,搭配構(gòu)建植被指數(shù)來進(jìn)行目標(biāo)提取的方法,雖然具有很好的可讀性與簡約性,但由于冠層光譜信息變化微弱,加之復(fù)雜的農(nóng)田環(huán)境不利于光譜信息的提取與閾值劃分,因而該類決策樹模型在分類精度上很難達(dá)到最理想的狀態(tài),難以滿足作物高精度提取的業(yè)務(wù)需求。隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,特征工程技術(shù)的應(yīng)用異軍突起,有效的特征篩選可以起到事半功倍的效果。同時,超參數(shù)的學(xué)習(xí)曲線在探索模型最大潛力上也具有積極意義。因此,引入機(jī)器學(xué)習(xí)思想來提升決策樹分類模型的精度,無論是在科研還是在生產(chǎn)上都具有必要性。
研究區(qū)的果樹種植分布較為集中,種植類型主要包括蘋果樹、梨樹和桃樹。本研究并未就不同果樹類型進(jìn)行細(xì)致劃分,后期工作將進(jìn)一步結(jié)合紋理特征、紅邊參數(shù)等開展,以期為果樹類型的細(xì)致分類與統(tǒng)計提供新的思路。