張海洋, 張 瑤, 田澤眾, 吳江梅, 李民贊, 劉凱迪
中國農(nóng)業(yè)大學(xué)智慧農(nóng)業(yè)系統(tǒng)集成研究教育部重點(diǎn)實(shí)驗(yàn)室, 北京 100083
農(nóng)作物種植結(jié)構(gòu)是某一地區(qū)或生產(chǎn)單位農(nóng)作物種植類型、 種植面積以及空間分布的綜合反映, 是表征農(nóng)業(yè)生產(chǎn)資源利用科學(xué)性、 合理性的重要指標(biāo)。 冬小麥?zhǔn)鞘澜缛蠹Z食作物之一, 實(shí)時、 準(zhǔn)確地獲取冬小麥精確的種植結(jié)構(gòu)信息對作物產(chǎn)量估算、 糧食政策制定、 糧食貿(mào)易流通和國家糧食安全保障具有十分重要意義[1-2]。
傳統(tǒng)的逐級上報和抽樣調(diào)查方法, 具有一定的主觀因素, 耗時費(fèi)力、 成本高以及時效性差。 20世紀(jì)70年代以來, 隨著RS 和GIS 技術(shù)的快速發(fā)展以及影像數(shù)據(jù)源的不斷豐富, 光學(xué)遙感觀測技術(shù)在大尺度作物種植面積和空間分布信息的監(jiān)測上已被廣泛應(yīng)用。 當(dāng)前主要使用AVHRR, MODIS, Landsat (TM, ETM+和OLI), SPOT等影像為數(shù)據(jù)源, 然而中國農(nóng)業(yè)區(qū)的耕地經(jīng)營分散、 農(nóng)業(yè)景觀破碎和作物種植結(jié)構(gòu)復(fù)雜, 致使上述影像難以有效捕捉田塊尺度的冬小麥等作物對象, 大大降低了農(nóng)作物的分類準(zhǔn)確性。 與上述衛(wèi)星傳感器相比, Sentinel-2衛(wèi)星傳感器在保證相對較高的空間分辨率和時間分辨率的同時還提供了豐富的紅邊信息, 可為冬小麥種植結(jié)構(gòu)研究提供有力的數(shù)據(jù)支撐[3]。 谷歌地球引擎(Google Earth Engine, GEE)是由谷歌、 卡內(nèi)基梅隆大學(xué)和美國地質(zhì)調(diào)查局聯(lián)合開發(fā)的基于云計算的開源地理信息處理平臺[4]。 該平臺向用戶免費(fèi)提供海量的衛(wèi)星影像和其他地球觀測數(shù)據(jù), 而且借助Google的高性能集群服務(wù)器實(shí)現(xiàn)影像在線可視化處理, 具有強(qiáng)大的數(shù)據(jù)處理能力, 可大大提高工作效率。 目前, GEE 被成功應(yīng)用于作物長勢監(jiān)測、 土地利用類型分類等方面[5]。
近年來, 隨著機(jī)器學(xué)習(xí)分類算法的發(fā)展, 利用機(jī)器學(xué)習(xí)分類算法進(jìn)行作物種植結(jié)構(gòu)提取得到了國內(nèi)外學(xué)者的廣泛青睞, 如樸素貝葉斯、 支持向量機(jī)、 隨機(jī)森林等分類器。 其中隨機(jī)森林分類器是一種基于Bagging思想的并行集成基學(xué)習(xí)器, 該方法訓(xùn)練和預(yù)測速度快、 計算成本低, 被廣泛應(yīng)用于地面作物分類識別。 Jin等[6]等利用隨機(jī)森林分類器構(gòu)建了作物/非作物和玉米/非玉米識別模型, 作物/非作物識別準(zhǔn)確率為85%, 玉米/非玉米在坦桑尼亞的準(zhǔn)確率為79%, 在肯尼亞為63%。 Chong等[7]使用隨機(jī)森林分類器進(jìn)行黑龍江作物分布制圖, 總體分類準(zhǔn)確率為89.75%。 RF分類器是通過減少模型方差提高性能, 容易陷入過擬合, 而且, 當(dāng)訓(xùn)練樣本較少時, 地物分類效果會顯著降低。 與隨機(jī)森林分類器相比, GBDT分類器是基于權(quán)值的基學(xué)習(xí)器的串行集成模型, 通過不斷減少模型在訓(xùn)練過程中產(chǎn)生的殘差實(shí)現(xiàn)樣本數(shù)據(jù)的分類, 利用該方式能大大增強(qiáng)對數(shù)據(jù)的擬合能力以及提高分類準(zhǔn)確性, 可為提升地物分類精度提供一種有益方法。
利用以上機(jī)器學(xué)習(xí)方法提取農(nóng)作物種植結(jié)構(gòu)時, 多特征提取是目前的研究熱點(diǎn)之一。 針對中國復(fù)雜的農(nóng)作物種植結(jié)構(gòu), 傳統(tǒng)的僅依賴光譜波段信息或光譜指數(shù)信息往往難以保證可靠的地物識別精度。 Shetty等[8]利用Landsat8 OLI遙感衛(wèi)星的光譜波段(Blue, Green, Red和NIR)特征和歸一化植被指數(shù)(NDVI)特征, 對研究區(qū)進(jìn)行地物分類, 但由于采用的特征變量較為單一, 地物識別總體分類準(zhǔn)確率較低。 針對農(nóng)作物分類中依賴有限特征無法取得較高的分類精度問題, 學(xué)者們嘗試引入紋理特征輸入機(jī)器學(xué)習(xí)模型, 已被證實(shí)在提高作物分類精度方面具有一定優(yōu)勢, 對進(jìn)一步提高農(nóng)作物空間分布提取結(jié)果精度發(fā)揮了重要作用。 Khosravi等[9]提取加拿大溫尼伯市附近的地物信息, 在光譜特征、 植被指數(shù)特征和偏振特征的基礎(chǔ)上加上紋理特征, 可以顯著提高每個分類類別的分類精度(Kappa系數(shù)超過85%)。 此外, 一些研究表明地形特征也可有效提高土地利用分類精度[10]。 目前, 研究者們主要采用機(jī)器學(xué)習(xí)方法, 提取研究區(qū)多特征信息進(jìn)行大尺度作物分類研究, 但針對小尺度、 高精度的田塊尺度的作物分類效果仍有待進(jìn)一步探索。 此外, 冬小麥在不同生長生育期有不同的形態(tài)特征, 同期生長的其他作物也隨之變化[11]。 如何找到冬小麥種植結(jié)構(gòu)提取的最優(yōu)生育物候期, 進(jìn)一步提高冬小麥識別精度值得進(jìn)一步分析與探究。
基于此, 利用GEE云平臺, 選用10 m分辨率的Sentinel-2遙感數(shù)據(jù), 充分利用研究區(qū)光譜波段特征、 光譜指數(shù)特征、 紋理特征和地形特征等多維特征, 探究冬小麥識別的最佳生育期, 對比分析不同分類模型在田塊尺度下的冬小麥識別性能, 旨在提出一種基于GEE云平臺的冬小麥種植結(jié)構(gòu)提取方法。
研究區(qū)位于河南省新鄉(xiāng)市封丘縣陳固鎮(zhèn)(如圖1所示), 覆蓋范圍處于35°5′39.82″N—35°11′22.43″和114°15′45.62″E—114°23′44.77″E之間。 全鎮(zhèn)總面積6.1千公頃, 耕地面積約為4.53千公頃, 下轄23個行政村。 該地區(qū)地勢平坦, 土壤的質(zhì)地主要有壤土和粘土, 且壤土占比居多。 該區(qū)域?qū)倥瘻貛Т箨懶约撅L(fēng)氣候, 夏季炎熱多雨, 冬季寒冷干燥, 年平均氣溫14.5 ℃, 1月和7月平均氣溫分別約為-1.0和27.2 ℃, 年降雨量在600 mm左右。
圖1 研究區(qū)域位置圖和地面樣本點(diǎn)分布示意圖Fig.1 Location of the study area and the distributions of ground sample sites
該研究區(qū)是重要的糧食產(chǎn)地, 以冬小麥、 夏玉米一年二熟的作物輪作模式為主, 春季的主要農(nóng)作物為冬小麥、 金銀花和大蒜等。 此外, 亦有少許農(nóng)戶種植梨、 蘋果等果樹和林地。 經(jīng)過實(shí)地走訪調(diào)查, 該地區(qū)的冬小麥、 大蒜和金銀花的生育期如表1所示, 其中冬小麥的生育期有播種期、 出苗期、 分蘗期、 越冬期、 返青期、 起身拔節(jié)期、 抽穗揚(yáng)花期和灌漿乳熟期, 播種期約為每年的10月上旬, 收獲期為下一年的6月上旬; 該地區(qū)種植的大蒜為秋播大蒜, 其生長周期主要有播種期、 萌芽期、 幼苗期、 花芽鱗芽分化期、 抽薹期和成熟期, 種植期為每年的9月下旬或10月上旬, 收蒜頭期為第二年的5月下旬和6月上旬; 金銀花的生長發(fā)育期主要為萌芽期、 新梢生長期、 現(xiàn)蕾期、 開花期、 緩慢生長期和越冬期, 金銀花種植時間不固定, 一般在2月進(jìn)行插種。 金銀花的開花期為每年的5月中旬至9月下旬, 可在開花期內(nèi)進(jìn)行4次采收。
表1 研究區(qū)內(nèi)冬小麥、 大蒜和金銀花的生長發(fā)育時期Table 1 Growth and development periods of winter wheat, garlic and honeysuckle in the study area
依據(jù)冬小麥生長特點(diǎn), 起身拔節(jié)期、 抽穗揚(yáng)花期和灌漿乳熟期是冬小麥的關(guān)鍵物候期, 也是對冬小麥進(jìn)行遙感識別的最佳時期, 因此, 分別對這三個時期的Sentinel-2影像進(jìn)行提取, 以識別冬小麥的空間分布, 并探尋哪一個時期是冬小麥種植結(jié)構(gòu)的最佳提取時期。
研究所用的數(shù)據(jù)包括Sentinel-2影像數(shù)據(jù)、 SRTM高程數(shù)據(jù)和樣本數(shù)據(jù), 詳細(xì)介紹如下:
2.1.1 Sentinel-2衛(wèi)星影像
選用的遙感數(shù)據(jù)為Sentinel-2衛(wèi)星影像數(shù)據(jù)。 Sentinel-2衛(wèi)星主要由Sentinel-2A和Sentinel-2B兩顆衛(wèi)星組成, 擁有較高的時間分辨率(重訪周期為5 d)和空間分辨率(最高為10 m)。 Sentinel-2衛(wèi)星搭載的多光譜傳感器主要有13個光譜波段, 包括10, 20和60 m三種空間分辨率, 其中10 m分辨率的波段有紅波段(B4)、 綠波段(B3)、 藍(lán)波段(B2)和寬近紅外波段(B8); 20 m分辨率的波段為3個紅邊波段(B5、 B6和B7)、 窄近紅外波段(B8A)、 短波紅外(B11和B12); 60 m分辨率的波段有海岸波段(B1)、 水蒸汽波段(B9)和卷云波段(B10)。 GEE平臺提供了Level-1C 和Level-2A 兩種處理級別的Sentinel-2 MSI數(shù)據(jù), Level-1C 是經(jīng)過了輻射定標(biāo)、 幾何校正(包括空間配準(zhǔn)和正射校正)的大氣頂層反射率(top of atmosphere reflectance, TOA)產(chǎn)品, Level-2A是在Level-1C的基礎(chǔ)上經(jīng)過大氣校正的地表反射率(surface reflectance, SR) 產(chǎn)品, 使用的是Level-2A級的產(chǎn)品。
基于GEE平臺首先獲取研究區(qū)冬小麥三個關(guān)鍵生育期內(nèi)的所有Sentinel-2 L2A級MSI影像; 然后利用屬性“CLOUDY_PIXEL_PERCENTAGE”篩選出云量低于10%的影像, 接著對影像進(jìn)行取中值處理, 繼而將各生育期內(nèi)的影像合成一幅影像, 最后對各生育期內(nèi)的影像應(yīng)用三次卷積法將低分辨率的波段重采樣為10 m。
2.1.2 其他輔助數(shù)據(jù)
SRTM (shuttle radar topography mission)是美國太空總署(NASA)和國防部國家測繪局(NIMA)以及德國與意大利航天機(jī)構(gòu)合作, 由美國發(fā)射的“奮進(jìn)”號航天飛機(jī)上搭載SRTM系統(tǒng)完成測量。 SRTM V3.0是2016年最新發(fā)布的全球高程數(shù)據(jù)集, 其中SRTMGL1為全世界1弧秒數(shù)據(jù), 采用WGS-84投影, 空間分辨率約為30 m, 在GEE平臺上通過搜索“SRTMGL1_003”獲取[24]。
2.1.3 樣本數(shù)據(jù)
依據(jù)研究區(qū)實(shí)際地物類型的分布情況, 將研究區(qū)分為冬小麥(winter wheat, Ww)、 建筑物(building, Bu)、 其他植被(other vegetation, Ov)和道路(road, Ro)4類地物, 其他植被主要為金銀花、 大蒜和少量種植的果樹與林地等。 樣本數(shù)據(jù)的采集方式是目視解譯標(biāo)定和實(shí)地采樣, 在采集過程中保證了樣本均勻分布和隨機(jī)性。 其中, 建筑用地和道路是利用Google Earth高分遙感影像進(jìn)行目視解譯標(biāo)定的, 建筑用地240個, 道路190個。 冬小麥和其他植被是于2021年6月1日至6月15日利用野外調(diào)查方式進(jìn)行標(biāo)定的, 冬小麥的標(biāo)定樣本個數(shù)為260個, 其他植被共獲得個200實(shí)地樣本點(diǎn), 包含金銀花123個、 大蒜53個和果樹與林地24個, 每個采樣點(diǎn)均利用定位設(shè)備獲取其經(jīng)維度坐標(biāo)并記錄相應(yīng)的植被類型等信息, 且選取樣本點(diǎn)對應(yīng)種植植被的面積均超過0.2公頃, 樣本點(diǎn)具體分布如圖1所示。 定位設(shè)備是采用千尋位置網(wǎng)絡(luò)有限公司的千尋星矩SR6網(wǎng)絡(luò)RTK接收機(jī)和千尋知寸技術(shù)服務(wù)(Qianxunxingju SR6, Qianxun Spatial Intelligence Inc., Shanghai, China)。
特征變量的選取是地物分類識別的重要前提之一。 優(yōu)化特征變量及其組合可以有效提高遙感地物解譯的分類精度[12]。
從研究區(qū)的分布特征出發(fā), 充分考慮冬小麥種植區(qū)域與其他土地類型的顯著差異, 如明顯不同于其他地物的光譜特征和紋理特征, 以及地形特征等。 基于此, 選取有益于提高區(qū)域冬小麥提取精度的光譜、 紋理、 地形等特征波段, 構(gòu)建基于Google Earth Engine的冬小麥種植結(jié)構(gòu)識別系統(tǒng)。
影像的光譜特征是地物遙感解譯的關(guān)鍵特征變量。 本研究選擇光譜波段特征為Sentinel-2影像輸出的波段。 光譜指數(shù)特征有NDVI, NDWI, NDBI, CIRE和S2REP, 其中NDVI反映植被生長狀態(tài)和植被茂密程度的指標(biāo); NDWI可有效抑制其他類型的地表類型而凸顯水體信息; NDBI將城鎮(zhèn)灰度值增高, 降低其他地類值; CIRE和S2REP是Sentinel-2影像特有的紅邊波段指數(shù)特征, 紅邊波段數(shù)據(jù)可為農(nóng)作物類型識別提供了強(qiáng)有力的數(shù)據(jù)支持。
與此同時, 也有研究表明, 由于遙感影像上的同一光譜實(shí)際上可能是不同的地物, 而同一地物在遙感影像上也可能具有不同的光譜特征。 因此, 選擇單一光譜特征進(jìn)行土地類型遙感分類可能會導(dǎo)致遙感解譯識別結(jié)果出現(xiàn)部分誤差和遺漏。 紋理特征代表圖像灰度的空間變化和重復(fù), 或圖像中重復(fù)的局部圖案和排列規(guī)則, 可以在一定程度上提高遙感的分類精度。 選用3×3移動窗口, 利用灰度共生矩陣(gray level co-occurrence matrix, GLCM)計算紋理特征。 由于近紅外波段對植被更敏感, 因此選取Sentinel-2影像的近紅外波段(B8)計算影像的紋理特征, 共得到18個紋理特征參數(shù)。 從該地區(qū)冬小麥的紋理特征出發(fā), 綜合考慮紋理參數(shù)之間的相關(guān)性、 差異性和冗余性, 從對比度、 相關(guān)性、 熵等方面選取了最常見的4種紋理參數(shù)進(jìn)行構(gòu)造特征參數(shù)并訓(xùn)練分類器, 以減少過多紋理特征之間的數(shù)據(jù)重疊和冗余。 選取的紋理特征包括角二階距(ASM)、 對比度(CONTRAST)、 相關(guān)性(CORR)、 信息熵(ENT)。
此外, 使用GEE自帶的空間分辨率為30 m的地形數(shù)據(jù)SRTMGL1_003, 通過ee.Terrain.products(input)函數(shù)計算高程和坡度兩個參數(shù)。 然后將它們作為兩個獨(dú)立的特征帶添加到合成的多波段影像中, 用于地物的遙感識別。 該數(shù)據(jù)空間分辨率為30 m, 利用三次卷積內(nèi)插法將數(shù)據(jù)重采樣為10m分辨率。
選取14個光譜特征(9個光譜波段特征和5個光譜指數(shù)特征)、 4個紋理特征、 2個地形特征構(gòu)建冬小麥種植區(qū)域識別特征參數(shù), 進(jìn)而實(shí)現(xiàn)對研究區(qū)冬小麥的有效識別。 各特征變量的名稱、 描述及其計算公式如表2所示。
表2 選擇的特征變量及其計算公式Table 2 Selected characteristic variables and their calculation formulas
梯度提升決策樹(gradient boosting decision tree, GBDT)分類器是由Friedman提出的一種基于Boosting策略的集成機(jī)器學(xué)習(xí)算法, 其基本思想是訓(xùn)練多個弱分類器不斷提升性能, 除了第1棵決策樹采用原始預(yù)測指標(biāo)生成外, 每一輪迭代中的目標(biāo)都是令當(dāng)前學(xué)習(xí)器的損失函數(shù)最小化, 即令損失函數(shù)總是沿著其梯度方向下降, 通過不斷迭代使最終殘差趨近于0, 將所有樹的結(jié)果累加起來便可得到最終的預(yù)測結(jié)果。 其中, 弱分類器一般選擇CART TREE(即分類回歸樹)。 GBDT分類器的具體實(shí)現(xiàn)過程如下:
(1)初始化弱學(xué)習(xí)器
(1)
式(1)中,e為經(jīng)最小二乘法劃分結(jié)點(diǎn)后的葉子結(jié)點(diǎn)取值。
(2)對每棵樹m=1, 2, …,M, 對每個樣本i=1, 2, …,N, 計算負(fù)梯度。 即殘差
(2)
式(2)中,f(xi)為弱學(xué)習(xí)器的預(yù)測值,yi為弱學(xué)習(xí)器的真實(shí)值。
將得到的殘差作為新樣本真實(shí)值, 數(shù)據(jù)(xi,rim),i=1, 2, …,N作為下棵樹的訓(xùn)練數(shù)據(jù), 得到新的回歸樹fm(x), 其對應(yīng)的葉子結(jié)點(diǎn)區(qū)域?yàn)镽jm,j=1, 2, …,J為回歸樹t的葉子結(jié)點(diǎn)個數(shù), 對葉子區(qū)域j=1, 2, …,J, 計算最佳擬合值, 有
(3)
更新強(qiáng)學(xué)習(xí)器, 則有
(4)
得到最終學(xué)習(xí)器
(5)
基于GEE云平臺的冬小麥種植結(jié)構(gòu)提取詳細(xì)過程如下, 其具體流程如圖2所示。
圖2 冬小麥種植結(jié)構(gòu)提取流程圖Fig.2 Extraction flowchart of winter wheat planting structure
(1)分別獲取2021年冬小麥起身拔節(jié)期、 抽穗揚(yáng)花期和灌漿乳熟期等三個生育期內(nèi)所有云量低于10%的Sentinel-2 L2A級影像, 然后對各生育期內(nèi)的影像進(jìn)行影像裁剪、 鑲嵌、 去云、 求中值和重采樣等操作。 獲取研究區(qū)的DEM高程數(shù)據(jù), 并進(jìn)行裁剪和鑲嵌等處理。
(2)獲取研究區(qū)冬小麥、 建筑物、 其他植被以及道路等4類地物的地面樣本點(diǎn)數(shù)據(jù), 記錄樣本點(diǎn)的地物種類和位置。 并將各類地物樣本點(diǎn)按照8: 2隨機(jī)劃分為訓(xùn)練集和測試集。
(3)提取各生育期內(nèi)合成影像的光譜波段特征、 光譜指數(shù)特征、 紋理特征以及地形特征等分類特征變量, 將各生育期的所有分類特征變量以及地面樣本點(diǎn)數(shù)據(jù)的訓(xùn)練集輸入GBDT分類器中, 設(shè)定不同生育期GBDT分類器樹的個數(shù), 得到地物分類結(jié)果。
(4)將地面樣本點(diǎn)測試集的特征變量代入訓(xùn)練后的GBDT分類器中, 獲得不同生育期內(nèi)研究區(qū)地物的分類準(zhǔn)確率, 然后利用最優(yōu)的地物分類結(jié)果提取研究區(qū)冬小麥的種植結(jié)構(gòu)。
為有效評估分類算法對研究區(qū)不同覆蓋類型的提取精度, 通過構(gòu)建混淆矩陣(confusion matrix)對分類結(jié)果進(jìn)行精度度量。 基于混淆矩陣, 可以計算用戶精度(user accuracy, UA)、 生產(chǎn)者精度(producer accuracy, PA)、 總體分類準(zhǔn)確率(overall accuracy, OA)和Kappa系數(shù)(Kappa)等分類性能評價指標(biāo)。 用戶精度反映各地物被正確預(yù)測的比例, 生產(chǎn)者精度表示各地物被正確識別為該地物的比例, 總體分類準(zhǔn)確率和Kappa系數(shù)是根據(jù)所有待評估地物類別的漏分和錯分情況給出的一種更為全面的分類準(zhǔn)確性評估指標(biāo), 反映提取結(jié)果與真實(shí)地物空間分布的一致性, 這四種度量指標(biāo)的計算公式如式(6)—式(9)
(6)
(7)
(8)
(9)
式中,N為測試集的數(shù)量;m是混淆矩陣的行列數(shù), 代表地物的類別數(shù);xii為混淆矩陣對角線上的值, 表示被分到正確類別的樣本數(shù);x+i為混淆矩陣第i列元素相加之和, 表示第i類的真實(shí)樣本數(shù);xi+為混淆矩陣第i行元素相加之和, 表示預(yù)測為第i類的樣本數(shù)。
冬小麥不同生育期內(nèi), 研究區(qū)地物物候特征、 空間分布特征和光譜特征不同, 冬小麥不同生育期內(nèi)的地物識別效果也會有差異。 利用GBDT分類器對研究區(qū)冬小麥起身拔節(jié)、 抽穗揚(yáng)花和灌漿乳熟等三個時期內(nèi)的地物類型進(jìn)行分類識別, 分別設(shè)置GBDT分類器樹的數(shù)量為1 500, 1 500和1 800棵, 地物識別效果的混淆矩陣圖如圖3所示。 由圖3可知, 186個測試樣本中, GBDT分類器在冬小麥起身拔節(jié)期的測試樣本中有158個樣本被分類正確。 其中, 建筑物分類準(zhǔn)確性最高, 其他植被和道路容易混淆(分別占其他植被觀測樣本總數(shù)的11.54%、 道路觀測樣本總數(shù)的6.82%)。
圖3 冬小麥不同關(guān)鍵物候期地物分類結(jié)果的混淆矩陣圖(a): 起身拔節(jié)期的地物分類混淆矩陣結(jié)果; (b): 抽穗揚(yáng)花期的地物分類混淆矩陣結(jié)果; (c)灌漿乳熟期的地物分類混淆矩陣結(jié)果Fig.3 Confusion matrixes of ground classification results in different key phenological periods of winter wheat(a): Standing and jointing stage; (b): Heading and flowering stage; (c): Grain-filling and milky stage
抽穗揚(yáng)花期有181個測試樣本被正確分類, 建筑物和冬小麥的分類精度較高, 其他植被易被誤判為道路(占其他植被觀測樣本總數(shù)的7.69%); 灌漿乳熟期有144個測試樣本被分類正確, 在冬小麥3個關(guān)鍵生育期內(nèi)分類精度最差。
為了對冬小麥3個生育期內(nèi)地物識別效果進(jìn)行更深入的對比分析, 采用指標(biāo)UA, PA, OA和Kappa系數(shù)對此3種分類結(jié)果進(jìn)行評價, 如表3所示。 由表3可知, 在冬小麥三個關(guān)鍵生育期中, 抽穗揚(yáng)花期的地物識別精度最高, OA和Kappa系數(shù)分別為97.01%和95.92%, 比起身拔節(jié)期分別高出2.40和3.24個百分點(diǎn)。 灌漿乳熟期分類效果最差, OA僅為86.23%, Kappa系數(shù)為81.33%。 說明在小田塊條件下, 基于GBDT分類器可以在冬小麥抽穗揚(yáng)花期有效提取土地覆蓋信息, 具有很好的地物分類識別效果。
表3 冬小麥不同關(guān)鍵物候期地物分類結(jié)果Table 3 Classification results of ground in different key phenological stages of winter wheat
對于UA和PA, 抽穗揚(yáng)花期的四種地物分類結(jié)果均最高(起身拔節(jié)期和抽穗揚(yáng)花期的建筑物分類效果一致, UA均為97.78%, PA均為100%)。 就冬小麥的三個關(guān)鍵生育期而言, 建筑物和冬小麥的UA和PA分類結(jié)果均超過90%。 在灌漿乳熟期, 由于該時期作物葉片受脫落酸的影響, 葉綠素會分解, 胡蘿卜素, 類胡蘿卜素, 花青素等大量合成, 其他植被和道路易相互混淆, UA和PA的值最低(其他植被的UA和PA分別為66.67%和69.23%, 道路的UA和PA分別為79.07%和86.23%), 起身拔節(jié)期減少了其他植被和道路之間的相互混淆, 其他植被和道路的UA和PA值均超過灌漿乳熟期(其他植被的UA和PA均為84.62%, 道路的UA和PA分別為93.02%和90.91%)。
通過直觀目視解譯并對比原始影像可發(fā)現(xiàn), 冬小麥的三個關(guān)鍵生育期分類制圖結(jié)果整體效果均較好(圖4)。 從圖4中可以看出, 冬小麥和道路覆蓋區(qū)域輪廓清晰、 形狀基本一致; 建筑物分布連續(xù)、 邊界分明; 其他植被提取較為完整。
圖4 研究區(qū)地物分類結(jié)果(a): 研究區(qū)的Sentinel-2影像(RGB), 影像時間是2021-05-02; (b): 冬小麥起身拔節(jié)期的地物識別結(jié)果; (c): 冬小麥抽穗揚(yáng)花期的地物識別結(jié)果; (d): 冬小麥灌漿乳熟期的地物識別結(jié)果Fig.4 Results of ground classification in the study area(a): Sentinel-2 image (RGB) in the study area, the image time is 2021-05-02; (b): Ground recognition results of winter wheat in standing and jointing stage; (c): Results of ground feature recognition in heading and flowering stage of winter wheat; (d): Ground recognition results of winter wheat in grain-filling and milky stage
為了進(jìn)一步對比冬小麥的三個關(guān)鍵生育期內(nèi)地物識別效果, 選擇了研究區(qū)中3個代表性的位置區(qū)域進(jìn)行了8倍放大, 如圖5所示。 從圖5中可以看出, 起身拔節(jié)期的建筑物分類結(jié)果較實(shí)際建筑物偏大, 也易將冬小麥地塊錯分為道路; 灌漿乳熟期的建筑物容易漏分, 盡管抽穗揚(yáng)花期的分類結(jié)果與實(shí)際地物會稍稍有些偏差, 但相較其他兩個時期, 該時期的識別效果表現(xiàn)最好。
圖5 在冬小麥三個關(guān)鍵生育期內(nèi)分類結(jié)果的局部放大圖Fig.5 Partial enlarged views of classification results in three key growth stages of winter wheat
GBDT分類器可以對特征變量的重要程度和貢獻(xiàn)率進(jìn)行分析評價, 圖6是GBDT分類器在冬小麥3個關(guān)鍵生育期的特征重要性分布, 重要性得分越高, 說明該特征變量對分類結(jié)果的影響和貢獻(xiàn)就越大。 由圖6可知, 在冬小麥的起身拔節(jié)期和抽穗揚(yáng)花期, 紋理特征(CONTRAST)、 紅邊指數(shù)特征(S2REP)、 紅邊波段特征(B7)以及藍(lán)波段特征(B2)的排序靠前。 而在灌漿乳熟期, 短波紅外波段特征(B12)、 建筑特征(NDBI)和紋理特征(CONTRAST)的貢獻(xiàn)率較大。 這可能是因?yàn)樵谄鹕戆喂?jié)期和抽穗揚(yáng)花期, 研究區(qū)的農(nóng)作物處于生長茂盛期, 而紅邊波段(B7)和紅邊指數(shù)(S2REP)特征在這些生育期對于農(nóng)作物的探測和識別較敏感, 因此這些特征對分類結(jié)果的影響較高; 灌漿乳熟期的農(nóng)作物逐漸成熟, 植被覆蓋度和葉綠素含量降低, 該時期的短波紅外波段特征(B12)和建筑特征(NDBI)重要程度占比較高。 其中Sentinel-2 的B12特征的重要性得分最高, 對研究區(qū)土地利用分類貢獻(xiàn)度最大, 這是因?yàn)樵摃r期其他作物(金銀花、 果樹和林地)處于生長旺季, 含水量高, 冬小麥作物處于生長后期, 干物質(zhì)增加, 葉綠素和水分含量會降低, 短波紅外波段對葉片含水量反映敏感, 能夠很好地區(qū)分出其他植被和冬小麥。
進(jìn)門后,川矢笑容可掬地對百里香嘰哩呱啦地說了一通,還比比劃劃,夸張地晃著大拇指,百里香一句也沒聽懂。身著鬼子軍服的莊翻譯說:“川矢隊長說,他非常欣賞中國民間的美食文化,也非常喜歡百里香腸鋪的香腸,愿拜閣下為師,學(xué)習(xí)中國廚藝,讓中國民間的飲食文化融入大東亞共榮圈,使閣下成為大東亞乃至世界頂級的廚藝大師!冒昧相求,萬望閣下恩準(zhǔn)!”
圖6 各個冬小麥關(guān)鍵生育期GBDT分類器中20個變量特征重要性得分(a): 起身拔節(jié)期特征變量重要性得分; (b): 抽穗揚(yáng)花期特征變量重要性得分; (c): 灌漿乳熟期特征變量重要性得分Fig.6 Feature importance scores of 20 variables in GBDT classifier at key growth stages of winter wheat(a): Standing and jointing stage; (b): Heading and flowering stage; (c): Grain-filling and milky stage
在冬小麥三個關(guān)鍵生育期內(nèi), 紋理特征(CONTRAST)對于冬小麥、 建筑物和道路等形狀輪廓明顯的地方的提取發(fā)揮了重要的作用, 因此CONTRAST的分類貢獻(xiàn)率較高。 地形特征(ASPECT和SLOPE)的重要性得分均較低, 原因可能是該研究區(qū)地勢較為平坦, 而坡度和坡向是基于地形分析得到, 因此參與分類的貢獻(xiàn)度較低。
GBDT分類器訓(xùn)練過程中通過多輪迭代, 每輪迭代產(chǎn)生一個弱分類器, 每個弱分類器是在上一輪弱分類器的殘差基礎(chǔ)上進(jìn)行訓(xùn)練, 屬于串行生成, 弱分類器(樹)的數(shù)量會極大影響GBDT分類器的計算速度和計算成本。 因此需要找到最佳的樹的數(shù)量, 既能保證GBDT分類器的分類精度, 又能保證分類器的運(yùn)行速度和計算成本。
為了探尋冬小麥三個關(guān)鍵生育期內(nèi)利用GBDT分類器對地物進(jìn)行分類時最優(yōu)樹的數(shù)量, 選取樹的數(shù)量范圍為100~2 000, 步長設(shè)置為100, 以總體分類準(zhǔn)確率作為評價指標(biāo), 地物分類結(jié)果如圖7所示。 從圖7中可知, 隨著樹的數(shù)量遞增, 冬小麥抽穗揚(yáng)花期的地物識別精度逐漸升高, 當(dāng)樹的數(shù)量升高至1 500棵時, 地物識別效果達(dá)到最高, 為0.970 1, 之后隨著樹的數(shù)量增加, 研究區(qū)地物識別精度保持不變; 在灌漿乳熟期, GBDT分類器書的數(shù)量達(dá)到1 800棵時, 地物分類結(jié)果達(dá)到最高, 為0.862 3, 然后隨著樹的數(shù)量的增加, 地物識別結(jié)果和抽穗揚(yáng)花期的一致, 保持不變; 在起身拔節(jié)期, 伴隨GBDT分類器樹的數(shù)量增加, 總體分類準(zhǔn)確率在樹的個數(shù)為1 400, 1 500和1 600棵時會出現(xiàn)一個峰谷。 因此, 利用GBDT分類器對地物進(jìn)行分類時冬小麥起身拔節(jié)期、 抽穗揚(yáng)花期和灌漿乳熟期最佳樹的數(shù)量分別是1 400, 1 500和1 800棵。
圖7 GBDT分類器樹的數(shù)量不同時的地物分類結(jié)果Fig.7 Ground feature classification results with different numbers of GBDT classifier trees
為了驗(yàn)證GBDT分類器的分類效果和優(yōu)適性, 選取了隨機(jī)森林(random forest, RF)、 CART(classification and regression tree)[31]和樸素貝葉斯(Naive Bayesian, NB)[32]等分類器對研究區(qū)冬小麥抽穗揚(yáng)花期的地物分類結(jié)果作為對比分析。 此三種分類器均在GEE環(huán)境下運(yùn)行, 使用地物樣本點(diǎn)的訓(xùn)練集進(jìn)行訓(xùn)練, 將測試集代入訓(xùn)練好的分類器中進(jìn)行驗(yàn)證和精度評價, 經(jīng)過大量測試, 隨機(jī)森林樹的個數(shù)設(shè)置為500棵, CART和樸素貝葉斯分類器的參數(shù)為默認(rèn)參數(shù), 此三種分類算法分類結(jié)果的混淆矩陣如圖8所示。
由圖8可知, RF, CART和NB分類器在冬小麥灌漿乳熟期分別有160, 152和142個測試樣本被識別正確。 RF, CART和分類器在建筑物測試樣本中分別有43, 41和44個分類正確, 在其他植被測試樣本中分別有24, 23和11個分類正確, 在道路測試樣本中分別有40, 35和33個分類正確, 在冬小麥測試樣本中的分類正確個數(shù)一致, 均為53個。 其中, CART和NB分類器的其他植被和道路容易混淆(分別占其他植被觀測總數(shù)的11.54%和23.08%、 道路觀測總數(shù)的18.18%和18.18%), NB分類器易將其他植被錯分為建筑物(占其他植被觀測總數(shù)的30.77%)。
圖8 不同分類器地物分類結(jié)果的混淆矩陣圖(a): RF分類器的地物分類混淆矩陣結(jié)果; (b): CART分類器的地物分類混淆矩陣結(jié)果; (c): NB分類器的地物分類混淆矩陣結(jié)果Fig.8 Confusion matrixes of ground classification results of different classifiers(a): RF classifier; (b): CART classifier; (c): NB classifier
為了評定分類器的分類性能, 利用指標(biāo)UA, PA, OA和Kappa對此3種模型分類結(jié)果進(jìn)行進(jìn)一步的分析和評價, 加上本工作的GBDT分類器, 4種分類分類器的分類結(jié)果如表4所示。 由表4可知, 在冬小麥的抽穗揚(yáng)花期, GBDT分類器的分類精度最高, 總體分類準(zhǔn)確率比隨機(jī)森林分類器和CART分類器分別提高了1.20%和5.99%, Kappa系數(shù)比隨機(jī)森林分類器和CART分類器分別提高了1.61%和8.04%, 樸素貝葉斯分類器的識別效果最差, 總體分類準(zhǔn)確率和Kappa系數(shù)分別為84.43%和78.69%。
表4 不同分類模型在冬小麥抽穗揚(yáng)花期的地物分類結(jié)果Table 4 Ground classification results of different classification models at heading and flowering stage of winter wheat
對于UA, 建筑物、 冬小麥和道路類別在4種分類器均獲得了可觀的結(jié)果(UA值均超過80%)。 GBDT在其他作物類別的值最高(95.83%), 但CART分類器和NB分類器的UA值較低(CART分類器和NB分類器分別為67.65%和57.89%), 究其原因可能是CART分類器盡管方法簡單, 生成的分類樹很直觀, 但容易過擬合, 導(dǎo)致泛化能力不強(qiáng)。 NB分類器雖然有著堅實(shí)的數(shù)學(xué)基礎(chǔ), 但不能學(xué)習(xí)特征間的相互作用, 而且該分類器通過先驗(yàn)和數(shù)據(jù)來決定后驗(yàn)的概率從而決定分類, 所以分類決策存在一定的錯誤率。
圖9 不同分類器的地物分類結(jié)果(a): RF分類器的分類結(jié)果; (b): CART分類器的分類結(jié)果; (c): NB分類器的分類結(jié)果Fig.9 Ground classification results of different classifiers(a): RF classifier; (b): CART classifier; (c): NB classifier
盡管已有10 m分辨率全國土地利用產(chǎn)品[13], 但該產(chǎn)品是以全國范圍尺度為研究區(qū)域, 存在多樣性、 復(fù)雜性以及影像的時相無法統(tǒng)一的問題, 此外, 研究區(qū)域越大其局部區(qū)域紋理細(xì)節(jié)越難兼顧, 降低了作物提取精度。 對比其他學(xué)者的地物分類研究成果, 在空間分辨率一致的情況下, 本研究提出的方法能夠?qū)崿F(xiàn)略高于Belgiu等[14]提出TWDTW(time-weighted dynamic time warping)算法分類精度, 遠(yuǎn)高于Kristof等[15]利用RF分類器進(jìn)行地物識別的準(zhǔn)確度。
但本研究也存在一定的缺陷, 首先本研究是在降低地物分類類別的基礎(chǔ)上提高冬小麥的分類準(zhǔn)確率, 其次本研究的研究區(qū)域范圍較小。 下一步研究中將增加作物分類種類和擴(kuò)大研究區(qū)域?qū)Ρ狙芯刻岢龅姆椒ㄟM(jìn)行進(jìn)一步的驗(yàn)證。
表5 其他冬小麥種植結(jié)構(gòu)提取研究結(jié)果Table 5 Extraction results of planting structure of other winter wheat
針對中國農(nóng)業(yè)耕地多呈現(xiàn)規(guī)模小、 破碎分散的特點(diǎn), 基于GEE云平臺開發(fā)了一種冬小麥種植結(jié)構(gòu)提取模型, 能夠?qū)崿F(xiàn)10m空間分辨率的精細(xì)提取。
(1)對比冬小麥起身拔節(jié)期、 抽穗揚(yáng)花期和灌漿乳熟期等三個關(guān)鍵生育期, 抽穗揚(yáng)花期的分類效果最好(OA: 97.01%, Kappa: 95.52%)更接近研究區(qū)地表真實(shí)情況。
(2)在所有的光譜指數(shù)特征、 光譜波段特征、 紋理特征和地形特征中, 紋理特征中的影響最高, 其次是光譜波段和光譜指數(shù)特征, 地形特征的貢獻(xiàn)率最少。
(3)在冬小麥的抽穗揚(yáng)花期, 與RF, CART, NB等分類器相比, GBDT分類器的分類效果最佳, 其次是RF分類器, NB的地物識別效果最差。