1 研究區(qū)概況
福建省境內(nèi)峰嶺聳峙,丘陵連綿,山地、丘陵占全省總面積的 80% 以上,耕地面積占比小,主要糧食作物是水稻。福建省南平市浦城縣,地處福建省最北端,位于閩浙贛三省接合部。浦城縣面積 位居福建省第三,其中山地面積291
,耕地面積
,河流水域面積
,是福建省早期的商品糧種植基地。浦城縣的總體地貌以山地為主,北東西三面環(huán)山,中南部低平寬廣,地勢(shì)自北往南下降,南浦溪縱貫?zāi)媳?,地表徑流呈?shù)枝狀,山間盆地串珠狀錯(cuò)落,堊口地形突出。浦城縣經(jīng)濟(jì)以農(nóng)業(yè)為主,主產(chǎn)稻谷、薏米和茶葉等作物。
2 研究方法
2.1 技術(shù)路線
2.1.1 數(shù)據(jù)收集及準(zhǔn)備
首先,需收集研究區(qū)域種植結(jié)構(gòu)數(shù)據(jù)、作物的物候信息數(shù)據(jù)及研究區(qū)域的行政邊界數(shù)據(jù)。根據(jù)研究區(qū)作物種植結(jié)構(gòu)及物候歷信息,選取合適時(shí)間段內(nèi)的影像。需要注意的是影像數(shù)量并非越多越好,過(guò)多的影像數(shù)量會(huì)影響水稻識(shí)別的整體效率[1]。一般在作物不同的生長(zhǎng)關(guān)鍵期內(nèi)有相應(yīng)質(zhì)量較好的影像即可。在完成影像篩選工作后,即可開(kāi)展影像處理與分析,實(shí)現(xiàn)對(duì)研究區(qū)域地物信息的解譯與識(shí)別。
2.1.2 特征提取
結(jié)合水稻多時(shí)期的影像波段信息,進(jìn)行水稻的光譜特征提取。提取過(guò)程中要根據(jù)不同時(shí)期選取關(guān)鍵的波段或波段的組合特征,減小輸人數(shù)據(jù)的數(shù)據(jù)量,從而提高模型的運(yùn)行效率及對(duì)水稻識(shí)別的精度[2]。
2.1.3 樣本制作
在遙感影像中選擇代表水稻和其他地物的樣本區(qū)域,并對(duì)選定的樣本區(qū)域進(jìn)行標(biāo)注,將每個(gè)像素或區(qū)域標(biāo)記為水稻或其他地物。標(biāo)注可以是二元分類(lèi)(水稻/非水稻)或多類(lèi)分類(lèi)(水稻/其他地物類(lèi)別),并對(duì)標(biāo)注結(jié)果進(jìn)行驗(yàn)證和質(zhì)控[3]。通過(guò)隨機(jī)抽樣并對(duì)樣本進(jìn)行多人標(biāo)注,以評(píng)估標(biāo)注的一致性,以及對(duì)標(biāo)注錯(cuò)誤進(jìn)行修正。將標(biāo)注好的樣本數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,以確保在訓(xùn)練和評(píng)估模型時(shí)獨(dú)立使用,以驗(yàn)證模型的泛化能力。
2.1.4 模型訓(xùn)練
使用XGBoost算法進(jìn)行模型訓(xùn)練過(guò)程中,應(yīng)考慮以下因素。
參數(shù)調(diào)優(yōu):調(diào)整XGBoost的參數(shù),包括學(xué)習(xí)率、樹(shù)的深度、葉子節(jié)點(diǎn)權(quán)重等。
正則化:使用L或 正則化控制模型的復(fù)雜度。
樣本權(quán)重:如果數(shù)據(jù)集不平衡,可以使用樣本權(quán)重進(jìn)行平衡。
2.1.5 模型評(píng)估
對(duì)訓(xùn)練好的模型進(jìn)行評(píng)估的常用指標(biāo)包括準(zhǔn)確率、精確度、召回率和 分?jǐn)?shù)等??筛鶕?jù)評(píng)估結(jié)果,對(duì)模型進(jìn)行優(yōu)化,包括調(diào)整模型的超參數(shù)和增加更多的特征等。
2.1.6 精度評(píng)價(jià)
基于準(zhǔn)確點(diǎn)的定量驗(yàn)證方式是基于混淆矩陣進(jìn)行分布精度的計(jì)算,可從3個(gè)不同的角度完成對(duì)解譯識(shí)別精度的計(jì)算。分別為總體面積精度、制圖精度和生產(chǎn)者精度[4]。
其中,總體面積精度 (O A) 指的是對(duì)所有參與分類(lèi)的樣本,其被解譯識(shí)別的類(lèi)型與檢驗(yàn)數(shù)據(jù)類(lèi)型一致的概率,計(jì)算公式如式(1)所示。
制圖精度 (P A) 指的是從分類(lèi)后的結(jié)果中任意挑選一個(gè)樣本,其被解譯識(shí)別的類(lèi)型與檢驗(yàn)樣本類(lèi)型一致的概率,計(jì)算公式如式(2)所示。
生產(chǎn)者精度( 指的是從檢驗(yàn)樣本中任意挑選一個(gè)樣本,其類(lèi)型與解譯識(shí)別的類(lèi)型一致的概率,計(jì)算公式如式(3)所示
2.2 XGBoost算法
XGBoost屬于一類(lèi)基于決策樹(shù)的集成學(xué)習(xí)算法。梯度提升決策樹(shù)通過(guò)迭代地訓(xùn)練一系列決策樹(shù),每一棵樹(shù)都在前一棵樹(shù)殘差基礎(chǔ)上進(jìn)行訓(xùn)練。這樣,模型逐步學(xué)習(xí)和修正數(shù)據(jù)誤差,提高預(yù)測(cè)性能。在遙感影像中,水稻的識(shí)別需要有效地利用多光譜信息,XGBoost通過(guò)自適應(yīng)地選擇和調(diào)整特征,對(duì)多維度、多波段的遙感數(shù)據(jù)進(jìn)行建模。這樣的特征工程有助于模型更好地捕捉影像中水稻和其他地物之間的差異。XGBoost的決策樹(shù)是回歸樹(shù),每個(gè)葉子節(jié)點(diǎn)輸出一個(gè)實(shí)數(shù)值。在遙感影像中,這個(gè)實(shí)數(shù)值可以表示樣本屬于水稻類(lèi)別的概率。通過(guò)疊加多個(gè)樹(shù)的輸出,最終得到對(duì)整個(gè)影像的分類(lèi)結(jié)果[5]
在遙感影像中,水稻與非水稻地物可能存在不平衡的情況。XGBoost通過(guò)引入樣本權(quán)重和正則化項(xiàng),能夠更好地處理這種不平衡,提高模型的魯棒性。XGBoost提供了特征重要性分析的功能,用戶(hù)可以了解哪些特征對(duì)于水稻識(shí)別的貢獻(xiàn)較大,有助于解釋模型的決策過(guò)程。
綜合而言,XGBoost在水稻遙感影像識(shí)別中的基本原理是通過(guò)集成多個(gè)梯度提升決策樹(shù),有效利用多光譜信息和其他特征處理不平衡數(shù)據(jù),以及提供模型解釋性,從而實(shí)現(xiàn)對(duì)水稻的高效準(zhǔn)確識(shí)別。XGBoost在遙感影像中識(shí)別水稻較傳統(tǒng)方法有明顯的優(yōu)勢(shì),但水稻識(shí)別的精度及效率也與樣本的準(zhǔn)確性、影像數(shù)據(jù)的質(zhì)量,以及前期影像時(shí)期的選擇、影像的處理等都有著密切的關(guān)系。訓(xùn)練樣本要盡可能準(zhǔn)確并涵蓋不同影像條件、不同種植結(jié)構(gòu)條件、不同種植期等多種類(lèi)型。同時(shí),數(shù)據(jù)收集和處理階段要盡可能選取質(zhì)量好的影像并提前從專(zhuān)業(yè)的角度減少影像數(shù)量,特定選取一些重要性波段,以提高模型訓(xùn)練及預(yù)測(cè)的效率[]。
3試驗(yàn)分析
3.1 試驗(yàn)數(shù)據(jù)
該研究使用哨兵2號(hào)衛(wèi)星遙感影像進(jìn)行水稻識(shí)別模型的訓(xùn)練和測(cè)試。具體包括水稻生長(zhǎng)期內(nèi)關(guān)鍵時(shí)期的影像,含水稻播種期、生長(zhǎng)旺盛期及成熟收獲期影像,部分影像如圖2和圖3所示?;谙螺d及處理后的哨兵影像,在Arcgis軟件中勾繪出浦城縣全縣區(qū)域范圍內(nèi)的水稻及非水稻樣本,勾畫(huà)的樣本數(shù)量應(yīng)按照水稻的分布情況進(jìn)行匹配,在分布多的區(qū)域適當(dāng)多勾畫(huà)。勾畫(huà)的樣本盡可能分布均勻且能涵蓋不同的地勢(shì)類(lèi)型及不同的長(zhǎng)勢(shì)類(lèi)型。勾畫(huà)的樣本按照8:2的比例分為訓(xùn)練和驗(yàn)證樣本,訓(xùn)練樣本用于訓(xùn)練模型參數(shù),驗(yàn)證樣本則用于模型驗(yàn)證和控制樣本訓(xùn)練過(guò)程。
3.2 試驗(yàn)設(shè)置
主要參數(shù)設(shè)置如下:
objective:對(duì)象函數(shù),選擇binary:logistic。
booster:使用的提升器,選擇gbtree,使用樹(shù)模型。
eval_metric:評(píng)估指標(biāo),選擇準(zhǔn)確率eval_metric
learning_rate:學(xué)習(xí)率,控制每輪迭代的步長(zhǎng),0.01。
max_depth:樹(shù)的最大深度,過(guò)大容易導(dǎo)致過(guò)擬合,設(shè)置為5。
num_boost_round:迭代次數(shù),即弱學(xué)習(xí)器的數(shù)量,設(shè)置為10。
測(cè)試環(huán)境:Python3.6,GPURTX2080Ti。
4試驗(yàn)成果
4.1 模型效果
浦城縣臨江鎮(zhèn)水稻分布圖如圖4所示。浦城縣永興鎮(zhèn)水稻分布如圖5所示。水稻塊級(jí)局部分布如圖6所示。
4.2 精度評(píng)價(jià)
為了驗(yàn)證水稻識(shí)別的精確度,采用基于準(zhǔn)確點(diǎn)的定量驗(yàn)證方式。通過(guò)隨機(jī)撒點(diǎn)的形式,在水稻分布區(qū)域隨機(jī)生成并挑選出300個(gè)水稻點(diǎn)及300個(gè)非水稻點(diǎn)(依據(jù)識(shí)別的結(jié)果劃分水稻點(diǎn)及非水稻點(diǎn)),通過(guò)人工對(duì)照這些隨機(jī)點(diǎn)的影像來(lái)確認(rèn)其準(zhǔn)確屬性。對(duì)這些隨機(jī)驗(yàn)證點(diǎn)的判讀,可以從3個(gè)不同的角度完成解譯識(shí)別精度的計(jì)算,分別為總體面積精度、制圖精度及生產(chǎn)者精度。提取出的水稻分類(lèi)結(jié)果精度驗(yàn)證混淆矩陣見(jiàn)表1。
4.2.1 總體面積精度
總體面積精度計(jì)算方法即從分類(lèi)結(jié)果中任取一個(gè)隨機(jī)樣本,其所具有的類(lèi)型與地面實(shí)際類(lèi)型相同的條件概率,計(jì)算過(guò)程見(jiàn)式(1)。
4.2.2 制圖精度
制圖精度表示相對(duì)于檢驗(yàn)數(shù)據(jù)中的任意一個(gè)隨機(jī)樣本,分類(lèi)圖上同一地點(diǎn)的分類(lèi)結(jié)果與其相一致的條件概率,計(jì)算過(guò)程見(jiàn)式(2)。
4.2.3 生產(chǎn)者精度
生產(chǎn)者精度表述的是對(duì)每一個(gè)隨機(jī)樣本,所分類(lèi)的結(jié)果與檢驗(yàn)數(shù)據(jù)類(lèi)型相一致的概率,計(jì)算過(guò)程見(jiàn)式(3)。
用戶(hù)精度、制圖精度、總體精度均大于 80% ,說(shuō)明分類(lèi)結(jié)果具有較好的一致性,且精度較高。
4.3 算法效率
應(yīng)用該算法,浦城縣臨江鎮(zhèn)及永興鎮(zhèn)水稻提取時(shí)間大概為 10min ,而人工提取需要時(shí)間為 該自動(dòng)提取算法效率相較于傳統(tǒng)人工提取效率有較大的進(jìn)步。將來(lái)隨著算法的優(yōu)化及各方面硬件性能的提升,該算法的效率及精準(zhǔn)度也會(huì)得到同步提升。
5研究展望
5.1提升樣本數(shù)量、種類(lèi)和質(zhì)量
一是增加樣本數(shù)據(jù)量,以提升模型對(duì)不同地形、地貌的適應(yīng)性。目前,樣本以平原、丘陵地區(qū)為主,需要收集更多山地、高原等復(fù)雜地形區(qū)域的樣本數(shù)據(jù),使樣本盡量涵蓋不同地形條件、不同種植結(jié)構(gòu)及不同長(zhǎng)勢(shì)的水稻分布區(qū)域,提高水稻識(shí)別的精度及模型的適用性[7]。二是提高樣本制作和標(biāo)注質(zhì)量,減少標(biāo)簽錯(cuò)誤。手工制作高質(zhì)量樣本耗時(shí)耗力,需要優(yōu)化流程、平衡效率與質(zhì)量,還可研究半自動(dòng)或弱監(jiān)督樣本制作方法,以降低人工標(biāo)注量,并通過(guò)迭代訓(xùn)練不斷提升樣本質(zhì)量。
5.2融合多源遙感影像數(shù)據(jù)
一是引入哨兵系列、海絲一號(hào)等雷達(dá)遙感影像數(shù)據(jù)。與光學(xué)圖像相比,雷達(dá)影像能提供農(nóng)作物地塊的結(jié)構(gòu)和表面信息,可彌補(bǔ)光學(xué)圖像在云層遮擋條件下的不足。將雷達(dá)影像的結(jié)構(gòu)特征與光學(xué)圖像的紋理顏色特征進(jìn)行融合,可以使模型融合不同模態(tài)數(shù)據(jù)的優(yōu)勢(shì),提升對(duì)關(guān)鍵地塊邊界的識(shí)別能力。二是引人高分系列、吉林系列等多光譜或高光譜遙感影像數(shù)據(jù)。多光譜和高光譜遙感影像數(shù)據(jù)可提供農(nóng)作物生長(zhǎng)情況或地質(zhì)地形信息。將這些數(shù)據(jù)與光學(xué)影像結(jié)合,可以豐富模型輸入的特征表示,有助于識(shí)別植被類(lèi)型、地表特征等與地塊邊界相關(guān)的信息。
5.3引入更多算法完善模型
針對(duì)現(xiàn)有模型的局限性,可通過(guò)引入多種先進(jìn)算法來(lái)提升水稻識(shí)別能力。一是可探索基于視覺(jué)Transformer和自注意力機(jī)制的深度學(xué)習(xí)模型,充分利用其在長(zhǎng)程依賴(lài)關(guān)系建模方面的優(yōu)勢(shì),更好地捕捉水稻地塊的空間布局。二是引入時(shí)空注意力網(wǎng)絡(luò)(Spatial-TemporalAttentionNetwork)處理多時(shí)相影像數(shù)據(jù),該網(wǎng)絡(luò)能同時(shí)關(guān)注空間和時(shí)間維度的特征變化,提升對(duì)水稻物候特征的識(shí)別能力。在特征提取方面,可采用基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的方法建模地塊間的空間關(guān)系,并結(jié)合自監(jiān)督對(duì)比學(xué)習(xí)提取更具判別性的特征。此外,考慮到樣本獲取困難的問(wèn)題,可引人few-shot learning和meta-learning等方法,實(shí)現(xiàn)小樣本場(chǎng)景下的快速適應(yīng)。為提高模型的泛化能力,可采用domainadaptation和adver-sarialtraining等技術(shù),增強(qiáng)模型在不同地理?xiàng)l件下的適應(yīng)性[8。同時(shí),可探索知識(shí)蒸餾和模型壓縮方法,在保證精度的同時(shí)提升模型的計(jì)算效率。在集成學(xué)習(xí)框架方面,可引人動(dòng)態(tài)權(quán)重調(diào)整機(jī)制,根據(jù)不同算法在不同場(chǎng)景下的表現(xiàn)自適應(yīng)調(diào)整集成權(quán)重。
參考文獻(xiàn):
[1] XIE S,TU Z. Holistically-nested edge detection[C]//Proceedings of the IEEE international conference on computer vision. 2015: 1395-1403.
[2]CHEN L C,COLLINS M,ZHU Y,et al. Searching for efficient multi-scale architectures for dense image prediction.NeurIPS 2018.
[3]陳仲新,任建強(qiáng),唐華俊,等.農(nóng)業(yè)遙感研究應(yīng)用進(jìn)展與展望[J].遙感學(xué)報(bào),2016,20(5):748-767.
[4]楊釗霞,鄒崢嶸,陶超,等.空-譜信息與稀疏表示相結(jié)合的高光譜遙感影像分類(lèi)[J].測(cè)繪學(xué)報(bào),2015,44(7):775-781.
[5]潘家志.基于光譜和多光譜數(shù)字圖像的作物與雜草識(shí)別方法研究[D].杭州:浙江大學(xué),2007.
[6]曹敏,史照良,沈泉飛.ALOS影像在土地覆被分類(lèi)中最佳波段選取的研究[J].測(cè)繪通報(bào),2008(9) : 16-18,27.
[7]胡瓊,吳文斌,宋茜,等.農(nóng)作物種植結(jié)構(gòu)遙感提取研究進(jìn)展[J].中國(guó)農(nóng)業(yè)科學(xué),2015,48(10) : 1900-1914.
[8]DOSOVITSKIYA,BEYERL,KOLESNIKOV A,et al. An image is worth 16x16 words: transformers for image recognition at scale[C]//International Conference onLearning Representations.2021.