王匯涵,張 澤,康孝巖,林 皎,印彩霞,馬露露, 黃長(zhǎng)平,呂 新※
(1.石河子大學(xué)農(nóng)學(xué)院/新疆生產(chǎn)建設(shè)兵團(tuán)綠洲生態(tài)農(nóng)業(yè)重點(diǎn)實(shí)驗(yàn)室,石河子 832000; 2.中國(guó)科學(xué)院空天信息創(chuàng)新研究院,北京 100094;3.塔里木大學(xué)農(nóng)學(xué)院,阿拉爾 843300)
棉花是重要的經(jīng)濟(jì)作物。新疆作為中國(guó)最大的棉花種植基地,2021年棉花產(chǎn)量512.9萬t,占全國(guó)棉花產(chǎn)量的89.5%,在棉花產(chǎn)業(yè)中發(fā)揮著舉足輕重的作用。棉花產(chǎn)量是指導(dǎo)田間管理的指標(biāo)之一。及時(shí)、準(zhǔn)確地預(yù)測(cè)棉花產(chǎn)量在棉田經(jīng)營(yíng)管理、農(nóng)業(yè)決策制定等方面具有重要的價(jià)值和意義。
遙感技術(shù)具有快速、宏觀、動(dòng)態(tài)、成本低等優(yōu)點(diǎn),能夠克服傳統(tǒng)作物估產(chǎn)方法的局限性,已成為產(chǎn)量估測(cè)的新技術(shù)。目前,已有學(xué)者對(duì)植被指數(shù)和作物產(chǎn)量的模型進(jìn)行了大量的研究,基于時(shí)間序列MODIS_NDVI的農(nóng)作物產(chǎn)量預(yù)測(cè)研究較為廣泛。趙文亮等根據(jù) NOAA/AVHRR NDVI時(shí)間序列得出作物生長(zhǎng)期內(nèi)的歸一化植被指數(shù)(Normalized Difference Vegetation Index, NDVI)累計(jì)值或最大值,通過線性擬合,建立作物產(chǎn)量遙感預(yù)測(cè)模型。Ji等利用MOD09Q1數(shù)據(jù)產(chǎn)品計(jì)算NDVI時(shí)間序列,用于作物大規(guī)模產(chǎn)量預(yù)測(cè)。由于地物類型復(fù)雜多樣,MODIS數(shù)據(jù)受空間分辨率的限制,對(duì)預(yù)測(cè)效果具有負(fù)面影響,低空間分辨率仍然是遙感技術(shù)預(yù)測(cè)產(chǎn)量應(yīng)用中的一個(gè)問題。劉煥軍等利用30 m空間分辨率的Landsat_5_TM與Landsat_7_ETM影像構(gòu)建非多天合成的NDVI時(shí)間序列數(shù)據(jù)建立棉花估產(chǎn)模型。魯新新等以Landsat 8遙感影像為數(shù)據(jù)源,確定NDVI與棉花產(chǎn)量相關(guān)性最優(yōu)的算法模型。這些研究證明了傳統(tǒng)植被指數(shù)與產(chǎn)量之間的關(guān)系,避免了MODIS數(shù)據(jù)低空間分辨率、多天合成產(chǎn)生混合像元的問題。但也有研究表明,單一植被指數(shù)NDVI在較大的葉面積指數(shù)(Leaf Area Index,LAI)下易出現(xiàn)飽和現(xiàn)象,并受土壤背景影響,與棉花產(chǎn)量相關(guān)性較低(=0.47),Zhao等認(rèn)為,皮棉產(chǎn)量與棉花生長(zhǎng)早期測(cè)得的冠層反射率指數(shù)相關(guān)性最好(為0.56~0.89)。朱婉雪等基于冬小麥不同生育期影像數(shù)據(jù)和植被指數(shù),構(gòu)建了多個(gè)估產(chǎn)模型,最終確定最佳估產(chǎn)時(shí)期和植被指數(shù)為抽穗灌漿期和增強(qiáng)型植被指數(shù)(Enhanced Vegetation Index,EVI),決定系數(shù)達(dá)到0.70。
綜上所述,以往研究主要通過建立單一植被指數(shù)與棉花產(chǎn)量的線性或非線性回歸方程,比較分析其相關(guān)性,選用相關(guān)性最高的某一植被指數(shù)與棉花產(chǎn)量的回歸方程作為棉花產(chǎn)量預(yù)測(cè)模型,而棉花產(chǎn)量形成是一個(gè)連續(xù)變化的動(dòng)態(tài)過程,受冠層結(jié)構(gòu)、生物量和葉綠素含量等因素的影響。單一植被指數(shù)的應(yīng)用簡(jiǎn)化了棉花產(chǎn)量預(yù)測(cè)的復(fù)雜性,增加了模型的誤差和不穩(wěn)定性。針對(duì)該問題,本研究以新疆莫索灣墾區(qū)為研究區(qū),基于Google Earth Engine(GEE)平臺(tái),獲取棉花3個(gè)生育時(shí)期的Sentinel-2A影像,并進(jìn)行預(yù)處理,重采樣至10 m空間分辨率,計(jì)算14種植被指數(shù),探討不同指數(shù)預(yù)測(cè)棉花產(chǎn)量的能力,確定棉花產(chǎn)量預(yù)測(cè)的最佳生育時(shí)期,建立最優(yōu)的棉花產(chǎn)量預(yù)測(cè)模型,實(shí)現(xiàn)莫索灣墾區(qū)棉花產(chǎn)量預(yù)測(cè)制圖,以期為棉花精準(zhǔn)管理提供決策信息。
研究區(qū)位于新疆兵團(tuán)第八師莫索灣墾區(qū),地處天山北麓中段,準(zhǔn)噶爾盆地南部,東經(jīng)84°58′~86°24′,北緯43°26′~45°20′,平均海拔300~500 m,屬典型的溫帶大陸性氣候,冬季長(zhǎng)而嚴(yán)寒,夏季短而炎熱,年平均降水量180~270 mm,年平均氣溫7.5~8.2 ℃,光熱資源豐富,日照2 318~2 732 h,無霜期147~191 d。研究區(qū)域內(nèi)種植少量小麥、苜蓿等作物,以棉花為主栽作物。
以2020年Sentinel-2A影像數(shù)據(jù)為主要數(shù)據(jù)源,包含13個(gè)光譜波段,具體波段參數(shù)如表1所示。在GEE平臺(tái)中,利用JavaScript編程計(jì)算云信息波段QA60的Bit10和Bit11的值,設(shè)置二者的值均為0得到云掩膜,使用云掩膜去除影像中的云信息,得到無云影像,并重采樣至10 m分辨率。
表1 Sentinel-2A波段信息 Table 1 Band information of Sentinel 2A
地物分類數(shù)據(jù):數(shù)據(jù)來自Google Earth 高分辨率影像和野外調(diào)查。為了充分掌握研究區(qū)域內(nèi)的地物類型及其典型樣本的空間位置,調(diào)查時(shí)利用Google Earth 高分辨率影像記錄代表性地塊的經(jīng)緯度坐標(biāo)及相應(yīng)的植被類型。樣本數(shù)據(jù)分布均勻,覆蓋研究區(qū)域范圍,用于農(nóng)田提取的樣本共計(jì)609,包括非農(nóng)田樣本282,農(nóng)田樣本327;用于棉花提取的樣本共計(jì)207,其中非棉花樣本74,棉花樣本133。
棉花實(shí)測(cè)產(chǎn)量數(shù)據(jù):在棉花收獲期開展測(cè)產(chǎn)工作,在研究區(qū)內(nèi),每個(gè)團(tuán)場(chǎng)選擇4~5個(gè)采樣站點(diǎn),每個(gè)站點(diǎn)附近范圍內(nèi)選取5個(gè)樣點(diǎn),共計(jì)95個(gè)樣點(diǎn)進(jìn)行模型構(gòu)建,同時(shí)選擇21個(gè)樣點(diǎn)進(jìn)行模型驗(yàn)證(圖1)。按照五點(diǎn)采樣法,調(diào)查株數(shù)、鈴數(shù),取一膜一米的棉絮稱干質(zhì)量,計(jì)算平均鈴質(zhì)量。
圖1 研究區(qū)域及樣點(diǎn)分布圖 Fig.1 Study area and distributions of sample points
植被指數(shù)是多個(gè)光譜帶和波長(zhǎng)的轉(zhuǎn)換,可以解釋冠層結(jié)構(gòu)和光合作用的變化。根據(jù)光譜特性,本文研究了產(chǎn)量預(yù)測(cè)中常用的14種光譜植被指數(shù),包括6個(gè)冠層結(jié)構(gòu)指數(shù)及8個(gè)葉綠素相關(guān)指數(shù)(表2)。
表2 文中選用的植被指數(shù) Table 2 The selected vegetation index
利用GEE平臺(tái)對(duì)Sentinel-2A影像進(jìn)行預(yù)處理。采用兩步分級(jí)制圖策略,利用分類算法剔除非農(nóng)作物分布區(qū)域,合成棉花不同生育時(shí)期的影像,實(shí)現(xiàn)棉田與非棉田的劃分。利用順序向前算法(Sequential Forward Selection,SFS)對(duì)波段和植被指數(shù)進(jìn)行特征篩選,基于偏最小二乘回歸模型(Partial Least Squares Regression,PLSR)構(gòu)建不同生育時(shí)期的棉花產(chǎn)量預(yù)測(cè)模型,以確定棉花估產(chǎn)最佳時(shí)期,并將模型應(yīng)用到棉花產(chǎn)量制圖中。
本研究中實(shí)施兩步分級(jí)策略用于棉花種植區(qū)域提取。第一步,將研究區(qū)域劃分為5個(gè)主要的土地覆蓋類別(農(nóng)田、荒漠、建筑、城市綠地和水體),基于10 m空間分辨率Sentinel-2A影像,選擇17個(gè)特征用于農(nóng)田提取,包括12個(gè)光譜特征、3個(gè)植被指數(shù)特征、2個(gè)地形特征(Digital Elevation Model ,DEM)特征剔除非農(nóng)作物分布區(qū)域,得到準(zhǔn)確的農(nóng)田掩膜。第二步,將農(nóng)田劃分為棉花區(qū)和非棉花區(qū)。對(duì)研究區(qū)影像進(jìn)行掩膜處理得到農(nóng)田植被的總體分布,確定棉花5個(gè)生育時(shí)期,將各生育期的5幅合成圖像組合,形成包括12個(gè)光譜特征、3個(gè)植被指數(shù)特征、2個(gè)DEM特征的新圖像,進(jìn)行棉花種植區(qū)提取。
利用隨機(jī)森林(Radom Forest, RF)、支持向量機(jī)(Support Vector Machine, SVM)算法和決策樹(Classification and Regression Tree, CART)三種分類方法,結(jié)合研究區(qū)域及算法本身的特點(diǎn),在樣本數(shù)據(jù)中隨機(jī)選取 70%作為訓(xùn)練數(shù)據(jù),剩下的30%作為驗(yàn)證數(shù)據(jù)。分類性能的評(píng)估基于混淆矩陣(Confusion Matrix),用行列的矩陣形式表示。每一行代表參考數(shù)據(jù)中的實(shí)際類,每一列代表預(yù)測(cè)類,對(duì)角線元素表示正確分類的像素個(gè)數(shù)?;煜仃囍休^常使用的具體評(píng)價(jià)指標(biāo)有總體精度(Overall Accuracy, OA)、制圖精度(Producer’s Accuracy, PA)、用戶精度(User’s Accuracy, UA)以及Kappa系數(shù)(Kappa Coefficient, KC)等,這些指標(biāo)從不同的角度反映作物分類的精度。
由于棉花早期生長(zhǎng)階段的田間空間變異性小,考慮土壤背景反射率的潛在負(fù)面影響,開花后期的棉花產(chǎn)量和植被指數(shù)之間的相關(guān)性更好,因此本研究選取棉花3個(gè)主要生育時(shí)期的遙感影像。7月11日-7月20日,7月21日-8月30日,8月31日-9月10日,分別對(duì)應(yīng)棉花花期、鈴期、吐絮期。利用SFS方法對(duì)波段和植被指數(shù)進(jìn)行篩選。
PLSR是一種融合了主成分分析、回歸分析和典型相關(guān)分析等方法的多元數(shù)據(jù)統(tǒng)計(jì)分析模型,能夠同時(shí)考慮各特征之間的相關(guān)性以及與因變量之間的相關(guān)性,實(shí)現(xiàn)數(shù)據(jù)的降維、信息綜合與篩選,較好地解決特征共線性問題,有效剔除不重要的變量。本文利用SPXY(sample set partitioning based on joint x-y distance)算法同時(shí)計(jì)算樣本間距離對(duì)樣品集進(jìn)行劃分,基于PLSR構(gòu)建不同生育時(shí)期棉花產(chǎn)量預(yù)測(cè)模型,并采用獨(dú)立驗(yàn)證數(shù)據(jù)對(duì)預(yù)測(cè)模型進(jìn)行評(píng)估和驗(yàn)證,最終確定棉花最佳估產(chǎn)模型。評(píng)價(jià)指標(biāo)包括:決定系數(shù)(),均方根誤差(RMSE)和相對(duì)誤差RE(%),其值越大和 RMSE 值越小,說明模型的預(yù)測(cè)性能和準(zhǔn)確性越高。均方根誤差(RMSE)和相對(duì)誤差RE(%)公式如下:
式中P、O和分別為預(yù)測(cè)值、觀測(cè)值和實(shí)測(cè)值的平均值,為樣本數(shù)量。當(dāng)RE≤10%時(shí),模型較優(yōu),10%<RE≤20%模型適中,RE>20%模型較差。
結(jié)合多種分類特征對(duì)莫索灣墾區(qū)棉花種植區(qū)域進(jìn)行提取。利用驗(yàn)證點(diǎn)數(shù)據(jù)對(duì)農(nóng)田與非農(nóng)田分類進(jìn)行交叉驗(yàn)證,結(jié)果如圖2a所示,其中,RF、SVM、CART的UA分別為0.96、0.97、0.91;PA分別為0.92、0.83、0.74;OA精度分別為0.94、0.90、0.83;KC分別為0.89、0.81、0.67。除UA相差較小以外,其他指標(biāo)差距較大,RF算法分類效果明顯優(yōu)于SVM和CART,更適用于農(nóng)田與非農(nóng)田的提取。
在農(nóng)田掩膜基礎(chǔ)上,根據(jù)棉花不同生育時(shí)期影像,進(jìn)行棉田與非棉田分類,分類結(jié)果如圖3b所示。計(jì)算分類結(jié)果的混淆矩陣,對(duì)不同分類方法的分類結(jié)果進(jìn)行精度驗(yàn)證,驗(yàn)證結(jié)果如圖2b所示,RF算法的PA為0.95,SVM算法PA為0.93,CART的PA為0.90。RF與CART分類精度相差不大,SVM的精度最低,其OA為0.89,KC為0.78。總體而言,RF算法最佳,對(duì)2020年莫索灣墾區(qū)的棉花種植面積進(jìn)行計(jì)算,并與實(shí)際種植面積進(jìn)行比較,分類結(jié)果面積為60 400 hm,實(shí)際面積為64 866.7 hm,相對(duì)誤差為6.9%,與團(tuán)場(chǎng)棉花的種植現(xiàn)狀相吻合。
圖2 基于不同算法的分類精度評(píng)價(jià) Fig.2 Classification accuracy evaluation based on different algorithms
圖3 基于隨機(jī)森林算法的兩步分級(jí)棉花種植面積提取 Fig.3 Two-step grading cotton planting area extraction based on random forest algorithm
為進(jìn)一步分析不同生育時(shí)期波段/植被指數(shù)對(duì)棉花估產(chǎn)的影響,對(duì)研究區(qū)棉花產(chǎn)量與不同生育時(shí)期波段/植被指數(shù)之間的相關(guān)性進(jìn)行統(tǒng)計(jì)(圖4)?;ㄆ?、鈴期、吐絮期波段/植被指數(shù)與產(chǎn)量的相關(guān)性趨勢(shì)基本相同,其中B6波段與產(chǎn)量相關(guān)性最高,隨著生育時(shí)期的推進(jìn),相關(guān)系數(shù)逐漸增大,依次為0.37、0.47、0.53。其次是B7波段,相關(guān)系數(shù)依次為0.32、0.45、0.51。近紅波段僅次于紅邊波段,B8A波段與產(chǎn)量的相關(guān)系數(shù)分別為0.31、0.42、0.50??梢?,Sentinel-2A特有的紅邊波段以及近紅外波段對(duì)棉花產(chǎn)量預(yù)測(cè)具有一定幫助。
圖4 不同特征變量(波段/植被指數(shù))與產(chǎn)量的相關(guān)性分析 Fig.4 Correlation analysis between different characteristic variables (Band/Vegetation Index) and yield
相關(guān)分析結(jié)果能夠反映出單個(gè)波段/植被指數(shù)的預(yù)測(cè)性能,但并不能有效推斷出多波段/植被指數(shù)組合的預(yù)測(cè)能力。利用SFS方法對(duì)波段/植被指數(shù)進(jìn)行特征選擇,結(jié)果如表3所示,就篩選順序而言,在三個(gè)生育時(shí)期中篩選的第1個(gè)特征都為紅邊波段(B6波段),進(jìn)一步證明紅邊波段在棉花產(chǎn)量預(yù)測(cè)中的重要性。就數(shù)量而言,波段在花期對(duì)棉花產(chǎn)量較為敏感,篩選數(shù)量多于冠層結(jié)構(gòu)指數(shù)和葉綠素相關(guān)指數(shù),依次為6個(gè)、1個(gè)、4個(gè)。鈴期葉綠素相關(guān)植被指數(shù)篩選數(shù)量(6個(gè))明顯多于波段(3個(gè))和冠層結(jié)構(gòu)指數(shù)(2個(gè))。吐絮期冠層結(jié)構(gòu)相關(guān)指數(shù)5個(gè),其次波段4個(gè),葉綠素相關(guān)指數(shù)2個(gè)。冠層結(jié)構(gòu)相關(guān)指數(shù)隨著生育期的推進(jìn),對(duì)產(chǎn)量的敏感性增大,在棉花生育后期對(duì)產(chǎn)量預(yù)測(cè)模型的貢獻(xiàn)較多,葉綠素相關(guān)指數(shù)則呈現(xiàn)先增長(zhǎng)后減小的趨勢(shì),在鈴期貢獻(xiàn)最為突出。弱相關(guān)性To指數(shù)均被篩選為特征變量,相關(guān)系數(shù)依次為0.02、0.03、0.10,可見,弱相關(guān)性特征的預(yù)測(cè)性能未必低于獨(dú)立性弱的強(qiáng)相關(guān)性特征組合。對(duì)產(chǎn)量預(yù)測(cè)篩選特征波段時(shí)不僅僅考慮單一特征的性能,還要衡量特征之間的獨(dú)立性和冗余度。
表3 特征變量篩選結(jié)果 Table 3 Characteristic band screening results
本研究利用SPXY算法對(duì)樣品集進(jìn)行劃分,以產(chǎn)量為變量,波段/植被指數(shù)為變量,將70%的樣本訓(xùn)練,剩余30%為預(yù)測(cè)集樣本。基于PLSR將篩選出的特征變量與產(chǎn)量構(gòu)建模型,結(jié)果如圖5。鈴期模型預(yù)測(cè)效果最佳(=0.62,RMSE=625.5 kg/hm,RE=8.87%),優(yōu)于吐絮期(=0.51,RMSE=789.45 kg/hm,RE=11.06%)、花期(=0.48,RMSE=686.4 kg/hm,RE=9.86%)。預(yù)測(cè)模型的精度隨著生育時(shí)期的推進(jìn)有了較大的提升。
圖5 基于偏最小二乘算法不同生育時(shí)期產(chǎn)量預(yù)測(cè)模型評(píng)價(jià) Fig.5 Evaluation of yield prediction model for different growth periods based on PLSR algorithm
利用2020年棉花鈴期的遙感影像數(shù)據(jù)(10 m空間分辨率),基于構(gòu)建的鈴期產(chǎn)量預(yù)測(cè)模型,選用獨(dú)立的21個(gè)樣本點(diǎn)測(cè)試模型性能。測(cè)試結(jié)果如圖6所示,=0.61,RMSE=425.25 kg/hm,RE=6.61%,與所建立模型的驗(yàn)證結(jié)果接近(=0.62,RMSE=625.5 kg/hm,RE=8.87%),比較理想。
圖6 鈴期模型預(yù)測(cè)產(chǎn)量與實(shí)測(cè)產(chǎn)量的比較 Fig.6 Comparison between predicted yield and measured yield of Boll period model
此外,將已篩選的波段/植被指數(shù)作為輸入因子,逐像元計(jì)算棉花產(chǎn)量,對(duì)莫索灣墾區(qū)棉花產(chǎn)量分布制圖。從圖7可以看出,棉花產(chǎn)量分布在3 000~9 000 kg/hm范圍內(nèi),與實(shí)際情況相符,總體而言,棉花產(chǎn)量由北向南逐漸減少,高值區(qū)出現(xiàn)在150團(tuán),低值區(qū)則在147團(tuán)、148團(tuán)均有分布。
圖7 新疆莫索灣墾區(qū)棉花產(chǎn)量預(yù)測(cè) Fig.7 Prediction of cotton yield in Xinjinag Mosuwan Reclamation Region
本研究采取兩步分級(jí)提取策略實(shí)現(xiàn)了新疆莫索灣墾區(qū)2020年棉花種植面積提取。與李方杰等的研究方法相比,本文使用10 m空間分辨率Sentinel-2A影像數(shù)據(jù),在影像合成上突出了棉花的特征,且在模型訓(xùn)練時(shí)加入植被指數(shù)和地形特征,實(shí)現(xiàn)較高精度的棉花提取,該提取策略聚焦田間植被,篩選得到的特征針對(duì)性更強(qiáng),理論上所得結(jié)果的適用性和推廣性更優(yōu)且不受其他非農(nóng)地物的影響,在棉花衛(wèi)星遙感提取中具有重要意義。以往研究表明,機(jī)器學(xué)習(xí)算法與傳統(tǒng)算法相比在處理高維復(fù)雜數(shù)據(jù)時(shí)可以有效利用數(shù)據(jù)特征實(shí)現(xiàn)更高的分類精度。然而,使用多種機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)象提取的研究較少,在相同數(shù)據(jù)上比較多種算法有利于在棉花種植面積提取中找到最合適的算法。鑒于此,本研究憑借GEE存儲(chǔ)大量遙感數(shù)據(jù)的優(yōu)勢(shì),獲取了2020年覆蓋莫索灣墾區(qū)的Sentinel-2A數(shù)據(jù)影像,同時(shí)實(shí)現(xiàn)了去云、影像鑲嵌、裁剪等一系列預(yù)處理,有效避免了影像鑲嵌帶來的色差問題,保證了分類數(shù)據(jù)源的純潔度與質(zhì)量,利用GEE中提供的分類器,對(duì)比RF、SVM、CART三種算法在棉花種植區(qū)域提取中的分類效果。從PA、UA、OA和KC檢驗(yàn)結(jié)果來看,RF對(duì)農(nóng)田與非農(nóng)田分類的PA為0.92,UA為0.96,OA為0.94,KC為0.89,優(yōu)于SVM和CART。棉田與非棉田分類中,RF與CART表現(xiàn)相似,RF的PA(0.95)略高于CART(0.90),由此可見RF的分類效果最佳,這與哈斯圖亞等的研究結(jié)果相符。CART容易出現(xiàn)過度擬合現(xiàn)象,而RF是一個(gè)決策樹的集合,只考慮特征的一個(gè)子集,最終結(jié)果取決于所有的樹,有更好的泛化能力和更少的過度擬合。該分類方法對(duì)農(nóng)作物的識(shí)別能力較強(qiáng),分類精度較高,能夠滿足精準(zhǔn)農(nóng)業(yè)遙感監(jiān)測(cè)的需要。
本研究利用GEE平臺(tái)獲取并預(yù)處理棉花三個(gè)生育時(shí)期的Sentinel-2A遙感影像,構(gòu)建14種植被指數(shù),與產(chǎn)量進(jìn)行相關(guān)性分析。與花期相比,棉花產(chǎn)量和生育后期(鈴期/吐絮期)的波段/植被指數(shù)之間相關(guān)性更高??赡苡捎诂F(xiàn)花期田間空間變異較小,土壤背景反射率存在負(fù)面影響,這一結(jié)果與前人研究一致。由于棉花吐絮后冠層結(jié)構(gòu)變化較大,吐絮期的冠層結(jié)構(gòu)指數(shù)與產(chǎn)量的相關(guān)性高于其他的生育時(shí)期,并且有明顯的差異性,而葉綠素相關(guān)植被指數(shù)則在棉花盛鈴期表現(xiàn)較好,冠層結(jié)構(gòu)和葉綠素含量相關(guān)植被指數(shù)對(duì)作物生長(zhǎng)過程中的不同方面(即形態(tài)和生理)都有反應(yīng),因此兩者都包括在最終模型中。波段/植被指數(shù)與棉花產(chǎn)量的相關(guān)分析結(jié)果能夠反映出單個(gè)波段/植被指數(shù)的反演性能,但并不能有效推斷出多波段/植被指數(shù)組合的反演能力。由于波段/植被指數(shù)之間有著不同程度的信息重疊、冗余以及相關(guān)性,從而獨(dú)立性強(qiáng)的弱相關(guān)特征組合的反演性能未必低于獨(dú)立性弱的強(qiáng)相關(guān)的特征組合。
由于Sentinel-2A特有的紅邊波段與產(chǎn)量有較高的響應(yīng),將與冠層結(jié)構(gòu)和葉綠素含量相關(guān)的植被指數(shù)結(jié)合起來建立模型,在不同生育時(shí)期的模型對(duì)比中,鈴期的模型預(yù)測(cè)效果最好(=0.62,RMSE=625.5 kg/hm,RE=8.87%),優(yōu)于吐絮期(=0.51,RMSE=789.45 kg/hm,RE=11.06 %),花期的預(yù)測(cè)結(jié)果較差(=0.48,RMSE=686.4 kg/hm,RE=9.86%)。前人研究也發(fā)現(xiàn)隨著季節(jié)的推進(jìn),產(chǎn)量預(yù)測(cè)效果改善。本研究中的預(yù)測(cè)模型在鈴期時(shí)有所改善,主要?dú)w因于特征篩選時(shí)鈴期葉綠素相關(guān)指數(shù)的貢獻(xiàn)更大。棉花吐絮期模型精度低于鈴期的原因可能在于棉花在進(jìn)入吐絮期后,白色棉絮漸漸顯露出來,冠層結(jié)構(gòu)發(fā)生變化,吐絮前后冠層反射率產(chǎn)生較大差異,植被指數(shù)受棉絮影響,導(dǎo)致低估。現(xiàn)蕾營(yíng)養(yǎng)生長(zhǎng)與生殖生長(zhǎng)并進(jìn),營(yíng)養(yǎng)物質(zhì)及環(huán)境資源競(jìng)爭(zhēng)激烈,其中鈴期環(huán)境條件的影響最明顯,該生育期為棉花產(chǎn)量形成的關(guān)鍵期。
基于上述構(gòu)建的產(chǎn)量預(yù)測(cè)模型,選用單獨(dú)的21個(gè)樣本點(diǎn)對(duì)模型性能進(jìn)行測(cè)試,其結(jié)果較為理想(=0.61,RMSE=425.25 kg/hm,RE=6.61%),并實(shí)現(xiàn)了新疆莫索灣墾區(qū)棉花產(chǎn)量預(yù)測(cè)制圖。產(chǎn)量預(yù)測(cè)值分布在3 000~9 000 kg/hm的范圍內(nèi),對(duì)于每個(gè)像元而言,存在高估或低估屬于正?,F(xiàn)象。前人的研究也表明,由于作物管理投入的差異,也會(huì)存在同一區(qū)域內(nèi)產(chǎn)量變異性大,在合理誤差范圍之中??傮w而言,分布呈現(xiàn)出高產(chǎn)集中在北部區(qū)域,由北向南遞減,這可能與150團(tuán)緊鄰沙漠有關(guān),沙漠增溫效應(yīng)可以使準(zhǔn)噶爾盆地100 km內(nèi)的區(qū)域溫度有不同程度的提高,距沙漠近的區(qū)域有較好的熱量資源,促進(jìn)生理活動(dòng),增加產(chǎn)量。
1)本研究采用兩步分級(jí)提取策略,有效避免了非農(nóng)田的影響,準(zhǔn)確提取莫索灣墾區(qū)棉花種植區(qū)域。其中隨機(jī)森林算法表現(xiàn)最佳,農(nóng)田與非農(nóng)田分類的制圖精度PA和用戶精度UA分別達(dá)到了0.92和0.96,分類總體精度OA為0.94,Kappa系數(shù)KC為0.89,棉田與非棉田分類的PA和UA分別達(dá)到了0.95和0.87,分類OA為0.92,KC為0.83。分類結(jié)果面積為60 400 hm,實(shí)際面積為64 866.7 hm,相對(duì)誤差為6.9%,表明該分類方法對(duì)棉田分類精度較高,能夠滿足精準(zhǔn)農(nóng)業(yè)遙感監(jiān)測(cè)的需要。
2)本研究基于SFS-PLSR算法構(gòu)建了3個(gè)生育時(shí)期的棉花產(chǎn)量預(yù)測(cè)模型,利用實(shí)測(cè)數(shù)據(jù)對(duì)模型進(jìn)行驗(yàn)證,結(jié)果表明,模型在鈴期表現(xiàn)出了最佳產(chǎn)量預(yù)測(cè)能力(=0.62,RMSE=625.5 kg/hm,RE=8.87%),鈴期是新疆莫索灣墾區(qū)棉花產(chǎn)量預(yù)測(cè)的最佳生育時(shí)期。根據(jù)棉花種植區(qū)域圖實(shí)現(xiàn)棉花產(chǎn)量預(yù)測(cè)制圖,莫索灣墾區(qū)的棉花產(chǎn)量范圍為3 000~9 000 kg/hm。
本研究提出的兩步分級(jí)策略能夠有效識(shí)別棉花種植區(qū)域,綜合考慮波段/植被指數(shù)組合在產(chǎn)量預(yù)測(cè)中的表現(xiàn),為新疆莫索灣墾區(qū)棉花產(chǎn)量預(yù)測(cè)提供了一種新的思路,可為合理水肥配置、精準(zhǔn)種植、農(nóng)作物生長(zhǎng)過程監(jiān)測(cè)提供數(shù)據(jù)支撐,促進(jìn)精準(zhǔn)農(nóng)業(yè)快速發(fā)展。