李 貞,王家強(qiáng),李紫琴,鄒德秋,張小功,韓建文,柳維揚(yáng)
(塔里木大學(xué) 農(nóng)學(xué)院∕南疆干旱區(qū)特色作物遺傳改良與高效生產(chǎn)兵團(tuán)重點(diǎn)實(shí)驗(yàn)室,新疆 阿拉爾 843300)
【研究意義】棉花氮素監(jiān)測(cè)是評(píng)價(jià)棉花生長(zhǎng)狀況與氮肥合理施用的重要手段之一,棉花氮素營(yíng)養(yǎng)缺乏時(shí),其自身生理、生化參數(shù)發(fā)生一系列改變,研究表明這些參數(shù)可用于準(zhǔn)確指示棉花氮素營(yíng)養(yǎng)狀況[1-2]。目前新疆大田棉花的現(xiàn)代化生產(chǎn)迫切需要一種適時(shí)可靠地監(jiān)測(cè)棉花氮素營(yíng)養(yǎng)狀況的技術(shù)從而指導(dǎo)精確施肥。傳統(tǒng)的氮素測(cè)量,需要耗費(fèi)大量的時(shí)間,高光譜遙感技術(shù)作為對(duì)地的重要技術(shù)手段,可以實(shí)現(xiàn)棉花氮素含量無(wú)損、實(shí)時(shí)、精準(zhǔn)和大面積監(jiān)測(cè)?!厩叭搜芯窟M(jìn)展】近些年來(lái),高光譜遙感監(jiān)測(cè)棉花也受到了廣大研究者的關(guān)注,黃春燕等[3]通過(guò)高光譜監(jiān)測(cè)葉片氮積累量;吳華兵等[4]利用冠層高光譜反射率及高光譜參數(shù)分析了不同施氮水平下不同棉花品種葉片氮含量與冠層反射光譜的定量關(guān)系;王克如等[5]棉花冠層光譜特征及其與植株氮含量間的定量關(guān)系以期實(shí)現(xiàn)棉株氮素的無(wú)損監(jiān)測(cè)。采用高光譜技術(shù)對(duì)棉花養(yǎng)分監(jiān)測(cè)分析時(shí),會(huì)受到土壤背景、日照強(qiáng)度等多種因素的影響,導(dǎo)致測(cè)定的高光譜數(shù)據(jù)摻雜有噪聲,因此需要對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理[6-7]。目前存在的光譜預(yù)處理方式種類較多,作為最基礎(chǔ)的預(yù)處理方式Savitzky-Golay(SG)平滑算法,可以去除噪聲。提高圖譜信噪比,但通過(guò)SG 平滑過(guò)多或者過(guò)少均會(huì)使數(shù)據(jù)失真,導(dǎo)致精度降低[8]。連續(xù)小波變換(continuous wavelet transformation,CWT)在微弱信號(hào)處理方面具有一定優(yōu)勢(shì),可在多尺度分解中得到光譜細(xì)節(jié)特征,提高信噪比。近年來(lái),連續(xù)小波變換憑借處理光譜數(shù)據(jù)的優(yōu)勢(shì),受到各方面學(xué)者越來(lái)越多的關(guān)注。李長(zhǎng)春等[9]基于小波能量系數(shù)的冬小麥生物量估算,發(fā)現(xiàn)連續(xù)小波變換提高了模型精度;王延倉(cāng)等[10]、于雷等[11]利用小波變換選取的小波系數(shù)構(gòu)建土壤有機(jī)質(zhì)含量估測(cè)模型,與傳統(tǒng)數(shù)學(xué)變換估測(cè)進(jìn)行對(duì)比,連續(xù)小波變換后的光譜數(shù)據(jù)構(gòu)建的模型精度更優(yōu)?!颈狙芯壳腥朦c(diǎn)】現(xiàn)在國(guó)內(nèi)外針對(duì)作物氮素監(jiān)測(cè)的研究方法很多,但對(duì)棉花氮素含量的光譜響應(yīng)分析卻相對(duì)較少。為提高棉花氮素含量估算模型的準(zhǔn)確性和普適性,研究以棉花為研究對(duì)象,嘗試在SG平滑、CWT的基礎(chǔ)上采用SG+CWT組合的方式,比較3種不同光譜預(yù)處理對(duì)棉花原始高光譜進(jìn)行減弱或消除背景噪聲的效果。采用BP 神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)和隨機(jī)森林回歸(random forest,RF)兩種算法構(gòu)建棉花氮素含量估算模型,并進(jìn)行精度驗(yàn)證?!緮M解決的關(guān)鍵問(wèn)題】最終選出棉花氮素含量的最佳估算模型,以期實(shí)現(xiàn)對(duì)棉花氮素含量的快速無(wú)損監(jiān)測(cè),為棉花氮素含量的估算提供理論依據(jù)和技術(shù)支持,為新疆棉花生產(chǎn)的科學(xué)管理提供參考。
選擇新疆阿拉爾市塔里木大學(xué)試驗(yàn)田作為試驗(yàn)地點(diǎn),新疆阿拉爾市位于塔里木盆地北緣,屬于大陸性干旱荒漠氣候,全年氣候干燥,晝夜溫差大,光照資源豐富,年日照時(shí)數(shù)為2 556.3~2 991.8 h,降雨量少,年降雨量為40.1~82.5 mm,地表蒸發(fā)強(qiáng)烈,年蒸發(fā)量大于2 500 mm。為了研究棉花光譜特征與其氮素含量的定量關(guān)系,于2020年4—8月在塔里木大學(xué)農(nóng)學(xué)試驗(yàn)站進(jìn)行盆栽試驗(yàn),盆栽棉花氮素施用量,設(shè)置0(T0)kg∕hm2、100(T1)kg∕hm2、150(T2)kg∕hm2、200(T3)kg∕hm2、250 以上(T4)kg∕hm25 個(gè)施氮梯度,每種梯度6 個(gè)重復(fù)。2020 年4 月下旬和6 月上旬進(jìn)行施肥,氮肥用尿素,其中尿素、鉀肥一次性施入,磷酸氫二銨分2次施入。整個(gè)試驗(yàn)過(guò)程在人為可控的條件下減少誤差。
棉花樣本的采集于2020年6—8月選擇晴朗無(wú)風(fēng)的天氣,分別在棉花蕾期、花期、花鈴期采集棉花葉片,同時(shí)測(cè)定葉片光譜數(shù)據(jù)。每個(gè)生育期在每個(gè)處理中采集20 個(gè)樣,因此,5 個(gè)施氮梯度在一個(gè)生育期共采集100個(gè)樣。
棉花葉片含氮量的測(cè)定采用凱氏定氮法,棉花葉片光譜反射率的測(cè)定采用美國(guó)ASD 公司的(FieldS pecHand-hand2)便攜式地物光譜,該儀器測(cè)定波段范圍325~1 075 nm,精度為±1 nm,且分辨率為小于3.0 nm。棉花葉片光譜測(cè)定在10:00—14:00,天氣晴朗、無(wú)風(fēng)或風(fēng)速很小的條件下進(jìn)行量時(shí)傳感器探頭垂直向下,距冠層頂垂直高度約10~15 cm。每次測(cè)定5 條光譜數(shù)據(jù),取5 條光譜曲線的平均值作為每個(gè)樣品的原始光譜數(shù)據(jù)。
為了減少光譜信號(hào)中的噪聲以及消除無(wú)關(guān)影響因素,研究將棉花原始光譜數(shù)據(jù)分別進(jìn)行Savitzky-Golay 濾波平滑(2 階多項(xiàng)式+21 點(diǎn)滑動(dòng)卷積框架)處理[12]、連續(xù)性小波變換和SG 平滑結(jié)合連續(xù)性小波處理,從而選取3種不同預(yù)處理后的數(shù)據(jù)進(jìn)行后續(xù)研究。利用相關(guān)分析法對(duì)樣品光譜數(shù)據(jù)和樣品葉片氮素含量進(jìn)行相關(guān)性驗(yàn)證,并剔除異常樣本,以提高樣品代表性以及建模有效性,采用馬氏距離法和傳統(tǒng)的相關(guān)性分析從300個(gè)樣品中剔除異?;蛳嚓P(guān)性較低的樣本,最終確定79個(gè)有效樣。
小波變換時(shí)采用選擇gaus(Gaussian)4 函數(shù)作為小波基函數(shù)。為了保證分解層數(shù)的合理性,同時(shí)又不會(huì)影響數(shù)據(jù)預(yù)處理的精度,分解尺度設(shè)置為21,22,23,…,210,即對(duì)棉花葉片光譜數(shù)據(jù)進(jìn)行10 個(gè)不同尺度的小波分解,得到變換后10個(gè)尺度的小波系數(shù)[13]。
其變換公式如下:
式(1)、式(2)中:f(t)為棉花葉片光譜數(shù)據(jù);t為光譜波段(350~1 050 nm);Ψa,b(t)為小波基函數(shù);a為尺度因子;b為平移因子。本研究用matlab2020a和Excel2019對(duì)原始光譜進(jìn)行數(shù)據(jù)變換。
本研究從篩選的79 個(gè)樣本中采用KS 算法劃分訓(xùn)練集和驗(yàn)證集。采用BPNN 和RF 建模方法,將選取的敏感波長(zhǎng)對(duì)應(yīng)的不同處理的光譜數(shù)據(jù)作為自變量,棉花葉片氮素含量作為因變量,對(duì)棉花葉片含氮量進(jìn)行估算建模。對(duì)比基于3種不同的光譜數(shù)據(jù)預(yù)處理下兩種模型對(duì)棉花氮素含量的估算效果。BPNN神經(jīng)網(wǎng)絡(luò)的隱藏層神經(jīng)元設(shè)置個(gè)數(shù)為6,迭代次數(shù)設(shè)置為1 000,學(xué)習(xí)率0.01,訓(xùn)練的均方根誤差(root mean square error,RMSE)小于0.001。
隨機(jī)森林(RF)是一種基于多個(gè)決策樹的數(shù)據(jù)挖掘算法,通過(guò)在訓(xùn)練數(shù)據(jù)集中應(yīng)用 bootstrap 方法隨機(jī)抽取樣本構(gòu)建單獨(dú)的樹模型,生成大量的樹后組成隨機(jī)森林,是由Leo Breiman和Adele Cueler在2001年提出的一種基于決策樹模型的機(jī)器學(xué)習(xí)模型,具有運(yùn)算快、精度高等優(yōu)點(diǎn)[14]。隨機(jī)森林模型可以解釋若干自變量(X1,X2,…,XK)對(duì)因變量Y的作用,模型會(huì)在原始的數(shù)據(jù)集中選取n個(gè)觀測(cè)值,并同時(shí)隨機(jī)選取m個(gè)自變量構(gòu)建一棵回歸決策樹[15]。按照以上方法重復(fù)幾十到幾千次,就得到了一組回歸決策子樹{h(x,θ_t),t=1,2,…,T}構(gòu)成的組合模型,這就是隨機(jī)森林模型,其中θt是服從獨(dú)立同分布的隨機(jī)變量,x表示自變量,T代表決策樹的個(gè)數(shù)[15]。最終取這一組回歸決策樹的均值作為模型的回歸預(yù)測(cè)結(jié)果(如公式3所示)。
R2反映的是模型擬合數(shù)據(jù)的準(zhǔn)確程度,也是最常用于評(píng)價(jià)回歸模型優(yōu)劣程度的指標(biāo)。R2越接近1,表明方程的變量對(duì)y的解釋能力越強(qiáng),這個(gè)模型對(duì)數(shù)據(jù)擬合的也較好;R2越接近0,表明模型擬合的越差。RMSE 是用來(lái)衡量觀測(cè)值同真實(shí)值之間的偏差,預(yù)測(cè)值與真實(shí)值相差越大,RMSE 就會(huì)越大。是樣本的標(biāo)準(zhǔn)差與RMSE 的比值,RPD<1.4 認(rèn)為所建模型不可靠;1.4
式中,TN是實(shí)測(cè)棉花葉片氮素含量,TNP是基于棉花葉片氮素含量估測(cè)模型的預(yù)測(cè)值,是實(shí)測(cè)棉花葉片氮素含量的均值,n表示樣本數(shù)量。
為保證建模集和驗(yàn)證集的合理性,本研究采用馬氏距離法、傳統(tǒng)相關(guān)分析法對(duì)棉花蕾期、花期、花鈴期3個(gè)時(shí)期的棉花樣品進(jìn)行剔除異?;蛳嚓P(guān)性較低的樣本,最終保留79個(gè)建模樣品。按照2∶1等差選取建模集與驗(yàn)證集,獲得53個(gè)建模集樣點(diǎn)、26個(gè)驗(yàn)證集樣點(diǎn),并對(duì)建模數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)(表1)
表1 棉花葉片氮素含量統(tǒng)計(jì)描述特征Tab.1 Statistical description characteristics of nitrogen content in cotton leaves
從表1可知建模集和驗(yàn)證集對(duì)應(yīng)的棉花葉片氮素含量最大值分別是44.575 g∕kg和42.060 g∕kg,最小值分別是25.943 g∕kg 和27.649 g∕kg;且本研究篩選后的全樣本的棉花氮素含量均值為35.267 g∕kg,建模集與驗(yàn)證集所對(duì)應(yīng)棉花氮素含量均值分別是35.407 g∕kg和34.982 g∕kg。分布區(qū)間合理,滿足建模要求且模型不會(huì)出現(xiàn)過(guò)擬合的情況。
合理有效篩選特征波段是簡(jiǎn)化模型構(gòu)建,提高模型估算精度的基礎(chǔ),因此在對(duì)棉花葉片反射光譜數(shù)據(jù)進(jìn)行SG、CWT、SG+CWT 預(yù)處理的基礎(chǔ)上提取特征波段十分必要,研究通過(guò)分析不同分解尺度的相關(guān)性熱圖,分別選定CWT 和SG+CWT 處理下的最優(yōu)分解尺度,之后采用傳統(tǒng)相關(guān)分析法,選取相關(guān)性較高的波長(zhǎng)。
2.2.1 不同預(yù)處理的光譜曲線特征分析 對(duì)于預(yù)處理性能的評(píng)判,主要的標(biāo)準(zhǔn)是比較預(yù)處理后的光譜曲線與原始光譜圖的變化。研究利用不同預(yù)處理的光譜數(shù)據(jù)在origin2021 中做繪制光譜曲線圖,如圖1所示。
圖1 不同預(yù)處理下光譜曲線變化Fig.1 Spectral curve change under different pretreatment
圖1 分析可知原始光譜數(shù)據(jù)經(jīng)過(guò)SG 平滑處理后光譜曲線與原始光譜曲線波形基本一致,區(qū)別在于經(jīng)過(guò)SG平滑處理的光譜曲線去除了局部的小毛刺,其光譜曲線顯得較為平滑。在波段350~670 nm內(nèi)有明顯的吸收谷與反射峰,光譜波形呈現(xiàn)先增高后降低的趨勢(shì),在550 nm 附近形成較為明顯的反射小高峰。此結(jié)論同李宗飛等[17]對(duì)滴灌甜菜葉綠素含量估算模型,表現(xiàn)為“根號(hào)”走勢(shì),在可見(jiàn)光波段反射率低,近紅外波段反射率高,主要集中在420~780 nm 和920~1 100 nm。對(duì)于CWT和SG+CWT 處理,在光譜曲線波形上與原始光譜相比表現(xiàn)出明顯的變化,波段反射光譜曲線的波谷與波峰也更加深一些,形態(tài)明顯。原始光譜經(jīng)連續(xù)小波分解后,1~10尺度的棉花葉片光譜曲線特征也逐漸減弱;1~7尺度的波譜曲線與R 相比起伏較大,并整體的曲線形態(tài)相似,8~9 尺度曲線光滑,形狀呈拋物線狀,10 尺度曲線逐漸增大有小鋸齒出現(xiàn)構(gòu)成且呈弧形。綜上所述,棉花葉片光譜反射率經(jīng)過(guò)SG、CWT、SG+CWT 處理后可以有效突出棉花葉片光譜特征,尤其是SG+CWT預(yù)處理局部光譜吸收特征更加顯著。
2.2.2 不同預(yù)處理下光譜數(shù)據(jù)與棉花葉片氮素含量相關(guān)性分析 不同形式光譜變換在降低作物反射光譜背景噪聲同時(shí)可增強(qiáng)其固有波譜特征,提高光譜反演作物生理生化參數(shù)潛力,因此需要在模型構(gòu)建之前對(duì)原始光譜進(jìn)行預(yù)處理[18]。在以往的研究中一般是在結(jié)合光譜指數(shù)的基礎(chǔ)上SG平滑和小波變換分開(kāi)進(jìn)行光譜預(yù)處理,或者進(jìn)行導(dǎo)數(shù)變換等。為了更深層次的定量化棉花葉片氮素含量的光譜響應(yīng)范圍,同時(shí)有助于篩選特征波段,研究采用SG+CWT 組合的方式,并對(duì)3 種不同光譜預(yù)處理后的棉花葉片光譜數(shù)據(jù)與棉花葉片氮素含量進(jìn)行了相關(guān)性分析。
圖3、4顯示,棉花葉片光譜應(yīng)用連續(xù)小波變換后,反射光譜被分解為多個(gè)尺度分量,且尺度分量與棉花葉片反射光譜具有相同的長(zhǎng)度,小波變換后光譜數(shù)據(jù)由波長(zhǎng)和尺度函數(shù)的小波特征組成,隨著分解尺度的增加,相關(guān)性先是上升,最后到達(dá)最優(yōu)分解尺度時(shí),趨于穩(wěn)定,這說(shuō)明經(jīng)CWT 和SG+CWT 處理后大幅提升了棉花光譜信息對(duì)棉花葉片氮素含量的敏感性。分析圖5,CWT、SG+CWT 與SG 處理方式相比,在提高光譜數(shù)據(jù)與棉花葉片氮素含量相關(guān)性方面都發(fā)揮了一定作用,但前兩者相比較而言,采用SG+CWT光譜數(shù)據(jù)預(yù)處理,更明顯提高了與棉花葉片氮素含量的相關(guān)性。因此采用SG+CWT,挖掘光譜信號(hào)中的相關(guān)性高的特征波段效果最佳。從圖2~5可知,經(jīng)過(guò)不同方式的預(yù)處理之后,SG處理后在一定程度上消除高頻隨機(jī)誤差,提高了信噪比,相關(guān)性得到很大提高,且與棉花葉片氮素相關(guān)系數(shù)較高的區(qū)域多集中在可見(jiàn)光范圍內(nèi),基本范圍控制在430~780 nm 波段內(nèi)。相比SG 處理,CWT 和SG+CWT 預(yù)處理下棉花葉片光譜數(shù)據(jù)與棉花氮素含量的相關(guān)性均有了一定提高,這說(shuō)明在反射光譜中表征棉花葉片氮含量的吸收方面,高光譜進(jìn)行CWT 后,多尺度表征棉花葉片氮素含量變化,引起的整體反射率振幅和局部光譜形狀的變化,使得小波特征優(yōu)于SG 平滑的數(shù)據(jù)。目前,前人研究中還未出現(xiàn)將CWT 和SG 平滑共同使用下棉花葉片氮素光譜響應(yīng)特征,以監(jiān)測(cè)棉花葉片和氮相關(guān)的吸收特性。研究探究結(jié)合兩種方式的優(yōu)勢(shì),采用SG+CWT 方式處理后光譜數(shù)據(jù)棉花氮素含量的相關(guān)性也逐步增高,趨勢(shì)向近紅外光830~1 050 nm 波段范圍擴(kuò)散,且保持著較高的相關(guān)性,說(shuō)明棉花光譜數(shù)據(jù)經(jīng)過(guò)SG+連續(xù)小波變換之后,對(duì)于深層次放大、挖掘光譜信息有著顯著的作用。
圖3 CWT處理不同分解尺度的相關(guān)性Fig.3 CWT deals with the correlation of different decomposition scales
圖4 SG+CWT下不同分解尺度的相關(guān)性Fig.4 Correlation of different decomposition scales under SG+CWT
圖5 不同處理方式與R的相關(guān)性比較Fig.5 Correlation comparison between different processing methods and R
2.2.3 篩選特征波段 篩選特征波段可以剔除無(wú)關(guān)變量和非線性變量,簡(jiǎn)化模型,提高模型預(yù)測(cè)精確度和穩(wěn)健性。研究對(duì)數(shù)據(jù)進(jìn)行3 種不同預(yù)處理。由此,將一維棉花高光譜反射率數(shù)據(jù)進(jìn)行線性變換,得到二維小波系數(shù)。選取基于連續(xù)小波處理的最優(yōu)分解尺度下的小波系數(shù)與棉花葉片氮素含量進(jìn)行相關(guān)性分析,得到相關(guān)系數(shù)矩陣。經(jīng)過(guò)典型相關(guān)性分析,篩選出最優(yōu)的尺度變換,從而得到變換的光譜數(shù)據(jù)。分析了每種處理后光譜數(shù)據(jù)與棉花葉片氮含量的相關(guān)性,選取R2>0.5 的波段再通過(guò)方差膨脹因子(variance inflation factor),檢驗(yàn)共線性,進(jìn)而篩選敏感波段。如表2所示。
表2 不同處理方式下樣本篩選的特征波長(zhǎng)Tab.2 Characteristic wavelength of sample screening under different processing modes
根據(jù)表2 分析可知:3 種處理下篩選的特征波長(zhǎng)數(shù)量分別為9 個(gè)、6 個(gè)、7 個(gè),且波長(zhǎng)分布區(qū)間多集中于可見(jiàn)光和近紅外光范圍內(nèi)。
根據(jù)2.2 的不同處理的特征波段的篩選,以相關(guān)性和方差膨脹因子選取的敏感波段和3 種不同處理后的光譜數(shù)據(jù),采用BPNN和RF兩種算法建立模型。
分析表3可知SG處理下的兩種建模RPD值均小于1.4,該處理下的模型不具備估算棉花葉片氮素含量;CWT 處理下的BPNN 和RF 建模集的RPD 分別為1.413 和1.661,但相對(duì)應(yīng)的驗(yàn)證集的RPD 值也均小于1.4,因此該處理下的兩種算法建模不具備好的反演能力;SG+CWT 處理下基于BPNN 和RF 的建模集RPD 值分別為1.572 和2.084,驗(yàn)證集的RPD 值分別為:1.647 和1.759,此處理下的模型均可以精準(zhǔn)、穩(wěn)定的估算棉花葉片氮素含量。
表3 基于不同處理的棉花葉片氮含量與光譜的模型表現(xiàn)Tab.3 Model performance of nitrogen content and spectrum of cotton leaves based on different treatments
如圖6 和圖7 所示,將SG+CWT 預(yù)處理的兩種模型的建模集和驗(yàn)證集分別進(jìn)行線性擬合和1∶1 線性分析,可以明顯的觀察出,相比BPNN 模型,RF 模型的訓(xùn)練集擬合回歸線y1 和驗(yàn)證集的擬合回歸線y2 偏移1∶1 擬合線幅度較小,且實(shí)測(cè)值樣點(diǎn)和預(yù)測(cè)值樣點(diǎn)基本均分在1∶1 線附件,模型精度較高,能夠更好地對(duì)棉花氮素含量進(jìn)行估算。同時(shí)發(fā)現(xiàn)RF 模型在建模集和驗(yàn)證集的R2均大于BPNN 模型,且基于RF 建模的RMSE 在建模集和驗(yàn)證集中均小于BPNN 建模。體現(xiàn)出最大的R2,最小的RMSE,以及最優(yōu)的建模效果。結(jié)果表明基于SG 平滑結(jié)合連續(xù)小波變換處理下構(gòu)建RF 模型是估算棉花氮素含量最優(yōu)的方式。
圖6 SG+CWT下RF建模線性擬合分析Fig.6 Linear fitting analysis of RF modeling under SG+CWT
圖7 SG+CWT下BPNN建模線性擬合分析Fig.7 Linear fitting analysis of BPNN modeling under SG+CWT
作物光譜監(jiān)測(cè)中,ASD 光譜儀監(jiān)測(cè)數(shù)據(jù)與遙感監(jiān)測(cè)數(shù)據(jù)存在一定差異。首先獲取的波段范圍不同:ASD 野外光譜儀的波長(zhǎng)觀測(cè)范圍為325~1 075 nm,且最小單位級(jí)為nm 級(jí),包含常用于監(jiān)測(cè)作物研究的可見(jiàn)光和近紅外波段。遙感影像因不同傳感器,所探測(cè)波段的數(shù)量、波段的范圍以及中心波長(zhǎng)會(huì)有所不同[19],如彭繼達(dá)等[20]采用的Landsat 9衛(wèi)星特征影像,含Landsat 9搭載OLI-2和TIRS-2傳感器,其中OLI-2包含9個(gè)波段,波譜橫跨可見(jiàn)光、近紅外和中紅,TIRS-2包含2個(gè)熱紅外波段;其次獲取方式差異:ASD需要將鏡頭移到測(cè)量目標(biāo)上獲取的高光譜數(shù)據(jù),遙感影像是在不與地球表面接觸的情況下收集地球表面數(shù)據(jù)的過(guò)程,是大氣層與目標(biāo)相互作用的照明或能源,從目標(biāo)發(fā)射或散射的電磁能被衛(wèi)星傳感器收集和記錄,并以電子數(shù)據(jù)形式被處理成圖像[21];數(shù)據(jù)處理方式也有所不同,ASD獲取的高光譜數(shù)據(jù)預(yù)處理是對(duì)原始光譜進(jìn)行平滑去噪、光譜變換等預(yù)處理,如喬星星等[12]探究SG平滑處理對(duì)冬小麥地上干生物量光譜監(jiān)測(cè)的影響中發(fā)現(xiàn),光譜SG 平滑處理在一定程度上可以提高AGDB 與預(yù)處理光譜的相關(guān)性。韋任等[22]通過(guò)預(yù)處理之后使用連續(xù)統(tǒng)去除法、一階微分法、二階微分法提高了煤巖模型的識(shí)別率。遙感影像圖像預(yù)處理是對(duì)原始圖像數(shù)據(jù)中存在的輻射失真、大氣失真和幾何失真進(jìn)行校正的初始處理[21],張亦然等[23]對(duì)獲取的無(wú)人機(jī)影像、Worldview-2 多光譜遙感影像、Landsat 8 OLI 多光譜遙感影像,進(jìn)行校正后提取光譜反射率。就模型估算而言,ASD 高光譜數(shù)據(jù)和遙感影像解譯的樣點(diǎn)波段信息均能通過(guò)多種方式去噪、也可以建立植被指數(shù)、進(jìn)行波段差值、波段比值等方式進(jìn)行組合波段提高與監(jiān)測(cè)指標(biāo)的相關(guān)性。蘇維等[24]對(duì)從高光譜影像中獲取的光譜曲線進(jìn)行Savitzky-Golay 平滑法、多元散射校正、一階求導(dǎo)和正態(tài)變量標(biāo)準(zhǔn)化4種光譜預(yù)處理方法去燥,提高模型精度。時(shí)對(duì)光譜數(shù)據(jù)預(yù)處理和最優(yōu)模型的探索,進(jìn)一步保證了遙感監(jiān)測(cè)作物的準(zhǔn)確性,從而提高模型的應(yīng)用途徑,研究通過(guò)對(duì)高光譜數(shù)據(jù)的預(yù)處理結(jié)合兩種建模方法對(duì)ASD 光譜儀測(cè)定的高光譜監(jiān)測(cè)棉花氮素含量的探究,為光譜監(jiān)測(cè)棉花氮素營(yíng)養(yǎng)診斷及棉田的精確施肥管理提供了必要的技術(shù)支撐。
利用ASD光譜儀獲取棉花葉片光譜信號(hào)往往會(huì)受雜散光、噪聲等外界因素的干擾,從而影響棉花氮素含量的估算。研究采用SG、CWT、SG+CWT 3 種光譜預(yù)處理方法,結(jié)合BPNN 與RF 兩種算法構(gòu)建模型估算棉花氮素含量。SG 平滑是光譜數(shù)據(jù)預(yù)處理中最基礎(chǔ)的方法,研究中SG 平滑處理的模型精度最低,分析原因可能為SG 平滑去除噪聲有限,難以明顯的改變光譜曲線的趨勢(shì)和反射率的值,光譜潛在信息沒(méi)有被更好的挖掘,從而導(dǎo)致建模效果不是很理想。CWT 作為一種常用的光譜預(yù)處理方法,與SG 平滑相比能夠更好地挖掘光譜信息。目前學(xué)者們通過(guò)研究證明經(jīng)連續(xù)小波預(yù)處理的光譜數(shù)據(jù)在模型反演方面提高了精度。郭斌等[25]對(duì)反射光譜進(jìn)行連續(xù)小波變換預(yù)測(cè)土壤鋅含量,發(fā)現(xiàn)變換的光譜數(shù)據(jù)反演能力更強(qiáng)。安柏聳等[26]構(gòu)建土壤重金屬鎘含量估測(cè)模型,結(jié)合數(shù)學(xué)變換的連續(xù)小波分解技術(shù)有效提取土壤中的潛在信息。何汝艷等[27]聯(lián)合應(yīng)用CWT 與SVM 方法對(duì)條銹病脅迫下冬小麥LTN 含量進(jìn)行反演,且具有較高的估測(cè)精度。與眾多學(xué)者研究結(jié)果相符,研究中經(jīng)過(guò)CWT 預(yù)處理的光譜數(shù)據(jù)構(gòu)建的兩種算法模型,精度上都有所提高。模型預(yù)測(cè)能力也在不斷提升。與前人研究所不同的是本研究繼兩種預(yù)處理方式的基礎(chǔ)上,采用SG 平滑與CWT 相結(jié)合的方式進(jìn)行光譜數(shù)據(jù)預(yù)處理。相比SG 和CWT,SG+CWT 變換后得到的模型,精度得到很大程度的提升。BPNN 模型中驗(yàn)證集相比SG 和CWT 分別提高了0.127、0.24;RF 模型中相比SG 和CWT 分別提高了0.235、0.223,且此處理下,模型均具備預(yù)測(cè)棉花氮素含量的能力。
在構(gòu)建棉花葉片氮素含量估算模型時(shí),基于3 種不同處理下RF 算法的模型精度要優(yōu)于BPNN。因精度驗(yàn)證要綜合考慮,基于SG和CWT處理下的模型RPD 小于1.4,模型沒(méi)有很好的預(yù)估能力。SG+CWT處理分析,RF模型驗(yàn)證集中棉花氮素含量預(yù)測(cè)值與棉花氮素含量實(shí)測(cè)值間的R2為0.813比BPNN提高了3.8%;RMSE 減少了4.8%;RPD 提高了6.8%,RF 的預(yù)測(cè)精度要優(yōu)于BPNN 神經(jīng)網(wǎng)絡(luò)。這與競(jìng)霞等[28]利用隨機(jī)森林法協(xié)同SIF和反射率光譜監(jiān)測(cè)小麥條銹病研究結(jié)果相一致。分析來(lái)看,可能是因?yàn)殡S機(jī)森林模型在數(shù)據(jù)處理能力方面具有集成學(xué)習(xí)的特點(diǎn),從而能夠提高模型的精度。針對(duì)RF與BPNN算法的比較,與研究結(jié)果不符的觀點(diǎn)在少數(shù)領(lǐng)域發(fā)現(xiàn),Zhao 等[29]采用兩種模型建立了大學(xué)畢業(yè)生就業(yè)保持率的預(yù)測(cè)模型。結(jié)果表明,BP 神經(jīng)網(wǎng)絡(luò)模型在預(yù)測(cè)精度上優(yōu)于隨機(jī)森林模型。究其原因,神經(jīng)網(wǎng)絡(luò)對(duì)于不確定因素的復(fù)雜系統(tǒng)預(yù)測(cè)效果較好,存在為了目標(biāo)而創(chuàng)建預(yù)測(cè)模型,不考慮變量的影響。而隨機(jī)森林可以提供決策樹的不同解釋,并且具有更好的性能。Zhao等[29]目標(biāo)是創(chuàng)建大學(xué)畢業(yè)生就業(yè)保持率預(yù)測(cè)模型,與研究的方向和模型目標(biāo)有所不同,則可能會(huì)出現(xiàn)BPNN優(yōu)于RF的結(jié)果。在絕大多數(shù)研究領(lǐng)域表明RF模型優(yōu)于BPNN。郭斌等[25]對(duì)露天煤礦土壤鋅含量高光譜遙感反演;崔小濤等[30]基于多元線性逐步回歸遺傳算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)模型為準(zhǔn)確、快速估算油菜葉片SPAD 值反演方法。張孟庫(kù)等[31]對(duì)落葉松樹皮厚度預(yù)測(cè);王曉燕等[32]對(duì)農(nóng)業(yè)干旱監(jiān)測(cè)比較;張亦然等[23]對(duì)科爾沁沙地植被覆蓋度反演發(fā)現(xiàn)在準(zhǔn)確度方面RF表現(xiàn)出色。這說(shuō)明本研究的發(fā)現(xiàn)基于SG+CWT 處理構(gòu)建的RF算法估算模型精度高于同種處理的BPNN模型,具有較強(qiáng)的普適性。
從特征波段的篩選和相關(guān)性熱圖分析,研究發(fā)現(xiàn)棉花氮素含量的敏感波段集中分布在可見(jiàn)光和近紅外區(qū)域。這與前人的研究結(jié)果相似,如:易翔等[33]研究發(fā)現(xiàn)利用無(wú)人機(jī)高光譜技術(shù)監(jiān)測(cè)棉花生物量,棉花AGB敏感波段集中在可見(jiàn)光和近紅外區(qū)域,且受生物量影響,可以建立定量關(guān)系;Boegh等[34]研究了8 種不同作物的冠層氮濃度與影像數(shù)據(jù)的關(guān)系,結(jié)果表明,紅邊位置與作物的氮濃度具有顯著的線性相關(guān)關(guān)系;田永超等[35]在對(duì)反射光譜對(duì)作物氮素營(yíng)養(yǎng)的響應(yīng)中發(fā)現(xiàn),在可見(jiàn)光、紅光和綠光范圍內(nèi)作物氮素響應(yīng)均比較敏感。研究這一發(fā)現(xiàn)也提高了研究結(jié)果的真實(shí)性。研究的模型只能適用于基于SG 平滑結(jié)合連續(xù)小波的光譜數(shù)據(jù)預(yù)處理方式,估算其他預(yù)處理下的模型具有局限性;在構(gòu)建棉花氮素估算模型時(shí),僅是分析對(duì)比了BPNN和RF兩種機(jī)器學(xué)習(xí)算法,在后期研究中若使用更多的模型算法參與棉花氮素模型的構(gòu)建,RF 模型是否更能精準(zhǔn)的估算棉花氮素,還需要進(jìn)入更深入的研究。研究未開(kāi)展大范圍的農(nóng)田試驗(yàn),研究存在忽略了一些可能存在因素的影響,估算精度有待提高。
采用3種不同的棉花光譜數(shù)據(jù)預(yù)處理,構(gòu)建2種機(jī)器學(xué)習(xí)算法模型,并驗(yàn)證了模型精度,最終篩選出最優(yōu)光譜數(shù)據(jù)預(yù)處理方式和光譜參數(shù)下的最佳模型。比較了在不同預(yù)處理下的模型表現(xiàn),主要得出結(jié)論如下:
(1)從光譜曲線特征、棉花氮素含量與光譜數(shù)據(jù)相關(guān)性、建模結(jié)果3方面分析,利用SG平滑和連續(xù)小波結(jié)合進(jìn)行光譜數(shù)據(jù)預(yù)處理,是最優(yōu)的光譜數(shù)據(jù)處理方式。SG 平滑與連續(xù)小波變換的結(jié)合優(yōu)于傳統(tǒng)方法,相比較連續(xù)小波變換處理,較好地提升了棉花光譜與棉花葉片氮素含量的相關(guān)性,此處理方式能夠深入挖掘棉花葉片光譜信息,提升棉花葉片光譜對(duì)棉花葉片氮素含量的敏感性。
(2)2 種機(jī)器學(xué)習(xí)算法構(gòu)建的模型均滿足精度驗(yàn)證要求,且模型是有效的。均可用于估算SG+CWT處理下小范圍棉花的氮素含量?;趦煞N建模方法的比較,RF 模型驗(yàn)證集中棉花氮素含量預(yù)測(cè)值與棉花氮素含量實(shí)測(cè)值間的R2為0.813 比BPNN 提高了3.8%;RMSE 減少了4.8%;RPD 提高了6.8%,RF 的預(yù)測(cè)精度要優(yōu)于BP神經(jīng)網(wǎng)絡(luò)。
(3)基于不同光譜數(shù)據(jù)預(yù)處理和2種不同建模方法分析,基于SG平滑結(jié)合連續(xù)小波變換處理下構(gòu)建RF模型是估算棉花氮素含量最優(yōu)的方式。
致謝:新疆維吾爾自治區(qū)研究生科研創(chuàng)新項(xiàng)目(XJ2022G243)同時(shí)對(duì)本研究給予了資助,謹(jǐn)致謝意!