競 霞, 張 杰,, 王嬌嬌, 明世康, 傅友強, 馮海寬, 宋曉宇*
1. 西安科技大學測繪科學與技術學院, 陜西 西安 710054
2. 北京市農林科學院信息技術研究中心, 北京 100094
3. 廣東省農業(yè)科學院水稻研究所, 廣東 廣州 510640
水稻是我國種植面積最大、 覆蓋范圍最廣的糧食作物。 獲取高產、 高品質的水稻是我國實施精準農業(yè)的新要求[1]。 基于高光譜信息的作物生長參數(shù)監(jiān)測, 是農業(yè)遙感的研究熱點。 建立水稻收獲前的產量監(jiān)測模型, 是精準制定田間管理措施、 快速評估水稻產量的可靠依據(jù)[2]。
大量學者已利用高光譜遙感對水稻等作物產量預測進行了深入研究[3]。 薛利紅等在實測水稻高光譜反射率的基礎上, 構建了基于光譜植被指數(shù)-葉面積氮指數(shù)的復合水稻產量估測模型, 取得了較好的估測精度[4]。 宋紅燕等發(fā)現(xiàn)水稻植株氮含量的敏感波段是552和890 nm, 并基于氮素敏感波段構建了比值植被指數(shù)(ratio vegetation index, RVI)和綠色歸一化植被指數(shù)(green normalized vegetation index, GNDVI), 依此構建的產量監(jiān)測模型決定系數(shù)(R2)達到0.724[5]。 Kawamura等使用迭代逐步消除偏最小二乘法(iterative stepwise elimination partial least squares, ISE-PLS)對400~930 nm之間的波段進行逐步消除選擇產量預測敏感波段, 建立水稻收獲前產量估算模型, 模型最大決定系數(shù)為0.873, 認為水稻孕穗期為最佳估算時期[6]。 馮偉等對水稻葉片氮素參數(shù)、 冠層光譜等參數(shù)進行多時期相關性分析, 認為灌漿前期葉片氮素積累量和葉面積氮指數(shù)能夠反映水稻籽粒產量狀況, 實驗結果表明利用水稻灌漿前期特征光譜參數(shù)和拔節(jié)—成熟期特征光譜指數(shù)的累積值能夠穩(wěn)定預報水稻成熟期籽粒產量[7]。 目前關于高光譜數(shù)據(jù)的研究大多通過相關性分析等方法實現(xiàn)對數(shù)據(jù)的特征降維, 去除高光譜數(shù)據(jù)中的冗余信息, 以較少的特征參數(shù)參與模型的構建, 在降低模型構建難度的同時, 可能會丟失部分有效信息。 而機器學習模型具備強大的處理高維數(shù)據(jù)與冗余數(shù)據(jù)的能力, 能夠有效抵抗高維數(shù)據(jù)中存在的噪聲, 基于更高效益的數(shù)學方法與數(shù)據(jù)處理方式實現(xiàn)對數(shù)據(jù)中有效信息的提取[8-9]。 Bao等在小麥品種的快速分類模型的構建中, 使用連續(xù)投影算法(successive projections algorithm, SPA)、 主成分分析算法(principal component analysis, PCA)和隨機蛙跳(random frog, RF)三種特征提取方法, 從數(shù)百個光譜波段中篩選可用于建立分類模型的光譜變量, 使用線性判別分析(linear discriminant analysis, LDA)支持向量機(support vector machine, SVM)、 極限學習機(extreme learning machine, ELM)三種機器學習算法分別以全波段和經過特征篩選的波段作為輸入變量進行小麥品種分類模型構建, 以全波段作為輸入變量的ELM算法分類精度最優(yōu)[10]。
水稻生長過程中, 植株本身在生長過程中水分供應、 光熱吸收、 土壤養(yǎng)分固定等都會影響水稻的產量[11]。 本文根據(jù)前人研究, 選擇水稻分化期與抽穗期冠層全波段光譜數(shù)據(jù), 篩選與產量相關的植株地上生物量、 葉面積指數(shù), 土壤養(yǎng)分參數(shù)等影響因子, 利用貝葉斯嶺回歸(Bayesian ridge regression, BRR)、 支持向量回歸(support vector regression, SVR)、 偏最小二乘回歸(partial least square regression, PLSR), 分別構建: (1)基于全波段光譜信息的產量監(jiān)測模型; (2)基于全波段光譜信息協(xié)同長勢參數(shù)的產量監(jiān)測模型; (3)基于全波段光譜信息協(xié)同長勢參數(shù)、 作物養(yǎng)分吸收量的產量監(jiān)測模型。 探索不同算法在不同的輸入參數(shù)下的適應性, 篩選最優(yōu)變量因子, 為水稻產量遙感監(jiān)測提供依據(jù)。
2019年—2020年在廣東省廣州市白云區(qū)鐘落潭試驗基地(23°23′24″N—23°23′59″N, 113°25′48″E—113°26′24″E)開展水稻變量施肥的小區(qū)實驗。 試驗基地內, 2019年的試驗品種為美香占2號(V1), 插秧時間2019年8月8日, 插秧密度為20 cm×20 cm。 共設計15個小區(qū)采樣測試; 每個小區(qū)插秧規(guī)格為16穴×16穴。 2020年的試驗品種為美香占2號(V1)和五豐優(yōu)615(V2), 插秧時間為2020年8月8日, 共30個小區(qū), 插秧密度為20 cm×20 cm, 根據(jù)插秧規(guī)格, 每個小區(qū)16穴×20穴。
2019年及2020年試驗共設計5個氮素水平(N0, N1, N2, N3, N4), 分別為0, 60, 120, 180和240 kg N·ha-1, 設3次重復; 其中基肥、 分蘗肥、 穗肥的施用比例為5∶2∶3; 磷、 鉀肥用量分別為54和144 kg·ha-1。
2019年和2020年分別于分化期(2019-09-13, 2020-09-10)和抽穗期(2019-10-11, 2020-10-09)進行水稻地上生物量(above ground biomass, AGB)、 葉面積指數(shù)(LAI)、 土壤營養(yǎng)參數(shù)及其他水稻品質相關數(shù)據(jù)的田間采集, 其中2019年每時期獲取15個樣本, 2020年每時期獲取30個樣本。 數(shù)據(jù)獲取情況見表1。
表1 試驗數(shù)據(jù)獲取
水稻冠層高光譜數(shù)據(jù)采集使用美國ASD Filed Spec Pro 2500背掛式野外光譜儀, 光譜范圍為350~2 500 nm。 根據(jù)前人的研究, 作物光譜的可見光與近紅外范圍已能夠反映作物的生長狀況, 因此本次實驗采用454~950 nm的冠層光譜數(shù)據(jù), 重采樣后間隔為4 nm[12-13]。 測量時間為北京時間10:00—14:00, 期間天氣晴朗, 在每一個采樣點測量前后均用標準白板對冠層輻亮度數(shù)據(jù)進行校正。 探頭距離冠層高度約1 m, 垂直向下, 探頭角度為25°; 每個采樣點取10次測量平均值作為該樣方的冠層輻亮度值。 同一年的試驗中, 記錄采樣點的位置, 保證不同生育期同一小區(qū)在相同位置采集數(shù)據(jù)。 對測定的冠層輻亮度和白板輻亮度利用式(1)計算目標的光譜反射率。
(1)
式(1)中,R為冠層反射率,Ltarget為冠層輻亮度(μW·cm-2·nm-1·sr-1),Lboard為白板輻亮度(μW·cm-2·nm-1·sr-1),Rboard為白板反射率。
測量光譜后, 在小區(qū)內隨機選擇6穴水稻植株樣本, 去根并逐叢計數(shù)莖蘗數(shù), 分化期莖葉分離, 抽穗期將莖葉和穗分離, 測定葉面積2 000 cm2(S)左右, 將其烘干后記錄重量(w1), 余葉也一并烘干稱重(w2), 利用以式(2)計算葉面積指數(shù)(LAI)
(2)
式(2)中,γ為取樣植株樣品穴數(shù),D為種植密度, 由小區(qū)內水稻種植穴數(shù)除以小區(qū)面積得到。
根據(jù)采樣點種植密度和水稻樣本的干重計算單位面積植株的地上生物量(above ground biomass, AGB, g·m-2), 計算公式如式(3)
(3)
式(3)中,WL,WS和WE分別為水稻測試樣本葉片、 莖、 穗的干重(g),γ為取樣植株樣品穴數(shù),D為種植密度。
2020年水稻抽穗期(2020年10月10日)及收獲后(2020年11月25日)分別于不同氮肥處理小區(qū)獲取田間0~20 cm土樣, 測試土壤理化性質, 根據(jù)2020年試驗小區(qū)施肥量、 土壤殘留養(yǎng)分含量計算了不同小區(qū)作物可吸收養(yǎng)分量, 如式(4)所示
作物氮(磷、 鉀)肥養(yǎng)分吸收量=施肥氮(磷、 鉀)肥養(yǎng)分總量-土壤氮(磷、 鉀)養(yǎng)分殘留量
(4)
其中施肥養(yǎng)分量由試驗中所施用氮、 磷、 鉀肥料中有效養(yǎng)分含量百分比折算, 本試驗中氮肥尿素中N含量46%, 鉀肥氧化鉀中K含量60%, 磷肥磷酸鈣中P含量12%; 土壤養(yǎng)分殘留量由土壤養(yǎng)分測試指標與耕層土質量相乘得到, 本研究中耕層土質量按照耕層厚度20 cm計算, 研究中未考慮肥料揮發(fā)及淋濾損失量。
于成熟期逐小區(qū)實收125叢稻株(5 m2)測產, 將稻谷風干, 取100 g左右于105 ℃下烘干48 h, 測定含水量, 然后將稻谷轉換成含水量為14%的稻谷產量。
偏最小二乘回歸(partial least square regression, PLSR)通過最小化誤差的平方和, 尋找一組新的潛在變量來解釋自變量X與因變量Y之間的統(tǒng)計關系, 并且可以在建模過程中實現(xiàn)對數(shù)據(jù)的主成分分析、 典型相關性分析和回歸分析, 是一種常見的對數(shù)據(jù)進行降維處理、 解決數(shù)據(jù)多重共線性問題、 簡化建模過程的線性回歸方式[14-15]。 貝葉斯嶺回歸(Bayesian ridge regression, BRR)是基于貝葉斯方法與最小二乘法的改進而提出的, 通過對線性貝葉斯回歸模型加入L2正則化, 結合相關參數(shù)的先驗信息形成先驗分布并給出預估數(shù)值[16]。 支持向量回歸(support vector regression, SVR)的基本思想是通過尋找最優(yōu)劃分超平面, 忽略小于偏差ε的的樣本, 對其他樣本進行回歸; 偏差ε的引入是SVR區(qū)別于傳統(tǒng)回歸模型的地方, 即以預測y值為中心, 與真實y值之間存在一個寬度為2ε的區(qū)域, 在此區(qū)域內, 預測y值與真實y值的差別認為是0。 其回歸模型為f(x)=wTx+b,w和b為模型待確定參數(shù)[17]。 它能夠較好的完成自變量與因變量之間的非線性回歸。
利用PLSR, BRR和SVR三種算法構建水稻產量估算模型時, 采用k-fold交叉驗證方法進行建模, 即將樣本集隨機分為k組子數(shù)據(jù)集, 輪流使用其中的k-1份子數(shù)據(jù)集建模, 另一份作為驗證,k次建模后的均值為模型的精度。 采用決定系數(shù)(R2)和歸一化均方根誤差(normalized root mean square error, NRMSE)兩個指標聯(lián)合驗證模型預測精度,R2越大, 代表模型擬合度更高, NRMSE越小, 模型穩(wěn)定性越好, NRMSE<10%表示模型具有較好的穩(wěn)定性。
2.1.1 水稻產量與不同生育期AGB、 LAI的相關性分析
2019年與2020年合并后的水稻產量與AGB和LAI進行相關性分析可知, AGB, LAI與產量在分化期相關系數(shù)分別為0.809和0.678, 抽穗期AGB和LAI與產量的相關性則是有所下降, 分別為0.635, 0.590, 但都達到了0.001水平顯著(r(0.001)=0.474,n=45)。 2020年水稻產量與AGB、 LAI進行相關性分析, 分化期與抽穗期所有長勢參量均達到了0.001水平顯著(r(0.001)=0.570,n=30), 兩時期比較, 分化期相關系數(shù)高于抽穗期, AGB、 LAI與產量在分化期相關系數(shù)分別為0.596和0.839, 抽穗期相關系數(shù)分別為0.586, 0.696。 同時, LAI與AGB同樣具有較高的相關性, LAI代表葉片尺度植株的生理狀態(tài), AGB可表示植株地上部分整體的發(fā)育狀況; 由于水稻產量的形成是一個動態(tài)且復雜的生物學過程, 在同一生育時期, 不同的長勢參數(shù)可能對水稻的產量形成具備不同的作用機理, 故建模過程中同時加入AGB和LAI兩個長勢參量探究其對產量形成的影響。
2.1.2 水稻產量作物養(yǎng)分吸收量的相關性分析
于2020年10月10日, 水稻分化肥施用1個月之后, 以及11月23日, 水稻成熟收獲后, 分別采集不同氮肥處理小區(qū)土壤數(shù)據(jù), 進行土壤養(yǎng)分測試, 獲取小區(qū)土壤堿解氮(mg·kg-1)、 速效鉀(mg·kg-1)及有效磷(mg·kg-1)含量數(shù)據(jù)。 根據(jù)小區(qū)施肥量數(shù)據(jù)及土壤養(yǎng)分殘留含量數(shù)據(jù), 分別計算了作物養(yǎng)分吸收量, 并分析了水稻抽穗期及成熟期養(yǎng)分吸收量與AGC、 LAI及產量的相關關系, 結果如表2所示。
表2 2020年AGB、 LAI及產量與作物養(yǎng)分吸收量的相關性(n=30)
抽穗期作物養(yǎng)分吸收量與產量的相關系數(shù)分別為0.713, -0.086和0.526; 成熟期作物養(yǎng)分吸收量與產量的相關系數(shù)分別為0.723, -0.242和0.402, 其中兩時期作物吸收N與作物吸收K和產量具有較好的相關性, 作物吸收P則與產量線性關系不顯著, 但不能排除是否存在其他關系; 分化期與抽穗期的AGB、 LAI和兩時期作物吸收N均達到了極顯著相關, 最大相關系數(shù)為0.818。 由于成熟期作物吸收N, P和K量在水稻成熟后才可獲取, 難以實現(xiàn)水稻產量早期監(jiān)測, 故模型中土壤養(yǎng)分參數(shù)僅使用至抽穗期作物吸收N, P和K量。
2.1.3 冠層光譜與水稻長勢參數(shù)的相關性分析
如圖1、 圖2所示, 對水稻分化期與抽穗期冠層光譜與長勢參數(shù)進行相關性分析, 2019年與2020年所有長勢參數(shù)在兩生育期相關系數(shù)有所不同, 但均具有相似的變化趨勢, 近紅外部分均保持在某一值持平, 整體變化幅度很小且以正相關為主, 可見光部分則以負相關為主。 所有長勢參數(shù)在550 nm附近出現(xiàn)相關性“低谷”, 相關系數(shù)低于其他可見光部分。 在可見光區(qū)域與近紅外區(qū)域的交界處, 光譜反射率受葉片內細胞間隙折射率不同的影響, 反射率急劇增加, 相關系數(shù)迅速由負轉正, 有明顯的降低后再抬升的趨勢。
圖1(a)和(b)是將2019年與2020年數(shù)據(jù)分生育期合并后的冠層光譜與長勢參數(shù)的相關系數(shù), LAI與AGB在兩時期具有相似的變化趨勢, 在可見光部分, 抽穗期LAI與AGB同冠層光譜的相關性較差, 均未超過0.4, 分化期明顯優(yōu)于抽穗期, 尤其在602~690 nm之間, 冠層光譜與LAI最大相關系數(shù)達到-0.685(666 nm), 與AGB最大相關系數(shù)達到-0.762(662 nm), 在近紅外部分, 則是抽穗期優(yōu)于分化期且LAI與冠層光譜的相關性更高, LAI與AGB的最大相關系數(shù)分別為0.708(922 nm)、 0.584(922 nm)。 圖2(a)和(b)為2020年兩生育期冠層光譜與長勢參數(shù)的相關性, LAI與冠層反射率相關性全波段抽穗期高于分化期, 在近紅外區(qū)域相差0.1左右, 分化期最大相關系數(shù)-0.623(666 nm), 抽穗期最大相關系數(shù)為0.753(886 nm), AGB與冠層反射率相關性在可見光區(qū)域分化期高于抽穗期, 而在近紅外區(qū)域抽穗期更高, 分化期最大相關系數(shù)為-0.665(662 nm), 抽穗期最大相關系數(shù)為0.616(878 nm)。
圖1 2019年與2020年水稻不同生育期冠層光譜與長勢參數(shù)相關性
圖2 2020年水稻不同生育期冠層光譜與長勢參數(shù)相關性
LAI與AGB在冠層光譜的大部分區(qū)域均表現(xiàn)出較強的相關性, 可以認為LAI與AGB參數(shù)能夠被冠層光譜較好的表達, 而LAI與AGB和產量的相關性達到極顯著水平, 故利用作物生長前期的光譜數(shù)據(jù)進行產量監(jiān)測是可行的。
分別使用BRR, SVR和PLSR構建水稻產量預測模型, 基于2019年與2020年合并后分化期(n=45)和抽穗期(n=45)數(shù)據(jù), 構建基于全波段光譜、 全波段光譜+AGB、 LAI的產量預測模型; 基于2020年分化期(n=30)和抽穗期(n=30)數(shù)據(jù), 構建基于全波段光譜、 全波段光譜+AGB、 LAI, 全波段光譜+AGB、 LAI+作物養(yǎng)分吸收量的產量預測模型; 表3為三種方法使用2019年與2020年數(shù)據(jù)建模的決定系數(shù)(R2)與歸一化均方根差(NRMSE), 表4為三種方法使用2020年數(shù)據(jù)建模的決定系數(shù)(R2)與歸一化均方根差(NRMSE)。
表3 基于2019與2020年數(shù)據(jù)的模型精度(n=45)
表4 基于2020年數(shù)據(jù)的模型構建精度(n=30)
2.2.1 基于光譜信息與農學參量的水稻產量預測
由表3可知, 以全波段光譜作為輸入參數(shù)時, 三種方法所建立的產量預測模型, 分化期精度優(yōu)于抽穗期, BRR模型在分化期R2達到了0.897 1, NRMSE為6.76%, 較抽穗期R2高0.032 4, NRMSE低1%; SVR模型在分化期R2為0.877 6, NRMSE為7.59%, 抽穗期R2為0.865 5, 兩時期預測精度與模型穩(wěn)定性接近, 而PLSR模型在分化期的R2較抽穗期相差較大, 相差0.199, NRMSE相差3.6%。 以全波段光譜+AGB、 LAI作為輸入參數(shù)時, BRR模型與SVR模型抽穗期精度則優(yōu)于分化期, 其中BRR模型在分化期R2為0.903 0, NRMSE為6.57%, 在抽穗期R2為0.915 2, NRMSE為6.24%,R2均達到0.9以上; SVR模型在分化期較僅輸入全波段的模型精度反而有所下降,R2降低0.027 5, 抽穗期模型較僅輸入全波段的模型精度有提升, 但提升不大; PLSR模型則是在分化期表現(xiàn)較好, 但仍未能超過BRR模型與SVR模型的預測精度。 從整體來看, BRR模型在僅使用全波段作為輸入參量時已取得較好的預測精度, 加入長勢參數(shù)時, 離群點變的更少, 所有點基本位于0誤差線兩側, 對產量中的較大與較小值均有較好的預測效果。
圖3 基于全波段光譜的產量預測模型
圖4 基于全波段光譜—長勢參數(shù)的產量預測模型
2.2.2 基于光譜信息-農學參量及作物養(yǎng)分吸收量的水稻產量預測
基于2020年分化期與抽穗期數(shù)據(jù)所建的產量預測模型, 以全波段光譜作為輸入參數(shù)時, 三種模型在分化期的模型精度優(yōu)于抽穗期模型精度; 以全波段光譜+AGB、 LAI作為輸入參數(shù)時, 分化期BRR模型R2提高至0.925 0, 抽穗期BRR模型R2提高至0.905 7, SVR模型與PLSR模型較僅輸入全波段時未有較大提升, 但SVR模型仍具有良好的估測精度; 以全波段+AGB、 LAI+作物養(yǎng)分吸收量作為輸入參量時, BRR模型在分化期R2達到最大, 為0.940 3, NRMSE為4.34%, 抽穗期模型R2為0.922 4, NRMSE為4.95%, 散點分布均勻, 在分化期模型估算精度更好, SVR模型則是在抽穗期模型估算精度更好。 PLSR模型在分化期與抽穗期表現(xiàn)均低于BRR模型與SVR模型, 且離群點更明顯。
分別以2019年與2020年分化期與抽穗期水稻全波段光譜、 全波段光譜+作物長勢參數(shù)、 全波段光譜+作物長勢參數(shù)+作物養(yǎng)分吸收量作為自變量, 采用BRR, SVR和PLSR三種回歸模型對水稻產量進行建模估計, 選取最佳估算模型與最佳估算時期。 實驗結果表明, 利用分化期與抽穗期冠層光譜監(jiān)測當季水稻產量是可行的; 三種方法中, BRR模型能夠更有效的對水稻產量進行估計, 各生育期估算均達到最優(yōu), 基于2019年與2020年數(shù)據(jù)的模型, 最大R2為0.915 2, 基于2020年數(shù)據(jù), 最大R2為0.940 3, 在僅輸入全波段光譜的時候也取得了較好的估算結果; 加入水稻長勢參數(shù)、 作物氮素吸收量后, 能夠有效提高模型的擬合優(yōu)度與穩(wěn)定性, 這是由于水稻產量與作物不同時期吸收和轉化來自土壤和環(huán)境的養(yǎng)分存在密切關系, 合理優(yōu)化作物養(yǎng)分吸收能夠有效提高作物產量。 綜合對比下, 水稻產量的最佳估算時期是分化期; BRR和SVR兩種機器學習模型的估算精度在兩種監(jiān)測模型中均優(yōu)于PLSR, 雖然PLSR選取了較少的參數(shù), 降低了模型復雜度, 但是也丟失了部分可用來估算水稻產量的信息波段, 而兩種機器學習模型利用所有信息進行回歸建模, 較大程度的保留了與水稻產量相關的信息, 且簡化了數(shù)據(jù)處理流程; 在不同時期與不同輸入參數(shù)下, 基于先驗分布的BRR模型能夠更好的解決高光譜數(shù)據(jù)中的多重共線性問題, 對于數(shù)據(jù)中存在的噪聲能夠有效抵抗, 在具有上百個波段的高光譜數(shù)據(jù)的輸入下, 保持了模型的穩(wěn)定性, 有利于模型的推廣。
圖5 基于全波段光譜的產量預測模型
圖6 基于全波段光譜—長勢參數(shù)的產量預測模型
圖7 基于全波段光譜—長勢參數(shù)—作物養(yǎng)分吸收量的產量預測模型
本工作僅選用了BRR, SVR和PLSR三種方法構建水稻產量的模型, 未能選用更多的方法進行監(jiān)測模型建立, 若增加其他方法, BRR方法是否還能保持最優(yōu)還有待研究。 此外, 將不同參數(shù)作為自變量進行輸入時只是簡單拼接, 未考慮不同參數(shù)的權重分布, 不同參數(shù)與產量是否存在最優(yōu)映射的關系有待下一步研究。 全波段建模方法需要算法具有良好的噪聲抵抗能力, 進一步提高算法的噪聲抵抗能力以及穩(wěn)定性, 有利于獲取更好的監(jiān)測精度。