楊明欣,高 鵬,陳文彬,周 平,孫道宗,2,謝家興,2,陸健強(qiáng),2,王衛(wèi)星,2
(1 華南農(nóng)業(yè)大學(xué) 電子工程學(xué)院/人工智能學(xué)院,廣東 廣州 510642;2 廣東省農(nóng)情信息監(jiān)測工程技術(shù)研究中心,廣東 廣州 510642)
油青菜心Brassicachinensisvar.parachinensis是一種重要的綠色蔬菜,廣泛種植于廣東省及全國多個(gè)城市,其葉片為油綠色,形狀尖細(xì),風(fēng)味甜爽,菜苔油綠有光澤[1-2]。油青菜心對土壤水肥具有較高的要求,在生長過程中需要保證足夠的水分供應(yīng),以滿足其正常生長需求[3]。在持續(xù)缺水狀態(tài)下油青菜心的多項(xiàng)生理活動受到影響,如葉綠素含量下降、葉片含水量下降等[4]。通過監(jiān)測油青菜心的水分狀況,采取高效的水分灌溉策略可保證油青菜心的品質(zhì),同時(shí)達(dá)到節(jié)約水資源、提高水資源利用效率的效果。
當(dāng)作物缺水時(shí)冠層溫度升高,基于冠氣溫差的水分脅迫指數(shù)能實(shí)時(shí)反映作物的水分虧缺狀態(tài)[5-9]。水分脅迫指數(shù) (Crop water stress index,CWSI)是反映作物水分狀況的無量綱因子,范圍在[0,1]之間,0表示作物無水分脅迫或者灌溉充分,1表示作物無蒸騰作用或嚴(yán)重脅迫。國內(nèi)外研究在使用CWSI經(jīng)驗(yàn)?zāi)P蜁r(shí),上下限方程確定方法并不統(tǒng)一[10]。Jones等[11]使用涂抹凡士林和水的干、濕參考面溫度計(jì)算葡萄的CWSI;但是使用干、濕參考面需考慮位置對計(jì)算模型的影響[12]。王衛(wèi)星等[13]采用水汽壓差為0和6時(shí)對應(yīng)的溫度研究柳葉菜心的水分狀況;但是水汽壓差隨著地域和季節(jié)變化,意味著基準(zhǔn)線也會變化[14]。張立元等[15]、Agam等[16]使用空氣溫度+5 ℃作為上限研究玉米、橄欖樹等作物的水分變化規(guī)律,Kumar等[17]、Khorsandi等[18]使用空氣溫度+2、+3 ℃作為上限研究芥菜、芝麻的CWSI,避免了建立上限方程;雖然能構(gòu)建CWSI,但是不少研究直接套用經(jīng)驗(yàn)值,沒有結(jié)合作物本身及環(huán)境情況進(jìn)行分析。屈振江等[19]研究蘋果冠層溫度的變化特征時(shí)發(fā)現(xiàn),冠層溫度峰值出現(xiàn)的時(shí)間、變化趨勢與空氣溫度一致。針對相似的數(shù)據(jù),具有噪聲的基于密度的空間聚類(Density-based spatial clustering of applications with noise,DBSCAN)算法可將其劃分到集合中,以簇中心代表集合的數(shù)據(jù)[20]。因此,本研究擬結(jié)合DBSCAN聚類算法,在給定的空氣溫度范圍內(nèi)探討油青菜心冠氣溫差上限的固定值。
謝慧婷[21]、Matese等[22]研究生菜、葡萄藤的水分狀況時(shí)發(fā)現(xiàn),在缺水狀態(tài)下光合作用速率呈下降趨勢,而CWSI與光合作用速率呈負(fù)相關(guān)的關(guān)系。利用光合作用測量系統(tǒng)可直接獲取作物的光合作用速率[23-24],通過葉室夾住被測葉片形成固定被測空間并取樣實(shí)現(xiàn)數(shù)據(jù)的自動采集,但葉室對葉片有一定程度的損壞。通過其他容易獲取的數(shù)據(jù)模擬作物的光合作用速率,能有效解決損壞葉片的問題,劉煦[25]使用有效輻射、相對濕度等環(huán)境數(shù)據(jù),基于機(jī)器學(xué)習(xí)方法預(yù)測了林下參的光合作用速率;陳碩博[26]、陳俊英等[27]利用棉花冠層的光譜數(shù)據(jù),以線性回歸、機(jī)器學(xué)習(xí)多種方法反演了光合參數(shù)。機(jī)器學(xué)習(xí)方法已被廣泛應(yīng)用于農(nóng)業(yè)領(lǐng)域,宋飛揚(yáng)等[28]、Botula等[29]使用最鄰近節(jié)點(diǎn)(k-Nearest Neighbor,KNN)算法篩選特征、模擬土壤持水量,提高了模型的預(yù)測精度;Mohammadi等[30]使用支持向量回歸 (Support vector regression,SVR)算法模擬每日參考蒸發(fā)量,結(jié)果表明預(yù)測值能較好地?cái)M合真實(shí)值;Wang等[31]利用土壤回聲結(jié)合極端梯度提升 (Extreme gradient boosting,XGBoost)算法預(yù)測土壤pH,達(dá)到預(yù)測精度高、誤差低的效果;白婷等[32]應(yīng)用光譜數(shù)據(jù)和隨機(jī)森林(Random forest,RF)算法獲得較高精度的土壤有機(jī)質(zhì)估測值。本研究擬建立CWSI與光合作用速率的關(guān)系,以CWSI預(yù)測光合作用速率,探究不同脅迫程度下油青菜心光合作用速率的變化規(guī)律。在油青菜心從四葉一心到植株現(xiàn)蕾的營養(yǎng)生長階段(Vegetative growth stage,V期)和從植株現(xiàn)蕾到菜苔高度與苔葉先端齊平的生殖生長階段(Reproductive growth stage,R期)進(jìn)行不同水分處理,計(jì)算CWSI,運(yùn)用DBSCAN聚類分析方法選取作為冠氣溫差上限的固定值,采用 KNN、SVR、XGBoost、RF 這 4種機(jī)器學(xué)習(xí)方法預(yù)測光合作用速率。
以油青菜心為試驗(yàn)材料,試驗(yàn)于2020年11—12月在華南農(nóng)業(yè)大學(xué)工程學(xué)院進(jìn)行。11月初將種子播種于花盆中,花盆高度15 cm,上口徑22 cm,每盆裝適量的土壤。待菜心出芽長出第1片真葉后,將相同長勢的菜心移到相同規(guī)格的花盆中,每盆2株,間距為10 cm,待幼苗長到四葉一心時(shí)期開始進(jìn)行不同水分處理,如圖1所示。
圖 1 油青菜心盆栽圖Fig.1 The pot cultivation picture of Brassica chinensis
試驗(yàn)前每個(gè)花盆灌溉充足水分,靜置1 h,每個(gè)花盆取表層0~10 cm的土壤,稱質(zhì)量(m),放入烘箱在105 ℃條件下烘干6 h,待土壤冷卻后再稱質(zhì)量(md),按公式(1)計(jì)算該花盆土壤的田間持水量(w)[33]:
以平均值作為試驗(yàn)采用的土壤田間持水量,計(jì)算結(jié)果為32.2%。
根據(jù)本試驗(yàn)土壤的田間持水量(32.2%),將試驗(yàn)對象油青菜心的水分脅迫梯度設(shè)置為5組,分別用T1~T5表示。T1的田間持水量為32.2%,以T1作為對照,T2~T5的田間持水量分別為85%T1、70%T1、55%T1 和 40%T1。
數(shù)據(jù)采集方法:選取菜心冠層頂部完全展開的、并能獲取充足的陽光的葉片作為測量目標(biāo)。數(shù)據(jù)采集時(shí)間為每天10:00—16:00,每30 min采集1次。使用手持式紅外測溫儀(型號Raytek ST18,雷泰公司產(chǎn)品)進(jìn)行冠層溫度測量,該設(shè)備的光學(xué)分辨率為12︰1,發(fā)射率為0.95,光譜響應(yīng)范圍8~14 μm,測溫范圍–20~500 ℃。測量時(shí),保持紅外測溫儀與測量目標(biāo)的距離在葉片大小的12倍以內(nèi)。每個(gè)目標(biāo)點(diǎn)測量3次,取平均值。使用手持式溫濕度計(jì)(型號Aicevoos W8,艾沃斯公司產(chǎn)品)進(jìn)行空氣溫度、相對濕度的測量,測量時(shí)保持設(shè)備與測量目標(biāo)的距離為10 cm,1 min內(nèi)測量3次后取平均值。使用土壤水分傳感器(型號RS485,鷹都公司產(chǎn)品)進(jìn)行土壤含水量測量,測量時(shí)將設(shè)備埋在2個(gè)目標(biāo)葉片中間,與土壤表面的距離為10 cm。使用光合作用測定儀(型號SYS-GH30D,塞亞斯公司產(chǎn)品)進(jìn)行光合作用速率、光合有效輻射的測量,該儀器基于快速準(zhǔn)確的紅外線CO2氣體分析儀法,測定量程為 0~3 000 mg/kg,精度為 3 mg/kg,測量時(shí)使用葉室夾住葉片,保持1 min,測量5次后取平均值作為該目標(biāo)點(diǎn)的實(shí)際光合參數(shù)。
受試驗(yàn)期間天氣影響,在保證數(shù)據(jù)充足的前提下,本文剔除了陰雨天氣(12月13—20日)測量的數(shù)據(jù)。
CWSI的計(jì)算如以下公式所示[15]:
式中:θc為作物冠層溫度;θa為空氣溫度;(θc?θa)ll為下限方程或無水分脅迫基準(zhǔn)線,是作物在無水分脅迫時(shí)或充分灌溉下的冠氣溫差;(θc?θa)ul為上限方程或無蒸騰作用基準(zhǔn)線,是作物在無蒸騰作用時(shí)、氣孔關(guān)閉狀態(tài)下的冠氣溫差;單位均為℃。
(θc?θa)ul和 (θc?θa)ll的計(jì)算如以下公式所示:
式中:A和B為回歸系數(shù);RH為空氣相對濕度;VPD和VPG分別為飽和水汽壓差和飽和水汽壓差梯度。
根據(jù)不同的CWSI經(jīng)驗(yàn)?zāi)P?,分別使用公式(3)計(jì)算 (θc?θa)ul和將固定值作為 (θc?θa)ul,固定值由DBSC AN算法得到。
DBSCAN算法能找到任意形狀、集中分布的簇[34]。在給定的數(shù)據(jù)集中,DBSCAN算法將所有對象標(biāo)記為未訪問,隨機(jī)選擇未訪問的對象p并標(biāo)記為已訪問,通過檢查p的ε-(ε>0)領(lǐng)域內(nèi)包含的MinPts個(gè)對象判斷其屬性,其中ε為半徑參數(shù),MinPts為領(lǐng)域密度閾值。若為核心點(diǎn),將p的ε-領(lǐng)域中的所有對象添加到集合C中,直到C不再擴(kuò)展,迭代停止。
距離指標(biāo)常用歐式距離和曼哈頓距離,特征向量Xi、Xj之間的歐式距離、曼哈頓距離計(jì)算如公式(7)、(8):
式中:dij表示第i、j個(gè)特征向量Xi、Xj的距離;k表示特征向量的維度;xi(m)、xj(m)分別為Xi、Xj在第m維的值,m的取值范圍為1,2,…,k。
DBSCAN不需要預(yù)先設(shè)定簇?cái)?shù)目,由算法自動決定,但需要設(shè)定半徑參數(shù)ε和領(lǐng)域密度閾值MinPts。在本研究中,以歐式距離作為度量,ε為0.44,MinPts為 4。
KNN是數(shù)據(jù)挖掘算法中最簡單的一種,精度高且對異常值不敏感[35]。對于要預(yù)測的點(diǎn)(xi,yi),KNN在一系列樣本坐標(biāo)中選擇k個(gè)離xi最近的樣本坐標(biāo),對其y值求平均,結(jié)果為KNN模型的預(yù)測值。
預(yù)先設(shè)定的值包括k值和k個(gè)鄰近點(diǎn)的權(quán)重,在本研究中,以曼哈頓距離作為度量,k為3,各鄰近點(diǎn)的權(quán)重一致。
SVR被廣泛應(yīng)用于處理模式識別問題,泛化錯誤率低[36]。該算法結(jié)合了核函數(shù)和線性回歸,讓訓(xùn)練集中的每個(gè)點(diǎn)(xi,yi)盡量擬合到一個(gè)線性模型yi=ωx+b。將最優(yōu)超平面記作 ωx+b=0,樣本x到最優(yōu)超平面的距離為r,通過引入松弛變量和懲罰系數(shù)求最小距離,將最優(yōu)超平面問題轉(zhuǎn)化為最優(yōu)化問題:
最終支持向量回歸模型如公式(13)所示:
XGBoost是Chen等[37]開發(fā)的一個(gè)開源機(jī)器學(xué)習(xí)項(xiàng)目,處理速度快,高度靈活,能更好地控制過擬合。該算法在梯度提升決策樹基礎(chǔ)上對損失函數(shù)進(jìn)行二階泰勒展開并添加正則項(xiàng),通過不斷形成新決策樹擬合之前預(yù)測的殘差,從而減少預(yù)測值與真實(shí)值殘差。其目標(biāo)函數(shù)L由損失函數(shù)l和正則項(xiàng) Ω組成,如公式 (14)、(15):
式中:L(?)t表示第t次迭代的目標(biāo)函數(shù);yi為目標(biāo)值;表示前t?1次迭代的預(yù)測值;l為目標(biāo)值與預(yù)測值的平方差;ft(xi)為第t次迭代產(chǎn)生的新模型;Ω(fk)表示第t次迭代的模型的正則項(xiàng);γ和λ表示正則項(xiàng)系數(shù);T表示該模型的葉結(jié)點(diǎn)個(gè)數(shù)。
對公式(14)使用泰勒展開,可得:
式中:gi表示樣本xi的一階導(dǎo)數(shù);hi表 示樣本xi的二階導(dǎo)數(shù);ωj表示第j個(gè)葉子結(jié)點(diǎn)的輸出值;Ij表示第j個(gè)葉子結(jié)點(diǎn)值的樣本子集。對 ωj求導(dǎo)并且令導(dǎo)函數(shù)等于0,可求得使目標(biāo)函數(shù)達(dá)到最小值的 ωj。在本研究中,學(xué)習(xí)步長為0.09,最大的樹深度為4,弱學(xué)習(xí)器數(shù)量為70,正則化系數(shù)γ和λ為0.001和1。
RF最早由Breiman[38]于2001年提出,該算法基于分類樹,是Bagging算法的優(yōu)化,具有運(yùn)算速度快、穩(wěn)定性好等優(yōu)勢,在處理大數(shù)據(jù)集時(shí)預(yù)測精度高。RF從總體數(shù)據(jù)集中采用多次、隨機(jī)的方法取一部分樣本構(gòu)成樣本簇,在每一個(gè)新生成的樣本簇中訓(xùn)練回歸決策樹,組合每一棵決策樹的輸出結(jié)果加權(quán)平均。
對于給定的訓(xùn)練數(shù)據(jù)集,D={(x1,y1),(x2,y2),···,(xi,yi)},其中xi為輸入實(shí)例(特征向量),yi為目標(biāo)向量,i=1,2,…,n,n為樣本容量。每次劃分特征空間,逐一考察當(dāng)前集合中所有特征的所有取值,根據(jù)平方誤差最小化準(zhǔn)則選擇其中最優(yōu)的一個(gè)作為切分點(diǎn)。對于訓(xùn)練集中第j個(gè)特征變量xj和取值s,作為切分變量和切分點(diǎn),并定義2個(gè)區(qū)域,為找出最優(yōu)j和s,對以下公式求解:
式中:c1、c2為劃分后2個(gè)區(qū)域內(nèi)固定的輸出值;利用選定劃分區(qū)域內(nèi)yi求平均得到相應(yīng)的輸出值,直到生成完整的決策樹。
本研究運(yùn)用SPSS軟件,采用誤差分析評估機(jī)器學(xué)習(xí)模型的預(yù)測效果,利用最小顯著極差法分析水分處理間的顯著水平。誤差分析包括相關(guān)系數(shù)(Correlation coefficient,R2)、平均絕對誤差 (Mean absolute error,MAE)、均方根誤差 (Root mean square error,RMSE),如公式 (20)~(22)所示:
式中:E為數(shù)學(xué)期望;f表示預(yù)測值;y表示實(shí)際值;i為第i個(gè)(i≤n)數(shù)據(jù),n為數(shù)據(jù)量。
最小顯著極差 (Least significant difference,LSD)法,對任何2個(gè)i、j處理平均數(shù)間的均數(shù),若其絕對值≥ LSDα,則為在α的水平上差異顯著,LSDα的計(jì)算如公式(23)所示:
式中:d fe為誤差自由度;tα為誤差自由度下的臨界值;MSe為誤差均方;n為各處理內(nèi)的重復(fù)數(shù)。
在無云晴天采集充分灌溉T1處理的冠層溫度、空氣溫濕度數(shù)據(jù),建立CWSI經(jīng)驗(yàn)?zāi)P偷墓跉鉁夭钕孪?。圖2a、2b分別為營養(yǎng)生長階段(V期,11月27日—12月12日)生殖生長階段(R期,12月21日—12月31日)的冠氣溫差與飽和水汽壓差的散點(diǎn)圖,通過回歸方程擬合得到冠氣溫差的下限方程,方程如下所示:
圖 2 冠氣溫差與飽和水汽壓差(VPD)的關(guān)系Fig.2 Relationship between canopy and air temperature difference and vapor pressure deficit (VPD)
由圖2可以看出,冠氣溫差與飽和水汽壓差的擬合結(jié)果較好,兩者顯著相關(guān)(P<0.01),均方根誤差分別為1.54(V期)和1.07(R期)。在V期和R期冠氣溫差的下限有一定差異,R期的冠氣溫差下限比V期高,因此在建立油青菜心CWSI經(jīng)驗(yàn)?zāi)P蜁r(shí)應(yīng)針對不同生長期建立相應(yīng)的冠氣溫差下限。
根據(jù)所擬合的冠氣溫差下限方程和公式(3)計(jì)算CWSI,并繪制CWSI每日變化曲線,如圖3所示。隨著田間持水量降低,水分脅迫程度加深,CWSI明顯增加。處理間的CWSI平均漲幅為0.13,具有顯著差異(P<0.01),表明CWSI能較好地反映油青菜心的水分狀況。T1處理為充分灌溉,其每日平均 CWSI在 [0, 0.2]波動,T2、T3 和 T4 處理的每日平均 CWSI分別是 [0.2, 0.4]、[0.2, 0.5]和[0.3, 0.6],受脅迫最多的T5處理的每日平均CWSI在[0.4, 0.8]波動,變化范圍較大,表明水分脅迫程度越大,油青菜心越容易受到氣候的影響。處理開始時(shí)變化曲線密集,隨著脅迫時(shí)長增加,變化曲線無重疊或交點(diǎn),表明水分的長期缺失對油青菜心的生理活動造成了一定影響,使得曲線波動范圍縮小。
圖 3 5種田間持水量處理的水分脅迫指數(shù)(CWSI)變化曲線Fig.3 Crop water stress index(CWSI) change curves under five field water holding capacities
根據(jù)公式(3)獲取的冠氣溫差上限及對應(yīng)的空氣溫度,運(yùn)用DBSCAN算法對油青菜心進(jìn)行聚類,結(jié)果如圖4所示。由圖4可以看出,隨著空氣溫度上升,2個(gè)時(shí)期的油青菜心冠氣溫差上限均呈現(xiàn)上升的趨勢,其中R期的冠氣溫差上限比V期高,主要分布在[4,5] ℃,V期的冠氣溫差主要分布在[3,4] ℃。由于試驗(yàn)期間空氣溫度變化較大,算法自動聚類的簇共有6個(gè),且R期的空氣溫度變化比V期更大,因此R期有4個(gè)簇,V期有2個(gè)簇,表明空氣溫度對DBSCAN的聚類效果影響較大??缍仍酱髣t簇越多,增加了選取固定值的難度。數(shù)據(jù)集主要分布在[20,30] ℃,隨著數(shù)據(jù)的稠密程度上升,簇內(nèi)包含的數(shù)據(jù)增多,其中2個(gè)大簇的質(zhì)心分別為3.4 ℃(類別為 2,116)和 4.2 ℃(類別為 1,164),分別對應(yīng)V期和R期。此外,聚類結(jié)果顯示有小部分噪聲點(diǎn)(類別為?1,是離群點(diǎn)),大多分布在空氣溫度區(qū)間邊緣,剔除該部分?jǐn)?shù)據(jù)并不影響聚類的效果。
圖 4 基于DBSCAN的冠氣溫差上限聚類Fig.4 Clusters of the upper limit of canopy temperature minus air temperature by DBSCAN
為驗(yàn)證聚類的效果,根據(jù)無蒸騰作用基線獲取的上限,分別采用空氣溫度+2.0、+5.0 ℃與聚類結(jié)果計(jì)算T1、T5處理的水分脅迫指數(shù),其誤差分析如表1所示。由表1可以看出,在2個(gè)階段、2個(gè)處理中,空氣溫度+2.0 ℃的CWSI平均值偏高,空氣溫度+5.0 ℃的CWSI平均值偏低,在充分灌溉T1處理的條件下與無蒸騰作用基線的CWSI均無顯著差異,當(dāng)田間持水量為40%T1(T5處理)時(shí)與無蒸騰作用基線的CWSI均有顯著差異(P<0.05)??諝鉁囟?3.4、+4.2 ℃的CWSI均位于空氣溫度+2.0、+5.0 ℃之間,與無蒸騰作用基線的CWSI顯著相關(guān)(R2=0.99)。不同生長期、同溫度、同處理的CWSI存在顯著差異(P<0.05),當(dāng)V期和R期采用同一個(gè)溫度上限時(shí),4.2 ℃將造成V期的CWSI偏小,3.4 ℃將造成R期的CWSI偏大,因此應(yīng)結(jié)合作物的生長期選取不同的固定值。與充分灌溉T1處理相比,采用固定溫度計(jì)算T5處理的CWSI與無蒸騰作用基線的平均值差值差異較大,V期2.0、3.4和5.0 ℃的漲幅分別為0.152、0.003和 0.104,R期 2.0、4.2和 5.0 ℃ 的漲幅分別為0.350、0.019和 0.044。擬合結(jié)果表明,3.4和 4.2 ℃可分別作為油青菜心在V期和R期的冠氣溫差上限,本研究將以2個(gè)溫度計(jì)算的CWSI作為機(jī)器學(xué)習(xí)模型的輸入向量之一。
表 1 不同冠氣溫差上限的水分脅迫指數(shù)(CWSI)誤差分析Table 1 Error statistics of crop water stress index (CWSI) under different upper limits of canopy and air temperature difference
為研究油青菜心CWSI與光合作用速率的關(guān)系,繪制了光合作用速率的日變化曲線(圖5)。由圖5可以看出,光合作用速率呈現(xiàn)先增加而后減少的變化趨勢,這是由于11:30時(shí)左右的太陽輻射較強(qiáng)、溫度較高,有利于作物進(jìn)行光合作用。在V期11:30時(shí)以后光合作用速率的下降趨勢較明顯,通過基于LSD法的多重比較分析,各個(gè)時(shí)刻的光合速率平均值差異均達(dá)0.05的顯著水平,在R期光合作用速率的下降趨勢較平緩。在V期、R期中,CWSI與光合作用速率是負(fù)相關(guān)的關(guān)系,充分灌溉處理T1的光合作用速率最高,當(dāng)水分脅迫程度加深時(shí),菜心葉面溫度上升,光合作用速率下降,不同水分脅迫處理的光合作用速率在0.05水平具有顯著差異(LSD法)。在V期,11:30時(shí)5組水分脅迫處理的光合作用速率差距最大,在15:00時(shí)差距最小。
圖 5 不同水分脅迫處理的油青菜心光合作用速率日變化Fig.5 Diurnal variations of photosynthetic rate of Brassica chinensis in different water stress treatments
本試驗(yàn)運(yùn)用 KNN、SVR、XGBoost、RF 這 4種模型,以CWSI和光合有效輻射作為輸入向量預(yù)測油青菜心的光合作用速率。光合作用速率測量值與預(yù)測值的散點(diǎn)圖、擬合方程如圖6,數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)化處理,預(yù)測模型的誤差分析如表2。
圖 6 4種模型的光合作用速率測量值與預(yù)測值的散點(diǎn)圖Fig.6 The scatter plots of predicted and measured photosynthetic rates based on four models
表 2 4種預(yù)測模型的誤差分析Table 2 Error statistics of four predicted models
由圖6和表2可以看出,XGBoost模型的預(yù)測值與測量值的相關(guān)系數(shù)最高,其次是SVR、KNN和RF模型,4種預(yù)測模型的相關(guān)系數(shù)均大于0.85,擬合方程的截距及斜率均沒有顯著差異,表明這4種機(jī)器學(xué)習(xí)均可以預(yù)測油青菜心的光合作用速率。由于光合作用速率的整個(gè)數(shù)據(jù)集分布并不均勻,隨機(jī)劃分的測試集在各區(qū)間的分布與整個(gè)數(shù)據(jù)集基本一致,主要集中在[0.5,1.5],當(dāng)光合速率>2時(shí)預(yù)測值均偏大,表明原始數(shù)據(jù)的分布對這4種模型的預(yù)測效果有一定影響。集成學(xué)習(xí)方法XGBoost、RF在建模時(shí)往往需要規(guī)模大的數(shù)據(jù)集,本試驗(yàn)用于預(yù)測的數(shù)據(jù)集共有498組輸入向量,XGBoost、RF的預(yù)測結(jié)果容易出現(xiàn)欠擬合的情況,無法體現(xiàn)提升樹的優(yōu)勢。當(dāng)數(shù)據(jù)集為原來的三分之一時(shí),預(yù)測精度均下降,4種模型建模的相關(guān)系數(shù)分別為0.836(KNN)、0.868(SVR)、0.871(XGBoost)、0.837(RF),下降幅度最大的是KNN和RF,表明SVR在小樣本回歸中比RF、KNN表現(xiàn)好。當(dāng)數(shù)據(jù)集較小時(shí),SVR和XGBoost均可通過調(diào)整參數(shù)提高預(yù)測效果,如SVR減少懲罰系數(shù)和松弛變量,XGBoost提高學(xué)習(xí)速率、降低最大生成樹的數(shù)目,但KNN和RF并沒有顯著提高。XGBoost和RF都屬于集成學(xué)習(xí),但XGBoost使用了一階導(dǎo)數(shù)和二階導(dǎo)數(shù),使得預(yù)測值與實(shí)測值的擬合殘差減少,又借鑒了RF列抽樣的做法,降低過擬合和減少計(jì)算,大大提升效率,因此預(yù)測效果最好。
本研究通過5組水分處理的對比分析揭示了油青菜心在營養(yǎng)生長階段和生殖生長階段的水分脅迫變化規(guī)律,運(yùn)用DBSCAN算法對油青菜心冠氣溫差進(jìn)行聚類,探討了使用固定值作為上限的可行性,采用KNN、SVR、XGBoost和RF算法預(yù)測了油青菜心的光合作用速率。結(jié)果表明,CWSI隨田間持水量減少而升高,說明CWSI可以很好地識別油青菜心的水分脅迫;聚類結(jié)果顯示,3.4和4.2 ℃與經(jīng)驗(yàn)公式計(jì)算的CWSI具有顯著的相關(guān)性,說明采用固定值計(jì)算油青菜心CWSI具有可行性,且2個(gè)階段的溫度存在差異,表明應(yīng)結(jié)合作物的生長期進(jìn)行聚類分析;4種機(jī)器學(xué)習(xí)方法均取得較好的預(yù)測效果,XGBoost模型的預(yù)測值與實(shí)測值擬合效果最好,其次是SVR、KNN和RF,說明機(jī)器學(xué)習(xí)方法預(yù)測光合作用速率具有可行性,且實(shí)現(xiàn)了光合作用速率的快速檢測。本研究只建立了油青菜心在11—12月的水分脅迫指數(shù)模型,由于經(jīng)驗(yàn)方程受天氣、季節(jié)變化的影響,下一步試驗(yàn)將采集全年不同月份的數(shù)據(jù),并考慮太陽輻射、風(fēng)速的影響。在預(yù)測光合作用效率時(shí),數(shù)據(jù)尚不夠充分,作物種類單一,下一步研究將擴(kuò)充數(shù)據(jù)集,并期望能在多個(gè)作物上應(yīng)用。