龍 燕,馬敏娟,王英允,宋懷波
(1.西北農(nóng)林科技大學(xué)機(jī)械與電子工程學(xué)院,楊凌 712100;2.農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)物聯(lián)網(wǎng)重點(diǎn)實(shí)驗(yàn)室,楊凌 712100;3.陜西省農(nóng)業(yè)信息感知與智能服務(wù)重點(diǎn)實(shí)驗(yàn)室,楊凌 712100)
水分對作物的生長至關(guān)重要,水分虧缺會(huì)造成作物的水勢和膨壓低于正常水平,使其正常代謝機(jī)能受到干擾或破壞,嚴(yán)重威脅作物的生長發(fā)育[1]。干旱作為一種多維脅迫,可以引起作物表型、生理學(xué)、生物化學(xué)和分子水平的變化,嚴(yán)重時(shí)將導(dǎo)致光合作用終止和代謝紊亂,最終導(dǎo)致作物死亡[2]。因此,及時(shí)識別作物干旱脅迫程度,對作物生長發(fā)育、合理灌溉和產(chǎn)量提升都具有重大意義。
目前,檢測作物所受脅迫程度的方法主要分為基于生理特性指標(biāo)[3-7](植物莖流、水勢、蒸騰速度、莖體水分)和基于形態(tài)[8-10](2D圖像、3D圖像、光譜特征)兩類。雖然利用生理特征指標(biāo)可以得到較高的檢測精度,但其操作復(fù)雜,對作物會(huì)造成不同程度的損傷。而基于形態(tài)的檢測方法以無損、快速的優(yōu)點(diǎn)被廣泛用于作物脅迫程度識別。其中葉綠素?zé)晒獬上窦夹g(shù)能反映葉片對光能的吸收和轉(zhuǎn)化、能量的傳遞和分配以及反應(yīng)中心狀態(tài)等作物光合作用信息[11],利用葉綠素?zé)晒鈪?shù)可在肉眼看到癥狀前就識別出脅迫特征,已廣泛應(yīng)用于植物各類脅迫狀態(tài)的監(jiān)測和預(yù)警[12]。翁海勇等[13]利用葉綠素?zé)晒鈪?shù)結(jié)合隨機(jī)森林算法構(gòu)建了柑橘不同程度黃龍病的診斷模型,其總體識別正確率為 97.50%。Wang等[14]首次利用葉綠素?zé)晒獬上窦夹g(shù)和熱紅外成像技術(shù)完成對甘薯多種病毒感染的區(qū)分,并得到光化學(xué)淬滅系數(shù)是區(qū)分不同病毒的最敏感參數(shù)。Dong等[15]利用葉綠素?zé)晒獬上窦夹g(shù)完成對番茄幼苗冷害的識別。通過計(jì)算熒光參數(shù)和冷害程度的Person相關(guān)性,得到實(shí)際光化學(xué)量子產(chǎn)量、穩(wěn)態(tài)光適應(yīng)光化學(xué)淬滅系數(shù)等 6個(gè)熒光參數(shù),可用于評估番茄幼苗的冷害程度,并利用神經(jīng)網(wǎng)絡(luò)構(gòu)建預(yù)測模型,其訓(xùn)練集、驗(yàn)證集的識別準(zhǔn)確率分別為90.3%、90%。梁歡等[16]通過葉綠素?zé)晒鈪?shù)對不同品種的紫花苜蓿種質(zhì)苗期抗旱性進(jìn)行了對比,從 109份紫花苜蓿中篩選出了14份抗旱高光效種質(zhì)。Zhou等[17]驗(yàn)證了葉綠素?zé)晒饧夹g(shù)能夠識別植物不同水分和氮素的狀態(tài),并利用支持向量機(jī)(Support Vector Machines,SVM)、徑向基函數(shù)(Radial Basis Function,RBF)和BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)方法完成對9種不同水氮耦合狀態(tài)的分類。Wang等[18]以大豆幼苗為研究對象,分析了在輕度干旱脅迫和重度干旱脅迫下葉綠素?zé)晒鈪?shù)的變化,得到實(shí)際光化學(xué)量子產(chǎn)量與干旱程度相關(guān)度最高,并利用實(shí)際光化學(xué)量子產(chǎn)量完成抗旱品種的篩選。
上述研究利用葉綠素?zé)晒饧夹g(shù)識別作物非生物脅迫取得一定的成果。但還存在如下問題:1)大部分研究只局限于對暗適應(yīng)后最小熒光、最大光量子效率等熒光參數(shù)進(jìn)行分析,未能充分利用葉綠素?zé)晒鈪?shù)信息;2)大部分研究未利用熒光圖像信息,只采集某幾個(gè)點(diǎn)的熒光參數(shù)作為整個(gè)植株葉片的熒光參數(shù),不能完全代表整個(gè)植株的熒光信息。因此本研究以苗期番茄為研究對象,基于葉綠素?zé)晒獬上窦夹g(shù),采集植株冠層的熒光圖像,將熒光圖像均值作為該植株的熒光參數(shù),從而更準(zhǔn)確的代表植株葉綠素?zé)晒庑畔?。同時(shí),研究與干旱脅迫相關(guān)的熒光參數(shù)選取方法,挖掘具有重要價(jià)值的葉綠素?zé)晒鈪?shù),提高熒光參數(shù)的利用率。最后建立干旱脅迫狀態(tài)識別模型,以期實(shí)現(xiàn)苗期番茄早期干旱脅迫的監(jiān)測以及干旱脅迫狀態(tài)的判定,為植物健康生長和合理灌溉提供理論依據(jù)。
干旱脅迫試驗(yàn)于西北農(nóng)林科技大學(xué)旱區(qū)節(jié)水農(nóng)業(yè)研究院人工氣候室進(jìn)行(北緯 34°07′39″,東經(jīng) 107°59′50″,海拔648 m),室內(nèi)光周期為晝/夜14 h/10 h,環(huán)境溫度為晝/夜24 ℃/14 ℃,空氣相對濕度為60%。采用盆栽土培法,試驗(yàn)土壤為進(jìn)口泥炭土,土壤容重1.1 g/cm3,土壤養(yǎng)分含量為:磷1.52 g/kg,鉀2.64 g/kg,鎂0.28 g/kg,硝態(tài)氮0.78 g/kg,銨態(tài)氮 0.56 g/kg,pH值6.0,有機(jī)質(zhì)質(zhì)量分?jǐn)?shù)64%。選取高13 cm,口徑15 cm的塑料盆,每盆裝土0.5 kg。于2020年7月選擇長勢、大小較為一致的70株番茄苗移栽到塑料盆中,每盆1株。移栽當(dāng)天澆透水,緩苗2 d,第3天再次補(bǔ)充水分,后續(xù)不再澆水,直至番茄苗萎蔫。為方便后續(xù)建模分析,在每次熒光參數(shù)采集之前,使用土壤濕度傳感器測量 3次土壤濕度取平均值作為所測樣本土壤含水率的實(shí)際值,將土壤含水率為最大持水量的75%~85%、55%~65%、35%~45%、15%~25%分別記為適宜水分、輕度干旱、中度干旱和重度干旱[19]。
本研究使用PlantScreen植物表型成像分析系統(tǒng)(北京易科泰生態(tài)技術(shù)有限公司)測量葉綠素?zé)晒鈪?shù),系統(tǒng)由測量光光源(610~620 nm,紅光)、光化學(xué)光光源(610~620 nm,紅光;470~480 nm,藍(lán)光)、飽和光光源(470~480 nm,藍(lán)光)、暗適應(yīng)室、計(jì)算機(jī)以及控制軟件等部件組成。將暗適應(yīng)30 min的番茄幼苗放入檢測箱中,通過計(jì)算機(jī)控制程序運(yùn)行,并利用 FluorCam 7.0軟件采集、分析數(shù)據(jù)。由于整個(gè)番茄植株的葉片高低不同,熒光激發(fā)的強(qiáng)度對不同位置的葉片也不同。為避免高低葉位對結(jié)果的影響,該研究只選取植株冠層最上層的 3片葉片的熒光圖像為感興趣區(qū)域,將感興趣區(qū)域的像素均值作為該植株的葉綠素?zé)晒鈪?shù)值,圖1為不同干旱脅迫狀態(tài)下最小熒光參數(shù)感興趣區(qū)域選取結(jié)果。每個(gè)樣本共獲取98幅熒光圖像,即共有98個(gè)葉綠素?zé)晒鈪?shù),參數(shù)符號和參數(shù)名稱如表1所示。
表1 98個(gè)葉綠素?zé)晒鈪?shù)表Table 1 98 chlorophyll fluorescence parameter table
1.3.1 數(shù)據(jù)歸一化
數(shù)據(jù)歸一化也就是數(shù)據(jù)無量綱化處理,主要解決數(shù)據(jù)的可比性。將原始數(shù)據(jù)均轉(zhuǎn)換為無量綱化指標(biāo)測評值,即各指標(biāo)值都處于同一個(gè)數(shù)量級別上,可以有效提高數(shù)學(xué)模型的準(zhǔn)確性[20]。本研究選擇較為常用的線性歸一化方法對各參數(shù)進(jìn)行歸一化處理[21]。
1.3.2 特征參數(shù)提取
對所獲取的98個(gè)葉綠素?zé)晒鈪?shù)做Person相關(guān)性分析可得,98個(gè)熒光參數(shù)之間存在不同程度的相關(guān)性,如圖2所示,其中相關(guān)系數(shù)絕對值大于0.6的占比大于40%,相關(guān)系數(shù)絕對值最高可達(dá)0.934。表明各參數(shù)間存在冗余信息。
為挖掘具有重要價(jià)值的熒光參數(shù),并簡化干旱脅迫識別模型復(fù)雜度,降低計(jì)算時(shí)間,增強(qiáng)模型泛化能力,提高識別準(zhǔn)確率,本文分別采用連續(xù)投影法(SuccessiveProjections Algorithm,SPA)、迭代保留信息變量法(Iteratively Retains Informative Variables,IRIV)和變量空間迭代收縮法(Variable Iterative Space Shrinkage Approach,VISSA)對葉綠素?zé)晒鈪?shù)進(jìn)行優(yōu)選。
SPA算法是一種前向循環(huán)變量選擇方法,能夠有效的選擇特征變量,降低數(shù)據(jù)維度[22]。該方法先設(shè)定選取參數(shù)個(gè)數(shù)的最大值和最小值,然后循環(huán)迭代,計(jì)算該變量在其他未被選入變量上投影的大小,將投影向量最大的變量引入到變量組合中,建立偏最小二乘(Partial Least Squares,PLS)回歸模型,通過計(jì)算不同參數(shù)組合得到的均方根誤差(Root Mean Square Error,RMSE),直至特征參數(shù)的數(shù)目達(dá)到最小RMSE對應(yīng)的數(shù)值,循環(huán)結(jié)束[23]。
IRIV算法是云永歡等[24]于 2014年提出的一種特征變量選擇方法。該方法通過模型集群分析(Model Population Analysis,MPA),將全部變量劃分為強(qiáng)信息、弱信息、無信息和干擾信息變量。通過剔除干擾信息變量和無信息變量,保留強(qiáng)信息變量和弱信息變量,最后通過反向消除策略對剩下的強(qiáng)信息變量和弱信息變量進(jìn)行反向消除,剩余變量即為特征變量。
VISSA算法是基于 MPA 和加權(quán)二進(jìn)制采樣(Weighted Binary Matrix Sampling,WBMS)。首先,使用WBMS從原始數(shù)據(jù)集中提取一些子訓(xùn)練數(shù)據(jù)集,然后建立變量子集的PLS模型。對不同子模型的交互驗(yàn)證均方根誤差(Root Mean Square Error of Cross-Verification,RMSECV)值進(jìn)行排序以獲得最佳模型,提取最佳模型并獲得新的子訓(xùn)練數(shù)據(jù)集。重復(fù)上述過程,直到所有變量的權(quán)重恒定(1或0)。最后得到最佳模型,選擇最優(yōu)變量集[25]。
1.3.3 建模方法及模型評價(jià)
本研究利用線性判別分析(Linear Discriminant Analysis,LDA)、支持向量機(jī)(Support Vector Machines,SVM)和k 最近鄰(k-Nearest Neighbor,KNN)3種機(jī)器學(xué)習(xí)算法建立干旱脅迫狀態(tài)識別模型,并分析其對識別準(zhǔn)確度的影響。采用 K-折交叉驗(yàn)證(K-fold cross validation) 評價(jià)模型性能。該研究選擇5折交叉驗(yàn)證法。在每一折交叉驗(yàn)證中,從樣本數(shù)據(jù)中隨機(jī)選擇 80%樣本構(gòu)建訓(xùn)練集,其余 20%為測試集。對整個(gè)數(shù)據(jù)集計(jì)算RMSE,作為模型評估的指標(biāo)。對所有樣本的識別結(jié)果建立全局混淆矩陣,計(jì)算準(zhǔn)確率。
該研究使用SPA、IRIV和VISSA算法對葉綠素?zé)晒鈪?shù)進(jìn)行優(yōu)選,圖3為不同算法的優(yōu)選過程,表2為不同算法的優(yōu)選結(jié)果。
2.1.1 基于SPA的參數(shù)優(yōu)選
該研究使用 SPA算法對葉綠素?zé)晒鈪?shù)進(jìn)行優(yōu)選時(shí),考慮到計(jì)算效率,設(shè)定選取參數(shù)個(gè)數(shù)范圍為1~38。參數(shù)個(gè)數(shù)與其對應(yīng)的 RMSE如圖3a所示。由圖3a可知,RMSE隨著參數(shù)個(gè)數(shù)的增加呈現(xiàn)先下降后基本不變的趨勢,表明參數(shù)個(gè)數(shù)較少時(shí)(參數(shù)個(gè)數(shù)小于6),難以代表植物光合作用的全部信息,隨著參數(shù)個(gè)數(shù)不斷增加,RMSE不斷減小,表明SPA所選取的熒光參數(shù)包含植物受水分脅迫的重要信息,在建模中起積極的作用。當(dāng)選取的參數(shù)個(gè)數(shù)大于 12(圖3a中方框所示)后,RMSE基本保持穩(wěn)定,因此研究共提取12個(gè)葉綠素?zé)晒鈩?dòng)力學(xué)參數(shù)。SPA選取的12個(gè)參數(shù)如表2所示。
2.1.2 基于IRIV的參數(shù)優(yōu)選
在IRIV選擇參數(shù)的過程中,采用5折交叉驗(yàn)證的方式建立PLS模型,以RMSECV為評價(jià)指標(biāo)選擇特征變量。參數(shù)選取過程如圖3b所示,經(jīng)過第1次迭代,參數(shù)個(gè)數(shù)由98降為45,第2、3次迭代后,參數(shù)個(gè)數(shù)穩(wěn)定在36。通過反向消除無關(guān)或干擾參數(shù)后,保留了29個(gè)葉綠素?zé)晒鈩?dòng)力學(xué)參數(shù)。IRIV選取的29個(gè)參數(shù)如表2所示。
表2 3種參數(shù)優(yōu)選算法結(jié)果Table 2 Three parameter optimization algorithm results
2.1.3 基于VISSA的參數(shù)優(yōu)選
參考文獻(xiàn)[25],設(shè)置VISSA算法中WBMS生成的變量個(gè)數(shù)為2 000,子模型比例設(shè)置為5%,變量的初始權(quán)重設(shè)置為0.5。并采用5折交叉驗(yàn)證的方式建立PLS模型,根據(jù)不同參數(shù)個(gè)數(shù)下的RMSECV確定最終變量個(gè)數(shù)。圖3c是RMSECV隨優(yōu)選參數(shù)個(gè)數(shù)的變化趨勢,由圖3c可知,隨著參數(shù)個(gè)數(shù)的增加,RMSECV呈現(xiàn)先大幅度下降后小幅度增加的趨勢。較少的變量對應(yīng)的RMSECV較大,表明較少的變量無法準(zhǔn)確表達(dá)干旱脅迫程度。當(dāng)參數(shù)個(gè)數(shù)過大時(shí),RMSECV隨之增大,表明此時(shí)的參數(shù)中包含冗余信息,對建模不利。該研究在RMSECV最小處(圖3c中方框所示)選得25個(gè)葉綠素?zé)晒鈩?dòng)力學(xué)參數(shù)。VISSA選取的25個(gè)參數(shù)如表2所示。
2.1.4 葉綠素?zé)晒鈪?shù)選取結(jié)果分析
根據(jù)上述3種參數(shù)優(yōu)選算法,得到了3種葉綠素?zé)晒鈩?dòng)力學(xué)參數(shù)的組合。表2是SPA、IRIV、VISSA所選葉綠素?zé)晒鈪?shù)的結(jié)果比較??梢钥闯霾煌惴ㄟx取的參數(shù)有部分重疊,其中 3種算法都選中的熒光參數(shù)有 5個(gè),分別為55號QY_L2、64號NPQ_L3、87號qL_L2、90號 qL_Lss、93號 qL_D3。為更深層次的分析上述 5個(gè)熒光參數(shù)和干旱脅迫的關(guān)系,本文分析了不同干旱程度下這5個(gè)熒光參數(shù)的變化,如圖4所示。
由圖4可知,QY_L2隨著干旱脅迫程度的增加呈現(xiàn)減小的趨勢,說明干旱脅迫降低了葉片的光化學(xué)淬滅能力。NPQ_L3為非光化學(xué)淬滅,其反映了光系統(tǒng)Ⅱ吸收的能量用于耗散為熱量的比例,也就是植物耗散過剩光能為熱量的能力,即光保護(hù)能力[26]。NPQ_L3隨著干旱脅迫程度的增強(qiáng)而上升說明葉片在干旱脅迫下天然色素通過熱耗散的方式釋放過多的熱量,來減少 PSⅡ吸收的過多光能,從而減緩衰老[27]。qL_L2、qL_Lss、qL_D3均為光化學(xué)淬滅,其表明了光系統(tǒng)Ⅱ吸收的能量用于光化學(xué)反應(yīng)的比例,開放態(tài)的光系統(tǒng)Ⅱ反應(yīng)中心所占的比例,反應(yīng)了光合活性的高低,除qL_Lss在輕度干旱狀態(tài)下稍有上升外,其余均隨著干旱脅迫程度增加而降低,表明干旱脅迫導(dǎo)致PSⅡ天然色素捕捉光能分配給電子傳遞速率的值減少[28]。
利用LDA、SVM和KNN建立作物干旱脅迫識別模型。SVM建模選擇種類為二次SVM,核函數(shù)為二次方內(nèi)核,選擇一對一多分類方法。KNN建模選擇種類為加權(quán)KNN,設(shè)置鄰近數(shù)為 10。各建模方法的識別準(zhǔn)確率如表3所示。從表3可以看出,98個(gè)熒光參數(shù)均參與建模時(shí),LDA識別準(zhǔn)確率最高,為94.2%;由SPA選出的12個(gè)熒光參數(shù)參與建模時(shí),LDA識別準(zhǔn)確率最高,為94.6%;由IRIV選出的29個(gè)熒光參數(shù)參與建模時(shí),LDA識別準(zhǔn)確率最高,為97.8%;經(jīng)VISSA選出的25個(gè)熒光參數(shù)參與建模時(shí),LDA識別準(zhǔn)確率最高,為97.8%。僅用3種算法提取的 5個(gè)公共參數(shù)建模時(shí),準(zhǔn)確率最高可達(dá)83.7%,仍達(dá)到了較高的精度,表明這5個(gè)公共參數(shù)是與植物干旱脅迫程度高度相關(guān)的熒光參數(shù)。
表3 不同建模方法下的干旱脅迫識別準(zhǔn)確率Table 3 Model accuracy rate under different modeling methods
綜上所述,LDA建立的苗期番茄干旱脅迫識別模型的平均識別準(zhǔn)確度最高,SVM次之,KNN效果最差。SPA、IRIV、VISSA所選參數(shù)的建模準(zhǔn)確度與全參數(shù)的建模準(zhǔn)確度相當(dāng)或略高,表明所選參數(shù)包含了植物干旱脅迫狀態(tài)下的大部分光合作用信息,證明利用 3種參數(shù)優(yōu)選算法提取熒光參數(shù)的有效性。
整體識別準(zhǔn)確率雖然可以反映模型整體的分類效果,但無法得到不同干旱程度的分類效果,因此,需要通過混淆矩陣來分析具體的分類效果[29],本研究主要針對分類效果最好的LDA模型下不同參數(shù)提取方法對應(yīng)的結(jié)果進(jìn)行分析,其混淆矩陣如圖5所示??梢缘玫絀RIV-LDA對適宜水分、輕度干旱、中度干旱和重度干旱的識別準(zhǔn)確率分別為 100%、95%、98%、98%,較全參數(shù)-LDA分別提高了6%、4%、2%和2%,建模效果良好。
以苗期番茄植株為研究對象,利用葉綠素?zé)晒鈪?shù)完成不同干旱脅迫狀態(tài)下植株的干旱等級識別。使用連續(xù)投影法(Successive Projections Algorithm,SPA)、迭代保留信息變量法(Iteratively Retains Informative Variables,IRIV)和變量空間迭代收縮法(Variable Iterative Space Shrinkage Approach,VISSA)獲取與干旱脅迫相關(guān)的熒光參數(shù),通過線性判別分析(Linear Discriminant Analysis,LDA)、支持向量機(jī)(Support Vector Machines,SVM)和k 最近鄰(k-Nearest Neighbor,KNN)算法構(gòu)建識別模型。通過對比分析試驗(yàn)結(jié)果,確定最優(yōu)干旱脅迫狀態(tài)識別模型。主要有以下結(jié)論:
1)為降低模型復(fù)雜度和冗余度,使用SPA、IRIV、VISSA對獲取的98個(gè)葉綠素?zé)晒鈪?shù)進(jìn)行參數(shù)優(yōu)選,分別得到12、25、29個(gè)熒光參數(shù),并分析3種算法提取的5個(gè)公共參數(shù)(光適應(yīng)過程中L2時(shí)刻的實(shí)際光量子效率、光適應(yīng)過程中L3時(shí)刻的非光化熒光淬滅、基于“Lake”模型的光適應(yīng)過程中L2時(shí)刻的光適應(yīng)光化學(xué)淬滅、基于“Lake”模型的穩(wěn)態(tài)光適應(yīng)光化學(xué)淬滅、基于“Lake”模型的暗弛豫過程中D3時(shí)刻的光適應(yīng)光化學(xué)淬滅)的變化趨勢和其所反映的干旱程度對植株光合作用的影響。
2)基于上述熒光參數(shù)提取,分別使用LDA、KNN、SVM算法建立干旱脅迫狀態(tài)識別模型,試驗(yàn)結(jié)果表明LDA算法建模準(zhǔn)確度高于KNN和SVM算法,且參數(shù)優(yōu)選之后的建模準(zhǔn)確度與全參數(shù)建模準(zhǔn)確度相當(dāng)或有所提高,表明了參數(shù)優(yōu)選方法的有效性。僅用三種算法提取的5個(gè)公共參數(shù)建模時(shí),準(zhǔn)確度最高可達(dá)到83.7%,表明這 5個(gè)公共參數(shù)是與植物干旱脅迫程度高度相關(guān)的熒光參數(shù),包含了干旱脅迫下植物光合作用的大部分信息。
3)針對建模效果最好的 LDA模型,對不同熒光參數(shù)建模結(jié)果的混淆矩陣進(jìn)行分析。可以得到 IRIV參數(shù)優(yōu)選得到的LDA模型對適宜水分、輕度干旱、中度干旱和重度干旱的識別準(zhǔn)確率較全參數(shù)分別提高了6%、4%、2%和2%,準(zhǔn)確率分別達(dá)到了100%、95%、98%、98%。試驗(yàn)結(jié)果表明利用葉綠素?zé)晒鈩?dòng)力學(xué)參數(shù)對苗期番茄干旱脅迫狀態(tài)識別是可行的。