陳麗,崔運(yùn)鵬*,王末,牛永春,徐愛國,劉珂藝,劉娟,侯穎
(1.中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2.農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,北京 100081;3.中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)資源與農(nóng)業(yè)區(qū)劃研究所,北京 100081)
玉米是我國重要的糧食和飼料作物,2019 年播種面積4 127 萬hm2(6.19 億畝),產(chǎn)量2.6 億t,僅次于美國,同時(shí)玉米在醫(yī)藥、化工等領(lǐng)域也具有廣泛用途[1]。近年來,我國玉米生產(chǎn)區(qū),尤其是東北、華北和黃淮主產(chǎn)區(qū)普遍采用多年連作、高肥、密植、免耕、秸稈還田等耕作措施,導(dǎo)致生產(chǎn)環(huán)境生態(tài)失衡、土壤環(huán)境惡化,玉米土傳病害連年普發(fā)[2]。玉米絲黑穗病是由絲軸黑粉菌(Sphacelotheca reiliana)引起的一種最常見土傳病害,在我國部分地區(qū)(尤其北方)危害嚴(yán)重,每年因該疾病造成的玉米產(chǎn)量損失可達(dá)30萬t[3]。
土傳病害的病原菌存活于土壤中或者土壤表面,并借土壤環(huán)境進(jìn)行生長繁殖[4-5],土壤非生物因子的變化可對(duì)病原菌生存與致病能力產(chǎn)生較大影響[6]。已有研究表明,土壤pH 可以通過引起土壤微生物群落變化,間接地影響青枯菌在土壤中的存活[7];土壤有效磷和速效鉀會(huì)對(duì)盛花期油菜葉部菌核病發(fā)病產(chǎn)生較大影響[8];此外,土壤質(zhì)地以及養(yǎng)分元素的種類、含量、形態(tài)也會(huì)影響病原菌的存活[9]。土傳病原菌種類繁多,其對(duì)不同寄主和環(huán)境因子的侵害能力和程度不同。玉米絲黑穗病的發(fā)生除受耕作措施影響外,還與土壤的溫度、濕度有著密切關(guān)系,但土壤地力條件對(duì)病菌積累和病害發(fā)生的影響卻鮮有研究和報(bào)道。
當(dāng)前對(duì)作物病害發(fā)生、發(fā)展影響因素的研究常用方法包括Pearson 相關(guān)性分析、Spearman 相關(guān)性分析和逐步回歸分析等方法。針對(duì)生物數(shù)據(jù)多維性、不穩(wěn)定性、變量間相互影響等特點(diǎn),通過建立線性相關(guān)關(guān)系進(jìn)行病害主要影響因子篩選和二者間相關(guān)性分析,對(duì)于處理多維度、非線性的數(shù)據(jù),往往不能達(dá)到對(duì)變量間復(fù)雜相互關(guān)系進(jìn)行深入探究的目的[10]。決策樹及其優(yōu)化、改進(jìn)算法(本研究統(tǒng)稱決策樹算法)是數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)領(lǐng)域中基于邏輯的經(jīng)典的分類預(yù)測(cè)方法之一,能夠較好地處理變量間的非線性關(guān)系,對(duì)噪聲信息和數(shù)據(jù)缺失具有較好的穩(wěn)健性和魯棒性。此外,決策樹屬于白箱模型,整個(gè)計(jì)算過程可見,樹狀結(jié)構(gòu)簡單直觀,非常便于用戶理解和解釋,在農(nóng)作物病情監(jiān)測(cè)預(yù)警、病害診斷識(shí)別以及種植面積提取等方面都表現(xiàn)出較好的應(yīng)用效果[11-12]。綜上,本研究以耕地地力因子為自變量,玉米絲黑穗病發(fā)生程度為因變量,分別采用分類與回歸樹模型(Classification and regression tree,CART)、隨機(jī)森林模型(Random forest,RF)和極端隨機(jī)樹模型(Extremely randomized trees,ERT)構(gòu)建病害發(fā)生與耕地地力關(guān)系模型,從宏觀尺度對(duì)玉米絲黑穗病發(fā)生程度的地力影響因子進(jìn)行判斷和預(yù)測(cè)分析,以期為玉米絲黑穗病的科學(xué)防治提供依據(jù)。
玉米是一種喜溫作物,對(duì)土壤條件要求不十分嚴(yán)格,主要種植于我國東北、華北和西南地區(qū)。廣泛的玉米種植以及我國復(fù)雜多樣的土壤類型分布,造成玉米生產(chǎn)耕地地力條件區(qū)域差異明顯。因此,基于耕地地力空間異質(zhì)性和數(shù)據(jù)的可獲得性,本研究以縣域?yàn)檠芯繂卧?,選取了515 個(gè)主要玉米種植縣作為研究區(qū)域(圖1)。研究所用的數(shù)據(jù)主要包括縣域玉米絲黑穗病病情數(shù)據(jù)和耕地地力數(shù)據(jù)。其中,玉米絲黑穗病病情數(shù)據(jù)來源于農(nóng)業(yè)農(nóng)村部全國農(nóng)業(yè)技術(shù)推廣服務(wù)中心和2008—2014 年全國農(nóng)業(yè)植保專業(yè)統(tǒng)計(jì)資料。耕地地力數(shù)據(jù)主要有3 個(gè)來源:有機(jī)質(zhì)(Organic matter,OM)、全氮(Total nitrogen,TN)、有效磷(Available phosphorus,AP)、速效鉀(Available potassium,AK)和pH 來自全國農(nóng)業(yè)技術(shù)推廣服務(wù)中心編著的《測(cè)土配方施肥土壤基礎(chǔ)養(yǎng)分?jǐn)?shù)據(jù)集(2005—2014)》;全磷(Total phosphorus,TP)和全鉀(Total potassium,TK)來自科技基礎(chǔ)性工作項(xiàng)目“1∶5 萬土壤圖籍編撰及高精度數(shù)字土壤構(gòu)建(二期工程)”的土壤剖面數(shù)據(jù)庫;對(duì)于無法通過上述途徑獲取完整數(shù)據(jù)的縣域,通過國家科技基礎(chǔ)條件平臺(tái)——國家地球系統(tǒng)科學(xué)數(shù)據(jù)中心(http://www.geodata.cn)全國第二次土壤普查工作成果進(jìn)行數(shù)據(jù)補(bǔ)充。本研究對(duì)剖面分層數(shù)據(jù)經(jīng)計(jì)算0~20 cm加權(quán)平均值后,按算術(shù)平均值計(jì)算縣域平均值。
圖1 研究區(qū)域空間分布Figure 1 Distribution map of the study area
1.2.1 缺省數(shù)據(jù)處理
CART、RF和ERT支持?jǐn)?shù)據(jù)缺失情況下的運(yùn)算,但考慮到本研究區(qū)域空間不連續(xù)性和土壤地力因子的空間異質(zhì)性,缺省值數(shù)據(jù)處理采取直接刪除的方式。
1.2.2 不平衡數(shù)據(jù)修正
數(shù)據(jù)不平衡問題廣泛存在,不平衡性是指數(shù)據(jù)中目標(biāo)變量分布不均衡。使用決策樹等傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行分類,往往更偏向于多數(shù)類,從而對(duì)少數(shù)類的分類精度造成負(fù)面影響[13]??梢酝ㄟ^基于數(shù)據(jù)的修正和基于算法的修正兩種方式進(jìn)行處理,常用方法有過采樣法(Oversampling)、欠采樣法(Undersampling)和閾值移動(dòng)法(Threshold-moving)等[14]。
玉米絲黑穗病的發(fā)生具有典型的時(shí)空異質(zhì)性,我國一般年份玉米絲黑穗病的田間發(fā)病率不超過10%[15],黑龍江主栽品種低于5%。因此,針對(duì)研究數(shù)據(jù)集不平衡性問題,本研究采用過采樣法的代表性算法SMOTE(Synthetic minority oversampling technique)對(duì)訓(xùn)練集中少數(shù)類樣本進(jìn)行插值,生成人工樣本,實(shí)現(xiàn)數(shù)據(jù)集均衡的目的。SMOTE 算法的步驟:①對(duì)少數(shù)類訓(xùn)練樣本集中的每個(gè)樣本xj計(jì)算其與其他樣本之間的歐式距離,找到其K近鄰樣本,其中j=1,2,…,Nj,Nj表示少數(shù)類訓(xùn)練樣本的數(shù)目;②從K近鄰樣本中隨機(jī)選擇一個(gè)樣本計(jì)算其與訓(xùn)練樣本xj之間的特征差值;③乘以一個(gè)隨機(jī)數(shù)δ,δ∈[0,1];④生成人工少數(shù)類樣本xnew=xj+δ×dj;⑤重復(fù)操作步驟①~④,直到訓(xùn)練樣本集達(dá)到平衡。
1.3.1 病害發(fā)生程度分級(jí)
玉米絲黑穗病在不同年份、不同地域的病害發(fā)生程度不同,多處于2%~8%之間。根據(jù)我國農(nóng)業(yè)行業(yè)標(biāo)準(zhǔn)《玉米抗病蟲性鑒定技術(shù)規(guī)范第3 部分:玉米抗絲黑穗病鑒定技術(shù)規(guī)范》(NY/T 1248.3—2006)[16]中田間玉米發(fā)病程度分級(jí)標(biāo)準(zhǔn),得出我國玉米主產(chǎn)地區(qū)絲黑穗病平均發(fā)生情況,結(jié)果顯示不同病害發(fā)生程度分級(jí)下區(qū)縣數(shù)目差異較大,且大部分區(qū)縣發(fā)病率在5%以下。考慮到數(shù)據(jù)的不均衡性,級(jí)別劃分過多可能會(huì)帶來預(yù)測(cè)準(zhǔn)確性的降低,同時(shí),為了減少模型在高發(fā)病類別預(yù)測(cè)中漏分機(jī)率,提高風(fēng)險(xiǎn)防范能力,因此,采用一種空間分級(jí)算法——自然斷裂點(diǎn)法(Jenks)對(duì)模型構(gòu)建的病害發(fā)生程度進(jìn)行分級(jí)。分級(jí)結(jié)果為:病害發(fā)生程度1 級(jí)(GⅠ),發(fā)病率≤2.5%;病害發(fā)生程度2級(jí)(GⅡ),發(fā)病率>2.5%。2.5%的發(fā)病率處于偏輕向中等病情的過渡階段,也較符合提前預(yù)判預(yù)防的實(shí)際需求。
1.3.2 特征變量選取
《耕地地力調(diào)查與質(zhì)量評(píng)價(jià)技術(shù)規(guī)程》(NY/T 1634—2008)中耕地地力因子共分為6 類60 小項(xiàng)[17],分別是氣象、立地條件、剖面性狀、土壤理化性狀、障礙因素和土壤管理,其中與土傳病害發(fā)生關(guān)系密切的主要為土壤理化性狀和土壤管理,通過文獻(xiàn)調(diào)研、咨詢玉米病害專家意見,并結(jié)合數(shù)據(jù)的可獲取性,本研究選取OM、TN、TP、TK、AP、AK和pH值7個(gè)因子作為特征變量。為了得到更好的模型訓(xùn)練效果,本研究在建模前對(duì)特征變量進(jìn)行了Z-score歸一化處理。
1.4.1 CART模型
CART 是以Gini 系數(shù)的減少量為測(cè)度指標(biāo),選取使Gini 系數(shù)減少量最大的特征變量和分割屬性閾值作為切分點(diǎn),對(duì)訓(xùn)練樣本數(shù)據(jù)集進(jìn)行分組構(gòu)造的二叉決策樹模型,并通過剪枝降低復(fù)雜度、避免過擬合、提高樹的可解釋性[18]。本研究的剪枝策略為預(yù)剪枝,最大樹深度設(shè)置為5。
CART模型最優(yōu)特征選擇:
Gini系數(shù)表示特征變量的不確定度,其定義為:
式中:S表示訓(xùn)練樣本數(shù)據(jù)集,其包含樣本數(shù)為N;Ci為樣本分成的不同類別;m為樣本分成的類別數(shù);i∈{1,2,3,…,m};P(Ci)為樣本歸為第i類的概率,P(Ci)=SiN,Si為歸為第i類樣本類別Ci的訓(xùn)練樣本個(gè)數(shù),且N=。
如果訓(xùn)練樣本集S根據(jù)特征A是否取某一可能值a被分割成S1和S2兩個(gè)子樣本集,則在特征A的條件下,集合S的Gini系數(shù)為:
式中:N1、N2分別表示S1和S2兩個(gè)子樣本集包含的樣本個(gè)數(shù)。
Gini系數(shù)的減少量為:
1.4.2 RF模型
RF 是一種多棵樹集成分類器,它以CART 為元分類器,通過集成學(xué)習(xí)的思想將多棵樹集成在一起,增強(qiáng)分類能力,提高分類精度。RF通過自助法(Bootstrap)構(gòu)建多個(gè)相對(duì)獨(dú)立的決策樹,每棵決策樹訓(xùn)練集的獲得采用有放回的隨機(jī)抽樣,抽樣生成的袋外數(shù)據(jù)可以進(jìn)行預(yù)測(cè)分類正確率的評(píng)估以及模型泛化能力的估計(jì)[19]。相比于僅構(gòu)建一棵樹的CART 模型,RF無需進(jìn)行剪枝操作,通過多數(shù)投票機(jī)制進(jìn)行最終的決策。RF 雖然能夠有效避免陷入過度擬合和局部最優(yōu),但對(duì)于處理不平衡數(shù)據(jù)問題仍存在不足:一是少數(shù)類訓(xùn)練樣本由于本身數(shù)據(jù)量較少,被選中的概率就更低,從而加劇不平衡性;二是少數(shù)類訓(xùn)練樣本占比較低,訓(xùn)練出來的決策樹不能很好地體現(xiàn)占有量少的少數(shù)類特點(diǎn)[20]。
1.4.3 ERT模型
ERT 同樣是一種多棵樹集成分類器,與RF 不相同的是,為減少每個(gè)基分類器的偏差,ERT 中的每棵樹都是利用整個(gè)訓(xùn)練樣本進(jìn)行學(xué)習(xí),而在分割樹節(jié)點(diǎn)時(shí),ERT使用特征隨機(jī)子集(包括分裂特征和分割值)來訓(xùn)練每個(gè)基分類器,表現(xiàn)出極強(qiáng)的隨機(jī)性[21]。
獨(dú)立的樣本數(shù)據(jù)對(duì)模型進(jìn)行驗(yàn)證能夠更好地體現(xiàn)實(shí)際模型的精度[22]。本研究從原始樣本集中隨機(jī)選擇1/10 數(shù)據(jù)作為測(cè)試樣本,利用準(zhǔn)確率(Accuracy,Ac)、查準(zhǔn)率(Precision,Pr)、查全率(又稱召回率,Recall,Re)和F1 score(F1)等指標(biāo)對(duì)模型預(yù)測(cè)總精度和類別精度進(jìn)行驗(yàn)證。其中,模型總精度Pr、Re 和F1計(jì)算采用宏平均(Macro average)法。
受試者工作特征曲線(Receiver operating characteristic curve,ROC)源于雷達(dá)信號(hào)探測(cè)分析技術(shù),后被引入數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域進(jìn)行分類器性能評(píng)價(jià),其顯示了輸出閾值在所有可能值的范圍內(nèi)移動(dòng)時(shí)模型的敏感性(正確分類的陽性觀察值的比例,即真正例率或查準(zhǔn)率)和特異性(正確分類的陰性觀察值的比例,即真反例率)[23]。ROC 曲線以不同閾值下的真正例率(靈敏性)為縱坐標(biāo),假正例率(1-特異性)為橫坐標(biāo)繪制而成。對(duì)于多分類問題,通常采用One VS Rest 和One VS One 方法轉(zhuǎn)化為二分類進(jìn)行計(jì)算,可以單獨(dú)繪制各類別的ROC 曲線,也可以繪制出總ROC 曲線。AUC(Area under ROC curve)表示ROC 曲線下的面積,通過AUC 值可以直觀地判斷不同分類器優(yōu)劣和泛化性能,AUC 值通常介于0.5~1 之間,AUC值越大,分類器分類質(zhì)量越好[24]。
耕地地力特征對(duì)病害發(fā)生預(yù)測(cè)的相對(duì)重要性可以通過分割樹節(jié)點(diǎn)的特征使用的相對(duì)順序(即深度)來評(píng)估,在樹頂部使用的特征會(huì)對(duì)更大一部分輸入樣本的最終預(yù)測(cè)決策作出貢獻(xiàn)。Scikit-learn 通過將特征貢獻(xiàn)的樣本比例與數(shù)據(jù)集純度減少相結(jié)合得到特征的重要性[25],并且對(duì)該結(jié)果進(jìn)行了歸一化處理,計(jì)算后的各特征重要性取值在0~1之間,總和為1,且取值越高,其對(duì)應(yīng)的特征對(duì)預(yù)測(cè)決策的貢獻(xiàn)越大。
本研究中CART、RF 和ERT 模型構(gòu)建和評(píng)價(jià)均使用了Scikit-learn 中包含的相應(yīng)模塊,3 種模型和SMOTE 算法的實(shí)現(xiàn)均采用Python 編程語言。RF 和ERT 算法運(yùn)行時(shí)需要設(shè)置2 個(gè)參數(shù),即決策樹數(shù)目(Ntree)和節(jié)點(diǎn)用來分裂時(shí)抽取的特征個(gè)數(shù)(Mtry)。通過大量試驗(yàn),本研究Ntree 設(shè)置為300,Mtry 設(shè)置為總特征的平方根。需要說明的是,Scikit-learn 中RF和ERT 預(yù)測(cè)結(jié)果的實(shí)現(xiàn)是取每個(gè)基分類器預(yù)測(cè)概率的平均,而不是讓每個(gè)基分類器對(duì)類別進(jìn)行投票。
具體訓(xùn)練步驟如下:①對(duì)原始數(shù)據(jù)進(jìn)行清洗、格式化和缺省值處理,生成標(biāo)準(zhǔn)數(shù)據(jù)集;②訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集隨機(jī)劃分,調(diào)用Scikit-learn 中的sklearn.model_selection.train_test_split 方 法;③使 用SMOTE 算法對(duì)訓(xùn)練集進(jìn)行隨機(jī)過采樣;④通過調(diào)用Scikit-learn 中相關(guān)API,基于訓(xùn)練集數(shù)據(jù)樣本,通過多次參數(shù)調(diào)試,構(gòu)建CART、RF 和ERT 3 種算法模型分類器,并對(duì)測(cè)試集數(shù)據(jù)進(jìn)行分類預(yù)測(cè);⑤利用Ac、Pr、Re 和F1 等指標(biāo)進(jìn)行模型精度評(píng)價(jià),并調(diào)用Matplotlib.pyplot 模塊的相關(guān)方法繪制出ROC 曲線,進(jìn)行分類器性能評(píng)價(jià)。
參照農(nóng)業(yè)行業(yè)標(biāo)準(zhǔn)NY/T 1248.3—2006玉米絲黑穗病病情分級(jí)標(biāo)準(zhǔn),進(jìn)行統(tǒng)計(jì)和空間分異分析。由表1 可以看出,2008—2014 年,玉米絲黑穗病發(fā)病程度為輕微、偏輕、中等、偏重的縣域分別有304、161、44、6個(gè),未出現(xiàn)嚴(yán)重發(fā)病的縣域,大部分(90%)玉米主產(chǎn)地區(qū)的玉米絲黑穗病發(fā)病率在5%以下,玉米品種的不斷更新?lián)Q代以及科學(xué)有效地防治對(duì)于控制該病發(fā)生、發(fā)展起到重要作用。病情偏重的6 個(gè)縣域分別是淶源縣、青龍滿族自治縣、五常市、應(yīng)城市、興城市和子長縣,均出現(xiàn)部分年份玉米絲黑穗病高發(fā)的情況,表明小范圍、區(qū)域性的玉米絲黑穗病防治仍不容忽視(圖2)。隨著我國玉米播種面積持續(xù)增加,加強(qiáng)玉米病蟲害監(jiān)測(cè)與防控,減少其引發(fā)的玉米產(chǎn)量損失,對(duì)于玉米安全生產(chǎn)意義重大。
圖2 研究區(qū)玉米絲黑穗病病情空間分布Figure 2 Spatial distribution of corn head smut in the study area
表1 玉米絲黑穗病發(fā)病情況統(tǒng)計(jì)Table 1 Statistics on the incidence of corn head smut
為了探討決策樹模型在本研究中的適用性,比較不同模型分類效果,在相同的計(jì)算機(jī)軟硬件環(huán)境下,進(jìn)行了最優(yōu)模型篩選,以及基于同一測(cè)試數(shù)據(jù)集的分類驗(yàn)證。由表2 可以看出,RF 分類的準(zhǔn)確率、查準(zhǔn)率分別為0.843、0.818,ERT 為0.824、0.828,均高于CART,基于多棵樹的集成分類器的整體分類效果明顯優(yōu)于基于單棵樹的分類器分類效果;就集成分類器內(nèi)部而言,ERT 查準(zhǔn)率略高于RF,但查全率低于RF,因此通過二者的平衡分?jǐn)?shù)F1 得分可以看出,RF綜合性能相對(duì)較好。具體到不同的病害發(fā)生程度,決策樹模型在GⅠ上的預(yù)測(cè)分類Pr、Re 和F1 值明顯大于GⅡ,表明3 個(gè)模型在GⅠ上使用均呈現(xiàn)出較好的分類效果。然而GⅠ類玉米絲黑穗病病情輕微,對(duì)玉米產(chǎn)量影響有限,而準(zhǔn)確監(jiān)測(cè)病害中高發(fā)情況、減少模型在GⅡ類分類預(yù)測(cè)中漏分機(jī)率,對(duì)及時(shí)開展預(yù)防措施有重要意義。因此,綜合考慮衡量,ERT 在GⅡ類上的Re 最大,能較好地減少中高發(fā)病類別預(yù)測(cè)中漏分機(jī)率,提高風(fēng)險(xiǎn)防范能力,模型整體分類效果較佳。且最終確定3 個(gè)模型選擇優(yōu)先級(jí)為ERT>RF>CART。
表2 三種模型分類精度比較Table 2 Comparison of classification accuracy of three models
采用ROC 曲線和AUC 進(jìn)一步對(duì)模型精度、泛化性能進(jìn)行比較。由圖3a 可以看出,3 個(gè)模型的平均ROC 曲線均位于坐標(biāo)點(diǎn)(0,0)和(1,1)連線的左上方,模型分類效果好于隨機(jī)分類;由于3 個(gè)模型在空間上存在交叉,難以一般性地推斷各模型優(yōu)劣性,通過CART、RF 和ERT 3個(gè)模型曲線下面積AUC值(0.77、0.84、0.83),可以判斷RF、ERT 模型整體性能優(yōu)于CART 模型,RF 和ERT 二者的性能差距不明顯。具體到各個(gè)模型(圖3b、圖3c、圖3d),玉米絲黑穗病發(fā)病程度GⅠ類和GⅡ類的ROC 曲線也均位于坐標(biāo)點(diǎn)(0,0)和(1,1)連線的左上方,模型預(yù)測(cè)結(jié)果優(yōu)于“隨機(jī)猜測(cè)”;與各模型的平均ROC 曲線相比,雖然在某些閾值上表現(xiàn)出較優(yōu)的性能,但通過GⅠ類、GⅡ類以及模型整體AUC 值比較可以看出,類別整合后的模型整體性能得到提升。
圖3 3種模型ROC 曲線與AUC比較Figure 3 ROC and AUC of three different methods
耕地地力特征對(duì)病害發(fā)生預(yù)測(cè)的相對(duì)重要性可以通過分割樹節(jié)點(diǎn)的特征使用的相對(duì)順序(即深度)來評(píng)估,由圖4可以看出,耕地地力特征在3種模型預(yù)測(cè)病害發(fā)生程度中的貢獻(xiàn)存在一定差異,CART 中TP、pH 和TK 3 個(gè)特征的重要性相對(duì)較大,RF 中各特征重要性程度相對(duì)均衡,pH、AP、TP 和TK 略顯突出,ERT中AP、TK、pH和TP 4個(gè)特征重要性相對(duì)較大,綜合來看,耕地地力特征中的TP、pH、AP、TK 與玉米絲黑穗病發(fā)生程度之間具有較明顯的相關(guān)性。本研究基于縣域單元調(diào)查統(tǒng)計(jì)數(shù)據(jù),從數(shù)據(jù)挖掘和空間異質(zhì)性角度研究得出玉米絲黑穗病發(fā)生程度與耕地地力因子AP、TK、pH 和TP 具有較強(qiáng)的相關(guān)性,為進(jìn)一步研究耕地地力對(duì)玉米絲黑穗病發(fā)生的影響機(jī)理提供了線索,但具體影響機(jī)理、影響程度以及判定準(zhǔn)確性還需進(jìn)一步從試驗(yàn)角度進(jìn)行檢驗(yàn)和探索。
圖4 CART、RF和ERT模型特征變量重要性Figure 4 Feature variable importance of CART,RF and ERT models
目前,田間作物的病害防控主要依賴于化學(xué)品使用和田間管理措施,不僅費(fèi)時(shí)、昂貴,還會(huì)造成環(huán)境問題。隨著對(duì)成本效益和環(huán)境無害控制手段的日益重視,從宿主抗性、生物制劑、生物炭以及氣候環(huán)境變化等方面開展的致病機(jī)理、流行規(guī)律[26-27]等研究已成為熱點(diǎn)。土傳病害受到土壤中多種因素的影響,研究顯示:油菜根腫病的發(fā)生與pH、TP、TK、堿解氮和速效鐵等相關(guān)性顯著[28];硒對(duì)油菜菌核病發(fā)病有較強(qiáng)的影響,其可以提高植物抗性和控制病原活性[29];改變土壤條件會(huì)影響土壤微生物群落結(jié)構(gòu)、提高作物抗性,直接或間接抑制病害發(fā)生[30-31]。本研究通過CART、RF 和ERT 3 種決策樹模型,揭示出玉米絲黑穗病發(fā)生程度與耕地地力因子AP、TK、pH 和TP 具有一定的相關(guān)性,與丁偉[32]研究得到的氮磷鉀肥不同施用量、不同組合配比方式影響玉米絲黑穗病的結(jié)果基本一致,其田間試驗(yàn)顯示氮肥、磷肥和鉀肥對(duì)玉米絲黑穗病有一定影響,其中磷肥對(duì)病害的控制作用尤為明顯,這也間接驗(yàn)證了本研究結(jié)果。但本研究未能進(jìn)一步探究耕地地力因子對(duì)玉米絲黑穗病的影響機(jī)制,今后有必要從正負(fù)相關(guān)性、相關(guān)程度及機(jī)理方面開展深入研究。
在機(jī)器學(xué)習(xí)或統(tǒng)計(jì)學(xué)習(xí)模型中,算法對(duì)于數(shù)據(jù)擾動(dòng)的魯棒性是評(píng)價(jià)模型效果的重要一環(huán)。一些最廣泛使用的機(jī)器學(xué)習(xí)算法,如人工神經(jīng)網(wǎng)絡(luò)和僅構(gòu)建單棵樹的決策樹算法,存在輸入數(shù)據(jù)的微小變化而導(dǎo)致模型輸出巨大變化的不穩(wěn)定性和不可靠風(fēng)險(xiǎn)[33-34]。集成學(xué)習(xí)是一種強(qiáng)大的機(jī)器學(xué)習(xí)方法,它集成了大量的基礎(chǔ)模型來生成最終的輸出,克服了個(gè)體搜索過程中的缺陷,同時(shí)在沒有足夠的數(shù)據(jù)提供訓(xùn)練時(shí),表現(xiàn)出比單個(gè)模型更好的效果和泛化性能[35]。通過對(duì)比3個(gè)模型精度也可以看出,集成分類器RF 和ERT 總分類性能明顯優(yōu)于CART,在GⅠ上的分類效果也整體表現(xiàn)優(yōu)異;但考慮到準(zhǔn)確監(jiān)測(cè)病害中高發(fā)情況、減少模型在GⅡ類分類預(yù)測(cè)中漏分機(jī)率對(duì)開展病害預(yù)防的重要性,將3個(gè)模型在GⅡ類上的Re大小作為模型效果評(píng)判的重點(diǎn)關(guān)注指標(biāo),綜合衡量后確定3 個(gè)模型的選擇優(yōu)先級(jí)為ERT>RF>CART。
此外,本研究基于縣域單元調(diào)查統(tǒng)計(jì)數(shù)據(jù),從數(shù)據(jù)挖掘和空間異質(zhì)性角度開展研究,數(shù)據(jù)在空間和時(shí)間上的粒度相對(duì)粗糙,一定程度上限制了病害發(fā)生程度的細(xì)化分級(jí)和特征向量構(gòu)建,可能對(duì)模型分類效果和特征向量重要性判斷造成一定影響,下一步擬基于典型地區(qū)微觀地塊尺度數(shù)據(jù)進(jìn)行驗(yàn)證和分析。
本研究以縣域?yàn)檠芯繂卧肅ART、RF 和ERT 3 種機(jī)器學(xué)習(xí)算法嘗試構(gòu)建了病害發(fā)生與耕地地力因子關(guān)系模型,對(duì)影響玉米絲黑穗病發(fā)生程度的耕地地力因子進(jìn)行判斷,并對(duì)模型優(yōu)劣進(jìn)行比較。研究結(jié)論如下:
(1)2008—2014 年,我國大部分玉米主產(chǎn)地玉米絲黑穗病為輕微和偏輕發(fā)病狀態(tài),發(fā)病率5%以下地區(qū)占比達(dá)90%,病情偏重的6 個(gè)縣域分別是淶源縣、青龍滿族自治縣、五常市、應(yīng)城市、興城市和子長縣。
(2)基于多棵樹的集成分類器(RF 和ERT 模型)分類性能明顯優(yōu)于單棵樹分類器(CART 模型),分類預(yù)測(cè)效果較好。但考慮到準(zhǔn)確監(jiān)測(cè)病害高發(fā)情況、減少中高發(fā)病情況在分類預(yù)測(cè)中漏分機(jī)率對(duì)開展病害防治的重要性,確定ERT模型為最佳優(yōu)選分類器。
(3)玉米絲黑穗病發(fā)生程度與耕地地力因子AP、TK、pH 和TP 具有一定的相關(guān)性,這為進(jìn)一步研究耕地地力對(duì)玉米絲黑穗病發(fā)生的影響機(jī)理提供了線索。
致謝:
感謝農(nóng)業(yè)農(nóng)村部全國農(nóng)業(yè)技術(shù)推廣服務(wù)中心周陽、李春廣為本研究提供數(shù)據(jù)。
農(nóng)業(yè)資源與環(huán)境學(xué)報(bào)2021年5期