熊 凱,楊啟良,楊春曦,劉小剛,韓煥豪,周 平
基于病害高發(fā)期氣象因子的三七病害發(fā)生率預(yù)測(cè)
熊 凱1,楊啟良1※,楊春曦2,劉小剛1,韓煥豪1,周 平1
(1. 昆明理工大學(xué)農(nóng)業(yè)與食品學(xué)院,昆明 650500;2. 昆明理工大學(xué)化學(xué)工程學(xué)院,昆明 650500)
準(zhǔn)確預(yù)報(bào)病害發(fā)生率是提前應(yīng)對(duì)三七病害、提高產(chǎn)量和品質(zhì)的重要基礎(chǔ)。該研究利用2018-2019年云南紅河州三七種植基地內(nèi)田間氣象數(shù)據(jù)和病害發(fā)生率資料,采用主效應(yīng)分析(Principal Components Analysis, PCA)來避免多元共線性的發(fā)生。以2018年和2019年的5-9月氣象數(shù)據(jù)集作為訓(xùn)練集與驗(yàn)證集,以隨機(jī)森林(Random Forest, RF)算法作為基礎(chǔ)學(xué)習(xí)機(jī)構(gòu)建初步預(yù)測(cè)模型,最后通過梯度下降(Gradient Descent, GD)算法進(jìn)行優(yōu)化。結(jié)果表明,土壤溫度與棚內(nèi)濕度均與病害發(fā)生率呈正相關(guān),其皮爾遜相關(guān)系數(shù)在0.25~0.75之間,棚內(nèi)土壤熱通量和三七冠層上方土壤熱通量均與病害發(fā)生率呈負(fù)相關(guān),其皮爾遜相關(guān)系數(shù)在-0.75~-0.25之間;通過隨機(jī)森林獲得的模型的均方根誤差為0.23;通過梯度下降優(yōu)化,代價(jià)函數(shù)收斂時(shí)值為241.003,并獲得各個(gè)氣象因子對(duì)三七病害高發(fā)期的病害發(fā)生率影響的權(quán)重,其中土壤溫度正相關(guān)程度最大,權(quán)重為21.686,三七冠層上方的土壤熱通量負(fù)相關(guān)程度最大,權(quán)重為-13.834。該研究結(jié)果在通過田間氣象因子預(yù)測(cè)三七病害高發(fā)期的病害發(fā)生率上具備可靠的預(yù)測(cè)能力,可為降低三七病害的設(shè)施環(huán)境調(diào)控和智能化管理提供理論依據(jù)和技術(shù)支持。
病害;模型;中藥材;隨機(jī)森林;梯度下降;三七;氣象因子
三七()是五加科人參屬多年生草本植物,是云南白藥氣血康、云南白藥膏等的主要成分。有“金不換、南國(guó)神藥”等美譽(yù),廣泛分布于云南和廣西等地[1]。三七生長(zhǎng)喜陰濕環(huán)境,但其生長(zhǎng)環(huán)境對(duì)水分比較苛刻,過低的土壤水分不利于三七的生長(zhǎng),過高的土壤水分、空氣濕度與溫度容易滋生病害,每年6-8月為集中降雨期,亦為三七病害高發(fā)期。因此,研究三七病害高發(fā)期氣象數(shù)據(jù)特征,獲得三七病害與田間氣象因子之間的關(guān)系,對(duì)三七病害的綠色防控具有重要意義。
范艷霞[2]指出作物病害由生物因素與非生物因素引起,其又可分為侵染性病害和非侵染性病害,張連娟等[3]研究表明非侵染性病害主要包括由嚴(yán)寒、旱、澇等因素所引起的病害。三七冠層上方的溫濕度、飽和水蒸氣壓、土壤溫度、土壤熱通量和太陽(yáng)輻射是影響三七生長(zhǎng)的主要?dú)庀笠蜃印L镩g土壤溫度、冠層溫濕度是引起作物病害發(fā)生的關(guān)鍵指標(biāo)。隨著光強(qiáng)和相對(duì)空氣濕度的增加,三七病害發(fā)生率明顯加重[4-8],但尚未見冠層飽和水蒸氣壓、土壤熱通量與作物病害發(fā)生率間關(guān)系的研究。
三七病害高發(fā)期與降雨密切相關(guān)[9-10],楊歡等[11]研究發(fā)現(xiàn)該階段降雨量占全年總降雨量的80%以上。由于該地區(qū)氣象指標(biāo)在時(shí)間分布上不具備明顯的決策邊界、連續(xù)且非線性、單個(gè)指標(biāo)在數(shù)值上具有明顯的重疊性,因此本研究采用機(jī)器學(xué)習(xí)來研究氣象因子與三七病害之間的關(guān)系,通過機(jī)器學(xué)習(xí)獲得不同指標(biāo)間的聯(lián)系,降低時(shí)間成本,構(gòu)建、優(yōu)化模型使其可視化和公式化。Bottou等[12]指出機(jī)器學(xué)習(xí)問題通常會(huì)轉(zhuǎn)換成一個(gè)目標(biāo)函數(shù)去求解,優(yōu)化算法是求解目標(biāo)函數(shù)中參數(shù)的重要工具。隨機(jī)森林是Breiman[13]于2001年將Bagging集成學(xué)習(xí)理論[14]與隨機(jī)子空間方法[15]相結(jié)合,提出的一種機(jī)器學(xué)習(xí)算法,其本質(zhì)為一種以統(tǒng)計(jì)學(xué)和組合分類為基礎(chǔ)的智能算法,具有較強(qiáng)的非線性模擬能力、泛化能力,可以減少人為主觀因素的干擾。而且Kebede等[16-17]研究指出隨機(jī)森林算法是一種具有監(jiān)督性的數(shù)據(jù)挖掘算法,基本原理是將裝袋算法和隨機(jī)空間算法相結(jié)合,基本單元為決策樹,將多個(gè)決策樹組合在一起形成森林,通過每個(gè)決策樹分類預(yù)測(cè)投票,從而得出最終的分類及評(píng)價(jià),該算法被廣泛應(yīng)用到諸如生物信息[18-19]、商業(yè)管理[20-21]、醫(yī)學(xué)研究[22-23]、經(jīng)濟(jì)金融[24]等實(shí)際領(lǐng)域并取得了不錯(cuò)的結(jié)果。Nesterov[25]研究表明梯度下降法是求解無約束優(yōu)化問題最常用的方法,該算法沿梯度下降方向,即負(fù)梯度方向作為搜索方向,不斷迭代求解目標(biāo)函數(shù)的最優(yōu)值;趙世林[26]指出梯度下降算法是優(yōu)化深度學(xué)習(xí)模型常用的方法;關(guān)毅鉻等[27]研究表明該算法常在機(jī)器學(xué)習(xí)和人工智能中用于遞歸性地逼近最小偏差模型。但鮮有將上述算法運(yùn)用至田間氣象數(shù)據(jù)的模型訓(xùn)練,也未將氣象因子與作物病害間的關(guān)系進(jìn)行定量的評(píng)價(jià),因此本試驗(yàn)將所采集的數(shù)據(jù)樣本所具備的數(shù)學(xué)特征與隨機(jī)森林、梯度下降的優(yōu)勢(shì)相對(duì)應(yīng),從而糅合這2種算法進(jìn)行機(jī)器學(xué)習(xí)。
盡管前人研究圍繞光強(qiáng)、相對(duì)空氣濕度、土壤溫度與三七病害發(fā)生率之間的關(guān)系進(jìn)行了定性描述,但降雨會(huì)改變土壤的溫度和熱通量、大氣溫濕度和太陽(yáng)輻射等氣象環(huán)境條件,現(xiàn)有研究鮮有圍繞氣象因子進(jìn)行系統(tǒng)的定量分析和評(píng)價(jià)。本研究通過機(jī)器學(xué)習(xí)分析作物病害高發(fā)期的設(shè)施環(huán)境外在因素的數(shù)據(jù)特征,進(jìn)而獲得其氣象因子數(shù)據(jù)特征,并根據(jù)集中降雨期氣象因子與病害發(fā)生率之間的數(shù)據(jù)特征,利用隨機(jī)森林和梯度下降算法對(duì)三七病害高發(fā)期氣象數(shù)據(jù)特征進(jìn)行分析,建立相應(yīng)的預(yù)測(cè)模型,以期為降低三七病害的設(shè)施環(huán)境調(diào)控和病害預(yù)警提供理論依據(jù)和技術(shù)支持,也為設(shè)施環(huán)境智能化管理奠定良好的數(shù)據(jù)基礎(chǔ)。
昆明理工大學(xué)三七控水減排提質(zhì)增效關(guān)鍵技術(shù)研究與示范基地位于云南省紅河州瀘西縣午街鋪鎮(zhèn)(24°25′N~24°36′N,103°42′E~105°35′E),海拔1 796 m,境內(nèi)年均氣溫15.5 ℃,年降水量1 000 mm,每年集中降雨期為6-8月,該時(shí)間段為三七病害高發(fā)期。全鎮(zhèn)為喀斯特地形,屬亞熱帶半濕潤(rùn)季風(fēng)氣候,年日照總數(shù)達(dá)2 176 h。土壤為燥紅土,土層深厚,具有明顯的發(fā)生層次,其剖面構(gòu)型為腐殖質(zhì)層-淀積層-母質(zhì)層型,pH值為6.3左右。試驗(yàn)田四周以及頂部覆蓋2層遮陽(yáng)網(wǎng),遮陽(yáng)率達(dá)到65%。三七田共有24壟,每壟長(zhǎng)為16.7 m,寬為1.5 m,壟間開有寬和深均為40 cm的排水溝。
非雨季三七病害發(fā)生率最高約為10%,而雨季時(shí)最高可達(dá)60%~80%,因此分別將2018年和2019年的5-9月數(shù)據(jù)作為三七病害高發(fā)期病害發(fā)生率、氣象因子的總樣本。氣象因子樣本數(shù)據(jù)每1 h采集 2次,每個(gè)氣象因子共有7 200個(gè)樣本,樣本數(shù)據(jù)來源于三七基地安裝的1 000型波文比觀測(cè)系統(tǒng)(圖1),包括太陽(yáng)凈輻射(W/m2)、棚內(nèi)溫度(℃)、棚內(nèi)濕度(%)、棚內(nèi)土壤熱通量(W/m2)、棚內(nèi)飽和水蒸氣壓(kPa)、土壤溫度(℃)、三七冠層上方溫度(℃)、三七冠層上方濕度(%)、三七冠層上方土壤熱通量(W/m2)和三七冠層上方飽和水蒸氣壓(kPa)。三七高發(fā)期病害發(fā)生率在試驗(yàn)基地中隨機(jī)選取30 個(gè)1 m×1 m的區(qū)域進(jìn)行統(tǒng)計(jì),每5 d統(tǒng)計(jì)1次,共計(jì)300個(gè),每個(gè)區(qū)域的病害發(fā)生率為該區(qū)域發(fā)病植株數(shù)與總植株數(shù)之比,未實(shí)際統(tǒng)計(jì)的病害發(fā)生率由參數(shù)估計(jì)補(bǔ)齊,補(bǔ)齊后共計(jì)7 200個(gè)。隨機(jī)選取全部樣本的75%作為訓(xùn)練集,將全部樣本所剩的25%作為測(cè)試集。
1.信號(hào)采集系統(tǒng) 2.冠層上方溫濕度、土壤熱通量、飽和水蒸氣壓傳感器 3.太陽(yáng)凈輻射傳感器 4.風(fēng)速與風(fēng)向傳感器 5.棚內(nèi)溫濕度、土壤熱通量、飽和水蒸氣壓傳感器 6.土壤溫度傳感器埋于試驗(yàn)地地下
1.3.1 三七病害與氣象因子的關(guān)系與研究方法
雨季會(huì)使太陽(yáng)凈輻射受到負(fù)向影響,太陽(yáng)凈輻射會(huì)直接影響到三七的生理反應(yīng)從而間接導(dǎo)致三七病害發(fā)生。土壤熱通量日間主要受太陽(yáng)輻射量的影響,夜間主要受環(huán)境溫度的影響,晴天主要受云量、土壤濕度影響,雨天主要受土壤溫度梯度的影響[28]。土壤熱通量的大小以及正負(fù)轉(zhuǎn)變直接影響著土壤熱量的收支,影響著植物根系的生長(zhǎng)和呼吸,以及對(duì)營(yíng)養(yǎng)物質(zhì)和水分的吸收,影響著土壤水分的蒸發(fā)和呼吸[29],這關(guān)系到植物的發(fā)病與否??諝鉁囟鹊淖兓?,對(duì)蒸發(fā)和凝結(jié)有重要影響,高溫時(shí)飽和水蒸氣壓顯著增大,空氣中所能容納的水汽含量增多,使原來已處于飽和狀態(tài)的蒸發(fā)面因?yàn)闇囟壬叨優(yōu)椴伙柡蜖顟B(tài),蒸發(fā)重新出現(xiàn);相反,如果降低飽和空氣的溫度會(huì)導(dǎo)致飽和水蒸氣壓減小,就會(huì)有多余的水汽凝結(jié)出來[30],而飽和水蒸氣壓的變化會(huì)影響著田間空氣濕度的變化,間接的影響三七病害發(fā)生。
本試驗(yàn)數(shù)據(jù)為連續(xù)性、非線性變量,在機(jī)器學(xué)習(xí)的諸多預(yù)測(cè)解釋變量算法中,隨機(jī)森林擅長(zhǎng)處理此類型數(shù)據(jù)且能較好的容忍異常值和噪聲,能生成多個(gè)分類器模型,各自獨(dú)立地學(xué)習(xí)和做出預(yù)測(cè),最后結(jié)合成單預(yù)測(cè),優(yōu)于任何一個(gè)單分類的做出預(yù)測(cè),具有相對(duì)高效而準(zhǔn)確的優(yōu)點(diǎn)[31-34],故而選用隨機(jī)森林算法進(jìn)行模型訓(xùn)練。
1.3.2 數(shù)據(jù)清洗
1)通過函數(shù)轉(zhuǎn)化(對(duì)數(shù)函數(shù),冪函數(shù)、皮爾曲線等)實(shí)現(xiàn)各氣象因子的線性化。為了不影響預(yù)測(cè)模型的精準(zhǔn)度,提高模型應(yīng)對(duì)突發(fā)氣象導(dǎo)致數(shù)據(jù)震蕩的能力,增加其泛化能力,本試驗(yàn)中未將三七病害高發(fā)期邊界月份(5月和9月)的氣象因子和三七病害發(fā)生率的數(shù)據(jù)作為噪點(diǎn)刪除。
2)通過對(duì)特征向量的統(tǒng)計(jì)屬性、累積密度函數(shù)等進(jìn)行歸一化處理,將每個(gè)氣象因子進(jìn)行1次標(biāo)準(zhǔn)歸一化,以使不同氣象因子間的量綱等價(jià),且每個(gè)維度均服從均值為0、方差為1的正態(tài)分布。從而避免了在研究不同氣象因子對(duì)三七病害發(fā)生率的影響程度時(shí),因每個(gè)氣象因子的量綱差異過大,而導(dǎo)致氣象因子對(duì)三七病害發(fā)生率影響權(quán)重評(píng)估不精確的問題。標(biāo)準(zhǔn)歸一化定義如式(1)所示:
參考相關(guān)研究成果[4-8,28-30],分別建立棚內(nèi)濕度和土壤溫度、三七冠層上方的土壤熱通量和棚內(nèi)土壤熱通量與三七病害發(fā)生率的關(guān)系,將其歸一化后投影獲得三七病害高發(fā)期(5-9月)病害發(fā)生率空間分布(圖2)。由圖2可知,病害發(fā)生率較高的棚內(nèi)濕度集中分布在?1.5%~1%的區(qū)間內(nèi),土壤溫度集中分布在?2~1 ℃的區(qū)間內(nèi);棚內(nèi)土壤熱通量集中分布在?3~3 W/m2,冠層上方土壤熱通量集中分布在?2~2 W/m2的區(qū)間內(nèi)。但仍有較多的低病害發(fā)生率樣本數(shù)據(jù)分布在上述區(qū)間內(nèi),三七病害發(fā)生率在氣象因子的空間投影上具有重疊性,這說明通過將標(biāo)準(zhǔn)歸一化后的樣本投影是不能夠合理地解釋三七病害與氣象因子之間的具體關(guān)系,因此需引入機(jī)器學(xué)習(xí)構(gòu)建模型。
圖2 三七病害高發(fā)期(5—9月)病害發(fā)生率與各氣象因子間的空間分布關(guān)系
1.3.3 模型構(gòu)建流程
因無法直接判斷試驗(yàn)樣本中氣象因子與三七病害發(fā)生率之間是否存在多元共線性的問題,隨機(jī)森林對(duì)多元共線性并不敏感,為此首先進(jìn)行主效應(yīng)分析(Principal Components Analysis, PCA),為獲得不同氣象因子間的皮爾遜相關(guān)系數(shù)的大小,將任意一個(gè)指標(biāo)(氣象因子或病害發(fā)生率)記為變量,將另一任意指標(biāo)記為變量進(jìn)行PCA處理,重復(fù)該步驟直至獲得所有指標(biāo)兩兩之間的皮爾遜相關(guān)系數(shù)為止。計(jì)算式為
式中Cov(,)為與的協(xié)方差,Var()為的方差,Var()為的方差。
通過主效應(yīng)分析后,通過皮爾遜相關(guān)系數(shù)的大小可以反應(yīng)出不同氣象因子對(duì)三七病害影響的權(quán)重大小,是否有高度共線性關(guān)系以及不同氣象因子間的共線性程度,皮爾遜相關(guān)系數(shù)(,)的取值范圍為[?1,1],取值在(0,1]間表示取值越大正相關(guān)性越強(qiáng),取值在[?1,0)間取值越小負(fù)相關(guān)性越大,0值表示無相關(guān)。
其次,本試驗(yàn)隨機(jī)森林的最大節(jié)點(diǎn)數(shù)、最大樹深度、最小子節(jié)點(diǎn)數(shù)、模型數(shù)量分別選取為1 000、10、5和100,通過自助法(bootstrap)從訓(xùn)練集中有放回的采樣得到構(gòu)建100棵樹所需的100個(gè)子集,即100個(gè)子模型,每個(gè)模型目標(biāo)函數(shù)()如式(3)所示:
式中為樣本個(gè)數(shù),(θ)為第個(gè)的三七樣本的森林隨機(jī)模型預(yù)測(cè)值,y為第個(gè)的三七樣本的真實(shí)病害發(fā)生率。
每次未被抽到的數(shù)據(jù)稱為袋外數(shù)據(jù)(Out-Of-Bag,OOB),基于100個(gè)子集,訓(xùn)練無剪枝的決策樹模型,用來進(jìn)行內(nèi)部誤差估計(jì)和特征變量重要性評(píng)價(jià)。生成每棵樹時(shí),從規(guī)模為 10的特征變量集中隨機(jī)選擇 5個(gè)變量,對(duì)于回歸分析,本研究采用均方差作為節(jié)點(diǎn)分裂標(biāo)準(zhǔn),遞歸執(zhí)行選取最優(yōu)分枝的操作,最終獲得一個(gè)最佳的隨機(jī)森林模型輸出。其評(píng)價(jià)指標(biāo)為均方根誤差(Root Mean Square Error, RMSE),RMSE的數(shù)值大小來衡量觀測(cè)值同真值之間的偏差,其范圍為[0,+∞),當(dāng)預(yù)測(cè)三七病害發(fā)生率與真實(shí)三七病害發(fā)生率完全吻合時(shí)RMSE=0,誤差越大時(shí)該值越大,RMSE計(jì)算如式(4)所示:
式中(θ)為第個(gè)的三七樣本的森林隨機(jī)模型最佳預(yù)測(cè)值。
模型的泛化誤差可以解釋為由偏差和方差引起,而隨機(jī)森林算法只能有效降低方差而不能有效降低偏差,為進(jìn)一步保證預(yù)測(cè)模型的可靠性和穩(wěn)定性,所以引入集成學(xué)習(xí)的概念如式(5)所示:
式中最終預(yù)測(cè)模型F()由100個(gè)隨機(jī)森林基礎(chǔ)學(xué)習(xí)模型機(jī)模型線性組合而成,f(θ)為第個(gè)隨機(jī)森林基礎(chǔ)學(xué)習(xí)機(jī)模型,α為第個(gè)隨機(jī)森林基礎(chǔ)學(xué)習(xí)機(jī)模型的權(quán)重,因每個(gè)隨機(jī)森林模型的本質(zhì)是降低方差,故所有權(quán)重α記為1(=1,2,…,100)為隨機(jī)森林模型,θ為系數(shù)項(xiàng)。
本試驗(yàn)中的集成學(xué)習(xí)是將隨機(jī)森林作為基礎(chǔ)學(xué)習(xí)機(jī)模型,通過隨機(jī)森林將眾多決策樹并行訓(xùn)練,得到一個(gè)方差較小的基礎(chǔ)學(xué)習(xí)機(jī)模型。因梯度下降算法普遍用于求解機(jī)器學(xué)習(xí)算法的模型參數(shù)問題,是模型優(yōu)化的主要方法[35],通過主效應(yīng)分析和隨機(jī)森林?jǐn)M合已經(jīng)將數(shù)據(jù)降維,使訓(xùn)練集樣本量和模型復(fù)雜度相匹配,訓(xùn)練集和測(cè)試集的特征分布均勻,這使得數(shù)據(jù)特征與梯度下降算法更加匹配[36],所以利用梯度下降算法在隨機(jī)森林訓(xùn)練的模型基礎(chǔ)上,進(jìn)一步優(yōu)化模型,降低模型偏差。梯度下降算法的學(xué)習(xí)率為0.01,迭代次數(shù)為400次。定義模型訓(xùn)練的目標(biāo)函數(shù),采用平方誤差函數(shù)如式(6)所示:
然后根據(jù)梯度下降算法,對(duì)第個(gè)隨機(jī)森林模型,計(jì)算目標(biāo)函數(shù)關(guān)于F-1()的負(fù)梯度,作為第個(gè)隨機(jī)森林模型的目標(biāo)函數(shù)值,其計(jì)算如式(7)所示:
模型構(gòu)建流程的平臺(tái)環(huán)境為處理器為英特爾酷睿i7-9 700K,頻率為3.60 GHz;Windows 10 專業(yè)版(64位);編程軟件為Python3.6;編譯器為Pycharm。
通過計(jì)算訓(xùn)練集中不同氣象因子間、不同氣象因子與三七病害發(fā)生率間的皮爾遜相關(guān)系數(shù),并將計(jì)算結(jié)果可視化,得出不同指標(biāo)之間的皮爾遜相關(guān)系數(shù)熱力圖(圖3)。由圖3可知,土壤溫度、棚內(nèi)濕度、棚內(nèi)土壤熱通量和三七冠層上方土壤熱通量4個(gè)氣象因子,對(duì)三七病害高發(fā)期的病害發(fā)生率影響較顯著。其中,土壤溫度和棚內(nèi)濕度與病害發(fā)生率呈正相關(guān),其皮爾遜相關(guān)系數(shù)分別位于[0.50,0.75)、[0.25,0.50);棚內(nèi)土壤熱通量和三七冠層上方土壤熱通量與病害發(fā)生率呈負(fù)相關(guān),其皮爾遜相關(guān)系數(shù)分別位于[?0.5,?0.25)、[?0.75,?0.5)。本研究中所采用的特征向量均為氣溫及氣溫基礎(chǔ)上的統(tǒng)計(jì)量,與前人研究的試驗(yàn)結(jié)論相呼應(yīng),土壤溫度、棚內(nèi)濕度與王勇等[6]、陳昱君等[7]、陳得文[37]研究結(jié)果一致,溫度是影響三七病害發(fā)生率最主要的因子,這可能是土壤溫度變高會(huì)影響土壤中微生物種群結(jié)構(gòu)變化,間接誘導(dǎo)三七發(fā)病[10],同時(shí)土壤溫度變化會(huì)影響土壤呼吸,而土壤呼吸又會(huì)影響三七根系的生理作用和營(yíng)養(yǎng)物質(zhì)傳輸;溫度變高會(huì)加強(qiáng)土壤中病原菌的傳病性,三七病害高發(fā)期土壤處于高濕高溫狀態(tài),降雨又會(huì)導(dǎo)致土壤孔隙變小,從而不利于氣體、營(yíng)養(yǎng)物質(zhì)和微生物代謝物的交換、吸收與利用,進(jìn)而導(dǎo)致三七發(fā)病。棚內(nèi)濕度與三七病害發(fā)生率呈正相關(guān),這可能是由于棚內(nèi)空氣相對(duì)濕度較大時(shí),三七蒸騰作用弱,導(dǎo)致三七葉片氣孔關(guān)閉,植物運(yùn)輸營(yíng)養(yǎng)物質(zhì)能力下降,空氣相對(duì)濕度對(duì)三七蒸騰作用的影響間接影響土壤干濕交替,不利于水肥利用。同時(shí),空氣相對(duì)濕度較大時(shí),有利于三七致病病菌的繁殖。
圖3 三七病害高發(fā)期病害發(fā)生率與各氣象因子間皮爾遜相關(guān)系數(shù)熱力圖
2.2.1 隨機(jī)森林的預(yù)測(cè)模型構(gòu)建
通過訓(xùn)練集完成隨機(jī)森林模型訓(xùn)練后,將測(cè)試集用于驗(yàn)證其習(xí)得模型性能,試驗(yàn)結(jié)果表明,RMSE為0.23,與真實(shí)值間的誤差較小,表示模型擬合較好,預(yù)測(cè)效果可以被信賴,由模型預(yù)測(cè)的三七病害高發(fā)期病害發(fā)生率如表1所示。其中,置信下限存在負(fù)值,表示負(fù)值越大,預(yù)測(cè)三七發(fā)病的可能性越低,從而將負(fù)值部分取倒數(shù)的絕對(duì)值后記為正值病害發(fā)生率,置信上限存在>100%的情況,病害發(fā)生率超出100%越多,表示預(yù)測(cè)三七發(fā)病的可能性越大,故將其記為100%。由表1可知,預(yù)測(cè)病害發(fā)生率在[5, 25)區(qū)間的頻率<500次,而預(yù)測(cè)病害發(fā)生率在[60, 80)區(qū)間的頻率>1 500次,這與三七病植株病害從侵入期到高發(fā)期感染其他植株的速度呈指數(shù)增長(zhǎng)的現(xiàn)象一致。
表1 三七病害高發(fā)期病害發(fā)生率的預(yù)測(cè)
注:頻率表示預(yù)測(cè)病株在所屬病害發(fā)生率區(qū)間的發(fā)病次數(shù)。
Note:Frequency represents the incidence frequency of the predicted diseased plants in their incidence interval.
2.2.2預(yù)測(cè)模型優(yōu)化
為進(jìn)一步保證預(yù)測(cè)模型具有可靠的預(yù)測(cè)能力,減少迭代次數(shù),優(yōu)化隨機(jī)森林預(yù)測(cè)模型不能降低偏差的問題,提高模型預(yù)測(cè)的準(zhǔn)確性與穩(wěn)定性,故選擇梯度下降算法對(duì)隨機(jī)森林所構(gòu)建的模型進(jìn)行優(yōu)化。將隨機(jī)森林的每個(gè)輸出模型導(dǎo)入梯度下降算法,迭代次(=200)至代價(jià)函數(shù)收斂(圖4),此時(shí)可得使代價(jià)函數(shù)收斂的系數(shù)項(xiàng)值,此時(shí)代價(jià)函數(shù)(0,1,…, θ)值為241.003,即優(yōu)化后模型預(yù)測(cè)的三七病害發(fā)生率與三七真實(shí)病害發(fā)生率間相差1.5%。標(biāo)準(zhǔn)歸一化后各氣象因子的系數(shù)(1、2、3、4、5、6、7、8、9和10)稱為權(quán)重,用于衡量各氣象因子對(duì)于病害發(fā)生率影響程度的大小,將通過梯度下降算法的集合學(xué)習(xí)的預(yù)測(cè)函數(shù)計(jì)算輸出結(jié)果()即預(yù)測(cè)數(shù)學(xué)表達(dá)式表示,即:
式中1為太陽(yáng)凈輻射,2為三七棚內(nèi)溫度,3為三七棚內(nèi)濕度,4為三七棚內(nèi)土壤熱通量,5為土壤溫度,6為三七冠層上方的溫度,7為三七冠層上方的濕度,8為三七冠層上方的土壤熱通量,9為棚內(nèi)的飽和水蒸氣壓,10為三七冠層上方的飽和水蒸氣壓。1~10均為歸一化后的無量綱值。
由該數(shù)學(xué)表達(dá)式可知,與三七病害高發(fā)期病害發(fā)生率呈正相關(guān)的氣象因子的相關(guān)程度(權(quán)重)大小依次為土壤溫度(21.686)、三七棚內(nèi)濕度(4.049)、三七冠層上方濕度(3.947)、三七冠層上方溫度(2.210)、三七冠層上方飽和水蒸氣壓(1.818)、棚內(nèi)飽和水蒸氣壓(0.877)、三七棚內(nèi)溫度(1.398)、太陽(yáng)凈輻射(0.327),土壤溫度影響程度遠(yuǎn)遠(yuǎn)大于其他正相關(guān)的氣象因子。
與三七病害高發(fā)期病害發(fā)生率呈負(fù)相關(guān)的氣象因子的相關(guān)程度(權(quán)重)大小依次為三七冠層上方的土壤熱通量(?13.834)、三七棚內(nèi)土壤熱通量(?0.987),三七冠層上方的土壤熱通量負(fù)相關(guān)程度遠(yuǎn)遠(yuǎn)大于三七棚內(nèi)的土壤熱通量,整體而言對(duì)于三七病害高發(fā)期病害發(fā)生率影響最大的氣象因子為土壤溫度。
對(duì)于各氣象因子對(duì)三七病害高發(fā)期病害發(fā)生率的影響而言,將預(yù)測(cè)模型計(jì)算出的權(quán)重與主效應(yīng)分析所得的皮爾遜相關(guān)系數(shù)進(jìn)行對(duì)比,兩者分析結(jié)果一致。本試驗(yàn)將氣象因子與三七病害發(fā)生率聯(lián)系起來并進(jìn)行預(yù)測(cè)模型訓(xùn)練,所采用的方法與傳統(tǒng)上建立單個(gè)或多個(gè)氣象因子回歸方程[38-41]的預(yù)報(bào)方法有明顯區(qū)別,所構(gòu)建模型能夠較好地預(yù)測(cè)三七病害高發(fā)期病害發(fā)生率變化規(guī)律,這為定性、定量分析氣象因子病害與三七病害之間的關(guān)系以及三七病害高發(fā)期的病害預(yù)測(cè)提供了較優(yōu)的思路和方法。
圖4 代價(jià)函數(shù)與迭代次數(shù)間的關(guān)系
1)通過隨機(jī)森林初步構(gòu)建的預(yù)測(cè)模型,通過梯度下降對(duì)改模型進(jìn)行優(yōu)化,代價(jià)函數(shù)收斂時(shí)值為241.003。
此時(shí)預(yù)測(cè)病害發(fā)生率在[5, 25)區(qū)間的頻率<500次,而預(yù)測(cè)病害發(fā)生率在[60, 80)區(qū)間的頻率>1 500次,這與三七病植株病害從侵入期到高發(fā)期感染其他植株的速度呈指數(shù)增長(zhǎng)的現(xiàn)象一致。
2)模型優(yōu)化后的預(yù)測(cè)病害發(fā)生率與三七真實(shí)病害發(fā)生率間相差1.5 %,三七病害高發(fā)期的病害發(fā)生率與土壤溫度、棚內(nèi)濕度、棚內(nèi)、冠層上方土壤熱通量等氣象因子密切相關(guān),其中土壤溫度正相關(guān)程度最大,其權(quán)重為21.686,三七冠層上方的土壤熱通量負(fù)相關(guān)程度最大,其權(quán)重為?13.834。
3)對(duì)于各氣象因子對(duì)三七病害高發(fā)期的病害發(fā)生率的影響而言,將最終得到的預(yù)測(cè)模型與主效應(yīng)分析所得的皮爾遜相關(guān)系數(shù)進(jìn)行對(duì)比,兩者的分析結(jié)果一致。
[1]周家明,崔秀明,曾鴻超,等. 三七莖葉的綜合開發(fā)利用[J]. 現(xiàn)代中藥研究與實(shí)踐,2009,23(3):32-34.
Zhou Jiaming, Cui Xiuming, Zeng Hongchao, et al. Comprehensive development and utilization of the stems and leaves of[J]. Research and Practice on Chinese Medicines, 2009, 23(3): 32-34. (in Chinese with English abstract)
[2]范艷霞. 夏季草坪主要病害的識(shí)別與防治[J]. 現(xiàn)代園藝,2009(6):39.
Fan Yanxia. Identification and control of main diseases of summer lawn[J]. Xiandai Horticulture, 2009(6): 39. (in Chinese with English abstract)
[3]張連娟,高月,董林林,等. 三七主要病害及其防治策略[J]. 世界科學(xué)技術(shù):中醫(yī)藥現(xiàn)代化,2017,19(10):1635-1640.
Zhang Lianjuan, Gao Yue, Dong Linlin, et al. Major diseases ofand their control strategies[J]. Modernization of Traditional Chinese Medicine and Materia Medica-World Science and Technology, 2017, 19(10): 1635-1640. (in Chinese with English abstract)
[4]鄧強(qiáng)輝,潘曉華,石慶華. 作物冠層溫度的研究進(jìn)展[J]. 生態(tài)學(xué)雜志,2009,28(6):1162-1165.
Deng Qianghui, Pan Xiaohua, Shi Qinghua. Research advances on crop canopy temperature[J]. Chinese Journal of Ecology, 2009, 28(6): 1162-1165. (in Chinese with English abstract)
[5]楊靜,施竹鳳,高東,等. 生物多樣性控制作物病害研究進(jìn)展[J]. 遺傳,2012,34(11):1390-1398.
Yang Jing, Shi Zhufeng, Gao Dong, et al. Mechanism on biodiversity managing crop diseases[J]. Hereditas, 2012, 34(11): 1390-1398. (in Chinese with English abstract)
[6]王勇,劉云芝,陳昱君,等. 三七黑斑病的研究[J]. 人參研究,2005(3):42-45.
Wang Yong, Liu Yunzhi, Chen Yujun, et al. Research onblack spot[J]. Ginseng Research, 2005(3): 42-45. (in Chinese with English abstract)
[7]陳昱君,王勇,劉蕓芝,等. 三七黑斑病發(fā)生規(guī)律調(diào)查研究[J]. 中國(guó)中藥雜志,2005(7):557-558.
Chen Yujun, Wang Yong, Liu Yunzhi, et al. Investigation on the occurrence regularity ofblack spot[J]. China Journal of Chinese Materia Medica, 2005(7): 557-558. (in Chinese with English abstract)
[8]王勇,陳昱君,周家明. 三七黑斑病田間發(fā)生規(guī)律調(diào)查初報(bào)[J]. 中藥材,2000(11):671-672.
Wang Yong, Chen Yujun, Zhou Jiaming. Preliminary investigation on the occurrence regularity ofblack spot[J]. Journal of Chinese Medicinal Materials, 2000(11): 671-672. (in Chinese with English abstract)
[9]劉云芝,王勇,孫玉琴,等. 三七皺縮型病毒病發(fā)生規(guī)律調(diào)查研究[J]. 現(xiàn)代農(nóng)業(yè)科技,2015(14):105-106,109.
Liu Yunzhi, Wang Yong, Sun Yuqin, et al. Research on occurrent regularity ofshrinking virus disease[J]. Modern Agricultural Science and Technology, 2015(14): 105-106, 109. (in Chinese with English abstract)
[10]官會(huì)林,楊建忠,陳煜君,等. 三七設(shè)施栽培根際微生物菌群變化及其與三七根腐病的相關(guān)性研究[J]. 土壤,2010,42(3):378-384.
Guan Huilin, Yang Jianzhong, Chen Yujun, et al. Change of rhizospheric microbe colony in cultivated soil and its correlation to root rot disease in[J]. Soils, 2010, 42(3): 378-384. (in Chinese with English abstract)
[11]楊歡,劉學(xué)錄. 基于分形理論的云南紅河縣景觀斑塊尺度效應(yīng)[J]. 生態(tài)學(xué)雜志,2015,34(9):2636-2644.
Yang Huan, Liu Xuelu. Landscape patch scale effect based on fractal theory in Honghe county of Yunnan province[J]. Chinese Journal of Ecology, 2015, 34(9): 2636-2644. (in Chinese with English abstract)
[12]Bottou L, Curtis F E, Nocedal J. Optimization methods for large-scale machine learning[J]. Siam Review. 2018, 60(2): 223-311.
[13]Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
[14]Breiman L. Bagging predictors[J]. Machine Learning, 1996, 24(2): 123-140.
[15]Ho T K. The random subspace method for constructing decision forests[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(8): 832-844.
[16]Kebede S, Travi Y, Alemayehu T, et al. Groundwater recharge, circulation and geochemical evolution in the source region of the Blue Nile River, Ethiopia[J]. Applied Geochemistry, 2005, 20(9): 1658-1676.
[17]張文彤,董偉. SPSS 統(tǒng)計(jì)分析高級(jí)教程[M]. 北京:高等教育出版社,2013.
[18]Chen Xuewen, Liu Mei. Prediction of protein-Protein interactions using random decision forest framework[J]. Bioinformatics, 2005, 21(24): 4394-4400.
[19]Pang H, Datta D, Zhao Hongyu. Pathway analysis using random forests with bivariate node-split for survival outcomes[J]. Bioinformatics, 2010, 26(2): 250-258.
[20]Ward M, Pajevic S, Dreyfuss J, et al. Short-term prediction of mortality in patients with systemic lupus erythematosus: Classification of outcomes using random forests[J]. Arthritis and Rheumatism, 2006, 55(1): 74-80.
[21]Kim S H, Lee J H, Ko B, et al. X-ray image classification using random forests with local binary patterns[C] // In proceedings of the 9thInternational Conference on Machine Learning and Cybernetics, Qingdao, China, 2010.
[22]Ying Weiyun, Li Xiu, Xie Yaya, et al. Preventing customer churn by using random forests modeling[C] // In proceedings of the 7thIEEE international Conference on Information Reuse and Integration. Las Vegas, USA, 2008.
[23]Xie Yaya, Li Xiu, Ngai E, et al. Customer churn prediction using improved balanced random forests[J]. Expert Systems with Applications, 2009, 36(3): 5445-5449.
[24]方匡南,朱建平. 基于隨機(jī)森林方法的基金超額收益方向預(yù)測(cè)與交易策略研究[J]. 經(jīng)濟(jì)經(jīng)緯,2010(2):61-65.
Fang Kuangnan, Zhu Jianping. Research on the direction prediction and trading strategy of fund excess return based on stochastic forest method[J]. Economic Survey, 2010(2): 61-65. (in Chinese with English abstract)
[25]Nesterov Y. Introductory lectures on convex optimization: A basic course[M]. Boston: Kluwer Academic. 2004.
[26]趙世林. 網(wǎng)絡(luò)大數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用程序智能分類與識(shí)別[D]. 深圳:中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院,2020.
Zhao Shilin. Intelligent Classification and Recognition of Applications Driven by Network Big Data[D]. Shenzhen: Shenzhen Institutes of Advanced Technology Chinese Academy of Sciences, 2020. (in Chinese with English abstract)
[27]關(guān)毅鉻,程敏熙. 基于Python和梯度下降算法的物理實(shí)驗(yàn)數(shù)據(jù)一元線性擬合方法[J]. 物理通報(bào),2019(10):92-96.
Guan Yige, Chen Minxi. Linear fitting method of unitary about physical experimental data based on Python and gradient descent algorithm[J]. Physics Bulletin, 2019(10): 92-96. (in Chinese with English abstract)
[28]陸一凡,李勇,王如竹. 上海地區(qū)夏季地表熱通量特征及其影響因素[J]. 上海交通大學(xué)學(xué)報(bào),2019,53(8):891-897.
Lu Yifan, Li Yong, Wang Ruzhu. Characteristics of surface heat flux in Shanghai during summer and its influencing factors[J]. Journal of Shanghai Jiaotong University, 2019, 53(8): 891-897. (in Chinese with English abstract)
[29]張宏,胡波,劉廣仁,等. 中國(guó)土壤熱通量的時(shí)空分布特征研究[J]. 氣候與環(huán)境研究,2012,17(5):515-522.
Zhang Hong, Hu Bo, Liu Guangren, et al. Temporal and spatial characteristics of soil heat flux in China[J]. Climatic and Environmental Research, 2012, 17(5): 515-522. (in Chinese with English abstract)
[30]羅麗,王曉蕾,余鵬. 飽和水汽壓計(jì)算公式的比較研究[J]. 氣象水文海洋儀器,2003(4):24-27.
Luo Li, Wang Xiaolei, Yu Peng. Comparative study on calculation formulas of saturated water vapor pressure[J]. Meteorological, Hydrological and Marine Instruments, 2003(4): 24-27. (in Chinese with English abstract)
[31]方匡南,吳見彬,朱建平,等. 隨機(jī)森林方法研究綜述[J]. 統(tǒng)計(jì)與信息論壇,2011,26(3):32-38.
Fang Kuangnan, Wu Jianbin, Zhu Jianping, et al. A review of technologies on random forests[J]. Statistics & Information Forum, 2011, 26(3): 32-38. (in Chinese with English abstract)
[32]Tavish S. Introduction to random forest–simplified[R]. Madras: Analytics Vidhya, 2014.
[33]Cutler D R, Edwards T C, Beard K H, et al. Random forests for classification in ecology[J]. Ecology, 2007, 88: 2783-2792.
[34]Genuer R, Poggi J M, Christime T M. Variable selection using random forests[J]. Pattern Recognition Letters, 2010, 31(14): 2225-2236.
[35]王邵鵬. 基于深度學(xué)習(xí)的廣告點(diǎn)擊預(yù)測(cè)研究[D]. 西安:西安科技大學(xué),2019.
Wang Shaopeng. Research on Advertising Click Prediction Based on Deep Learning[D]. Xi’an: Xi’an University of Science and Technology, 2019. (in Chinese with English abstract)
[36]張曉東. 基于LSTM深度神經(jīng)網(wǎng)絡(luò)的金融風(fēng)險(xiǎn)控制模型設(shè)計(jì)與實(shí)現(xiàn)[D]. 北京:中國(guó)地質(zhì)大學(xué),2020.
Zhang Xiaodong. The Design and Implementation of Financial Risk Control Model Based on LSTM Deep Neural Network[D]. Beijing: China University of Geosciences, 2020. (in Chinese with English abstract)
[37]陳得文. 避雨模式下微氣候因子對(duì)‘陽(yáng)光玫瑰’葡萄生長(zhǎng)發(fā)育的影響研究[D]. 重慶:西南大學(xué),2019.
Chen Dewen. Effects of Microclimate Factors on The Growth and Development of ‘Shine-Muscat’ Grape in Rain-Proof Mode[D]. Chongqing: Southwest University, 2019. (in Chinese with English abstract)
[38]王佛生,趙菊蓮,胡景平,等. 隴東黃土高原蘋果銹病發(fā)病條件及預(yù)測(cè)預(yù)報(bào)研究[J]. 中國(guó)果樹,2014(1):50-53.
Wang Fosheng, Zhao Julian, Hu Jingping, et al. Study on the incidence and prediction of apple rust in Longdong Loess Plateau[J]. China Fruits, 2014(1): 50-53. (in Chinese with English abstract)
[39]王華弟,沈穎,趙敏,等. 水稻白葉枯病發(fā)生危害損失動(dòng)態(tài)與模型預(yù)測(cè)的探討[J]. 中國(guó)植保導(dǎo)刊,2016,36(4):40-44.
Wang Huadi, Shen Ying, Zhao Min, et al. Occurrence and loss dynamics for rice bacterial leaf blight and its forecast model[J]. China Plant Protection, 2016, 36(4): 40-44. (in Chinese with English abstract)
[40]黃雙萍,齊龍,馬旭,等. 基于高光譜成像的水稻穗瘟病害程度分級(jí)方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2015,31(1):212-219.
Huang Shuangping, Qi Long, Ma Xu, et al. Grading method of rice panicle blast severity based on hyperspectral image[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(1): 212-219. (in Chinese with English abstract)
[41]李德,陳文濤,樂章燕,等. 基于隨機(jī)森林算法和氣象因子的碭山酥梨始花期預(yù)報(bào)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(12):143-151.
Li De, Chen Wentao, Le Zhangyan, et al. Forecast method for the first flowering date of Dangshansu pear based on random forest algorithm and meteorological factors[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(12): 143-151. (in Chinese with English abstract)
Prediction ofincidence rate based on meteorological factors in the high disease incidence period
Xiong Kai1, Yang Qiliang1※, Yang Chunxi2, Liu Xiaogang1, Han Huanhao1, Zhou Ping1
(1,650500,;2.,650500,)
Predicting the incidence rate accurately is an important basis for responding todisease in advance and improving yield and quality. The study used field meteorological data and incidence data in theplanting base in Honghe prefecture, Yunnan province from 2018 to 2019, and used the Principal Components Analysis (PCA) to avoid the occurrence of multiple collinearities. The weather data set from May to September each year was used as the training set validation set, and the Random Forest (RF) algorithm was used as the basic learning machine to construct the preliminary prediction model, and finally, the Gradient Descent (GD) algorithm was used for optimization. The results showed that 1) The incidence ofdisease in the high-incidence period was mainly related to soil temperature, humidity in the shed, and soil heat flux in the shed and above the canopy. The PCA avoided the problem of the multicollinearity and obtained the Pearson correlation coefficient between the indicators, among them, the soil temperature and humidity in the shed were positively related to the incidence rate, and their Pearson correlation coefficient were both between 0.25 and 0.75; the soil heat flux in the shed and the soil heat flux abovecanopy were negatively correlated with the incidence rate, and their Pearson correlation coefficient were both between -0.75 and -0.25. 2) Random forest predicted that the frequency of 35% of the incidence rate in the high-incidence period was relatively low, while the frequency of the incidence rate was between 60% and 80%. The phenomenon of infecting other plants at an exponential growth rate was consistent, and all fall within the confidence interval. The root mean square error value of the evaluation index used by random forest was 0.230, and the prediction effect could be trusted. 3) Through GD optimization, the cost function convergence time value was 241.03, the difference between the predicted incidence rate ofand the actual incidence rate was 1.5%, and the weight of the impact of each meteorological factor on the incidence rate ofdisease in the high-incidence period was obtained. Where the maximum degree of the positive correlation between soil temperature, weight was 21.686, soil heat flux thirty-seven canopy above the negative correlation between the degree of the largest weight was -13.834. 4) Regarding the impact of various meteorological factors on the incidence rate of thedisease in the high incidence period, the final prediction model was compared with the PCA obtained from the main effect analysis, and the analysis results of the two were consistent. The research results have reliable predictive capabilities in disease prediction, could provide theoretical basis and technical support for facility environmental regulation and intelligent management to reducedisease.
disease; models; traditional Chinese medicinal materials; random forest; gradient descent;; weather factors
熊凱,楊啟良,楊春曦,等. 基于病害高發(fā)期氣象因子的三七病害發(fā)生率預(yù)測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(24):170-176.doi:10.11975/j.issn.1002-6819.2020.24.020 http://www.tcsae.org
Xiong Kai, Yang Qiliang, Yang Chunxi, et al. Prediction ofincidence rate based on meteorological factors in the high disease incidence period[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(24): 170-176. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2020.24.020 http://www.tcsae.org
2020-09-14
2020-10-16
國(guó)家自然科學(xué)基金(51779113,51979134)
熊凱,主要從事農(nóng)業(yè)智能技術(shù)研究。Email:851180686@qq.com
楊啟良,博士,教授,主要從事高新技術(shù)在農(nóng)業(yè)工程中的應(yīng)用研究。Email:yangqilianglovena@163.com
10.11975/j.issn.1002-6819.2020.24.020
S431
A
1002-6819(2020)-24-0170-07