張善文,王 振,王祖良
(西京學(xué)院信息工程學(xué)院,西安 710123)
小麥條銹病嚴(yán)重影響了小麥的產(chǎn)量與質(zhì)量,進(jìn)行病害預(yù)測(cè)是病害防治的關(guān)鍵步驟。小麥條銹病是小麥病害中最容易發(fā)生、且發(fā)生范圍廣、影響較為嚴(yán)重的一種病害,其發(fā)生和發(fā)展與冬季溫度、初春降水量、土壤溫度和濕度等很多環(huán)境因素關(guān)系密切相關(guān)[1-2]。目前,有很多基于環(huán)境信息的小麥條銹病預(yù)測(cè)方法。張雪雪等[3]歸納和總結(jié)了作物病蟲(chóng)害預(yù)測(cè)模型,并對(duì)后續(xù)研究的關(guān)鍵問(wèn)題和預(yù)測(cè)技術(shù)發(fā)展趨勢(shì)進(jìn)行了描述;陳萬(wàn)權(quán)等[4]分析了中國(guó)小麥條銹病的發(fā)生規(guī)律和原因,為作物病害預(yù)測(cè)提供了依據(jù);聶臣巍[5]構(gòu)建了一種基于貝葉斯網(wǎng)絡(luò)模型的小麥條銹病預(yù)測(cè)方法,并在甘肅省東南部地區(qū)的2010-2012年的小麥條銹病數(shù)據(jù)庫(kù)上進(jìn)行驗(yàn)證,結(jié)果表明在小麥返青期至乳熟期的條銹病、白粉病、赤霉病和紋枯病的發(fā)生概率分別為62.92%、63.18%、79.48%和94.75%;劉偉昌[6]提出了基于灰色關(guān)聯(lián)分析和模糊數(shù)學(xué)的小麥銹病發(fā)生模型,該模型對(duì)4月上旬及5月中旬小麥條銹病的預(yù)測(cè)結(jié)果與實(shí)際值吻合度達(dá)到 93.72%;姚曉紅等[7]提出一種基于統(tǒng)計(jì)學(xué)方法的小麥條銹病的預(yù)測(cè)模型,其最高預(yù)測(cè)準(zhǔn)確率為91%;Wang等[8]利用反向傳播網(wǎng)絡(luò)與不同的轉(zhuǎn)移函數(shù)、訓(xùn)練函數(shù)和學(xué)習(xí)函數(shù)、徑向基網(wǎng)絡(luò)、廣義回歸網(wǎng)絡(luò)和概率神經(jīng)網(wǎng)絡(luò)進(jìn)行了小麥條銹病預(yù)測(cè)方法研究,結(jié)果表明,基于徑向基網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果最好,預(yù)測(cè)率準(zhǔn)確率為91%;李登科等[9]利用小麥條銹病發(fā)生的程度與氣象條件的關(guān)系,預(yù)測(cè)小麥條銹病,在關(guān)中和陜南地區(qū)的最高預(yù)測(cè)率準(zhǔn)確率分別為79.2%和82.8%。實(shí)際小麥病害預(yù)測(cè)數(shù)據(jù)來(lái)源于小麥生長(zhǎng)的環(huán)境因子、農(nóng)業(yè)類科研機(jī)構(gòu)和企業(yè)的數(shù)據(jù)庫(kù)、以及從農(nóng)業(yè)類網(wǎng)站中抓取的大量小麥病害文本數(shù)據(jù)[10-11]。這些數(shù)據(jù)是海量、多源、異構(gòu)、含噪聲、冗余度大,且結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化并存的數(shù)據(jù)。由于上述傳統(tǒng)的病害檢測(cè)和預(yù)測(cè)方法沒(méi)有充分利用這些數(shù)據(jù)之間相互聯(lián)系和相互制約,所以實(shí)際預(yù)測(cè)準(zhǔn)確率較低[12-13]。
如何從海量復(fù)雜的小麥病害相關(guān)大數(shù)據(jù)中提取有用的作物病害知識(shí),是病害預(yù)測(cè)系統(tǒng)的關(guān)鍵問(wèn)題[14]。知識(shí)圖譜(Knowledge Graph,KG)能夠從海量多源異構(gòu)數(shù)據(jù)中抽取結(jié)構(gòu)化知識(shí)[15-17],能夠描述現(xiàn)實(shí)世界中存在的實(shí)體以及實(shí)體之間的關(guān)系[18],已被成功應(yīng)用于智慧農(nóng)業(yè)領(lǐng)域[19-20]。Liu等[21]從知識(shí)表示、提取、融合和推理4個(gè)方面分析了當(dāng)前病蟲(chóng)害知識(shí)的構(gòu)建方法,介紹了作物病害KG在專家系統(tǒng)、搜索引擎和知識(shí)問(wèn)答系統(tǒng)中的應(yīng)用,總結(jié)了作物病害KG中存在的問(wèn)題和面臨的挑戰(zhàn);王娟[22]采用案例推理方法構(gòu)建了一個(gè)煙草病害防控模型,并在案例檢索過(guò)程中結(jié)合 KG的思想,提高了病害檢索的效率;夏迎春[23]開(kāi)發(fā)了一種基于知識(shí)表示的農(nóng)業(yè)病蟲(chóng)害知識(shí)問(wèn)答系統(tǒng),該系統(tǒng)包括知識(shí)問(wèn)答模塊以及作物病害KG展示模塊,取得了較好的效果。
在大數(shù)據(jù)的推動(dòng)下,深度學(xué)習(xí)已被成功應(yīng)用于小麥病害預(yù)測(cè)中[24]。長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)是一種時(shí)間遞歸深度學(xué)習(xí)網(wǎng)絡(luò),適合于處理和預(yù)測(cè)時(shí)間序列中間隔和延遲相對(duì)較長(zhǎng)的重要事件[25-27]。LSTM 為解決作物病害預(yù)測(cè)問(wèn)題提供了新的思路。Xiao等[28]利用Aprioro算法得到了天氣因素與棉花害蟲(chóng)發(fā)生的關(guān)聯(lián)規(guī)律,提出了一種基于LSTM的棉田病蟲(chóng)害預(yù)測(cè)方法,驗(yàn)證了LSTM網(wǎng)絡(luò)在解決農(nóng)作物病蟲(chóng)害預(yù)測(cè)問(wèn)題上具有很大的優(yōu)勢(shì)。KG與LSTM結(jié)合能夠發(fā)揮各自強(qiáng)大的優(yōu)勢(shì)[29]。為了提高小麥條銹病的預(yù)測(cè)準(zhǔn)確率,本文提出了一種基于KG和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,Bi-LSTM)結(jié)合的小麥條銹病預(yù)測(cè)方法,該方法利用KG能夠?qū)⑴c病害相關(guān)的多源異構(gòu)環(huán)境數(shù)據(jù)轉(zhuǎn)化為低維連續(xù)的向量,保存KG中的語(yǔ)義信息,從而得到實(shí)體的向量表示,然后利用 Bi-LSTM 提取病害預(yù)測(cè)的深層次特征,最后利用大量觀測(cè)樣本對(duì)所提出的方法進(jìn)行試驗(yàn)驗(yàn)證,以期為小麥條銹病預(yù)測(cè)系統(tǒng)提供參考。
關(guān)中地區(qū)條銹病春季平均始見(jiàn)期時(shí)間為2月4日,最晚為5月21日,數(shù)據(jù)采集約為140d,采集地點(diǎn)依次為寶雞、西安、咸陽(yáng)、渭南等地。小麥條銹病相關(guān)資料來(lái)自陜西省植物保護(hù)總站,采集陜西省關(guān)中地區(qū)各市2010-2017年小麥條銹病的環(huán)境信息;氣象資料來(lái)自陜西省氣象信息中心,采集2010-2017年陜西省8個(gè)市氣象站上年10月-第二年 5月氣溫、降水量、相對(duì)濕度等資料,各個(gè)單項(xiàng)數(shù)據(jù)項(xiàng)為 5 d采集的數(shù)據(jù)平均值作為小麥種植區(qū)氣象資料序列。為了能夠精準(zhǔn)預(yù)測(cè),選擇與小麥條銹病發(fā)生影響最大的因素進(jìn)行試驗(yàn),包括土壤的最低濕度、最高濕度、平均濕度和溫度、空氣最低濕度、最高濕度、平均濕度、平均溫度、雨日、降雨量、光照日數(shù)、平均風(fēng)速、平均風(fēng)向、平均風(fēng)力、最低蒸發(fā)量、最高蒸發(fā)量、平均蒸發(fā)量等用于構(gòu)建小麥條銹病KG。該KG由2010-2017年的小麥條銹病的相關(guān)數(shù)據(jù)抽取而成。共取得60 000個(gè)實(shí)體。
除了以上實(shí)際數(shù)據(jù)外,利用Python編程語(yǔ)言編寫(xiě)的語(yǔ)料采集工具從中國(guó)農(nóng)業(yè)信息網(wǎng)、興農(nóng)網(wǎng)、蔬菜網(wǎng)以及百度百科等多個(gè)語(yǔ)料庫(kù)中抓取關(guān)于小麥條銹病的 300個(gè)詞條作為語(yǔ)料,并將這些語(yǔ)料使用GBK編碼的形式進(jìn)行文本文件存儲(chǔ)。由于直接獲取的詞條為非結(jié)構(gòu)化文本,難以直接對(duì)其數(shù)據(jù)進(jìn)行利用。因此使用自然語(yǔ)言處理的開(kāi)源工具 LTP中的使用分詞、詞性標(biāo)注和依存句法這3個(gè)模塊對(duì)語(yǔ)料進(jìn)行預(yù)處理,得到的結(jié)果以標(biāo)注文件XML的格式進(jìn)行存儲(chǔ)。
在KG構(gòu)建過(guò)程中,使用一種上下混合模式的構(gòu)建方法。該方法融合了自底向上和自頂向下 2種構(gòu)建方式,通過(guò)不斷迭代優(yōu)化,最終生成滿足要求的領(lǐng)域知識(shí)圖譜。對(duì)于 KG模式層設(shè)計(jì)不僅采用通常的自頂向下的構(gòu)建方法,而且與自底向上的構(gòu)建方法相融合,形成一種自頂向下為主,自底向上為輔的優(yōu)勢(shì)互補(bǔ)的構(gòu)建過(guò)程。所構(gòu)建小麥病害KG其基本元素為氣候因素、發(fā)病原因、治理方案、發(fā)病癥狀、發(fā)病地區(qū)、傳播途徑和相關(guān)數(shù)據(jù)等,具體包含60 000個(gè)實(shí)體,從中抽取出86 500條具體的實(shí)體關(guān)系,知識(shí)實(shí)體關(guān)系圖譜示例如圖1所示。
小麥病害KG是根據(jù)小麥病害實(shí)體、實(shí)體間關(guān)系相互連接起來(lái)所形成的一種網(wǎng)絡(luò)結(jié)構(gòu)。三元組是KG的一種通用表示形式,可將KG中的每一條小麥病害知識(shí)直觀表示為<頭實(shí)體,關(guān)系,尾實(shí)體>。小麥病害實(shí)體(頭實(shí)體或尾實(shí)體)作為KG中最基本的元素,主要由病害、環(huán)境信息、癥狀、防治手段、部位等構(gòu)成;關(guān)系存在于不同的頭實(shí)體或尾實(shí)體之間,主要包含類別、病害表現(xiàn)、病因、發(fā)病原理、預(yù)防措施、農(nóng)藥作用等。小麥條銹病KG構(gòu)建過(guò)程:首先對(duì)病害檢測(cè)知識(shí)和元數(shù)據(jù)知識(shí)進(jìn)行表達(dá),以實(shí)體聯(lián)系方式將病害檢測(cè)知識(shí)和元數(shù)據(jù)知識(shí)進(jìn)行有效組織和管理;然后利用病害知識(shí)和元數(shù)據(jù)進(jìn)行本體層構(gòu)建與實(shí)體層構(gòu)建,包含數(shù)據(jù)獲取與處理(清洗、融合等)、本體層構(gòu)建、實(shí)體層構(gòu)建等過(guò)程;最后構(gòu)建 KG。圖 2a為小麥條銹病KG構(gòu)建流程圖,圖2b為構(gòu)建的KG的一個(gè)實(shí)體實(shí)例。
本文通過(guò)動(dòng)態(tài)映射矩陣嵌入到模型學(xué)習(xí) KG中實(shí)體和關(guān)系的低維特征向量。其過(guò)程描述為:首先將實(shí)體和關(guān)系映射到不同的空間中,為每個(gè)實(shí)體和關(guān)系定義兩個(gè)向量,一個(gè)表征實(shí)體或關(guān)系,另一個(gè)用來(lái)構(gòu)造動(dòng)態(tài)映射矩陣;然后利用詞向量計(jì)算工具word2vec將每個(gè)三元組中的頭實(shí)體、尾實(shí)體和關(guān)系轉(zhuǎn)換為低維特征向量,三元組中的關(guān)系是從實(shí)體集的頭實(shí)體到實(shí)體尾實(shí)體的語(yǔ)義表達(dá)。設(shè)頭實(shí)體、關(guān)系和尾實(shí)體的向量分別表示為h、r和t,通過(guò)不斷調(diào)整h、r和t,使(h+r)盡可能與t相等,即h+r≈t;最后通過(guò)使用2個(gè)投影矩陣Mrh和Mrt將頭實(shí)體h和尾實(shí)體t分別投影到關(guān)系空間,并將每個(gè)關(guān)系的投影矩陣分解為兩個(gè)向量的乘積,得到得分函數(shù):
式中 Mrh=+ Im*n和 Mrt= rptp+與實(shí)體和關(guān)系均相關(guān),通過(guò)向量運(yùn)算轉(zhuǎn)換,rp、tp和hp都是映射向量,Im*n是單位矩陣,dr(h,t)為約束對(duì)實(shí)體和關(guān)系建模。
基于動(dòng)態(tài)映射矩陣嵌入模型的 KG的知識(shí)嵌入過(guò)程如圖 3所示。首先提取小麥條銹病描述文本中的病害特征詞;然后構(gòu)建KG;再將KG中的知識(shí)轉(zhuǎn)化為低維連續(xù)的特征向量;最后將病害特征向量與相關(guān)知識(shí)實(shí)體進(jìn)行匹配,根據(jù)得分函數(shù)獲取關(guān)聯(lián)程度,并進(jìn)行排序。圖 3中,最后得到的結(jié)果是由式(1)得到的病害特征向量與實(shí)體之間的關(guān)聯(lián)性概率。
圖3 小麥條銹病KG的知識(shí)嵌入過(guò)程Fig.3 Knowledge embedding process of wheat stripe rust KG
LSTM由sigmoid神經(jīng)網(wǎng)絡(luò)層和成對(duì)乘法操作組成,通過(guò)門控單元可以對(duì)單元添加和刪除信息,通過(guò) 3個(gè)控制門(輸入門、遺忘門和輸出門)控制不同時(shí)刻的狀態(tài)和輸出,有選擇地決定信息是否通過(guò)。其單元結(jié)構(gòu)如圖4所示。
在圖4中,A表示sigmoid神經(jīng)網(wǎng)絡(luò)層,圓形操作框?代表點(diǎn)積運(yùn)算、⊕代表求和運(yùn)算,相同維數(shù)的兩個(gè)向量經(jīng)過(guò)圓形操作框后,乘以或相加相應(yīng)的元素,正方形的節(jié)點(diǎn)代表“激活操作”,有2種激活方式:σ函數(shù)和tanh雙曲正切函數(shù)。若兩條線在箭頭方向上融合在一起,它們就簡(jiǎn)單地堆疊在一起;若一行被分成 2行,它們會(huì)被復(fù)制到相同的兩行中。
圖4 LSTM的單元結(jié)構(gòu)Fig.4 Cell structure of LSTM
LSTM能夠避免長(zhǎng)期依賴問(wèn)題,但可能丟失很多與病害預(yù)測(cè)相關(guān)的信息。雙向LSTM(Bi-LSTM)能夠利用過(guò)去的若干輸入和后面若干輸入進(jìn)行預(yù)測(cè),該模型不僅解決了長(zhǎng)期依賴問(wèn)題,而且能夠以正向LSTM與反向LSTM方式提取序列數(shù)據(jù)特征,實(shí)現(xiàn)時(shí)間序列的長(zhǎng)期記憶,得到的預(yù)測(cè)結(jié)果比 LSTM更加準(zhǔn)確。由于作物病害預(yù)測(cè)只能以當(dāng)前環(huán)境因子和過(guò)去一段時(shí)間的環(huán)境因子預(yù)測(cè)當(dāng)前時(shí)刻的作物病害發(fā)生的概率,所以采用Bi-LSTM模型能夠提取與作物病害相關(guān)的環(huán)境因子特征,進(jìn)行小麥病害預(yù)測(cè)。設(shè)在時(shí)刻t經(jīng)過(guò)前向LSTM和后向LSTM后得到前向輸出和后向輸出,合并記為ht=[]作為該隱含層的輸出,則環(huán)境因子與小麥病害發(fā)生的關(guān)系概率可以表示為
式中X為輸入數(shù)據(jù),y為病害類型,雙曲正切函數(shù)tanh作為激勵(lì)函數(shù),Whz和Whz為 Bi-LSTM 的權(quán)值,bz為Bi-LSTM的偏差,權(quán)值和偏差都為待訓(xùn)練的參數(shù)。
為了防止訓(xùn)練模型產(chǎn)生過(guò)擬合,在Bi-LSTM中的非循環(huán)部分加入dropout。通過(guò)反向傳播算法優(yōu)化交叉熵?fù)p失函數(shù)L(θ):
式中θ為模型參數(shù),Xi為第i個(gè)訓(xùn)練樣本,y為病害類型,n為訓(xùn)練樣本數(shù)。
針對(duì)“小麥條銹病發(fā)生因素多、復(fù)雜、隨時(shí)間變化”特性,提出一種基于KG和Bi-LSTM相結(jié)合的小麥條銹病預(yù)測(cè)模型。其模型結(jié)構(gòu)如圖5所示。
首先,利用詞向量計(jì)算工具word2vec將每個(gè)KG中的每個(gè)三元組中的實(shí)體和關(guān)系轉(zhuǎn)換為低維特征向量;
第二,將得到的向量作為Bi-LSTM的輸入,提取作物病害環(huán)境因子特征;
第三,利用注意力機(jī)制對(duì)提取的特征進(jìn)行特征融合。注意力層對(duì)Bi-LSTM提取的特征進(jìn)行加權(quán)變換,突出重要病害相關(guān)數(shù)據(jù)的貢獻(xiàn),提高模型預(yù)測(cè)的準(zhǔn)確性。其計(jì)算過(guò)程為
式中 H ={h1,h2,...,hn}表示 Bi-LSTM 生成的特征向量序列,w為訓(xùn)練學(xué)習(xí)的參數(shù)向量,M、a和r′分別為激勵(lì)后的融合特征向量、注意力矩陣和與環(huán)境信息中特定屬性高度相關(guān)的特征向量, H*表示變換后的特征向量。
圖5 小麥條銹病預(yù)測(cè)模型Fig.5 Prediction model of wheat stripe rust diseases
第四,對(duì)H進(jìn)行tanh操作:H與wT相乘,通過(guò)Softmax得到注意力矩陣a,H與a相乘得到狀態(tài)信息加權(quán),進(jìn)一步通過(guò) tanh操作得到的值(在?1~1之間),用于病害預(yù)測(cè)的特征向量H*。
最后,通過(guò) SoftMax分類器預(yù)測(cè)病害。將注意力層的輸出值H*輸入SoftMax分類器進(jìn)行病害預(yù)測(cè),并將其更改為“0”或“1”,作為預(yù)測(cè)結(jié)果。其中“0”表示“無(wú)病預(yù)測(cè)值”,“1”表示“有病預(yù)測(cè)值”。模型的損失函數(shù)定義為
式中D表示由樣本數(shù)據(jù)組成的訓(xùn)練集, (x(i),y(i))表示訓(xùn)練集中第i個(gè)樣本數(shù)據(jù),x(i)為10維向量,y(i)只有“0”和“1”2種值,“0”和“1”分別表示“無(wú)病預(yù)測(cè)值”和“有病預(yù)測(cè)值”,p(y=,θ)表示病害預(yù)測(cè)的概率,即預(yù)測(cè)值與非病態(tài)的樣本數(shù)據(jù) (x(i),y(i))。
預(yù)測(cè)精度ACC指對(duì)于給定的驗(yàn)證數(shù)據(jù)集,模型正確預(yù)測(cè)的樣本數(shù)與總樣本數(shù)之比:
式中TP為被模型預(yù)測(cè)為正的正樣本,TN為被模型預(yù)測(cè)為負(fù)的負(fù)樣本,F(xiàn)P為被模型預(yù)測(cè)為正的負(fù)樣本,F(xiàn)N為被模型預(yù)測(cè)為負(fù)的正樣本。
從60 000個(gè)實(shí)體中抽取出86 500條實(shí)體關(guān)系圖,組成86 500個(gè)三元組,用于病害預(yù)測(cè)。采用10折交叉驗(yàn)證法進(jìn)行小麥條銹病預(yù)測(cè)試驗(yàn),則驗(yàn)證集規(guī)模為8 650個(gè)三元組。將本文方法與其他 5種病害預(yù)測(cè)方法進(jìn)行比較:基于自適應(yīng)判別深度置信網(wǎng)絡(luò)(Deep Belief Networks,DBN)[24],基于時(shí)間序列的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)方法(Neural Networks, NN)[30]和基于時(shí)間序列和RBF網(wǎng)絡(luò)的植物病害預(yù)測(cè)方法(Time Series and RBF Networks, TSRBF)[31]以及基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)和雙向 LSTM(Bi-directional Long Short-Term Memory, Bi-LSTM)[28]的作物病害預(yù)測(cè)方法。5種比較方法DBN、NN、TSRBF、LSTM和Bi-LSTM方法都是直接利用小麥條銹病的環(huán)境信息數(shù)據(jù)進(jìn)行病害預(yù)測(cè),沒(méi)有利用KG轉(zhuǎn)換成的向量數(shù)據(jù)。試驗(yàn)設(shè)備配置及環(huán)境:32G內(nèi)存, Intel Core i5-4200U CPU @2.30 GHz;GPU GEFORCE GTX 1080ti;Ubuntu14.0,深度學(xué)習(xí)架構(gòu)是Tensorflow1.7.0和Keras,包括LSTM。
試驗(yàn)結(jié)果如圖6所示,圖6a、b為訓(xùn)練集的預(yù)測(cè)精度,圖6c、d為測(cè)試集的預(yù)測(cè)精度。由于使用了Dropout,一些節(jié)點(diǎn)被抑制。隨著迭代次數(shù)的增加,精度線出現(xiàn)抖動(dòng),但驗(yàn)證集的精度高于訓(xùn)練集,且不存在明顯的過(guò)擬合現(xiàn)象。當(dāng)?shù)螖?shù)為280時(shí),Bi-LSTM模型在訓(xùn)練集上的準(zhǔn)確率為90.27%,在驗(yàn)證集上的準(zhǔn)確率為94.38%。
圖6 預(yù)測(cè)精度和loss隨迭代次數(shù)的變化Fig.6 Prediction accuracy and loss with the number of iterations
將Bi-LSTM模型在2個(gè)數(shù)據(jù)集上進(jìn)行試驗(yàn)比較:1)直接利用小麥條銹病的環(huán)境信息數(shù)據(jù)進(jìn)行病害預(yù)測(cè);2)利用KG轉(zhuǎn)換成的向量數(shù)據(jù),在驗(yàn)證集上的對(duì)比結(jié)果如圖7所示。從圖7中能夠看出,引入KG后能夠有效提升模型的預(yù)測(cè)精度,當(dāng)?shù)螖?shù)為280時(shí),引入KG后模型的預(yù)測(cè)精度為94.63%,而直接利用環(huán)境信息數(shù)據(jù)的預(yù)測(cè)精度為88.24%。結(jié)果說(shuō)明本文提出的方法是有效的。表1為利用6種方法,進(jìn)行10折交差驗(yàn)證法50次試驗(yàn)得到的平均預(yù)測(cè)精度及運(yùn)行時(shí)間。
圖7 引入KG和未引入KG的預(yù)測(cè)精度比較Fig.7 Prediction accuracy on two datasets with KG and without KG
表1 6種方法的平均預(yù)測(cè)精度及運(yùn)行時(shí)間Table 1 Average prediction accuracy and running time of six methods
從表 1可以看出,本文方法的精度最高,且遠(yuǎn)高于其他方法,Bi-LSTM次之。其原因是,KG充分利用了環(huán)境信息與小麥條銹病之間以及不同環(huán)境信息之間的相互作用和影響,其他預(yù)測(cè)方法完全基于輸入的環(huán)境信息數(shù)據(jù),可能會(huì)引入不相關(guān)的環(huán)境因素和噪聲等,導(dǎo)致預(yù)測(cè)精度低。Bi-LSTM和LSTM模型的準(zhǔn)確性高于DBN的主要原因是它可以學(xué)習(xí)一系列樣本數(shù)據(jù)的變化規(guī)律,以及這些變化規(guī)律對(duì)病害預(yù)測(cè)的影響,提高了預(yù)測(cè)的準(zhǔn)確性和可靠性。Bi-LSTM或LSTM的訓(xùn)練時(shí)間和測(cè)試時(shí)間小于NN和TSRBF的原因是Bi-LSTM和LSTM可以將類別信息引入模型訓(xùn)練中,使訓(xùn)練具有監(jiān)督作用。
針對(duì)小麥病害預(yù)測(cè)難題,提出了一種基于知識(shí)圖譜(Knowledge Graph, KG)和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory, Bi-LSTM)相結(jié)合的小麥條銹病預(yù)測(cè)模型。首先,構(gòu)建小麥條銹病KG,由KG整合小麥條銹病發(fā)生的環(huán)境信息資源;第二,利用word2vec將KG的知識(shí)轉(zhuǎn)換為低維特征向量;第三,利用Bi-LSTM模型提取小麥條銹病預(yù)測(cè)的魯棒性特征,進(jìn)行病害預(yù)測(cè);最后,利用小麥條銹病發(fā)生相關(guān)的歷史天氣和環(huán)境信息等病害發(fā)生數(shù)據(jù)進(jìn)行了驗(yàn)證。結(jié)果表明,KG和Bi-LSTM相結(jié)合能夠預(yù)測(cè)小麥條銹病,預(yù)測(cè)結(jié)果為93.21%。該方法為小麥條銹病防治提供技術(shù)支持。未來(lái)的研究是壓縮KG和Bi-LSTM,以便應(yīng)用于軟硬件受限的移動(dòng)設(shè)備。