關(guān)鍵詞植物間相互作用;魯棒性;圖神經(jīng)網(wǎng)絡(luò);抑制與促進(jìn)
植物間相互作用描述的是在特定生態(tài)環(huán)境中2種或多種植物之間的互動(dòng)關(guān)系[1]。例如,黑樺植物會(huì)與其他低矮的植物,如藍(lán)莓,形成共生關(guān)系,黑樺提供陰涼和保護(hù),而藍(lán)莓則通過其葉片分解提供養(yǎng)分[2]。但農(nóng)業(yè)環(huán)境中的互動(dòng)并非總是正面的,如稗草釋放的化感物質(zhì)可能抑制水稻的生長[3]。這些植物之間的互動(dòng)平衡對生態(tài)穩(wěn)定性、物種的適應(yīng)能力以及資源的分布起到了至關(guān)重要的作用。植物間相互作用預(yù)測在農(nóng)學(xué)中具有重要意義,它既可以為研究者提供洞察植物社區(qū)結(jié)構(gòu)與動(dòng)態(tài)的途徑,同時(shí)又能為農(nóng)業(yè)實(shí)踐者提供更加高效和生態(tài)友好的田間管理策略。隨著農(nóng)業(yè)向現(xiàn)代化和精準(zhǔn)化發(fā)展,精確地預(yù)測植物間的交互作用為新型種植策略和技術(shù)的出現(xiàn)提供了基礎(chǔ)[4],并在農(nóng)業(yè)可持續(xù)發(fā)展中起到關(guān)鍵作用。
近年來,隨著植物間相互作用預(yù)測研究的持續(xù)深入,深度學(xué)習(xí)技術(shù)已被認(rèn)為是植物間相互作用預(yù)測研究的一種創(chuàng)新方法,并展現(xiàn)出廣泛的應(yīng)用前景。深度學(xué)習(xí),源于機(jī)器學(xué)習(xí)技術(shù),其設(shè)計(jì)靈感來源于模擬人腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),旨在處理和分析龐大的數(shù)據(jù),進(jìn)而識別其內(nèi)在的復(fù)雜模式和關(guān)系[5]。在農(nóng)業(yè)發(fā)展實(shí)際應(yīng)用中,圖神經(jīng)網(wǎng)絡(luò)(graphneuralnetwork,GNN)已成功應(yīng)用于農(nóng)作物生長環(huán)境的分析[6-7]。在植物間的相互作用研究中,GNN被用于建模和預(yù)測不同植物之間的復(fù)雜關(guān)系[8]。此外,GNN也被廣泛應(yīng)用于農(nóng)業(yè)病蟲害的監(jiān)測與預(yù)測,通過對農(nóng)作物與環(huán)境因素構(gòu)建圖結(jié)構(gòu),從而準(zhǔn)確識別和預(yù)測潛在的病害爆發(fā)[9]?;贕NN的模型還可以模擬不同作物在多樣化種植條件下的生長表現(xiàn),從而優(yōu)化作物組合以實(shí)現(xiàn)最佳產(chǎn)量和健康狀況[10-11]。深度學(xué)習(xí)應(yīng)用于植物間相互作用預(yù)測研究實(shí)際意義有以下幾點(diǎn)。首先,該技術(shù)使研究者更深入地探索植物間復(fù)雜交互關(guān)系,并進(jìn)一步解讀其背后的生物規(guī)律與機(jī)制[12-13]。其次,該技術(shù)還能指導(dǎo)農(nóng)作物種植方案的優(yōu)化,最大化農(nóng)作物的產(chǎn)出[14]。此外,該技術(shù)可以輔助減少對化學(xué)肥料和農(nóng)藥的依賴[15],進(jìn)而維護(hù)土壤健康和生物多樣性,推進(jìn)農(nóng)業(yè)生態(tài)的持續(xù)健康發(fā)展。
以上研究表明,深度學(xué)習(xí)缺乏對不同類型植物間相互作用的分析。因此,針對如何精準(zhǔn)預(yù)測目標(biāo)的類型植物間相互作用的問題,本研究從深度學(xué)習(xí)的角度提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的植物間相互作用預(yù)測方法(graphneuralnetwork-drivenmethodforpredictingplant-plantinteractions,GNN-PPI)。該方法旨在為農(nóng)業(yè)研究者在植物間的相互作用預(yù)測方面提供重要的參考依據(jù),進(jìn)而為農(nóng)業(yè)的可持續(xù)發(fā)展提供新的動(dòng)力。
1 預(yù)測方法及預(yù)測涉及到的數(shù)據(jù)集
1.1 模型總體概述
本研究收集了現(xiàn)實(shí)世界中植物間的相互作用信息,并將其建模為基于植物間相互作用的異質(zhì)網(wǎng)絡(luò),其中節(jié)點(diǎn)代表植物實(shí)體,節(jié)點(diǎn)之間的鏈接代表植物間相互作用[16]。相比傳統(tǒng)的同質(zhì)網(wǎng)絡(luò),這種基于植物間相互作用的異質(zhì)網(wǎng)絡(luò)融合了多種植物間的互動(dòng)模式。這種融合所帶來的多元信息不僅強(qiáng)調(diào)了相互作用的多樣性,還增加了互動(dòng)過程中的不確定性和復(fù)雜性。為了制定一種能廣泛應(yīng)用于預(yù)測各種植物間相互作用的通用策略,本研究提出了GNN-PPI。該方法通過利用植物間相互作用類型的可轉(zhuǎn)移性,為預(yù)測目標(biāo)植物間相互作用提供了一種更為泛化的方法。如圖1所示,為了實(shí)現(xiàn)這一目標(biāo),GNN-PPI中的表征學(xué)習(xí)器、作用識別器和類型分類器通過一種三者博弈的方式實(shí)現(xiàn)植物間相互作用預(yù)測。作用識別器與表征學(xué)習(xí)器協(xié)同工作,旨在學(xué)習(xí)在不同植物間相互作用類型中可遷移的特征表示,進(jìn)而干擾類型分類器,而類型分類器不斷提高區(qū)分植物間相互作用類型的能力。經(jīng)過反復(fù)迭代,最終,GNN-PPI將表征學(xué)習(xí)器、作用識別器和類型分類器整合在一起,學(xué)習(xí)不同植物間相互作用類型之間的可遷移特征表示,以精準(zhǔn)地預(yù)測目標(biāo)植物間相互作用存在的可能性。
1.2 問題定義
本研究將植物間相互作用的異質(zhì)網(wǎng)絡(luò)形式化表示為G=(V,E,T)。其中,V表示植物節(jié)點(diǎn)集合,E表示植物間相互作用的集合,T為植物間相互作用的類型集合,包含促進(jìn)、被促進(jìn)和抑制3類。每條相互作用e∈E對應(yīng)1個(gè)類型Te∈T。本研究關(guān)注于植物間促進(jìn)、被促進(jìn)與抑制作用的預(yù)測問題,并將其定義如下:在給定的植物間相互作用的異質(zhì)網(wǎng)絡(luò)G=(V,E,T)中,依據(jù)相互作用類型的不同,將植物間的促進(jìn)作用和被促進(jìn)作用劃分為先驗(yàn)類型Th,將抑制作用劃分為目標(biāo)類型Tn。本研究將利用先驗(yàn)類型Th中的植物間相互作用數(shù)據(jù)進(jìn)行模型訓(xùn)練,使其學(xué)習(xí)植物間相互作用的潛在模式,并利用訓(xùn)練好的模型對目標(biāo)類型Tn進(jìn)行預(yù)測。
1.3 表征學(xué)習(xí)器
本研究將表征學(xué)習(xí)器表示為Go(e;θo),其中,θo表示該模塊需要優(yōu)化的參數(shù)。表征學(xué)習(xí)器的核心目標(biāo)是基于網(wǎng)絡(luò)表征學(xué)習(xí),提取植物節(jié)點(diǎn)間相互作用的特征表示[17]。網(wǎng)絡(luò)表征學(xué)習(xí)通過將異質(zhì)網(wǎng)絡(luò)中的植物節(jié)點(diǎn)的原始信息映射到低維向量空間,使其能夠有效捕捉節(jié)點(diǎn)間的結(jié)構(gòu)信息和語義關(guān)系[18]。本研究采用Node2vec算法[19]作為網(wǎng)絡(luò)表征學(xué)習(xí)的具體實(shí)現(xiàn)方法,來提取植物間相互作用的特征表示,具體步驟如下。
首先,Node2vec通過有偏隨機(jī)游走將基于植物間相互作用的異質(zhì)網(wǎng)絡(luò)G轉(zhuǎn)換為一系列植物節(jié)點(diǎn)序列。本研究將該隨機(jī)游走過程定義為采樣策略S,并用NS(u)?V表示植物節(jié)點(diǎn)u的網(wǎng)絡(luò)鄰域節(jié)點(diǎn)集合。受Skip-gram模型[20]啟發(fā),本研究利用這些節(jié)點(diǎn)序列作為模型輸入,以學(xué)習(xí)從植物節(jié)點(diǎn)原始信息到低維特征表示的映射函數(shù)f:V→Rd(其中,d表示特征維數(shù),R表示實(shí)數(shù)空間,Rd即表示d維的實(shí)數(shù)向量空間)。特征學(xué)習(xí)的優(yōu)化目標(biāo)基于最大似然估計(jì),定義如下:
節(jié)點(diǎn)u與其鄰域中的節(jié)點(diǎn)v之間的相似度越高(即f(u)?f(v)的值越大),其共現(xiàn)概率Pr(v|f(u))也就越大。通過優(yōu)化該目標(biāo)函數(shù),可得到一個(gè)能夠最大化植物節(jié)點(diǎn)u在其網(wǎng)絡(luò)鄰域NS(u)內(nèi)共現(xiàn)概率的映射函數(shù)f。最終,使得具有相互作用的植物節(jié)點(diǎn)在低維向量空間中的特征表示更為接近,從而提升模型對植物間相互作用的預(yù)測能力。
在獲得節(jié)點(diǎn)特征表示后,對于植物節(jié)點(diǎn)間的相互作用e=(u,v),首先分別提取植物節(jié)點(diǎn)u和v的特征表示f(u)和f(v)。接著,利用點(diǎn)積特征融合函數(shù)g(?)將每對植物節(jié)點(diǎn)的特征進(jìn)行融合,得到相互作用的特征表示。最終,所有訓(xùn)練集Etrain中植物節(jié)點(diǎn)間相互作用的特征集合表示為:
基于上述特征集合F,本研究進(jìn)一步引入一維卷積神經(jīng)網(wǎng)絡(luò)[21]和全連接層,以挖掘潛在可遷移的類型特征,進(jìn)而將已知的促進(jìn)、被促進(jìn)特征遷移至目標(biāo)任務(wù)的抑制特征。在表征學(xué)習(xí)器、作用識別器和類型分類器三者之間的迭代優(yōu)化過程中,F(xiàn)不斷被調(diào)整優(yōu)化為可遷移的特征表示。
1.4 作用識別器
本研究將作用識別器表示為Gi(F;θo,θi),其中,θi為作用識別器需要優(yōu)化的參數(shù),F(xiàn)和θo來自表征學(xué)習(xí)器。作用識別器的輸入是上述表征學(xué)習(xí)器的輸出特征F,其核心功能是判斷兩植物節(jié)點(diǎn)之間是否存在相互作用。對于給定的植物間相互作用e∈Etrain,其特征表示為Fe,作用識別器Gi(Fe;θo,θi)的輸出即為植物節(jié)點(diǎn)之間產(chǎn)生相互作用e的存在似然值。Gi(Fe;θo,θi)的值越大,說明給定的植物間相互作用e真實(shí)存在的概率越高。在測試集Etest中,真實(shí)存在的植物間相互作用e的存在似然值應(yīng)大于不存在的相互作用的似然值。
為了訓(xùn)練作用識別器,使其能夠有效地區(qū)分不同的植物間相互作用關(guān)系,本研究使用交叉熵?fù)p失函數(shù)[22]作為優(yōu)化目標(biāo),定義預(yù)測損失(Lossi,公式中以Li表示)如下:
其中,me的值取1或者0。當(dāng)me=1時(shí),表示作用識別器對植物間相互作用e的預(yù)測正確,即植物間存在相互作用e;當(dāng)me=0時(shí),則表示預(yù)測錯(cuò)誤,即植物間不存在相互作用e。在模型訓(xùn)練過程中,通過優(yōu)化參數(shù)θo和θi最小化預(yù)測損失函數(shù)Lossi(θo,θi)。訓(xùn)練過程旨在提高模型在識別植物間相互作用方面的魯棒性和判別能力[23],從而使其更適用于植物間相互作用的預(yù)測任務(wù)。
鑒于植物間相互作用類型的多樣性,本研究采用啟發(fā)式學(xué)習(xí)策略,旨在通過模型在先驗(yàn)類型Th與目標(biāo)類型Tn之間的有效遷移,進(jìn)一步實(shí)現(xiàn)其對未見類型相互作用的預(yù)測能力。這一策略已在社會(huì)網(wǎng)絡(luò)鏈路預(yù)測研究中得到驗(yàn)證[24]。為此,本模型設(shè)計(jì)如下類型分類器。
1.5 類型分類器
本研究將類型分類器表示為Gc(F;θo,θc)。其中,θc為類型分類器的待學(xué)習(xí)參數(shù),F(xiàn)和θo來自表征學(xué)習(xí)器。類型分類器的核心任務(wù)是基于特征F判斷植物間相互作用的類型。為了訓(xùn)練類型分類器,使其能夠有效評估植物間相互作用特征的可轉(zhuǎn)移性,本研究采用交叉熵?fù)p失函數(shù)作為優(yōu)化目標(biāo),定義類型分類損失(Lossc,公式中以Lc表示)如下:
其中,Th為訓(xùn)練集Etrain中植物間促進(jìn)、被促進(jìn)相互作用的類型集合,Gec({Fe};θo,θc)表示類型分類器針對植物間相互作用e的類型預(yù)測正確的概率。當(dāng)預(yù)測類別與真實(shí)類別一致時(shí),αe=1;否則,αe=0。較小的分類損失Lossc(θo,θc)表明模型對相互作用的類型分類性能較好。為了使F中學(xué)習(xí)到的特征表示具備可轉(zhuǎn)移性,訓(xùn)練過程中通過優(yōu)化參數(shù)θo來最大化Lossc(θo,θc),確保F表示的特征滿足可轉(zhuǎn)移性要求,能夠適用于不同類型的植物間相互作用預(yù)測任務(wù)。
1.6 模型的整體構(gòu)建
在植物異質(zhì)網(wǎng)絡(luò)中植物間相互作用預(yù)測問題中,本研究將網(wǎng)絡(luò)中存在的植物間相互作用E作為正樣本,并隨機(jī)選擇相同類型且數(shù)量為|E|的不存在的樣本作為負(fù)樣本,共同構(gòu)成訓(xùn)練集Etrain,并配對相應(yīng)的標(biāo)簽集YL和ZL,其中YL表示相互作用是否存在的標(biāo)簽,ZL表示其類型標(biāo)簽。模型通過表征學(xué)習(xí)器Go(e;θo)、作用識別器Gi(Fe;θo,θi)和類型分類器Gc(Fe;θo,θc)之間的三者博弈進(jìn)行訓(xùn)練。表征學(xué)習(xí)器和作用識別器會(huì)共同優(yōu)化特征表示F,以使得F中的可遷移特征能夠更好地捕獲植物間不同類型相互作用的共性,從而干擾類型分類器的學(xué)習(xí)。而類型分類器則通過發(fā)現(xiàn)特定類型特征,精準(zhǔn)地識別植物間相互作用的類型,避免被表征學(xué)習(xí)器和作用識別器干擾?;谶@種對抗關(guān)系,本模型最終損失函數(shù)(Lossfinal,公式中以Lfinal表示)的定義如下:
其中,λi和λc是用于平衡預(yù)測損失Lossi和類型分類損失Lossc的超參數(shù)。通過最小化Lossfinal,模型能夠在增強(qiáng)相互作用預(yù)測準(zhǔn)確性的同時(shí),確保學(xué)習(xí)到的特征對于未見相互作用類型具備良好的可轉(zhuǎn)移性。
上述訓(xùn)練過程的目標(biāo)是尋找模型最終損失函數(shù)的鞍點(diǎn),參數(shù)更新過程如下:
其中,公式(7)表示在參數(shù)θc固定的條件下,找到使最終損失函數(shù)Lossfinal最小化的表征學(xué)習(xí)器和作用識別器的參數(shù)θo、θi;公式(8)表示在參數(shù)θo固定的條件下,找到使Lossfinal最大化的類型分類器的參數(shù)θc。Lossfinal的最大-最小優(yōu)化問題即為鞍點(diǎn)問題。
本研究通過在表征學(xué)習(xí)器和類型分類器之間增加梯度反轉(zhuǎn)層[25],實(shí)現(xiàn)特征學(xué)習(xí)與類型判別之間的動(dòng)態(tài)平衡。在前向傳播階段,梯度反轉(zhuǎn)層作為恒等函數(shù)傳遞信號;而在反向傳播過程中,梯度反轉(zhuǎn)層將梯度信號反轉(zhuǎn),使得表征學(xué)習(xí)器學(xué)習(xí)到的特征能夠最大程度地干擾類型分類器的分類能力,從而提升模型對未見類型相互作用的預(yù)測能力。
1.7 植物間相互作用預(yù)測涉及到的數(shù)據(jù)集
伴生植物數(shù)據(jù)集來源于維基百科頁面“伴生植物列表”上的表格。數(shù)據(jù)集的格式考慮了基于圖的任務(wù)的應(yīng)用,比如推薦系統(tǒng)中常用的鏈路預(yù)測[26]和節(jié)點(diǎn)分類[27]。數(shù)據(jù)集一共有996行和4列,每列分別是:源節(jié)點(diǎn)、鏈接、目標(biāo)節(jié)點(diǎn)以及源節(jié)點(diǎn)類別。源節(jié)點(diǎn)表示鏈接開始的植物名稱。數(shù)據(jù)集中的鏈接指明了鏈接的類型,包括促進(jìn)、被促進(jìn)和避免。目標(biāo)節(jié)點(diǎn)是指鏈接結(jié)束處的植物名稱。源節(jié)點(diǎn)類別分為蔬菜、香草、花卉和水果。盡管原始數(shù)據(jù)集中存在3種鏈接類型,但被促進(jìn)只是促進(jìn)的逆向關(guān)系(僅在邏輯上如此)。此外,某些目標(biāo)節(jié)點(diǎn)可能在源節(jié)點(diǎn)中不存在。通過這個(gè)數(shù)據(jù)集,研究人員可以探索不同植物間相互作用關(guān)系。數(shù)據(jù)集提供了關(guān)于植物之間的鏈接類型和源節(jié)點(diǎn)屬性的信息,可用于進(jìn)行基于圖的任務(wù),如預(yù)測植物之間的鏈接關(guān)系或?qū)χ参镞M(jìn)行分類。這些信息對于研究植物之間的相互作用、構(gòu)建基于植物間相互作用的異質(zhì)網(wǎng)絡(luò)以及探索伴生種植的實(shí)踐意義具有重要價(jià)值。該數(shù)據(jù)集的官方網(wǎng)址為:https://www.kaggle.com/datasets/aramacus/companion-plants。
本研究對植物間相互作用構(gòu)建的異質(zhì)網(wǎng)絡(luò)進(jìn)行了細(xì)致的統(tǒng)計(jì)分析,記錄了異質(zhì)網(wǎng)絡(luò)中3種主要的相互作用類型——促進(jìn)、被促進(jìn)以及抑制類型,并詳細(xì)統(tǒng)計(jì)了各類型鏈接的數(shù)量。3種類型的具體數(shù)量分別為:促進(jìn)作用類型的鏈接452條、被促進(jìn)作用類型的鏈接416條,抑制作用類型的鏈接127條。在實(shí)驗(yàn)設(shè)計(jì)中,促進(jìn)作用及被促進(jìn)作用的鏈接總計(jì)868條,被歸類為訓(xùn)練集數(shù)據(jù);而抑制作用的鏈接,總計(jì)127條,被選作測試集數(shù)據(jù)。原始的伴生植物數(shù)據(jù)是以植物名字命名的植物節(jié)點(diǎn)對,不能直接被用于構(gòu)建基于植物間相互作用的異質(zhì)網(wǎng)絡(luò)。本研究對它們進(jìn)行了3步預(yù)處理步驟。第1步,為了準(zhǔn)確定位和識別各節(jié)點(diǎn),本研究將植物節(jié)點(diǎn)的名稱映射到其獨(dú)特的序號;第2步,為了更準(zhǔn)確地描述節(jié)點(diǎn)之間的相互關(guān)系,本研究以植物節(jié)點(diǎn)序號為基礎(chǔ)建立了植物節(jié)點(diǎn)對之間的聯(lián)系;第3步,為了理解植物間相互作用的結(jié)構(gòu),本研究根據(jù)節(jié)點(diǎn)對構(gòu)建了基于植物間相互作用的異質(zhì)網(wǎng)絡(luò)。
1.8 基線方法
為客觀地評價(jià)本研究提出的模型的優(yōu)勢,采用SEAL[28]、GATNE[29]、HeGAN[30]、PME[31]、SVM[32]和RF[33]6種模型作為對比方法,這些方法涵蓋了基于機(jī)器學(xué)習(xí)的分類模型、網(wǎng)絡(luò)結(jié)構(gòu)的方法以及基于拓?fù)浣Y(jié)構(gòu)相似性的方法。
1)SEAL。SEAL是一種啟發(fā)式的植物相互作用預(yù)測算法,它利用圖神經(jīng)網(wǎng)絡(luò)從局部子圖中學(xué)習(xí)啟發(fā)式信息,以自動(dòng)學(xué)習(xí)適合當(dāng)前網(wǎng)絡(luò)的“啟發(fā)式”。
2)GATNE。GATNE是一種針對基于植物間相互作用的異質(zhì)網(wǎng)絡(luò)的表示學(xué)習(xí)方法。它支持直推式和歸納式學(xué)習(xí),可以適用于多種類型的數(shù)十億植物節(jié)點(diǎn)和植物間相互作用組成的網(wǎng)絡(luò),每個(gè)植物節(jié)點(diǎn)關(guān)聯(lián)不同的屬性。
3)HeGAN。HeGAN是一種用于基于植物間相互作用的異質(zhì)網(wǎng)絡(luò)嵌入的新框架,它利用生成式對抗網(wǎng)絡(luò)進(jìn)行訓(xùn)練。在博弈過程中,鑒別器和生成器被同時(shí)訓(xùn)練,以提高植物節(jié)點(diǎn)嵌入的質(zhì)量。
4)PME。PME是一種基于植物間相互作用的異質(zhì)網(wǎng)絡(luò)表征模型,旨在將基于植物間相互作用的異質(zhì)網(wǎng)絡(luò)嵌入到低維空間中,同時(shí)保留原始空間中的全局和局部網(wǎng)絡(luò)結(jié)構(gòu)。
5)SVM。SVM是常見的機(jī)器學(xué)習(xí)方法,特別適用于處理具有多個(gè)特征和屬性的復(fù)雜數(shù)據(jù)集。在傳統(tǒng)的SVM中,輸入數(shù)據(jù)被表示為高維特征空間中的向量集。
6)RF。RF是一種決策樹的集成模型,它的每棵樹都是從輸入數(shù)據(jù)的一個(gè)自助樣本中構(gòu)建出來的。RF的一個(gè)實(shí)用優(yōu)點(diǎn)是,它可以自動(dòng)預(yù)測植物間相互作用是否存在的概率。
1.9 參數(shù)設(shè)置
本研究中使用的模型在隨機(jī)梯度下降中設(shè)置學(xué)習(xí)率η=0.001。每次迭代使用32的批次大小。將所有方法的嵌入維數(shù)d設(shè)置為64。對于模型中基于隨機(jī)游走的方法,將游走次數(shù)設(shè)置為w=10,游走長度設(shè)置為l=5,窗口大小設(shè)置為τ=10。將λ設(shè)置為1。為了更好地對比SEAL、GATNE、HeGAN、PME、SVM和RF這幾種方法,SEAL、GATNE、He?GAN和PME在試驗(yàn)中遵照原來的方法[28-33]設(shè)置,SVM采用線性核函數(shù)并設(shè)置懲罰系數(shù)為50,RF中設(shè)置n_estimators=50。
1.10 試驗(yàn)設(shè)置
在進(jìn)行試驗(yàn)設(shè)置時(shí),從基于植物間相互作用的異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)中選取了一部分植物間相互作用類型作為先驗(yàn)類型,而將剩余的植物間相互作用類型作為目標(biāo)類型。具體而言,基于植物間相互作用的異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)中包含了3種類型的植物間相互作用,即促進(jìn)、被促進(jìn)和抑制作用。為了將植物間相互作用名稱數(shù)據(jù)化,本研究將這3種類型分別標(biāo)記為類型0、1和2。試驗(yàn)分別以類型0、1和2輪流作為目標(biāo)類型,以研究不同目標(biāo)類型對模型潛在的影響因素。
2 結(jié)果與分析
2.1 試驗(yàn)對比
為了驗(yàn)證GNN-PPI的預(yù)測性能,將GNN-PPI與其他6種方法進(jìn)行對比。本研究使用3個(gè)典型的評價(jià)指標(biāo)AUC[34]、準(zhǔn)確率(accuracy)[35]和精確率(precision)[36]來驗(yàn)證不同預(yù)測方法的性能。這3個(gè)指標(biāo)分別從整體預(yù)測準(zhǔn)確性、區(qū)分正負(fù)樣本以及對正類樣本識別能力的角度對模型的表現(xiàn)進(jìn)行驗(yàn)證。GNN-PPI與其他6種方法對比得到的AUC、preci?sion和accuracy如表1所示。
從表1結(jié)果可知,與SEAL、GATNE、HeGAN、PME、SVM和RF相比,GNN-PPI在伴生植物數(shù)據(jù)集上獲得的AUC、precision和accuracy最高,比次優(yōu)的SVM方法分別提高7.74、1.61和8.62百分點(diǎn),分別達(dá)到了92.00%、80.12%和86.21%。這是因?yàn)榛谥参镩g相互作用的異質(zhì)網(wǎng)絡(luò)包含了“促進(jìn)”“被促進(jìn)”和“抑制”3種相互作用類型,而其他對比方法關(guān)注的是在訓(xùn)練集中先驗(yàn)類型的植物間相互作用預(yù)測損失最小化,忽略了植物間相互作用類型的不確定性。這直接導(dǎo)致了其他對比方法得到的結(jié)果相對較差。具體而言,其他6種方法傾向于捕捉特定類型的特征,無法很好地泛化到不同的植物間相互作用類型之間。此外,測試集中植物間相互作用類型的不確定性和多樣性限制了對比方法在基于植物間相互作用的異質(zhì)網(wǎng)絡(luò)中的預(yù)測性能。相比之下GNNPPI利用對抗訓(xùn)練學(xué)習(xí)可轉(zhuǎn)移的植物間相互作用的可遷移特征,以抵抗測試集中植物間相互作用類型不確定性的干擾。因此,在基于植物間相互作用的異質(zhì)網(wǎng)絡(luò)中,GNN-PPI展現(xiàn)出實(shí)質(zhì)性的預(yù)測改進(jìn)效果。
2.2 消融實(shí)驗(yàn)
本研究提出的GNN-PPI模型在對抗學(xué)習(xí)過程中學(xué)習(xí)到不同類型植物間相互作用的可轉(zhuǎn)移特征表示。為了使GNN-PPI模型能夠?qū)W習(xí)可轉(zhuǎn)移的特征表示,模型設(shè)計(jì)了一個(gè)類型分類器,用于判斷提取的特征是否符合可轉(zhuǎn)移特征的標(biāo)準(zhǔn)。通過最大化類型分類器的損失函數(shù),模型有效地優(yōu)化了提取特征的可轉(zhuǎn)移性。然而,即使沒有這種最大化過程,實(shí)驗(yàn)仍然可以根據(jù)植物間相互作用的初步特征表示來預(yù)測植物間相互作用。因此,為驗(yàn)證在訓(xùn)練階段學(xué)習(xí)可轉(zhuǎn)移特征表示的必要性,本研究設(shè)計(jì)了GNN-PPI的一個(gè)變體GNN-PPI1-用于比較分析。GNN-PPI與GNN-PPI1-的唯一區(qū)別在于,GNN-PPI1-在植物間相互作用類型分類器中不考慮最大化過程。實(shí)驗(yàn)使用GNN-PPI和GNN-PPI1-模型對基于植物間相互作用的異質(zhì)網(wǎng)絡(luò)進(jìn)行相互作用預(yù)測以突出最大化類型分類器的損失函數(shù)的重要性。實(shí)驗(yàn)結(jié)果基于40次獨(dú)立運(yùn)行的平均值,GNN-PPI與GNN-PPI1-的性能比較結(jié)果如圖2所示。
根據(jù)圖2的結(jié)果,與GNN-PPI1-相比,GNN-PPI的性能得到了穩(wěn)定的提升。這有力地表明,學(xué)習(xí)可轉(zhuǎn)移的特征表示對于提高基于植物間相互作用的異質(zhì)網(wǎng)絡(luò)中植物間相互作用的預(yù)測性能是非常重要的。在伴生植物數(shù)據(jù)集上,GNN-PPI在AUC、Preci?sion和Accuracy上總是比GNN-PPI1-得到更大的值。這種表現(xiàn)說明,基于表征學(xué)習(xí)器,作用識別器和類型分類器之間的三者博弈,GNN-PPI能夠?qū)W習(xí)一般植物間相互作用的特征表示,這些特征可以從一種植物間相互作用類型轉(zhuǎn)移到其他植物間相互作用類型。表征學(xué)習(xí)器與作用識別器協(xié)同工作以試圖捕捉植物間相互作用類型之間的可遷移特征以干擾類型分類器,而類型分類器試圖區(qū)分植物間相互作用類型以避免被干擾。相比之下,由于缺少最大化過程,GNN-PPI1-側(cè)重于學(xué)習(xí)不可轉(zhuǎn)移的類型特定特征,從而失去了在預(yù)測過程中抵抗植物間相互作用類型不確定性的泛化能力。因此,得益于通過對抗訓(xùn)練中不斷對可轉(zhuǎn)移特征表示的優(yōu)化,GNN-PPI比GNN-PPI1-具有更好的預(yù)測性能。
2.3 植物間相互作用類型試驗(yàn)
根據(jù)圖3的結(jié)果,可以觀察到目標(biāo)類型的植物間相互作用數(shù)量與試驗(yàn)結(jié)果呈線性關(guān)系。結(jié)果顯示,選擇植物間相互作用數(shù)較少的類型(如抑制類型)作為預(yù)測對象可以獲得更好的預(yù)測性能,而選擇植物間相互作用數(shù)較多的類型(如促進(jìn)類型)作為預(yù)測對象則會(huì)導(dǎo)致預(yù)測性能下降。這表明先驗(yàn)類型的植物間相互作用構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)對模型的預(yù)測性能有顯著影響。這個(gè)觀察結(jié)果可以引發(fā)更深入的分析。預(yù)測性能的差異可能與先驗(yàn)類型和目標(biāo)類型的植物間相互作用之間的復(fù)雜關(guān)系有關(guān)。如果目標(biāo)類型的植物間相互作用較少,模型能夠更容易準(zhǔn)確地預(yù)測,因?yàn)檩^少的植物間相互作用數(shù)量減少了網(wǎng)絡(luò)中的噪聲和干擾。相比之下,選擇較多植物間相互作用的目標(biāo)層作為預(yù)測對象可能增加了預(yù)測的困難,因?yàn)楦嗟闹参镩g相互作用數(shù)量可能導(dǎo)致更多的變化和不確定性。
2.4 結(jié)果驗(yàn)證
本試驗(yàn)主要對GNN-PPI預(yù)測的結(jié)果進(jìn)行了驗(yàn)證。GNN-PPI預(yù)測的得分前十的植物節(jié)點(diǎn)對之間相互作用的預(yù)測結(jié)果如表2所示。表2中的每一行顯示植物節(jié)點(diǎn)對及其相應(yīng)的模型預(yù)測分?jǐn)?shù)Predic?tionscore∈[0,1]。預(yù)測分?jǐn)?shù)越接近于1表示本研究提出的模型越確認(rèn)2種植物之間越會(huì)產(chǎn)生抑制作用。這說明本研究提出的GNN-PPI認(rèn)為表2所展示的植物對確實(shí)存在抑制的相互作用。在使用原始數(shù)據(jù)庫(https://www.kaggle.com/datasets/aramacus/com?panion-plants)驗(yàn)證結(jié)果后,預(yù)測結(jié)果的準(zhǔn)確性得到了確認(rèn)。
由表2可見,GNN-PPI預(yù)測結(jié)果得分排名第一的植物對為草莓(strawberries)和十字花科蔬菜(brassicas),得分0.99999。即,草莓和十字花科蔬菜之間會(huì)產(chǎn)生抑制作用。文獻(xiàn)[37]也證實(shí)了該預(yù)測結(jié)果。圖4展示了這2種植物間產(chǎn)生抑制作用的示意圖。
3 討論
本研究通過基于深度學(xué)習(xí)的方法對植物間相互作用的異質(zhì)網(wǎng)絡(luò)進(jìn)行分析,以揭示其中的關(guān)聯(lián)模式和規(guī)律,并為優(yōu)化植物的配套種植方案提供指導(dǎo)和決策支持。為了實(shí)現(xiàn)這一目標(biāo),本研究通過將現(xiàn)實(shí)中不同植物間的相互作用建模成基于植物間相互作用的異質(zhì)網(wǎng)絡(luò),提出一種基于圖神經(jīng)網(wǎng)絡(luò)的植物間相互作用預(yù)測方法(GNN-PPI)。本研究提出的GNN-PPI通過深度學(xué)習(xí)技術(shù)精準(zhǔn)預(yù)測植物間的相互作用,從而優(yōu)化配套種植方案并提升農(nóng)業(yè)效率。該模型為實(shí)現(xiàn)精準(zhǔn)農(nóng)業(yè)提供了關(guān)鍵的數(shù)據(jù)支持,有助于實(shí)現(xiàn)農(nóng)業(yè)資源的高效利用。
GNN-PPI能精準(zhǔn)預(yù)測植物間存在抑制作用的原因有以下幾個(gè)因素。首先,這2種植物能釋放出具有抑制效果的化學(xué)物質(zhì),稱為化感作用[38]。例如,植物可能通過根系釋放化合物,如苯酚類物質(zhì)、揮發(fā)性有機(jī)物或化感物質(zhì),這些物質(zhì)對周圍植物的生長產(chǎn)生抑制作用[39]。具體釋放的化學(xué)物質(zhì)類型和濃度因植物物種而異。其次,草莓和十字花科蔬菜在土壤中爭奪相同的營養(yǎng)元素。由于這2種植物對某種特定營養(yǎng)元素的需求相似且生長速度相近,它們會(huì)相互競爭,導(dǎo)致生長抑制[40]。這種競爭可能使其中一種植物無法獲得足夠的營養(yǎng)來支持其生長。最后,草莓和十字花科蔬菜都受到某些共同的病蟲害問題的困擾。如果其中一種植物感染了病原體或受到蟲害侵襲,它們成為傳播病害或害蟲的來源[41],從而對周圍的植物產(chǎn)生抑制作用。
此外,GNN-PPI方法在目標(biāo)類型的植物間相互作用預(yù)測方面展示出了較好的效果。這一點(diǎn)對于農(nóng)業(yè)研究具有實(shí)際意義。在農(nóng)業(yè)生態(tài)系統(tǒng)中,對基于植物間相互作用的異質(zhì)網(wǎng)絡(luò)的深入理解和預(yù)測能力是至關(guān)重要的。例如,為了高效地利用資源,農(nóng)民需要了解植物之間存在相互促進(jìn)或抑制的關(guān)系。通過使用GNN-PPI,研究人員可以更準(zhǔn)確地預(yù)測植物之間的相互作用,即使這些作用之前從未被觀察到。這可以幫助農(nóng)民優(yōu)化種植策略,決定哪些植物應(yīng)該種植在一起以獲得最佳的生長效果或預(yù)防害蟲??偟膩碚f,GNN-PPI方法能夠更好地理解和預(yù)測植物間的復(fù)雜相互作用,從而實(shí)現(xiàn)可持續(xù)的農(nóng)業(yè)生產(chǎn)。
雖然當(dāng)前的研究成果已經(jīng)為這一領(lǐng)域帶來了新的認(rèn)識,但為了進(jìn)一步提高預(yù)測精度并增加應(yīng)用范圍,以下幾個(gè)方向值得探索。
1)交叉學(xué)科合作,推進(jìn)生態(tài)農(nóng)業(yè)的實(shí)踐。GNNPPI提供了對植物間相互作用的深度理解,這為生態(tài)農(nóng)業(yè)提供了重要的理論基礎(chǔ)。未來,可以與生態(tài)學(xué)、土壤學(xué)、農(nóng)業(yè)經(jīng)濟(jì)學(xué)等相關(guān)學(xué)科合作,共同研究如何將GNN-PPI的預(yù)測結(jié)果與其他學(xué)科知識相結(jié)合,以推動(dòng)生態(tài)農(nóng)業(yè)的全面實(shí)踐。
2)傳感器數(shù)據(jù)與模型整合的深度優(yōu)化。隨著現(xiàn)代傳感技術(shù)在農(nóng)業(yè)中的廣泛應(yīng)用,如土壤濕度、氣象條件和植物生長狀態(tài)的實(shí)時(shí)監(jiān)測成為可能。未來的研究可以著重于如何將這些實(shí)時(shí)數(shù)據(jù)與GNN-PPI進(jìn)行深度整合,實(shí)現(xiàn)對植物間相互作用的實(shí)時(shí)監(jiān)控和預(yù)測。這種結(jié)合可以使得種植策略更加靈活,對環(huán)境變化有更快的響應(yīng)。
3)模型的實(shí)際應(yīng)用與農(nóng)業(yè)決策整合。技術(shù)的最終目標(biāo)應(yīng)是轉(zhuǎn)化為實(shí)際應(yīng)用,為農(nóng)業(yè)生產(chǎn)實(shí)踐帶來價(jià)值。未來的研究方向可以探索如何將本模型整合進(jìn)實(shí)時(shí)的農(nóng)業(yè)管理系統(tǒng)中,為農(nóng)民提供即時(shí)、科學(xué)的決策建議。這不僅要求模型的預(yù)測結(jié)果簡單明了、易于理解,還要求系統(tǒng)具有友好的用戶界面,使得農(nóng)民能夠輕松地獲取和使用。