于珍珍 鄒華芬 于德水 汪 春, 劉天祥 張欣悅
(1.黑龍江八一農(nóng)墾大學工程學院,大慶 163319;2.中國熱帶農(nóng)業(yè)科學院南亞熱帶作物研究所,湛江 524003;3.華中科技大學管理學院,武漢 430074)
土壤含氧量(Soil oxygen content,SOC)是影響作物生長發(fā)育的重要土壤環(huán)境因子,土壤中水分、氣體比例不協(xié)調(diào)是農(nóng)業(yè)可持續(xù)發(fā)展的主要障礙,也是影響我國生態(tài)環(huán)境健康和農(nóng)業(yè)生產(chǎn)發(fā)展的重要制約因素[1-2]。當SOC小于10%時,作物有氧呼吸受阻或者中斷,作物水分和養(yǎng)分利用效率下降,呼吸作用產(chǎn)生的三磷酸腺苷(ATP,高能磷酸化合物)水平下降[3-5]。植物地上部分則表現(xiàn)為葉片萎縮,作物鮮質(zhì)量和干質(zhì)量顯著下降,是農(nóng)作物高產(chǎn)的主要限制條件[6-7],加氣灌溉技術(shù)是目前對土壤進行通氣增氧的有效措施,但是由于土壤環(huán)境復雜而不穩(wěn)定,土壤氧氣含量變化具有時序性、不穩(wěn)定性和非線性等特點,通氣增氧的相關(guān)參數(shù)尚未形成量化體系[8-10]。SOC容易受到氣象因子(大氣溫濕度、太陽輻射、降雨量等)及土壤環(huán)境因子(土壤溫度、土壤含水率等)的影響[11-13],各因素存在復雜的耦合關(guān)系,因此,建立SOC預測模型對于作物種植具有重要的生產(chǎn)意義,也為土壤通氣增氧技術(shù)的管理決策提供理論依據(jù)。
近幾年人工神經(jīng)網(wǎng)絡迅速發(fā)展,在解決函數(shù)逼近與數(shù)據(jù)預測等問題上效果良好[14-16],但是關(guān)于土壤含氧量預測方面的研究未見報道。關(guān)于水中溶解氧(Dissolved oxygen,DO)預測取得了一定的研究成果。長短時記憶(Long and short-term memory,LSTM)神經(jīng)網(wǎng)絡模型,對長時間序列數(shù)據(jù)層具有較好的傳遞記憶功能,可以深度挖掘長距離時序數(shù)據(jù)信息,并且能消除反向梯度消失問題,被廣泛應用于各個領(lǐng)域[17]。LIU等[18]利用注意機制和遞歸神經(jīng)網(wǎng)絡通過水溫、大氣相對濕度、太陽輻射等預測DO。HUAN等[19]以pH值、水溫、大氣相對濕度等為影響因素,采用基于梯度增強決策樹(GBDT)特征選擇的LSTM模型對DO進行預測;陳英義等[20]提出了基于WT-CNN-LSTM的溶解氧含量預測模型,提高池塘溶解氧的預測精度,后期,曹守啟等[21]提出了基于K-means聚類和改進粒子群優(yōu)化(Improved particle swarm optimization,IPSO)的LSTM神經(jīng)網(wǎng)絡預測模型,該模型一定程度解決了天氣突變狀況下的數(shù)據(jù)缺失、魯棒性差等問題。
LSTM預測的準確性與其權(quán)重和閾值的設置密切相關(guān)[22-23]。生物啟發(fā)式算法是LSTM參數(shù)優(yōu)化的有效方法,包括遺傳算法(Genetic algorithm,GA)[24-26]、粒子群算法(Particle swarm optimization,PSO)[27-30]、蝙蝠算法(Bat algorithm,BA)[31]、灰狼優(yōu)化算法(Grey wolf optimizer,GWO)[32-34]和麻雀搜索算法(Sparrow search algorithm,SSA)[35-37]。其中,SSA基于麻雀種群的覓食和反捕食行為,解決模型輸入權(quán)值和閾值的隨機變化問題,具有高性能全局搜索能力,穩(wěn)定性及收斂精度好。SSA算法具有較快的收斂速度和強大的搜索能力,采用網(wǎng)格搜索對LSTM神經(jīng)網(wǎng)絡模型的初始權(quán)值和閾值進行優(yōu)化,克服了傳統(tǒng)神經(jīng)網(wǎng)絡模型參數(shù)選擇的盲目性和不確定性,目前,SSA被廣泛應用于非線性時間序列數(shù)據(jù)處理,如短期風速預報、降雨分析預報,在收斂速度和尋優(yōu)精度等方面有著顯著優(yōu)勢且結(jié)構(gòu)簡單、能準確應對復雜問題。
本研究提出SSA-LSTM神經(jīng)網(wǎng)絡模型預測土壤含氧量,基于國家土壤質(zhì)量湛江觀測實驗站2021年田間獲取的氣象因子及土壤環(huán)境因子,通過皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient,Pearson)及斯皮爾曼相關(guān)系數(shù)(Spearman’s rank correlation coefficient,Spearman)明確土壤含氧量變化影響因子的主次順序,基于麻雀搜索算法優(yōu)化建立SSA-LSTM神經(jīng)網(wǎng)絡預測模型,并與傳統(tǒng)的BP預測模型、LSTM預測模型、GA-LSTM預測模型及PSO-LSTM預測模型訓練前后的精度及預測誤差進行對比,為探究土壤含氧量變化規(guī)律及土壤通氣增氧技術(shù)整體管理措施調(diào)整及決策提供技術(shù)指導。
研究區(qū)域位于廣東省湛江市(110°27′E,21°16′N)國家土壤質(zhì)量湛江觀測實驗站,年平均日照時間為2 160 h,無霜期為350 d,年平均氣溫為23.2℃,是典型的的亞熱帶季風氣候。試驗時間為2021年8月21日—11月12日,季節(jié)性種植作物為玉米,試驗區(qū)域及定位試驗點如圖1所示。
圖1 研究區(qū)域及定位試驗點示意圖
SOC主要來自土壤與大氣之間氣體交換。土壤空氣組成與大氣空氣組成近似(表1)。土壤O2濃度低于大氣,土壤和大氣之間產(chǎn)生O2分壓差,在分壓梯度的驅(qū)動下,O2不斷從大氣向土壤空氣擴散。土壤與大氣之間進行氣體擴散和整體交換,使得土壤中保持一定量O2(圖2a)。大氣環(huán)境主要通過影響氣體擴散進而影響SOC。大氣環(huán)境因素中,WILLEY等[10]研究表明,大氣溫度(Atmospheric temperature,Ta)變化是引起大氣與土壤氣體交換的主要因素,同時發(fā)現(xiàn),隨著風速(Wind speed,SW)和大氣相對濕度(Atmospheric humidity,RH)的升高,SOC也逐漸提高。
表1 土壤空氣與大氣空氣組成成分比較
土壤中連續(xù)的充氣孔隙是作物根系-土壤-大氣之間唯一的聯(lián)系通道[30]。土壤充氣孔隙度(Air-filled porosity,AFP)充滿了空氣或水以及溶解的物質(zhì),固體為根和固定植物結(jié)構(gòu)提供支持,水分滿足作物蒸騰需求,空氣為作物根系(和微生物)呼吸提供氧氣。O2以溶解氧方式通過根外水膜擴散到根系表面,最后,氧氣由根系表面擴散到根組織內(nèi),用于維持土壤中一切生物化學過程正常進行(圖2c)。田間灌溉和降雨(Rainfall,RF)會使土壤中持續(xù)存在飽和濕潤區(qū),導致水分代替空氣存在于土壤中,進而限制了SOC的可利用性和移動性(圖2d),土壤SOC降低會導致作物根系土壤低氧脅迫,土壤呼吸(土壤中各項代謝活動)將受到限制(圖2b)。
圖2 大氣-土壤-作物之間O2交換示意圖
土壤溫度(Soil temperature,Ts)以多種方式影響土壤氧氣的移動性與可利用性。首先,氧氣在水中的溶解度與溶液溫度成反比[11],其次,土壤溫度通過影響土壤呼吸(圖2d)(Soil respiration,Rs)進而影響SOC的變化[13]。土壤含水率(Soil water content,Ws)是影響SOC的關(guān)鍵因素。THONGBAI等[38]和BHATTARAI等[39]的研究均表明較高的水分變化可以調(diào)控植物體內(nèi)水分的再分配和改變土壤的透氣性,從而影響植物體和微生物的代謝活動,最終導致SOC發(fā)生變化,通過進一步采用關(guān)聯(lián)系數(shù)法發(fā)現(xiàn),較高的土壤水分不但阻礙大氣與土壤之間的氣體交換,直接導致SOC下降,也會抑制O2在作物根部周圍運動[11]。
因此,本研究選取Ta、RH、RF、SW、AFP、Ts、Rs及Ws共8個指標作為輸入,以SOC作為輸出構(gòu)建網(wǎng)絡模型進行訓練和預測。
氣象數(shù)據(jù)采用小氣候觀測儀(CAWS2000型,北京華云尚通科技有限公司),采集的氣象數(shù)據(jù)主要包括Ta、RH、RF和SW;土壤溫濕度(Ts和Ws)主要由浙江托普云農(nóng)科技股份有限公司生產(chǎn)的TZS-PHW-4G型土壤多功能參數(shù)測定儀測定,可以自動存儲數(shù)據(jù),土壤溫度測試范圍為-40~100℃,精度為±0.5℃,分辨率為0.1℃;土壤含水率測試范圍為0~100%,精度小于等于3%,分辨率為0.1%。
SOC采用MO-200型土壤氧氣測定儀進行定位記錄,由于土壤深度10 cm左右與大氣氣體交換較為通暢,一般不會出現(xiàn)缺氧現(xiàn)象,而作物根系大部分分布在土壤深度30~40 cm,所以本試驗選擇測定深度為30 cm。Rs采用Li-6400型土壤呼吸儀測定。AFP計算公式為
AFP=1-ρb/ρs-Ws
(1)
式中AFP——土壤充氣孔隙度,%
ρb——土壤容重,取1.32 g/cm3
ρs——土粒密度,取1.75 g/cm3
Ws——土壤含水率,%
相關(guān)試驗參數(shù)在每日07:00—09:00之間進行測量,相關(guān)研究表明該時段測得的土壤呼吸、充氣孔隙度等相關(guān)參數(shù)可以代表當日的平均值。人工測量時實時讀取數(shù)據(jù),如遇強降雨天氣則推遲時間段進行測定。由于土壤含氧量的影響因素之一——土壤呼吸主要由作物根系呼吸及土壤微生物呼吸組成,因此,為了豐富數(shù)據(jù)來源,在玉米種植前9 d(2021年8月12—20日)進行裸地測量(此時,未進行玉米種植,土壤中不存在作物根系,微生物豐度也較低),玉米種植期間(2021年8月21日—11月12日)及玉米收獲后10 d(2021年11月12—21日)進行裸地測量(此時,土壤中還存在一些玉米根茬及相關(guān)土壤微生物)。因此,本研究所測的7個試驗地點共獲得682組試驗數(shù)據(jù)。其中6個試驗地點土壤含氧量為訓練樣本,以1個試驗地點數(shù)據(jù)作為驗證,分別采用BP預測模型、LSTM預測模型、PSO-LSTM預測模型、GA-LSTM預測模型以及SSA-LSTM預測模型進行預測,全文采用Matlab進行編程與模型建立。
LSTM最初是傳統(tǒng)遞歸神經(jīng)網(wǎng)絡的變體。在處理時間序列預測時具有較強的記憶能力,被廣泛應用于時間序列中具有長時間時間間隔和時滯的預測場景,LSTM單元的基本結(jié)構(gòu)如圖3a所示。
圖3 預測模型
LSTM在神經(jīng)網(wǎng)絡的基礎(chǔ)上增加了更多的神經(jīng)網(wǎng)絡層,增加了記憶單元、輸入門、輸出門和遺忘門4個具有記憶功能的模塊,有選擇地讓信息通過,每個門的功能各不相同。
遺忘門ft負責決定從記憶單元中丟棄哪些信息,更新公式為
ft=σ(wfxxt+wfhht-1+wfcCt-1+bf)
(2)
式中σ(·)——sigmoid的激活函數(shù)
xt——t時刻輸入
ht-1——t-1時刻輸出
Ct-1——t-1時刻候選向量
wfx、wfh、wfc——遺忘門權(quán)重系數(shù)
bf——遺忘門偏置
輸入門it負責決定哪些信息可以保存在記憶單元中,更新公式為
it=σ(wixxi+wihht-1+wicCt-1+bi)
(3)
(4)
(5)
式中wix、wih、wic——輸入門權(quán)重系數(shù)
bi——輸入門偏置
wcx、wch——候選向量的權(quán)重系數(shù)
bo——候選向量偏置
tanh(·)——雙曲正切激活函數(shù)
Ct——t時刻的侯選向量
輸出門決定將輸出哪些信息。除所需信息外,沒有其他信息可以通過輸出門。其表達式為
ot=σ(woxxt+wohht-1+wocCt-1+bo)
(6)
ht=ottanh(Ct)
(7)
式中ot——輸出門
wox、woh、woc——輸出門權(quán)重系數(shù)
ht——t時刻輸出
SSA是根據(jù)麻雀覓食和反捕食行為的啟發(fā)而提出的新型群體智能優(yōu)化算法。SSA主要模擬了麻雀群體覓食的過程,每只麻雀都有3種可能的行為:發(fā)現(xiàn)者(搜索食物);加入者(跟隨發(fā)現(xiàn)者覓食);偵察者(警戒偵查)。其中,發(fā)現(xiàn)者是麻雀中找到食物較早的個體,加入者則為其他個體,同時在麻雀種群中還有一定比例的個體進行偵察預警,它們的任務是在發(fā)現(xiàn)危險的情況下放棄食物,選擇安全第一。
在模擬試驗中,使用虛擬麻雀來尋找實物,n只麻雀種群可以表示為
(8)
式中d——待優(yōu)化變量維數(shù)
所有麻雀適應度可以表示為
(9)
式中f(x)——適應度
SSA算法中所有的生產(chǎn)者、具有較好適應度的發(fā)現(xiàn)者在搜索過程中會優(yōu)先獲取食物,并負責為種群尋覓食物以及為發(fā)現(xiàn)者、加入者和偵察者根據(jù)各自的規(guī)則更新喂食,表達式為
(10)
式中t——當前迭代次數(shù)
rmax——最大迭代次數(shù),常數(shù)
Xij——第i只麻雀在第j維中的位置信息,j=1,2,…,d
α——隨機數(shù),α∈(0,1]
ST——安全值,ST∈[0.5,1]
R2——警告值,當R2≤ST時,發(fā)現(xiàn)者可以執(zhí)行搜索操作,而當R2≥ST,表示發(fā)現(xiàn)者種群發(fā)出預警,迅速飛離,R2∈(0,1]
Q——服從正態(tài)分布的隨機數(shù)
L——L×d矩陣,矩陣中的每個元素均為1
對于加入者執(zhí)行
(11)
式中Xbest——當前最優(yōu)位置
Xworst——極差位置
β——步長控制參數(shù)
K——服從正態(tài)分布的隨機數(shù),K∈[-1,1],其均值為0,方差為1
fi——當前麻雀的個體適應度
fg、fw——當前全局最佳適應度和最差適應度
ε——避免分母為零的最小常數(shù)
監(jiān)視發(fā)現(xiàn)者同時隨時準備與之競爭,否則執(zhí)行
(12)
式中Xp——發(fā)現(xiàn)者所占據(jù)的最佳位置
A——1×d矩陣,其中每個元素隨機賦值為1或者-1,且A+=AT(AAY)-1
當i>n/2,表示適應度較低的第i個加入者沒有得到食物。
預警者一般占種群數(shù)量的10%~20%,按式(12)更新站位。
SSA實現(xiàn)步驟如下:①初始麻雀數(shù)量并定義相關(guān)參數(shù)。②按照適應度進行順序排列,找到當前最佳適應度個體和最差適應度個體。③利用 式(10)更新麻雀(發(fā)現(xiàn)者)在適應度方面的位置。④使 用式(12)更新晚期麻雀(scrounger)的適應度位置。⑤使用式(11)隨機更新部分麻雀的位置。⑥獲取當前更新位置。⑦如果新的位置比舊的位置好,則更新舊的位置。⑧重復步驟④~⑧。⑨輸出最佳適應度和單個麻雀。
為了提高預測精度和穩(wěn)定性,本文提出了一種混合模型SSA-LSTM(圖3b),利用SSA優(yōu)化LSTM的初始隱層節(jié)點數(shù)和學習率。SSA-LSTM模型的主要步驟如下:
(1)模型初始化:初始化SSA的參數(shù),包括麻雀種群位置、參數(shù)取值上下限及最大迭代次數(shù)。初始化LSTM結(jié)構(gòu),以LSTM模型的隱層節(jié)點數(shù)和學習率作為優(yōu)化目標。
(2)目標函數(shù)建立:SSA的目標函數(shù)是未經(jīng)訓練的LSTM模型預測值與實際值相比的均方根誤差(RMSE)。
(3)優(yōu)化:根據(jù)目標函數(shù)的結(jié)果更新麻雀的位置,當滿足初始設定的迭代次數(shù)時,LSTM的初始值達到最優(yōu)。
(4)LSTM訓練:將尋優(yōu)后求得的最優(yōu)參數(shù)代入LSTM模型,重新進行訓練和預測,得到最終的預測模型。
為了定量評估SSA-LSTM優(yōu)化的神經(jīng)網(wǎng)絡預測模型的有效性和準確性,采用均方根誤差(RMSE)、平均絕對誤差(MAE)和平均誤差(MAPE)進行模型評估。
由8個影響因子與SOC的Pearson相關(guān)系數(shù)可知,SOC與RF、Ws、Ts和AFP相關(guān)性極顯著,相關(guān)系數(shù)均高于0.8,與Ta、SW相關(guān)性顯著,與RH、Rs相關(guān)性較弱(圖4)。
圖4 SOC與影響因子的Pearson相關(guān)系數(shù)
考慮到大氣溫度與土壤溫度對SOC的影響有一定的滯后效應,大氣溫度的變化對土壤溫度產(chǎn)生直接影響,土壤溫度的變化對土壤中的運動、土壤中各項生化活動產(chǎn)生影響,進而對SOC的變化產(chǎn)生影響,所以考慮滯后效應,修正后大氣溫度相關(guān)系數(shù)由0.43提升至0.51,土壤溫度相關(guān)系數(shù)由-0.72提升至-0.81。
通過前期試驗,采用試湊法得到本次試驗設置的BP預測模型中相應參數(shù):最大迭代次數(shù)為500,隱層節(jié)點數(shù)目為25,訓練精度為0.000 01,學習率設置為0.1;SSA算法優(yōu)化LSTM網(wǎng)絡的兩個參數(shù)為隱藏神經(jīng)元數(shù)和學習率,將SOC真實數(shù)據(jù)與預測數(shù)據(jù)的均方根誤差作為適應度函數(shù)。同時設置麻雀種群數(shù)量為20,迭代次數(shù)為50,神經(jīng)元個數(shù)m設置范圍為[1,100],學習率為[0.000 1,0.01],經(jīng)過SSA算法優(yōu)化后隱藏神經(jīng)元數(shù)和學習率的取值為30、0.008 5;設置GA算法的種群規(guī)模為20,交叉概率為0.3,變異概率為0.1,迭代次數(shù)為50;設置PSO算法中種群迭代次數(shù)為50,規(guī)模為20,參數(shù)c1和c2均為1.8。
根據(jù)所測數(shù)據(jù),構(gòu)建基于BP預測模型、LSTM預測模型、GA-LSTM預測模型、PSO-LSTM預測模型、SSA-LSTM預測模型共5種預測模型,各模型對SOC預測結(jié)果如圖5所示。由圖5a、5b可以看出,BP預測模型及LSTM預測模型預測誤差較大。PSO-LSTM預測模型在土壤含氧量9.6%~12.5%的范圍內(nèi)模型預測誤差較大;GA-LSTM預測模型具有良好的收斂性,當土壤含氧量高于14.2%時,會出現(xiàn)較大的誤差,且遺傳算法步驟復雜,運算繁瑣。SSA-LSTM預測模型具有良好的適應性和預測精度(圖5e),實測值與預測值曲線擬合更接近,說明SSA-LSTM預測模型具有更好的擬合效果和泛化能力,體現(xiàn)了優(yōu)化算法的相對優(yōu)越性。
圖5 不同神經(jīng)網(wǎng)絡模型的預測曲線
為了驗證5種模型的預測性能,驗證數(shù)據(jù)的實測值與預測值的相關(guān)系數(shù)曲線如圖6所示。不同網(wǎng)絡模型的擬合程度由高到低依次為SSA-LSTM預測模型、GA-LSTM預測模型、PSO-LSTM預測模型、LSTM預測模型、BP預測模型。SSA-LSTM預測模型回歸擬合較好,相關(guān)系數(shù)R增加到0.979 69,決定系數(shù)R2增加到了0.959 79,與傳統(tǒng)的BP預測模型、LSTM預測模型、GA-LSTM預測模型及PSO-LSTM預測模型相比,SSA-LSTM算法的R分別提高5.52%、2.30%、0.28%、1.25%,R2提高10.74%、4.55%、0.56%、2.48%。
圖6 不同神經(jīng)網(wǎng)絡模型預測值與實測值間的相關(guān)性分析
對5種預測模型的預測結(jié)果進行量化,并利用模型評價指標對模型進行對比分析(表2)。與傳統(tǒng)的BP預測模型、LSTM預測模型、GA-LSTM預測模型及PSO-LSTM預測模型相比,SSA-LSTM模型的RMSE分別降低58.64%、42.40%、20.04%、42.32%,MAPE分別降低59.85%、44.16%、4.02%、41.21%,MAE分別降低58.22%、43.70%、2.45%、38.26%。
表2 BP預測模型、LSTM預測模型和SSA-LSTM預測模型性能分析
不同模型的預測誤差分布如圖7所示。以分布誤差為0的分界線,向兩端擴散增大,0軸表示真實值與預測值結(jié)果一致,越接近0,代表預測值與實測值的差值越小,模型的預測精度越高。從圖7可以看出,與BP、LSTM預測模型相比,GA-LSTM、PSO-LSTM及SSA-LSTM預測模型的誤差直方圖誤差接近0的個數(shù)更多且誤差更小。其中,在組合預測模型里,本文所提出的SSA-LSTM模型在零區(qū)間分布的數(shù)量更多,誤差更小,其他組合模型GA-LSTM、PSO-LSTM在零區(qū)間分布個數(shù)分別為48和38,誤差較大。
圖7 不同神經(jīng)網(wǎng)絡模型預測誤差分布圖
(1)利用SSA搜索算法優(yōu)化后的LSTM神經(jīng)網(wǎng)絡預測模型,采用網(wǎng)格搜索對LSTM神經(jīng)網(wǎng)絡模型的隱層節(jié)點數(shù)和學習率進行優(yōu)化,克服了傳統(tǒng)神經(jīng)網(wǎng)絡模型參數(shù)選擇的盲目性和不確定性,提高了搜索精度、收斂速度和預測穩(wěn)定性。
(2)通過對所選影響因子與SOC的Pearson相關(guān)系數(shù)分析可知,SOC與RF、Ws、Ts和AFP相關(guān)性極顯著,相關(guān)系數(shù)均高于0.8,與大氣溫度、風速相關(guān)性顯著,與大氣濕度和土壤呼吸速率相關(guān)性較弱,其中,土壤呼吸是吸收O2排出CO2的過程,呼吸強度不僅受到土壤非生物因子的影響,更多地是受到生物因子的制約,主要與土壤中的根系、微生物數(shù)量有關(guān),因此,土壤呼吸速率與SOC的相關(guān)性較弱。
(3)將BP預測模型、LSTM預測模型、GA-LSTM預測模型、PSO-LSTM預測模型和SSA-LSTM神經(jīng)網(wǎng)絡模型進行SOC預測分析,SSA-LSTM預測模型比其他神經(jīng)網(wǎng)絡模型表現(xiàn)出更好的預測性能。經(jīng)過不斷迭代訓練,SSA-LSTM網(wǎng)絡模型預測精度R2達到0.959 79,RMSE僅為0.491 7%,MAPE 為3.733 1%,MAE為0.362 0%,預測值與試驗值之間的擬合程度高。研究結(jié)果為土壤氧氣含量的預測提供一種新的思路和方法,為土壤通氣增氧技術(shù)提供理論依據(jù)與基礎(chǔ)。