張武,洪汛,李蒙,宋一帆,金秀
(1.安徽農(nóng)業(yè)大學(xué)信息與計算機學(xué)院,安徽 合肥 230036;2.智慧農(nóng)業(yè)技術(shù)與裝備安徽省重點實驗室,安徽 合肥 230036)
土壤墑情對作物的生長起著重要的作用.對土壤墑情進行預(yù)測是實現(xiàn)農(nóng)田精準(zhǔn)灌溉的主要技術(shù)手段.土壤墑情通常指的是土壤的干濕情況,一般用土壤濕度表示.土壤墑情的預(yù)測本質(zhì)上是數(shù)據(jù)建模的過程,即按照具體的試驗設(shè)計,對農(nóng)田環(huán)境參數(shù)進行監(jiān)測,獲取數(shù)據(jù),然后運用計算機技術(shù)和信息處理方法建立數(shù)學(xué)模型[1],以此來間接的預(yù)測土壤墑情[2].目前人們建立了多種預(yù)測模型[3-7],這其中基于神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等技術(shù)的土壤墑情預(yù)測模型獲得了廣泛應(yīng)用[8-9].
在墑情檢測和預(yù)測過程中,合理的采樣間隔對數(shù)據(jù)建模非常重要,不同的采樣因子其時間變化尺度存在著差異,例如光照強度的時間變化尺度是分鐘級,而環(huán)境的溫濕度的時間尺度是小時級.采樣間隔過小,會使數(shù)據(jù)量增加導(dǎo)致分析處理速度變慢[10].采樣間隔過大,則會遺漏重要的信息數(shù)據(jù),導(dǎo)致模型的預(yù)測誤差增加.目前選取采樣間隔時,往往存在主觀性和隨意性,以至墑情預(yù)測無法達到滿意效果.
針對采樣間隔的研究,李立剛等根據(jù)構(gòu)建的復(fù)平面中辨識模型的特征值到原點的距離來判斷采樣間隔是否合理,并提出了折半查找算法,在給定的范圍內(nèi)尋求系統(tǒng)中最優(yōu)的采樣間隔[11].趙志遠(yuǎn)等針對不同采樣間隔軌跡數(shù)據(jù)的識別和出行模型的網(wǎng)絡(luò)構(gòu)建問題,研究不同采樣間隔下不同活動的識別率的差異性,并得出了最優(yōu)采樣間隔以確保人群出行網(wǎng)絡(luò)的完整性[12].李柯等研究了土壤濕度的傳感器的動態(tài)采樣策略,動態(tài)采樣模式通過當(dāng)前的測量值來計算下一次的采樣間隔時間,讓傳感器進入休眠,降低了系統(tǒng)功耗[13].
本文以茶園地表下不同深度的土壤墑情與主要環(huán)境因子的關(guān)系為試驗對象,采用不同的采樣間隔,構(gòu)建多種預(yù)測模型,進行建模、預(yù)測和比較研究,探討不同采樣檢測對土壤墑情預(yù)測模型精度的影響程度,確定合理的采樣間隔為茶園土壤墑情預(yù)測與建模提供客觀依據(jù).
研究區(qū)域位于安徽省黃山市太平區(qū),該區(qū)域以山地為主,氣候?qū)贊駶櫺约撅L(fēng)氣候,全區(qū)四季分明,空氣濕度大,多云霧,熱量豐富,年平均空氣相對濕度在80%以上,年平均氣溫15.5 ℃~16.4 ℃,日照百分率為40%.試驗區(qū)面積約100 hm2,茶園位于低海拔的山腳部分,試驗區(qū)的土壤為山地黃棕壤土質(zhì),土壤表層富含腐殖質(zhì),有機質(zhì)含量高,偏酸性,但土壤中石礫含量較高,保水性較差.
隨著物聯(lián)網(wǎng)技術(shù)在農(nóng)業(yè)領(lǐng)域的廣泛應(yīng)用[14],通過物聯(lián)網(wǎng)系統(tǒng)采集茶園的氣象數(shù)據(jù)和土壤理化數(shù)據(jù).氣象數(shù)據(jù)包括風(fēng)速、光照、空氣溫度、空氣濕度和降雨量.土壤理化數(shù)據(jù)主要包括土壤濕度、土壤溫度和土壤電導(dǎo)率值.以多點采集的方式保證數(shù)據(jù)的準(zhǔn)確性.本研究的數(shù)據(jù)時間跨度為2018年10月~12月,共計79 343組.
數(shù)據(jù)采集過程中不可避免的存在數(shù)據(jù)偏差、缺失數(shù)據(jù)和冗余數(shù)據(jù),因此在數(shù)據(jù)應(yīng)用之前需要進行預(yù)處理,確保數(shù)據(jù)的有效性和完整性.本文采用拉依達準(zhǔn)則剔除數(shù)據(jù)序列中的粗大誤差數(shù)據(jù).按照貝塞爾公式求得標(biāo)準(zhǔn)差σ,公式如下.
(1)
土壤墑情反映的是土壤水分含量值,一般與降雨量、蒸發(fā)量、雨量因子[降水(mm)/氣溫(℃)]、空氣濕度等因子有較強的相關(guān)性[15].
以茶園環(huán)境中的風(fēng)速、光照、空氣濕度、空氣溫度、降雨量等氣象因子以及土壤溫度、土壤電導(dǎo)率為
墑情預(yù)測的影響因子,分別將土壤20、40、60 cm深度的土壤濕度為輸出量,建立土壤墑情預(yù)測模型.考慮到土壤濕度的變化具有滯后性,初始時段的土壤濕度對下一刻的土壤濕度值影響較大,因此,將時段初(前一時刻)的土壤濕度作為墑情預(yù)測的影響因子.
由于數(shù)據(jù)計量單位不同,彼此之間的數(shù)量級不相等,因此在數(shù)據(jù)分析之前進行了歸一化轉(zhuǎn)換.在建立土壤墑情預(yù)測模型之前,對影響土壤墑情的各因素數(shù)據(jù)進行了相關(guān)性分析,確定各影響因子與土壤含水量的相關(guān)系數(shù),分析結(jié)果如表1所示.
表1 各影響因子與土壤墑情相關(guān)性分析
由表1可得,風(fēng)速與土壤墑情相關(guān)性較小,其相關(guān)系數(shù)為0.09,小于0.1,呈現(xiàn)為弱相關(guān),故刪除該因子.選取光照、空氣濕度、空氣溫度、土壤溫度、土壤導(dǎo)電率、降雨量以及土壤初始濕度作為土壤墑情的主要影響因子,代入模型中運算.
本文以多元二次回歸、BP神經(jīng)網(wǎng)絡(luò)(Back-ProPagation network)和LSTM深度學(xué)習(xí)模型(Long-short term memory network)為建模工具,選定10、30、60、90、120 min的采樣間隔,對地表之下20、40、60 cm不同深度的土壤墑情建立預(yù)測模型.
1.3.1 多元二次回歸 多元二次回歸模型是回歸分析方法中應(yīng)用比較廣泛的一種模型[16],是一種重要的曲線回歸模型,同時也是數(shù)理統(tǒng)計中最為常用的方法,其基本公式如下.
Y=W1TX2+W2TX+ε
(2)
式中,W1是二次項的回歸系數(shù),W2是一次項的回歸系數(shù),ε是剩余參數(shù)(常數(shù)).回歸分析的問題是根據(jù)X自變量與因變量Y之間的映射關(guān)系確定相應(yīng)的回歸系數(shù),(2)式中各參數(shù)矩陣如下.
(3)
(3)式中m為因變量數(shù)量,n為影響因子的個數(shù).
1.3.2 BP神經(jīng)網(wǎng)絡(luò) BP神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)模型的典型代表,能夠?qū)崿F(xiàn)輸入到輸出的非關(guān)系型映射,并廣泛應(yīng)用于多個領(lǐng)域[17-19].通過樣本的訓(xùn)練,模型不斷修正網(wǎng)絡(luò)權(quán)值和閾值使誤差函數(shù)沿負(fù)梯度方向下降,逼近期望輸出.模型主要由輸入層、多個隱含層以及輸出層所構(gòu)成.其算法流程分兩步進行.
1) 前向傳輸.數(shù)據(jù)沿著神經(jīng)網(wǎng)絡(luò)從輸入層傳輸?shù)诫[藏層,再從隱藏層傳輸?shù)捷敵鰧?公式如式(4).
(4)
2) 逆向反饋.根據(jù)輸出的值與真實的值存在誤差,本研究用均方誤差來衡量預(yù)測值與真實值之間的誤差.
(5)
wnew=wold-η▽E(w)
(6)
式中▽為梯度算子,η為學(xué)習(xí)速率.其中▽E(w)是E(w)的導(dǎo)數(shù).
1.3.3 LSTM深度學(xué)習(xí)模型 LSTM深度學(xué)習(xí)模型廣泛應(yīng)用于解決時間序列問題[20-23].一個LSTM單元包含一個或多個具有內(nèi)部狀態(tài)的記憶細(xì)胞(Memory cell),分別是遺忘門、輸入門和輸出門.通過3個門結(jié)構(gòu),共同完成對狀態(tài)的更新并且輸出目標(biāo)值.
遺忘門確定遺忘信息的程度.讀取ht-1和xt,ht-1表示的是上一個記憶細(xì)胞的輸出,xt表示的是當(dāng)前細(xì)胞的輸入,按照(7)式對數(shù)據(jù)進行篩選處理.
ft=sigmoid(Wf·[ht-1,xt]+bf)
(7)
上式中的Wf是權(quán)重項,bf是偏置項.ft是信息的遺忘程度.
(8)
輸出門確定輸出項.首先基于記憶細(xì)胞狀態(tài),運
行一個sigmoid層來確定記憶細(xì)胞的哪些信息將輸出;其次,把記憶細(xì)胞狀態(tài)通過tanh進行處理(得到一個在 -1到1之間的值)并將它和輸出門的輸出相乘.根據(jù)(9)式和(10)式進行計算,下式中Ot為將要輸出的內(nèi)容,ht為最終輸出的部分.
Ot=sigmoid(Wo[ht-1,xi]+bo)
(9)
ht=Ot×tanh(Ct)
(10)
本文以土壤溫度、土壤濕度、光照、空氣溫度、空氣濕度、土壤電導(dǎo)率、降雨量等7個影響因子為輸入,輸出為土壤濕度的預(yù)測值.將數(shù)據(jù)所采集的數(shù)據(jù)分為訓(xùn)練集與測試集.訓(xùn)練集為10月26日到12月7日的數(shù)據(jù),測試集為12月8日到12月23日的數(shù)據(jù).采用多元二次回歸、BP神經(jīng)網(wǎng)絡(luò)、LSTM深度學(xué)習(xí)模型建立預(yù)測模型.
BP神經(jīng)網(wǎng)絡(luò)采用的(7,12,1)的3層網(wǎng)絡(luò)結(jié)構(gòu),而LSTM深度學(xué)習(xí)模型采用的(7,25,1)的3層網(wǎng)絡(luò)結(jié)構(gòu).選用ReLu激活函數(shù),該函數(shù)存在不飽和區(qū)域,也同時具有非線性性質(zhì),能夠有效的減弱梯度消失的問題.選擇Adam優(yōu)化算法,該算法能利用梯度的一階矩和二階矩動態(tài)調(diào)整學(xué)習(xí)率.迭代次數(shù)為300次.
以地表之下20 cm的土壤墑情為例,將采樣間隔設(shè)置為10、30、60、90和120 min進行試驗驗證.不同采樣間隔時模型預(yù)測曲線如圖1所示.
計算最大相對誤差,最小相對誤差,平均相對誤差,如表2所示.
由圖1和表2可知,多元二次回歸模型隨著采樣間隔的增加,各種誤差指數(shù)也在隨之增加,且平均誤差從0.045%增加到2.1%,增加較快.BP神經(jīng)網(wǎng)絡(luò)模型和LSTM深度學(xué)習(xí)模型的誤差隨著采樣間隔的增加而先下降再增加,當(dāng)采樣間隔為30 min時為最小值,大于30 min之后隨著采樣間隔增加誤差也不斷增加.LSTM深度學(xué)習(xí)模型的誤差比BP神經(jīng)網(wǎng)絡(luò)更小,擬合效果更好.
圖1 不同采樣間隔下的預(yù)測曲線Figure 1 Prediction curves at different sampling intervals
對地表下40 cm和60 cm的土壤濕度進行預(yù)測,在10、30、60、90、120 min采樣的間隔下,得出的不同深度的土壤墑情實測值與預(yù)測值之間的平均相對誤差,如圖2所示.
表2 不同采樣間隔的土壤墑情的誤差
由圖2可知,不同深度的土壤墑情預(yù)測誤差存在著差異性,但誤差變化的趨勢是一致的.不同模型的預(yù)測誤差的變化規(guī)律不同,多元二次回歸模型的誤差隨著采樣間隔增加而增加, 10 min采樣間隔的誤差值最小,隨著采樣間隔的增加誤差迅速增大,且明顯大于BP神經(jīng)網(wǎng)絡(luò)與LSTM深度學(xué)習(xí)模型.比較BP神經(jīng)網(wǎng)絡(luò)與LSTM深度學(xué)習(xí)模型,誤差曲線均呈現(xiàn)“V”型規(guī)律,選用30 min為采樣時相對誤差最小.
綜合考慮誤差、網(wǎng)絡(luò)傳輸及設(shè)備功耗等因素,30 min的監(jiān)測采樣間隔最合適.
以茶園土壤墑情為研究對象,分別采用10、30、60、90、120 min的監(jiān)測采樣間隔,并運用多元二次回歸、BP神經(jīng)網(wǎng)絡(luò)與LSTM深度學(xué)習(xí)模型進行建模、預(yù)測,分析模型的預(yù)測精度.
結(jié)果表明,在不同的監(jiān)測采樣間隔下,不同深度的土壤墑情的預(yù)測誤差是存一定的差異性,但變化趨勢是一致的;LSTM深度學(xué)習(xí)模型穩(wěn)定性好、精度高,是3種模型中預(yù)測誤差最小的,該模型適用于土壤墑情預(yù)測;監(jiān)測采樣間隔為30 min時誤差最小,30 min為最適合的監(jiān)測采樣間隔.
A:多元二次回歸平均相對誤差隨采樣間隔變化曲線;B:BP神經(jīng)網(wǎng)絡(luò)平均相對誤差隨采樣間隔變化曲線;C:LSTM深度學(xué)習(xí)模型平均相對誤差隨采樣間隔變化曲線.A:Average relative error curve of Multiple quadric regression varies with sampling interval;B:Average relative error curve of BP neural network varies with sampling interval;C:Average relative error curve of LSTM in-depth learning model varies with sampling interval.圖2 不同模型的平均相對誤差比較Figure 2 Comparison of mean relative errors of different models
本文選取的采樣時間間隔較少,沒有對其他的采樣間隔進行分析實驗,后續(xù)研究將獲取更大時間尺度的數(shù)據(jù)、選用多種預(yù)測模型、細(xì)化監(jiān)測采樣間隔,以獲取更精準(zhǔn)的試驗結(jié)果.