摘要:針對(duì)因惡劣環(huán)境、電池耗盡、硬件故障等原因?qū)е碌耐寥罍貪穸葌鞲衅鲾?shù)據(jù)丟失問(wèn)題,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的長(zhǎng)短期記憶網(wǎng)絡(luò)(CNN-LSTM)填補(bǔ)模型。以閃電河流域2019年土壤溫濕度數(shù)據(jù)為試驗(yàn)數(shù)據(jù),分別選用CNN、LSTM、TCN、CNN-TCN、CNN-LSTM 5個(gè)模型對(duì)土壤溫濕度傳感器網(wǎng)絡(luò)缺失數(shù)據(jù)進(jìn)行填補(bǔ),并采用Adam算法優(yōu)化模型,使用決定系數(shù)(R2)、均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)指數(shù)對(duì)模型填補(bǔ)結(jié)果進(jìn)行評(píng)價(jià)。結(jié)果表明,采用線(xiàn)性插補(bǔ)算法獲得完整的數(shù)據(jù),CNN-LSTM模型的R2為0.999 9,高于其他模型,MAE、RMSE分別為0.001 85、0.019 70,均遠(yuǎn)低于其他模型。采用k近鄰插補(bǔ)算法獲得完整的數(shù)據(jù),CNN-LSTM模型的MAE、RMSE分別為0.000 12、0.000 12,均遠(yuǎn)低于其他模型,R2為0.999 4,高于CNN模型、TCN模型;CNN-LSTM模型對(duì)土壤溫濕度傳感器數(shù)據(jù)缺失值的填補(bǔ)效果最好。CNN-LSTM模型在處理大規(guī)模土壤溫濕度傳感器缺失數(shù)據(jù)問(wèn)題時(shí)具有較好的可行性和精確度。
關(guān)鍵詞:CNN-LSTM模型 ;土壤;溫濕度;缺失數(shù)據(jù)填補(bǔ)算法
中圖分類(lèi)號(hào):TP389.1" " " " "文獻(xiàn)標(biāo)識(shí)碼:A" " " " "文章編號(hào):0439-8114(2025)02-0179-05
DOI:10.14088/j.cnki.issn0439-8114.2025.02.028 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Abstract:A convolutional neural network-based long short-term memory network (CNN-LSTM) filling model was proposed to address the problem of soil temperature and humidity sensor data loss caused by harsh environments, battery depletion, hardware failures, and other factors. Using the soil temperature and humidity data from the Shandian River Basin in 2019 as experimental data, five models including CNN, LSTM, TCN, CNN-TCN, and CNN-LSTM were selected to fill in the missing data of the soil temperature and humidity sensor network. The Adam algorithm was used to optimize the model, and the coefficient of determination (R2), mean square root error (RMSE), and mean absolute error (MAE) index were used to evaluate the results of the model filling. The results showed that using the linear interpolation algorithm to obtain complete data, the R2 of the CNN-LSTM model was 0.999 9, which was higher than that of other models. The MAE and RMSE were 0.001 85 and 0.019 70, respectively, which were much lower than those of other models. The K-nearest neighbor interpolation algorithm was used to obtain complete data. The MAE and RMSE of the CNN-LSTM model were 0.000 12 and 0.000 12, respectively, which were much lower than those of other models. The R2 was 0.999 4, which was higher than that of the CNN model, and TCN model;the CNN-LSTM model had the best filling effect on missing values in soil temperature and humidity sensor data. The CNN-LSTM model had good feasibility and accuracy in dealing with the problem of missing data from large-scale soil temperature and humidity sensors.
中國(guó)作為農(nóng)業(yè)大國(guó),農(nóng)田墑情是農(nóng)田管理的重要指標(biāo)[1]。農(nóng)田墑情可以幫助農(nóng)民合理安排灌溉和施肥,滿(mǎn)足作物的生長(zhǎng)需求,農(nóng)田環(huán)境可以感知來(lái)自大氣的異常變化,還可將這些信息反饋給大氣,對(duì)水資源、農(nóng)業(yè)和生態(tài)系統(tǒng)的時(shí)空演變有著重要影響[2]。農(nóng)田環(huán)境信息關(guān)系到農(nóng)作物的生長(zhǎng)發(fā)育和產(chǎn)量,通過(guò)監(jiān)測(cè)農(nóng)田環(huán)境,農(nóng)民可以及時(shí)調(diào)整農(nóng)田管理措施,對(duì)農(nóng)作物灌溉計(jì)劃作出合理規(guī)劃,從而提升農(nóng)作物產(chǎn)量和質(zhì)量[3,4]。為及時(shí)了解農(nóng)作物生長(zhǎng)狀況,減少因惡劣天氣等因素對(duì)農(nóng)作物生長(zhǎng)產(chǎn)生的不利影響,利用傳感器對(duì)農(nóng)田環(huán)境進(jìn)行監(jiān)測(cè)、傳輸和分析,幫助農(nóng)民評(píng)估農(nóng)田環(huán)境分布情況,從而評(píng)估土壤的質(zhì)量和適宜性,這有助于農(nóng)民選擇適合的作物種植和采取相應(yīng)的土壤改良措施,提高土壤質(zhì)量和農(nóng)田的可持續(xù)發(fā)展能力[5,6]。由于傳感器本身的網(wǎng)絡(luò)結(jié)構(gòu)及節(jié)點(diǎn)本身的特點(diǎn),在采集過(guò)程中可能會(huì)因?yàn)殡姵睾谋M、硬件出現(xiàn)故障等原因而停機(jī),造成數(shù)據(jù)丟失;由于地下傳感器采用無(wú)線(xiàn)方式進(jìn)行數(shù)據(jù)傳輸,因此存在信號(hào)干擾、通信中斷、網(wǎng)絡(luò)失效等問(wèn)題,造成信息不能及時(shí)傳遞或丟包,使獲取的數(shù)據(jù)集成為不完全數(shù)據(jù)集[7,8]。
根據(jù)應(yīng)用場(chǎng)景的不同對(duì)缺失數(shù)據(jù)填補(bǔ)方法的選擇也有不同, Little等[9]于1987年對(duì)缺失數(shù)據(jù)類(lèi)型進(jìn)行劃分,分別為完全隨機(jī)缺失(Missing completely at random,MCAR)、隨機(jī)缺失(Missing at random,MAR)、非隨機(jī)缺失(Not missing at random,NMAR)。一般情況下,處理缺失數(shù)據(jù)的3種方法分別為刪除、忽略和填充。對(duì)于數(shù)據(jù)量較少的數(shù)據(jù)集而言,刪除或忽略缺失數(shù)據(jù)會(huì)導(dǎo)致數(shù)據(jù)量減少,從而造成數(shù)據(jù)信息浪費(fèi),這將降低數(shù)據(jù)的可靠性,因此,對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ)才是合適的處理方式[10],根據(jù)信息的特征可知,土壤溫濕度數(shù)據(jù)是按照時(shí)間順序記錄的一系列觀(guān)測(cè)值,每個(gè)觀(guān)測(cè)值代表了特定時(shí)間點(diǎn)的傳感器數(shù)據(jù)。時(shí)間序列性質(zhì)使得觀(guān)測(cè)值之間存在一定的相關(guān)性和依賴(lài)關(guān)系,由于氣候、植被生長(zhǎng)和農(nóng)業(yè)活動(dòng)等因素的影響,土壤溫濕度數(shù)據(jù)通常會(huì)顯示出明顯的季節(jié)性和周期性變化。
目前國(guó)內(nèi)外時(shí)序缺失數(shù)據(jù)的插補(bǔ)方法已經(jīng)比較完備,許凱凱等[11]就衛(wèi)星帆板溫度遙測(cè)數(shù)據(jù)缺失問(wèn)題提出一種基于引入注意力機(jī)制的時(shí)間卷積網(wǎng)絡(luò)(SE-TCN)自回歸預(yù)測(cè)方法。利用SE-TCN模型將歷史與未來(lái)數(shù)據(jù)的映射進(jìn)行擬合,從而實(shí)現(xiàn)缺失值的插補(bǔ),有效克服傳統(tǒng)填補(bǔ)方法存在的插值偏差過(guò)大以及無(wú)法預(yù)測(cè)實(shí)際插值等問(wèn)題。楊建明[12]結(jié)合歷史數(shù)據(jù)與屬性間關(guān)系,以殘差學(xué)習(xí)的方式處理缺失數(shù)據(jù),在LSTM基礎(chǔ)上設(shè)計(jì)填補(bǔ)單元,為了增強(qiáng)網(wǎng)絡(luò)對(duì)時(shí)序數(shù)據(jù)的學(xué)習(xí)能力,還在輸出間增加了短連接。Song等[13]以植物莖干含水量為研究對(duì)象,通過(guò)對(duì)相同數(shù)據(jù)區(qū)間內(nèi)缺失數(shù)據(jù)的填充值與不同填充方式的比較檢驗(yàn) LSTM模型填充數(shù)據(jù)的精確度。
本研究針對(duì)閃電河流域土壤溫濕度無(wú)線(xiàn)傳感器網(wǎng)絡(luò)數(shù)據(jù)集,采用20%的隨機(jī)缺失處理方法對(duì)隨機(jī)缺失后的數(shù)據(jù)進(jìn)行預(yù)處理,并對(duì)數(shù)據(jù)集進(jìn)行填補(bǔ)。采用LSTM模型、CNN模型、TCN模型、CNN-LSTM模型、CNN-TCN模型分別對(duì)數(shù)據(jù)集中的土壤溫濕度進(jìn)行填補(bǔ)和評(píng)估。
1 理論基礎(chǔ)
1.1 CNN算法
1998年Lecun等[14]提出卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN),CNN是一種包含卷積操作的前饋神經(jīng)網(wǎng)絡(luò),一般情況下其結(jié)構(gòu)包括輸入層、卷積層、池化層和全連接層等[15]。
卷積層作為CNN模型的核心組成部分,輸入信息的特征提取部分都是由卷積核實(shí)現(xiàn),卷積層中的卷積核按照預(yù)先設(shè)置的滑動(dòng)步長(zhǎng)先從左到右,再?gòu)纳系较乱苿?dòng),直至完整掃描輸入特征圖。通常每個(gè)卷積層含有多個(gè)卷積核共同對(duì)輸入信息進(jìn)行運(yùn)算,提取關(guān)鍵特征[16]。池化層主要負(fù)責(zé)對(duì)卷積層抽取的特征重新選擇,既能保持原有的特征,又能降低模型的復(fù)雜性,因此池化操作一般發(fā)生在卷積操作之后。池化的本質(zhì)是降采樣,即對(duì)特征進(jìn)行降維,一般池化操作有最大池化和平均池化2種。與卷積層的工作方式不同,池化操作是通過(guò)尺寸為n px×n px滑動(dòng)窗口的移動(dòng),求其覆蓋矩陣中的最大值或平均值,而卷積層是做互相關(guān)運(yùn)算。全連接層的主要作用是分類(lèi),對(duì)前面經(jīng)由多次卷積和池化操作后得到的特征向量進(jìn)行整合、降維,獲取深層信息;最后一層的全連接層輸出預(yù)測(cè)值,通過(guò) Softmax函數(shù)對(duì)各種分類(lèi)情況輸出一個(gè)概率。
因?yàn)閭鞲衅鲾?shù)據(jù)的本質(zhì)為時(shí)序數(shù)據(jù),是隨著時(shí)間推移并按照時(shí)間順序進(jìn)行記錄的數(shù)據(jù),因此使用一維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理會(huì)更加有效,一維CNN卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
1.2 LSTM算法
LSTM算法(Long short-term memory)[17]由循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)發(fā)展而來(lái),其主要特點(diǎn)是引入了門(mén)控機(jī)制,解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在處理長(zhǎng)期依賴(lài)問(wèn)題時(shí)容易出現(xiàn)的梯度消失或梯度爆炸問(wèn)題[18,19]。并且LSTM模型為有效處理長(zhǎng)期依賴(lài)關(guān)系問(wèn)題引入長(zhǎng)期記憶單元[20],可以存儲(chǔ)和更新長(zhǎng)期記憶,在不同時(shí)間步之間傳遞信息。與其他處理時(shí)間序列數(shù)據(jù)的模型相比,LSTM模型不需要估計(jì)非線(xiàn)性函數(shù),并且在廣泛的序列建模應(yīng)用中表現(xiàn)出卓越性能[21]。
LSTM主要由遺忘門(mén)、輸入門(mén)和輸出門(mén)組成[16],遺忘門(mén)對(duì)上一時(shí)刻到當(dāng)前時(shí)刻單元狀態(tài)的數(shù)量進(jìn)行把控; 輸入門(mén)對(duì)當(dāng)前時(shí)刻單元狀態(tài)的輸入數(shù)量進(jìn)行把控;輸出門(mén)對(duì)當(dāng)前時(shí)刻單元狀態(tài)的輸出數(shù)量進(jìn)行把控。LSTM模型結(jié)構(gòu)如圖2所示。
2 CNN-LSTM模型構(gòu)建
2.1 數(shù)據(jù)集介紹
本研究所用的數(shù)據(jù)集來(lái)自閃電河流域土壤溫濕度無(wú)線(xiàn)傳感器網(wǎng)絡(luò)(SMN-SDR)34個(gè)站點(diǎn)的土壤水分、土壤溫度和降水量的原位測(cè)量數(shù)據(jù)(閃電河流域土壤溫濕度無(wú)線(xiàn)傳感器網(wǎng)絡(luò)數(shù)據(jù)集網(wǎng)址:http://poles.tpdc.ac.cn/zh-hans/data/c6504fb2-98dd-42f7-9f0d-b714ca1fafaf/)。該數(shù)據(jù)集選擇地勢(shì)相對(duì)平坦的位置布設(shè)傳感器網(wǎng)絡(luò),地表覆蓋類(lèi)型以草地和農(nóng)田為主。網(wǎng)絡(luò)中包含34個(gè)站點(diǎn),分別設(shè)置100 km(大尺度)、50 km(中尺度)和10 km(小尺度)3種采樣尺度。站點(diǎn)觀(guān)測(cè)使用Decagon 5TM 土壤水分傳感器,每站點(diǎn)統(tǒng)一按照5個(gè)測(cè)量深度(3、5、10、20、" " "50 cm)進(jìn)行測(cè)量。在觀(guān)測(cè)數(shù)據(jù)穩(wěn)定后,對(duì)站點(diǎn)各土層進(jìn)行定期取樣,并對(duì)土壤濕度、溫度指標(biāo)進(jìn)行校正。2019年6月之前的數(shù)據(jù)采樣間隔為10 min,2019年6月之后的數(shù)據(jù)采樣間隔為15 min。
采樣尺度為100 km,測(cè)量深度為3 cm,傳感器為Decagon 5TM 土壤水分傳感器,測(cè)量數(shù)據(jù)為2019年3—12月的土壤溫濕度數(shù)據(jù)。土壤溫濕度數(shù)據(jù)均為43 231條,完整土壤溫濕度數(shù)據(jù)如圖3所示。
2.2 數(shù)據(jù)預(yù)處理
對(duì)完整的數(shù)據(jù)集進(jìn)行20%的隨機(jī)缺失,隨機(jī)缺失后的土壤溫濕度部分?jǐn)?shù)據(jù)如表1所示。
對(duì)隨機(jī)缺失后的數(shù)據(jù)集分別利用k近鄰(KNN)填補(bǔ)算法和線(xiàn)性填補(bǔ)算法進(jìn)行填補(bǔ)操作,作為缺失值填補(bǔ)的非參數(shù)化方法,k近鄰填補(bǔ)算法的基本思想是通過(guò)查找與缺失樣本最接近的k個(gè)鄰居樣本數(shù)據(jù)來(lái)預(yù)測(cè)缺失值[22]。對(duì)填補(bǔ)后的完整數(shù)據(jù)進(jìn)行歸一化處理,使用MinMaxScaler將數(shù)據(jù)歸一化到0~1,歸一化處理是為了消除不同特征間的量綱差異所導(dǎo)致的模型在訓(xùn)練過(guò)程中對(duì)特征的權(quán)重分配不均勻問(wèn)題以及避免異常值對(duì)模型的影響[19]。通過(guò)數(shù)據(jù)歸一化處理,將不同特征之間的數(shù)值范圍映射到相同的尺度上,減小異常值的影響,以便更好地進(jìn)行模型訓(xùn)練和預(yù)測(cè),使得模型更加穩(wěn)定[23],計(jì)算式如下。
式中,xi、 xin分別為原始值和歸一化后的值;xmax、 xmin分別為序列中數(shù)據(jù)的最大值和最小值。
數(shù)據(jù)集劃分為訓(xùn)練集(80%)和測(cè)試集(20%),通過(guò)訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練。
2.3 模型結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)由1個(gè)輸入層、1個(gè)卷積層,1個(gè)池化層和1個(gè)flatten層構(gòu)成。首先創(chuàng)建1個(gè)CNN模型輸入層,指定輸入數(shù)據(jù)的形狀為1×1,適用于處理時(shí)間序列數(shù)據(jù);一維卷積層接收之前定義的輸入層作為輸入,并輸出經(jīng)過(guò)卷積操作后的特征圖,卷積核數(shù)量設(shè)置為10,卷積核大小設(shè)置為1×1,使用ReLU激活函數(shù)解決梯度爆炸和梯度消失問(wèn)題。隨后創(chuàng)建1個(gè)一維最大池化層,接收之前定義的一維卷積層conv1的輸出作為輸入,并指定池化窗口的大小為1,對(duì)輸入的格式進(jìn)行轉(zhuǎn)換。最后創(chuàng)建1個(gè)flatten層,將池化層的輸出作為輸入,并將其展平為一維向量。
LSTM模型包含1個(gè)輸入層和2個(gè)LSTM層,首先與CNN模型一致,創(chuàng)建1個(gè)接受單一時(shí)間步上單個(gè)數(shù)值作為輸入的LSTM模型輸入層,步長(zhǎng)和特征維度均設(shè)置為1,指定輸入數(shù)據(jù)的形狀為1×1,將輸入數(shù)據(jù)通過(guò)具有15個(gè)隱藏單元的第一個(gè)LSTM層進(jìn)行處理,并將所有時(shí)間步的輸出作為第二個(gè)LSTM層的輸入,將其作為序列輸入進(jìn)行處理,然后輸出1個(gè)具有25個(gè)維度的向量。
CNN-LSTM模型整體包含2個(gè)輸入,一個(gè)是CNN模型的輸入,一個(gè)是LSTM模型的輸入。CNN和LSTM的輸出通過(guò)concatenate層合并,使用Dense層創(chuàng)建了1個(gè)具有1個(gè)神經(jīng)元的全連接層output,激活函數(shù)linear;將連接后的結(jié)果merged 作為輸入,并生成1個(gè)單一的輸出值。模型使用adam優(yōu)化器和mse損失函數(shù)進(jìn)行編譯。CNN-LSTM模型可以有效預(yù)測(cè)數(shù)據(jù)模式中涉及高波動(dòng)性和不確定性的非線(xiàn)性單變量時(shí)間序列數(shù)據(jù)[24] ,CNN-LSTM模型結(jié)構(gòu)如圖4所示。為了讓每個(gè)模型選擇出合適的超參數(shù),分別對(duì)每個(gè)模型的超參數(shù)進(jìn)行調(diào)整,確定在不同傳感器的時(shí)間序列數(shù)據(jù)集上生成較低預(yù)測(cè)誤差的單個(gè)組合,并且嘗試不同批量大小,在輸入數(shù)據(jù)集上實(shí)現(xiàn)最佳擬合訓(xùn)練模型,從而減少訓(xùn)練時(shí)間。
3 試驗(yàn)分析
3.1 評(píng)價(jià)指標(biāo)
模型適應(yīng)度主要分為良好擬合、過(guò)度擬合和欠擬合。如果訓(xùn)練和驗(yàn)證損失減少并穩(wěn)定在同一點(diǎn)附近,則被認(rèn)為是良好擬合模型;如果模型的驗(yàn)證損失在某個(gè)水平上不斷下降,然后開(kāi)始增加,則被認(rèn)為是過(guò)度擬合模型;如果模型驗(yàn)證損失高于訓(xùn)練損失,并且趨于進(jìn)一步改善,則被認(rèn)為是欠擬合模型。本試驗(yàn)用到的評(píng)價(jià)指標(biāo)為平均絕對(duì)誤差(Mean absolute error,MAE)、均方根誤差(Root mean squared error,RMSE)、決定系數(shù)(Coefficient of determination,R2)。
1)平均絕對(duì)誤差(MAE)表示預(yù)測(cè)值與真實(shí)值之間的平均偏差程度,是回歸任務(wù)中常用的評(píng)估指標(biāo),MAE越小表示模型預(yù)測(cè)越準(zhǔn)確,計(jì)算式如下。
式中,n為樣本數(shù)量;y1為預(yù)測(cè)值;y為真實(shí)值。
2)均方根誤差(RMSE)表示預(yù)測(cè)值與真實(shí)值之間的均方根差異,RMSE越小表示模型預(yù)測(cè)越準(zhǔn)確,計(jì)算式如下。
3)決定系數(shù)(R2)。R2的取值范圍在0~1,越接近1表示模型對(duì)數(shù)據(jù)的訓(xùn)練擬合程度越好,計(jì)算式如下。
3.2 5種模型比較
為了驗(yàn)證CNN-LSTM模型下土壤溫濕度傳感器缺失數(shù)據(jù)填補(bǔ)的可行性,分別采用CNN-LSTM、CNN、LSTM、TCN、CNN-TCN 5種模型,以相同時(shí)間段的數(shù)據(jù)集進(jìn)行訓(xùn)練和驗(yàn)證,5種模型使用相同的激活函數(shù)RELU、優(yōu)化函數(shù)Adam,使用決定系數(shù)、平均絕對(duì)誤差、均方根誤差對(duì)訓(xùn)練結(jié)果進(jìn)行評(píng)估。由圖5可知,CNN-LSTM模型在處理土壤溫濕度傳感器網(wǎng)絡(luò)缺失數(shù)據(jù)時(shí)具有更高的準(zhǔn)確度和更好的擬合效果,該模型在數(shù)據(jù)量較大的情況下,對(duì)時(shí)序數(shù)據(jù)缺失值的填補(bǔ)效果較好,隨著模型的訓(xùn)練損失值趨于穩(wěn)定,模型逐漸收斂并達(dá)到較好的效果。
采用線(xiàn)性插補(bǔ)算法獲得完整的數(shù)據(jù),Conv1層卷積核數(shù)量為20,LSTM1層單元數(shù)為25,LSTM2層單元數(shù)為50,輸出層的激活函數(shù)為linear,epochs為100。由表2可知,CNN-LSTM模型的R2為0.999 9,高于其他模型,MAE、RMSE分別為0.001 85、0.019 70,均遠(yuǎn)低于其他模型。CNN-LSTM模型對(duì)土壤溫度傳感器數(shù)據(jù)缺失值的填補(bǔ)效果最好。
采用k近鄰插補(bǔ)算法獲得完整的數(shù)據(jù),Conv1層卷積核數(shù)量為10,LSTM1層單元數(shù)為50,LSTM2層單元數(shù)為100,輸出層的激活函數(shù)為linear,epochs為100。由表3可知,CNN-TCN模型的R2較大,但填補(bǔ)模型所需時(shí)間比其他模型長(zhǎng);CNN-LSTM模型的MAE、RMSE分別為0.000 12、0.000 12,均遠(yuǎn)低于其他模型,R2為0.999 4,高于CNN模型、TCN模型。CNN-LSTM模型對(duì)土壤濕度傳感器數(shù)據(jù)缺失值的填補(bǔ)效果最好。
4 小結(jié)
本研究以解決土壤溫濕度傳感器數(shù)據(jù)缺失問(wèn)題為背景,以閃電河流域2019年土壤溫濕度數(shù)據(jù)為試驗(yàn)數(shù)據(jù),利用CNN和LSTM聯(lián)合預(yù)測(cè)模型對(duì)土壤溫濕度缺失數(shù)據(jù)進(jìn)行填補(bǔ),通過(guò)試驗(yàn)結(jié)果及評(píng)價(jià)指標(biāo)(R2、RMSE、MAE)對(duì)比發(fā)現(xiàn),CNN-LSTM模型在處理大規(guī)模土壤溫濕度傳感器缺失數(shù)據(jù)問(wèn)題時(shí)具有較好的可行性和精確度,在填補(bǔ)土壤溫度和土壤濕度數(shù)據(jù)中,CNN-LSTM模型的R2均超過(guò)0.999 0。該方法可以提高現(xiàn)有填補(bǔ)模型的擬合程度,提升填補(bǔ)數(shù)據(jù)的精確度,減小預(yù)測(cè)值與真實(shí)值之間的誤差,其對(duì)于農(nóng)田管理有一定幫助 ,也為日常農(nóng)業(yè)活動(dòng)中的智能性、準(zhǔn)確性提供了數(shù)據(jù)支持。
參考文獻(xiàn):
[1] 國(guó)務(wù)院關(guān)于印發(fā)全國(guó)國(guó)土規(guī)劃綱要(2016—2030年)的通知[EB/OL].https://www.gov.cn/zhengce/content/2017-02/04/content_516 5309.htm,2017-02-04.
[2] 魏森濤,王澄海,張飛民,等.基于土壤溫、濕度記憶性的土壤濕度預(yù)測(cè)方法研究[J].干旱氣象,2023,41(5):783-791.
[3] 田宏武,鄭文剛,李 寒.大田農(nóng)業(yè)節(jié)水物聯(lián)網(wǎng)技術(shù)應(yīng)用現(xiàn)狀與發(fā)展趨勢(shì)[J].農(nóng)業(yè)工程學(xué)報(bào),2016,32(21):1-12.
[4] ONYENEKE R U,AMADI M U,NJOKU C L,et al. Climate change perception an duptake of climate-smart agriculture inriceproduction in EbonyiState, Nigeria [J].Atmosphere,2021,12(11):1503.
[5] AL GHOBARI H M,DEWIDAR A Z.Integrating deficit irrigation into surface and subsurface dripirrigation asastrategy to save water in aridregions[J]. Agricultural water management, 2018,209:55-61.
[6] YAN H,HUI X,LI M,et al.Development in sprink lerirrigation technology in China[J].Irrigation and drainage,2020,69(S2):75-87.
[7] ZHOU J, HUANG Z. Recover missing sensor data with iterative imputing network[A].Workshops at the thirty-second AAAI conference on artificial intelligence[C]. Washington,USA:AAAI Press,2018.
[8] 鄧玉龍.無(wú)線(xiàn)傳感器網(wǎng)絡(luò)缺失數(shù)據(jù)填補(bǔ)關(guān)鍵技術(shù)研究[D].南京:南京郵電大學(xué),2023.
[9] LITTLE R J A,RUBIN D B. Statistical analysis with missing data[M]. NewYork,USA:WileyandSonsInc,1987.
[10] MAO Y C,ZHANG J H,QI H,et al.DNN-MVL:DNN-multi-view-learning-based recover block missing datain adam safety monitoring system[J].Sensors,2019,19(13):2895.
[11] 許凱凱,張 銳.基于SE-TCN的一維低采樣衛(wèi)星帆板溫度遙測(cè)數(shù)據(jù)插補(bǔ)方法[J].中國(guó)科學(xué)院大學(xué)學(xué)報(bào),2023,40(6):810-820.
[12] 楊建明.基于LSTM的不完整時(shí)序數(shù)據(jù)填補(bǔ)方法研究[D].遼寧大連:大連理工大學(xué),2022.
[13] SONG W,GAO C, ZHAO Y, et al. A time series data filling method based on LSTM—Taking the stem moisture as an example[J]. Sensors, 2020, 20(18): 5045.
[14] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[15] 郭蘊(yùn)穎,丁云峰.基于CNN和LSTM聯(lián)合預(yù)測(cè)并修正的電量缺失數(shù)據(jù)預(yù)測(cè)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2020,29(8):192-198.
[16] 楊 凱.基于CNN和雙向GRU組合模型的短期電力負(fù)荷預(yù)測(cè)研究[D].黑龍江大慶:東北石油大學(xué),2023.
[17] SCHMIDHUBER J,HOCHREITER S. Long short-term memory[J]. Neural Comput, 1997, 9(8): 1735-1780.
[18] CUI Z, KE R, PU Z, et al. Stacked bidirectional and unidirectional LSTM recurrent neural network for forecasting network-wide traffic state with missing values[J]. Transportation research part C: Emerging technologies, 2020, 118: 102674.
[19] 錢(qián) 斌,鄭楷洪,陳子鵬,等.基于殘差連接長(zhǎng)短期記憶網(wǎng)絡(luò)的時(shí)間序列修復(fù)模型[J].計(jì)算機(jī)應(yīng)用,2021,41(1):243-248.
[20] 王子馨,胡俊杰,劉寶柱.基于長(zhǎng)短期記憶網(wǎng)絡(luò)的電力系統(tǒng)量測(cè)缺失數(shù)據(jù)恢復(fù)方法[J].電力建設(shè),2021,42(5):1-8.
[21] SHERSTINSKY A. Fundamentals of recurrent neural network (RNN) and long short-term memory (LSTM) network[J]. Physica D: Nonlinear phenomena, 2020, 404: 132306.
[22] KEERIN P, BOONGOEN T.Improved knn imputation for missing values in gene expression data[J]. Computers materials and continua, 2021, 70(2): 4009-4025.
[23] 丁 偉,鄒復(fù)民,劉吉順,等.基于CNN-BiLSTM-Attention的電動(dòng)裝載機(jī)電池荷電狀態(tài)預(yù)測(cè)[J/OL].電源學(xué)報(bào)[2024-04-26].https://kns.cnki.net/kcms2/article/abstract?v=Mw9fkKjKljr47jg-Pr3TVOgdSlbY54upusWPCPIAMrkE2dmCDJfebJAfur6jzHb3HebhDdH2yWLUqS24F7nIZNA7VLO0TXL5BOM-_wHHHLRfiHA-kPj9qmjM49cG2gdnaXzY0Y9NlElCzB2k83Ol1DQx4R5ATa7S5V W9680mdVQapTcOUWmgnZZYuL_URx72amp;uniplatform=NZKPT amp;langu age=CHS.
[24] HUSSAIN S N, ABD AZIZ A, HOSSEN M J, et al. A novel framework based on CNN-LSTM neural network for prediction of missing values in electricity consumption time-series datasets[J]. 2022,18(1):115-129.
收稿日期:2024-07-09
基金項(xiàng)目:科技部科技創(chuàng)新2030重大項(xiàng)目(2022ZD0115800);新疆維吾爾自治區(qū)重大科技專(zhuān)項(xiàng)(2022A02011-4)
作者簡(jiǎn)介:張瑛進(jìn)(1999-),女,甘肅武威人,在讀碩士研究生,研究方向?yàn)檗r(nóng)業(yè)信息化,(電話(huà))17393828254(電子信箱)2916497264@qq.com;通信作者,古麗米拉·克孜爾別克(1970-),女(哈薩克族),新疆昌吉人,副教授,主要從事農(nóng)業(yè)信息化研究,(電話(huà))13899939189(電子信箱)glml@xjau.edu.cn。