鄭欣彤,邊婷婷,張德強(qiáng),賀 偉
1(中國科學(xué)院 地理科學(xué)與資源研究所 資源與環(huán)境信息系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,北京 100101)
2(中國科學(xué)院大學(xué) 資源與環(huán)境學(xué)院,北京 100049)
3(北京聯(lián)合大學(xué) 管理學(xué)院,北京 100101)
4(中國科學(xué)院 華南植物園鼎湖山森林生態(tài)系統(tǒng)定位研究站,廣州 510650)
溫度是農(nóng)業(yè)、生態(tài)系統(tǒng)研究非常重要的觀測(cè)量,農(nóng)業(yè)作物生長的模擬、農(nóng)業(yè)氣象災(zāi)害監(jiān)測(cè)、生態(tài)系統(tǒng)模擬中溫度是必不可少的輸入[1,2].隨著農(nóng)業(yè)、生態(tài)模擬的精細(xì)化,要求溫度數(shù)據(jù)具有更高的精度,如農(nóng)業(yè)氣象災(zāi)害干熱風(fēng)監(jiān)測(cè)、林塊生態(tài)系統(tǒng)碳排放的模擬等[3,4],高精度的溫度觀測(cè)量是必不可少的輸入?yún)?shù).溫度觀測(cè)數(shù)據(jù)一般通過野外氣象觀測(cè)站獲取,由于設(shè)備故障、惡劣環(huán)境或是認(rèn)為操作失誤等原因,小氣象觀測(cè)難免會(huì)出現(xiàn)缺失[5],缺失數(shù)據(jù)插補(bǔ)或補(bǔ)全,是溫度觀測(cè)數(shù)據(jù)運(yùn)用前必不可少的預(yù)處理工作.
本文針對(duì)中國廣州一個(gè)森林生態(tài)站長時(shí)間間隔溫度觀測(cè)數(shù)據(jù)缺失進(jìn)行插補(bǔ)方法研究.由于該森林生態(tài)站處在雷雨區(qū),小氣象站夏季容易因惡劣天氣損壞,容易造成較長時(shí)間的數(shù)據(jù)缺失.論文選擇了該生態(tài)站同時(shí)有自動(dòng)觀測(cè)氣象站,作為比對(duì)觀測(cè),該小氣象場還有人工溫度觀測(cè)設(shè)施.自動(dòng)觀測(cè)氣象數(shù)據(jù)輸出的觀測(cè)產(chǎn)品時(shí)間頻率為30 分鐘,每天有48 條觀測(cè)記錄數(shù)據(jù);人工觀測(cè)分早、中、晚每天3 次,產(chǎn)生3 條記錄.本文研究的實(shí)際應(yīng)用問題:如何運(yùn)用不同數(shù)據(jù)插補(bǔ)方法,通過每天低頻的人工溫度觀測(cè)數(shù)據(jù),獲取完整的高精度半小時(shí)頻率溫度觀測(cè)數(shù)據(jù).
數(shù)據(jù)插補(bǔ)是眾多學(xué)科數(shù)據(jù)分析前必不可少的預(yù)處理工作.目前以數(shù)據(jù)插值、統(tǒng)計(jì)分析和時(shí)間序列分析等為基礎(chǔ),發(fā)展出了多種數(shù)據(jù)插補(bǔ)方法[6,7],但對(duì)高精度數(shù)據(jù)插補(bǔ)研究還處初步階段[5].高精度數(shù)據(jù)插補(bǔ)的要求是從已觀測(cè)數(shù)據(jù)中學(xué)習(xí)到數(shù)據(jù)的規(guī)律或缺值模式,從而實(shí)現(xiàn)對(duì)未觀測(cè)數(shù)據(jù)的準(zhǔn)確估計(jì).深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)新的研究方向,是人工智能領(lǐng)域的一項(xiàng)顛覆性技術(shù)創(chuàng)新,除了帶來圖像、語音和自然語言處理領(lǐng)域的突破,也成功應(yīng)用到了眾多學(xué)科領(lǐng)域[8,9].深度學(xué)習(xí)旨在獲得樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示[10],和數(shù)據(jù)插補(bǔ)的需求非常契合.
深度學(xué)習(xí)技術(shù)已經(jīng)在交通、醫(yī)療、傳感器網(wǎng)絡(luò)等多個(gè)領(lǐng)域的數(shù)據(jù)插補(bǔ)中獲得了成功應(yīng)用[11-13],并發(fā)展出了GRU、LSTM、GAN 等不同結(jié)構(gòu)的數(shù)據(jù)插補(bǔ)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)[14].GRU(gate recurrent unit)和LSTM(long short-term memory)都是循環(huán)神經(jīng)網(wǎng)絡(luò)的不同形式,可以解決RNN 網(wǎng)絡(luò)學(xué)習(xí)過程中的梯度消失或爆炸問題[15].這兩種結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)插補(bǔ)應(yīng)用中,不但可以從已觀測(cè)數(shù)據(jù)之中學(xué)習(xí)規(guī)律,也可從數(shù)據(jù)缺失值模式中進(jìn)一步學(xué)習(xí),提高數(shù)據(jù)插補(bǔ)精度[16,17].GAN(generative adversarial networks)網(wǎng)絡(luò)用于學(xué)習(xí)多變量時(shí)間序列的總體分布,從而對(duì)觀測(cè)數(shù)據(jù)中的缺失值進(jìn)行插補(bǔ)[18].
在眾多深度學(xué)習(xí)時(shí)間序列數(shù)據(jù)插補(bǔ)模型中,一種基于序列-序列(Seq2Seq)的深度學(xué)習(xí)模型在多個(gè)標(biāo)準(zhǔn)樣本集數(shù)據(jù)插補(bǔ)都有很好的表現(xiàn)[19],該結(jié)構(gòu)采用了雙向循環(huán)LSTM 網(wǎng)絡(luò),在隨后的實(shí)際應(yīng)用也進(jìn)一步驗(yàn)證了該結(jié)構(gòu)適用于時(shí)間序列數(shù)據(jù)缺失插補(bǔ)問題[20].另外,基于Encoder-Decoder 結(jié)構(gòu)的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)插補(bǔ)方面也獲得成功應(yīng)用[21].這些不同結(jié)構(gòu)的深度學(xué)習(xí)模型為本文研究提供了重要參考.
本文運(yùn)用低頻人工溫度觀測(cè)數(shù)據(jù),來插補(bǔ)高頻次機(jī)器觀測(cè)數(shù)據(jù)的長時(shí)間觀測(cè)值缺失問題.時(shí)間序列數(shù)據(jù)缺失值插補(bǔ)雖然已很豐富,但針對(duì)這一特定應(yīng)用場景的數(shù)據(jù)插補(bǔ)方法研究文獻(xiàn)還是較少[22].下面是一個(gè)具體的生態(tài)臺(tái)站的小氣象觀測(cè)數(shù)據(jù),該小氣象站同時(shí)具有半小時(shí)自動(dòng)溫度觀測(cè)和每天3 次人工溫度觀測(cè),但半小時(shí)自動(dòng)溫度觀測(cè)數(shù)據(jù)存在較長時(shí)間的缺失值.為了實(shí)現(xiàn)半小時(shí)溫度觀測(cè)數(shù)據(jù)的高精度插補(bǔ),文中詳細(xì)給出了一個(gè)編碼-解碼結(jié)構(gòu)的序列-序列深度學(xué)習(xí)溫度插補(bǔ)模型的構(gòu)建過程和數(shù)學(xué)公式,并將其與其他插補(bǔ)方法進(jìn)行了插補(bǔ)精度對(duì)比分析.
本文研究采用了我國廣州鼎湖山森林生態(tài)系統(tǒng)國家野外科學(xué)觀測(cè)研究站的氣象溫度觀測(cè)數(shù)據(jù).該生態(tài)系統(tǒng)觀測(cè)站開展有溫度觀測(cè)對(duì)比試驗(yàn),同時(shí)開展人工觀測(cè)和氣象機(jī)器自動(dòng)觀測(cè)活動(dòng),有較長時(shí)間的溫度觀測(cè)數(shù)據(jù)記錄,表1 是用于本文研究的溫度人工觀測(cè)數(shù)據(jù)和自動(dòng)機(jī)器觀測(cè)數(shù)據(jù)情況.
表1 溫度觀測(cè)數(shù)據(jù)集信息表
由于鼎湖山生態(tài)站位于中國南方的山區(qū),自動(dòng)觀測(cè)設(shè)備容易受雷雨季節(jié)影響而產(chǎn)生較長時(shí)間觀測(cè)記錄的缺失.圖1 是某一機(jī)器自動(dòng)氣象觀測(cè)數(shù)據(jù)的數(shù)據(jù)缺失情況分布圖,從圖中可見在2020年7月有一次超過2 個(gè)月的溫度觀測(cè)數(shù)據(jù)缺失.
圖1 半小時(shí)溫度觀測(cè)數(shù)據(jù)缺失值分布圖
運(yùn)用每天3 次的人工觀測(cè)數(shù)據(jù)對(duì)2020年7月超過2 個(gè)月的機(jī)器溫度觀測(cè)數(shù)據(jù)缺失進(jìn)行插補(bǔ),是本文方法研究的應(yīng)用背景.由于人工觀測(cè)數(shù)據(jù)和機(jī)器觀測(cè)數(shù)據(jù)之間很容易建立線性相關(guān)關(guān)系,本文數(shù)據(jù)插補(bǔ)問題研究核心是如何運(yùn)用低頻的人工溫度觀測(cè)數(shù)據(jù)對(duì)高頻的機(jī)器自動(dòng)溫度觀測(cè)數(shù)據(jù)進(jìn)行插補(bǔ).
氣溫具有天的周期性,很自然的將長時(shí)間序列溫度觀測(cè)數(shù)據(jù)按照天為單位進(jìn)行劃分,變?yōu)槊刻?8 個(gè)觀測(cè)值的分段序列.為了更好的把研究集中到長時(shí)間間隔缺失值的插補(bǔ),對(duì)時(shí)間序列中偶爾或短時(shí)間數(shù)據(jù)缺先采用上文的卡爾曼平滑的方法進(jìn)行插補(bǔ).這樣以天為分段的溫度時(shí)間序列包含兩種,即沒有缺失值的每天分段,記為,和只包含早中晚3 次觀測(cè)值的每天分段,記為,這樣以天為分段的時(shí)間分段序列可以表示為:
序列(1)表示長度為n天溫度時(shí)間序列中,缺失值窗口寬度為m天.半小時(shí)溫度觀測(cè)序列(1)為長度為48n,存在缺失值48m的半小時(shí)溫度觀測(cè)數(shù)據(jù)序列,以天分段后的表達(dá)形式.
為了表示時(shí)間序列(1)中缺失值的位置,對(duì)長度為L(48n)的半小時(shí)采樣溫度時(shí)間序列,構(gòu)建相應(yīng)長度為L的掩碼時(shí)間序列,其中:
現(xiàn)在以天為單位,對(duì)長度為L的半小時(shí)掩碼序列進(jìn)行分段,沒有缺失值的掩碼每天分段記為和只包含早中晚3 次觀測(cè)值的掩碼每天分段,記為這樣就可以建立與式(1)對(duì)應(yīng)的以天為分段的掩碼序列:
采用滾動(dòng)窗的方法,基于以天為分段的時(shí)間序列為深度學(xué)習(xí)模型訓(xùn)練構(gòu)建樣本集.對(duì)長度為m(天)的缺失值進(jìn)行插補(bǔ),需構(gòu)建樣本滾動(dòng)窗口的長度大于m,并且在m的兩端各保留長度為s(天)的觀測(cè)數(shù)據(jù),這樣滾動(dòng)窗口長度w為m+2×s天.訓(xùn)練樣本為適應(yīng)序列-序列(Seq2Seq)的訓(xùn)練方法來構(gòu)建,對(duì)長度為w的訓(xùn)練輸入樣本中溫度觀測(cè)序列為:
可通過訓(xùn)練形成如下的時(shí)間序列結(jié)果輸出:
訓(xùn)練樣本需要在沒有缺失值的溫度觀測(cè)序列基礎(chǔ)上構(gòu)建,樣本中觀測(cè)值缺失的模式同實(shí)際情況一致,即每天只有早中晚3 次觀測(cè)值.表2 是訓(xùn)練樣本中存在缺失值的某一天溫度數(shù)據(jù)及其對(duì)應(yīng)的掩碼示例.
表2 樣本序列中缺失值窗口內(nèi)某一天的數(shù)據(jù)示例
典型的基于Seq2Seq 的時(shí)間序列數(shù)據(jù)插補(bǔ)深度學(xué)習(xí)模型有SSIM,BRTS-I 等[19,21].本文吸收了這些模型的優(yōu)點(diǎn),將Seq2Seq 和Encoder-Decoder 深度學(xué)習(xí)架構(gòu)結(jié)合起來,所設(shè)計(jì)的深度學(xué)習(xí)模型結(jié)構(gòu)如下文所述.上面輸入序列(1)被記為x={x1,x2,…,xn},輸出序列(4)被記為y={y1,y2,…,yn},掩碼序列(2)被記為m={m1,m2,…,mn}.
(1)編碼
從圖2 中可見,深度學(xué)習(xí)結(jié)構(gòu)中的編碼部分的基本結(jié)構(gòu)是LSTM-I,該結(jié)構(gòu)與BRTS-I 結(jié)構(gòu)中的RTSI 結(jié)構(gòu)相似,其中的循環(huán)神經(jīng)網(wǎng)絡(luò)單元直接采用了長短期記憶單元;另外,本文溫度觀測(cè)缺失值部分,每天48 個(gè)半小時(shí)溫度值,只有3 個(gè)觀測(cè)值,有效值比較稀疏,所有沒有采用RTS-I 中的缺失值時(shí)間間隔的變量和相應(yīng)的訓(xùn)練公式.下面定義中LSTM 被簡化為一個(gè)簡單算子的形式,將LSTM-I 單元過程數(shù)學(xué)描述為:
式(5)將上一個(gè)LSTM 單元的隱狀態(tài)ht-1轉(zhuǎn)化為估計(jì)向量其中Wx、bx為模型參數(shù);式(6)通過運(yùn)用掩碼向量mt,把輸入向量xt中的缺失值替換為估計(jì)向量對(duì)應(yīng)的值;式(7)通過LSTM 網(wǎng)絡(luò)單元把和隱狀態(tài)ht-1產(chǎn)生預(yù)測(cè)狀態(tài)ht;式(8)是LSTM-I 單元的估計(jì)誤差,為缺失值位置上觀測(cè)值與估計(jì)值絕對(duì)差的累計(jì)量.
圖2 中神經(jīng)網(wǎng)絡(luò)編碼部分由雙向的LSTM-I 神經(jīng)網(wǎng)絡(luò)構(gòu)成:一個(gè)是從時(shí)間序列的開始到結(jié)束讀取輸入,產(chǎn)生前向隱狀態(tài)向量序列另一個(gè)是從時(shí)間序列的結(jié)束到開始反向讀取輸入,產(chǎn)生后向隱狀態(tài)序列將前向和后向隱狀態(tài)序列拼接到一起,構(gòu)成編碼層的編碼輸出其中向量hi為:
圖2 溫度值缺失值插補(bǔ)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
雙向編碼LSTM-I 編碼網(wǎng)絡(luò)誤差包括正向和逆向估計(jì)誤差兩部分.
(2)解碼
解碼層接收編碼輸出序列h,產(chǎn)生插補(bǔ)后的時(shí)間序列結(jié)果序列y.本文通過優(yōu)選,采用了2 種解碼結(jié)構(gòu):一種是全連接層和一層線性層組合,如圖3所示;另一種是LSTM 和一層線性層的組合,如圖4所示.
圖3 全連接層和線性層組合的解碼詳細(xì)結(jié)構(gòu)
圖4 LSTM 層和線性層組合的解碼結(jié)構(gòu)
①基于兩層線性層組合解碼過程數(shù)學(xué)描述如下:
式(10)中的Dropout通過對(duì)解碼輸入隨機(jī)丟棄部分神經(jīng)元,能夠起到預(yù)防過擬合的作用;式(11)為全連接層,g為激活函數(shù),全連接層產(chǎn)生輸出狀態(tài)序列s={s1,s2,…,sn};由于溫度值是連續(xù)值,式(12)為最上層即線性變換層,輸出插補(bǔ)結(jié)果序列y;式(13)是解碼的插補(bǔ)結(jié)果誤差,為缺失值位置上觀測(cè)值與插補(bǔ)值絕對(duì)差的累計(jì)量結(jié)果.
②LSTM 層和線性層組合的解碼結(jié)構(gòu)
LSTM 層和線性層組合的解碼結(jié)構(gòu)如圖4所示.解碼層接收編碼層的輸出序列h,產(chǎn)生插補(bǔ)后的時(shí)間序列結(jié)果序列y.
LSTM 層和線性層組合的解碼過程數(shù)學(xué)描述為:
如式(14),解碼層底部是一個(gè)標(biāo)準(zhǔn)的LSTM 網(wǎng)絡(luò),該網(wǎng)絡(luò)綜合編碼輸出序列h,產(chǎn)生包含更豐富信息輸出狀態(tài)序列s={s1,s2,…,sn};如式(15),由于溫度值是連續(xù)值,解碼層頂部采用了線性全連接層,輸出插補(bǔ)結(jié)果序列y.同式(13),式(16)是解碼層的插補(bǔ)結(jié)果誤差.
上述兩種解碼機(jī)制的數(shù)據(jù)插補(bǔ)深度學(xué)習(xí)網(wǎng)絡(luò)的誤差構(gòu)成是相同的,神經(jīng)網(wǎng)絡(luò)的誤差包括3 部分,即:
本文采用多個(gè)指標(biāo)評(píng)價(jià)不同數(shù)據(jù)插補(bǔ)方法的性能,評(píng)價(jià)指標(biāo)的數(shù)值在測(cè)試樣本集上計(jì)算.包括均方根誤差(RMSE),平均絕對(duì)誤差(MAE),平均相對(duì)誤差(MRE)和皮爾遜相關(guān)系數(shù)(PCC),定義如下:
上面指標(biāo)計(jì)算中,xi為所構(gòu)造測(cè)試本中缺失值位置的實(shí)際觀測(cè)值,yi為缺失值位置對(duì)應(yīng)的插補(bǔ)結(jié)果值.PCC評(píng)價(jià)指標(biāo)計(jì)算如式(21),其中xˉ為樣本中缺失值位置實(shí)際觀測(cè)值的總體平均,yˉ為缺失值位置插補(bǔ)結(jié)果的總體平均.
作為對(duì)比,本文選用了簡單的總體平均插補(bǔ)方法(Mean);基于時(shí)間序列分解的卡爾曼插補(bǔ)方法(Kalmanstruct);基于深度學(xué)習(xí)的BRTS-I 時(shí)間序列插補(bǔ)方法;本文設(shè)計(jì)的兩種編碼-解碼結(jié)構(gòu)的雙向LSTM 網(wǎng)絡(luò)插補(bǔ)方法,解碼層為全連接(BiLSTM-FC-I)和解碼層為LSTM(BiLSTM-LSTM-I).
上述方法中,總體平均插補(bǔ)方法可以在整個(gè)數(shù)據(jù)集上計(jì)算獲取,而插補(bǔ)方法BRTS-I、BiLSTM-FC-I、BiLSTM-LSTM-I、Kalman-struct 均需要先把整個(gè)數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,然后在相同的訓(xùn)練集上進(jìn)行訓(xùn)練,在同一測(cè)試集上進(jìn)行精度分析.基于深度學(xué)習(xí)的BRTS-I、BiLSTM-FC-I、BiLSTM-LSTM-I 雖然模型結(jié)構(gòu)有所不同,但其關(guān)鍵參數(shù)LSTM 狀態(tài)的維度均相同,均取值為108;另外模型的訓(xùn)練參數(shù)也相同,采用了相同的mini batch 參數(shù)和優(yōu)化方法,優(yōu)化方法均選用Adam,初始學(xué)習(xí)率取值為0.001;訓(xùn)練終止策略均為連續(xù)10 輪測(cè)試精度均不超過訓(xùn)練過程中測(cè)試精度的最優(yōu)值.深度模型實(shí)現(xiàn)是以PyTorch 深度學(xué)習(xí)框架為基礎(chǔ),以2020年07月缺失值窗口左側(cè)的觀測(cè)數(shù)據(jù)構(gòu)建訓(xùn)練集,右側(cè)的觀測(cè)數(shù)據(jù)構(gòu)建測(cè)試集.深度學(xué)習(xí)插補(bǔ)方法構(gòu)建了兩種訓(xùn)練樣本,一種缺失值時(shí)間窗口設(shè)定為30 天,另一種缺失值時(shí)間窗口設(shè)定為60 天,這兩種訓(xùn)練樣本缺失值窗口前后連續(xù)觀測(cè)值均設(shè)定為14 天.為了區(qū)別這兩種訓(xùn)練樣本,下面將缺失值時(shí)間窗口長度作為了深度學(xué)習(xí)插補(bǔ)方法的后綴,將各種插補(bǔ)方法的結(jié)果總結(jié)如表3.
表3 時(shí)間序列插補(bǔ)方法結(jié)果統(tǒng)計(jì)表
從表3 中可見,深度學(xué)習(xí)方法要明顯優(yōu)于簡單的總體平均方法.深度學(xué)習(xí)方法之間的精度也存在較大的差別,圖5 是卡爾曼插值方法,以及各種深度學(xué)習(xí)方法插值RMSE精度的比較圖.
圖5 不同插值方法RMSE 精度的對(duì)比圖
從圖5 中比較BRTS-I、卡爾曼方法、BiLSTM-I 三種方法,本文設(shè)計(jì)的兩種BiLSTM-I 深度學(xué)習(xí)氣溫插補(bǔ)方法要優(yōu)于其他兩種方法;基于LSTM 解碼的BiLSTM-I深度學(xué)習(xí)方法精度優(yōu)于基于全連接解碼的BiLSTMI 深度學(xué)習(xí)方法;BRTS-I 深度學(xué)習(xí)時(shí)間序列插補(bǔ)方法精度最低.
卡爾曼平滑方法時(shí)間序列插補(bǔ)方法精度取決于狀態(tài)方程是否準(zhǔn)確表達(dá)了時(shí)間序列,Kalman-struct 假定時(shí)間序列的趨勢(shì)性和季節(jié)性的成分可通過基本的線性方程進(jìn)行擬合.深度學(xué)習(xí)方法,沒有對(duì)時(shí)間序列的表達(dá)形式進(jìn)行任何假設(shè),而是通過訓(xùn)練數(shù)據(jù)集,自動(dòng)學(xué)習(xí)時(shí)間序列的準(zhǔn)確表達(dá)形式.從測(cè)試結(jié)果看,BiLSTM-I 方法比Kalman-struct 卡爾曼方法,以及BRTS-I 深度學(xué)習(xí)方法更有可能獲取了時(shí)間序列的準(zhǔn)確表達(dá),從而獲得了更高的數(shù)據(jù)插補(bǔ)精度.
本文設(shè)計(jì)的兩種解碼結(jié)構(gòu)的BiLSTM-I 模型插補(bǔ)精度都高于BRTS-I 模型.BiLSTM-I 模型與BRTS-I模型的區(qū)別主要有兩點(diǎn):首先從模型結(jié)構(gòu)上,BiLSTM-I采用了Encoder-Decoder 結(jié)構(gòu),而BRTS-I 只相當(dāng)于BiLSTM-I 模型的Encoder 部分,模型結(jié)構(gòu)上BiLSTM-I有利于充分學(xué)習(xí)數(shù)據(jù)的潛在分布規(guī)律,從而可以提高數(shù)據(jù)插補(bǔ)精度;其次模型代價(jià)函數(shù)有區(qū)別,BiLSTM-I和BRTS-I 的代價(jià)函數(shù)均由3 部分構(gòu)成[19],前兩部分是相同的,BRTS-I 模型代價(jià)函數(shù)的第3 部分是前向和后向LSTM 網(wǎng)絡(luò)對(duì)缺失估計(jì)值的差;BiLSTM-I 模型代價(jià)函數(shù)的第3 部分則為最后的估計(jì)值和真實(shí)觀測(cè)值的差,BiLSTM-I 模型誤差函數(shù)對(duì)插補(bǔ)結(jié)果的評(píng)價(jià)更直接,模型收斂誤差和插補(bǔ)精度直接對(duì)應(yīng),從而確保模型收斂時(shí)插補(bǔ)誤差也能達(dá)到最小.
兩種解碼結(jié)構(gòu)的BiLSTM-I 模型,基于LSTM 解碼的模型插補(bǔ)精度優(yōu)于全連接解碼結(jié)構(gòu)模型插補(bǔ)精度,這主要是LSTM 解碼時(shí),不但可以利用當(dāng)前的編碼輸出信息,還可以利用之前的編碼輸出信息;而全連接編碼則只能利用當(dāng)前的編碼信息,LSTM 解碼方法對(duì)編碼信息的利用更為充分.
圖5 中兩種解碼結(jié)構(gòu)的BiLSTM-I 模型,缺值窗口分別為30 天和60 天的測(cè)試精度基本一致.深度學(xué)習(xí)方法應(yīng)用中模型的泛化能力非常重要,本文問題體現(xiàn)在模型對(duì)不同寬度缺失值窗口插補(bǔ)精度是否一致.為了對(duì)這一點(diǎn)進(jìn)行檢驗(yàn),我們用缺失值窗口為30 天的模型對(duì)缺失值為60 天時(shí)間溫度觀測(cè)時(shí)間序列進(jìn)行插補(bǔ),然后用缺失值窗口為60 天的模型對(duì)缺失值為30 天時(shí)間溫度觀測(cè)時(shí)間序列進(jìn)行插補(bǔ),表4 是這兩種情況下,兩種解碼結(jié)構(gòu)的插補(bǔ)方法結(jié)果的精度統(tǒng)計(jì)表.
從表4 可見,無論是缺失值窗口為60 天的模型應(yīng)用到缺失值情況為30 天,還是缺失值窗口為30 天模型應(yīng)用到缺失值情況為60 天,兩種解碼結(jié)構(gòu)的模型精度的各項(xiàng)指標(biāo)都非常穩(wěn)定,這表明這兩種解碼結(jié)構(gòu)的BiLSTM-I 深度學(xué)習(xí)模型都對(duì)不同缺失值窗口有較好的泛化能力.
表4 BiLSTM-I 模型分別應(yīng)用到缺失值為30、60 天的插值精度統(tǒng)計(jì)表
本文運(yùn)用不同深度學(xué)習(xí)數(shù)據(jù)插補(bǔ)方法,通過每天低頻的人工溫度觀測(cè)數(shù)據(jù),獲取完整的高精度半小時(shí)頻率溫度觀測(cè)數(shù)據(jù).本文采用序列-序列的時(shí)間序列插補(bǔ)方法,基于編碼-解碼結(jié)構(gòu)的深度學(xué)習(xí)模型(BiLSTM-I),編碼層采用雙向LSTM-I 網(wǎng)絡(luò),解碼層分別采用LSTM解碼結(jié)構(gòu)與全連接解碼結(jié)構(gòu),設(shè)計(jì)了兩種解碼結(jié)構(gòu)的深度學(xué)習(xí)數(shù)據(jù)插補(bǔ)模型.
試驗(yàn)分析結(jié)果表明,本文設(shè)計(jì)的BiLSTM-I 深度學(xué)習(xí)氣溫插補(bǔ)方法要優(yōu)于其他方法.基于LSTM 解碼結(jié)構(gòu)的深度學(xué)習(xí)模型,缺失值時(shí)間為30 天的測(cè)試集,測(cè)試結(jié)果精度RMSE為0.47℃;缺失值時(shí)間為60 天的測(cè)試集,測(cè)試結(jié)果精度RMSE為0.49℃.基于全連接解碼結(jié)構(gòu)的深度學(xué)習(xí)模型,缺失值時(shí)間為30 天的測(cè)試集,測(cè)試結(jié)果精度RMSE為0.76℃;缺失值時(shí)間為60 天的測(cè)試集,測(cè)試結(jié)果精度RMSE為0.70℃.
最后,文章還分析了BiLSTM-I 深度學(xué)習(xí)插補(bǔ)方法對(duì)不同時(shí)間溫度缺失長度的適應(yīng)能力.分別用缺失值時(shí)間長度為30 天的訓(xùn)練模型,對(duì)缺失值為60 天的測(cè)試集進(jìn)行插補(bǔ);以缺失值時(shí)間長度為60 天的訓(xùn)練模型,對(duì)缺失值為30 天的測(cè)試集進(jìn)行插補(bǔ),結(jié)果表明兩種解碼結(jié)構(gòu)的深度學(xué)習(xí)訓(xùn)練模型對(duì)不同的溫度缺失時(shí)間長度具有泛化能力.