張坤, 肖慧,2*, 徐哈寧, 胡佳超, 范凌峰
(1.東華理工大學(xué)核技術(shù)應(yīng)用教育部工程研究中心, 南昌 330013; 2.江西省放射性地學(xué)大數(shù)據(jù)技術(shù)工程實(shí)驗(yàn)室, 東華理工大學(xué), 南昌 330013)
滑坡地表位移監(jiān)測(cè)中,經(jīng)常由于監(jiān)測(cè)設(shè)備通信故障或者供電異常,致使監(jiān)測(cè)數(shù)據(jù)出現(xiàn)長時(shí)間序列的缺失。數(shù)據(jù)缺失易導(dǎo)致滑坡預(yù)測(cè)模型計(jì)算失效而不能及時(shí)有效預(yù)警,因此對(duì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行插補(bǔ)是數(shù)據(jù)運(yùn)行前必不可少的預(yù)處理工作。常用的插補(bǔ)方法有刪除法、簡單插補(bǔ)、冷熱卡插補(bǔ)法、回歸插補(bǔ)法、機(jī)器學(xué)習(xí)插補(bǔ)法和多重插補(bǔ)法等[1]。滑坡監(jiān)測(cè)數(shù)據(jù)是多元數(shù)據(jù)序列,基于機(jī)器學(xué)習(xí)的插補(bǔ)法能通過多變量建立回歸模型來預(yù)測(cè)缺失值,在處理多元數(shù)據(jù)序列上有一定的優(yōu)勢(shì)[2]。
機(jī)器學(xué)習(xí)算法在數(shù)據(jù)插補(bǔ)中有著廣泛的應(yīng)用,呂勤學(xué)等[3]提出一種基于優(yōu)化隨機(jī)森林的數(shù)據(jù)插補(bǔ)模型,實(shí)現(xiàn)缺失數(shù)據(jù)的插補(bǔ);趙春霞等[4]使用K最鄰近算法(K-nearest neighbor,KNN)對(duì)不完整信息進(jìn)行填充;遇茜等[5]通過建立支持向量機(jī)填補(bǔ)模型,填補(bǔ)缺失數(shù)據(jù);游穎等[6]利用粒子群算法改進(jìn)BP(back propagation)神經(jīng)網(wǎng)絡(luò),對(duì)缺失數(shù)據(jù)進(jìn)行重構(gòu)。上述研究均基于淺層結(jié)構(gòu)的機(jī)器學(xué)習(xí)算法,很難提取具有復(fù)雜時(shí)空相關(guān)性的時(shí)序數(shù)據(jù)的特征,忽略了監(jiān)測(cè)數(shù)據(jù)隨時(shí)間變化的影響和數(shù)據(jù)的前后聯(lián)系,不能有效處理時(shí)序數(shù)據(jù)問題[7]。
長短期記憶網(wǎng)絡(luò)(long-short term memory,LSTM)是深度學(xué)習(xí)算法的一種,能夠提取數(shù)據(jù)時(shí)間維度上的周期特征和模式,具有強(qiáng)大的高度抽象化特征能力,相比傳機(jī)器學(xué)習(xí)算法具有更強(qiáng)的數(shù)據(jù)學(xué)習(xí)能力和泛化能力,在處理時(shí)序數(shù)據(jù)上有很大的優(yōu)勢(shì)[8]。楊旭等[9]通過卷積神經(jīng)網(wǎng)絡(luò)提取數(shù)據(jù)特征,結(jié)合LSTM對(duì)連續(xù)缺失數(shù)據(jù)進(jìn)行插補(bǔ);宋維等[10]用LSTM建立插補(bǔ)模型,通過分析缺失數(shù)據(jù)前后完整序列,對(duì)缺失數(shù)據(jù)進(jìn)行插補(bǔ);盧繼哲等[11]利用編碼器優(yōu)化聚類,把相似的數(shù)據(jù)序列劃分在一起,再通過LSTM插補(bǔ)缺失數(shù)據(jù);可見LSTM在數(shù)據(jù)插補(bǔ)中的可行性,但目前,鮮見LSTM應(yīng)用在滑坡地表位移監(jiān)測(cè)數(shù)據(jù)插補(bǔ)領(lǐng)域的研究報(bào)道。上述研究只分析了存在數(shù)據(jù)缺失的單一變量,而滑坡監(jiān)測(cè)數(shù)據(jù)為多元數(shù)據(jù)序列,數(shù)據(jù)間存在相關(guān)性會(huì)降低LSTM模型的計(jì)算效率和精度,為了解決這一問題,對(duì)模型輸入進(jìn)行降維處理。主成分分析(principal component analysis,PCA)能在原始監(jiān)測(cè)變量的基礎(chǔ)上找出幾個(gè)綜合性能強(qiáng)且互不相關(guān)的變量代替原始變量,實(shí)現(xiàn)數(shù)據(jù)的降維,消除數(shù)據(jù)間的相關(guān)性,在模型優(yōu)化中有著廣泛的應(yīng)用[12-16]。
基于上述研究背景,針對(duì)滑坡地表位移長時(shí)間序列的數(shù)據(jù)缺失問題,現(xiàn)將LSTM算法和PCA算法相融合,建立基于PCA-LSTM的插補(bǔ)模型,以湖北省利川市某滑坡監(jiān)測(cè)數(shù)據(jù)為樣本對(duì)模型進(jìn)行分析,并與其他同類模型進(jìn)行對(duì)比,驗(yàn)證本文方法的有效性。
樣本數(shù)據(jù)來自湖北省利川市某滑坡,滑坡平面形態(tài)呈不規(guī)則長條形,規(guī)模等級(jí)為中型?;碌靥幎跷髂蠘?gòu)造剝蝕中低山區(qū),位于傾向南東方向的斜坡地段,周圍植被茂密。該站點(diǎn)監(jiān)測(cè)內(nèi)容包括雨量(YL)、不同深度的土壤含水率(HS1、HS2、HS3)、地下水位(DX)、泥水位(NW)、3個(gè)方向傾角加速度(VX,VY,VZ)、3個(gè)方向傾角(X,Y,Z)、裂縫(LF1、LF2)以及地表位移(SD)等。
圖1為監(jiān)測(cè)現(xiàn)場(chǎng)的全球?qū)Ш叫l(wèi)星系統(tǒng)(global navigation satellite system,GNSS)設(shè)備,由于植被遮擋太陽能面板,設(shè)備供電異常,導(dǎo)致地表位移監(jiān)測(cè)數(shù)據(jù)出現(xiàn)長時(shí)間序列缺失,為了更加準(zhǔn)確地分析此滑坡的變形規(guī)律,需要插補(bǔ)缺失數(shù)據(jù)。針對(duì)這種數(shù)據(jù)缺失的情況,本文研究考慮把數(shù)據(jù)插補(bǔ)問題轉(zhuǎn)化成預(yù)測(cè)問題,通過分析同一監(jiān)測(cè)點(diǎn)的其他相關(guān)監(jiān)測(cè)變量與地表位移之間的關(guān)系,建立地表位移預(yù)測(cè)模型,再采用預(yù)測(cè)數(shù)據(jù)填補(bǔ)缺失數(shù)據(jù)空缺。
圖1 監(jiān)測(cè)現(xiàn)場(chǎng)的GNSS設(shè)備
提取滑坡監(jiān)測(cè)點(diǎn)2020年5月—2020年6月的監(jiān)測(cè)數(shù)據(jù),滑坡監(jiān)測(cè)設(shè)備每小時(shí)采集一次數(shù)據(jù),得到共計(jì)615組樣本數(shù)據(jù)。對(duì)于離散程度較大的異常值,首先刪除特異值,取均值和眾數(shù)值,然后對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,消除數(shù)據(jù)序列間綱量的影響。
根據(jù)式(1),利用Pearson相關(guān)系數(shù)得到各個(gè)監(jiān)測(cè)變量與滑坡地表位移之間的相關(guān)系數(shù),篩選出與地表位移相關(guān)度高的監(jiān)測(cè)變量作為模型輸入。
(1)
圖2為Pearson相關(guān)性分析結(jié)果,選擇r>0.3的變量作為地表位移的插補(bǔ)參證。經(jīng)過篩選,用于地表位移預(yù)測(cè)的監(jiān)測(cè)變量為X、Y、Z、LF1、LF2、NW、DX、HS1、HS2、HS3、YL。
圖2 Pearson相關(guān)性分析結(jié)果
由Pearson相關(guān)系數(shù)分析結(jié)果可知,滑坡地表位移與多個(gè)監(jiān)測(cè)變量相關(guān)。為了提高LSTM的精度和計(jì)算效率,對(duì)Pearson相關(guān)系數(shù)篩選的結(jié)果進(jìn)行PCA降維處理,消除相關(guān)監(jiān)測(cè)變量之間的相關(guān)性,將累計(jì)貢獻(xiàn)率超過95%的主成分作為插補(bǔ)參證。PCA處理步驟[12-13]如下:①首先對(duì)Pearson篩選得到的11個(gè)監(jiān)測(cè)變量進(jìn)行標(biāo)準(zhǔn)化處理得到標(biāo)準(zhǔn)化矩陣y;②再根據(jù)式(1)計(jì)算得到y(tǒng)的相關(guān)系數(shù)矩陣R,通過特征方程|λE-R|=0,其中E為單位矩陣,進(jìn)一步求得R矩陣的特征值和特征向量;③最后計(jì)算累計(jì)貢獻(xiàn)率,設(shè)定百分比閾值來決定保留主成分的個(gè)數(shù);④把累計(jì)貢獻(xiàn)率達(dá)到95%的特征值所對(duì)應(yīng)的特征向量組成特征矩陣,得到降維結(jié)果。
PCA處理結(jié)果如圖3所示,可以看出前5個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到了95%。此時(shí)模型輸入由11維變?yōu)?維,并且5組數(shù)據(jù)之間互不相關(guān)。
圖3 PCA處理結(jié)果
LSTM神經(jīng)網(wǎng)絡(luò)是改良后的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),能夠通過歷史監(jiān)測(cè)項(xiàng)對(duì)地表位移進(jìn)行映射,充分考慮了地表位移的時(shí)序性。LSTM以細(xì)胞作為一個(gè)基本單元來記憶每個(gè)時(shí)刻的地表位移信息,通過細(xì)胞的更迭,反映長期記憶效應(yīng)。細(xì)胞結(jié)構(gòu)如圖4所示。
圖4 LSTM細(xì)胞結(jié)構(gòu)
與RNN相比,LSTM神經(jīng)網(wǎng)絡(luò)通過增加門結(jié)構(gòu)控制細(xì)胞存儲(chǔ)信息,解決了RNN在處理長期依賴時(shí)出現(xiàn)的梯度消失和爆炸,使其能夠更好地處理長時(shí)間序列的滑坡地表位移數(shù)據(jù),其前向計(jì)算過程[17]如下。
ft=δ(Wxfxt+Whfht-1+Wxfct-1+bf)
(2)
it=δ(Wxfxt+Whfht-1+Wxfct-1+bi)
(3)
ct=ftct-1+ittanh(Wxcxt+Wxcht-1+bc)
(4)
ot=δ(Wxoxt+Whoht-1+bo)
(5)
ht=ottanh(ct)
(6)
式中:δ為sigmoid激活函數(shù);tanh為雙曲正切激活函數(shù),用于實(shí)現(xiàn)門結(jié)構(gòu)的篩選功能;輸入門it通過δ函數(shù)對(duì)新輸入的地表位移特征信息進(jìn)行篩選,更新細(xì)胞中的滑坡位移信息;遺忘門ft通過δ函數(shù)控制儲(chǔ)存狀態(tài)選擇性保留歷史位移信息;整個(gè)細(xì)胞通過it、ft更新儲(chǔ)存狀態(tài)ct,輸出門ot用于確定儲(chǔ)存狀態(tài)需要輸出的地表位移信息;ht為t時(shí)刻細(xì)胞單元輸出的地表位移信息;Wxf、Wxc、Wxo分別為各個(gè)門對(duì)輸入信息x的權(quán)值;Whf、Whc、Who分別為各個(gè)門對(duì)前一時(shí)刻的輸出ht-1的權(quán)值;bf、bc、bo、bi分別為對(duì)應(yīng)各個(gè)門的偏置[18]。
根據(jù)上述算法,為了提高插補(bǔ)精度,構(gòu)建基于PCA-LSTM的滑坡位移數(shù)據(jù)插補(bǔ)的模型。模型插補(bǔ)流程如圖5所示,詳細(xì)步驟如下。
圖5 基于PCA-LSTM的數(shù)據(jù)插補(bǔ)流程圖
(1)對(duì)原始監(jiān)測(cè)數(shù)據(jù)進(jìn)行預(yù)處理并通過Pearson相關(guān)系數(shù)法篩選監(jiān)測(cè)變量。
(2)通過PCA對(duì)步驟(1)中的處理結(jié)果進(jìn)行降維處理并保留數(shù)據(jù)95%的信息,然后劃分訓(xùn)練集和測(cè)試集。
(3)搭建LSTM模型,將步驟(2)處理后的訓(xùn)練集樣本輸入模型,以平均絕對(duì)誤差(mean absolute error, MAE)、平均絕對(duì)百分誤差(mean absolute percentage error, MAPE)和均方根誤差(root mean square error, RMSE)為評(píng)價(jià)指標(biāo),調(diào)整參數(shù),直到獲得目標(biāo)準(zhǔn)確率,構(gòu)建基于PCA-LSTM的滑坡地表位移數(shù)據(jù)插補(bǔ)模型。
(4)把測(cè)試集輸入模型得到插補(bǔ)結(jié)果。PCA-LSTM是包含2個(gè)LSTM層和1個(gè)全連接層(Dense層)的3層深度的模型,其中LSTM層包含64個(gè)神經(jīng)元,Dense層與輸出層相連,包含一個(gè)神經(jīng)元,模型時(shí)間步長為1,迭代次數(shù)為100,學(xué)習(xí)率為0.001,批量大小為32,損失函數(shù)為MSE,優(yōu)化算法為Adam。
為了驗(yàn)證PCA-LSTM數(shù)據(jù)插補(bǔ)模型的性能,首先用5折交叉驗(yàn)證法測(cè)試PCA-LSTM模型的泛化性:把PCA處理后的615組數(shù)據(jù)隨機(jī)打亂分為5份,前4份作為訓(xùn)練集來建立LSTM模型,剩下的1份作為驗(yàn)證集來測(cè)試模型效果,重復(fù)5次實(shí)驗(yàn)后,取模型評(píng)價(jià)指標(biāo)的平均值作為PCA-LSTM的性能指標(biāo)。然后把PCA處理后的樣本數(shù)據(jù)按3∶1的比例劃分訓(xùn)練集和測(cè)試集,輸入LSTM模型得到PCA-LSTM的預(yù)測(cè)結(jié)果;再把未經(jīng)PCA處理的樣本數(shù)據(jù)按相同比例劃分訓(xùn)練集和測(cè)試集后輸入對(duì)比模型,得到各個(gè)對(duì)比模型的預(yù)測(cè)結(jié)果,并與PCA-LSTM模型的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比。
除了把PCA-LSTM模型與單一的LSTM模型對(duì)比,還將PCA-LSTM模型與BP神經(jīng)網(wǎng)絡(luò)模型、遺傳算法(genetic algorithm, GA)優(yōu)化BP神經(jīng)網(wǎng)絡(luò)模型、K近鄰模型(K-nearest neighbor, KNN)、支持向量機(jī)模(support vector machine, SVM)進(jìn)行對(duì)比。
將整理好的數(shù)據(jù)輸入PCA-LSTM模型進(jìn)行5折交叉驗(yàn)證,5折交叉驗(yàn)證后得到的誤差曲線和插補(bǔ)效果圖如圖6所示。圖6(a)、圖6(c)、圖6(e)、圖6(g)、圖6(i)為插補(bǔ)值和實(shí)際值的變化趨勢(shì),可以看到5次實(shí)驗(yàn)結(jié)果都在樣本點(diǎn)數(shù)值突變處發(fā)生波動(dòng),但整體趨勢(shì)與實(shí)際值較為吻合。圖6(b)、圖6(d)、圖6(f)、圖6(h)、圖6(j)為5次實(shí)驗(yàn)的誤差圖,誤差集中分布在[-2,2],其中最大的絕對(duì)誤差為5.5 mm,5次實(shí)驗(yàn)都在初期有著較大的誤差,隨著模型對(duì)歷史信息的記憶,插補(bǔ)誤差逐漸減小并趨于穩(wěn)定,即使再次出現(xiàn)地表位移數(shù)據(jù)突變,插補(bǔ)結(jié)果的誤差也較為穩(wěn)定。從5折交叉驗(yàn)證的實(shí)驗(yàn)結(jié)果可以看出,模型的泛化性能較為理想。
圖6 PCA-LSTM模型的處理結(jié)果和誤差曲線
5次實(shí)驗(yàn)后得到的PCA-LSTM模型的MAE、MAPE、RMSE如表1所示,從表1中可以看到PCA-SLTM的平均絕對(duì)誤差僅有1.214 mm,5次實(shí)驗(yàn)MAE的波動(dòng)范圍在[-0.39,0.364]。由此可見PCA-LSTM模型在不同的數(shù)據(jù)集上均有較為理想插補(bǔ)效果,模型的泛化性能和穩(wěn)定性較為良好,能夠?qū)崿F(xiàn)長時(shí)間序列的缺失數(shù)據(jù)的精準(zhǔn)插補(bǔ)。
表1 PCA-LSTM模型擬合精度分析
為了進(jìn)一步驗(yàn)證PCA-LSTM插補(bǔ)模型的有效性,把3.1節(jié)中劃分好的樣本數(shù)據(jù)分別輸入PCA-LSTM、KNN、BP、GA-BP、SVM以及LSTM進(jìn)行對(duì)比。為幾種算法的誤差如圖7所示,滑坡地表位移數(shù)據(jù)平緩變化時(shí),幾種模型的插補(bǔ)誤差較為穩(wěn)定;在樣本點(diǎn)[80,100]位移量突變,SVM、GA-BP和KNN的插補(bǔ)誤差瞬間增大,LSTM和PCA-LSTM模型的插補(bǔ)誤差波動(dòng)相對(duì)較小。其中PCA-LSTM模型較于其他幾種模型的整體誤差最小,精度最高。
圖7 各種模型的結(jié)果誤差
幾種插補(bǔ)模型的評(píng)價(jià)指標(biāo)如表2所示,PCA-LSTM與單一的LSTM相比,RMSE、MAE和MAPE分別減少了 2.7%、26.4%和18.1%,可看出PCA消除了輸入變量之間的冗余性和相關(guān)性,提高LSTM模型的插補(bǔ)精度和穩(wěn)定型。與其他幾種模型相比,PCA-LSTM模型精度明顯優(yōu)于KNN、SVM、BP神經(jīng)網(wǎng)絡(luò)以及GA-BP神經(jīng)網(wǎng)絡(luò)。從對(duì)比結(jié)果分析可知,PCA-LSTM模型能夠更好地處理長時(shí)間序列數(shù)據(jù)缺失問題。
表2 幾種模型的插補(bǔ)精度分析
提取監(jiān)測(cè)點(diǎn)2020年6月1—15日共計(jì)360組樣本數(shù)據(jù),假設(shè)地表位移監(jiān)測(cè)數(shù)據(jù)在6月7—11日出現(xiàn)數(shù)據(jù)連續(xù)缺失,使用本文方法進(jìn)行插補(bǔ),結(jié)果如圖8所示。
圖8 插補(bǔ)結(jié)果與真實(shí)數(shù)據(jù)對(duì)比
從圖8中可以看出,插補(bǔ)結(jié)果與原始數(shù)據(jù)的數(shù)值以及趨勢(shì)均較為相仿,實(shí)際插補(bǔ)結(jié)果比較理想,但對(duì)一些位移突變點(diǎn)的插補(bǔ)仍有待改善。
研究了基于PCA-LSTM的滑坡地表位移插補(bǔ)模型,得出如下結(jié)論。
(1)通過PCA消除輸入變量之間的冗余性和相關(guān)性,有利于提高LSTM模型的精度和穩(wěn)定型。PCA-LSTM模型相比于單一的LSTM模型的RMSE、MAE和MAPE分別提高了2.7%、26.4%和18.1%。
(2)本文提出的PCA-LSTM模型能夠很好地?cái)M合滑坡水平位移與其他變量之間的非線性關(guān)系,對(duì)長時(shí)間序列的數(shù)據(jù)缺失插補(bǔ)的結(jié)果和真實(shí)值的擬合程度能夠達(dá)到99%,插補(bǔ)效果較為理想。
(3)本文采用的PCA-LSTM模型與BP神經(jīng)網(wǎng)絡(luò)、GA算法優(yōu)化后的BP神經(jīng)網(wǎng)絡(luò)、KNN、SVM等機(jī)器學(xué)習(xí)模型相比,模型評(píng)價(jià)指標(biāo)MAE、RMSE和MAPE分別為1.233、0.523和0.009,均優(yōu)于其他模型。
(4)本文提出的PCA-LSTM模型在一些滑坡地表位移突變數(shù)據(jù)上的插補(bǔ)精度略差,仍有待提高。