蔣齊嘉,蔣中明,2,唐 棟,3,曾景明
(1.長沙理工大學(xué) 水利工程學(xué)院,長沙 410114; 2.水沙科學(xué)與水災(zāi)害防治湖南省重點實驗室,長沙 410114;3.洞庭湖水環(huán)境治理與生態(tài)修復(fù)湖南省重點實驗室,長沙 410114)
隨著對自然資源的開發(fā)與利用,近些年自然災(zāi)害的頻次明顯增加,工程領(lǐng)域相關(guān)的風(fēng)險也隨之增高,因此準(zhǔn)確的安全監(jiān)測變得尤為重要。顯然安全可靠的監(jiān)測數(shù)據(jù)是實施邊坡安全監(jiān)控的重要基礎(chǔ),更是后續(xù)正確分析預(yù)測的必備前提,但是監(jiān)測數(shù)據(jù)的獲取過程不可避免會受到人為失誤、外界干擾、設(shè)備故障等因素的影響,因此監(jiān)測數(shù)據(jù)中往往會出現(xiàn)少量異常的數(shù)據(jù),這類異常數(shù)據(jù)即為粗差[1]。歸根溯源可知,粗差其實是錯誤的數(shù)據(jù),如果不及時處理會嚴(yán)重影響后續(xù)的分析預(yù)測,進(jìn)而影響對邊坡安全性的評判。因此,快速而又準(zhǔn)確地識別監(jiān)測數(shù)據(jù)中的粗差具有重要意義。
粗差的識別探測屬于數(shù)據(jù)異常檢測范疇,現(xiàn)階段如何進(jìn)行異常檢測,可以歸納為統(tǒng)計學(xué)的方法、根據(jù)距離的方法以及聚類的方法等[2]。一方面現(xiàn)有的粗差探測方法往往只基于單一理論,在面對監(jiān)測數(shù)據(jù)離群點較多或較小時,誤判和漏判便隨之出現(xiàn)[3];另一方面監(jiān)測數(shù)據(jù)常呈現(xiàn)出非線性非平穩(wěn)特點,若直接對原始數(shù)據(jù)應(yīng)用上述探測法很難成功識別粗差。因此,為解決上述問題,諸多學(xué)者開展了相關(guān)研究。
蔡曉軍等[4]采用多通道奇異譜分析(SSA)對全球?qū)Ш叫l(wèi)星系統(tǒng)(GNSS)序列數(shù)據(jù)實現(xiàn)粗差探測。張東華等[5]針對沉降和大壩變形監(jiān)測數(shù)據(jù),提出了一種基于SSA與未確知濾波法(UF)的聯(lián)合方法實現(xiàn)粗差探測。陳利軍等[6]為提升電離層擾動數(shù)據(jù)分析準(zhǔn)確性,剔除異常數(shù)據(jù),提出了基于密度聚類算法(DBSCAN)的地震電離層擾動異常數(shù)據(jù)檢測方法。羅怡瀾等[7]根據(jù)某型機(jī)車履歷數(shù)據(jù),提出基于K-means與DBSCAN的聯(lián)合異常檢測模型。鄭霞忠等[8]根據(jù)大壩位移監(jiān)測數(shù)據(jù),引入DBSCAN算法以識別大壩工作運行中的異常數(shù)據(jù),王露[9]同樣使用DBSACN算法對大壩溫度監(jiān)測數(shù)據(jù)進(jìn)行異常檢測。
鑒于此,本文引入SSA和DBSCAN算法。SSA在識別周期和趨勢項上具有一定的優(yōu)勢,能夠較準(zhǔn)確的提取信號[10-11]。DBSCAN算法是基于密度的聚類算法,該方法成功解決K-means未能解決的不規(guī)則形狀的聚類問題,同時該算法在區(qū)分異常值和粗差點上具有明顯優(yōu)勢。
綜上所述,本文基于這2種算法的特點提出了SSA-DBSCAN粗差探測法。通過引入邊坡安全監(jiān)測實例進(jìn)行研究,對比分析了SSA-DBSCAN粗差探測法與其他常規(guī)傳統(tǒng)方法對邊坡監(jiān)測數(shù)據(jù)的粗差探測效果,從而為后續(xù)的安全評價、變形預(yù)測、乃至滑坡預(yù)警奠定基礎(chǔ)。
SSA最初由Colebrook(1978)提出[12],是一種適合非線性時間序列的研究方法,它根據(jù)時間序列建立軌跡矩陣并進(jìn)行分解與重構(gòu),然后從中識別出周期信號、趨勢信號和噪聲信號[13]。SSA主要包括分解和重構(gòu)2個步驟,對于一組長度為N的一維時間序列x1,x2,…,xN的SSA主要過程如下[14-15]。
建立軌跡矩陣X為
(1)
式中L為窗口長度(或稱為嵌套空間維數(shù)),1≤L≤N/2,一般通過適當(dāng)方法或者經(jīng)驗擬定。然后對X進(jìn)行奇異值分解,可得
(2)
(3)
分解后對所得的L個矩陣Xi(i=1,2,…,L)分組為
X=XI1+XI2+…+XIp。
(4)
式中任何一個XIi都是由一個或者多個Xi合成,并且不同的XIi內(nèi)所包含的Xi不同。
將分組所得到的每個L×K矩陣XIi應(yīng)用對角平均法轉(zhuǎn)換為新重構(gòu)序列RC(reconstruction),即
(6)
顯然通過對角平均法,原始時間序列可以分解為p(1≤p≤L)個長度為N的時間序列之和[17],p之后的分量視為噪聲構(gòu)成殘差序列。
DBSCAN算法是Ester等[18]在1996年提出的一種基于密度的聚類算法。該方法成功解決K-means未能解決的不規(guī)則形狀的聚類問題,同時也對噪聲數(shù)據(jù)處理較好,即該算法在識別數(shù)據(jù)集中任意形狀的聚類的同時,更可以找出噪聲。
DBSCAN算法的2個參數(shù)(Eps,MinPts)的設(shè)定很大程度決定聚類結(jié)果,其中,Eps表示鄰域距離閾值,MinPts表示鄰域范圍內(nèi)包含樣本數(shù)目的臨界值,即鄰域密度閾值[19]。若數(shù)據(jù)集D=(x1,x2,…,xN),DBSCAN算法關(guān)鍵定義如下[20]。
(1)核心對象:對于任一樣本xj∈D,若其Eps鄰域內(nèi)至少包含MinPts個樣本,則稱xj為核心對象。
(2)密度直達(dá):若xi位于xj的Eps鄰域中,且xj是核心對象,則稱xi由xj密度直達(dá)。
(3)密度可達(dá):若存在數(shù)據(jù)集序列p1,p2,…,pT,滿足p1=xi,pT=xj且pT+1由pT密度直達(dá),則稱xj由xi密度可達(dá),即密度可達(dá)具有傳遞性。
(4)密度相連:若存在核心對象樣本xk,可使xi和xj均由xk密度可達(dá),則稱xi和xj密度相連。
DBSCAN算法步驟簡述如下[21]:①輸入樣本數(shù)據(jù)序列,設(shè)置參數(shù)Eps和MinPts,從序列中任選1個尚未處理的數(shù)據(jù)點x,然后對x進(jìn)行核心對象的判別;②若x是核心對象,則找出數(shù)據(jù)序列中x對應(yīng)的全部密度可達(dá)點,x與其構(gòu)成一個新的簇;③根據(jù)簇中各點的密度相連關(guān)系得到一個聚類;④重復(fù)執(zhí)行步驟②、步驟③,并對數(shù)據(jù)序列中所有的數(shù)據(jù)點進(jìn)行處理,可得最終的聚類結(jié)果以及噪聲數(shù)據(jù)。
本文使用SSA對含粗差的邊坡監(jiān)測數(shù)據(jù)進(jìn)行信號提取和粗差位置的初步擬定。首先,根據(jù)監(jiān)測數(shù)據(jù)序列長度,擬定合適的窗口長度L進(jìn)行奇異譜分解;然后根據(jù)貢獻(xiàn)率ci[5]及模極值點的情況,擬定參數(shù)p以得到重構(gòu)序列和殘余分量;接下來,結(jié)合原始監(jiān)測信號對殘余分量進(jìn)行分析,通常來說殘余分量中的模極值點可定性視為可疑粗差點[5];最后,從數(shù)理統(tǒng)計角度出發(fā)定量的設(shè)置合理閾值,若殘差絕對值大于該閾值,則視該點為可疑粗差點。
邊坡安全監(jiān)測過程中異常數(shù)據(jù)的出現(xiàn)在所難免, 根據(jù)異常數(shù)據(jù)產(chǎn)生的原因, 異常數(shù)據(jù)可以歸納為邊坡狀態(tài)異常和邊坡監(jiān)測粗差2類。 邊坡狀態(tài)異常是指由于多方面原因邊坡自身狀態(tài)出現(xiàn)異常, 與粗差不同, 該類數(shù)據(jù)異常反映了邊坡異常的自身狀態(tài), 研究過程中需將其準(zhǔn)確識別提取并進(jìn)行重點分析。
邊坡監(jiān)測粗差其實是由于人為因素、外界干擾,甚至是設(shè)備故障得到的錯誤數(shù)據(jù),必須對其準(zhǔn)確識別并剔除[8]。為了準(zhǔn)確檢測邊坡安全監(jiān)測數(shù)據(jù),實現(xiàn)精準(zhǔn)區(qū)分粗差和異常值,本文提出基于密度聚類的DBSCAN 算法檢測邊坡監(jiān)測序列中的異常數(shù)據(jù)。
SSA算法在提取信號方面頗具優(yōu)勢,但是其在探測較小的粗差方面不夠準(zhǔn)確,而且在數(shù)據(jù)較多時容易出現(xiàn)誤判[5]。DBSCAN算法是基于密度的聚類算法,該算法在實現(xiàn)區(qū)分粗差和異常值的同時還可以解決SSA不能探測較小粗差的局限性。但是該算法的調(diào)參相對于傳統(tǒng)K-means之類的聚類算法更復(fù)雜,需要對Eps和MinPts聯(lián)合調(diào)參;并且在聚類結(jié)果出現(xiàn)臨界簇的情況下,難以直接判斷臨界簇的異常點是否為粗差。
綜上所述,針對邊坡安全監(jiān)測數(shù)據(jù),本文聯(lián)合2種算法的優(yōu)勢提出了基于SSA-DBSCAN的粗差探測新方法,該方法簡述如下:
(1)輸入含粗差邊坡監(jiān)測數(shù)據(jù),使用SSA提取信號并結(jié)合閾值擬定可疑粗差點。
(2)輸入SSA提取的殘余分量,使用DBSCAN算法進(jìn)行異常檢測,得到噪聲和臨界簇集合。
(3)將上述兩步得到的可疑粗差點和臨界簇集合進(jìn)行對比然后取交集,準(zhǔn)確識別出臨界簇中的粗差。
(4)將步驟(2)中得到的噪聲與步驟(1)中得到的可疑粗差點進(jìn)行對比,再結(jié)合人工監(jiān)測經(jīng)驗分析,以準(zhǔn)確識別出噪聲中的粗差。
(5)將步驟(3)和步驟(4)中得到的粗差合并,至此實現(xiàn)高效準(zhǔn)確的粗差探測。
采用三板溪水電站東嶺信邊坡DLXG01測點的水平位移監(jiān)測序列為例(時間從2011年6月至2018年11月),在2、12、13、17、21、138、139、163、164、172、173期數(shù)處隨機(jī)加入大小不一的共計11個粗差,形成復(fù)雜的含粗差監(jiān)測數(shù)據(jù),如圖1所示。
圖1 位移觀測數(shù)據(jù)序列Fig.1 Original displacement data series
首先輸入含粗差的數(shù)據(jù),應(yīng)用SSA法。由于監(jiān)測數(shù)據(jù)共180期(每期為15 d),選取窗口長度L為90。目前重構(gòu)信號分量的選取方法有很多,本文以貢獻(xiàn)率ci為依據(jù)選取重構(gòu)分量的個數(shù)[16],試驗結(jié)果顯示:前3個重構(gòu)分量的貢獻(xiàn)率已經(jīng)達(dá)到了99.8%,因此選取前3個分量重構(gòu)監(jiān)測序列,其余分量組成殘余分量。SSA結(jié)果如圖2所示。
圖2 邊坡變形序列SSA提取的重構(gòu)信號及殘余分量Fig.2 Reconstruction signals and residual componentsextracted from slope deformation series by SSA
從圖2可看出殘余分量在2、13、17、21、138、163、173處存在模極值點,然后定量計算殘差序列的標(biāo)準(zhǔn)差獲得閾值以進(jìn)行可疑粗差點判別[5],即當(dāng)殘差絕對值>2σ(2σ=9.197 2 mm)時判定該點為可疑粗差點,可得2、12、13、17、21、138、163、164、173、174為可疑粗差點。
然后,輸入含粗差的數(shù)據(jù),應(yīng)用DBSCAN數(shù)據(jù)異常檢測算法。值得注意的是,使用過程中需通過對Eps和MinPts 2大參數(shù)聯(lián)合調(diào)參以獲得最優(yōu)結(jié)果,本文最終選取Eps和MinPts分別為3.9和3.0。
DBSCAN數(shù)據(jù)異常檢測結(jié)果如圖3所示。根據(jù)試驗結(jié)果:1、138、139、163、164、172、173點為噪聲點,2、12、13、17、21點構(gòu)成臨界簇A,177、178、179、180點構(gòu)成臨界簇B,其余點為正常數(shù)據(jù)。
圖3 邊坡變形序列DBSCAN異常檢測結(jié)果Fig.3 Result of DBSCAN anomaly detection of slopedeformation series
接著,根據(jù)本文提出的SSA-DBSCAN粗差探測法,將SSA得到的可疑粗差點和DBSCAN得到的臨界簇集合A、B分別進(jìn)行對比并取交集,可得2、12、13、17、21為臨界簇中的準(zhǔn)確粗差。與此同時,根據(jù)異常值檢測理論,通過DBSCAN得出的噪聲均視為異常值,但由于1點在此前并未被識別為可疑粗差點,此時需要結(jié)合監(jiān)測經(jīng)驗和邊坡位移演變規(guī)律對其異常類別進(jìn)行判別:由于該點為初始點并且此時邊坡處于加速變形階段,故判斷該點并非粗差點。綜上可得138、139、163、164、172、173為噪聲中的準(zhǔn)確粗差。
最后將2組準(zhǔn)確粗差合并,結(jié)果如表1所示。至此成功探測出了全部11個粗差點,實現(xiàn)了對邊坡位移監(jiān)測數(shù)據(jù)的高效準(zhǔn)確的粗差探測。
表1 邊坡變形序列SSA-DBSCAN粗差探測結(jié)果Table 1 Result of gross error detection of slopedeformation series based on SSA-DBSCAN
為了驗證該方法的優(yōu)勢,本文仍使用該邊坡水平位移監(jiān)測序列,采用中位數(shù)絕對偏差法(MAD)和格拉布斯準(zhǔn)則法(Grubbs)進(jìn)行對比驗證,如表2所示。表2中TP為準(zhǔn)確識別出的粗差個數(shù),TN為準(zhǔn)確識別出的正常點個數(shù),Precision(精準(zhǔn)率)為所有被探測為粗差的點中實際為粗差的個數(shù)比率,Recall(查全率)為所有實際為粗差的點中被準(zhǔn)確探測出的個數(shù)比率,F(xiàn)1 Score為模型評價指標(biāo),它被定義為Precision和Recall的調(diào)和平均數(shù)。F1 Score的取值范圍為0~1,F(xiàn)1 Score越大表示性能越好。結(jié)果表明,該實例中SSA-DBSCAN粗差探測法性能優(yōu)異,探測效果最好;并且根據(jù)評價指標(biāo),本文提出的方法不僅能夠準(zhǔn)確識別粗差,而且在誤判率方面優(yōu)勢明顯。
表2 3種粗差探測方法的水平位移結(jié)果對比Table 2 Comparison of horizontal displacementobtained by three gross error detection methods
采用三板溪水電站東嶺信邊坡ZK2測點的鉆孔地下水位監(jiān)測序列為例(時間從2011年6月—2018年11月),隨機(jī)地在10、38、65、66、85、115、139、140、176、177期數(shù)處加入大小不一的共計10個粗差,形成復(fù)雜的含粗差監(jiān)測數(shù)據(jù),實測數(shù)據(jù)如圖4所示。
圖4 地下水位觀測數(shù)據(jù)序列Fig.4 Original groundwater level data series
首先使用SSA法。選取窗口長度L為90。由于前6個重構(gòu)分量的貢獻(xiàn)率達(dá)到了99.9%,故選取前6個分量重構(gòu)監(jiān)測序列,其余分量組成殘余分量。SSA結(jié)果如圖5所示。
圖5 地下水位序列SSA提取的重構(gòu)信號及殘余分量Fig.5 Reconstruction signals and residual componentsextracted from groundwater level data series by SSA
根據(jù)圖5模極值點情況,然后定量計算殘差序列的標(biāo)準(zhǔn)差獲得閾值以進(jìn)行可疑粗差點判別[5],當(dāng)殘差絕對值>2σ(2σ=14.280 3 mm)時判定該點為可疑粗差點,可得10、38、65、66、85、99、115、139、140、176、177為可疑粗差點。
然后使用DBSCAN數(shù)據(jù)異常檢測算法。通過對Eps和MinPts 2大參數(shù)聯(lián)合調(diào)參,最終選取Eps和MinPts分別為5.5和3.0。DBSCAN數(shù)據(jù)異常檢測結(jié)果如圖6所示。根據(jù)試驗結(jié)果:10、38、65、66、85、115、139、140、176、177點為噪聲點,其余點為正常數(shù)據(jù)。接著,應(yīng)用本文提出的SSA-DBSCAN粗差探測法,結(jié)果如表3所示。
圖6 地下水位序列DBSCAN異常檢測結(jié)果Fig.6 Result of DBSCAN anomaly detectionof groundwater level data series
表3 地下水位序列SSA-DBSCAN粗差探測結(jié)果Table 3 Result of gross error detection of groundwaterlevel data series based on SSA-DBSCAN
值得注意的是,地下水位與位移序列不同,強(qiáng)降雨往往會導(dǎo)致地下水位驟升,形成貌似粗差點的異常值,這些異常點是不能將其視為粗差去除的,故對于該類監(jiān)測數(shù)據(jù)需要在本文提出的粗差探測算法基礎(chǔ)上,聯(lián)合降雨資料進(jìn)行綜合分析,具體如下:
(1)時序10、38、85、176、177若非粗差點,則意味著地下水位驟降,而實際上根據(jù)這些時序的降雨情況,如表4所示,不僅降雨量與近年同期相比變化不大,且與之對應(yīng)的近年同期地下水位也并無驟降,表明上述時序并無驟降可能,均為粗差點。
表4 結(jié)合降雨資料的驟降粗差結(jié)果分析Table 4 Analysis of abrupt drop of gross error resultin association with rainfall data
(2)時序65、66、115、139、140若非粗差點,則意味著地下水位驟升,而實際上根據(jù)這些時序的降雨情況,如表5所示,不僅大部分時序的降雨量遠(yuǎn)遠(yuǎn)小于同期最大降雨量,而且時序115、140的降雨量也都與往年(2015年、2017年)降雨情況相當(dāng),與之對應(yīng)的同期地下水位也并無驟升。
表5 結(jié)合降雨資料的驟升粗差結(jié)果分析Table 5 Analysis of abrupt rise of gross error resultin association with rainfall data
一方面該滑坡已經(jīng)修建了2條排水道,雖然突發(fā)的降雨短時間理論上會造成水位升高,但是在較長的15 d監(jiān)測周期(時序)范圍內(nèi),鉆孔內(nèi)突然匯聚的雨水有足夠的時間消散。另一方面能威脅到該滑坡體穩(wěn)定性的“久雨”被描述為在40 h內(nèi)累計降下80 mm的雨水(對應(yīng)日降雨量為50 mm/d),而上述時序中15 d累計降雨總量的最大值也僅為47.31 mm。事實上,上述時序還均處于少雨的冬季。上述論述表明地下水位無驟升可能,即均為粗差點。至此,終于實現(xiàn)了對地下水位監(jiān)測數(shù)據(jù)準(zhǔn)確的粗差探測。
最后,為了驗證該方法的優(yōu)勢,本文仍使用該鉆孔地下水位監(jiān)測序列,采用中位數(shù)絕對偏差法(MAD)和格拉布斯準(zhǔn)則法(Grubbs)進(jìn)行對比驗證,如表6所示。結(jié)果表明,該實例中SSA-DBSCAN性能仍然優(yōu)異,并且根據(jù)評價指標(biāo),本文提出的方法不僅能夠準(zhǔn)確識別粗差,而且在誤判率方面同樣具有顯著優(yōu)勢。
表6 3種粗差探測方法的地下水位結(jié)果對比Table 6 Comparison of underground water level resultamong three gross error detection methods
考慮粗差存在的偶然隨機(jī)性和監(jiān)測數(shù)據(jù)的非平穩(wěn)非線性特征,為解決邊坡安全監(jiān)測數(shù)據(jù)的粗差探測問題、并且進(jìn)一步提升探測的精準(zhǔn)性,本文提出了一種基于SSA和DBSCAN的粗差探測方法,并且以邊坡水平位移和鉆孔地下水位2組不同類別的安全監(jiān)測數(shù)據(jù)為例進(jìn)行了實證研究,得到以下結(jié)論:
(1)本文提出的SSA-DBSCAN粗差探測法面對2組不同類別的邊坡監(jiān)測數(shù)據(jù),依賴性能突出的DBSCAN異常檢測算法均能準(zhǔn)確探測出全部的粗差。并且該方法在與MAD和Grubbs準(zhǔn)則法的對比驗證中體現(xiàn)出了更高的精準(zhǔn)性,尤其在誤判率方面優(yōu)勢明顯,上述2組不同類別監(jiān)測序列的實證分析更表明該方法具有一定的普適性。
(2)本文提出的SSA-DBSCAN粗差探測法更適用于對變形監(jiān)測序列的粗差探測,如大壩、邊坡變形引起的監(jiān)測點位移變化。但是監(jiān)測數(shù)據(jù)如地下水位、溫度等復(fù)雜多樣,這類監(jiān)測數(shù)據(jù)與變形數(shù)據(jù)不同,其出現(xiàn)的突變離群值并不一定是粗差,如果盲目地剔除,則錯過了反映真實情況的重要數(shù)據(jù),因此,實際中我們需要聯(lián)合其他監(jiān)測資料對其進(jìn)行綜合研判。
(3)本文提出的SSA-DBSCAN粗差探測法雖然結(jié)合降雨資料綜合分析能夠?qū)崿F(xiàn)對地下水位這類相對復(fù)雜監(jiān)測序列的粗差探測,但這是建立在專業(yè)技術(shù)人員的時間人力成本上的,而實際中難以滿足這樣的條件,故本文提出的方法雖然在變形監(jiān)測序列中具有一定的推廣前景,但在應(yīng)對地下水位這類監(jiān)測數(shù)據(jù)上存在一定的局限性,還需進(jìn)一步研究探索。并且近年來人工智能、深度學(xué)習(xí)理論正在如火如荼地發(fā)展,如何結(jié)合這些理論構(gòu)建智能粗差探測識別系統(tǒng)是未來發(fā)展的方向。