易思成,康喜明,吳 浩,胡少華
(1.武漢理工大學(xué) 安全科學(xué)與應(yīng)急管理學(xué)院,湖北 武漢 430070;2.國網(wǎng)內(nèi)蒙古東部電力有限公司,內(nèi)蒙古 呼和浩特 010020;3.華中師范大學(xué) 城市與環(huán)境科學(xué)學(xué)院,湖北 武漢 430079)
我國是礦產(chǎn)資源開采大國,每年產(chǎn)出大量礦石的同時,也會產(chǎn)生大量尾礦集中堆存于尾礦庫。作為1種人造高勢能重大危險源,尾礦壩邊坡一旦失穩(wěn)導(dǎo)致潰壩,不僅會嚴(yán)重威脅人民的生命財產(chǎn)安全,同時也將對生態(tài)環(huán)境造成重大破壞,產(chǎn)生不良的社會影響[1]。目前,國內(nèi)外普遍采用基于傳感器的壩體變形監(jiān)測系統(tǒng)對尾礦壩進(jìn)行實時在線監(jiān)測,通過識別出現(xiàn)的異常數(shù)據(jù)流并報警以確保相關(guān)應(yīng)急處置措施的及時開展[2]。然而,由于尾礦庫的地理位置通常較為偏僻,環(huán)境惡劣,所設(shè)置的傳感器容易受到天氣、電力供應(yīng)、其他現(xiàn)場條件等諸多因素的影響,導(dǎo)致其在數(shù)據(jù)采集及傳輸過程中受到擾動和干擾,使得監(jiān)測數(shù)據(jù)中不可避免地出現(xiàn)各種噪聲[3],部分噪聲會被監(jiān)測系統(tǒng)認(rèn)定為異常數(shù)據(jù)引發(fā)報警,觸發(fā)不必要的應(yīng)急響應(yīng),浪費(fèi)大量人力物力。因此,在異常數(shù)據(jù)診斷過程中,提高對噪聲數(shù)據(jù)和真實異常數(shù)據(jù)的辨別能力是十分必要的。
目前常用的異常數(shù)據(jù)診斷方法主要包括統(tǒng)計概率法和基于機(jī)器學(xué)習(xí)的異常診斷2大類。統(tǒng)計概率法的基本思想是根據(jù)統(tǒng)計概率分析來確定判別準(zhǔn)則,從而檢測數(shù)據(jù)中的異常值。比較常用的判別準(zhǔn)則包括3σ準(zhǔn)則、格拉布斯準(zhǔn)則、狄克松準(zhǔn)則等[4]。許貝貝等[5]將3σ準(zhǔn)則應(yīng)用于大壩監(jiān)測數(shù)據(jù),成功剔除4個所設(shè)的尖頂異常值;魯鐵定等[6]分別使用格拉布斯準(zhǔn)則和狄克松準(zhǔn)則對水電廠監(jiān)測數(shù)據(jù)進(jìn)行分析,實現(xiàn)監(jiān)測數(shù)據(jù)中異常值的精確定位。隨著人工智能和機(jī)器學(xué)習(xí)的不斷發(fā)展,基于各種智能算法的異常診斷模型逐漸運(yùn)用于各行業(yè)的異常檢測之中。Chen等[7]利用局部異常因子算法(LOF)對鋰離子電池組電壓監(jiān)測數(shù)據(jù)進(jìn)行異常診斷,通過計算各點(diǎn)的局部可達(dá)距離找出故障點(diǎn);Salazar等[8]提出1種基于增強(qiáng)回歸樹的異常診斷方法,通過對比預(yù)測值與實測值的殘差來確定大壩異常數(shù)據(jù),取得較好的效果。然而,這些異常診斷模型雖能實現(xiàn)對異常值的大致診斷,卻無法進(jìn)一步判斷所識別異常值是否包含有噪聲。
孤立森林(Isolation Forest,IF)算法作為1種無監(jiān)督的機(jī)器學(xué)習(xí)算法,近年來被廣泛運(yùn)用于各領(lǐng)域的異常診斷之中[9-11]。由于我國尾礦壩在線監(jiān)測系統(tǒng)的應(yīng)用時間較晚,目前針對尾礦壩壩體變形監(jiān)測領(lǐng)域的異常值診斷模型研究較少。因此,考慮將IF算法應(yīng)用于尾礦壩位移監(jiān)測數(shù)據(jù)的異常值診斷。此外,結(jié)合尾礦壩在線監(jiān)測系統(tǒng)的傳感器為多測點(diǎn)布設(shè)[12],所測數(shù)據(jù)之間通常存在一定關(guān)聯(lián)性,因此進(jìn)一步引入關(guān)聯(lián)規(guī)則以實現(xiàn)對噪聲數(shù)據(jù)和真實異常數(shù)據(jù)的區(qū)分。
基于此,針對尾礦壩位移監(jiān)測數(shù)據(jù)的異常值診斷,本文提出1種將關(guān)聯(lián)規(guī)則和改進(jìn)IF算法相結(jié)合的異常數(shù)據(jù)診斷模型。該模型通過量化不同測點(diǎn)監(jiān)測序列的關(guān)聯(lián)性,將關(guān)聯(lián)性較高的序列組成強(qiáng)關(guān)聯(lián)組合,結(jié)合強(qiáng)關(guān)聯(lián)組合的同步檢測結(jié)果區(qū)分噪聲數(shù)據(jù)與真實異常值,從而實現(xiàn)對尾礦壩真實異常工況的精確判斷。
監(jiān)測序列中的異常值包括噪聲和真實異常值,需對其進(jìn)行區(qū)分。由于噪聲通常由單測點(diǎn)傳感器自身因素引起,因此噪聲類的異常值僅會在該測點(diǎn)的監(jiān)測數(shù)據(jù)中體現(xiàn);而因環(huán)境等因素導(dǎo)致的壩體性態(tài)的真實變化(如壩體形變)會在具有強(qiáng)相關(guān)性的多條監(jiān)測序列中同步體現(xiàn)。基于此,對于多個測點(diǎn)的數(shù)據(jù)監(jiān)測序列,通過計算各序列間的數(shù)據(jù)關(guān)聯(lián)性,并將具有強(qiáng)關(guān)聯(lián)性的序列組成強(qiáng)關(guān)聯(lián)序列組,后續(xù)檢測異常值時結(jié)合強(qiáng)關(guān)聯(lián)序列組的同步檢測結(jié)果可實現(xiàn)噪聲和真實異常值的區(qū)分。
尾礦壩位移監(jiān)測序列通常為等長度時間序列,以長度均為m的2組序列A,B為例,采用Apriori算法對A,B測點(diǎn)序列間的關(guān)聯(lián)度進(jìn)行量化分析。由于序列間的關(guān)聯(lián)性體現(xiàn)為同時間段內(nèi)數(shù)據(jù)變化趨勢的相似性,因此按照數(shù)據(jù)變化趨勢可將各段子序列分為“顯著上升”、“基本持平”以及“顯著下降”3類,用最小二乘線性擬合的方式得到子序列斜率k,根據(jù)斜率表征序列變化趨勢,賦予相應(yīng)的字母進(jìn)行表示。首先選用寬度為n的時間窗口對A,B序列進(jìn)行截取,得到m/n個子序列,接著對子序列數(shù)據(jù)進(jìn)行高斯平滑處理以判斷數(shù)據(jù)變化的大體趨勢,根據(jù)變化趨勢進(jìn)行符號化映射,映射規(guī)則如表1所示。
表1 符號化映射規(guī)則
完成各子序列符號化映射后,將同一時間段對應(yīng)的子序列組成1個子序列組(ai,bi),共m/n個子序列組組成1個完整事務(wù)集。Apriori算法通過對完整事務(wù)集進(jìn)行挖掘計算,根據(jù)計算各項集支持度結(jié)果找出其中的頻繁項集,再根據(jù)頻繁項集以及置信度進(jìn)一步篩選出符合要求的關(guān)聯(lián)規(guī)則。設(shè)已找出S條關(guān)聯(lián)規(guī)則(ai?bi),單條規(guī)則的支持度記Psup,置信度記為Pcof,A,B序列的關(guān)聯(lián)度和置信度Pcr(A?B),Pcf(A?B)分別根據(jù)式(1)和式(2)進(jìn)行判斷:
(1)
(2)
參考文獻(xiàn)[13]對于序列間關(guān)聯(lián)度和置信度閾值選取情況,本文閾值均選取0.5。根據(jù)計算得到關(guān)聯(lián)度和置信度均大于0.5的2組數(shù)據(jù)序列認(rèn)定為強(qiáng)關(guān)聯(lián)序列。
IF算法是1種無監(jiān)督的機(jī)器學(xué)習(xí)算法,針對異常值在數(shù)據(jù)集中呈現(xiàn)“少量”和“稀疏分布”的特性,采用分割的思想來實現(xiàn)對異常值的診斷。其基本方法是對數(shù)據(jù)集進(jìn)行不斷的分割,直到每個點(diǎn)都被孤立出來為止。異常值通常數(shù)量稀少且距離樣本中心較遠(yuǎn),相較于正常點(diǎn),會被更快孤立出來。由此,算法可通過比較數(shù)據(jù)集中各點(diǎn)被孤立時分割的次數(shù)判斷其異常程度[14],所需分割次數(shù)越少,表明該點(diǎn)的異常程度越大。IF算法的基本邏輯如圖1所示。
圖1 IF算法邏輯示意
算法定義了1個得分公式,以量化數(shù)據(jù)集中每個點(diǎn)xi的異常程度,得分定義如式(3)所示:
(3)
式中:E(h(x))為x的平均路徑長度期望,代表xi的被分割次數(shù);c(n)為標(biāo)準(zhǔn)平均路徑長度,代表標(biāo)準(zhǔn)值。
判斷標(biāo)準(zhǔn)如式(4)所示:
(4)
由式(3)可知,IF算法實現(xiàn)了對每個數(shù)據(jù)點(diǎn)異常程度的量化,然而仍存在一定缺陷,即式(4)中對于異常值的分類不夠明確。對于[0.5,1]的數(shù)據(jù)得分區(qū)間,得分越接近1,代表異常程度越大,但卻并沒有明確地給出異常點(diǎn)所對應(yīng)的準(zhǔn)確數(shù)值范圍,從而導(dǎo)致對于該區(qū)間內(nèi)點(diǎn)是否為異常點(diǎn)的判定結(jié)果通常存在一定的主觀性。因此,需要1種方法來確定“異?!边@一概念與得分區(qū)間之間的相互映射關(guān)系。
云模型(CM)是1種處理不確定性的計算方法。其中,正向云轉(zhuǎn)換和逆向云轉(zhuǎn)換能夠?qū)崿F(xiàn)知識與數(shù)據(jù)之間的不確定性認(rèn)知轉(zhuǎn)換[15],將CM與IF相結(jié)合(IF-CM)能夠確定IF算法得分與異常概念的映射關(guān)系。標(biāo)準(zhǔn)云模型如圖2所示。
圖2 標(biāo)準(zhǔn)云模型
Ex,En,He分別代表期望、熵、超熵3個數(shù)字特征值,μ(x)為隸屬度,此處可代表“正常”概念的確定程度。其中Ex在數(shù)值上等于序列樣本的均值,反映序列中大部分?jǐn)?shù)據(jù)的集中分布,根據(jù)異常點(diǎn)所具有的稀疏分布特性[16],可認(rèn)為得分處于Ex附近的點(diǎn)代表正常點(diǎn),反映“正常”的定性概念。En是定性概念隨機(jī)性的度量,可反映在論域空間可被概念接受的云滴的取值范圍,根據(jù)文獻(xiàn)[17]計算結(jié)果,位于(Ex-3En,Ex-2En)和(Ex+2En,Ex+3En)中的云滴對“正常”概念的貢獻(xiàn)度僅有4.3%,而落在此區(qū)間外的云滴對表征的定性概念幾乎無貢獻(xiàn)。由此,若將IF計算的得分作為衡量各點(diǎn)正常程度的變量,可認(rèn)為得分Ex+2En為正常概念的邊界閾值,(Ex+2En,1)區(qū)間為異常區(qū)間,落于該區(qū)間的點(diǎn)為異常點(diǎn),從而實現(xiàn)異常概念與得分之間的映射。
對于經(jīng)云模型改進(jìn)后的IF算法所檢測出的異常點(diǎn),需進(jìn)一步區(qū)分噪聲與真實異常值。結(jié)合序列關(guān)聯(lián)性分析,具體操作步驟如下:根據(jù)Apriori算法計算各待測序列的關(guān)聯(lián)度,將具有強(qiáng)關(guān)聯(lián)性的序列進(jìn)行組合。使用IF算法對各序列進(jìn)行異常值初篩,引入CM算法優(yōu)化異常值的判定結(jié)果;對于關(guān)聯(lián)性不強(qiáng)的序列,檢測結(jié)果直接認(rèn)定為真實異常值;對于強(qiáng)關(guān)聯(lián)序列組,根據(jù)檢測結(jié)果進(jìn)行進(jìn)一步判定:序列組中同時刻檢測出的異常點(diǎn)認(rèn)定為真實異常值,否則認(rèn)定為噪聲。
結(jié)合多點(diǎn)關(guān)聯(lián)性的異常數(shù)據(jù)診斷流程如圖3所示。
圖3 多點(diǎn)關(guān)聯(lián)性的異常數(shù)據(jù)診斷流程
湖北省某尾礦庫為山谷型尾礦庫,壩長146.45 m,壩頂寬5 m,壩頂標(biāo)高50 m。每級子壩高度為3 m,現(xiàn)已堆積至15期子壩,堆積標(biāo)高為95 m,總庫容達(dá)1 469.34 m3。該尾礦庫于2014年完成在線監(jiān)測系統(tǒng)的投入運(yùn)行,通過GPS技術(shù)對壩體表面位移進(jìn)行在線監(jiān)測,共布設(shè)12個監(jiān)測點(diǎn),平面布置如圖4所示。本文選取GB1,GB2,GB3測點(diǎn)于2019年第一季度的地表位移監(jiān)測數(shù)據(jù)作為樣本序列進(jìn)行模型驗證。
圖4 壩體測點(diǎn)平面分布
由于測點(diǎn)數(shù)量較多,因此僅以GB2,GB3所測序列為例進(jìn)行關(guān)聯(lián)度分析,如圖5所示。GB2,GB3原始序列如圖5(a)所示,序列長度均為400,滑動窗口寬度n設(shè)定為20,因此可截得子序列個數(shù)m/n=20,對20個子序列進(jìn)行高斯平滑處理,處理后圖像如圖5(b)所示。
圖5 GB2,GB3監(jiān)測序列
GB2,GB3同時段子序列構(gòu)成子序列組,所有子序列組構(gòu)成完整事務(wù)集。使用Apriori算法找出頻繁項集并確定關(guān)聯(lián)規(guī)則,結(jié)果如表2所示。
表2 GB2,GB3序列關(guān)聯(lián)規(guī)則計算結(jié)果
由式(1)~(2)可計算得到GB2,GB3序列的關(guān)聯(lián)度和置信度均為0.84,大于所設(shè)定的閾值0.5,因此認(rèn)為GB2,GB3序列為強(qiáng)關(guān)聯(lián)序列。
分別對該尾礦壩12個測點(diǎn)關(guān)聯(lián)性計算,結(jié)果如表3所示。
表3 某尾礦壩各測點(diǎn)序列關(guān)聯(lián)性計算結(jié)果
以GA2測點(diǎn)為基準(zhǔn)點(diǎn),位于同高程水平線方向上GB3,GD4,GF3測點(diǎn)的關(guān)聯(lián)度分別為0.81,0.62,0.54,置信度分別為0.73,0.56,0.49,根據(jù)前文判斷,GA2可分別與GB3,GD4組成強(qiáng)關(guān)聯(lián)序列。從關(guān)聯(lián)度和置信度的變化趨勢可以看到,隨著測點(diǎn)間距離的增加,關(guān)聯(lián)性逐漸下降,當(dāng)測點(diǎn)間距達(dá)到一定閾值時,可認(rèn)為2測點(diǎn)間不再具有關(guān)聯(lián)性。這說明雖然尾礦壩同高程水平線上各地表點(diǎn)位移變化存在連帶效應(yīng),但其效應(yīng)量有限,當(dāng)壩體同高程2點(diǎn)距離超過一定范圍時,則這2點(diǎn)位移變化相對獨(dú)立,在對其異常值進(jìn)行分析診斷時,應(yīng)視為2條獨(dú)立序列,不能將其進(jìn)行組合。
以GD4為基準(zhǔn)點(diǎn),位于同一垂線方向上GD3,GD2,GD1測點(diǎn)的關(guān)聯(lián)度分別為0.85,0.69,0.55,置信度分別為0.85,0.62,0.50,關(guān)聯(lián)度、置信度同樣隨著測點(diǎn)距離的增加而下降。此外,通過對不同高程相鄰測點(diǎn)關(guān)聯(lián)度的對比分析發(fā)現(xiàn),處于壩體上游位置的相鄰測點(diǎn)序列關(guān)聯(lián)度更高。例如:GD4與GD3關(guān)聯(lián)度為0.85,大于GD2與GD1的關(guān)聯(lián)度0.63。這是由于尾礦壩處于不斷的增高加載過程所致,隨著時間的推移,壩體逐漸增高,沉降中心上移,下游壩體的尾砂在自身重力以及外部荷載的影響下逐漸變得密實,其位移變化幅值小,導(dǎo)致測點(diǎn)序列關(guān)聯(lián)性不明顯。
根據(jù)上文分析計算,該尾礦壩各監(jiān)測點(diǎn)兩兩之間共可組成34組強(qiáng)關(guān)聯(lián)序列組,由于數(shù)量較多,本節(jié)選用GB1,GB2,GB3測點(diǎn)的數(shù)據(jù)序列作為樣本進(jìn)行模型驗證。在3組序列中分別設(shè)置一定數(shù)量的噪聲和真實異常值用于模擬尾礦壩傳感器監(jiān)測過程中的異常工況,分別使用IF算法和IF-CM結(jié)合算法對3條序列進(jìn)行異常值診斷,診斷結(jié)果如圖6所示。其中,GB1序列診斷結(jié)果如圖6(a)和圖6(b)所示,GB2序列診斷結(jié)果如圖6(c)和圖6(d)所示,GB3序列診斷結(jié)果如圖6(e)和圖6(f)所示。
以圖6(c)和圖6(d)為例,對于同測點(diǎn)序列診斷,IF算法和IF-CM結(jié)合算法對于序列中較為明顯的異常值都具有良好的識別效果。然而,對于波動幅度不大的部分?jǐn)?shù)據(jù),IF算法無法進(jìn)行識別,而IF-CM算法則對其體現(xiàn)出一定的識別能力,因此,當(dāng)壩體出現(xiàn)異常狀況時,使用IF-CM算法能夠更快地發(fā)現(xiàn)異常數(shù)據(jù)并報警,從而作出更為及時地響應(yīng)。
由表3可知,GB1,GB2,GB3測點(diǎn)序列兩兩之間關(guān)聯(lián)度分別為0.72,0.69,0.84,故這3點(diǎn)可組成強(qiáng)關(guān)聯(lián)序列組。由圖6(b)、圖6(d)、圖6(f)可知,從關(guān)聯(lián)性角度看,在IF-CM算法下,3條序列異常值均得到有效診斷。通過對比發(fā)現(xiàn),3條序列均在285~294處診斷出異常,因此可認(rèn)為該段序列為真實異常值,監(jiān)測系統(tǒng)需對其進(jìn)行報警;GB3序列在第145處診斷出異常點(diǎn),而GB1,GB2相應(yīng)位置未見異常,故認(rèn)為該位置異常診斷結(jié)果為噪聲,是由于GB3測點(diǎn)傳感器自身狀況等因素引起,不屬于壩體安全性事故造成,監(jiān)測系統(tǒng)不予報警;GB1序列在第92處和102處未見異常,而GB2,GB3序列在對應(yīng)位置卻都診斷為異常點(diǎn),故可判斷該位置數(shù)據(jù)應(yīng)為真實異常值,GB1序列未見異常的原因是測點(diǎn)處于壩體下游,變形不明顯而導(dǎo)致異常點(diǎn)未能得到識別,因此監(jiān)測系統(tǒng)仍然報警。
圖6 GB1,GB2,GB3測點(diǎn)異常診斷結(jié)果
1)引入改進(jìn)IF算法的異常值診斷模型對尾礦壩位移監(jiān)測數(shù)據(jù)進(jìn)行處理,構(gòu)建IF所求的定量得分與“異?!倍ㄐ愿拍畹南嗷ビ成潢P(guān)系,為異常值的判定提供明確的依據(jù)。
2)引入關(guān)聯(lián)規(guī)則實現(xiàn)對所識別的異常值中噪聲和真實異常值的區(qū)分,避免監(jiān)測系統(tǒng)出現(xiàn)對于噪聲誤報警的現(xiàn)象,提高監(jiān)測系統(tǒng)報警的準(zhǔn)確性。
3)以某尾礦壩位移監(jiān)測數(shù)據(jù)作為樣本序列進(jìn)行模型驗證,研究結(jié)果表明:基于多點(diǎn)關(guān)聯(lián)性的異常診斷模型具有良好的異常值診斷效果。
中國安全生產(chǎn)科學(xué)技術(shù)2022年6期