華星月,邵良杉
(1.遼寧工程技術(shù)大學 系統(tǒng)工程研究所,遼寧 葫蘆島 125105;2.遼寧理工學院,遼寧 錦州 121000)
礦井突水是威脅煤礦安全生產(chǎn)的重大災(zāi)害之一。據(jù)統(tǒng)計,“十二五”期間,重大以上水害事故占全國煤礦同類事故起數(shù)和死亡人數(shù)的23.6%和19.2%,給國家財產(chǎn)和人民生命造成重大損失[1]。因此,快速識別水源類型并采取積極有效措施具有重要的現(xiàn)實意義。
目前,學者提出了眾多判別水源方法,包括激光誘導熒光技術(shù)[2]、水溫水位法[3]、水化學分析法[4]和數(shù)理統(tǒng)計分析法[5]等。隨著研究的不斷深入和機器學習的發(fā)展,眾多學者以此為基礎(chǔ)建立水源識別模型,提高水源識別的精準度。陳紹杰等[6]將水化學分析法與主成分分析-殘差分析(PCA-RA)相結(jié)合確定梁家煤礦礦井水的補給來源;王甜甜等[7]基于動態(tài)權(quán)-集對分析建立識別模型,削弱人為因素并確定合理主客觀權(quán)重比例;周孟然等[8]為識別不均勻分組的突水水源熒光光譜,將飛蛾撲火(MFO)算法與譜聚類(SC)相結(jié)合建立模型;紀卓辰等[9]經(jīng)PCA降維,代入Logistic 回歸建立納林河礦區(qū)水源判別模型,進一步提高模型速度;邵良杉等[10]將改進鯨魚優(yōu)化算法(IWOA)與混合核極限學習機(HKELM)結(jié)合建立識別模型;侯恩科等[11]利用核主成分(KPCA)提取特征,建立KPCA-APSO-ELM 的礦井突水水源判別模型,進一步提高模型的精準度。上述研究一定程度上推動礦井突水水源識別技術(shù)的發(fā)展,提升水源識別的準確率,但是仍存在局限性;如譜聚類對數(shù)據(jù)樣本要求較高,結(jié)果不穩(wěn)定;極限學習機未考慮結(jié)構(gòu)化風險,易陷入局部最值。
基于此,對突水水源樣本數(shù)據(jù)進行核主成分分析(Kernel Principal Component Analysis, KPCA),消減因素之間的相關(guān)性。利用灰狼優(yōu)化算法(Grey Wolf Optimizer,GWO)對支持向量機(Support Vector Machine, SVM)的懲罰參數(shù)與核參數(shù)進行尋優(yōu),建立KPCA-GWO-SVM 的礦井突水水源識別模型,以快速識別礦井突水水源的類型。
核主成分分析(KPCA)是對主成分分析(PCA)的一種非線性拓展,其基本思想是:通過核函數(shù)將在低維空間中線性不可分的數(shù)據(jù),通過映射函數(shù)將其投射到更高維的空間中去,使之在高維空間中線性可分。KPCA 的具體步驟參見文獻[12]。針對因素之間的相關(guān)性和數(shù)據(jù)冗余問題,核主成分分析能有效進行降維。
灰狼優(yōu)化算法(GWO)是由SeyedaliMirjalili 等[13]模擬自然界中灰狼群體的社會等級機制和捕獵行為而衍生出的1 種新型群體智能優(yōu)化算法,主要包括包圍、狩獵和攻擊3 個階段?;依亲裱瓏栏竦牡燃夡w系,第1 層是狼群中的頭狼記為α,負責對捕食、棲息、作息時間等活動做出決策;第2 層記為β 狼,服從并協(xié)助α 做出決策;第3 層記為δ 狼,服從α和β,同時支配剩余層級的狼;第4 層記為ω 狼,是等級體系的基礎(chǔ)?;依欠N群等級體系如圖1。
圖1 灰狼種群等級體系Fig.1 Graywolf population hierarchy
在算法進化中,α、β 和δ 分別為歷史最優(yōu)解、次優(yōu)解、第3 最優(yōu)解,負責定位獵物的位置,并引導其他個體ω 完成靠近、包圍和攻擊等行為,最終達到捕食獵物的目的?;依撬阉鳙C物時會逐漸地接近獵物并包圍它,該行為的數(shù)學模型如下:
式中:X 為灰狼位置向量;Xα、Xβ、Xδ分別為當前種群中α、β、δ 的位置向量;X1、X2、X3分別為灰狼向α、β、δ 移動的位置向量;Dα、Dβ、Dδ分別為當前候選灰狼與最優(yōu)3 狼之間的距離;X(t+1)為移動終點;C1、C2、C3為隨機向量;A1、A2、A3為系數(shù)向量。
支持向量機(SVM)是基于統(tǒng)計學習原理的監(jiān)督學習分類方法,能提供較好的泛化性能和解決高維數(shù)、小樣本的問題。其基本思想是:通過某種事先選擇的非線性映射將輸入向量映射到一個高位特征空間中,在這個空間中構(gòu)造最優(yōu)分類超平面,從而使得樣本之間的分離界限達到最大。SVM 的具體原理參見文獻[14]。
針對因素之間的相關(guān)性和數(shù)據(jù)冗余問題,核主成分分析能有效進行降維?;依莾?yōu)化算法(GWO)具有較強的收斂性能且參數(shù)少,而支持向量機(SVM)的懲罰參數(shù)Cp與核參數(shù)g 很大程度上影響訓練集的學習能力及泛化能力。首先,在迭代過程中保留當前的3 個最優(yōu)解α、β、δ,對種群進行社會等級分層,為算法的全局尋優(yōu)能力夯實基礎(chǔ);其次,計算灰狼與獵物的距離,接近并包圍獵物,不斷更新最優(yōu)解,集中搜尋使得算法盡快找到全局最優(yōu)解。以平均均方誤差MSE 作為優(yōu)化的目標函數(shù)值,驗證算法的魯棒性。鑒于此,采用灰狼優(yōu)化算法尋求最優(yōu)解確定支持向量機的參數(shù),建立基于KPCA-GWOSVM 的水源判別模型,KPCA-GWO-SVM 的水源判別模型流程圖如圖2。
圖2 KPCA-GWO-SVM 的水源判別模型流程圖Fig.2 Flow chart of KPCA-GWO-SVM water source discrimination model
唐山開灤趙各莊礦煤系地層為石炭—二疊系,共7 層可采煤層及局部可采煤層。
礦區(qū)的含水層由上到下為:第四紀沖積層空隙承壓含水層、A 層以上頂板砂巖裂隙承壓含水層、5#煤層-頂板砂巖裂隙承壓含水層、5#~12#煤層砂巖裂隙承壓含水層、12#~14#煤層砂巖裂隙承壓含水層、14#煤層~唐山灰?guī)r砂巖裂隙承壓含水層和奧陶系巖溶承壓含水層。其中,第四紀沖積層空隙承壓含水層以細沙、中砂為主,厚度差異大,水化學類型為HCO3-Ca;煤系地層砂巖裂隙承壓含水層的水化學類型主要為HCO3-Na,pH 值在7.04~9.00 之間;奧陶系巖溶承壓含水層主要位于古巖溶發(fā)育層及構(gòu)造巖溶裂隙,水化學類型為HCO3-Ca[15]。
以趙各莊礦為研究對象,選取6 種離子作為水源識別的判別指標,分別為:Na+(X1)、Ca2+(X2)、Mg2+(X3)、Cl-(X4)、SO42-(X5)和HCO3-(X6)。根 據(jù) 文 獻[15]對趙各莊礦1959—2016 年突水類型的分析,選取老空水、奧灰水、13#煤層砂巖裂縫水、12#煤層砂巖裂縫水4 種水樣類型,共計67 個樣本進行訓練與測試。其中老空水記為I,奧灰水記為II,13#煤層砂巖裂縫水記為III,12#煤層砂巖裂縫水記為IV。趙各莊礦樣本數(shù)據(jù)見表1。
表1 趙各莊礦樣本數(shù)據(jù)Table 1 Zhaogezhuang Mine samples data
針對礦井突水原始數(shù)據(jù)差異較大的問題,進行歸一化處理,將原始數(shù)據(jù)調(diào)整到[0,1]之間。隨后借用SPSS20 進行相關(guān)性分析,指標相關(guān)系數(shù)表見表2。
由表2 可知:6 種離子之間存在顯著程度的相關(guān),其中X5與X6、X4與X5、X4與X6、X2與X3的相關(guān)系數(shù)分別為-0.987、-0.860、0.800、-0.731,說明存在數(shù)據(jù)冗余,需要對判別指標進行降維。
表2 指標相關(guān)系數(shù)表Table 2 Index correlation coefficient table
利用MATLAB2016 對原始數(shù)據(jù)進行KPCA 降維,選取標準為累計方差解釋大于85%,最終提取3個主成分,分別記為Y1、Y2、Y3(Y4~Y6忽略),對應(yīng)的解釋方差分別為56.96%、24.16%和15.49%,累計解釋方差為96.61%,表明提取的3 個主成分可以反映原始6 個離子指標的絕大部分信息。用Excel 繪制特征解釋度累計占比圖,KPCA 降維后的數(shù)據(jù)見表3,解釋度累計占比圖如圖3。
表3 KPCA 降維后的數(shù)據(jù)Table 3 KPCA dimensionality reduction data
圖3 解釋度累計占比圖Fig.3 Chart of cumulative percentage of interpretation degree
在礦井突水水源識別模型中,將經(jīng)由核主成分分析得到的3 個主成分Y1、Y2、Y3作為輸入向量,水樣類型為模型輸出,隨機選取總樣本量70%為訓練集(共47 組),30%作為預測集(共20 組)。利用MATLAB 編寫相應(yīng)程序代碼,代入數(shù)據(jù),由此建立基于KPCA-GWO-SVM 的礦井突水水源識別模型并對測試集進行預測。同時,將未經(jīng)KPCA 處理的歸一化數(shù)據(jù)代入GWO-SVM 模型并對測試集進行預測,與經(jīng)過KPCA 數(shù)據(jù)預處理數(shù)據(jù)的KPCA-GWOLSSVM 模型預測結(jié)果進行對比。
為進一步驗證基于KPCA-GWO-SVM 的礦井突水水源識別模型的精確度和可靠性,在同一個主程序中將KPCA 降維后的數(shù)據(jù)分別帶入建立KPCA-PSO-SVM 模型、KPCA-WOA-SVM 模型和KPCA-SVM 模型,保證對同一測試集進行預測,所得結(jié)果與KPCA-GWO-SVM 模型結(jié)果進行對比。以平均均方誤差MSE 作為優(yōu)化的目標函數(shù)值。模型相關(guān)參數(shù)表見表4。
表4 模型相關(guān)參數(shù)表Table 4 Model related parameters table
支持向量機的參數(shù)尋優(yōu)如圖4。
由圖4(a)和圖4(b)可知:在進化代數(shù)不到5 次時,KPCA-GWO-SVM 已搜尋到最佳適應(yīng)度值,此時的最優(yōu)懲罰參數(shù)Cp=1.088 5,核參數(shù)g=46.297 2;而未經(jīng)KPCA 降維處理的GWO-SVM 尋優(yōu)速度較慢,進化代數(shù)20 次左右時才獲得最優(yōu)解,且最佳適應(yīng)度值較低,分類準確率不高。此時對于隨機選取的20個測試樣本,KPCA-GWO-SVM 的誤判個數(shù)為0,分類準確率達到100%,而GWO-SVM 有2 個誤判,準確率為90%。由此可見,與GWO-SVM 模型相比,KPCA-GWO-SVM 模型的分類準確率提高了10%。因此,與未經(jīng)預處理的數(shù)據(jù)相比,用KPCA 對冗余數(shù)據(jù)降維,再代入GWO-SVM 模型,能加快模型的尋優(yōu)速度,是有效而必要的。
圖4 支持向量機的參數(shù)尋優(yōu)Fig.4 Parameters optimization of support vector machine
為進一步驗證KPCA-GWO-SVM 模型的優(yōu)越性,將其結(jié)果與KPCA-PSO-SVM 模型、KPCAWOA-SVM 模型和KPCA-SVM 模型進行對比,不同水源判別模型預測結(jié)果對比見表5。
表5 不同水源判別模型預測結(jié)果對比Table 5 Comparison of prediction results of different water source discriminant models
結(jié)果表明:模型的誤判率為0,測試集準確率為100%;KPCA-PSO-SVM 模型的誤判率為1/5,測試集準確率為80%;KPCA-WOA-SVM 模型的誤判率為1/20,測試集準確率為95%;KPCA-SVM 模型的誤判率為1/10,測試集準確率為90%;此時KPCAGWO-SVM 模型的平均均方誤差為0,KPCA-PSOSVM 模型的平均均方誤差為0.2,KPCA-WOA-SVM模型的平均均方誤差為0.05,KPCA-SVM 模型的平均均方誤差為0.1,因此,模型的均方誤差最小,表明所提出的算法具有較好的魯棒性。由此可見,KPCA-GWO-SVM 突水水源識別模型預測準確率優(yōu)于其他模型,能準確有效地應(yīng)用于突水水源類型識別問題。
1)通過對趙各莊礦6 種離子指標的分析,各離子指標間存在顯著程度的相關(guān)。利用核主成分分析對冗余數(shù)據(jù)進行降維處理,將經(jīng)KPCA 處理后的數(shù)據(jù)代入GWO-SVM 模型,能有效提高水源識別模型的速度和準確率。
2)在KPCA 的基礎(chǔ)上,運用灰狼優(yōu)化算法(GWO)對支持向量機(SVM)的懲罰參數(shù)Cp、核參數(shù)g 進行尋優(yōu),建立KPCA-GWO-SVM 水源識別模型。與其他模型相比,KPCA-GWO-SVM 模型具有更高的準確率。