陳利成,陳建宏
(中南大學(xué) 資源與安全工程學(xué)院,湖南 長沙 410083)
煤與瓦斯突出是發(fā)生在煤礦井下的重大動力災(zāi)害之一,是復(fù)雜的非線性突出影響因素在失控演化過程中的災(zāi)變行為[1]。隨著采掘深度和強(qiáng)度的增加,煤與瓦斯突出事故頻發(fā),嚴(yán)重影響煤礦的安全生產(chǎn)。因此,及時、準(zhǔn)確預(yù)測煤與瓦斯突出事故,對煤礦安全生產(chǎn)具有重大現(xiàn)實(shí)意義。
國內(nèi)外研究學(xué)者針對煤與瓦斯突出預(yù)測進(jìn)行了大量研究,提出多種預(yù)測方法[2-9]。其中,李冬等[2]基于SVM,PNN和自然伽馬曲線,得到了瓦斯含量、構(gòu)造煤分布和煤層頂板巖性的參數(shù)數(shù)據(jù),組成1套綜合的突出預(yù)測方法;溫廷新等[3]使用灰色關(guān)聯(lián)和因子分析提取煤與瓦斯突出指標(biāo),通過量子遺傳算法檢索LSSVM的最優(yōu)的懲罰參數(shù)和核函數(shù)參數(shù);念其鋒等[4]建立了網(wǎng)絡(luò)分析法和聯(lián)系熵耦合的預(yù)測模型,預(yù)測結(jié)果符合工程實(shí)際,表明該方法確定指標(biāo)權(quán)重和危險性預(yù)測的合理性;張友誼等[5]基于地質(zhì)因素,構(gòu)建了煤與瓦斯突出多耦合預(yù)測模型。然而,在機(jī)器學(xué)習(xí)或模式識別領(lǐng)域中,數(shù)據(jù)集優(yōu)化帶來的分類或預(yù)測精度的提高通常會高于算法改進(jìn)帶來的提高[6]?,F(xiàn)實(shí)中煤與瓦斯突出的非事故數(shù)據(jù)很容易獲得,而事故發(fā)生后監(jiān)測設(shè)備毀壞導(dǎo)致事故數(shù)據(jù)較少且時有缺失。事故數(shù)據(jù)的稀缺導(dǎo)致建立的預(yù)測模型存在精確度低、過擬合等問題。
鑒于此,本文利用多重插補(bǔ)(Multiple Imputation,MI)和隨機(jī)森林填補(bǔ)(MissForest,MF)對煤與瓦斯突出事故數(shù)據(jù)進(jìn)行預(yù)處理,填補(bǔ)完整的數(shù)據(jù)通過SVM,ELM,RF 3種機(jī)器學(xué)習(xí)算法訓(xùn)練,預(yù)測煤與瓦斯突出事故,并將結(jié)果進(jìn)行對比分析。
數(shù)據(jù)缺失分為完全隨機(jī)缺失(MCAR)、隨機(jī)缺失(MAR)、非隨機(jī)缺失(MNAR)3種。數(shù)據(jù)完全隨機(jī)缺失和隨機(jī)缺失分別如式(1)和式(2)所示,若式(1)Xmis中的缺失數(shù)據(jù)與Xmis相關(guān)則為非隨機(jī)缺失。
P(G|X)=P(G|Xobs,Xmis)=P(G|φ)
(1)
P(G|X)=P(G|Xobs,φ)
(2)
式中:Xobs為不含缺失值的完全變量;Xmis為含有缺失值的不完全變量;G=(g1,g2,…,gn),gi=1表示X不缺失,gi=0表示數(shù)據(jù)缺失;φ為與數(shù)據(jù)集中任何變量都無關(guān)的參數(shù)。
MI是Rubin[10]基于單一插補(bǔ)的基礎(chǔ)上提出的,具體過程是通過為每個缺失值構(gòu)造1個以上的預(yù)設(shè)值,得到若干個完全數(shù)據(jù)集,對所有數(shù)據(jù)集采取同樣的處理方法,最后綜合所有處理結(jié)果,得到缺失數(shù)據(jù)的推斷值。MI步驟如圖1所示。
圖1 MI步驟Fig.1 MI steps
隨機(jī)森林(Random Forest,RF)是Breiman[11]提出的1個包含多個決策樹的分類器,其以分類回歸樹CART為基本分類器,利用Bootstrap方法重采樣,隨機(jī)產(chǎn)生N個數(shù)據(jù)集S1,S2,…,SN。根據(jù)每個數(shù)據(jù)集生成相應(yīng)的決策樹T1,T2,…,TN,在樹的每個節(jié)點(diǎn)處從M個屬性中隨機(jī)挑選m個屬性(m≤M),再根據(jù)Gini指標(biāo)選取最優(yōu)屬性進(jìn)行分支生長。每棵樹都充分生長,不進(jìn)行剪枝操作。根據(jù)生成的樹分類器對測試集X進(jìn)行預(yù)測,得到對應(yīng)的類別C1(X),C2(X),…,CN(X)。N個決策樹中得票最多的類別即測試集X所屬的類別。隨機(jī)森林算法流程如圖2所示。
圖2 隨機(jī)森林算法流程Fig.2 Process of random forest algorithm
使用RF填補(bǔ)數(shù)據(jù)的步驟如下[12]:
1)用單一插補(bǔ)或均值填補(bǔ)等方法對數(shù)據(jù)集X的所有缺失值進(jìn)行初步填補(bǔ),填補(bǔ)后的矩陣記為Xoldimp。
2)用不含缺失值的完全變量構(gòu)建隨機(jī)森林,隨機(jī)森林構(gòu)建流程如圖2所示。
3)將不完全變量作為特征變量輸入,隨機(jī)森林預(yù)測缺失值,填補(bǔ)后新的矩陣記為Xnewimp。
4)重復(fù)3),直到新的Xnewimp與上1個Xoldimp的差值首次增加。
支持向量機(jī)(SupportVector Machine,SVM)的主要思想就是在高維空間建立1個或1組分類超平面,使得不同類別的樣本點(diǎn)之間的隔離邊緣最大化。對于二分類問題可轉(zhuǎn)換成帶約束的最小值問題[13],如式(3)~(5)所示:
(3)
s.t.yi[(ωxi+b)]≥1-σi
(4)
i=1,2,…l,σi≥0
(5)
式中:ω為與超平面垂直的向量;xi為輸入樣本;yi為2個類別值;b為位移;l是樣本數(shù)。
為求解上述問題,引入拉格朗日函數(shù),如式(6)所示:
(6)
式中:αi>0,為拉格朗日乘子。
將x作非線性映射Φ:Rn→H,H為高維映射空間,最終得到的最優(yōu)分類函數(shù)如式(7)所示:
(7)
極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)作為1種新型前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比,不使用任何基于梯度的技術(shù),只對參數(shù)進(jìn)行1次調(diào)優(yōu),所以具有學(xué)習(xí)速度快、泛化性能好的優(yōu)點(diǎn)[14]。任意1個有P個隱含層節(jié)點(diǎn)的單隱含層神經(jīng)網(wǎng)絡(luò)如式(8)所示:
(8)
式中:g(x)為激活函數(shù);Wi為輸入權(quán)重;βi為輸出權(quán)重;bi為第i個單元的偏置。
(9)
用矩陣表示為Hβ=T,其中H為隱含層節(jié)點(diǎn)輸入,β為輸出權(quán)重,T為期望輸出。
Wi和bi一旦隨機(jī)確定,問題可以轉(zhuǎn)換為求解輸出權(quán)重矩陣的最小二乘解。輸出權(quán)重矩陣β=H-1T,其中H-1是H的Moore-Penrose廣義逆。
每個礦山的地質(zhì)條件不同、煤層賦存情況存在差異,煤與瓦斯突出的危險性也因此差異巨大。誘發(fā)煤與瓦斯突出的因素眾多且往往相互關(guān)聯(lián),參數(shù)的選取是預(yù)測模型的基礎(chǔ),選取的參數(shù)要具備科學(xué)性、系統(tǒng)性和易取性等。煤與瓦斯突出是能量的釋放過程,師皓宇等[15]通過對煤與瓦斯突出前后能量的分析,研究了瓦斯含量對突出的影響。研究表明:煤與瓦斯突出釋放能量值來源與路徑無關(guān),與瓦斯含量和瓦斯壓力相關(guān)。此外,瓦斯放散初速度、孔隙率、煤層堅固性系數(shù)對于突出的靈敏度較高。故選取X1瓦斯含量、X2瓦斯壓力、X3瓦斯放散初速度、X4孔隙率、X5煤層堅固性系數(shù)作為預(yù)測參數(shù)。本文選取某礦山煤與瓦斯突出數(shù)據(jù)133組,其中事故數(shù)據(jù)62組(27組包含缺失數(shù)據(jù)),非事故數(shù)據(jù)71組(不含缺失數(shù)據(jù))。部分?jǐn)?shù)據(jù)見表1。
SPSS中提供3種多重插補(bǔ)方法,分別是回歸預(yù)測法(RPM)、傾向得分法(PSM)和馬爾可夫鏈蒙特卡羅法(MCMC)。表1的數(shù)據(jù)為非單調(diào)缺失,所以采用MCMC法對缺失數(shù)據(jù)進(jìn)行填補(bǔ)[16]。使用R中的MissForest包對數(shù)據(jù)進(jìn)行處理,迭代5次后,OOBerror收斂于2.14%,得到填補(bǔ)后的矩陣。為展示數(shù)據(jù)填補(bǔ)效果,將MI和MissForest填補(bǔ)后的數(shù)據(jù)的若干參數(shù)與原始數(shù)據(jù)(Raw Data,RD)進(jìn)行比較,比較結(jié)果見表2。
表1 煤與瓦斯突出數(shù)據(jù)集Table 1 Data sets of coal and gas outburst
表2 填補(bǔ)前后的平均值與標(biāo)準(zhǔn)差Table 2 Mean values and standard deviation before and after imputation
由表2可知,2種填補(bǔ)方法的瓦斯放散初速度平均值與原始數(shù)據(jù)差異較大,而孔隙率和煤層堅固性系數(shù)的差異幾乎可以忽略;在標(biāo)準(zhǔn)差方面,RF填補(bǔ)的3種缺失參數(shù)均小于原始數(shù)據(jù),且缺失數(shù)據(jù)越少,標(biāo)準(zhǔn)差的變化越明顯,MI對標(biāo)準(zhǔn)差的影響低于RF填補(bǔ)。
為保證3種機(jī)器學(xué)習(xí)算法對煤與瓦斯突出預(yù)測的準(zhǔn)確率達(dá)到最高,需要對相應(yīng)參數(shù)進(jìn)行調(diào)整。RF中決策樹棵數(shù)影響模型的泛化性能,一般來說,隨機(jī)森林中決策樹的棵數(shù)越多,模型的預(yù)測效果越好,運(yùn)行速度也相應(yīng)變慢,此外決策樹棵數(shù)越多,模型越容易過擬合。因此在保證模型預(yù)測效果的同時,應(yīng)選擇盡量少的決策樹棵數(shù)。具體步驟如下:設(shè)定決策樹棵數(shù)為50~1 000之間,步長50,每個模型運(yùn)行100次,預(yù)測準(zhǔn)確率取均值,模型在不同決策樹棵數(shù)下的預(yù)測準(zhǔn)確率如圖3所示。決策樹棵數(shù)為200~300,400~500之間時,預(yù)測準(zhǔn)確率較高,綜合考慮預(yù)測準(zhǔn)確率和擬合效果,最終確定決策樹棵數(shù)為250。
圖3 隨機(jī)森林中決策樹棵數(shù)對性能的影響Fig.3 Influence of number of decision tree on performance in random forest
SVM中需要調(diào)節(jié)的參數(shù)主要是懲罰參數(shù)c和核函數(shù)參數(shù)g。目前最常用的方法是讓c和g在一定范圍內(nèi)取值,通過交叉驗(yàn)證(CrossValidation,CV),找到該范圍內(nèi)最佳的c和g。設(shè)定c和g范圍為-10~10之間,通過K折交叉驗(yàn)證,得到最佳的c為9.765 6×10-4,最佳的g為9.765 6×10-4。
ELM只需確定隱含層神經(jīng)元個數(shù)和激活函數(shù),就可以完成建模。將隱含層神經(jīng)元個數(shù)設(shè)為5~200之間,步長為5,分別在sigmoid,sin,hardlim3種激活函數(shù)下運(yùn)行,預(yù)測準(zhǔn)確率如圖4所示。隱含層神經(jīng)元個數(shù)對預(yù)測性能的影響較大,但并非神經(jīng)元個數(shù)越多越好??紤]到預(yù)測準(zhǔn)確率及避免過擬合的情況,確定激活函數(shù)為sigmoid,隱含層神經(jīng)元個數(shù)為15。
圖4 不同激活函數(shù)下隱含層神經(jīng)個數(shù)對性能的影響Fig.4 Influence of number of hidden layer neurons on performance under different activation functions
事故數(shù)據(jù)總計62組,其中參數(shù)完整的計35組,為驗(yàn)證2種數(shù)據(jù)填補(bǔ)算法的有效性,將填補(bǔ)后的數(shù)據(jù)和原始數(shù)據(jù)分別輸入3種機(jī)器學(xué)習(xí)算法進(jìn)行測試,即構(gòu)建9種煤與瓦斯突出預(yù)測模型。對填補(bǔ)前后的數(shù)據(jù)集進(jìn)行歸一化處理,消除量綱的影響。在Matlab中使用randperm函數(shù)分別構(gòu)建填補(bǔ)前后數(shù)據(jù)集。填補(bǔ)前,從非事故數(shù)據(jù)集中隨機(jī)選取53組,事故數(shù)據(jù)集中隨機(jī)選取26組,總計79組作為訓(xùn)練集,剩余27組作為測試集;填補(bǔ)后,從非事故數(shù)據(jù)集中隨機(jī)選取54組,事故數(shù)據(jù)集中隨機(jī)抽取48組,總計102組數(shù)據(jù)作為訓(xùn)練集,剩余31組數(shù)據(jù)作為測試集。數(shù)據(jù)集的差異會影響預(yù)測結(jié)果,為減少預(yù)測誤差,每種模型運(yùn)行100次,對預(yù)測結(jié)果取均值,最終結(jié)果見表3。
表3 模型評價結(jié)果Table 3 Results of models evaluation
本文采用總體準(zhǔn)確率(Overall Accuracy,OA)、局部準(zhǔn)確率(Local Accuracy,LA)和運(yùn)行時間(T)作為模型的性能評價指標(biāo)[17]。
1)OA:測試集中分類正確的樣本數(shù)占總樣本數(shù)的比例,體現(xiàn)模型的綜合性能,如式(10)所示:
(10)
式中:C為分類正確的樣本數(shù);T為測試集總樣本數(shù)。
2)LA:測試集中事故樣本和非事故樣本中正確分類樣本數(shù)所占的比例。LA(0)為非事故樣本中正確分類樣本數(shù)所占的比例,LA(1)事故樣本中正確分類樣本數(shù)所占的比例,體現(xiàn)了模型對事故數(shù)據(jù)和非事故數(shù)據(jù)的預(yù)測精度,,如式(11)所示:
(11)
式中:C(i)為分類正確的事故數(shù)據(jù)或非事故數(shù)據(jù)個數(shù);T(i)為事故數(shù)據(jù)或非事故數(shù)據(jù)個數(shù),i=0時為非事故數(shù)據(jù),i=1時為事故數(shù)據(jù)。
3)T:模型的運(yùn)算速度,T越小,模型運(yùn)算速度越快,運(yùn)行成本就越低。
不同模型下的評價參數(shù)如圖5所示。
由圖5可知,OA最高為MF-RF模型,最低為RD-SVM模型;從數(shù)據(jù)處理方法來看,經(jīng)MI和MF處理后的數(shù)據(jù),總體正確率高于原始數(shù)據(jù);從預(yù)測算法來看,OA從高到低分別為:RF>ELM>SVM,即使用RF預(yù)測煤與瓦斯突出的總體正確率最高,其次是ELM,最后是SVM;MI對OA的提升率為0.98%~1.11%,MF對OA的提升率為5.13%~7.50%。各模型的OA從高到低分別為:MF-RF>MI-RF>MF-ELM>MF-SVM>RD-RF>MI-ELM>RD-ELM>MI-SVM>RD-SVM。
文獻(xiàn)[16]中使用MI-SVM模型,其OA為88.87%,與本文得到的結(jié)果相近,而MF填補(bǔ)后的數(shù)據(jù),其預(yù)測準(zhǔn)確率都要高于文獻(xiàn)[16]中所得結(jié)果,說明在預(yù)測煤與瓦斯突出事故中,MF的填補(bǔ)效果要高于MI。
在LA中,較為重要的是LA(1),因?yàn)轭A(yù)測煤與瓦斯是否突出的目的是要控制事故,減少事故造成的人員傷亡和財產(chǎn)損失。LA(1)最高的為MF-RF模型,最低的為RD-SVM模型;由表3可知,MI-RF模型和MF-RF模型的LA(1)大于LA(0),說明通過數(shù)據(jù)填補(bǔ)后,RF算法對于煤與瓦斯突出預(yù)測的敏感度提高,對于事故的預(yù)測準(zhǔn)確率甚至高于對非事故的預(yù)測準(zhǔn)確率。
從運(yùn)算時間來看,由于填補(bǔ)后的數(shù)據(jù)集增大,運(yùn)算時間相應(yīng)增加,且MI處理后的T大于MF處理后的T;從預(yù)測算法看,T從高到低分別是:RF>SVM>ELM。
綜上所述,經(jīng)過數(shù)據(jù)填補(bǔ),煤與瓦斯突出的事故數(shù)據(jù)增加,整體上提升預(yù)測結(jié)果的準(zhǔn)確率,但運(yùn)行時間也相應(yīng)增加。MissForest總體準(zhǔn)確率高于MI,運(yùn)行時間低于MI,故MissForest效果更好。
1)利用數(shù)據(jù)填補(bǔ)算法MI和MF處理煤與瓦斯突出事故數(shù)據(jù),擴(kuò)大機(jī)器學(xué)習(xí)的訓(xùn)練集,填補(bǔ)后的數(shù)據(jù)標(biāo)準(zhǔn)差減小,數(shù)據(jù)穩(wěn)定性增強(qiáng)。
2)隨著數(shù)據(jù)填補(bǔ)后預(yù)測準(zhǔn)確率提升,運(yùn)行時間也相應(yīng)增加。MissForest總體準(zhǔn)確率更高,運(yùn)行時間更短,其數(shù)據(jù)填補(bǔ)效果好于MI。
3)使用OA,LA,T指標(biāo)評價模型性能,從預(yù)測算法上看,對煤與瓦斯突出預(yù)測的OA從高到低分別為RF>ELM>SVM,T從低到高分別為ELM
中國安全生產(chǎn)科學(xué)技術(shù)2022年9期