李彥民,周晨陽,李鳳蓮
(1.太原理工大學 信息與計算機學院, 山西 晉中 030600;2.太原理工大學 大數(shù)據(jù)學院, 山西 晉中 030600)
在煤礦開采活動中,水害是僅次于瓦斯突出的第二大煤礦災(zāi)害[1]。我國華北煤田大多屬于帶壓開采,由帶壓開采導(dǎo)致的煤層底板突水成為當前一種主要的突水形式。開展煤層底板突水預(yù)測研究,對降低煤礦水害事故發(fā)生、提高煤礦安全生產(chǎn)效率具有重要意義。
在進行煤層底板突水預(yù)測時,水害狀況一般分為安全和突水2種狀態(tài),因此,煤層底板突水可被看作為二分類問題。預(yù)測結(jié)果如果將實際安全的情況誤判為突水,所付出的代價是引起人們的注意,積極采取應(yīng)對措施。而一旦將可能出現(xiàn)突水的危險情況誤判為安全狀態(tài),將會直接造成煤礦企業(yè)的經(jīng)濟損失,甚至會有人員傷亡。在采集到的煤礦突水數(shù)據(jù)中,安全狀態(tài)下的煤層水文地質(zhì)信息數(shù)據(jù)遠多于突水狀態(tài)下的水文數(shù)據(jù),煤礦突水數(shù)據(jù)具有非平衡數(shù)據(jù)集的特點。其中安全狀態(tài)下采集的煤層水文信息數(shù)據(jù)占多數(shù),稱為多數(shù)類(或者負類)數(shù)據(jù);突水狀態(tài)下采集的水文地質(zhì)信息數(shù)據(jù)占少數(shù),稱為少數(shù)類(或者正類)數(shù)據(jù)。而少數(shù)類誤判所帶來的損失遠高于多數(shù)類誤判所帶來的損失。因此,如何提高突水狀況時少數(shù)類數(shù)據(jù)的預(yù)測準確率是本文研究重點。
構(gòu)建煤層底板突水預(yù)測模型常用的方法有基于底板突水機理的方法及基于智能信息處理的方法?;诘装逋凰畽C理的方法有尖點突變模型[2-3]、突水極限水壓值法[4]、脆弱性評價模型[5]及突水系數(shù)法等。尖點突變模型主要從突變理論角度探討煤層底板突水的機制。突水極限水壓值法適合深部煤層開采的突水預(yù)測。脆弱性評價模型融合了新型煤層底板主控指標體系、GIS技術(shù)和多元信息理論,需要空間數(shù)據(jù)及屬性數(shù)據(jù)等多種數(shù)據(jù)支持。突水系數(shù)法因操作簡單易行而被廣泛應(yīng)用,并列入《煤礦防治水規(guī)定》,但在隔水層性質(zhì)這一方面,該方法僅僅考慮了隔水層厚度,對于深部煤層開采時的底板突水危險性評價存在局限性和不足。
隨著工業(yè)與信息化的高度融合,物聯(lián)網(wǎng)技術(shù)開始用于煤礦生產(chǎn)現(xiàn)場突水安全監(jiān)測,基于物聯(lián)網(wǎng)采集的各種傳感器數(shù)據(jù),借助機器學習及群智能等智能信息處理方法進行煤層底板突水預(yù)測研究越來越多[6-8]。文獻[8]將粒子群優(yōu)化(Particle Swarm Optimization,PSO)算法用于優(yōu)化支持向量機(Support Vector Machine,SVM)分類器,建立了基于PSO_SVM-Adaboost 算法的煤層底板突水預(yù)測模型。文獻[9]提出了基于遺傳算法的支持向量回歸模型,并將其用于煤層底板突水量的預(yù)測。文獻[10]采用分類回歸樹(Classification and Regression Tree,CART)進行煤層底板突水預(yù)測模型構(gòu)建研究。文獻[11]建立了基于PCA(Principal Component Analysis,主成分分析)_Fuzzy_RF(Random Forest, 隨機森林) 的煤層底板突水預(yù)測模型。文獻[12]建立了基于長短時記憶(Long Short Term Mermory,LSTM)神經(jīng)網(wǎng)絡(luò)的突水預(yù)測模型。因煤層底板突水數(shù)據(jù)具有非平衡特點[13],上述預(yù)測模型用于煤層底板突水預(yù)測時,預(yù)測結(jié)果常呈現(xiàn)“一邊倒”現(xiàn)象,即安全狀況的預(yù)測準確率明顯高于突水狀況的預(yù)測準確率,使得突水預(yù)測模型的整體預(yù)測性能大大降低。
鑒此,本文提出了一種基于代價敏感理論的多決策樹突水預(yù)測模型。該模型中,每個決策樹選用不同的突水影響因素作為單決策樹的根節(jié)點,以避免單決策樹由于根節(jié)點突水影響因素選擇不當所導(dǎo)致的預(yù)測準確率偏低的缺陷。在單決策樹節(jié)點屬性選擇準則方面,融合了代價敏感理論,從而加重了對突水數(shù)據(jù)(少數(shù)類)誤判的懲罰力度,提高了突水狀況的預(yù)測準確率。實驗結(jié)果表明,本文所提出的突水預(yù)測模型在真實正類率、負類率及準確率等性能方面均優(yōu)于單決策樹突水預(yù)測模型。
煤層底板突水問題是一個復(fù)雜的非線性動力學問題,一般認為礦壓、地質(zhì)構(gòu)造、隔水層和含水層為導(dǎo)致煤層底板突水的主要影響因素[14-16]。其中隔水層的完整性、厚度和含水層的富水性是導(dǎo)致煤層底板突水最重要的因素。
含水層的富水性主要通過單位涌水量進行評判,單位涌水量越大,含水層的富水性越強,同時煤層的突水系數(shù)越大,發(fā)生突水的概率也就越大。隔水層在底板突水時能起到抑制作用,隔水層的厚度及其所在巖層巖石的力學性質(zhì)(抗壓、抗拉及抗剪)決定其阻水能力。
礦井所處的地質(zhì)構(gòu)造是導(dǎo)致煤層底板突水的另一個重要因素。地質(zhì)構(gòu)造的類型大體分為褶皺、斷層和陷落柱3種,這些地質(zhì)構(gòu)造為地下水提供了一定的存儲空間,并為地下水的流動提供了天然通道。研究表明,斷層附近易發(fā)生底板突水[17]。
另外,工作面長度、開采速度、開采厚度及開采深度等也是導(dǎo)致煤層底板突水的危險因素。本文結(jié)合實驗工作面情況,確定了煤層底板突水影響因素主要包括含水層厚度、有效隔水層厚度、隔水層承受水壓和埋深,同時也考慮了斷層、陷落柱對隔水層的破壞。若有斷層、陷落柱,且富水性強,發(fā)生突水的概率會極大增加。構(gòu)建突水預(yù)測模型時,根據(jù)不同礦井的實際地質(zhì)構(gòu)造情況,可進行突水影響因素的調(diào)整。
本文所用數(shù)據(jù)為煤礦水文地質(zhì)數(shù)據(jù),各數(shù)據(jù)對應(yīng)的突水影響因素構(gòu)成了屬性信息;數(shù)據(jù)類別標簽分為“突水”及“安全”2種狀況,數(shù)據(jù)按照五折交叉驗證方式被分為訓練集和測試集。構(gòu)建多決策樹突水預(yù)測模型時,首先基于訓練集進行代價敏感單決策樹突水預(yù)測模型的構(gòu)建,各個單決策樹采用不同突水影響因素作為根節(jié)點屬性信息,根據(jù)構(gòu)建的單決策樹突水預(yù)測模型得到其規(guī)則集,該規(guī)則集形成了各個單決策樹突水預(yù)測模型,將所有單決策樹突水預(yù)測模型規(guī)則集合并,得到多決策樹突水預(yù)測模型規(guī)則集。對突水數(shù)據(jù)進行預(yù)測時,采用多決策樹突水預(yù)測模型規(guī)則集得到多個預(yù)測結(jié)果,最后采用少數(shù)服從多數(shù)原則,基于投票法得到最終的預(yù)測結(jié)果。
單決策樹采用CART算法,并將Gini指標和代價敏感系數(shù)融合作為節(jié)點屬性選擇準則,以加重對突水危險狀態(tài)的懲罰力度,提高突水狀況下突水預(yù)測模型的預(yù)測準確率。
本文在構(gòu)建基于代價敏感理論的單決策樹突水預(yù)測模型時,分裂屬性選擇準則[18]AS(Attribute Selection)定義如下:
AS=(2Gini(D)-1)C(ak)
(1)
式中:Gini(D) 表示訓練數(shù)據(jù)集D根據(jù)所選突水因素ak分裂后的Gini值,其值越小,突水預(yù)測結(jié)果越精確,ak隸屬于屬性集A={a1,a2,…,an},A共包括n個突水影響因素;C(ak)表示突水數(shù)據(jù)集D根據(jù)某一突水因素ak分裂后得到的誤分類代價。
C(ak)[18-19]計算式為
C(ak)=pPCP+pNCN
(2)
式中:pP,pN分別為在分裂節(jié)點處數(shù)據(jù)被判定為少數(shù)類和多數(shù)類的概率,P為突水狀態(tài),N為安全狀態(tài);CP和CN分別為把節(jié)點的樣本判定為少數(shù)類和多數(shù)類的代價。
CP=FPCFP+TPCTP
(3)
CN=TNCTN+FNCFN
(4)
式中:FP為把實際安全數(shù)據(jù)誤判為“突水”的樣本數(shù)量;CFP為把實際安全數(shù)據(jù)錯誤預(yù)測為“突水”的代價參數(shù);TP為把實際突水數(shù)據(jù)正確預(yù)測為“突水”的樣本數(shù)量;CTP為把實際突水數(shù)據(jù)正確預(yù)測為“突水”的代價參數(shù);TN為把實際安全數(shù)據(jù)正確地預(yù)測為“安全”的樣本數(shù)量;CTN為把實際安全數(shù)據(jù)正確預(yù)測為“安全”的代價參數(shù),本文取CTN=CTP=0;FN為把實際突水數(shù)據(jù)誤判為“安全”的樣本數(shù)量;CFN為把實際突水數(shù)據(jù)錯誤預(yù)測為“安全”的代價參數(shù),本文取CFN>CFP。
基于代價敏感理論的單決策樹突水預(yù)測模型構(gòu)建流程如下:
輸入:訓練集中的煤礦水文地質(zhì)數(shù)據(jù)D和屬性集A。
輸出:突水預(yù)測模型規(guī)則集。
(1) 初始化:創(chuàng)建根節(jié)點root;將所有屬性作為候選屬性A′集合。
(2) 生成節(jié)點node。
(3) 如果訓練集為空,在返回節(jié)點標記為Failure。
(4) 如果D中所有樣本都屬于同一個類別,則以該類別標記節(jié)點node上所有的數(shù)據(jù)。
(5) 如果候選屬性A′為空或者D中樣本在A′上取值相同,則將節(jié)點node標記為葉節(jié)點,類別按照多數(shù)樣本的類別標記,訓練結(jié)束。
(6) 根據(jù)式(1)計算所有候選屬性A′的AS值,將最小AS值對應(yīng)的突水影響因素作為當前節(jié)點分裂屬性,并將該屬性從候選屬性A′中去除。
(7) 對數(shù)據(jù)集中的數(shù)據(jù)依據(jù)屬性進行分裂,得到子節(jié)點;若子節(jié)點中所有數(shù)據(jù)屬于同一類,則該子節(jié)點變?yōu)槿~節(jié)點,循環(huán)結(jié)束,否則跳至步驟(6)。
(8) 根據(jù)建立的決策樹得到突水預(yù)測模型規(guī)則集。
在單決策樹突水預(yù)測模型構(gòu)建過程中,傳統(tǒng)根節(jié)點的選擇采用的是信息增益最大化的方式,這種方式可能導(dǎo)致所選擇的根節(jié)點屬性并不理想,從而影響最終的突水預(yù)測結(jié)果。為了減少由于單決策樹根節(jié)點屬性信息選擇不當造成的誤判概率,本文進一步給出了采用每一個突水影響因素作為根節(jié)點建立多決策樹突水預(yù)測模型的構(gòu)建思路,最終的突水預(yù)測結(jié)果通過對多決策樹中包含的n個單決策樹結(jié)果采用投票法得到,以提高突水預(yù)測模型預(yù)測性能。
基于不同根節(jié)點信息的代價敏感多決策樹煤層底板突水預(yù)測模型構(gòu)建流程如圖1所示。其中的訓練集為采集的煤層水文地質(zhì)數(shù)據(jù),代價敏感決策樹1,2,…,n分別采用煤層水文地質(zhì)數(shù)據(jù)各突水影響因素作為其根節(jié)點屬性,基于代價敏感單決策樹突水預(yù)測模型構(gòu)建流程得到單個突水預(yù)測模型,單個模型構(gòu)建完成后,可以得到n個單決策樹的規(guī)則集,這些規(guī)則集合并可得到最終突水預(yù)測規(guī)則集,最后采用投票法得到最終的預(yù)測結(jié)果。
圖1 基于不同根節(jié)點信息的代價敏感多決策樹煤層底板突水預(yù)測模型構(gòu)建流程Fig.1 Building process of multi-decision tree prediction model for coal seam floor water inrush based on cost-sensitive theory and different root node information
基于不同根節(jié)點信息的代價敏感多決策樹煤層底板突水預(yù)測模型結(jié)構(gòu)如圖2所示,包括3個部分:突水影響因素分析、數(shù)據(jù)采集與整理,模型訓練及性能測試。其中突水影響因素分析、數(shù)據(jù)采集與整理過程如下:先進行研究區(qū)域的突水影響因素分析,根據(jù)分析結(jié)果采集對應(yīng)的煤田水文地質(zhì)數(shù)據(jù)信息;接著對采集到的數(shù)據(jù)采用五折交叉驗證方式進行模型構(gòu)建及性能驗證。模型訓練過程如下:基于訓練集數(shù)據(jù),采用不同根節(jié)點代價敏感多決策樹突水預(yù)測模型構(gòu)建思路建立多決策樹,根據(jù)建立的決策樹提取建樹規(guī)則,得到突水預(yù)測模型規(guī)則集。性能測試過程如下:對測試集中的數(shù)據(jù)采用規(guī)則集進行突水預(yù)測,對預(yù)測結(jié)果采用性能評價準則準確率、真實正類率及真實負類率進行性能評價。
圖2 基于不同根節(jié)點信息的代價敏感多決策樹煤層底板突水預(yù)測模型結(jié)構(gòu)Fig.2 Structure of multi-decision tree prediction model for coal seam floor water inrush based on cost-sensitive theory and diferent root node information
煤礦開采時,可把工作區(qū)域的數(shù)據(jù)作為輸入,采用已構(gòu)建的多決策樹模型進行是否有突水危險的預(yù)測,根據(jù)決策樹規(guī)則集預(yù)測結(jié)果,采用投票法可得到一個結(jié)果為“突水”或者“安全”的預(yù)測輸出,從而為煤礦專家提供輔助決策支持。
實驗煤礦位于山西省呂梁山脈的西北部,屬于華北煤田體系。研究區(qū)域地層結(jié)構(gòu)由老至新主要包括:古生界奧陶系中統(tǒng),石炭系中統(tǒng)、上統(tǒng),二疊系下統(tǒng)、中統(tǒng);中生界三疊系下統(tǒng)、中統(tǒng);新生界第三系、第四系。山西組和太原組共含煤14層,其中8號、13號煤層為奧灰水帶壓開采區(qū)域。依據(jù)含水層介質(zhì)的不同,該煤田內(nèi)主要包括奧陶系巖溶水含水層,石炭系太原組砂巖裂隙含水層,二疊系下統(tǒng)下石盒子組與山西組砂巖裂隙含水層,第四系、上第三系松散巖類孔隙含水巖組等。8號、13號煤層的直接充水含水層為砂巖裂隙含水層,補給條件較好。
根據(jù)該煤礦某采煤工作面的現(xiàn)場實際觀測,本文采集多種與煤層底板突水相關(guān)的數(shù)據(jù),經(jīng)過篩選整理、反復(fù)分析,最終確定影響研究工作面的煤層底板突水因素主要有奧陶巖溶水含水層厚度、煤層底板有效隔水層厚度、隔水層承受水壓和埋深。由專家對確定的煤層底板突水數(shù)據(jù)進行分析并進行突水安全狀態(tài)標記,獲得帶標簽的有效數(shù)據(jù)共計95組, 13號煤層部分有效數(shù)據(jù)見表1,其中,突水狀態(tài)中的“0”表示安全,“1”表示突水。由于突水情況對應(yīng)的實際生產(chǎn)數(shù)據(jù)較難得到,經(jīng)過與突水專家討論分析,在實際數(shù)據(jù)基礎(chǔ)上,經(jīng)過理論分析得到一部分反映突水狀況的理論分析數(shù)據(jù),用于本文的仿真實驗,目的是驗證模型的有效性。其中安全狀態(tài)時對應(yīng)的一組數(shù)據(jù)的鉆孔柱狀圖如圖3所示,其孔口標高為1 064.35 m。
突水系數(shù)法是一種經(jīng)典突水預(yù)測方法,因其計算簡單便捷且預(yù)測準確率較高而被廣泛應(yīng)用。為驗證本文所提出的突水預(yù)測模型的有效性,表1同時給出了突水系數(shù)法預(yù)測結(jié)果,以進行對比。
突水系數(shù)法利用隔水層厚度和隔水層承受水壓來計算單位隔水層所能承受的極限水壓值,計算公式為
(5)
式中:Ts為突水系數(shù),代表單位隔水層所能承受的極限水壓值,MPa/m;H為隔水層承受水壓,MPa;M為隔水層厚度,m;d為煤礦開采時礦壓對底板的破壞深度, m,本文根據(jù)經(jīng)驗取d=10 m。
表1 13號煤層底板水文地質(zhì)信息數(shù)據(jù)Table 1 Hydro-geological information data of No.13 coal seam floor
圖3 表1的一組數(shù)據(jù)對應(yīng)的鉆孔柱狀圖Fig.3 Borehole histogram of the data set in Table 1
預(yù)測時,定義突水系數(shù)Ts<0.06 MPa/m時為不突水,0.06 MPa/m≤Ts≤0.10 MPa/m時為臨界狀態(tài),Ts>0.10 MPa/m時為突水。
由表1可知,22組數(shù)據(jù)的突水狀態(tài)與根據(jù)Ts值得到的突水狀態(tài)一致。
對于突水預(yù)測模型的性能評價,預(yù)測準確率是最常見且較為重要的評價指標。但是,在對非平衡數(shù)據(jù)集進行分類預(yù)測時,準確率不再是最權(quán)威及全面的性能指標。為了客觀地反映所構(gòu)建的預(yù)測模型對非平衡數(shù)據(jù)集的預(yù)測性能,本文除采用準確率之外,還考慮了真實正類率及真實負類率2個評價指標[15]。
真實正類率RP:反映了少數(shù)類突水狀況的預(yù)測結(jié)果準確率,其值越大,說明突水預(yù)測模型對突水狀況的預(yù)測結(jié)果越精確。
(6)
真實負類率RN:反映了多數(shù)類安全狀況的預(yù)測結(jié)果準確度,其值越大,說明突水預(yù)測模型對安全狀況的預(yù)測結(jié)果越精確。
(7)
準確率Acc:是評價預(yù)測模型性能的總體指標,其值越大,說明突水預(yù)測模型總體預(yù)測性能越精確。
(8)
為了證明本文模型的有效性,設(shè)計了如下2個實驗:
(1) 在數(shù)據(jù)不平衡率(Imbalated Rate,IR,多數(shù)類樣本個數(shù)/少數(shù)類樣本個數(shù))為2.8時,分析了代價因子CFP=1,CFN從1到1 000逐漸遞增時,預(yù)測結(jié)果的變化情況,以說明不同代價參數(shù)對實驗結(jié)果的影響。
(2) 在數(shù)據(jù)不平衡率IR從2逐漸增加時,比較基于Gini指標的CART單決策樹模型預(yù)測性能與基于本文模型的預(yù)測性能,以說明本文所構(gòu)建的突水預(yù)測模型的有效性。
所有結(jié)果為相同實驗條件下采用五折交叉驗證方法得到。
表2給出了代價因子CFP=1,CFN從1到1 000逐漸遞增時,預(yù)測結(jié)果的變化情況。
圖4給出了表2預(yù)測性能變化趨勢對比。由圖4可看出,CFN從1按照步距1增長至10時,RP一直保持較高的預(yù)測準確率,其中CFN為4時達到了最大值96.00%。當CFN大于10之后,RP總體呈現(xiàn)下降趨勢,RN變化不顯著,Acc由于RP的變化也呈現(xiàn)逐漸減小趨勢。這表明代價敏感因子CFN取值也不能太大,否則補償過度,反而導(dǎo)致預(yù)測性能下降。為此,在數(shù)據(jù)不平衡率IR為2.8時,本文最終選取CFN=10,以使3個指標都能達到較滿意結(jié)果。此時正類率RP為92.67%,負類率RN為97.71%,總體預(yù)測準確率為96.51%。
表2 不同代價參數(shù)CFN的預(yù)測性能對比Table 2 Prediction performance comparison of different CFN
圖4 不同代價CFN時預(yù)測性能變化趨勢對比Fig.4 Prediction performance change trend comparison of different CFN
進一步將少數(shù)類樣本個數(shù)逐漸減少,負類樣本個數(shù)保持不變,使數(shù)據(jù)的不平衡率增大,將本文模型預(yù)測結(jié)果與基于CART算法的突水預(yù)測模型結(jié)果相比較,表3為2種模型的預(yù)測性能對比。從表3可看出,隨著不平衡率IR的增加,本文算法的RP總體優(yōu)于CART算法預(yù)測結(jié)果。在數(shù)據(jù)不平衡率為6時,2種算法的RP都達到了100.00%,且本文模型RN及Acc稍優(yōu)于CART算法預(yù)測結(jié)果。
表3 2種模型的預(yù)測性能對比Table 3 Prediction performance comparison of two models
(1) 構(gòu)建了基于不同根節(jié)點信息的代價敏感多決策樹煤層底板突水預(yù)測模型。采用不同突水影響因素作為各個決策樹的根節(jié)點屬性信息,并采用基于代價敏感融合Gini指標的屬性選擇準則進行各單決策樹煤層底板突水預(yù)測模型構(gòu)建,根據(jù)建立的單決策樹提取建樹規(guī)則,得到單決策樹突水預(yù)測模型規(guī)則集,所有單決策樹規(guī)則集形成多決策樹建樹規(guī)則。采用多決策樹突水預(yù)測模型的規(guī)則集可進行突水預(yù)測,采用投票法得到最終預(yù)測結(jié)果,對預(yù)測結(jié)果進行性能評價。
(2) 實驗結(jié)果表明:采用本文構(gòu)建的模型,可在保證預(yù)測準確率達到最優(yōu)的同時,真實正類率及負類率也可達到較優(yōu)的性能,從一定程度上解決了傳統(tǒng)突水預(yù)測模型存在的“一邊倒”現(xiàn)象。在數(shù)據(jù)不平衡率為2、分類錯誤懲罰因子取4時,模型的正類率為93.06%,負類率為97.85%,準確率為96.25%,均優(yōu)于基于CART算法的突水預(yù)測模型的性能。在數(shù)據(jù)不平衡率提高到6、分類錯誤懲罰因子取20時,2種模型的正類率均達到100%,本文算法的負類率為99.37%,準確率為99.47%,依然優(yōu)于CART突水預(yù)測模型性能。說明了本文模型的有效性。
(3) 本文模型計算復(fù)雜度偏高,下一步可在保證模型性能的前提下,研究降低模型計算復(fù)雜度的有效改進方法。