郝 帥,王懷秀,劉最亮
(1.北京建筑大學(xué) 電氣與信息工程學(xué)院,北京 102616;2.華陽新材料科技集團有限公司,山西 陽泉 045000)
近年來,隨著現(xiàn)代化大型礦井建設(shè)的發(fā)展以及煤炭開采的不斷深入,陷落柱的存在嚴重威脅著煤礦的生產(chǎn)安全,同時影響煤礦安全高效發(fā)展。為此需要尋找一種方法能夠比較準確地識別礦區(qū)地下陷落柱,為煤礦高產(chǎn)高效提供有力的技術(shù)支持[1]。
目前,高精度三維地震勘探技術(shù)已在地質(zhì)異常體識別領(lǐng)域得到廣泛應(yīng)用。高精度三維地震資料具有數(shù)據(jù)量大,信息豐富,空間分辨率高的特征,可以較為精細地反映地震振幅、相位的變化,可以用于精細的斷層、陷落柱及地質(zhì)異常體的解釋。多維環(huán)境中的各種信息,包括幾何學(xué)、運動學(xué)、動力學(xué)和統(tǒng)計特征都包含在這些多維地震數(shù)據(jù)之中。它們通常用地震屬性來描述[2]。目前,針對各種不同地質(zhì)任務(wù)提出的地震屬性達到上百種之多,這些地震屬性能用來凸顯地質(zhì)異常體的地質(zhì)特征,并在一定程度上輔助地震解釋工作。白瑜等[3]應(yīng)用相干體屬性分析技術(shù)在研究區(qū)域成功地識別多處小規(guī)模的陷落柱,在實現(xiàn)對地質(zhì)構(gòu)造的解釋的同時也彌補了常規(guī)三維地震解釋不能很好地識別小規(guī)模陷落柱的不足;李強等[4]通過分析陷落柱的屬性特征及實例對比,證實相干、曲率、傾角、紋理等地震屬性分析技術(shù)均可以有效提高陷落柱識別的準確度和可靠性。上述方法雖然取得了一定的成果,但是存在單一屬性信息量少,往往不能全面反應(yīng)地質(zhì)體特征;存在多解性可能導(dǎo)致片面結(jié)果,并且需要主觀判斷和解釋經(jīng)驗的問題。因此,需要一種聯(lián)合多種地震屬性的解釋方法[5]。
隨著計算機水平的高速發(fā)展,機器學(xué)習(xí)的出現(xiàn)為地震解釋提供了更多的工具。它能綜合利用多種地震屬性來對陷落柱進行識別。LI Dong 等[6]討論了多種傳統(tǒng)機器學(xué)習(xí)算法在陷落柱識別工作中的可行性,證明了將機器學(xué)習(xí)算法應(yīng)用于地質(zhì)構(gòu)造預(yù)測,可以有效地提高地震解釋的效率。但是基于機器學(xué)習(xí)的地震構(gòu)造解釋方法對原始地震數(shù)據(jù)質(zhì)量和屬性值有較高的要求。因此,改進機器學(xué)習(xí)算法和提高算法容錯性成為未來研究的方向[7]。
目前主要使用機器學(xué)習(xí)算法中的監(jiān)督分類算法來實現(xiàn)對地質(zhì)異常體進行識別的目的,即使用既有特征數(shù)據(jù)又有標簽的數(shù)據(jù)進行訓(xùn)練,讓模型學(xué)習(xí)到特征和標簽之間的關(guān)聯(lián),使得模型在面對只有特征而沒有標簽的數(shù)據(jù)時,可以判斷出其標簽值。但是這類方法存在1 個缺陷,即當訓(xùn)練樣本數(shù)據(jù)集存在數(shù)據(jù)不平衡情況時,就會導(dǎo)致模型的分類效果下降[8]。對于地震多屬性數(shù)據(jù)集來說,當非陷落柱數(shù)據(jù)數(shù)量明顯多于陷落柱數(shù)據(jù)數(shù)量時,分類結(jié)果將向非異常體方向偏移,導(dǎo)致目標的預(yù)測準確率降低。為了解決數(shù)據(jù)不平衡帶來的分類結(jié)果偏移問題,國內(nèi)外學(xué)者研究并提出了大量解決方法。其中比較經(jīng)典的是CHAWLA 等[9]在2002 年提出的1 種改進的隨機過采樣SMOTE 算法,該算法不是簡單的隨機抽樣,重復(fù)原始樣本,而是由公式生成的新的人工樣本。但是SMOTE 算法也會在一定程度上增加樣本正負類之間的不平衡性。
為了克服上述問題并更好地識別陷落柱,構(gòu)建了1 種基于K-means SMOTE 結(jié)合隨機森林的機器學(xué)習(xí)分類模型,首先利用K-means 方法找出原始負類的中心點,再根據(jù)SMOTE 過采樣方法得出“新增負類”,將原始數(shù)據(jù)集中的負類全部替換為“新增負類”,再次利用SMOTE 算法得出“新數(shù)據(jù)集”,有效地克服了類間和類內(nèi)的不平衡和經(jīng)典SMOTE 算法的缺點[10];再結(jié)合隨機森林分類算法,將地震多屬性數(shù)據(jù)集作為學(xué)習(xí)樣本來對陷落柱進行識別。
地震屬性是通過三維地震勘探技術(shù)得到的能夠反映陷落柱構(gòu)造特征的數(shù)據(jù),盡管這些地震屬性都在一定程度上可以對陷落柱進行解釋,但是過多的屬性還是會難免造成信息的冗余[11]。為了進一步提高陷落柱識別的精度,需要對屬性進行評估。首先,通過計算屬性之間的相關(guān)系數(shù)得到各個屬性之間的相關(guān)性關(guān)系;再通過分析屬性之間相關(guān)系數(shù)的絕對值大小來判斷屬性之間的相關(guān)性強弱,相關(guān)系數(shù)的絕對值大小和相關(guān)性成正比關(guān)系。
在分析完各個地震屬性之間相關(guān)性關(guān)系后,再進行R 型聚類分析。該分析的目的是評估各屬性之間的相關(guān)性,將相關(guān)性較強的地震屬性聚為一簇,以便得到更直觀的屬性之間相關(guān)性關(guān)系[12]。最終通過結(jié)合隨機森林重要性分析,對屬性值和標簽值相關(guān)性進行分析,使得最終選擇的屬性與其他屬性和目標值之間都存在較好的相關(guān)性。
在對地震屬性進行評估之后,將多余的地震屬性從屬性數(shù)據(jù)集種篩選出去完成對屬性的選擇,為了使優(yōu)選的屬性能夠滿足陷落柱識別的任務(wù),所優(yōu)選的地震屬性需要具備2 個標準:①不能盲目選擇地震屬性,并且不是屬性數(shù)量越多越好,而是需要選擇有限個屬性使模型的識別準確率達到最高;②應(yīng)該獨立統(tǒng)計每1 個地震屬性,相關(guān)性較強的屬性不應(yīng)放在同1 個數(shù)據(jù)集中用來進行分類,相關(guān)性較強的屬性應(yīng)該放在一起進行討論,組成1 個屬性簇,再根據(jù)屬性重要性分析,從每個簇中只選取1 個屬性作為最具代表性的屬性組成數(shù)據(jù)樣本。
K-means SMOTE 采用常用的K-means 聚類算法和SMOTE 過采樣方法相結(jié)合,以用來對數(shù)據(jù)集進行平衡處理。該方法的思想是設(shè)法在安全區(qū)域進行過采樣來避免噪聲的產(chǎn)生并同時解決類別間的不平衡和類別內(nèi)的不平衡問題[13]。K-means SMOTE 算法原理圖如圖1。
圖1 K-means SMOTE 算法原理圖Fig.1 K-means SMOTE algorithm schematic
1)使用K-means 對整個空間進行聚類。在所有樣本中,隨機選擇個數(shù)據(jù)點并將其作為樣本聚類中心:C1、C2、C3、…、CK。
2)計算每個樣本到聚類中心的距離d:
式中:xi∈D;D 為樣本合集;CK∈C。
3)將樣本分配到最近的集群中。xi∈Cnearest,Cnearest為最近的樣本集群。
4)重新計算集群中心:
式中:μi為新的集群中心;Ci為樣本聚類中心。5)重復(fù)上述步驟2)~步驟4),直到聚類中心不再改變。
6)過濾少數(shù)類較少的聚類,選擇少數(shù)類較多的聚類,合成新的少數(shù)類樣本。
7)在每1 個經(jīng)過過濾的簇中執(zhí)行SMOTE 過采樣算法:
式中:rand(0,1)為0~1 之間的隨機數(shù);Xnew為1個新的合成少數(shù)類樣本;xc為從過濾的簇中的最近鄰集群中隨機選擇的少數(shù)類樣本;~x 為表示過濾后的聚類中的少數(shù)類樣本。
隨機森林是Breiman 于2001 年基于隨機決策樹的概念提出1 種高級集成學(xué)習(xí)算法。它首先利用Bagging 算法的思想結(jié)合幾個傳統(tǒng)的決策樹分類模型來改善泛化誤差,并結(jié)合隨機特征選擇技術(shù)來參與每個基決策樹的節(jié)點劃分過程。這種集成方法集成了多個模型并相互補充,與單個決策樹分類器相比,隨機森林具有更高的預(yù)測精度和不易發(fā)生過擬合的優(yōu)點且能較好地處理高維度數(shù)據(jù),并且能夠分析各個樣本特征對分類結(jié)果的重要性[14]。具體的隨機森林實現(xiàn)步驟如下:
1)假設(shè)訓(xùn)練集有N 個樣本,利用Bootstrap 法有放回的抽取樣本(每次隨機選取1 個,然后返回繼續(xù)選擇),最終選擇好了N 個樣本用來組成訓(xùn)練決策樹的訓(xùn)練集。
2)假設(shè)樣本中包含H 個屬性,隨機從這H 個屬性中選取h 個屬性(h≤H)用于每1 顆決策樹的每個節(jié)點的分裂。然后從其中選擇1 個最具有分類能力的屬性作為該節(jié)點的分裂屬性。
3)用步驟2)的方式來形成決策樹的每1 個節(jié)點。直到不能分裂為止。
4)按照步驟1)~步驟3)建立大量決策樹,構(gòu)成隨機森林。分類結(jié)果按照樹分類器的投票量而定。
構(gòu)建隨機森林需要通過經(jīng)驗選擇合適的超參數(shù)n_estimators(森林中樹的個數(shù))和max_tepth(樹的最大深度)使得模型的分類效果達到預(yù)期。人工選擇參數(shù)需要不斷地對2 個參數(shù)進行組合并比較模型準確率,既增加了工作量又耗費時間。所以提出利用網(wǎng)格搜索與交叉驗證的方式來尋找使模型得分最高的參數(shù)組合,實現(xiàn)自動超參數(shù)尋優(yōu)。
網(wǎng)格搜索法是1 種窮舉搜索的超參數(shù)尋優(yōu)算法,該算法具有較強的通用性,并且簡單高效適合對較少的參數(shù)進行尋優(yōu)。其本質(zhì)就是將參數(shù)空間劃分成若干個網(wǎng)格,通過遍歷網(wǎng)格交叉點處所有參數(shù)組合來對需要訓(xùn)練的模型進行優(yōu)化,同時計算其對應(yīng)模型的準確率。只有遍歷網(wǎng)格平面的所有節(jié)點,才能得到使準確率最高的參數(shù)組合。隨機森林通過網(wǎng)格搜索得到最優(yōu)參數(shù)值,最優(yōu)參數(shù)得到的模型可以使用網(wǎng)格搜索參數(shù)best_score,即模型的平均交叉驗證得分來評估分類效果的好壞,得分越高表明該分類模型的分類效果越好。
同時隨機森林在分析不同的樣本特征時會展現(xiàn)出不同的分類效果并且在對不平衡數(shù)據(jù)集進行訓(xùn)練時,模型的預(yù)測精度會向多數(shù)類樣本進行偏移。因此在此基礎(chǔ)上提出了1 種對隨機森林模型進行優(yōu)化的方法,分為3 個步驟:①利用前期的地震屬性優(yōu)選工作,挑選出使模型分類準確率最高的特征組合作為樣本特征,評價指標為模型的準確率Precision;②利用K-means SMOTE 算法對樣本數(shù)據(jù)集進行處理獲得平衡的地震多屬性數(shù)據(jù)集,用該數(shù)據(jù)集作為訓(xùn)練樣本訓(xùn)練隨機森林分類模型;③利用網(wǎng)格搜索和交叉驗證的方法對隨機森林的超參數(shù)n_estimators和max tepth 進行尋優(yōu),以期獲得最高得分的隨機森林分類模型?;诟倪M的隨機森林模型識別陷落柱的過程,可看作1 個監(jiān)督學(xué)習(xí)過程,同時也是1 個二分類問題,即將地震多屬性數(shù)據(jù)分成“陷落柱”和“非陷落柱”2 類;每個樣本的特征為優(yōu)選后地震屬性組成。改進的分類模型構(gòu)建過程如圖2。
圖2 改進的分類模型構(gòu)建過程Fig.2 Improved classification model building process
以山西新元煤礦首采區(qū)東翼南部礦區(qū)煤層為研究區(qū)。研究區(qū)行政區(qū)劃屬晉中地區(qū)壽陽縣,勘探范圍由以下坐標點連線圈定,東西寬2 km,南北長1.5 km,勘探面積3.0 km2。
研究區(qū)含煤地層主要為二疊系下統(tǒng)山西組。其中3#煤層屬主要可采煤層,煤層厚度2.41~3.60 m,平均厚3.18 m,頂板為砂質(zhì)泥巖、泥巖,底板為砂質(zhì)泥巖,屬穩(wěn)定煤層。從以前研究本區(qū)進行的二維地震資料來看,區(qū)內(nèi)陷落柱較為發(fā)育,構(gòu)造復(fù)雜程度應(yīng)屬中等。研究區(qū)域陷落柱構(gòu)造圖如圖3。
圖3 研究區(qū)域陷落柱構(gòu)造圖Fig.3 Structural diagram of collapsed column in the study area
選取首采區(qū)東翼南部礦區(qū)作為研究區(qū)域,研究中利用三維地震勘探成果,按照5×5 網(wǎng)格提取出研究區(qū)域3#煤層所對應(yīng)x、y 坐標及相關(guān)屬性信息,結(jié)合專家經(jīng)驗最終提取了12 種地震屬性(方差體、均方根振幅、平均能量、傾角、瞬時頻率、瞬時相位、最大振幅、最大能量、最小振幅、總振幅、中值振幅、主頻),對該區(qū)域內(nèi)的屬性數(shù)據(jù)進行分類標記,共得到5 360 個數(shù)據(jù)點。其中代表無地質(zhì)異常構(gòu)造的數(shù)據(jù)點有4 496 個,用標簽值“0”來表示;代表陷落柱的數(shù)據(jù)點只有864 個,用標簽值“1”來表示。由此可見,數(shù)據(jù)集中2 個不同類別的樣本數(shù)量之間存在較大的差異,即存在數(shù)據(jù)不平衡現(xiàn)象。
1)對12 種地震屬性進行相關(guān)性分析,計算得到的屬性之間相關(guān)系數(shù)見表1。
表1 地震屬性之間相關(guān)性分析Table 1 Correlation analysis between seismic attributes
2)利用R 型聚類分析將相關(guān)性較高的地震屬性聚為一簇。R 型聚類結(jié)果圖如圖4。
圖4 R 型聚類結(jié)果圖Fig.4 R-type clustering result graph
3)根據(jù)隨機森林重要性分析,從每個簇中選出與目標相關(guān)性最高的地震屬性作為最終的樣本特征。隨機森林重要性分析如圖5。聚類模型效果圖如圖6。
由圖6 可知:優(yōu)選6 個屬性時,隨機森林分類模型的準確率達到最高。這時瞬時相位、總振幅、中值振幅的相關(guān)性較高聚為1 簇;均方根振幅、平均能量、最大振幅、最大能量的相關(guān)性較高聚為1 簇;瞬時頻率和主頻的相關(guān)性較高聚為1 簇;其余屬性相對獨立。由此優(yōu)選出中值振幅、主頻、最小振幅、最大振幅、傾角、方差作為最終的樣本特征。
圖6 聚類模型效果圖Fig.6 Clustering model rendering
首先利用K-means SMOTE 算法對數(shù)據(jù)集進行平衡處理,最終陷落柱和非陷落柱的數(shù)據(jù)點數(shù)量均為4 496 個,從中選取70%的數(shù)據(jù)作為訓(xùn)練樣本,其余的作為測試樣本。利用網(wǎng)格搜索與交叉驗證的方法對隨機森林的超參數(shù)(n_estimators 和max_depth)進行尋優(yōu),把隨機森林模型的得分作為評價指標。最終確定n_estimators=61,max depth=18 時模型的分類效果最好,準確率達到92%。
但在2 698 個測試樣本中有259 個實測陷落柱樣本,剩下的都是通過K-means SMOTE 算法合成的。因此,為了驗證隨機森林模型的有效性,僅計算實際259 個測試樣本的混淆矩陣準確率達到87%。
為了對建立的隨機森林模型效果進行評價以判定其是否具有有效性和優(yōu)越性,作為對比;同時使用另外3 種機器學(xué)習(xí)算法與之比較,3 種機器學(xué)習(xí)分類算法分別是決策樹算法、KNN 算法、BP 神經(jīng)網(wǎng)絡(luò)算法。對于二分類問題,為了對分類器的評估更全面,利用召回率(recall)、準確率(Precision)和f1 score 等評估指標來評估模型的分類效果??梢詫颖緞澐譃椋赫嬲═rue Positive,TP);假正例(False Positive,F(xiàn)P);假負例(False Negative,F(xiàn)N);真負例(True Negative,TN)。然后就可以構(gòu)建混淆矩陣計算相應(yīng)的指標,分類結(jié)果混淆矩陣見表2。
表2 分類結(jié)果混淆矩陣Table 2 Classification results confusion matrix
查準率P,又稱準確率(Preciscin):
召回率R,又稱查全率(Recall):
準確率和召回率整合在一起的判定標準F1為:
算法對比分析見表3。
由表3 可知:經(jīng)過K-means SMOTE 處理后的數(shù)據(jù)集作為輸入,隨機森林模型預(yù)測準確率、召回率、F1-score 相較于其他算法模型均得到了相應(yīng)的提高。
表3 算法對比分析Table 3 Algorithm comparative analysis
將預(yù)測為陷落柱的數(shù)據(jù)點導(dǎo)入軟件,并結(jié)合陷落柱實際揭露的構(gòu)造進行對比,模型預(yù)測效果圖如圖7。
圖7 模型預(yù)測效果圖Fig.7 Model prediction rendering
由圖7 可知:陷落柱數(shù)據(jù)點預(yù)測較為吻合,進一步證明了模型具有良好的精度,數(shù)據(jù)點預(yù)測較為精確;其中測試集中1 349 個非異常體數(shù)據(jù)點有1 114個被預(yù)測正確;259 個實測陷落柱數(shù)據(jù)點有225 個被預(yù)測正確。
1)綜合分析屬性與屬性之間的相關(guān)性和屬性與目標值之間的相關(guān)性并且優(yōu)選出相對獨立且與目標值相關(guān)性高的屬性作為訓(xùn)練數(shù)據(jù),可以有效降低數(shù)據(jù)集的維度并提高模型預(yù)測精度,提高預(yù)測工作的效率。
2)基于隨機森林算法的陷落柱識別模型融合了各個不同地震屬性識別陷落柱的優(yōu)勢,從多個角度來分析識別陷落柱,相較于單一屬性更為精確并且基本與人工解釋和實際揭露相吻合,所以模型具有良好的適用性。
3)陷落柱數(shù)據(jù)點和非地質(zhì)異常體數(shù)據(jù)點的數(shù)量將直接影響模型識別的準確率。因此通過改善數(shù)據(jù)集的不平衡程度,可以提高模型識別的準確率。