王懷秀 ,馮思怡 ,劉最亮
(1.北京建筑大學(xué) 電氣與信息工程學(xué)院, 北京 102616;2.華陽新材料科技集團有限公司, 山西 陽泉 045000)
隨著煤炭資源向深部開采,煤層開采難度增大,各種復(fù)雜的地質(zhì)構(gòu)造嚴(yán)重影響煤礦開采人員安全。地震屬性就是經(jīng)過數(shù)學(xué)變換而導(dǎo)出的有關(guān)地震波的幾何形態(tài)、運動學(xué)特征、動力學(xué)特征和統(tǒng)計學(xué)特征,通過對地震屬性進行分析,并做出標(biāo)定,消除畸變,就有可能揭示有關(guān)儲層信息。然而地下地質(zhì)情況的復(fù)雜性和地震信息的影響因素太多,存在較大的不確定性或模糊性,應(yīng)用任何單一的地震屬性都不能準(zhǔn)確地進行構(gòu)造識別,展開地震多屬性融合分析就顯得十分必要。
地震屬性融合的研究有很多種,BALCH[1]于1971 年將地震資料用彩色進行顯示,提高了對地下地質(zhì)異常的識別能力。2002 年,我國樂友喜教授[2]優(yōu)先將聚類分析的方法應(yīng)用于地震屬性融合,多元線性回歸法[3]也可以用于屬性融合(季玉新和歐欽,2003)。隨著大數(shù)據(jù)時代的來臨,目前發(fā)展較快的是基于地震屬性數(shù)據(jù)的融合,即通過數(shù)學(xué)統(tǒng)計、人工智能等方式提取最優(yōu)地震屬性,如2010 年,曹琳昱[4]首次將基于粒子群優(yōu)化的 BP 網(wǎng)絡(luò)技術(shù)應(yīng)用于多屬性融合中。神經(jīng)網(wǎng)絡(luò)融合屬性法識別速度很快,并且自適應(yīng)性以及容錯能力強,該方法適用范圍廣。但這種方法不能自主優(yōu)選屬性,同時需要足夠的樣本數(shù)據(jù)來對網(wǎng)格進行訓(xùn)練;2012 年,Bruno 將 PCA[5]用于斷層屬性的融合,通過對地震屬性進行 PCA 融合,得到了融合后的新屬性,對于微小斷層識別的準(zhǔn)確度有了較大的提高。但是PCA 是一種線性降維方法,當(dāng)數(shù)據(jù)中存在非線性關(guān)系的時候,PCA 的效果會大打折扣;2017 年,孫振宇[6]將SVM 算法用于地震小斷層識別,SVM 模型融合各屬性預(yù)測斷層的優(yōu)勢,從不同的角度挖掘斷層信息,降低了解釋人員主觀因素對解釋結(jié)果的影響。但是在構(gòu)建SVM 模型時,模型本身的結(jié)構(gòu)直接影響模型識別準(zhǔn)確率,且地震屬性的選擇對模型準(zhǔn)確率影響也很大。
近年來,地震屬性融合技術(shù)發(fā)展迅速,已廣泛應(yīng)用于儲層預(yù)測[7-8]、砂體預(yù)測[9-10]、構(gòu)造識別等各個領(lǐng)域。在地震屬性融合過程中,需要解決的關(guān)鍵問題是選擇一種準(zhǔn)確率高并且適用于多種樣本數(shù)據(jù)集的算法,能夠更有效地對地震屬性數(shù)據(jù)進行解釋,提高構(gòu)造識別模型的準(zhǔn)確率。
隨機森林算法作為一種高度靈活的算法近年來廣受歡迎,擁有廣泛的應(yīng)用前景。在當(dāng)前所有的算法中,作為一種集成算法的隨機森林算法本身精度比大多數(shù)單個算法好,準(zhǔn)確性高,且對數(shù)據(jù)集的要求不高,適用于多種數(shù)據(jù)集(線性與非線性、高維數(shù)據(jù)集等)。隨機森林算法的隨機性在于2 個方面:①每棵樹的訓(xùn)練樣本是隨機的,②樹中每個節(jié)點的分裂屬性集合也是隨機選擇確定的。正因為這兩個隨機性,隨機森林對噪聲數(shù)據(jù)不敏感,克服了過擬合的問題。但是目前為止,對隨機森林中決策樹的數(shù)量k、單棵決策樹的最大特征數(shù)m等參數(shù)進行優(yōu)化與選擇的研究還比較少,一般情況下都是通過經(jīng)驗選擇參數(shù),往往可能不是最優(yōu)參數(shù)。
針對上述問題,提出一種改進的網(wǎng)格搜索算法,基于模型得分對算法模型進行評估,對隨機森林算法的分類器數(shù)量與單棵決策樹的最大特征數(shù)這2 個參數(shù)進行優(yōu)化,克服以往依據(jù)經(jīng)驗選擇參數(shù)的缺點,選取最優(yōu)參數(shù)值,并且利用得到的算法模型進行地質(zhì)構(gòu)造識別與預(yù)測。
2001 年,Breiman 等提出隨機森林算法[11](Random Forest,簡稱RF)。該算法是一種基于傳統(tǒng)的決策樹理論的集成學(xué)習(xí)(Ensemble Learning)方法。隨機森林在決策樹的訓(xùn)練中引入隨機屬性選擇。具體來說,傳統(tǒng)決策樹在選擇劃分屬性時是在當(dāng)前結(jié)點的屬性集合(假定有d個屬性)中選擇一個最優(yōu)屬性;而在隨機森林中,對基決策樹的每個結(jié)點,先從該結(jié)點的屬性集合中隨機選擇一個包含d個屬性的子集,然后再從這個子集中選擇一個最優(yōu)屬性用于劃分。隨機森林通過Bagging(集成)方法,生成彼此之間互不相同的訓(xùn)練樣本集,該算法主要用于分類和回歸,對于分類問題,采用簡單多數(shù)投票法的結(jié)果作為隨機森林的輸出;對于回歸問題,根據(jù)單棵樹輸出結(jié)果的簡單平均作為隨機森林的輸出[12]。文中,我們選擇隨機森林分類算法進行分類預(yù)測。
隨機森林的算法流程如圖1 所示[13]。
圖1 隨機森林算法流程Fig.1 Random forest algorithm flow
1)假設(shè)原始訓(xùn)練集有N個樣本,應(yīng)用bootstrap 法隨機有放回的抽樣組成訓(xùn)練集;
2)設(shè)樣本有D個特征,在每一棵樹的每個節(jié)點處隨機抽取d(d<D)個特征,融合在d個特征終選擇一個最具有分類能力的變量,變量分類的閾值通過檢查每一個分類點確定。
3)用抽取的特征進行構(gòu)造隨機森林模型。
4)輸入數(shù)據(jù),隨機森林分類器對新的數(shù)據(jù)及逆行判別和分類,分類結(jié)果按照樹分類器的投票多少而定。
隨機森林中的每一棵樹都是按照自頂向下的遞歸分裂原則,即從根節(jié)點開始依次對訓(xùn)練集進行劃分。隨機森林在試驗中性能較好,由于隨機性,使得隨機森林不容易過擬合,有很好的抗噪能力并且可以處理很高維度的數(shù)據(jù)。但是在處理非平衡性數(shù)據(jù)集的時候,存在缺陷。選擇的數(shù)據(jù)集是某礦區(qū)地質(zhì)勘探得到的地震屬性數(shù)據(jù),數(shù)據(jù)標(biāo)簽分布較為均衡,因此該數(shù)據(jù)集適用于隨機森林算法。
網(wǎng)格搜索(Grid Search CV),又被稱作窮舉搜索,是目前機器學(xué)習(xí)中很常用的一種尋優(yōu)調(diào)參的方法。其基本原理是將變量區(qū)域網(wǎng)格化,遍歷所有網(wǎng)格點,求解滿足約束函數(shù)的目標(biāo)函數(shù)值,最終比較選擇出最優(yōu)點。在隨機森林算法中,每棵樹的分類能力越強,整個森林的錯誤率越低;減小特征選擇的個數(shù),樹的相關(guān)性和分類能力也會相應(yīng)的降低,增大特征選擇的個數(shù),兩者也會隨之增大。所以關(guān)鍵是如何選擇最優(yōu)的特征個數(shù)。目前為止仍然沒有單棵決策樹的分類正確率和樹的多樣性兩者之間的關(guān)系對隨機森林性能影響的研究[14-15]。
基于經(jīng)典的隨機森林算法,提出一種改進的網(wǎng)格搜索優(yōu)化算法。首先在較大范圍內(nèi)大步長劃分網(wǎng)格,進行初步粗搜索選擇出最優(yōu)點;然后在最優(yōu)點附近進行小步長劃分網(wǎng)格,再次進行網(wǎng)格搜索出最優(yōu)點。
隨機森林中有2 個重要的參數(shù),分別是決策樹數(shù)目“n_estimators”和單棵決策樹的最大特征數(shù)“max_features”,這兩個參數(shù)能夠較好的提升模型對噪聲的處理能力,克服過擬合問題[16-18]。本研究選擇這兩個參數(shù)作為需要搜索的超參數(shù),將二者組成參數(shù)對,進行搜索尋優(yōu)(圖2),最終利用網(wǎng)格搜索模型得分作為評估標(biāo)準(zhǔn)得到最優(yōu)模型以及最佳參數(shù)。
圖2 改進網(wǎng)格搜索算法的尋優(yōu)流程Fig.2 Optimization process of improved grid search algorithm
具體步驟如下:
1)確定決策樹的數(shù)量k和最大特征數(shù)m的范圍,設(shè)定大步長搜索范圍。
2)大步長搜索結(jié)果確定小步長搜索范圍,若輸出的最優(yōu)參數(shù)滿足要求,則進行下一步,否則,縮小步長,重復(fù)上述步驟,繼續(xù)搜索。
3)對網(wǎng)格節(jié)點上的每一組參數(shù)構(gòu)建隨機森林,選擇得分最優(yōu)的參數(shù)k,m。
隨機森林通過網(wǎng)格搜索得到最優(yōu)參數(shù)值,最優(yōu)參數(shù)得到的模型可以使用網(wǎng)格搜索參數(shù)best_score,即模型的平均交叉驗證得分來評估分類效果的好壞,得分越高表明該分類模型的分類效果更好。
以山西新元煤礦二條帶二采區(qū)三煤層作為研究區(qū)域,該區(qū)域的地質(zhì)異常體主要是斷層,還含有較少的陷落柱。斷層改變了煤巖層的埋藏條件,使煤層錯斷并發(fā)生顯著位移,一方面破壞了煤層的連續(xù)性和完整性,為煤層開采帶來阻力;另一方面,斷層處容易發(fā)生瓦斯突水、透水等事故,嚴(yán)重影響礦區(qū)的安全開采[19-20];而陷落柱會破壞煤層的穩(wěn)定性及連續(xù)性,減少煤炭資源儲量,同時陷落柱的存在還影響了工作面的常規(guī)布置,給煤礦安全生產(chǎn)帶來了重大的不利影響[21]。前期工程中利用地震勘探等地球物理探測方法得到的地震屬性數(shù)據(jù)信息量非常大。由于不同的屬性對相同目標(biāo)體敏感度不同,針對特定目標(biāo)體合理選擇敏感度較高的屬性數(shù)據(jù)進行分析有利于提高識別精度和結(jié)果的準(zhǔn)確性[22]。
研究中利用三維地震勘探成果,按照5×5 網(wǎng)格提取出研究區(qū)域3 號煤層所對應(yīng)的x、y坐標(biāo)及相關(guān)屬性數(shù)據(jù),基于已有研究成果及專家推薦選取對構(gòu)造敏感的十二種地震屬性,根據(jù)礦方提供的實際揭露構(gòu)造CAD 圖,對該區(qū)域內(nèi)的屬性數(shù)據(jù)進行分類標(biāo)記,將斷層區(qū)域標(biāo)記為2,陷落柱區(qū)域標(biāo)記為1,無構(gòu)造區(qū)域標(biāo)記為0。經(jīng)過屬性敏感性測試,最后得到1 397 組包含x、y坐標(biāo)以及標(biāo)記的數(shù)據(jù)集,而且該數(shù)據(jù)集包含有12 種地震屬性分別是:方差體切片、相干體切片、分頻、均方根振幅、平均能量、傾角、曲率、瞬時相位、瞬時振幅、瞬時頻率、最小振幅和最大振幅)。在算法改進以及模型構(gòu)建過程中,首先對這12 種屬性進行特征分析,之后進行優(yōu)化網(wǎng)格搜索的隨機森林模型的構(gòu)建以及模型預(yù)測效果的驗證。
利用特征相關(guān)性分析與特征在隨機森林算法分類效果中的影響二者結(jié)合對特征進行綜合性分析。首先對12 種屬性進行特征相關(guān)性分析,得到的屬性間相關(guān)性見表1,相關(guān)系數(shù)越大,兩個特征間的相關(guān)性越強,特征存在冗余,相關(guān)性越小則兩個特征間的相關(guān)性越弱,當(dāng)相關(guān)系數(shù)為0 時表明兩個特征之間是獨立的。之后在隨機森林算法中,對屬性進行特征重要性分析,確定這12 種屬性對于分類器構(gòu)建以及算法預(yù)測的重要性,見表2 與圖3。依據(jù)特征間的相關(guān)性分析與特征重要性分析來選擇特征。
表1 特征相關(guān)性分析Table 1 Feature correlation analysis
表2 特征重要性Table 2 Feature importance
圖3 地震屬性特征重要性Fig.3 Importance of seismic attribute feature
本數(shù)據(jù)集中特征相關(guān)性分析見表1,可以看到最大振幅與平均能量、瞬時振幅與均方根振幅之間相關(guān)性較大,而從表2 和圖3 中可以看到,不同的特征對于分類效果的影響不同,且這4 種屬性間的特征重要性差距不大。經(jīng)過進一步的算法測試對比試驗,發(fā)現(xiàn)4 個特征對本數(shù)據(jù)集分類效果影響都比較大,而且刪掉其中某一個特征后,算法預(yù)測的準(zhǔn)確率會下降(約下降3%),且本數(shù)據(jù)集特征較少,因此選擇保留原本12 個特征進行后續(xù)的算法優(yōu)化。
首先對分類器數(shù)量進行大步長搜索,設(shè)定隨機森林分類樹的數(shù)量n_estimators 初始搜索范圍為[50,1 000],步長設(shè)置為50,設(shè)定max_features 的范圍為[1,12],步長為1。利用Python 中的模型得分參數(shù)對模型進行評估,大步長搜索過程中模型得分受2 個參數(shù)影響的曲線如圖4 所示。小步長搜索過程中模型得分受2 個參數(shù)影響的曲線如圖5 所示。
圖4 大步長搜索模型得分Fig.4 Large step search model score
圖5 小步長搜索得分Fig.5 Small step search scores
由圖4 中曲線峰值為0.960 5,輸出參數(shù)值('max_features':3,'n_estimators': 50)。而且從圖4 中可以看到,當(dāng)基分類器的數(shù)目超過一定值時,模型的得分基本收斂,再增加基分類器的數(shù)目,效果基本不會提升,而且代碼運行速度會變慢。
下一步進行小范圍搜索,初步設(shè)定n_estimators 的范圍為[1,100];max_features 的范圍為[1, 12]。得到最優(yōu)參數(shù)對('max_features':3,'n_estimators': 58)。由于參數(shù)數(shù)據(jù)較多,因此在本論文中選擇最優(yōu)參數(shù)點附近的20 組數(shù)據(jù)作為參考,見表3。當(dāng)分類器數(shù)目為58,最大特征數(shù)為3 時,模型得分最高為0.963 3。
表3 參數(shù)對及得分Table 3 Parameter pairs and scores
為進一步驗證模型的可靠性,利用實地采集并且經(jīng)過處理后的其他幾個開采區(qū)域的地震屬性數(shù)據(jù)集進行驗證。在進行驗證時,為了節(jié)省工作,直接進行大步長(步長設(shè)定為50)網(wǎng)格搜索,初步得到較優(yōu)分類器數(shù)目,進行第二步小范圍搜索(步長設(shè)定為10),得到更加精確的分類器數(shù)目取值,最后進行步長為1 的細化分,得到最終模型參數(shù)以及參數(shù)。各數(shù)據(jù)集在改進網(wǎng)格搜索的隨機森林模型中的得分見表4??梢钥吹?,經(jīng)過改進后的隨機森林算法模型精確度均有不同程度的提高。
表4 隨機森林參數(shù)優(yōu)化算法驗證Table 4 Validation of optimization algorithm for random forest parameters
將改進后的隨機森林算法與GBDT(Gradient Boosting Decision Tree,梯度提升樹)、邏輯回歸、決策樹等3 種算法在本數(shù)據(jù)集上的預(yù)測結(jié)果進行比較,在比較預(yù)測分類效果時,為了對分類器的評估更全面,利用正確率、準(zhǔn)確率和f1score 等評估指標(biāo)來評估模型的分類效果。
在訓(xùn)練樣本中,真陽性(True Positive,TP):指被分類器正確分類的正例數(shù)據(jù);真陰性(True Negative,TN):指被分類器正確分類的負(fù)例數(shù)據(jù);假陽性(False Positive,F(xiàn)P):被錯誤地標(biāo)記為正例數(shù)據(jù)的負(fù)例數(shù)據(jù);假陰性(False Negative,F(xiàn)N):被錯誤地標(biāo)記為負(fù)例數(shù)據(jù)的正例數(shù)據(jù)。
針對全體訓(xùn)練樣本,正確率(Accuracy,A)計算方式為
針對正例:準(zhǔn)確率P計算公式為
召回率R的計算公式為
f1score 被定義為準(zhǔn)確率和召回率的調(diào)和平均數(shù),用它來綜合評估模型性能調(diào)和平均數(shù):
結(jié)果見表5。可以看到相比于其他算法,改進后的隨機森林算法模型預(yù)測準(zhǔn)確率更高,而且從算法正確率A、準(zhǔn)確率P、f1score等得分來看,模型的分類效果得到了相應(yīng)的提高。
表5 算法對比Table 5 Algorithm comparison
利用改進后的隨機森林算法模型進行構(gòu)造識別預(yù)測。依據(jù)礦方提供的新元煤礦二條帶二采區(qū)實際揭露后的勘探成果,按照1∶5 000 比例尺繪制得到該區(qū)域的實際揭露構(gòu)造CAD 圖,如圖6 所示。構(gòu)造圖中,斷層為線(圖6 中紫色線),陷落柱為面(圖6 中紅色面區(qū)域),藍色線部分為開采劃定的巷道。從圖6可以看到,該區(qū)域中主要構(gòu)造為斷層,陷落柱比較少。
圖6 二條帶實際揭露構(gòu)造CAD 圖Fig.6 CAD drawing of actual exposed structure of the second belt
研究中將地震屬性數(shù)據(jù)按照7∶3 的比例劃分為訓(xùn)練集和測試集對模型進行訓(xùn)練以及預(yù)測。預(yù)測得到地震屬性數(shù)據(jù)坐標(biāo)點以及標(biāo)記類型文件,利用課題組開發(fā)的軟件進行識別結(jié)果顯示,模型預(yù)測呈現(xiàn)出來的圖中斷層為線,陷落柱為面,得到識別結(jié)果如圖7 所示。
圖7 預(yù)測構(gòu)造Fig.7 Prediction structure
與該區(qū)域勘探得到的三維地震構(gòu)造CAD 圖(圖6)進行對比,可以看到預(yù)測得到的結(jié)果中,構(gòu)造數(shù)量預(yù)測較為準(zhǔn)確,而且預(yù)測生成的文本文件中構(gòu)造對應(yīng)的坐標(biāo)點比較精確,可以有效地預(yù)測該區(qū)域構(gòu)造所處地理位置,且進行有效識別。
為了進一步驗證模型,利用新元北采區(qū)西部地震屬性數(shù)據(jù)進行驗證,該礦區(qū)的三維地震構(gòu)造如圖8 所示,該驗證礦區(qū)中陷落柱構(gòu)造較多,斷層較少。得到的構(gòu)造預(yù)測如圖9 所示,改進后的算法模型預(yù)測得到的結(jié)果與該礦區(qū)構(gòu)造類型基本一致而且通過對生成文本文件中的數(shù)據(jù)對比觀察到坐標(biāo)基本符合。二條帶采區(qū)斷層構(gòu)造較多,陷落柱構(gòu)造較少;而北采區(qū)西部礦區(qū)陷落柱構(gòu)造較多,斷層構(gòu)造相對較少。但是通過試驗結(jié)果,可以看到該算法模型對于斷層和陷落柱都有較準(zhǔn)確地識別效果。
圖8 北采區(qū)西部實際揭露構(gòu)造CAD 圖Fig.8 CAD drawing of actual exposed structure in the west of North Mining Area
圖9 驗證礦區(qū)構(gòu)造預(yù)測結(jié)果Fig.9 verification of structural prediction results of the mining area
利用山西新元煤礦二條帶二采區(qū)三維地震勘探成果提取到的地震屬性數(shù)據(jù)集(感謝礦方與勘探方提供的數(shù)據(jù)),針對現(xiàn)有的研究中對地震屬性數(shù)據(jù)集要求較高且數(shù)據(jù)處理較復(fù)雜的問題,基于經(jīng)典的隨機森林算法模型,提出了一種改進網(wǎng)格搜索優(yōu)化隨機森林算法模型的方法。通過對網(wǎng)格搜索進行分步長搜索,對參數(shù)對進行調(diào)整,利用改進后的隨機森林算法對地震屬性數(shù)據(jù)進行融合分類預(yù)測,進而建立地質(zhì)構(gòu)造識別模型。將該算法模型與邏輯回歸、決策樹、GBDT 等幾種算法模型進行比較,在模型預(yù)測準(zhǔn)確率、算法正確率、準(zhǔn)確率、f1score 等評估標(biāo)準(zhǔn)進行比較證明該算法優(yōu)于其他機器學(xué)習(xí)算法。而且經(jīng)過在新元北采區(qū)西部地震屬性數(shù)據(jù)集上的測試,驗證了該算法模型在斷層和陷落柱等構(gòu)造識別中分類結(jié)果的準(zhǔn)確性與適用性。