江澤華,袁志剛,2,3*,謝東海,2,3,邵耀華
(1.湖南科技大學(xué) 資源環(huán)境與安全工程學(xué)院,湖南 湘潭 411201;2.湖南科技大學(xué) 煤礦安全開采技術(shù)湖南省重點(diǎn)實(shí)驗(yàn)室,湖南 湘潭 411201;3.湖南科技大學(xué) 南方煤礦瓦斯與頂板災(zāi)害預(yù)防控制安全生產(chǎn)重點(diǎn)實(shí)驗(yàn)室,湖南 湘潭 411201)
我國水文地質(zhì)復(fù)雜,特別在華北型礦區(qū),煤層底板多含奧灰含水層,礦井突水事故時(shí)有發(fā)生[1].礦井突水嚴(yán)重威脅礦工的生命安全,也影響了礦井的安全生產(chǎn).為確保煤炭資源的安全開采,如何快速且準(zhǔn)確地對(duì)煤層底板突水進(jìn)行預(yù)測(cè)成為亟待解決的問題.針對(duì)煤礦底板突水問題我國學(xué)者做了大量研究并取得了很多成果[2-7].
煤層開采底板的“下三帶”與“四帶”的劃分對(duì)防治礦井底板突水起到了重要作用[2-3].李春元等分析了深部開采砌體梁結(jié)構(gòu)失穩(wěn)擾動(dòng)底板破壞的動(dòng)載源特征,揭示了深部開采底板突水機(jī)理[4];白峰青等開展了現(xiàn)場(chǎng)注水模擬試驗(yàn),揭示了底板巖體破裂變化特征[5];王妍等用彈性力學(xué)方法求取隔水關(guān)鍵層的應(yīng)力以及位移,為采場(chǎng)底板突水的預(yù)測(cè)預(yù)報(bào)提供理論支撐[6];王向前等通過在數(shù)值模擬軟件模擬與突水系數(shù)法結(jié)合,實(shí)現(xiàn)了工作面帶壓開采的可行性分析[7].
但由于巖體介質(zhì)的非線性、復(fù)雜性、不確定性等特點(diǎn)[8],傳統(tǒng)通過理論分析、經(jīng)驗(yàn)數(shù)值計(jì)算、相似模擬以及數(shù)值模擬滿足不了對(duì)底板突水預(yù)測(cè)的需要.近年來,人工智能的發(fā)展為解決該問題提供了一種新的途徑[9],即利用機(jī)器學(xué)習(xí)對(duì)煤層底板突水進(jìn)行科學(xué)預(yù)測(cè)[10-15].
趙斐提出了模糊-支持向量機(jī)模型[10];施龍青等提出了Fuzzy_PCA_PSO_SVC以及基于灰狼算法優(yōu)化的Elman神經(jīng)網(wǎng)絡(luò)模型[11,12];張風(fēng)達(dá)提出了基于PSO算法優(yōu)化的SVM模型[13];溫廷新等提出了PSO_SVM_AdaBoost預(yù)測(cè)模型[14].以上研究為煤層底板突水預(yù)測(cè)提供了新方法,但這些算法選取的因子較多,且需要對(duì)參數(shù)進(jìn)行優(yōu)化,尚不能滿足對(duì)煤層底板突水進(jìn)行快速且準(zhǔn)確預(yù)測(cè)的需要.為此,本文提出了基于主成分分析的最優(yōu)路徑森林模型(PCA-OPF),該模型通過主成分分析(PCA)將多因子減少為少數(shù)幾個(gè)主成分,簡(jiǎn)化了最優(yōu)路徑森林算法(OPF)的數(shù)據(jù)結(jié)構(gòu),同時(shí)利用了OPF算法本身具有與參數(shù)無關(guān)且不需要參數(shù)優(yōu)化的特點(diǎn)[15],能對(duì)煤層底板突水進(jìn)行快速且準(zhǔn)確地預(yù)測(cè).
煤層底板突水是由多個(gè)非線性因子導(dǎo)致的一種復(fù)雜動(dòng)力現(xiàn)象[1].目前,煤層底板突水預(yù)測(cè)選擇的因子較多,且這些因子之間存在一定的相關(guān)性,導(dǎo)致在數(shù)據(jù)集的分析、處理過程中往往因計(jì)算步驟過多而把問題變得更加復(fù)雜.
PCA是一種利用降維來簡(jiǎn)化數(shù)據(jù)集的數(shù)據(jù)處理方法,其通過把高維數(shù)據(jù)投影到低維層面,使原始樣本數(shù)據(jù)中的多個(gè)因子減為少數(shù)幾個(gè)能包含原始樣本數(shù)據(jù)大部分信息的綜合性指標(biāo)[16].限于篇幅原因,PCA的具體原理、步驟不再贅述,詳見文獻(xiàn)[17].
OPF是由Papa等人提出的一種新的基于圖的分類器[18-21].基于數(shù)據(jù)樣本標(biāo)簽的不同,OPF算法可分為3種類型:數(shù)據(jù)集有標(biāo)簽的監(jiān)督式OPF算法(SupervisedOPF)[18]、數(shù)據(jù)集沒有標(biāo)簽的無監(jiān)督式OPF算法[19]和2種情況都有的半監(jiān)督式OPF算法[20].由此可知,OPF算法的選擇主要根據(jù)數(shù)據(jù)集的標(biāo)簽來確定.對(duì)于煤層底板突水預(yù)測(cè),由于數(shù)據(jù)樣本較少且每個(gè)樣本均能被正確標(biāo)記,因此選擇SupervisedOPF算法對(duì)數(shù)據(jù)進(jìn)行處理,并對(duì)SupervisedOPF算法的原理進(jìn)行介紹.
1.2.1 SupervisedOPF原理
數(shù)據(jù)集Z是被正確用i標(biāo)記的樣本集合(i=1,2,…,c),它被分為訓(xùn)練數(shù)據(jù)集(Z1)、測(cè)試數(shù)據(jù)集(Z2).而OPF算法對(duì)數(shù)據(jù)的分類是通過構(gòu)建完全圖實(shí)現(xiàn)的.具體步驟如下:
1) 訓(xùn)練階段
OPF算法將Z1中的每1個(gè)樣本看做為1個(gè)節(jié)點(diǎn),并且各節(jié)點(diǎn)之間兩兩相連,并用弧代表他們的連接關(guān)系,從而構(gòu)成了一個(gè)完全圖G1=(V1,A1)[18].其中,V1代表著Z1各樣本間的弧,A1代表了Z1各樣本的特征向量.
完全圖通過生成最小生成樹(MST)[21]獲得原型[18]樣本s,s∈Z1,即來自不同分類的所有相鄰樣本.一旦原型樣本被找到,它們通過路徑代價(jià)函數(shù)fmax相互競(jìng)爭(zhēng)并征服來自訓(xùn)練集的其他樣本,進(jìn)而形成一個(gè)以原型樣本為根節(jié)點(diǎn)的最優(yōu)路徑樹(OPT)[18],所有的最優(yōu)路徑樹就組成了最優(yōu)路徑森林(OPF)[18].OPF算法對(duì)最優(yōu)路徑有如下定義:
路徑πs是各個(gè)以樣本s為終點(diǎn)的節(jié)點(diǎn)序列.可以通過式(1)為每條路徑賦予一個(gè)代價(jià)f(π).
(1)
式中:fmax()為當(dāng)路徑只有一個(gè)樣本s時(shí)的代價(jià),若s為原型樣本則代價(jià)為零,若為s他則代價(jià)為無窮大.fmax(πs·)為其他樣本t沿著路徑πs·到樣本s之間的最大距離.
如果路徑πs的代價(jià)f(π)比其他同樣以樣本s為終點(diǎn)的路徑τs代價(jià)要小,則路徑πs為最優(yōu)路徑.因此最優(yōu)路徑的最小化代價(jià)C(t)為
(2)
2)測(cè)試階段
在測(cè)試階段中,每一個(gè)屬于測(cè)試集的樣本t被單獨(dú)分類,它連接了在訓(xùn)練階段產(chǎn)生的各個(gè)最優(yōu)路徑樹的所有節(jié)點(diǎn),并計(jì)算連接到各最優(yōu)路徑樹的代價(jià),若找到路徑代價(jià)最小的最優(yōu)路徑樹,則該最優(yōu)路徑樹根節(jié)點(diǎn)的標(biāo)簽(原型樣本標(biāo)簽)即為測(cè)試集樣本t的標(biāo)簽.
煤層底板突水預(yù)測(cè)的步驟:首先收集煤層頂板突水預(yù)測(cè)相關(guān)樣本數(shù)據(jù),并將樣本數(shù)據(jù)導(dǎo)入OPF算法中進(jìn)行解析以及分組;其次利用PCA進(jìn)行主成分分析;最后采用OPF算法對(duì)降維后的樣本數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試并得到預(yù)測(cè)結(jié)果.
通過對(duì)文獻(xiàn)[10-14]的煤層底板突水預(yù)測(cè)樣本數(shù)據(jù)調(diào)研,最終確定了本文煤層底板突水預(yù)測(cè)所采用的30個(gè)樣本數(shù)據(jù).根據(jù)OPF算法的要求,對(duì)獲取的樣本數(shù)據(jù)進(jìn)行解析以及分組,即將30個(gè)樣本數(shù)據(jù)分為24個(gè)訓(xùn)練集和6個(gè)測(cè)試集,分組后的原始樣本數(shù)據(jù)如表1所示.表1中,若煤層底板未突水則標(biāo)簽值為1,若突水則標(biāo)簽值為2;X1,X2,X3,X4,X5,X6和X7分別為選取的斷層分維值因子、取芯率因子、隔水層厚度因子(m)、單位涌水量因子(L/(s·m))、滲透系數(shù)因子(m/d)、底板含水層總厚度因子(m)和承壓含水層水壓因子(MPa).以上7個(gè)因子對(duì)煤層底板突水危險(xiǎn)性的影響詳見文獻(xiàn)[12].
表1 原始樣本數(shù)據(jù)
為判斷PCA主成分分析是否可行,首先須對(duì)數(shù)據(jù)進(jìn)行相關(guān)性分析.由表1可知,原始數(shù)據(jù)中因子存在量綱,由于量綱影響導(dǎo)致部分因子間的值數(shù)量級(jí)相差過大(如因子X1和X5),對(duì)相關(guān)性分析結(jié)果產(chǎn)生影響,造成分析不準(zhǔn)確[16].因此,為了消除量綱影響,首先對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,得到處理后的樣本數(shù)據(jù)如表2所示(限于篇幅,表2只給出了部分原本數(shù)據(jù)).
表2 標(biāo)準(zhǔn)化處理后的部分樣本數(shù)據(jù)
通過對(duì)已消除量綱影響的樣本數(shù)據(jù)(表2)進(jìn)行相關(guān)性分析[17],得到相關(guān)系數(shù)矩陣如表3所示.
表3 相關(guān)系數(shù)矩陣
由表3可知,隔水層厚度X3與單位涌水量X4之間的相關(guān)性系數(shù)為0.96,而滲透系數(shù)X5與隔水層厚度X3、單位涌水量X4與滲透系數(shù)X5、取芯率X2與斷層分維值X1之間的相關(guān)性系數(shù)分別為0.82,0.76與0.74.結(jié)果表明,選取的7個(gè)突水因子之間具有較強(qiáng)的相關(guān)性,須對(duì)其進(jìn)行主成分分析.
采用PCA對(duì)標(biāo)準(zhǔn)化后的數(shù)據(jù)(表2)進(jìn)行處理,得到了主成分分析的碎石圖(圖1)及其分析結(jié)果(表4).
圖1 主成分分析碎石
表4 主成分分析結(jié)果
由表4可知,前3個(gè)主成分F1~F3的累計(jì)貢獻(xiàn)率為90.4%,表明前3個(gè)主成分包含了預(yù)測(cè)所需要的絕大部分信息,可滿足預(yù)測(cè)需求[11].因此,可將原數(shù)據(jù)的7個(gè)因子降維為3個(gè)主成分,3個(gè)主成分因子荷載如表5所示.
表5 主成分因子荷載
根據(jù)表5,得到主成分F1,F(xiàn)2,F(xiàn)3用數(shù)據(jù)標(biāo)準(zhǔn)化后的7個(gè)因子表示為
F1=0.781X1+0.815X2+0.954X3+0.882X4+0.771X5-0.55X6+0.334X7;
(3)
F2=0.516X1+0.115X2-0.112X3-0.076X4-0.486X5+0.430X6+0.863X7;
(4)
F3=-0.077X1-0.431X2+0.220X3+0.409X4+0.259X5+0.647X6-0.009X7.
(5)
由式(3)、式(4)和式(5)得到采用PCA處理后的樣本數(shù)據(jù)如表6所示.限于篇幅,表6只給出了部分樣本數(shù)據(jù).
表6 主成分分析后的部分?jǐn)?shù)據(jù)
采用監(jiān)督式OPF算法對(duì)表6的數(shù)據(jù)進(jìn)行訓(xùn)練,得到了訓(xùn)練階段的原型集樣本(其包含的樣本編號(hào)為11,16,14,6,5,4, 13和21這8個(gè)原型樣本),并基于此原型集樣本構(gòu)建了最優(yōu)路徑森林.
其次,利用訓(xùn)練階段所構(gòu)建的最優(yōu)路徑森林對(duì)測(cè)試集中的每一個(gè)樣本進(jìn)行測(cè)試,得到的預(yù)測(cè)結(jié)果如表7所示.
表7 OPF預(yù)測(cè)結(jié)果與實(shí)際情況對(duì)比
由表7可知,采用PCA-OPF模型得到的6個(gè)測(cè)試集樣本的預(yù)測(cè)結(jié)果與實(shí)際情況相符.
1) 采用PCA主成分分析法可將用于煤層底板突水預(yù)測(cè)的7個(gè)因子降維為3個(gè)主成分,3個(gè)主成分既保留了原始數(shù)據(jù)的大部分信息以滿足預(yù)測(cè)需求,同時(shí)又簡(jiǎn)化了OPF算法的數(shù)據(jù)結(jié)構(gòu),減少了訓(xùn)練和測(cè)試工作量.
2) 構(gòu)建的PCA-OPF模型利用PCA對(duì)原始數(shù)據(jù)進(jìn)行簡(jiǎn)化,并采用OPF算法進(jìn)行訓(xùn)練和測(cè)試,訓(xùn)練和測(cè)試階段與參數(shù)無關(guān)且不需進(jìn)行參數(shù)尋優(yōu),可避免已有方法的局限性.
3)基于PCA-OPF模型的煤層底板突水預(yù)測(cè)結(jié)果表明,采用PCA-OPF模型得到的測(cè)試集中6個(gè)樣本的預(yù)測(cè)結(jié)果與實(shí)際情況相符.