魏國(guó)營(yíng),裴 蒙
(1.河南理工大學(xué) 安全科學(xué)與工程學(xué)院,河南 焦作 454000;2.河南省瓦斯地質(zhì)與瓦斯治理重點(diǎn)實(shí)驗(yàn)室—省部共建國(guó)家重點(diǎn)實(shí)驗(yàn)室培育基地,河南 焦作 454003)
煤炭是我國(guó)的主體能源,占我國(guó)一次能源消費(fèi)的六成以上。與此同時(shí),煤炭事故災(zāi)害種類多且較為嚴(yán)重,瓦斯、水害、火災(zāi)、沖擊地壓等災(zāi)害一應(yīng)俱全[1],其中瓦斯事故占煤礦事故的比例較高。據(jù)統(tǒng)計(jì),2006到2016年,瓦斯事故共發(fā)生1 462次,占事故總數(shù)的10.38%,死亡人數(shù)6 364人,占總死亡人數(shù)的27.31%,平均單次死亡率為4.35之多[2]。
煤層瓦斯含量是預(yù)測(cè)礦井瓦斯涌出量和煤與瓦斯突出、進(jìn)行瓦斯抽放防治的重要依據(jù)之一[3-5],準(zhǔn)確地預(yù)測(cè)煤層瓦斯含量對(duì)煤礦瓦斯事故的防治具有重要指導(dǎo)意義。但煤層瓦斯含量影響因素眾多,瓦斯賦存具有復(fù)雜性、非線性、動(dòng)態(tài)性和隨機(jī)不確定性等特性[6],使得準(zhǔn)確預(yù)測(cè)煤層瓦斯含量面臨困難。近年來,國(guó)內(nèi)外研究人員提出了許多方法來解決這一問題,如多元回歸[7]、灰色理論[8]、人工神經(jīng)網(wǎng)絡(luò)[8-11]、支持向量機(jī)(Support Vector Regression,SVR)[10-12]等。其中,人工神經(jīng)網(wǎng)絡(luò)和SVR效果較好,但人工神經(jīng)網(wǎng)絡(luò)追求結(jié)構(gòu)風(fēng)險(xiǎn)最小化的思路,容易出現(xiàn)過學(xué)習(xí)現(xiàn)象;而基于統(tǒng)計(jì)學(xué)理論的SVR,以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為原則,彌補(bǔ)了人工神經(jīng)網(wǎng)絡(luò)的不足,且具有良好的泛化能力[12]。魏建平等[9]將煤與瓦斯突出危險(xiǎn)性預(yù)測(cè)中斷層、褶皺、煤巖層傾角的定量評(píng)價(jià)方法應(yīng)用到煤層瓦斯含量的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型中,取得了較好的效果;劉程程等[11]將主成分分析法(Principal Component Analysis,PCA)應(yīng)用于支持向量回歸機(jī)煤層瓦斯含量預(yù)測(cè),消除影響因素之間的相關(guān)性,降低數(shù)據(jù)的維度,提高了預(yù)測(cè)的準(zhǔn)確率;姜諳男等[12]將標(biāo)準(zhǔn)粒子群算法(Particle Swarm Optimization,PSO)用于優(yōu)化支持向量機(jī)參數(shù),避免了參數(shù)選擇的盲目性。
雖然SVR對(duì)比神經(jīng)網(wǎng)絡(luò)有一定的優(yōu)勢(shì),但是預(yù)測(cè)精度受參數(shù)選擇影響較大。而PSO在對(duì)SVR參數(shù)尋優(yōu)時(shí)存在穩(wěn)定性不強(qiáng)的現(xiàn)象,并不能很好的解決SVR的參數(shù)選取問題。同時(shí)針對(duì)SVR在煤層瓦斯含量預(yù)測(cè)方面沒有考慮地質(zhì)構(gòu)造影響的情況。本文在前人研究的基礎(chǔ)上,綜合考慮影響瓦斯賦存的多種因素,采用PCA降維,將改進(jìn)的自適應(yīng)混合粒子群算法(Adaptive Hybrid Particle Swarm Optimization,AHPSO)用于SVR進(jìn)行參數(shù)尋優(yōu),建立回歸模型。
PCA[13]是通過構(gòu)建原始變量的適當(dāng)線性組合來獲得一系列線性無關(guān)的綜合變量,從中選取若干個(gè)綜合變量使其含有足夠多的原始變量信息。
SVR的本質(zhì)是通過核函數(shù)將低維非線性數(shù)據(jù)映射到高維空間,使其呈現(xiàn)線性,從而進(jìn)行線性回歸,以上問題可以轉(zhuǎn)化為凸二次規(guī)劃問題。
PSO的優(yōu)點(diǎn)在于簡(jiǎn)單、容易實(shí)現(xiàn)并且調(diào)整參數(shù)不多,但在復(fù)雜函數(shù)的多峰極值問題中很容易陷入局部最優(yōu),發(fā)生早熟收斂情況,難以得到滿意的最優(yōu)解。這是因?yàn)闃?biāo)準(zhǔn)粒子群中慣性權(quán)重w為固定值,較大的w會(huì)使粒子下一步產(chǎn)生較大的速度而錯(cuò)過最優(yōu)點(diǎn),較小的w會(huì)使粒子下一步產(chǎn)生較小的速度陷入局部最優(yōu)[14]。為了避免算法早熟收斂及后期粒子在最優(yōu)解附近徘徊震蕩的現(xiàn)象,文獻(xiàn)[15]引入1種自適應(yīng)粒子群算法,如式(1)所示:
(1)
式中:wmax,wmin分別為粒子慣性權(quán)重的最大值和最小值;f為當(dāng)前粒子的適應(yīng)度值;favg為每代粒子的適應(yīng)度值的平均值;fmin為粒子群中的最小適應(yīng)度值。
該算法可以根據(jù)粒子的當(dāng)前適應(yīng)度值調(diào)整慣性權(quán)重,對(duì)大于平均適應(yīng)度值的粒子取較小的w,使其得到保護(hù);對(duì)小于平均適應(yīng)度值的粒子取較大的w,使其更快趨向于更好地搜索空間。同時(shí),當(dāng)粒子趨于局部最優(yōu)時(shí),w增加,當(dāng)粒子分散時(shí),w減少。該算法有效地平衡了搜索和開發(fā)的能力,確保了粒子的多樣性和收斂性。
為了進(jìn)一步提升算法的認(rèn)知能力,防止算法陷入局部最優(yōu),產(chǎn)生早熟現(xiàn)象,在自適應(yīng)粒子群算法中添加位置變異算子,即選擇一定比例的粒子,重新對(duì)其位置的某一維度在設(shè)定范圍內(nèi)隨機(jī)分布。各個(gè)粒子的自適應(yīng)粒子位置變異算子計(jì)算公式為:
(2)
式中:xmax,d,xmin,d為粒子的取值范圍;δ為變異因子;CR為閾值。
SVR的參數(shù)選取對(duì)模型結(jié)果有很大影響,在訓(xùn)練集相同的情況下,不同參數(shù)的選取對(duì)回歸預(yù)測(cè)的結(jié)果有很大差異。本文中PCA-AHPSO-SVR模型在利用PCA消除相關(guān)變量、減少數(shù)據(jù)維度的同時(shí),綜合了AHPSO算法高效的全局搜索能力與SVR良好的泛化能力,可以有效地應(yīng)用于煤層瓦斯含量預(yù)測(cè)。
PCA-AHPSO-SVR模型中采用的徑向基核函數(shù) ( Radial Basis Function,RBF) 的參數(shù)寬度g,SVR中的懲罰系數(shù)C和不敏感損失函數(shù)參數(shù)ε對(duì)建模的預(yù)測(cè)精度和泛化能力均有影響。將這3個(gè)參數(shù)分別作為自適應(yīng)粒子群中粒子速度、位置和方向的3個(gè)維度,以均方根誤差函數(shù)作為其對(duì)應(yīng)的適應(yīng)度函數(shù),不同位置的粒子(即不同的參數(shù)組合)會(huì)反饋回來不同的適應(yīng)度值,用以判斷粒子位置(參數(shù)組合)的好壞。計(jì)算流程如圖1所示,具體實(shí)施步驟如下:
1)讀取樣本數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理(歸一化及PCA降維),并產(chǎn)生訓(xùn)練集、測(cè)試集。
2)程序初始化。初始化粒子速度與位置,將SVR的3個(gè)參數(shù)(C,g,ε)作為每個(gè)粒子的三維坐標(biāo)。
3)粒子適應(yīng)度值計(jì)算及比較,以設(shè)定的適應(yīng)度函數(shù)即均方差函數(shù)為評(píng)定函數(shù),計(jì)算各粒子的適應(yīng)度值并比較,確定群體最優(yōu)適應(yīng)度值。
4)更新粒子速度及位置。
5)終止條件判斷。達(dá)到最大迭代次數(shù)或適應(yīng)度小于給定精度時(shí),輸出最優(yōu)組合參數(shù)C,g,ε,否則繼續(xù)迭代。
6)根據(jù)輸出最優(yōu)參數(shù),建立支持向量回歸機(jī)模型,對(duì)測(cè)試集進(jìn)行預(yù)測(cè)和反歸一化,得到預(yù)測(cè)結(jié)果。
圖1 具體計(jì)算流程Fig.1 The specific calculation flow chart
為了評(píng)估所建立預(yù)測(cè)模型的精確度和穩(wěn)定性,采用以下參數(shù)對(duì)瓦斯含量預(yù)測(cè)結(jié)果進(jìn)行評(píng)估:
1)平均絕對(duì)誤差MAE,反映預(yù)測(cè)值偏離真實(shí)值的大小。
2)平均相對(duì)誤差MRE,反映預(yù)測(cè)值的可靠性。
3)均方根誤差RMSE,反映預(yù)測(cè)值與真實(shí)值之間的離散程度。
4)預(yù)測(cè)模型的精準(zhǔn)度FMA。
以上幾個(gè)參數(shù)的計(jì)算公式如下:
(3)
(4)
(5)
(6)
式中:n為樣本數(shù);i=1,2,…,n;Xi為真實(shí)值;Xi′為預(yù)測(cè)值。
根據(jù)煤層瓦斯含量的現(xiàn)有研究情況[8-16],確定影響煤層瓦斯賦存的主要地質(zhì)參數(shù)包括煤深、上覆基巖厚度、圍巖等效系數(shù)[10]、煤厚、褶皺復(fù)雜系數(shù)、斷層復(fù)雜系數(shù)和煤巖層傾角系數(shù)[17]。
煤層瓦斯含量預(yù)測(cè)訓(xùn)練樣本用X表示,樣本為:
(7)
式中:Khl為瓦斯含量,m3/t;Kms為埋深,m;Kjy為上覆基巖厚度,m;Kwy為圍巖等效系數(shù);Kmh為煤厚,m;Kzz為褶皺復(fù)雜系數(shù);Kdc為斷層復(fù)雜系數(shù);Kqj為煤巖層傾角復(fù)雜系數(shù)。
斷層復(fù)雜程度系數(shù)Kdc反映了統(tǒng)計(jì)單元內(nèi)斷層對(duì)整個(gè)單元的破壞程度,其計(jì)算公式如下:
(8)
式中:S為統(tǒng)計(jì)單元面積,m2;H為斷距,m;L為統(tǒng)計(jì)單元內(nèi)斷層的延伸長(zhǎng)度,m;α為斷層傾角,(°)。
褶皺復(fù)雜程度系數(shù)計(jì)算公式為:
(9)
式中:Lmax為計(jì)算單元內(nèi)彎曲度最大的等高線的長(zhǎng)度,m;Lmaxo為計(jì)算單元內(nèi)彎曲度最大的等高線兩端點(diǎn)間的最短距離,m。
傾角復(fù)雜程度系數(shù)的計(jì)算公式為:
(10)
式中:αmax為統(tǒng)計(jì)單元內(nèi)煤層最大傾角,(°);αmin為統(tǒng)計(jì)單元內(nèi)煤層最小傾角,(°)。
以九里山礦煤樣為例,提取出30組樣本數(shù)據(jù),如表1所示。
將表1中前20組數(shù)據(jù)作為訓(xùn)練樣本,后10組數(shù)據(jù)作為測(cè)試樣本。首先對(duì)樣本數(shù)據(jù)歸一化,歸一化函數(shù)采用MATLAB中的mapminmax函數(shù),歸一化區(qū)間為[-1,1],將歸一化后的數(shù)據(jù)進(jìn)行PCA降維處理,結(jié)果如圖2所示。為了盡可能多地保留原數(shù)據(jù)所持有的信息,選取90%以上的累積貢獻(xiàn)率,即選取前5個(gè)主成分作為模型的輸入。
樣本序號(hào)瓦斯含量/(m3·t-1)埋深/m基巖厚度/m煤厚/m圍巖等效系數(shù)斷層系數(shù)褶皺系數(shù)傾角系數(shù)131.01305.42207.995.390.339 40.173 80.000 20.040 3225.63327.96191.745.740.450 80.306 20.000 10.035 4327.63530.00334.4110.590.410 50.042 10.000 40.042 1415.72485.78281.146.640.538 10.097 70.000 10.029 059.67284.00144.485.620.300 00.033 80.001 20.016 6612.53400.92256.233.610.774 00.026 40.004 80.019 3716.71400.92256.233.610.774 00.026 40.004 80.027 8812.74400.92256.233.610.774 00.000 90.000 10.031 5927.86309.48174.285.800.315 80.148 00.000 80.030 21013.38474.73306.272.660.371 80.001 50.000 50.022 21125.32350.41209.546.080.900 00.141 60.181 20.019 11213.36334.80206.453.060.356 30.000 60.019 60.053 81326.43449.32265.313.250.900 00.198 40.011 90.023 5146.99286.04163.382.160.512 50.007 50.002 30.024 81511.14350.35234.836.520.367 60.002 50.000 10.024 61612.62379.35245.306.850.810 00.001 50.000 20.021 41717.01407.12254.096.440.418 50.000 80.000 50.019 81811.28303.55177.697.930.431 70.393 50.001 60.022 71922.19283.03157.777.410.300 00.033 20.000 60.029 0209.13284.00144.485.620.300 00.033 80.001 40.023 52115.27438.26241.674.840.400 00.001 60.000 10.021 32217.72500.97308.555.350.300 00.006 40.000 10.014 82318.99363.62219.255.790.566 30.100 30.000 40.044 02417.20324.24192.015.500.484 80.292 40.000 80.014 22511.20295.22157.956.570.300 00.000 50.000 90.021 12616.96176.4472.108.130.390 30.000 50.000 50.021 22720.83274.15165.953.180.352 40.209 70.006 90.027 82810.29332.63201.185.430.300 00.000 90.089 30.019 32917.12156.8252.847.790.423 10.103 80.000 30.022 63015.65221.50107.586.680.669 80.000 80.000 60.016 6
把預(yù)處理后的樣本數(shù)據(jù)作為模型的輸入,基于MATLAB平臺(tái)編寫程序,詳細(xì)流程如圖1,設(shè)定APSO參數(shù)如下:粒子規(guī)模設(shè)置為40,迭代次數(shù)設(shè)置為300次,加速常數(shù)C1,C2設(shè)置值為1.494 45,慣性權(quán)重w根據(jù)適應(yīng)度值更新,將ε-SVR的3個(gè)參數(shù)作為粒子群速度和方向的3個(gè)維度,參數(shù)C,g的尋優(yōu)邊界設(shè)置為[2-10,210],ε的尋優(yōu)邊界設(shè)置為 [10-4,1]。
為了驗(yàn)證PCA-AHPSO-SVR模型對(duì)煤層瓦斯含量的預(yù)測(cè)性能,選用PSO-SVR模型和PCA-PSO-SVR模型進(jìn)行比較,3個(gè)模型均采用RBF核函數(shù),PSO算法和AHPSO算法設(shè)置相同的參數(shù)。由于PSO算法和AHPSO算法都是啟發(fā)式算法,因此具有一定的隨機(jī)性,單次運(yùn)行結(jié)果并不能很好地表明三者的區(qū)別,因此在相同的運(yùn)行環(huán)境下,分別將3種模型運(yùn)行30次。首先對(duì)各模型的最優(yōu)解和實(shí)測(cè)值進(jìn)行比較,并計(jì)算最優(yōu)解和預(yù)測(cè)集中各樣本的相對(duì)誤差以驗(yàn)證預(yù)測(cè)精準(zhǔn)性,其中PCA-AHPSO-SVR的最優(yōu)解的尋優(yōu)結(jié)果為C=145.973 6;g=1.009 5,ε=0.088 3,結(jié)果如表2所示;然后對(duì)30次運(yùn)行結(jié)果基于所構(gòu)建的評(píng)估方法進(jìn)行評(píng)估,選取最優(yōu)解、最差解和平均解來驗(yàn)證3種模型的性能,結(jié)果如表3所示。
表2 預(yù)測(cè)值與相對(duì)誤差Table 2 Predicted value and relative error
表3 各算法30次性能指標(biāo)Table 3 30 times performance index of Each algorithm
由表2和表3數(shù)據(jù)可知,3個(gè)模型中PCA-AHPSO-SVR模型最優(yōu),預(yù)測(cè)結(jié)果更為接近實(shí)測(cè)值,PCA-PSO-SVR模型次之。
從30次運(yùn)行結(jié)果看,PCA-PSO-SVR模型較PSO-SVR模型最優(yōu)解和平均解均提高5%左右,由此可知,PCA降維、消除相關(guān)變量后有助于提高預(yù)測(cè)準(zhǔn)確率,但二者對(duì)應(yīng)的4個(gè)評(píng)估指標(biāo)的標(biāo)準(zhǔn)差并沒有顯著差異,所以二者的穩(wěn)定性方面并無差別;而PCA-AHPSO-SVR模型平均預(yù)測(cè)準(zhǔn)確率達(dá)到97.18%,明顯高于另外2種模型,而且對(duì)比3種模型所對(duì)應(yīng)的4個(gè)評(píng)估指標(biāo)30次運(yùn)行結(jié)果的標(biāo)準(zhǔn)差發(fā)現(xiàn),采用AHPSO算法的PCA-AHPSO-SVR模型每個(gè)指標(biāo)的標(biāo)準(zhǔn)差均遠(yuǎn)小于其他2種模型,這表明AHPSO改善了PSO容易陷入局部最優(yōu)的特性,是1種尋優(yōu)能力更強(qiáng)、穩(wěn)定性更佳的尋優(yōu)方法,也體現(xiàn)了PCA-AHPSO-SVR模型良好的泛化性能、學(xué)習(xí)能力與穩(wěn)定性。
1)對(duì)粒子群算法進(jìn)行了改進(jìn),構(gòu)建了PCA-AHPSO-SVR煤層瓦斯含量預(yù)測(cè)模型,并應(yīng)用于煤層瓦斯含量預(yù)測(cè)方面,在相同環(huán)境下與PCA-PSO-SVR模型和PSO-SVR模型分別獨(dú)立運(yùn)行30次,PCA-AHPSO-SVR模型計(jì)算結(jié)果平均準(zhǔn)確率達(dá)到97.18%,明顯高于另外2種模型,而且穩(wěn)定性更強(qiáng)。
2)構(gòu)建的PCA-AHPSO-SVR煤層瓦斯含量預(yù)測(cè)模型中,通過主成分分析法可以消除數(shù)據(jù)相關(guān)性,減少數(shù)據(jù)維度,降低計(jì)算難度提高預(yù)測(cè)準(zhǔn)確率。
3)構(gòu)建的PCA-AHPSO-SVR煤層瓦斯含量預(yù)測(cè)模型在學(xué)習(xí)樣本附近有較高的預(yù)測(cè)精準(zhǔn)度,大量且多樣性的學(xué)習(xí)樣本將有助于提高模型預(yù)測(cè)的準(zhǔn)確性和泛化能力。
中國(guó)安全生產(chǎn)科學(xué)技術(shù)2019年3期