李 勝,韓永亮,李軍文
遼寧工程技術(shù)大學(xué) 礦業(yè)學(xué)院,遼寧 阜新 123000
瓦斯涌出是造成礦井安全事故發(fā)生和制約煤礦安全生產(chǎn)的災(zāi)害之一。由于我國(guó)高瓦斯礦井所占的比重較高,隨著工作面機(jī)械化開(kāi)采、集約化大生產(chǎn)以及深度開(kāi)采的步伐逐步增大,瓦斯涌出量隨之增加,事故危險(xiǎn)性增大[1]。迄今為止,眾多學(xué)者關(guān)于煤礦絕對(duì)瓦斯涌出量預(yù)測(cè)方法進(jìn)行了深入的研究,積累了大量的研究成果,主要包括:統(tǒng)計(jì)預(yù)測(cè)法[2]、分源預(yù)測(cè)法[3]等線性預(yù)測(cè)法,灰色理論[4]、神經(jīng)網(wǎng)絡(luò)[5]、卡爾曼濾波法[6]、隨機(jī)森林法[7]及其他耦合預(yù)測(cè)方法[8]等非線性預(yù)測(cè)方法。以上是在瓦斯涌出量預(yù)測(cè)研究中取得的有益探索,然而,絕對(duì)瓦斯涌出量預(yù)測(cè)是一個(gè)受多重因素影響的復(fù)雜動(dòng)力學(xué)系統(tǒng)[9],通常預(yù)測(cè)算法只涉及相互關(guān)聯(lián)的少數(shù)影響指標(biāo),算法在精度和泛化能力上需進(jìn)一步提高。
支持向量機(jī)(SVM)[10]遵循結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,在處理小樣本事件具有很好的預(yù)測(cè)能力,然而,瓦斯涌出量影響指標(biāo)間非線性、耦合性及信息冗余特征顯著,若將影響指標(biāo)直接作為模型輸入向量,會(huì)干擾模型的預(yù)測(cè)精度和泛化能力,并且模型參數(shù)的選擇對(duì)預(yù)測(cè)精度和泛化性能較敏感,因此,為提高模型預(yù)測(cè)精度,須采用優(yōu)化算法對(duì)模型進(jìn)行改進(jìn)。主成分分析法避免影響指標(biāo)間的信息冗余,通過(guò)提取主要因數(shù)建立不相關(guān)影響因子,可簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu);果蠅優(yōu)化算法(FOA)是一種先進(jìn)的全局智能優(yōu)化方法,適用于模型參數(shù)尋優(yōu),但算法存在易陷入局部收斂問(wèn)題,須進(jìn)一步改進(jìn)[11]。鑒于此,筆者提出首先運(yùn)用主成分分析法(PCA)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,實(shí)現(xiàn)樣本數(shù)據(jù)壓縮和降維處理,使輸入向量更具有典型代表性,同時(shí),采用改進(jìn)的果蠅算法優(yōu)化支持向量機(jī)進(jìn)行參數(shù)動(dòng)態(tài)尋優(yōu),建立基于PCA-MFOA-SVM的回采工作面絕對(duì)瓦斯涌出量耦合預(yù)測(cè)模型,并通過(guò)仿真實(shí)例驗(yàn)證模型的優(yōu)越性。
主成分分析法(PCA)是應(yīng)用多元統(tǒng)計(jì)技術(shù)將影響事物發(fā)展的多個(gè)相關(guān)因素組合為少量不相關(guān)且蘊(yùn)涵大量原始信息的新變量。信息量的多少主要反映在新變量的方差上,方差越大所蘊(yùn)涵的信息量就越大。通過(guò)對(duì)原始數(shù)據(jù)求取自相關(guān)矩陣,然后根據(jù)自相關(guān)矩陣求取特征值,計(jì)算貢獻(xiàn)率和累計(jì)貢獻(xiàn)率,并根據(jù)相應(yīng)的特征向量確定主成分[12],具體分析過(guò)程如下:
(1)中心標(biāo)準(zhǔn)化處理。為消除原始變量不同量綱、數(shù)量級(jí)及數(shù)值的差異,首先對(duì)原始數(shù)據(jù)進(jìn)行中心標(biāo)準(zhǔn)化處理,得無(wú)量綱數(shù)據(jù)新矩陣Y=[yij]。
(2)由新矩陣Y構(gòu)建相關(guān)系數(shù)矩陣R,求解矩陣R的k個(gè)非負(fù)特征值 (λ1≥λ2≥…≥λk)及其對(duì)應(yīng)的特征向量HP(p=1,2,…,k)。
(3)確定主成分個(gè)數(shù)n。特征值λ為對(duì)應(yīng)主成分的方差,主成分個(gè)數(shù)n的選取取決于方差貢獻(xiàn)率累加和即累計(jì)貢獻(xiàn)率?n,通常選取累計(jì)貢獻(xiàn)率滿足85%以上作為主成分個(gè)數(shù)n選取的指標(biāo),即前n個(gè)主成分蘊(yùn)涵了原始變量的絕大部分信息。
(4)構(gòu)建新變量。n個(gè)主成分對(duì)應(yīng)的特征向量Hn構(gòu)建矩陣Z=Ym×kHk×n,代替原始變量進(jìn)行后續(xù)計(jì)算。
支持向量機(jī)(SVM)在做回歸預(yù)測(cè)時(shí),其基本思路是通過(guò)采用內(nèi)積函數(shù)定義的非線性映射將非線性樣本空間轉(zhuǎn)換為一個(gè)高維空間[13],進(jìn)而在這個(gè)高維空間中對(duì)轉(zhuǎn)化后的樣本進(jìn)行分析。
(2)引入不敏感損失系數(shù)ε、非負(fù)松弛變量ξi,ξi*,建立尋找未知參數(shù)ω,b的數(shù)學(xué)規(guī)劃問(wèn)題。
(3)引入拉格朗日函數(shù),令核函數(shù)K(xi,xj)=φ(xi)φ(xj),將數(shù)學(xué)規(guī)劃問(wèn)題轉(zhuǎn)換為對(duì)偶形式。
(4)求解最優(yōu)解a,a*,并求取參數(shù)ω*和b*,進(jìn)而建立支持向量機(jī)回歸函數(shù)表達(dá)式:
核函數(shù)K(xi,xj)存在多種形式,在缺少先驗(yàn)知識(shí)的條件下,為保證算法更好地實(shí)現(xiàn)非線性化,通常選取正定核函數(shù)——徑向基(RBF)函數(shù)K(xi,xj)=exp(-g||xi-xj||2)作為模型核函數(shù)。
SVM參數(shù)的選擇對(duì)模型收斂精度和泛化能力有重要影響,而標(biāo)準(zhǔn)FOA在對(duì)參數(shù)迭代尋優(yōu)過(guò)程中,所有個(gè)體只聚集在當(dāng)前迭代的最優(yōu)個(gè)體位置上,種群多樣性特征表現(xiàn)不明顯,降低了迭代搜索效率,若該個(gè)體不是全局最優(yōu),算法易陷入局部收斂和早熟的問(wèn)題,這就會(huì)降低算法的收斂精度和效率[14]。鑒于此,本文采用三維搜索空間代替二維空間以擴(kuò)大果蠅搜尋的空間自由度,利用群體味道濃度方差判定作為FOA局部收斂判定依據(jù),根據(jù)混沌映射規(guī)則,將優(yōu)化變量映射為混沌變量,利用混沌變量的遍歷性和內(nèi)在規(guī)律性實(shí)現(xiàn)全局尋優(yōu),即建立改進(jìn)的果蠅優(yōu)化算法(MFOA)并對(duì)參數(shù)迭代尋優(yōu),MFOA優(yōu)化SVM的流程(見(jiàn)圖1)和具體步驟如下:
圖1 MFOA優(yōu)化SVM流程圖
(1)初始化果蠅參數(shù),設(shè)定果蠅的初始位置X1,Y1,Z1,果蠅群體規(guī)模k,最大迭代次數(shù)n,給定方差閾值ξ和混沌遍歷次數(shù)N。
(2)設(shè)定果蠅個(gè)體利用嗅覺(jué)在三維空間下尋找食物的隨機(jī)方向的搜尋距離值Rvalue,鑒于優(yōu)化參數(shù)為(C,g),X,Y,Z分別取為k行2列。
(3)由于先前無(wú)法確定食物源的具體位置,根據(jù)個(gè)體與原點(diǎn)的距離Li,計(jì)算個(gè)體味道濃度判定值Si,并對(duì)優(yōu)化參數(shù)(C,g)賦值。
(4)yij為樣本實(shí)際值,f(xij)為回歸預(yù)測(cè)值,學(xué)習(xí)樣本采用3折交叉驗(yàn)證,將S(i,:)帶入適應(yīng)度函數(shù)(fitness function),計(jì)算果蠅群體中每個(gè)個(gè)體的適應(yīng)度值ft。
(5)在群體中找出味道濃度最優(yōu)的個(gè)體。
(6)記錄并保留最優(yōu)濃度值及其對(duì)應(yīng)的X,Y,Z位置,果蠅憑借其視覺(jué)向該位置飛去。
式中,VXi為第i個(gè)混沌變量,VX(m)i為變量VXi在第m步變換后的值,Xi∈(ai,bi),VXi∈[0,1]且VXi≠{0.25,0.5,0.75},Xi'為混沌變量VXi轉(zhuǎn)化后獲得的新的變量值,新變量值Yi',Zi'獲取過(guò)程亦同。
(8)執(zhí)行進(jìn)程(3)~(6)計(jì)算果蠅個(gè)體新位置的味道濃度判定值Si',將其帶入適應(yīng)度函數(shù)計(jì)算果蠅個(gè)體的適應(yīng)度值fti'。若fti'<fbest,則fbest=fti',同時(shí)記錄對(duì)應(yīng)果蠅個(gè)體的新位置,并轉(zhuǎn)向進(jìn)程(7)。否則,直接轉(zhuǎn)向進(jìn)程(7)。
(9)迭代執(zhí)行步驟(2)~(8),達(dá)到目標(biāo)精度要求閾值或迭代次數(shù)最大值n時(shí),迭代終止。
絕對(duì)瓦斯涌出量預(yù)測(cè)是一個(gè)復(fù)雜的動(dòng)態(tài)系統(tǒng),傳統(tǒng)預(yù)測(cè)研究方法只考慮少量幾個(gè)參數(shù),存在模型預(yù)測(cè)精度低、泛化能力不足等現(xiàn)象,要達(dá)到準(zhǔn)確預(yù)測(cè)瓦斯涌出量的目的,需綜合考慮各復(fù)雜因素間的不確定關(guān)系[15]。因此,為提高算法預(yù)測(cè)精度,根據(jù)開(kāi)灤集團(tuán)某一礦區(qū)的實(shí)測(cè)數(shù)據(jù),選取煤層原始瓦斯含量X1(m3/t)、煤層深度X2(m)、厚度X3(m)、推進(jìn)速度X4(m/d)、采出率X5、臨近層瓦斯含量X6(m3/t)、臨近層厚度X7(m)、層間距X8(m)、層間巖性X9、開(kāi)采強(qiáng)度X10(t/d)作為輸入樣本,瓦斯涌出量X11(m3/t)作為輸出樣本(見(jiàn)表1)。模型首先采用主成分分析法(PCA)對(duì)輸入樣本進(jìn)行預(yù)處理,消除影響指標(biāo)的相關(guān)性,實(shí)現(xiàn)數(shù)據(jù)壓縮和降維處理;將主成分計(jì)算的樣本數(shù)據(jù)作為SVM的輸入向量,瓦斯涌出量作為其輸出向量,結(jié)合MFOA優(yōu)化算法,優(yōu)化回歸函數(shù)得相關(guān)參數(shù),建立基于PCA-MFOA-SVM的回采工作面瓦斯涌出量預(yù)測(cè)耦合模型。當(dāng)對(duì)未知絕對(duì)瓦斯涌出量進(jìn)行預(yù)測(cè)時(shí),根據(jù)上述主成分影響因素輸入值,模型自動(dòng)根據(jù)確定的回歸函數(shù)預(yù)測(cè)出瓦斯涌出量,具體流程(見(jiàn)圖2)。
圖2 基于耦合模型的回采工作面瓦斯涌出量預(yù)測(cè)流程
由于瓦斯涌出量影響因素?cái)?shù)值間存在不同的量綱和數(shù)量級(jí),且數(shù)值間差異性明顯,因此,首先對(duì)輸入樣本(X1~X10)進(jìn)行中心標(biāo)準(zhǔn)化轉(zhuǎn)化,利用MATLAB軟件對(duì)轉(zhuǎn)化后的10項(xiàng)指標(biāo)進(jìn)行主成分分析,計(jì)算結(jié)果見(jiàn)表2。
應(yīng)用殘差均方根和相對(duì)誤差均方根分析由主成分重建樣本數(shù)據(jù)與原始數(shù)據(jù)之間的差距,用以評(píng)價(jià)信息量損失的大小。由表2可以看出,第一主成分的方差貢獻(xiàn)率為65.386 0%,前四個(gè)主成分累積貢獻(xiàn)率達(dá)到94.437 1%,殘差均方根為0.119 8,相對(duì)誤差均方根為5.316%。根據(jù)通常采用的主成分擇取標(biāo)準(zhǔn),累積貢獻(xiàn)率達(dá)到85%可作為主成分個(gè)數(shù)選擇的指標(biāo),因此,10項(xiàng)影響指標(biāo)可用前4個(gè)主成分代替,且信息損失量較小。由表2中前4個(gè)主成分與原始變量的關(guān)系,寫(xiě)出主成分與原變量的線性組合:
表1 瓦斯涌出量與影響因素監(jiān)測(cè)數(shù)據(jù)統(tǒng)計(jì)樣本
表2 主成分計(jì)算結(jié)果
其中,Y為樣本X按中心標(biāo)準(zhǔn)化轉(zhuǎn)化后的矩陣,按照式(18)分別計(jì)算樣本的主成分得分,并由主成分得分構(gòu)建模型樣本數(shù)據(jù)(見(jiàn)表3)。
以主成分作為模型輸入?yún)?shù),瓦斯涌出量作為輸出參數(shù),此時(shí),模型原始輸入樣本經(jīng)PCA處理方法由10維降為4維,將表3樣本空間分為訓(xùn)練樣本集和預(yù)測(cè)樣本集,其中前1~15組數(shù)據(jù)作為訓(xùn)練樣本集,用于進(jìn)行訓(xùn)練學(xué)習(xí)機(jī)器和計(jì)算回歸參數(shù),后16~18組數(shù)據(jù)作為測(cè)試樣本集,用以檢驗(yàn)?zāi)P皖A(yù)測(cè)的精度。采用MFOA優(yōu)化SVM參數(shù)C和g,模型參數(shù)確定如下:隨機(jī)初始化果蠅起始位置及方向,設(shè)定果蠅群體規(guī)模為20,最大迭代次數(shù)為500,混沌遍歷次數(shù)為2,方差閾值設(shè)置為0.000 01,采用三折交互驗(yàn)證模式,由經(jīng)驗(yàn)一般設(shè)取C∈[0 200],g∈[0 100];SVM模型以徑向基核函數(shù)為模型核函數(shù),損失函數(shù)值設(shè)為0.01。按照?qǐng)D2所示的模型預(yù)測(cè)流程,經(jīng)MFOA算法優(yōu)化求得參數(shù)C=38.653 0,g=3.092 2,將所得參數(shù)帶入SVM模型中并對(duì)訓(xùn)練樣本集中的前15組樣本進(jìn)行訓(xùn)練,以獲取參數(shù)最優(yōu)訓(xùn)練模型。為了測(cè)試模型的優(yōu)越性,對(duì)測(cè)試樣本集中的3組數(shù)據(jù)進(jìn)行仿真預(yù)測(cè),訓(xùn)練和預(yù)測(cè)結(jié)果見(jiàn)圖3~4。由圖可知,訓(xùn)練后模型預(yù)測(cè)的均方誤差mse為0.002 45,模型決定系數(shù)R2為0.960 59,預(yù)測(cè)結(jié)果表明基于PCA-MFOA-SVM模型預(yù)測(cè)具有較好的擬合泛化能力。
表3 瓦斯涌出量與主成分得分?jǐn)?shù)據(jù)統(tǒng)計(jì)
圖3 訓(xùn)練樣本集預(yù)測(cè)結(jié)果
為進(jìn)一步凸顯模型的優(yōu)越性,將該模型與PCA-FOASVM、PCA-GA-SVM[16]預(yù)測(cè)模型在相同配置條件下進(jìn)行工作面瓦斯涌出量預(yù)測(cè)對(duì)比分析,選取絕對(duì)誤差、相對(duì)誤差、標(biāo)準(zhǔn)差、模型預(yù)測(cè)決定系數(shù)、訓(xùn)練時(shí)間作為模型評(píng)價(jià)指標(biāo),預(yù)測(cè)結(jié)果對(duì)比見(jiàn)表4。
圖4 測(cè)試樣本集預(yù)測(cè)結(jié)果
由表4可知,運(yùn)用PCA-MFOA-SVM模型預(yù)測(cè)的平均絕對(duì)誤差為0.077 5 m3/t,平均相對(duì)誤差為1.323 7%,標(biāo)準(zhǔn)差為0.002 5,預(yù)測(cè)誤差值明顯低于其他模型,表明該模型具有較高的預(yù)測(cè)精度;模型決定系數(shù)為0.960 6,表明該模型具有很強(qiáng)的擬合能力;模型預(yù)測(cè)時(shí)間為22.966 5 s,預(yù)測(cè)效率須進(jìn)一步提高。綜合評(píng)價(jià)指標(biāo)表明,基于PCA-MFOA-SVM的預(yù)測(cè)模型具有較高的預(yù)測(cè)精度和擬合泛化能力,將其應(yīng)用于工作面瓦斯涌出量預(yù)測(cè)中能夠?qū)崿F(xiàn)理想的預(yù)測(cè)結(jié)果。
本文針對(duì)回采工作面絕對(duì)瓦斯涌出量預(yù)測(cè)提出了一種新的預(yù)測(cè)方法,預(yù)測(cè)結(jié)果表明應(yīng)用該模型具有顯著的優(yōu)越性,并在研究中得出以下結(jié)論:
(1)運(yùn)用主成分分析法對(duì)10個(gè)影響指標(biāo)進(jìn)行主成分特征提取,通過(guò)選取4個(gè)主成分進(jìn)行回歸分析,消除了信息冗余,實(shí)現(xiàn)了模型數(shù)據(jù)壓縮和降維處理,從而簡(jiǎn)化了模型結(jié)構(gòu)。
表4 三種模型預(yù)測(cè)結(jié)果對(duì)比
(2)引入混沌映射準(zhǔn)則,建立三維搜索空間下的改進(jìn)的果蠅優(yōu)化算法,并利用該算法訓(xùn)練支持向量機(jī)預(yù)測(cè)模型并進(jìn)行參數(shù)動(dòng)態(tài)尋優(yōu),提高了模型的預(yù)測(cè)精度和效率。
(3)仿真結(jié)果表明,基于PCA-MFOA-SVM回采工作面瓦斯涌出量模型與其他模型相比具有較高的預(yù)測(cè)精度和擬合泛化能力,且綜合性能優(yōu)于其他模型,可運(yùn)用于瓦斯涌出量動(dòng)態(tài)預(yù)測(cè)。
[1]李潤(rùn)求,施式亮,羅文柯.煤礦瓦斯爆炸事故特征與耦合規(guī)律研究[J].中國(guó)安全科學(xué)學(xué)報(bào),2010,20(2):69-74.
[2]姜文忠,霍中剛,秦玉金.礦井瓦斯涌出量預(yù)測(cè)技術(shù)[J].煤炭科學(xué)技術(shù),2008,36(6):1-4.
[3]戴廣龍,汪有清,張純?nèi)?,?保護(hù)層開(kāi)采工作面瓦斯涌出量預(yù)測(cè)[J].煤炭學(xué)報(bào),2007,32(4):382-385.
[4]李勝,寧志勇,朱小強(qiáng),等.基于灰色理論預(yù)測(cè)五陽(yáng)礦未受采動(dòng)影響煤層瓦斯含量[J].科技導(dǎo)報(bào),2012,30(32):71-74.
[5]梁曉珍,宋存義,王依.唐山礦瓦斯涌出量動(dòng)態(tài)預(yù)測(cè)模型[J].北京科技大學(xué)學(xué)報(bào),2012,34(3):260-263.
[6]王曉路,劉健,盧建軍.基于虛擬狀態(tài)變量的卡爾曼濾波瓦斯涌出量預(yù)測(cè)[J].煤炭學(xué)報(bào),2011,36(1):80-85.
[7]溫廷新,張波,邵良杉.煤與瓦斯突出預(yù)測(cè)的隨機(jī)森林模型[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(10):233-237.
[8]付華,史冬冬.基于IGA-LSSVM的煤礦瓦斯涌出量預(yù)測(cè)模型研究[J].中國(guó)安全科學(xué)學(xué)報(bào),2013,23(10):51-55.
[9]何利文,施式亮,宋譯,等.回采工作面瓦斯涌出的復(fù)雜性及其度量[J].煤炭學(xué)報(bào),2008,33(5):547-550.
[10]戴宏亮.小波支持向量回歸在瓦斯涌出量預(yù)測(cè)中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(7):15-17.
[11]韓俊英,劉成忠.自適應(yīng)混沌果蠅優(yōu)化算法[J].計(jì)算機(jī)應(yīng)用,2013,33(5):1313-1316.
[12]周松林,茆美琴,蘇建徽.基于主成分分析與人工神經(jīng)網(wǎng)絡(luò)的風(fēng)電功率預(yù)測(cè)[J].電網(wǎng)技術(shù),2011,35(9):128-132.
[13]李勝,韓永亮.基于MFOA-SVM露天礦邊坡變形量預(yù)測(cè)研究[J].中國(guó)安全生產(chǎn)科學(xué)技術(shù),2015,11(1):11-16.
[14]楊書(shū)佺,舒勤,何川.改進(jìn)的果蠅算法及其在PPI網(wǎng)絡(luò)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(12):291-294.
[15]張少帥,楊勝?gòu)?qiáng),鹿存榮,等.基于瓦斯涌出量預(yù)測(cè)的近距離煤層群開(kāi)采順序優(yōu)化選擇[J].中國(guó)安全生產(chǎn)科學(xué)技術(shù),2011,7(9):60-63.
[16]徐國(guó)祥,楊振建.PCA-GA-SVM模型的構(gòu)建及應(yīng)用研究[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2011(2):135-147.