李 棟,孫振明,李 梅,侯運(yùn)炳,毛善君,牛永壽
(1.中國礦業(yè)大學(xué)(北京)能源與礦業(yè)學(xué)院,北京100083;2.北京大學(xué) 遙感與地理信息系統(tǒng)研究所,北京100871;3.陜西旬邑青崗坪礦業(yè)有限公司,陜西 旬邑711300)
瓦斯防治是煤礦安全工作的重中之重,建國以來發(fā)生的24 起一次死亡百人以上的事故中,瓦斯事故19 起占總數(shù)的79%[1]。因此,對瓦斯的精準(zhǔn)預(yù)測對煤礦管理部門來說具有重要意義。瓦斯?jié)舛阮A(yù)測的模型主要包括神經(jīng)網(wǎng)絡(luò)[2-4]、灰色理論[5-6]、時(shí)間序列分析[7-9]和支持向量機(jī)[10-11]等。以上預(yù)測方法各有優(yōu)缺點(diǎn),或算法理論性不足,或泛化能力差,或只考慮了單一的瓦斯?jié)舛葧r(shí)間序列。支持向量機(jī)對樣本量要求少且有較強(qiáng)的非線性學(xué)習(xí)能力。最小二乘支持向量機(jī)(LSSVM)是支持向量機(jī)的延伸,但是其魯棒性較差。加權(quán)最小二乘支持向量機(jī)(WLSSVM)在計(jì)算權(quán)值時(shí)易產(chǎn)生誤判。綜合考慮了目標(biāo)測點(diǎn)的各類影響因素,基于離散點(diǎn)的分布特征,提出了一種自適應(yīng)加權(quán)最小二乘支持向量機(jī)(AWLSSVM)。AWLSSVM 的預(yù)測效果依賴于超參數(shù)的選取。粒子群算法(PSO)的參數(shù)較少,尋優(yōu)過程簡潔清楚,但初期迭代收斂速度慢,后期迭代容易陷入局部最優(yōu)?;煦缌W尤核惴ǎ–PSO)在粒子群每次迭代中都對每個(gè)粒子進(jìn)行混沌映射,迭代初期加大了全局搜索,但是后期不利于種群精細(xì)化搜索全局最優(yōu)解。自適應(yīng)混沌粒子群算法[12](ACPSO)只對每次迭代后部分適應(yīng)度值表現(xiàn)較好的粒子進(jìn)行混沌映射,而慣性權(quán)重的更新是隨迭代次數(shù)而減小的,迭代初期很可能因?yàn)樗俣容^大錯(cuò)過最優(yōu)粒子。基于此,提出了一種改進(jìn)混沌粒子群的多變量AWLSSVM 瓦斯預(yù)測模型,且實(shí)現(xiàn)了瓦斯?jié)舛鹊亩嗖筋A(yù)測,對礦井安全生產(chǎn)具有重要的指導(dǎo)意義。
粒子群算法的基本思想是通過個(gè)體之間的相互協(xié)作和信息共享來尋找全局最優(yōu)解,粒子速度和位置更新公式如下:
式中:vi、vi+1為第i 個(gè)粒子在t、t+1 時(shí)刻的速度;ω 為慣性因子;c1、c2為學(xué)習(xí)因子;rand1、rand2為(0,1)之間的隨機(jī)數(shù);xi、xi+1為第i 個(gè)粒子在t、t+1時(shí)刻的位置;pbesti為第i 個(gè)粒子在每次迭代后的最佳位置;gbesti為種群在迭代后最優(yōu)位置。
首先混沌初始化種群的位置和速度,提高了種群的多樣性和粒子搜索的遍歷性?;煦缬成洳捎靡痪S混沌映射Logistic 映射,公式如下:
式中:zi為第i 次迭代的混沌序列,初始值z0為(0,1)間的隨機(jī)數(shù),z0不取0.25,0.5,0.75(保證系統(tǒng)完全處于混沌狀態(tài));n 為迭代次數(shù);μ 為控制參數(shù)(通常取4,保證迭代生成的值是一種偽隨機(jī)分布的狀態(tài))。
混沌變量xi映射到混沌序列zi公式為:
通過載波函數(shù)可生成混沌變量xi:
式中:xmax、xmin為初始化設(shè)置的上限、下限。
將表現(xiàn)較差的粒子重新設(shè)定在較優(yōu)粒子的區(qū)間內(nèi)且對表現(xiàn)較優(yōu)的粒子速度權(quán)值按照適應(yīng)值的大小式(6)進(jìn)行更新,在保證全局搜索能力的條件下,又能提高種群的精細(xì)化搜索,避免陷入局部最優(yōu),進(jìn)而提高算法的收斂速度。
式中:ωmin、ωmax為慣性權(quán)重ω 的最小值和最大值;fav為當(dāng)前種群適應(yīng)度的平均值;fmin為種群的適應(yīng)度值的最小值;fi為粒子i 的適應(yīng)度值。
瓦斯?jié)舛鹊挠绊懸蛩乇姸啵腋饕蛩刂g呈現(xiàn)復(fù)雜的非線性特征,為了有效地利用多種影響因素,可以利用相空間重構(gòu)的思想,充分挖掘非線性動力系統(tǒng)的特征。
單變量時(shí)間序列[x1,x2,…,xn],重構(gòu)后的相空間為:
式中:m 為嵌入維度;τ 為延遲時(shí)間;Vi為m 維相空間中的相點(diǎn);M 為相點(diǎn)個(gè)數(shù)。
多變量相空間重構(gòu)是對每個(gè)變量分別進(jìn)行單變量重構(gòu),將重構(gòu)的相空間組合成1 個(gè)空間。采用互信息法確定延遲時(shí)間τ,假近鄰法確定嵌入維數(shù)m,得到重構(gòu)后的相空間和原動力系統(tǒng)是微分同胚的。
Suykens 等[11]在LSSVM 算法的基礎(chǔ)上提出了加權(quán)最小二乘支持向量機(jī)算法(WLSSVM),其優(yōu)化問題的Lagrange 函數(shù)L(w,b,ξ,α)可描述為:
式中:w 為權(quán)系數(shù)向量;φ(xi)為輸入到高維空間的映射;C 為正則化參數(shù);b 為閾值;αi(i=1,2,…,N)為對應(yīng)于xi的拉格朗日乘子;ξ 為誤差序列。
根據(jù)KKT(Karush-Khun-Tucker)條件,消去w,ξi,可得:
式(9) 可求得b 和α,輸入測試樣本得到WLSSVM 模型形式如下:
WLSSVM 權(quán)值計(jì)算公式如下:
式中:s1、s2的取值分別為2.5、3.0;s?為誤差序列的標(biāo)準(zhǔn)估計(jì)差。
式中:IQR 為誤差ξi序列從小到大排列,第三四分位與第一四分位數(shù)值的差。
式(11)所計(jì)算的權(quán)值是線性分布的,計(jì)算結(jié)果會導(dǎo)致誤判。從離散點(diǎn)的分布特征出發(fā)自適應(yīng)的計(jì)算權(quán)值,首先將離散點(diǎn)分成2 類:①高杠桿點(diǎn),這些點(diǎn)遠(yuǎn)離輸入數(shù)據(jù)中心;②高殘差點(diǎn),這些點(diǎn)的預(yù)測值與實(shí)際值相差較大。加權(quán)方法可以將離散點(diǎn)的不利影響降到最低。
第i 個(gè)樣本數(shù)據(jù)的殘差權(quán)值vξ
i 定義如下:
式中:T 為殘差的魯棒尺度估計(jì)值。
T 定義如下:
式中:‖·‖為歐氏距離;median 為中位值;xi為第i 個(gè)樣本數(shù)據(jù);c 為常數(shù)(通常取4);x 為所有輸入樣本。
綜合考慮上述2 種權(quán)值,則第i 個(gè)樣本數(shù)據(jù)的權(quán)值vi定義如下:
混沌粒子群優(yōu)化的AWLSSVM 瓦斯?jié)舛阮A(yù)測步驟如下:
Step1:初始化粒子群算法的參數(shù),混沌初始化種群的位置、速度。
Step2:由LSSVM 回歸方程式(17)確定每個(gè)樣本的擬合殘差ξ,利用式(11)、式(12)計(jì)算初始化權(quán)值v,代入式(9)、式(10)得到WLSSVM 模型:
式中:E 為N×N 單位陣。
Step3:重新計(jì)算每個(gè)樣本數(shù)據(jù)的殘差ξ,利用式(13)~式(16)重新計(jì)算權(quán)值v。
Step4:根據(jù)權(quán)值v 代入到式(9)、式(10)建立AWLSSVM 模型。
Step5:將3 折交叉驗(yàn)證集的平均絕對誤差(MAE)做為粒子的適應(yīng)度值,確定個(gè)體最優(yōu)位置pbesti和全局最優(yōu)位置gbesti。
式中:y?i為預(yù)測值;yi為真實(shí)值。
Step6:將性能較好的m 個(gè)粒子進(jìn)行混沌優(yōu)化,剩下的粒子隨機(jī)初始化到表現(xiàn)較好的粒子空間內(nèi),從而獲得新的種群。
Step7:檢查是否達(dá)到最大迭代次數(shù)或者全局最優(yōu)適應(yīng)度值的變化量是否小于設(shè)定的閾值,若是,則終止,否則轉(zhuǎn)到Step2,進(jìn)行下一次迭代。
數(shù)據(jù)來自陜西某礦綜采工作面監(jiān)控監(jiān)測系統(tǒng)上隅角瓦斯?jié)舛龋ˋ02 測點(diǎn))、工作面10 m 瓦斯?jié)舛龋ˋ01 測點(diǎn))、風(fēng)速(A09 測點(diǎn))、粉塵含量(A11 測點(diǎn))、回風(fēng)15 m 溫度(A07 測點(diǎn))、回風(fēng)15 m 瓦斯?jié)猓ˋ08 測點(diǎn))。樣本采集時(shí)間為2019-05-26T12:19 到2019-05-31T17:19,原始數(shù)據(jù)采樣間隔為1 min,數(shù)據(jù)分布具有明顯的鋸齒狀特點(diǎn),因此采用5 min 做為采樣間隔,獲得1 500 組樣本,選取前1 400 組樣本進(jìn)行模型訓(xùn)練,剩余樣本進(jìn)行模型測試。監(jiān)控監(jiān)測數(shù)據(jù)樣本集見表1。
表1 監(jiān)控監(jiān)測數(shù)據(jù)樣本集Table 1 Monitoring data sample set
由表1 可知,各類數(shù)據(jù)的量綱不同,因此采用極差化處理方法,對樣本進(jìn)行歸一化處理,歸一化區(qū)間為[0,1]。
搜集到的數(shù)據(jù)包含3 個(gè)監(jiān)測點(diǎn)的瓦斯?jié)舛葦?shù)據(jù),瓦斯?jié)舛葦?shù)據(jù)分布如圖1??紤]到A08 測點(diǎn)瓦斯?jié)舛缺O(jiān)測值較高,因此以A08 測點(diǎn)為目標(biāo)預(yù)測測點(diǎn)構(gòu)建瓦斯?jié)舛阮A(yù)測模型,更具有現(xiàn)實(shí)意義。
由于現(xiàn)場監(jiān)測環(huán)境復(fù)雜、傳感器故障等問題,導(dǎo)致采集的數(shù)據(jù)中含有噪點(diǎn),首先采用移動平均法對A08 測點(diǎn)數(shù)據(jù)進(jìn)行降噪處理,降躁后數(shù)據(jù)如圖2。
采 用SPSS 軟 件 對A02、A01、A09、A11、A07、A08 監(jiān)測點(diǎn)進(jìn)行了皮爾遜相關(guān)性分析。為保證實(shí)驗(yàn)結(jié)果的可靠性,應(yīng)盡可能選取更多數(shù)據(jù)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)采用原始采樣間隔的17 820 個(gè)點(diǎn),各影響因素相關(guān)性分析結(jié)果見表2。
圖1 瓦斯?jié)舛葦?shù)據(jù)分布Fig.1 Gas concentration data distribution
圖2 降躁后數(shù)據(jù)Fig.2 Data after reducing noise
表2 各影響因素相關(guān)性分析結(jié)果Table 2 Correlation analysis results of various influencing factors
由 表2 可 知,A01 和A08 是 高 度 相 關(guān),A02、A09、A07 和A08 是中度相關(guān),A11 和A08 是低度相關(guān)。因此,選擇瓦斯、風(fēng)速、溫度、粉塵做為多變量預(yù)測模型的輸入?yún)?shù)是合理的。對A08 求時(shí)間延遲和嵌入維數(shù),互信息法求時(shí)間延遲如圖3,假近鄰法求嵌入維數(shù)如圖4。經(jīng)過多次實(shí)驗(yàn)?zāi)M,對各類監(jiān)測點(diǎn)數(shù)據(jù)均采用嵌入維數(shù)為4,時(shí)間延遲為6,進(jìn)行多變量相空間重構(gòu)。
原始用于訓(xùn)練的1 400 組數(shù)據(jù)相空間重構(gòu)后為1 382 組樣本,作為AWLSSVM 模型的輸入,對第1 401 個(gè)到第1 470 個(gè)瓦斯?jié)舛冗M(jìn)行預(yù)測?;煦缌W尤核惴ǖ某跏紖?shù)設(shè)置如下:種群數(shù)量50(其中進(jìn)行混沌變換的粒子數(shù)為30),迭代次數(shù)100,學(xué)習(xí)因子c1=c2=1.494 45,慣性權(quán)重ωmin=0.4,ωmax=0.9,正則化參數(shù)C 的取值范圍為[0.1,1 000],核函數(shù)參數(shù)σ2的取值范圍為[0.01,1 000],最優(yōu)適應(yīng)度變化量閾值設(shè)置為10-7。
圖3 互信息法求時(shí)間延遲Fig.3 Mutual information method for time delay
圖4 假近鄰法求嵌入維數(shù)Fig.4 Calculating the embedding dimension using the fake neighbor method
僅考慮A08 相空間重構(gòu)后的樣本做為模型的輸入端進(jìn)行單變量瓦斯?jié)舛阮A(yù)測。分別采用PSO、CPSO、ACPSO 和改進(jìn)的混沌粒子群算法優(yōu)化單變量AWLSSVM,適應(yīng)度值變化曲線如圖5。
圖5 適應(yīng)度值變化曲線Fig.5 Change curves of fitness value
由圖5 可知,提出的混沌粒子群算法相對于PSO、CPSO、ACPSO 具有較快的收斂速度,4 種算法的粒子群分布如圖6,由粒子群的分布密度可知,提出的混沌粒子群算法相對于PSO、CPSO、ACPSO 具有較好的全局搜索能力。
圖6 4 種算法的粒子群分布Fig.6 Particle swarm distribution of four algorithms
考慮到優(yōu)化模型超參數(shù)的過程中,樣本量大、多變量預(yù)測中樣本維數(shù)較大,且混沌粒子群算法采用了3 折交叉驗(yàn)證計(jì)算粒子的適應(yīng)度值,迭代過程需要多次計(jì)算式(9),導(dǎo)致計(jì)算代價(jià)過大。對于每一組粒子進(jìn)行訓(xùn)練時(shí),均隨機(jī)打亂樣本集且隨機(jī)抽取300 個(gè)樣本進(jìn)行模型的訓(xùn)練,實(shí)驗(yàn)所用電腦配置為i9 處理器,32 GB 運(yùn)行內(nèi)存,尋優(yōu)過程可從73 min 21 s 降低到了2 min 33 s,即縮小了粒子群算法的迭代時(shí)間,同時(shí)也保證模型學(xué)習(xí)到了所有的樣本集,使得本文的預(yù)測結(jié)果更具有現(xiàn)實(shí)意義。
混沌粒子群算法優(yōu)化的LSSVM、WLSSVM、AWLSSVM 模型單變量預(yù)測結(jié)果對比如圖7。
綜合A02、A01、A09、A11、A07、A08 相空間重構(gòu)后的樣本作為模型的輸入端進(jìn)行多變量AWLSSVM瓦斯?jié)舛阮A(yù)測。單變量AWLSSVM 與多變量AWLSSVM 預(yù)測結(jié)果、預(yù)測誤差分別如圖8、圖9。
采用MAE 作為評價(jià)模型預(yù)測精度的指標(biāo),不同時(shí)間步內(nèi)單變量預(yù)測和多變量預(yù)測對應(yīng)的LSSVM、WLSSVM、AWLSSVM 的預(yù)測精度見表3。
圖7 單變量預(yù)測結(jié)果對比Fig.7 Comparison of univariate prediction results
圖8 單變量AWLSSVM 與多變量AWLSSVM 預(yù)測結(jié)果Fig.8 Prediction results of univariate AWLSSVM and multivariate AWLSSVM
圖9 單變量AWLSSVM 與多變量AWLSSVM 預(yù)測誤差Fig.9 Prediction error between univariate AWLSSVM and multivariate AWLSSVM
由表3 可知,AWLSSVM 單變量預(yù)測精度相對于LSSVM、WLSSVM 分別提高了5.3%和6.7%;多變量AWLSSVM 相對于單變量AWLSSVM 五步預(yù)測精度 分 別 提 高 了39.3% 、49.6% 、55.9% 、59.7% 和62.5%。多變量預(yù)測精度明顯優(yōu)于單變量預(yù)測,且實(shí)現(xiàn)了瓦斯?jié)舛鹊亩嗖筋A(yù)測。
1)提出了1 種基于混沌粒子群優(yōu)化的多變量AWLSSVM 瓦斯?jié)舛阮A(yù)測模型,可利用監(jiān)控監(jiān)測數(shù)據(jù)進(jìn)行瓦斯?jié)舛葧r(shí)間序列預(yù)測。
表3 不同模型預(yù)測精度對比Table 3 Comparison of prediction accuracy of different models
2)提出了1 種新的混沌粒子群算法,其收斂速度和全局搜索能力均優(yōu)于PSO、CPSO、ACPSO。
3)根據(jù)離散點(diǎn)的分布特征,自適應(yīng)的計(jì)算權(quán)值,建立了AWLSSVM 模型。AWLSSVM 模型的預(yù)測精度均高于LSSVM、WLSSVM 模型。
4)綜合考慮了目標(biāo)測點(diǎn)的相關(guān)影響因素,確定了相鄰點(diǎn)瓦斯、溫度、風(fēng)速、粉塵做為影響因素指標(biāo)。應(yīng)用到陜西某礦回風(fēng)15 m 瓦斯?jié)舛阮A(yù)測中。結(jié)果表明,多變量預(yù)測結(jié)果明顯高于單變量預(yù)測結(jié)果且實(shí)現(xiàn)了瓦斯?jié)舛鹊亩嗖筋A(yù)測。所提算法具有較高的預(yù)測精度和較好的泛化能力,可為瓦斯的防治提供理論依據(jù)。