卞 凱, 周孟然, 胡 鋒, 來(lái)文豪, 閆鵬程, 宋紅萍, 戴榮英, 胡天羽
安徽理工大學(xué)電氣與信息工程學(xué)院, 安徽 淮南 232001
涌水災(zāi)害已成為煤礦五大災(zāi)害中影響礦井安全作業(yè)的第二大災(zāi)害[1]。 礦井涌水不僅需要現(xiàn)場(chǎng)早期預(yù)警, 還需要準(zhǔn)確判斷涌水水源的類型[2], 這有利于及時(shí)掌握涌水水害信息并采取必要的治理手段, 降低災(zāi)害所帶來(lái)的傷亡事故率與重大經(jīng)濟(jì)損失。 煤礦井下涌水水源識(shí)別和研究的方法主要有離子濃度法、 同位素分析法、 微量元素法等[3], 這些方法雖然取得了一定的識(shí)別效果, 但存在分析時(shí)間長(zhǎng)、 判別準(zhǔn)確性不高、 操作過(guò)程復(fù)雜等特點(diǎn)[4], 難以根據(jù)其動(dòng)態(tài)變化迅速提供可靠的信息, 限制了礦井涌水的實(shí)時(shí)在線分析, 達(dá)不到預(yù)警效果。
為了解決現(xiàn)有涌水水源識(shí)別方法的不足, 激光誘導(dǎo)熒光(laser-induced fluorescence, LIF)被用于礦井水害研究領(lǐng)域, 并結(jié)合機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法實(shí)現(xiàn)了礦井涌水水源類型的快速且準(zhǔn)確識(shí)別, 取得了良好的鑒別效果; 如何晨陽(yáng)[5]等采取主成分分析法將小波變換去噪的突水水樣熒光光譜數(shù)據(jù)進(jìn)行降維處理, 利用K最近鄰算法進(jìn)行水樣的識(shí)別, 達(dá)到了極高的分類準(zhǔn)確率。 Hu[6]等利用激光誘導(dǎo)熒光技術(shù)結(jié)合深度學(xué)習(xí)方法, 提出了一維卷積神經(jīng)網(wǎng)絡(luò)方法用于自動(dòng)識(shí)別九種礦井突水水樣, 在不進(jìn)行復(fù)雜的預(yù)處理情況下實(shí)現(xiàn)了突水水樣的快速、 精準(zhǔn)識(shí)別。 然而目前這些利用激光誘導(dǎo)熒光對(duì)礦井涌水進(jìn)行識(shí)別的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法所建立的都只是分類識(shí)別模型, 只能定性的判別涌水的種類, 而不能預(yù)測(cè)和精準(zhǔn)評(píng)估不同種類水樣的含量以實(shí)現(xiàn)定量分析, 且各屬性因素之間的相關(guān)程度未能進(jìn)行有效分析, 部分訓(xùn)練模型和調(diào)參過(guò)程也較為復(fù)雜。
隨機(jī)森林(random forest, RF)是一種不僅可用于分類結(jié)果分析, 還能根據(jù)屬性重要度進(jìn)行特征選擇, 降低模型的復(fù)雜度的高效算法, 如文澤波等[7]利用RF特征選擇算法提取出煙霧特征并結(jié)合支持向量機(jī)實(shí)現(xiàn)了視頻煙霧的檢測(cè)。 Brokamp[8]等使用RF模型對(duì)城市空氣中的細(xì)顆粒物的濃度進(jìn)行了預(yù)測(cè)。 Lefkovits[9]等提出了將RF特征選擇算法應(yīng)用于提升腦腫瘤圖像分割的判別模型。 競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling, CARS)是通過(guò)自適應(yīng)重加權(quán)采樣技術(shù)消去無(wú)用信息的一種變量選擇方法, 能提升運(yùn)算和建模效率, 如Li[10]等利用CARS結(jié)合偏最小二乘線性判別分析用于高果糖玉米糖漿和麥芽糖漿摻假蜂蜜的檢測(cè)。 劉珊珊[11]等提出CARS用于激光誘導(dǎo)擊穿光譜來(lái)確定豬飼料中銅元素的含量, Wang[12]等采用CARS方法結(jié)合近紅外光譜技術(shù)對(duì)大豆秸稈的生物含量進(jìn)行快速評(píng)價(jià)與分析。
偏最小二乘回歸(partial least squareregression, PLSR)是一種新型多元統(tǒng)計(jì)回歸分析算法, 可以解決多屬性之間的高度相關(guān)性, 避免回歸模型估計(jì)失真。 本文通過(guò)聯(lián)合RF與CARS方法對(duì)熒光光譜屬性進(jìn)行精簡(jiǎn), 利用精簡(jiǎn)后的光譜屬性建立PLSR模型進(jìn)行水樣預(yù)測(cè), 為礦井涌水激光誘導(dǎo)熒光光譜的預(yù)測(cè)定量評(píng)估提供理論依據(jù)。
用如圖1所示的激光誘導(dǎo)熒光涌水光譜系統(tǒng)完成光譜數(shù)據(jù)的采集, 該系統(tǒng)主要由激光器、 光譜儀、 熒光探頭、 光纖和上位機(jī)組成。 選用波長(zhǎng)為405 nm的藍(lán)紫光半導(dǎo)體激光器(北京華源拓達(dá)激光技術(shù)有限公司), 最大輸出功率為120 mW, 光譜儀選用USB2000+微型光纖光譜儀(美國(guó)Ocean optics公司), 內(nèi)含高靈敏度2 048像素的線性CCD陣列(型號(hào)ILX511, 日本索尼公司), 設(shè)定其光譜檢測(cè)范圍為340~1 021 nm, 分辨率為0.5 nm, 積分時(shí)間為1 s/1 000 nm, 浸入式微型熒光探頭(型號(hào)FPB-405-V3, 廣東科思凱公司)可插入待測(cè)水樣獲取熒光信號(hào)。 為了避免其他光源對(duì)熒光光譜獲取的干擾, 測(cè)量在避光的暗室中進(jìn)行, 測(cè)量將探頭垂直浸入水樣并確保探頭侵入透明容器的高度始終保持一致。 使用計(jì)算機(jī)上的Spectra Suite軟件進(jìn)行記錄收集所有樣品的熒光光譜數(shù)據(jù), 算法仿真則是在Matlab R2016b和Origin 2017環(huán)境下運(yùn)行。
圖1 激光誘導(dǎo)熒光涌水光譜系統(tǒng)
礦井水害約80%是由老空水引起的, 老空水較其他涌水水源有著極強(qiáng)的破壞性, 砂巖水害有著持續(xù)時(shí)間長(zhǎng)、 溫度高等特點(diǎn); 將老空水、 砂巖水、 老空水與砂巖水的混合水作為研究對(duì)象進(jìn)行實(shí)驗(yàn), 水樣在2019年3月采集于安徽省淮南市顧橋煤礦。
由于老空水危害性之大, 其含量嚴(yán)重關(guān)系到水害的防治工作, 則以老空水為基礎(chǔ)分別混入不同含量的砂巖水, 第一組水樣為老空水含量占總量的0%(純砂巖水), 第二組水樣為老空水含量占總量的50%、 第三組水樣為老空水含量占總量的67%、 第四組水樣為老空水含量占總量的75%、 第五組水樣為老空水含量占總量的80%、 第六組水樣為老空水含量占總量的100%(純老空水)。
將現(xiàn)場(chǎng)采集到的水樣立即進(jìn)行密封和遮光處理并帶回實(shí)驗(yàn)室儲(chǔ)存, 以保障實(shí)驗(yàn)所采集數(shù)據(jù)的真實(shí)性與可靠性, 每種水樣各采集50組, 共300組光譜數(shù)據(jù)作為實(shí)驗(yàn)樣本。
光譜數(shù)據(jù)在傳輸過(guò)程中會(huì)受到設(shè)備、 外界環(huán)境、 操作不當(dāng)?shù)纫蛩氐母蓴_而存在大量的噪聲信號(hào), 這些干擾信號(hào)與有用的光譜數(shù)據(jù)信息疊加在一起會(huì)嚴(yán)重影響實(shí)驗(yàn)結(jié)果[13], 為了避免噪聲干擾, 需要對(duì)原始熒光光譜進(jìn)行濾波去噪處理。 分別對(duì)原始光譜采用Savitzky-Golay卷積平滑法(Savitzky-Golay smoothing, S-G)、 局部加權(quán)回歸散點(diǎn)平滑法(locally weighted scatterplot smoothing, Lowess)進(jìn)行去噪處理, 根據(jù)選定回歸模型的評(píng)估指標(biāo)對(duì)比原始光譜和去噪后光譜的預(yù)測(cè)能力, 選擇合適的去噪方法。
隨機(jī)森林是一種基于模型聚合思想用于解決分類和回歸問(wèn)題的算法, 由Breiman于2001年提出[14], 可以在不增加計(jì)算復(fù)雜度的情況下, 對(duì)變量有著較好的解釋作用; RF算法進(jìn)行屬性約簡(jiǎn)主要是刪去重要度較低的屬性, 當(dāng)加入隨機(jī)噪聲后, 袋外數(shù)據(jù)準(zhǔn)確率無(wú)明顯變化, 說(shuō)明這個(gè)特征對(duì)于樣本的預(yù)測(cè)結(jié)果影響不大, 進(jìn)而說(shuō)明重要程度較低, 需將其刪去以保留重要度較高的屬性。
RF算法遞歸屬性約簡(jiǎn)的步驟如下:
(1)計(jì)算每個(gè)屬性的重要度W, 并按重要度依次遞減順序降序排列
屬性重要度
W=∑(Error2-Error1)/N
(1)
式(1)中,N為隨機(jī)森林樹(shù)的棵樹(shù), Error2代表加入噪聲干擾的屬性袋外數(shù)據(jù)誤差, Error1代表屬性的袋外數(shù)據(jù)誤差。
(2)剔除重要度最低的屬性, 剩余的屬性組成新的屬性集合。
(3)利用新組成的屬性集合構(gòu)建回歸預(yù)測(cè)模型;
(4)重復(fù)步驟(1)和(2), 比較每次遞歸所建PLSR模型的預(yù)測(cè)精度;
(5)選出預(yù)測(cè)精度最高, 評(píng)估指標(biāo)最好的一組屬性集合。
競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法是基于達(dá)爾文自然選擇方式提出的[15], 通過(guò)蒙特卡洛采樣建立回歸模型并計(jì)算變量回歸系數(shù)的絕對(duì)值權(quán)重, 去掉權(quán)重小的波長(zhǎng)點(diǎn), 利用交互驗(yàn)證選出交叉驗(yàn)證均方根誤差(root mean square error of cross validation, RMSECV)最小的子集, 可有效尋找出最優(yōu)變量組合。
CARS算法進(jìn)行屬性精簡(jiǎn)的步驟如下:
(1)蒙特卡洛采樣, 隨機(jī)抽取一定比例樣品作為校正集建立PLSR模型。
(2)計(jì)算變量回歸系數(shù)的絕對(duì)值權(quán)重w, 評(píng)價(jià)屬性的有用性
(2)
式(2)中,αi為第i個(gè)屬性的重要度,q為屬性個(gè)數(shù)。
(3)指數(shù)衰減函數(shù)用來(lái)去除貢獻(xiàn)度α較小的屬性。
(4)采用ARS采樣技術(shù)提取出新的屬性集合X, 建立PLSR模型, 并計(jì)算RMSECV。
(5)n次采樣后, 挑選出RMSECV最小的集合為最優(yōu)屬性子集。
最終采用判定系數(shù)R2、 殘差平方和RSS、 校正均方根誤差RMSEC、 預(yù)測(cè)均方根誤差RMSEP、 平均絕對(duì)誤差MAE作為根據(jù)PLSR建立回歸模型的評(píng)估指標(biāo), 模型R2越高, RSS, RMSEC, RMSEP, MAE越小表明模型具有良好的預(yù)測(cè)精度和性能。
利用激光誘導(dǎo)熒光涌水光譜系統(tǒng)采集光譜數(shù)據(jù), 呈現(xiàn)出的水樣原始熒光光譜如圖2所示, 不同比例的老空水受激光照射時(shí), 其中的熒光物質(zhì)會(huì)吸收光能, 并釋放能量產(chǎn)生熒光, 形成熒光光譜, 在400~600 nm之間出現(xiàn)峰值; 六組水樣的光譜分布主要分為三個(gè)部分, 最上層是老空水光譜, 最下層是砂巖水光譜, 由于這兩種水樣的化學(xué)成分和熒光物質(zhì)濃度不同, 導(dǎo)致其光譜形狀與波峰數(shù)量有很大差異, 容易區(qū)分, 中間部分為老空水分別混入不同含量砂巖水的四組水樣, 這四組水樣化學(xué)成分接近, 所呈現(xiàn)的光譜難以進(jìn)行準(zhǔn)確的辨別, 因此, 需要借助機(jī)器學(xué)習(xí)回歸算法對(duì)涌水樣本進(jìn)行精確分析。
分別對(duì)原始光譜采用S-G卷積平滑和Lowess平滑方法進(jìn)行去噪預(yù)處理, 都采用3個(gè)窗口進(jìn)行平滑, 如圖3所示。 較原始熒光光譜, 由于第四、 五兩組水樣老空水含量相近, 光譜依然存在部分重疊情況, 但其他重疊部分更為分散, 整體水樣更容易區(qū)分, 說(shuō)明經(jīng)S-G卷積平滑和Lowess平滑去噪預(yù)處理后的涌水熒光光譜更適合光譜分析。
圖2 水樣原始熒光光譜
圖3 預(yù)處理后的熒光光譜
原始熒光光譜數(shù)據(jù)共2 048個(gè)屬性, 每個(gè)屬性都含有不同光譜信息, 不同屬性對(duì)于光譜分析的重要性程度存在明顯差異, 非關(guān)鍵且重要度低的屬性將會(huì)影響涌水水樣回歸模型的建立, 達(dá)不到較好的預(yù)測(cè)效果; 利用RF屬性約簡(jiǎn)方法刪除重要度低的屬性, 提升建模的效率和預(yù)測(cè)能力。 隨機(jī)將300組樣本以4∶1的比例劃分, 240組樣本(每組40個(gè)樣本)劃分為校正集, 剩余的60組(每組10個(gè)樣本)作為預(yù)測(cè)集, 先對(duì)原始光譜及兩種去噪方法分別建立PLSR模型, 再用RF分別對(duì)其進(jìn)行初次屬性約簡(jiǎn); 設(shè)置樹(shù)的棵數(shù)ntress為200, 如表1所示, 經(jīng)Lowess平滑法去噪后, 模型的預(yù)測(cè)效果最好, 且經(jīng)過(guò)初次約簡(jiǎn)的屬性整體重要性程度W較高且相對(duì)穩(wěn)定, 最終選用Lowess平滑法去噪的光譜數(shù)據(jù)進(jìn)行研究。
表1 不同去噪方法預(yù)測(cè)結(jié)果
屬性初次約簡(jiǎn)的屬性重要度分布情況如圖4所示, 可以看出在2 048個(gè)屬性中, 大部分屬性(共1 662個(gè))的重要度為0, 主要分布在波峰兩側(cè)平緩的光譜范圍區(qū)間內(nèi), 這些屬性對(duì)水樣的預(yù)測(cè)結(jié)果沒(méi)有任何影響, 屬于非關(guān)鍵光譜數(shù)據(jù)信息, 可以將其刪去, 其中部分屬性由于平滑處理消除了干擾的噪聲信號(hào), 使其具有了重要度, 保留剩下的386個(gè)屬性作為初次約簡(jiǎn)后的屬性。
圖4 屬性重要度分布
利用RF算法繼續(xù)對(duì)初次約簡(jiǎn)出的386個(gè)屬性進(jìn)行遞歸約簡(jiǎn), 刪去重要度為0的不相關(guān)屬性, 根據(jù)PLSR建立回歸模型, 遞歸循環(huán)16次的RF屬性約簡(jiǎn)結(jié)果如表2所示, 隨著遞歸次數(shù)不斷增加, 關(guān)鍵屬性個(gè)數(shù)逐漸遞減且所對(duì)應(yīng)的預(yù)測(cè)評(píng)估指標(biāo)R2和RSS也在發(fā)生變化, 當(dāng)遞歸次數(shù)達(dá)到6次時(shí), 回歸模型的R2達(dá)到最大, RSS達(dá)到最小, 預(yù)測(cè)效果最好, 之后關(guān)鍵屬性個(gè)數(shù)和整體預(yù)測(cè)精度都逐漸趨于穩(wěn)定, 則約簡(jiǎn)出的223個(gè)光譜屬性作為RF算法的最終約簡(jiǎn)結(jié)果。
約簡(jiǎn)后的光譜屬性數(shù)量明顯減少, 模型預(yù)測(cè)精度得到提升, 為了達(dá)到精準(zhǔn)評(píng)估的要求, 需進(jìn)一步精簡(jiǎn)光譜屬性, 將RF算法約簡(jiǎn)后的223個(gè)光譜屬性采用CARS算法進(jìn)行二次約簡(jiǎn)。
設(shè)定蒙特卡洛采樣次數(shù)為200, 屬性精簡(jiǎn)情況如圖5所示, 圖5(a)中表示屬性精簡(jiǎn)過(guò)程中被選中屬性的變化趨勢(shì), 隨著采樣次數(shù)的逐漸增加, 由于屬性的粗選和精選過(guò)程, 被選屬性的選擇速度逐漸減小, 由圖5(b)看出采樣過(guò)程中, RMSECV值整體變化趨勢(shì)是先減小后增大, 與礦井涌水預(yù)測(cè)評(píng)估無(wú)關(guān)的熒光光譜信息在RMSECV值減小過(guò)程中被剔除, 對(duì)照?qǐng)D5(c) , 當(dāng)對(duì)應(yīng)藍(lán)色標(biāo)注位置采樣46次時(shí), RMSECV值達(dá)到最小值0.021 1, 有用的光譜信息則在之后的采樣過(guò)程中被消去而降低了模型的預(yù)測(cè)能力, CARS算法最終精簡(jiǎn)出了77個(gè)有用的光譜屬性。
表2 RF屬性約簡(jiǎn)結(jié)果
圖5 CARS屬性精簡(jiǎn)情況
圖6 校正集預(yù)測(cè)結(jié)果
圖7 預(yù)測(cè)集預(yù)測(cè)結(jié)果
表3 預(yù)測(cè)結(jié)果對(duì)比