周茗皓, 陳小剛*, 崔繼峰, 卞 凱, 胡 鋒
1. 內(nèi)蒙古工業(yè)大學(xué)理學(xué)院, 內(nèi)蒙古 呼和浩特 010051
2. 安徽理工大學(xué)電氣與信息工程學(xué)院, 安徽 淮南 232001
伴隨著煤礦開采深度的不斷增加, 煤礦生產(chǎn)過程中將會面臨著瓦斯、 水、 火、 煤塵和頂板災(zāi)害等一系列煤礦災(zāi)害問題[1-2], 礦井水害現(xiàn)已成為繼礦井瓦斯災(zāi)害之后的第二大災(zāi)害[3]。 例如, 2020年11月29日11時(shí)30分, 湖南省衡陽市耒陽市導(dǎo)子煤業(yè)有限公司源江山煤礦發(fā)生重大透水事故造成13人死亡, 直接經(jīng)濟(jì)損失3 484.03萬元[4]。 為了切實(shí)保障煤礦安全生產(chǎn), 減少礦井水害事故發(fā)生, 準(zhǔn)確地識別出礦井突水水源的類型是開展水害防治的重要前提[5]。 現(xiàn)階段, 國內(nèi)外用于判別礦井突水水源的方法有多種[6-7], 如地下水水位動態(tài)、 水化學(xué)分析法、 GIS理論分析法等。 其中, 水化學(xué)分析法是應(yīng)用最為廣泛的方法之一, 但是水化學(xué)方法需要在嚴(yán)苛實(shí)驗(yàn)環(huán)境獲取礦井水源的水化學(xué)參數(shù)(如pH值、 離子濃度、 電導(dǎo)率等), 此外水化學(xué)分析方法耗時(shí)較長, 不適合作為礦井水源在線辨識的解決方案。
拉曼光譜法作為光譜分析方法的分支之一[8], 其具有分析精度高、 靈敏度高、 不消耗待測樣品等諸多優(yōu)點(diǎn), 在農(nóng)業(yè)、 化工以及生物醫(yī)療等諸多領(lǐng)域有著普遍應(yīng)用[9-11]。 但是, 拉曼光譜數(shù)據(jù)通常維度較大, 數(shù)據(jù)分析過程較為復(fù)雜[12]。 針對這一問題, 需要開展拉曼光譜的特征篩選研究, 減少拉曼光譜數(shù)據(jù)的冗余, 以此來提升光譜分析的實(shí)時(shí)性, 這對于保障礦井水源拉曼光譜檢測的實(shí)時(shí)性具有重要意義。
本文在采集礦井水樣拉曼光譜的基礎(chǔ)上, 首先對水樣的原始拉曼光譜進(jìn)行平滑預(yù)處理, 隨后采用鯨魚優(yōu)化算法(whale optimization algorithm, WOA)篩選礦井突水水源拉曼光譜的特征拉曼信息, 去除拉曼光譜中的冗余信息降低拉曼光譜數(shù)據(jù)的維度, 篩選出的特征拉曼信息作為不同分類器的輸入用于構(gòu)建礦井突水水源辨識模型, 探索WOA篩選礦井突水水源拉曼光譜特征信息的可行性。
本文以礦井突水水源拉曼光譜特征拉曼信息篩選為目的, 首先利用拉曼光譜系統(tǒng)獲取水樣的拉曼光譜, 隨后對原始拉曼光譜進(jìn)行平滑預(yù)處理, 然后利用WOA篩選水樣拉曼光譜的特征拉曼信息(值得注意的是篩選出的礦井突水水源拉曼光譜的特征拉曼信息并非水分子的特征拉曼峰, 而是礦井水源拉曼光譜中對礦井水源辨識最有幫助的拉曼信息。 ), 最后將篩選出的特征拉曼信息作為不同分類器的輸入校驗(yàn)WOA篩選礦井突水水源拉曼光譜特征的可行性。 具體實(shí)驗(yàn)過程如圖1所示。
圖1 礦井突水水源拉曼光譜分析流程圖
本文以2021年10月在淮南張集礦采集的老空水(水樣A)、 頂板砂巖裂隙水(水樣B)、 奧灰水(水樣C)、 太灰水(水樣D)和地表水(水樣E)為實(shí)驗(yàn)材料, 礦井水樣采集點(diǎn)信息如表1所示。 在單一礦井水源的基礎(chǔ)上, 將頂板砂巖裂隙水、 奧灰水、 太灰水以及地表水和老空水按照體積比1∶1進(jìn)行混合(分別記為水樣F、 水樣G、 水樣H、 水樣I), 共計(jì)得到五種單一水樣和四種混合水樣。 這九種水樣各有160個(gè)樣本, 共計(jì)1440個(gè)礦井水樣樣本, 其中每種水樣選取112個(gè)作為訓(xùn)練集, 即訓(xùn)練集樣本數(shù)共有1 008個(gè); 每種水樣剩余的48個(gè)樣本作為測試集, 即測試集樣本數(shù)共有432個(gè)。 為保證實(shí)驗(yàn)過程中采集到的拉曼光譜數(shù)據(jù)更加真實(shí)、 可靠, 所有采集到的礦井水樣樣本都避光密封保存。
表1 礦井水樣采集點(diǎn)信息
采用Laser785-5HFUO激光器(上海如海光電科技有限公司)作為礦井水樣拉曼光譜的激發(fā)光源, 該激光器的峰值波長為(785±0.5) nm, 激發(fā)功率在0~500 mW區(qū)間可調(diào)。 為便于今后的實(shí)際應(yīng)用, 采用RPB-785-1.5-FS可浸入式探頭(上海如海光電科技有限公司), 可直接放入待測水體進(jìn)行拉曼光譜的測量。 產(chǎn)生的拉曼光譜由XR3000光纖光譜儀(上海如海光電科技有限公司)采集, 該配置有2 048×64面陣近紅外增強(qiáng)CCD, 光譜檢測范圍為780~1 070 nm。 在采集礦井水樣拉曼光譜過程中, 激光器功率設(shè)定為25 mW, 光譜儀積分時(shí)間設(shè)定為500 ms, 拉曼光譜的采集由Uspectral-PLUS(Version 5.2.0)軟件記錄, 同時(shí)整個(gè)光譜采集過程在暗室中進(jìn)行。
由于光譜儀采集的光譜信號中除了含有有用信息, 還存在隨機(jī)誤差, 這樣測量所得光譜曲線中存在噪聲干擾, 因此需要對采集的原始光譜數(shù)據(jù)進(jìn)行預(yù)處理。 常見的光譜預(yù)處理方法有移動平均平滑(moving average smoothing, MAS)、 局部加權(quán)回歸散點(diǎn)平滑(locally weighted scatterplot smoothing, LOWESS)、 局部散點(diǎn)平滑(locally estimated scatterplot smoothing, LOESS)、 S-G卷積平滑法(savitzky-golay smoothing, SG)、 穩(wěn)健局部加權(quán)回歸散點(diǎn)平滑(robust LOWESS, RLOWESS)以及穩(wěn)健局部散點(diǎn)平滑(robust LOESS, RLOESS)。
由于受到座頭鯨捕食行為的啟發(fā), Mirjalili等[13]在模擬座頭鯨群體包圍、 追捕、 攻擊獵物等過程的基礎(chǔ)上, 提出了一種新型群智能優(yōu)化算法, 即鯨魚優(yōu)化算法, 該算法具有結(jié)構(gòu)簡單、 參數(shù)設(shè)置少、 收斂速度快以及較強(qiáng)的全局搜索能力。
利用WOA篩選礦井水源拉曼光譜的特征拉曼信息, 其基本思路是: 根據(jù)礦井突水水源的拉曼光譜辨識問題確定待優(yōu)化參數(shù), 即礦井水樣的拉曼光譜的特征拉曼信息, 鯨群中每個(gè)個(gè)體所處空間位置均包含一組特征拉曼信息。 通過適應(yīng)度函數(shù)來衡量個(gè)體所處空間位置的優(yōu)劣, 利用鯨覓食策略不斷更新鯨個(gè)體位置直至獲取最佳鯨空間位置, 即獲得待優(yōu)化問題的最佳的一組特征拉曼信息。 特征拉曼信息的篩選過程如下:
步驟1: 定義適應(yīng)度函數(shù)。 由于WOA是一個(gè)求解極小值的過程, 因此將礦井水源分類模型的測試集分類誤差作為適應(yīng)度函數(shù), 即目標(biāo)函數(shù)為
(1)
式(1)中,Ncorrect為測試集中預(yù)測正確的樣本數(shù)量,Ntest為測試集總的樣本數(shù)量。
步驟2: WOA參數(shù)初始化。 從全波段拉曼光譜數(shù)據(jù)中隨機(jī)選取一組特征拉曼信息作為初始鯨魚位置, 并設(shè)置WOA的參數(shù), 包括群體數(shù)目N、 最大迭代次數(shù)T以及選擇收縮包圍機(jī)制和螺旋位置更新的概率p(p為[0, 1]上的隨機(jī)數(shù), 初始值采用隨機(jī)函數(shù)設(shè)定)。
步驟4: 當(dāng)p<0.5時(shí), 若A<1, 按照式(2)來更新當(dāng)前鯨群個(gè)體的空間位置。
對總有效率、NIHSS評分和預(yù)后良好率3個(gè)評價(jià)指標(biāo)繪制倒漏斗圖,見圖6、圖7和圖8。結(jié)果顯示所有漏斗圖基本對稱,大部分?jǐn)?shù)據(jù)點(diǎn)均勻分布于倒漏斗圖的上部,提示發(fā)表偏移的可能性很低。
(2)
(3)
(4)
(5)
步驟5: 當(dāng)p≥0.5時(shí), 按照式(6)來更新當(dāng)前鯨群個(gè)體的空間位置。
(6)
式(6)中,b為定義的對數(shù)螺旋形狀常數(shù),l為[-1, 1]之間的隨機(jī)數(shù)。
為了實(shí)現(xiàn)拉曼光譜數(shù)據(jù)的分類辨識, 采用BP神經(jīng)網(wǎng)絡(luò)(back propagation neural network, BPNN)、 K-近鄰算法(k-nearest neighbor, KNN)、 支持向量機(jī)(support vector machine, SVM)、 決策樹(decision tree, DT)以及樸素貝葉斯(naive Bayesian, NB)等基礎(chǔ)分類算法構(gòu)建拉曼光譜分類模型, 以此來實(shí)現(xiàn)礦井水源拉曼光譜的辨識。
利用XR3000光纖光譜儀采集礦井水樣的拉曼光譜數(shù)據(jù), 實(shí)驗(yàn)測得九種水樣(每種水樣160個(gè)樣本)的1 440個(gè)樣本的拉曼光譜圖如圖2所示。 從圖中可以看出, 單一的老空水具有較好的辨識度, 但是當(dāng)出現(xiàn)混合情況時(shí)變得難以區(qū)分, 混合比例接近的混合水樣略有重疊, 因此需要借助化學(xué)計(jì)量學(xué)方法進(jìn)行分類辨識。
圖2 原始拉曼光譜
為了更加直觀地了解不同水樣的拉曼光譜差異性, 采用五種算法作為分類器, 將原始拉曼光譜數(shù)據(jù)作為輸入, 觀察不同分類器下礦井水源拉曼光譜的分類效果, 相關(guān)結(jié)果如圖3所示。 從圖3中可以看出, 針對原始的拉曼光譜數(shù)據(jù), 采用不同的分類器得到的分類效果存在一定的差異性, 但是我們注意到BP、 KNN、 SVM、 DT和NB這五種算法都具有較高的分類精度, 所有的算法對于測試集樣本的分類精度均高于90.00%。 不同分類算法對于原始拉曼光譜數(shù)據(jù)的分析結(jié)果差異性主要體現(xiàn)在分類器模型本身的差異性, 此外, 原始拉曼光譜數(shù)據(jù)存在一定噪聲, 而不同的分類算法對于噪聲的抗干擾能力也是不同的。
圖3 原始拉曼光譜數(shù)據(jù)的分類結(jié)果
盡管五種分類算法對于原始拉曼光譜具有不錯(cuò)的分類精度, 但是礦井水源拉曼光譜辨識精度還有進(jìn)一步提升的空間, 因此, 對原始拉曼光譜進(jìn)行光譜平滑處理是十分必要的。
為消除噪聲干擾, 減小誤差, 同時(shí)保留光譜曲線中的有用信息, 分別采用MAS、 LOWESS、 LOESS、 SG、 RLOWESS以及RLOESS對礦井水源的原始拉曼光譜數(shù)據(jù)進(jìn)行預(yù)處理, 并將預(yù)處理后的光譜信息作為分類器的輸入, 得到預(yù)處理后拉曼光譜在五種算法模型下的分類精度如表2所示。
表2 不同預(yù)處理方法的辨識準(zhǔn)確率(%)
通過觀察表2可以發(fā)現(xiàn), 對礦井水源的原始拉曼光譜進(jìn)行平滑預(yù)處理后, 不同分類器下拉曼光譜的分類精度都有了一定程度的提升。 特別地, 我們發(fā)現(xiàn)當(dāng)采用不同的預(yù)處理方法對原始拉曼光譜進(jìn)行處理時(shí), 五種分類器的平均識別精度各異, 而采用MAS處理時(shí), 五種分類器的平均識別精度可以達(dá)到最大值, 即98.94%, 這說明MA更加適合用于礦井突水水樣原始拉曼光譜的平滑處理。 而當(dāng)采用SVM作為拉曼光譜數(shù)據(jù)的分類器的時(shí)候, 六種不同的分類器均可以實(shí)現(xiàn)100.00%的識別精度, 這說明這五類分類算法中, SVM算法更加適合用于分析平滑預(yù)處理后的拉曼光譜。
此時(shí), 五種分類器對于預(yù)處理后的拉曼光譜有著比較高分析精度, 但是, 原始拉曼光譜數(shù)據(jù)維度較大(2 048維), 分析過程耗時(shí)較長。 以MAS處理后的拉曼光譜數(shù)據(jù)為例, 統(tǒng)計(jì)不同分類器的分析時(shí)間如表3所示。 可以看出, 不同分類器的對于拉曼光譜的分析時(shí)間具有顯著性的差異, 其中KNN和DT分類器的分析時(shí)間較短, BP和SVM分類器的分析時(shí)間較長, 而NB分類器的分析時(shí)間最長, 需要700多秒。 因此, 采用的一定的特征選擇策略對拉曼光譜進(jìn)行拉曼信息篩選, 有效降低光譜數(shù)據(jù)的維度, 提升數(shù)據(jù)分析的速度是很有必要的。
表3 不同分類器的分析時(shí)間(s)
礦井水樣拉曼光譜數(shù)據(jù)共有2048個(gè)光譜數(shù)據(jù)點(diǎn), 由于數(shù)據(jù)量很大, 運(yùn)算時(shí)間很長, 而且存在一定的共線性, 在構(gòu)建礦井水源識別模型的時(shí)候可能會導(dǎo)致模型的預(yù)測能力不夠高。 因此, 使用WOA對水樣拉曼光譜數(shù)據(jù)進(jìn)行拉曼信息篩選, 提取出拉曼光譜數(shù)據(jù)中重要性高的特征拉曼信息。
原始拉曼光譜數(shù)據(jù)經(jīng)過MAS預(yù)處理后, 然后使用WOA進(jìn)行特征拉曼信息篩選, 最后利用篩選的特征拉曼信息數(shù)據(jù)建立KNN分類模型(選擇KNN作為分類器是為了減少WOA迭代篩選特征拉曼信息的時(shí)間), 最小的分類誤差值對應(yīng)的拉曼信息變量個(gè)數(shù)為最終的篩選結(jié)果。 特別地, 在使用WOA進(jìn)行特征拉曼信息篩選的過程中, 將群體數(shù)目設(shè)置為5, 將最大迭代次數(shù)設(shè)置為100。 圖4為提取不同個(gè)數(shù)的拉曼信息變量時(shí)分類誤差的變化趨勢圖, 從圖中可以看出, 分類誤差從最初的1.16%, 經(jīng)過9次迭代篩選后達(dá)到了最小值0.00%。 此時(shí), 篩選出的特征拉曼信息數(shù)量為102個(gè), 也就是說, 當(dāng)篩選出的102個(gè)特征拉曼信息就可以實(shí)現(xiàn)礦井水樣拉曼光譜的精準(zhǔn)辨識。
圖4 WOA在不同迭代次數(shù)下的分類誤差
與全部的2 048個(gè)拉曼光譜數(shù)據(jù)點(diǎn)相比, 由WOA篩選出的102個(gè)特征拉曼信息將原始拉曼信息的點(diǎn)數(shù)縮減為原來的4.98%, 優(yōu)選出的102個(gè)特征拉曼信息如圖5所示, 在圖中以紅色的方塊表示, 可以看出篩選出的特征拉曼信息有效地覆蓋了拉曼光譜的波峰和波谷位置, 因此其可以保證拉曼光譜分析的精度。
圖5 WOA選擇最佳特征拉曼信息
為了進(jìn)一步驗(yàn)證WOA篩選出的拉曼信息的有效性和可靠性, 將篩選出的拉曼信息作為礦井水源辨識的輸入信息, 分別使用BPNN、 KNN、 SVM、 DT和NB這五種分類算法構(gòu)建礦井水源類型的辨識模型, 統(tǒng)計(jì)五種分類算法的分類精度和分析時(shí)間, 相關(guān)結(jié)果如表4所示。
表4 篩選出拉曼信息的分析結(jié)果
通過觀察表4可以看出, 五種不同的分類算法對于篩選后的特征拉曼信息數(shù)據(jù)都有著非常優(yōu)異的辨識性能, 識別精度均可以達(dá)到100.00%。 而當(dāng)我們觀察分析時(shí)間的時(shí)候, 可以很明顯地看出分析時(shí)間大大縮減了, 這主要是因?yàn)槔庾V數(shù)據(jù)的維度降低了, 使得分析速度變快。 通過和表1中全維度拉曼光譜數(shù)據(jù)的分析時(shí)間進(jìn)行比較, 可以看出, 不同分類器的分析時(shí)間都有著不同程度的下降, 其中KNN的分析時(shí)間最短(由0.13 s縮短至0.03 s), 而NB的分析時(shí)間縮短最多(從700.48 s縮短至34.68 s)。 綜上, 采用WOA來篩選礦井水源拉曼光譜的特征信息是有效的, 并且可以提升分析速度, 這對于礦井水源的快速檢測具有借鑒價(jià)值。
以老空水、 頂板砂巖裂隙水、 奧灰水、 太灰水和地表水以及它們混合的水樣作為研究對象, 使用拉曼光譜系統(tǒng)采集不同水樣的拉曼光譜數(shù)據(jù)。 首先, 采用不同的處理方法對原始拉曼光譜數(shù)據(jù)進(jìn)行平滑預(yù)處理, 然后利用WOA篩選拉曼光譜的特征拉曼信息, 最后將篩選出的特征拉曼信息作為輸入, 在BPNN、 KNN、 SVM、 DT和NB分類器下驗(yàn)證WOA篩選礦井突水水源拉曼光譜特征拉曼信息的效果。 研究結(jié)果表明: MAS對于原始拉曼光譜的平滑效果最好, 可以有效地消除拉曼光譜數(shù)據(jù)中的部分隨機(jī)噪聲, 提高光譜分析精度; 利用WOA進(jìn)行拉曼光譜的特征拉曼信息篩選, 從2 048個(gè)拉曼數(shù)據(jù)點(diǎn)中優(yōu)選得到102個(gè)特征拉曼信息, 大幅減少了后續(xù)建模的數(shù)據(jù)維度, 而且WOA篩選的特征拉曼信息的建模精度高于全拉曼數(shù)據(jù)建模精度; 采用WOA篩選的特征拉曼信息構(gòu)建BPNN、 KNN、 SVM、 DT和NB水源辨識模型時(shí), 其分析速度都有著不同程度的提升。 綜上, 采用WOA篩選礦井水源拉曼光譜的特征信息, 可以有效地減少拉曼光譜數(shù)據(jù)的冗余, 可以為礦井水源的快速檢測提供借鑒。