吳劍飛
(安徽理工大學(xué) 空間信息與測繪工程學(xué)院,安徽 淮南 232001)
長期以來,煤炭在中國的能源結(jié)構(gòu)中都占據(jù)著主導(dǎo)地位。采煤過程中常伴隨著巖石的獲取,對煤與巖石的識別分類消耗大量人力、物力和時間[1]。我國煤炭百萬噸死亡率高,采煤裝置落后,導(dǎo)致采煤仍屬于高危行業(yè),因此,發(fā)展“無人化”智能采煤,保障采煤工作人員生命安全,提高煤巖識別效率,是未來煤炭開采技術(shù)發(fā)展的關(guān)鍵所在[2]。
近年來,光譜分析技術(shù)在煤種鑒別、煤質(zhì)分析和煤巖識別等領(lǐng)域得到廣泛應(yīng)用[3]。其中,高光譜技術(shù)以其波段多、精度高的優(yōu)勢已經(jīng)成為采煤區(qū)煤巖動態(tài)識別的有效方法之一。然而,煤與巖石存在“異物同譜”現(xiàn)象,使得高光譜技術(shù)應(yīng)用于實際煤巖識別仍有阻礙。這主要是因為基于全波段所建的分類模型常存在冗余信息和干擾信息,影響模型的運行速度和精度。前人所做研究中[4-6]提出了有助于識別煤與巖石的特征波段,提供了較好的煤巖識別理論基礎(chǔ)和建模參考,然而以單個波段和雙波段建立的分類模型存在有效信息使用不足的現(xiàn)象。提取與煤巖識別相關(guān)的特征波段建立分類模型可以較好地解決上述兩種問題。目前,國內(nèi)關(guān)于采用機器學(xué)習(xí)算法提取煤與巖石的特征波段的研究較少,而比較不同算法提取效果的研究更是鮮見報道。
本研究采用多種光譜變換方法和特征波段提取方法對煤與巖石的高光譜圖像數(shù)據(jù)進行處理,分別建立了基于全波段和特征波段的分類模型,并對模型預(yù)測結(jié)果進行分析和比較,以期為高光譜技術(shù)實際應(yīng)用于煤巖識別提供參考。
研究區(qū)位于安徽省淮南市(東經(jīng)116°21′21″~117°11′59″、北緯32°32′45″~33°0′24″),該地區(qū)礦產(chǎn)資源豐富,是中國13個億噸煤炭基地之一。因此,淮南地區(qū)采煤智能化建設(shè)的開展有助于提高當?shù)氐V產(chǎn)資源的開采效率,促進淮南乃至江淮流域產(chǎn)業(yè)轉(zhuǎn)型升級[7]。根據(jù)GB/T 5751《中國煤炭分類》,淮南礦區(qū)主要產(chǎn)出1/3焦煤、氣煤、瘦煤和焦煤。根據(jù)GB/T 17412.3-1998《巖石分類和命名方案》,淮南礦區(qū)選煤廠中巖石種類主要為砂巖、頁巖、泥巖等。本試驗選用的樣品來源于淮南市謝橋礦區(qū)與潘一礦區(qū)的選煤廠,在礦區(qū)兩名采煤經(jīng)驗豐富的工作者協(xié)助下,獲取33組樣本,其中,煤樣14組,巖樣19組。
使用空氣干燥箱干燥樣品直至其質(zhì)量恒定,對收集的塊狀煤樣表面打磨平整。采用ASD FieldSpec4便攜式地物光譜儀采集高光譜數(shù)據(jù)。儀器波長范圍為350~2 500 nm,其中,350~1 000 nm波長的采樣間隔為1.4 nm,1 000~2 500 nm波長的采樣間隔為2 nm,每個樣本測得30條光譜,剔除異常光譜后取平均值作為該樣本的光譜,每組數(shù)據(jù)采樣前均進行標準白板校正。
采用MATLAB 2017a軟件對原始光譜(Original Spectrum,OS)進行預(yù)處理,并利用Origin 2019b軟件制圖。預(yù)處理包括多項式卷積平滑法(Savitzky-golay Smoothing, SG)處理、多元散射校正(Multiplicative Scatter Correction,MSC)、標準正態(tài)變量變換(Standard Normal Variate Transformation, SNV)和歸一化(Normalize,Norm)[8-9]。其中,SG可有效消除基線漂移等噪聲,SNV和MSC可消除樣品表面分布不均和光程變換導(dǎo)致的散射效應(yīng)影響。
由圖1可知,煤的整體反射率較低,上升平緩,而巖石反射率偏高。由于水分子O-H官能基伸縮振動的第一倍頻,巖石在1 450 nm附近有較強吸收谷[10]。在1 900 nm附近,巖石產(chǎn)生第二個較強吸收谷,這是由于巖石中有二價鐵離子和煤樣中有Al2O3。由于Al元素在煤中主要以Al2O3的形式存在,在巖石中主要以Al(OH)3的形式存在,導(dǎo)致在2 130~2 250 nm波段范圍內(nèi)煤與巖石的表現(xiàn)上產(chǎn)生較大差別。Al(OH)3的Al-OH晶格振動使得其在2 210 nm附近具有強吸收峰[11]。由于煤巖組分特性的不同,其吸收谷深度之和、斜率和曲線凹凸度有所不同,例如巖石光譜曲線的吸收谷深度之和遠大于煤光譜曲線的吸收谷深度之和;巖石光譜曲線在1 100~2 500 nm波段的斜率基本為負值,而煤光譜曲線在該波段的斜率基本為正值;煤巖光譜曲線的凹凸度平均約相差13倍[12]。
圖1 經(jīng)平滑預(yù)處理后的煤巖高光譜曲線
Random Frog是利用候補變量集合對總變量集合進行反復(fù)迭代選擇,最終獲取少量變量的高維數(shù)據(jù)變量選擇方法。每一次迭代分為以下3個主要步驟:首先確定一個包含N1個變量的變量子集V0;然后基于V0中變量的特征和選擇概率,提出包含N2個變量的候補子集V1替代V0;計算每個變量的選取概率[13]。
SPA是一種使矢量空間共線性最小化的前向變量選擇方法[14],該算法的具體步驟如下[15]:首先在光譜數(shù)據(jù)中選擇一條光譜列向量作為起始向量;然后計算其他列向量在起始向量上的投影;再挑選出最小投影作為下一個投影的起始向量,直到挑選變量個數(shù)達到輸入迭代數(shù);最后將提取的所有波長組合進行多元線性回歸,從局部最小的RMSE中選擇預(yù)測精度最高的波段組合作為最優(yōu)波段組合。
為降低起始向量選取的隨機性,本研究采用Araújo MCU等[15]提出的選取起始光譜向量的方法。
CARS[16]是以達爾文進化論的“適者生存“為指導(dǎo)理論,采用蒙特卡洛采樣以及偏最小二乘回歸法的特征波段優(yōu)選方法。CARS法的每個采樣周期可分為4個連續(xù)的步驟[17-18]:首先采用蒙特卡洛采樣法從校正集中選取樣本,進行PLSR建模;然后計算波段回歸系數(shù)的絕對值權(quán)重,經(jīng)衰減指數(shù)法計算后,剔除絕對值較小的波段變量;接著采用自適應(yīng)加權(quán)算法在剩余波段變量中選取波段,進行PLSR建模;最后選取交叉驗證的均方根誤差最小的模型對應(yīng)的波段變量作為選擇的特征波段變量。
采用支持向量機(Support Vector Machine,SVM)和偏最小二乘線性判別分析(Partial Least Square- Linear Discriminant Analysis,PLS-LDA)對優(yōu)選波段和全波段進行識別模型的建立,模型識別效果采用識別正確率表示。
基于CARS算法提取煤巖識別的特征波長運行過程如圖2所示。
由于CARS中的蒙特卡洛采樣隨著采樣次數(shù)的不同呈現(xiàn)不同的運算結(jié)果,所以文中通過設(shè)定不同的采樣次數(shù)后分別進行運算以選取相對較優(yōu)的波長變量組合。如圖2所示,采樣次數(shù)較少時,由于衰減指數(shù)的作用,CARS法選取的波段變量數(shù)由總波段變量數(shù)快速下降到較低水平,隨著采樣次數(shù)增加,選取變量數(shù)的降低幅度減緩。交叉驗證均方根誤差隨著運行次數(shù)的增加呈現(xiàn)出下降與上升交替進行的趨勢,圖中“*”豎線標出最小交叉驗證均方根誤差值對應(yīng)的采樣次數(shù),為欠擬合與過擬合的交匯點,故選取該點處的最優(yōu)波段?!?”豎線之后交叉驗證均方根誤差開始增大,是由于有效變量被刪除了。在SG-CARS中最終選取了365、366、381、394、395、401、1 421 nm共7個特征波段;在MSC-CARS中最終選取350、351、359、360、371、815、816、817、818、819、2 118、2 119、2 120 nm共13個特征波段;在SNV-CARS中最終選取了2 206、2 207 nm共2個特征波段;在Norm-CARS中最終選取了365、2 128、2 208、2 209、2 210、2 211 nm共6個特征波段。
圖2 CARS優(yōu)選波長過程
基于SPA算法提取煤巖識別的特征波長運行過程如圖3所示。SPA法在運行過程中通過分析投影向量的大小進行特征波長變量的篩選,通過計算模型的RMSE值確定波長子集即為優(yōu)選波長。
圖3 SPA優(yōu)選波長結(jié)果
圖3中紅色正方形圈出點表示為最優(yōu)特征波長變量。在SG-SPA中最終選取了350、563、1 387、1 861、2 500 nm共5個特征波段;在MSC-SPA中最終選取350、371、397、745、1 373、1 407、1 774、1 965、2 008、2 134 nm共10個特征波段;在SNV-SPA中最終選取了350、402、438、616、827、1 276、1 320、1 382、1 423、1 962 nm共10個特征波段;在Norm-SPA中最終選取了372、394、648、2 151、2 485 nm共5個特征波段。
基于RF算法提取煤巖識別的特征波長運行結(jié)果如圖4所示,其中,波段對應(yīng)的柱形高度表示該波段被選擇的概率。結(jié)合波段共線性和巖石的高光譜曲線中的特征吸收峰進行RF特征波段的選擇??梢?,被選概率高的波段存在聚集性,表明能用于煤巖識別的波段一般處于某幾個敏感波段范圍內(nèi)。
圖4 RF優(yōu)選波長過程
在SG-RF中最終選取了437、443 nm共2個特征波段;在MSC-RF中最終選取1 705、1 780、1 816、1 826、1 885 nm共5個特征波段;在SNV-RF中最終選取了1 496、2 436 nm共2個特征波段;在Norm-RF中最終選取了1 356、2 484、2 499 nm共3個特征波段。
為對比驗證波段優(yōu)選方法對特征信息的提取作用,建立不同處理方式下基于全波段光譜數(shù)據(jù)的煤巖識別模型,表1列出了基于優(yōu)選波段組合和基于全波段所建識別模型的精度比較??梢?,波段優(yōu)選算法將總數(shù)為2 151個的全波段壓縮至少量波段,使用少于總波段數(shù)1%的波段建立的識別模型的識別效果總體上優(yōu)于基于全波段所建模型的識別效果。這是由于煤巖的高光譜信息存在“異物同譜”現(xiàn)象,其中,大部分信息對于模型的識別起到“誤導(dǎo)”作用,不能作為識別的依據(jù),而基于全波段的識別模型對這些誤導(dǎo)性信息進行了訓(xùn)練,因此,識別精度并不理想。波段優(yōu)選算法提取了有效波段,剔除了無效信息,降低了模型的復(fù)雜度。
表1顯示Norm-CARS-PLS-LDA模型和SG-RF-SVM模型對煤巖識別效果最優(yōu),建模集和測試集的識別率均達到100%,其中,Norm-CARS和SG-RF分別提取了6個波段和2個波段,僅占全波段的0.28%和0.09%。由上述波段優(yōu)選結(jié)果可以看出,優(yōu)選波段大多分布于350~450 nm、1 250~1 450 nm、1 700~1 900 nm和2 100~2 300 nm之間,表明這些波段范圍可以用于煤巖高光譜識別。其中,優(yōu)選波段多位于吸收谷的最低點(吸收谷深度),即煤巖反射率相差最大處,或是吸收谷斜率最大或斜率變化率最大的波段處,表明了巖石吸收谷的信息是用來作為煤巖識別的重要依據(jù),這也驗證了王賽亞等[12]提出的巖石吸收谷深度之和、曲線斜率和凹凸度可用來進行煤巖識別的研究。
表1 識別模型判別結(jié)果
基于高光譜技術(shù)從定性分析和特征識別兩個角度,對煤與巖石進行識別研究,主要結(jié)論如下:
1)由機器學(xué)習(xí)算法優(yōu)選的波段主要在350~450 nm、1 250~1 450 nm、1 700~1 900 nm和2 100~2 300 nm之間。
2)經(jīng)不同光譜預(yù)處理建立的煤巖識別模型的性能有所差異,MSC處理后所建模型的建模集和測試集識別精度均未達到100%,其預(yù)測效果低于SG、SNV和Norm預(yù)處理后所建模型的識別效果。
3)采用CARS、SPA和RF優(yōu)選出的波段低于全波段總數(shù)的1%,同時提高了模型識別精度。優(yōu)選波段多處于巖石的光譜曲線吸收谷附近,其波段對應(yīng)的反射率可以顯示出波谷的特征信息。所建識別模型中Norm-CARS-PLS-LDA和SG-RF-SVM模型的識別精度最高,建模集和測試集的識別精度均達100%。
由于本試驗所有樣本的高光譜數(shù)據(jù)均在樣品表面打磨平整后獲取,而實際采煤活動多在粉塵環(huán)境下進行,情況復(fù)雜,煤和巖石的表面積有不同礦物質(zhì)顆粒和粉末,因此,雖然本實驗建模集和測試集的識別正確率達100%,但要應(yīng)用于實際工業(yè)活動需要結(jié)合現(xiàn)場情況建立全面的模擬試驗。