胡程浩, 吳文淵, 2*, 苗 瑩, 許林霞, 傅顯浩, 郎夏祎, 何博聞, 錢俊鋒
1. 杭州師范大學(xué)信息科學(xué)與技術(shù)學(xué)院, 浙江 杭州 311100
2. 浙江省城市濕地與區(qū)域變化研究重點(diǎn)實(shí)驗室, 浙江 杭州 311100
3. 中國煤炭地質(zhì)總局浙江煤炭地質(zhì)局, 浙江 杭州 310017
4. 浙江省地質(zhì)礦產(chǎn)研究所, 浙江 杭州 310000
高光譜遙感經(jīng)過幾十年的發(fā)展, 技術(shù)手段逐漸成熟, 在巖石和礦物的識別和分類方面的應(yīng)用吸引了眾多學(xué)者的關(guān)注和研究。 高光譜技術(shù)因為能提供更為豐富的地物信息, 具有突出優(yōu)異的探測能力, 因此在巖石礦物識別和分類領(lǐng)域具有廣闊的應(yīng)用前景。 例如利用實(shí)驗室和航空高光譜遙感技術(shù)確定金礦化的位置[1-2], 礦物填圖和區(qū)域地質(zhì)調(diào)查[3-5], 對采礦區(qū)環(huán)境進(jìn)行保護(hù), 為礦區(qū)環(huán)境評價和污染治理提供依據(jù)[6]; 農(nóng)業(yè)估算土壤物質(zhì)環(huán)境監(jiān)測[7]等領(lǐng)域也有應(yīng)用。 表明高光譜遙感巖石礦物的識別分類在經(jīng)濟(jì)和生態(tài)方面具有很強(qiáng)的實(shí)踐意義和應(yīng)用價值。
自高光譜遙感技術(shù)誕生以來, 航空飛機(jī)平臺高光譜傳感器成為主要的數(shù)據(jù)獲取來源, 但是基以這種數(shù)據(jù)開展高光譜巖石礦物的識別分類存在一些困難, 例如研究區(qū)范圍內(nèi)可能存在巖石單元混雜的情況, 巖石單元的混雜會給巖性填土?xí)r產(chǎn)生障礙[8]; 空間分辨率的局限會產(chǎn)生混合像元[9]; 野外大范圍中存在植被覆蓋和山體陰影, 蝕變作用、 生物作用以及人文活動的影響同樣也會加大研究的難度以及數(shù)據(jù)的精準(zhǔn)度[10]。 其次對高光譜數(shù)據(jù)的處理, 涉及到遙感器定標(biāo)、 大氣校正等一系列復(fù)雜處理過程, 同樣也增加了研究過程的復(fù)雜度[11]。
基于以上現(xiàn)狀, 更為理想的方法是依托實(shí)驗室平臺作為觀測環(huán)境來探尋多種巖性光譜特征。 高光譜分辨率的光譜儀在實(shí)驗室作為一種分析工具, 在前人研究中已被證實(shí)對礦物識別和光譜區(qū)分具有更好的效果[12-13]。 隨后先進(jìn)的傳感器平臺等的研發(fā), 有利于多種關(guān)于巖石礦物等的光譜庫的建立, 例如目前已有的巖礦HS光譜數(shù)據(jù)庫[14], 熱發(fā)射造巖礦物光譜庫[15], 美國地質(zhì)調(diào)查局發(fā)布的USGS光譜庫[16], 以及包含0.4~15.4 nm的2 300種材料的光譜ASTER光譜庫2.0版[17]。 近幾年我國光譜與光譜庫的研究中, 已收集有全國522個巖礦標(biāo)本的光譜庫, 還有學(xué)者建立了巖礦應(yīng)用典型模型[18]。 光譜采集使用的儀器最早多是探測式光譜儀, 例如ASD光譜儀在對巖礦進(jìn)行掃描時得到的是巖石表面單點(diǎn)的數(shù)據(jù), 得到單一的曲線; 不過巖礦表面并非均質(zhì), 這種方法不利于更好地能代表巖礦進(jìn)行識別和分類。 如今HySpex等新型成像光譜儀的研發(fā), 有利于結(jié)合影像上多方位的光譜信息, 能夠更好地提升巖礦識別的精確度和分類效果。 但是, 很多巖石因為礦物成分相近導(dǎo)致光譜容易混淆, 分類精度不高, 有待對巖石光譜特性進(jìn)行進(jìn)一步研究, 對光譜相近的巖石進(jìn)行重新歸類。
現(xiàn)有的高光譜影像處理方法, 在對高光譜影像預(yù)處理上, 例如主成分分析, 最小噪聲分離等降維技術(shù)[19]; 高光譜影像的分類方法, 例如最大似然法, 光譜角匹配, 神經(jīng)網(wǎng)絡(luò)等[20-22], 這些方法應(yīng)用于高光譜遙感巖礦識別與分類頗有成效[23-24], 同時新的機(jī)器學(xué)習(xí)分類方法涌現(xiàn)諸多研究成果。 柯元楚[25]等運(yùn)用隨機(jī)森林方法和EO-1 Hyperion高光譜數(shù)據(jù)進(jìn)行區(qū)域的巖性分類, 取得較好的效果。 陽昌霞[26]等在無人機(jī)高光譜遙感為農(nóng)作物精細(xì)分類中發(fā)現(xiàn)最小噪聲分離(minimum noise fraction, MNF)降維變換后分類效率及影像分類精度均有提高, 同類影像隨機(jī)森林分類結(jié)果精度比支持向量機(jī)更高。 Hossein[27]將主成分分析與隨機(jī)森林算法結(jié)合組成完全組件選擇(fully component selection, FCS)與單純的隨機(jī)森林(random forest, RF)模型相比, 發(fā)現(xiàn)FCS方法大大提高了模型的性能。 竇世卿[28]等發(fā)現(xiàn)多特征融合降維后的高光譜數(shù)據(jù)使用隨機(jī)森林分類效果比主成分分析的效果更佳。 鑒于此, 本工作使用MNF的降維方法結(jié)合隨機(jī)森林算法, 對比MNF降維前后的高光譜分類精度效果。
在實(shí)驗室暗室雙光束標(biāo)準(zhǔn)燈光源條件下, 使用推掃式軌道結(jié)合HySpex高光譜傳感器成像儀對81種常見的巖漿巖和變質(zhì)巖樣本進(jìn)行掃描成像, 獲取到不同巖石樣本在短波紅外波段的光譜。 獲取影像之后需要對高光譜影像進(jìn)行處理分析, 從影像的光譜曲線中對巖石進(jìn)行相似度匹配和初步分類。 分類前對高光譜數(shù)據(jù)進(jìn)行降維和特征提取, 應(yīng)用最大似然法和隨機(jī)森林算法進(jìn)行分類, 最后對分類的結(jié)果進(jìn)行精度評價, 對比應(yīng)用初分類前后以及兩種不同分類器模型的巖石分類精度差異, 得到效果最優(yōu)的分類方法。
使用的數(shù)據(jù)來自于HySpex高光譜成像儀實(shí)驗室系統(tǒng)。 該實(shí)驗室系統(tǒng)在暗室環(huán)境下, 安裝HySpex傳感器以及用戶友好的桌面實(shí)驗室設(shè)置, 包括平移推掃式工作臺和VNIR-SWIR光源(圖1)。 HySpex SWIR-384高光譜相機(jī)是為野外、 實(shí)驗室和機(jī)載應(yīng)用開發(fā)的最新并且先進(jìn)的高光譜遙感相機(jī)。 其視場角為16°, 橫縱視場角0.73毫弧度, 數(shù)據(jù)化16位, 空間像素數(shù)384, 自動對焦, 光譜范圍涵蓋950~2 500 nm, 范圍內(nèi)具有288個光譜段, 光譜分辨率為5.45 nm。
圖1 實(shí)驗的場景圖
所使用的巖石樣本如圖2所示, 標(biāo)記序號為1—81, 總共81塊巖漿巖與變質(zhì)巖樣本均為新鮮采集的樣本, 掃描影像中呈現(xiàn)的巖石表面均為新鮮剖面。
圖2 巖石樣本照片以及序號標(biāo)注
各種巖石樣本序號對應(yīng)的名稱信息如表1所示。
表1 巖石樣本序號
通過HySpex SWIR-384高光譜相機(jī)的推掃成像, 獲取了巖石樣本的影像和光譜數(shù)據(jù)(圖3), 還進(jìn)行了巖石切面薄片的礦物成分分析, 用于參考樣本中礦物的比例和成分, 有助于后續(xù)的巖石所含礦物光譜分析以及初步分類。
圖3 HySpex假彩色合成圖像
研究的技術(shù)流程(圖4)包括利用HySpex高光譜相機(jī)掃描巖石樣本, 從而獲取HySpex高光譜影像數(shù)據(jù); 對影像高光譜影像進(jìn)行校正等預(yù)處理, 得到相應(yīng)的巖石HySpex高光譜影像反射率影像; 在巖石反射率影像中, 通過光譜信息對巖石光譜曲線特征分析, 建立相應(yīng)的巖石初分類體系并進(jìn)行特征選擇與歸類, 對影像進(jìn)行MNF降維使得相應(yīng)的波段減少和維度降低, 便于后期的分類。 基于光譜特征分析的巖石初分類體系, 選擇相應(yīng)巖石初分類類別并利用最大似然法和隨機(jī)森林分類模型等分類器算法進(jìn)行巖性分類識別, 最后應(yīng)用混淆矩陣等對分類結(jié)果進(jìn)行精度評價。
圖4 研究技術(shù)路線
光譜影像的預(yù)處理過程包括影像輻射校正和白板反射率校正等。 白板反射率校正計算如式(1)
(1)
式(1)中,LTarget為目標(biāo)觀測值,LWR為標(biāo)準(zhǔn)參考板測量值,ρWR為參考板校正因子。
通過輻射校正和白板反射率校正等預(yù)處理, 得到了巖石的HySpex高光譜影像的反射率影像。 在巖石反射率影像中, 可以獲取到每一塊巖石每一個點(diǎn)位上的巖石反射率光譜信息, 相比于ASD獲取到的光譜信息更加豐富, 同時也借助ASD掃描得到的光譜和HySpex一起作為分類的參考, 提高巖石的光譜信息的準(zhǔn)確性, 以便于后續(xù)的初分類和特征波段的提取。 從巖石表面提取平均數(shù)量的樣本(ROI)計算影像校正后的每塊巖石的光譜曲線。
“最小噪聲分離”(MNF)變換是由Boardman和Kruse提出的一種與主成分相關(guān)的線性變換方法。 MNF變換可用于將數(shù)據(jù)空間分成兩部分: 一部分與大特征值和相干特征圖像相關(guān)聯(lián), 另一部分與接近單位特征值和噪聲主導(dǎo)圖像相關(guān)聯(lián)[29]。 最小噪聲分離法便于確定數(shù)據(jù)的固有維度, 分離其中的噪聲, 并降低后續(xù)處理的計算工作量, 被廣泛應(yīng)用于高光譜影像的預(yù)處理中, 例如處理高光譜航空航天等傳感器獲取到的數(shù)據(jù)都比較出色[30-31]。
運(yùn)用ENVI軟件中MNF變換工具, 對預(yù)處理后的影像進(jìn)行降維處理。 根據(jù)特征曲線以及影像噪聲, 選取的最佳分量數(shù)量為30。 影像降維處理后能使得波段減少, 更好用于后期的分類識別。
預(yù)處理后的高光譜影像數(shù)據(jù), 對81種巖石樣本分別進(jìn)行光譜采集和求平均處理, 再結(jié)合ASD光譜數(shù)據(jù)進(jìn)行巖石光譜分析。 巖石是礦物的集合體, 巖石的光譜也是和所含礦物成分的光譜相關(guān)。 很多種類不同的巖石因為礦物成分的相近, 導(dǎo)致光譜特征也非常相近, 例如一些變質(zhì)巖是沉積巖變質(zhì)而成, 另一些是由巖漿巖變質(zhì)而成, 成分中與原巖會有較大的相似性, 也是光譜具有相似性無法區(qū)分的原因, 也是巖石分類的難點(diǎn)之一。 初分類過程中, 基于巖石中礦物成分含量及不同光譜曲線特征, 依據(jù)巖石光譜整體的相似度和局部的吸收反射等特征波段的分析, 將81種常見的巖石重新建立了光譜對應(yīng)的初分類體系如表2所示。
表2 初分類體系
體系中主要將81種巖石分成9個大組類別, 即Ⅰ類(編號為R1—R9), R1—R9的大組類別下再根據(jù)光譜特征細(xì)分為28個小類別, Ⅱ類(編號為r1—r28)。 幾個大組類別中表現(xiàn)出ASD的光譜趨勢特征大體一致, 以及巖石成分和顏色表現(xiàn)近似, 同一大組下的小組之間主要表現(xiàn)出在HySpex光譜趨勢特征中的細(xì)微差異(圖5)。
圖5 初分類體系R1—R9巖石光譜(為了清晰起見, 光譜作了適當(dāng)偏移)虛線表示為不同的小類, 橫坐標(biāo)為波長./μm, 縱坐標(biāo)為反射率, 為了顯示清晰運(yùn)用了光譜偏移
工作中建立了光譜分析后的初分類體系, 用于后期分類訓(xùn)練樣本的選擇。 但是在初分類過程中會出現(xiàn)成分顯示相近但是光譜特征不一致的情況。 例如R9大類中(9)玄武巖、 (10)氣孔狀玄武巖和(11)杏仁狀玄武巖, 同屬于玄武巖類但是實(shí)際樣本光譜有明顯差異, (9)玄武巖和(10)氣孔狀玄武巖的光譜特征較為相近, 但(11)杏仁狀玄武巖樣本由于受到其他充填物的影響因此光譜差異和前兩者較大, 因此呈現(xiàn)的光譜特征有所差異; 在實(shí)地考察中更應(yīng)該關(guān)注這一類巖石的物質(zhì)成分以及光譜特征。
最大似然法又稱作貝葉斯分類, 是以最大似然貝葉斯判決準(zhǔn)則法作為判斷標(biāo)準(zhǔn), 依據(jù)統(tǒng)計方法的分類方法。 最大似然法分類是目前遙感影像分類方法中常用的經(jīng)典分類方法, 已有研究表明最大似然法在巖礦的高光譜遙感分類中效果表現(xiàn)出色[32]。
隨機(jī)森林(random forest, RF)是一種基于多棵決策樹的機(jī)器學(xué)習(xí)中集成學(xué)習(xí)算法。 其運(yùn)算過程首先是從原始訓(xùn)練樣本中利用自助法(bootstrap)重采樣技術(shù)得到新的訓(xùn)練樣本集合訓(xùn)練決策樹, 按以上步驟生成多棵決策樹, 這多棵決策樹模型就組成了隨機(jī)森林分類器, 再使用多顆決策樹對測試樣本集進(jìn)行分類, 最終將分類樹結(jié)果進(jìn)行匯總, 個別樹輸出的類別的眾數(shù)決定其輸出的類別(圖6)。 隨機(jī)森林算法在土壤以及土地利用信息的高光譜數(shù)據(jù)分類中表現(xiàn)出明顯的優(yōu)勢[33-34]。 本研究利用Random Forest工具包進(jìn)行預(yù)測分類,經(jīng)過實(shí)驗, 分類前設(shè)置需要生成樹的數(shù)量參數(shù)為100, 節(jié)點(diǎn)分割的最小樣本設(shè)置為1, 最小混雜度設(shè)置為0。
圖6 隨機(jī)森林分類示意圖
以光譜分析后的初分類體系選取ROI巖石樣本類別, 使用最大似然法和隨機(jī)森林分類模型, 分別對原始的高光譜影像和MNF變換后的高光譜影像進(jìn)行巖石分類。
為了能夠?qū)r石填圖結(jié)果進(jìn)行定量評價, 使用的精度評價方法為計算混淆矩陣(CM)和Kappa系數(shù)。
混淆矩陣(confushion martrix, CM): 又稱為分類誤差矩陣。 如果樣本的類別數(shù)為T, 那么混淆矩陣就是一個T×T的矩陣。 被正確分類的情況由主對角線上的元素個數(shù)決定, 其個數(shù)越多, 則最終分類效果越好。
Kappa(K)系數(shù): Kappa系數(shù)表示了結(jié)果內(nèi)部的一致性, 其中既包含了被正確分類的像素, 也包含了混淆矩陣主對角線上各種漏分和錯分錯誤, 更全面的反映了分類器的性能。 Kappa系數(shù)的公式為
(2)
以光譜分析后初分類體系為基礎(chǔ), 每小類間取不同的類型ROI樣本, 在每塊巖石表面一方位置取數(shù)量均勻樣本, 另一方位置取驗證ROI樣本, 對比原始的分類方法和使用初分類模型以及最大似然法與隨機(jī)森林算法巖性分類的效果。
分類效果的評價方法采用計算混淆矩陣和Kappa系數(shù)得出每一種分類的精度(表3)。
表3 不同分類模型與分類算法的分類精度(%)/Kappa系數(shù)
從分類結(jié)果來看(圖7, 表3), 降維后的特征數(shù)據(jù), 基于初分類體系的分類結(jié)果都要優(yōu)于未進(jìn)行初分類的分類結(jié)果。 其中最大似然法進(jìn)行初分類后提高了2個百分點(diǎn), 隨機(jī)森林法進(jìn)行初分類后提高了6個百分點(diǎn)。 說明基于初分類體系的巖石分類能夠提高巖石分類的準(zhǔn)確度, 巖石樣本間存在光譜特征相近并且可以歸并分類的巖石類別。 從分類算法上看, 最大似然法在初分類前后的精度分別為83.21%和85.46%, 而使用隨機(jī)森林分類效果達(dá)到83.63%和89.39%, 說明在分類類別較多和高維數(shù)據(jù)的情況下, 隨機(jī)森林能處理維度較高的數(shù)據(jù), 具有決定類別的評估變數(shù)誤差的優(yōu)勢, 總體優(yōu)于最大似然算法。 隨機(jī)森林算法使用未降維的原始數(shù)據(jù)進(jìn)行分類, 在初分類前后的精度分別為68.40%和78.88%, 與經(jīng)過MNF的分類相比精度較低, 因此使用MNF能夠提升隨機(jī)森林分類器的精度與性能。
圖7 不同分類方法對應(yīng)的分類結(jié)果影像
在基于初分類結(jié)果中(圖8), r4、 r3、 r6、 r9、 r12、 r15、 r18整體的生產(chǎn)者精度和用戶精度都很高, 即分類的效果最好, 分類精度達(dá)到95%以上甚至接近100%。 r5的分類精度較低為38%, 其次r22、 r24、 r25、 r27和r28的分類效果一般, 分類精度在60%~80%左右之間, 其余的小類分類精度都在80%以上。 說明初分類體系中r3、 r4、 r6、 r9、 r12、 r15、 r18有較高的類別內(nèi)的相似性, 使用隨機(jī)森林分類算法能夠很好地將特征相似巖石進(jìn)行歸類, 明顯減少了巖石分類中同一塊巖石分類結(jié)果容易混淆的現(xiàn)象。
圖8 基于初分類體系MNF降維后的特征數(shù)據(jù)隨機(jī)森林分類算法分類精度圖
高光譜巖性分類方法研究是高光譜研究領(lǐng)域中的一個重要方向。 本研究基于巖石的光譜特征角度, 利用HySpex高光譜成像儀實(shí)驗室系統(tǒng), 對81塊常見的巖漿巖與變質(zhì)巖巖石樣本進(jìn)行了光譜提取和巖石分類試驗研究。
基于光譜特征初分類的MNF特征提取結(jié)果進(jìn)行隨機(jī)森林算法分類, 與傳統(tǒng)的最大似然法模型分類進(jìn)行對比, 通過分類精度評價得到未進(jìn)行初分類的最大似然法、 初分類的最大似然法、 初分類的隨機(jī)森林算法的分類精度分別為83.21%、 85.46%和89.39%。 證明基于光譜特征的初分類結(jié)合隨機(jī)森林算法能夠很好的提升高光譜巖性分類的分類精度。
巖性混淆是巖石分類過程中較普遍存在的問題。 嘗試先對實(shí)驗室?guī)r石樣本進(jìn)行小類歸類, 其好處一是提高了整體巖石分類的精度; 二是可以挖掘巖石之間光譜的相似性, 找到其中光譜特征容易混淆的巖石, 為今后的巖性光譜分類提供參考。
實(shí)驗室環(huán)境下進(jìn)行多種巖性光譜研究相比于室外的光譜研究具有更理想化的條件, 在實(shí)際野外高光譜影像大面積區(qū)域的巖性信息提取應(yīng)用中, 還需要考慮更多的實(shí)際影響因素。 雖然隨機(jī)森林算法取得了較好的效果, 但在特征波段數(shù)量選取, 樣本選取和數(shù)量上存在一定的主觀性。 因此在分類前的信息波段選取、 樣本的選擇和樣本的數(shù)量有待討論。 巖石樣本只能代表該一類巖石中現(xiàn)實(shí)存在的一種巖性, 不同地區(qū)可能會出現(xiàn)同一類巖石具有不同的巖石成分組成和性質(zhì)的情況, 未來可以采集巖性多樣化的同類巖石樣本進(jìn)行研究。