毛亞純,溫 健*,付艷華,曹 旺,趙占國,丁瑞波
1.東北大學(xué)資源與土木工程學(xué)院,遼寧 沈陽 110819 2.東北大學(xué)江河建筑學(xué)院,遼寧 沈陽 110819 3.中國黃金集團(tuán),北京 100000
鐵礦是我國經(jīng)濟(jì)發(fā)展的重要礦產(chǎn)資源,其中矽卡巖型鐵礦是我國重要的鐵礦床類型之一,其儲量約占全國鐵礦床總儲量的11%,礦石類型以磁鐵礦為主[1]。傳統(tǒng)的礦石品位檢定方法以化學(xué)分析法為主,檢測方法較為準(zhǔn)確,但由于成本昂貴、檢定周期較長,無法實(shí)現(xiàn)礦石品位的即時原位測定[2],相對配礦流程均存在滯后效應(yīng),因此難以有效降低礦石開采的損失貧化率。如今,如何做到低成本,快速、準(zhǔn)確確定鐵礦品位及合理、高效開采鐵礦已成為鐵礦開采中亟待解決的關(guān)鍵問題。高光譜遙感由于其高分辨率、波譜連續(xù)、信息豐富[3],已被廣泛應(yīng)用于植被指數(shù)反演、土壤含鹽量反演、重金屬品位反演等領(lǐng)域[4-6]。
由于原始高光譜數(shù)據(jù)存在數(shù)據(jù)冗余、信噪比低等問題,嚴(yán)重影響其特征分析的準(zhǔn)確性和建模反演精度,為此大量學(xué)者在高光譜數(shù)據(jù)的預(yù)處理、及降維處理等方面進(jìn)行了的研究[7-8],這些方法均有效降低了高光譜數(shù)據(jù)的冗余度,快速準(zhǔn)確地提取出有效的光譜信息,達(dá)到提升預(yù)測精度降低誤差的目標(biāo)。同時國內(nèi)外很多學(xué)者也對數(shù)據(jù)處理以及建模方法進(jìn)行了大量的研究。Chudnovsky等基于偏最小二乘法多元分析,證明了僅通過沉積物粉塵的可見光-近紅外高光譜數(shù)據(jù)即可對其進(jìn)行準(zhǔn)確預(yù)測[9];高偉等以鐵礦粉的高光譜數(shù)據(jù)為數(shù)據(jù)源,建立了多種反演模型,其中SFIM-RFR模型預(yù)測結(jié)果誤差最小,證明了基于高光譜數(shù)據(jù)預(yù)測鐵礦粉中全鐵品位的可行性和有效性[10];陳俊英等建立了SNV-SR-ELM模型,對高光譜反演水質(zhì)模型的優(yōu)化以及污水水質(zhì)的快速監(jiān)測和綜合評價提供了有效途徑[11]。雖然國內(nèi)外學(xué)者對高光譜數(shù)據(jù)處理及建模方法的研究已經(jīng)取得了一定的進(jìn)展,但目前基于矽卡巖型鐵礦高光譜數(shù)據(jù)的研究相對較少。
以紅嶺矽卡巖型鐵礦的化學(xué)分析與光譜測試數(shù)據(jù)為數(shù)據(jù)源,并對其進(jìn)行數(shù)據(jù)預(yù)處理及降維多種組合算法處理,同時以隨機(jī)森林算法和極限學(xué)習(xí)機(jī)算法兩種算法為建模方法建立礦石鐵品位的定量反演模型。結(jié)果表明,經(jīng)MSC處理及PCA降維后的數(shù)據(jù)基于ELM算法(MSC-PCA-ELM)建立的定量反演模型效果最優(yōu),其中決定系數(shù)R2為0.99、均方根誤差RMSE為0.005 7、平均相對誤差MRE為2.0%,由此可見利用該方法可準(zhǔn)確快速反演矽卡巖型鐵礦的品位,為我國矽卡巖型鐵礦品位的快速原位分析提供了有效手段。
紅嶺鉛鋅礦位于我國內(nèi)蒙古赤峰市,主要開采鐵、鋅礦體,是以鐵、鉛、鋅為主的矽卡巖型多金屬礦床。2019年6月在內(nèi)蒙古赤峰紅嶺礦區(qū)采集了井下矽卡巖型鐵礦樣本。為保證所采集的樣本具有代表性、多樣性及建模的普適性,故采取礦區(qū)均勻抽樣的方式采集了相應(yīng)的矽卡巖型鐵礦樣本,如圖1(a)所示。
為使所建模型在井下具有實(shí)際應(yīng)用性,因此對矽卡巖型鐵礦樣本進(jìn)行了鉆孔、取芯及切塊處理,最終制成共225件塊狀樣本,如圖1(b)和(c)所示。
圖1 實(shí)驗(yàn)樣品Fig.1 Experimental samples
使用美國SVC HR-1024便攜式地物光譜儀采集光譜,波段范圍350~2 500 nm,通道數(shù)為1 024,最小積分時間為1 s。在觀測角度等條件保持不變的情況下,分別以太陽光和鹵素?zé)艄庾鳛楣庠吹臏y試結(jié)果基本一致。但考慮到井下應(yīng)用將以鹵素?zé)糇鳛楣庠矗虼艘喳u素?zé)糇鳛闇y試光源,并在夜間封閉環(huán)境條件下對樣本進(jìn)行了測試,測試時使樣本觀測面保持水平,光譜儀鏡頭垂直于樣品觀測面,采樣積分時間設(shè)置為2 s,每個樣品重復(fù)測試2次,視場角為4°。為避免光譜測試出現(xiàn)的偶然性,取兩次反射率平均值作為該礦石的實(shí)際反射光譜數(shù)據(jù)。在實(shí)驗(yàn)過程中,每隔10~15 min進(jìn)行一次白板測定。
光譜采集完畢后,為了進(jìn)一步降低噪聲的干擾,采用Savitzky Golay法對原始光譜數(shù)據(jù)進(jìn)行了平滑處理[12],圖2是225個塊狀矽卡巖型鐵礦樣本的光譜曲線。
圖2 樣品可見光-近紅外光譜曲線Fig.2 Visible and near infrared spectra of samples
光譜特征如下:
(1)樣品的光譜反射率大部分在10%~30%之間。
(2)在400~550 nm反射率為上升趨勢,一部分曲線上升趨勢顯著,斜率較大,另一部分曲線上升趨勢緩慢,斜率較小,且在550 nm附近出現(xiàn)波峰。
(3)在550~1 180 nm反射率下降,其中在870 nm附近出現(xiàn)微弱波谷。
對上述現(xiàn)象進(jìn)行分析發(fā)現(xiàn),在350~550 nm間的光譜差異與樣本鐵品位有一定相關(guān)性,斜率小的樣本普遍鐵品位均值高于斜率大的樣本鐵品位均值。
光譜測試結(jié)束后,將全部實(shí)驗(yàn)樣品進(jìn)行了研磨化驗(yàn)處理,以確定各個樣品的鐵品位。由化驗(yàn)結(jié)果得出,樣本鐵品位在6.75%~66%之間,平均品位為27.84%。
由于原始高光譜數(shù)據(jù)存在數(shù)據(jù)冗余、信噪比低等問題,為了增強(qiáng)光譜信息,突出光譜特征,提高信噪比,采用倒數(shù)對數(shù)、多元散射校正兩種預(yù)處理方法。
(1)倒數(shù)對數(shù)法
倒數(shù)對數(shù)法不僅可以有效增強(qiáng)光譜在可見光波段的差異,還可以有效的減弱因測試時光照條件變換所引起的乘性因素的影響。倒數(shù)對數(shù)法計算公式如式(1)所示
(1)
式(1)中,θ為平滑后的原始光譜數(shù)據(jù),θ′為經(jīng)倒數(shù)對數(shù)處理后的光譜數(shù)據(jù)。圖3是225個塊狀矽卡巖型鐵礦樣本經(jīng)過倒數(shù)對數(shù)處理后的光譜曲線。
圖3 倒數(shù)對數(shù)處理后的光譜曲線Fig.3 Spectral curves after reciprocal logarithm processing
(2)多元散射校正
多元散射校正處理可有效降低因散射對光譜數(shù)據(jù)的影響,在一定程度上增強(qiáng)特征波段的有效信息[13]。該算法的具體實(shí)現(xiàn)過程為:首先由式(2)計算樣本的平均光譜作為標(biāo)準(zhǔn)光譜,然后將各種原始光譜與標(biāo)準(zhǔn)光譜作一元回歸,如式(3)所示,最后由式(4)計算多元散射校正后的光譜數(shù)據(jù)。
(2)
(3)
(4)
式中,A為i×w維定標(biāo)光譜矩陣,i為樣品數(shù),w為光譜采集時所用波段數(shù),lm和Bm分別表示經(jīng)平滑處理后的原始光譜數(shù)據(jù)和平均光譜數(shù)據(jù)作為一元線性回歸后的相對偏移系數(shù)和平移量。圖4是225個塊狀矽卡巖型鐵礦樣本經(jīng)過多元散射校正處理后的光譜曲線。
圖4 多元散射校正后的光譜曲線Fig.4 Multivariate scatter corrected spectral curves
(1)遺傳算法
圖5 遺傳算法選擇最優(yōu)波段流程圖Fig.5 Flow chart of genetic algorithm to select the optimal band
(5)
未經(jīng)處理的數(shù)據(jù)、經(jīng)倒數(shù)對數(shù)變換后的數(shù)據(jù)和經(jīng)多元散射校正變換后的數(shù)據(jù)經(jīng)遺傳算法處理后,維度由973維分別降至477維、489維和509維。
(2)主成分分析法
主成分分析(principle component analysis,PCA)是一種線性數(shù)據(jù)降維分析方法,其主要思想是通過線性變換提取原始數(shù)據(jù)的中的主要特征,在減少數(shù)據(jù)冗余的同時保留原始數(shù)據(jù)的絕大有用信息,從而解決特征維數(shù)過高的問題,即用壓縮后盡可能少的信息來代替原有的信息[14]。步驟如下:
(6)
(7)
累積貢獻(xiàn)率設(shè)置為99%,以累計貢獻(xiàn)率為依據(jù),計算最終維度。如圖6(a,b,c)所示,橫坐標(biāo)為依次各主成分,縱坐標(biāo)為各主成分貢獻(xiàn)率,未經(jīng)處理的數(shù)據(jù)、經(jīng)倒數(shù)對數(shù)變換后的數(shù)據(jù)和經(jīng)多元散射校正變換后的數(shù)據(jù)利用PCA算法處理后維度由973維分別降至3維、3維和7維。
圖6 主成分分析結(jié)果Fig.6 Principal component analysis results
隨機(jī)森林(random forests,RF)是由Leo Breiman提出的一種基于統(tǒng)計學(xué)的非線性組合智能機(jī)器學(xué)習(xí)算法。對于回歸問題,RF模型通過多次bootstrap抽樣獲得隨機(jī)樣本,然后通過學(xué)習(xí)樣本特征分別建立相應(yīng)的決策樹,最后基于投票和平均的方法輸出多個不同功能決策樹的最終結(jié)果。在算法模型建立過程中,設(shè)置決策樹的數(shù)量為500。
極限學(xué)習(xí)機(jī)(extreme learning machine,ELM),是黃廣賦等依據(jù)廣義逆矩陣?yán)碚撎岢龅囊环N性能優(yōu)良的單隱含層前饋神經(jīng)網(wǎng)絡(luò)模型。它不僅具有較強(qiáng)的非線性擬合能力,還因較其他算法模型速度更快、精度更高、參數(shù)調(diào)整簡單而被廣泛應(yīng)用于多個領(lǐng)域。ELM在執(zhí)行過程中隨機(jī)產(chǎn)生輸入層和隱含層間的連接權(quán)值及隱含層的神經(jīng)元的閾值且在訓(xùn)練中無需調(diào)整,可以獲得最優(yōu)解[15]。模型建立過程中將隱含層節(jié)點(diǎn)數(shù)設(shè)置為30。
模型的穩(wěn)定性、精確度、可信度分別由決定系數(shù)R2、均方根誤差RMSE以及平均相對誤差MRE來檢驗(yàn)。
選擇169個樣品為訓(xùn)練樣本和56個樣品為測試樣本分別建立隨機(jī)森林算法模型和極限學(xué)習(xí)機(jī)算法模型。表1和表2分別為未經(jīng)處理的數(shù)據(jù)以及對數(shù)據(jù)進(jìn)行不同預(yù)處理后使用隨機(jī)森林算法和極限學(xué)習(xí)機(jī)算法建模的結(jié)果。
表1 RF反演模型反演結(jié)果評價Table 1 Assessment of RF inversion results
表2 ELM反演模型反演結(jié)果評價Table 2 Assessment of ELM inversion results
綜合兩個表中的數(shù)據(jù),利用經(jīng)MSC處理、PCA降維后的數(shù)據(jù)基于ELM算法建立的品位定量反演模型效果最優(yōu)。如圖7所示,經(jīng)該方法處理后使用ELM預(yù)測的預(yù)測值和真實(shí)值作擬合曲線,預(yù)測值與真實(shí)值的決定系數(shù)達(dá)到0.99,均方根誤差為0.005 7,平均相對誤差為2.0%,與未經(jīng)處理的數(shù)據(jù)建立的模型相比較,有較大的提升,預(yù)測效果更為精確。
圖7 預(yù)測值與真實(shí)值差異圖Fig.7 The difference between the predicated value and the true value
綜合分析上述不同方法處理之后的結(jié)果,其中經(jīng)MSC處理、PCA降維后的數(shù)據(jù)基于ELM算法建立的品位定量反演模型效果最優(yōu)。未經(jīng)處理的數(shù)據(jù)可能受到設(shè)備的局限性以及實(shí)驗(yàn)環(huán)境的影響,產(chǎn)生基線平移偏移等現(xiàn)象,對建模造成負(fù)面影響,而通過MSC處理之后的數(shù)據(jù)能很大程度上消除這種影響,突出光譜特征信息的同時降低信噪比,有助于反演模型的精度提升,而遺傳算法在路徑尋優(yōu)上具有偶然性,且容易收斂到局部最優(yōu)解,因此滿足不了精度要求。而主成分分析能最大程度的提取經(jīng)過MSC處理之后光譜數(shù)據(jù)主要信息,因此經(jīng)過該方法建立的模型反演結(jié)果精度最優(yōu)。由于隨機(jī)森林是一種集成算法,因此經(jīng)過預(yù)處理的數(shù)據(jù)對其反演模型精度沒有產(chǎn)生太大變化;而極限學(xué)習(xí)機(jī)算法,學(xué)習(xí)速度極快,泛化能力強(qiáng),預(yù)測結(jié)果精確,但容易受到噪聲以及無用信息的干擾,導(dǎo)致對未經(jīng)處理的數(shù)據(jù)反演建模精度較低,而選擇合適的預(yù)處理方法能很大程度消除負(fù)面影響。
經(jīng)MSC處理、PCA降維后的光譜數(shù)據(jù),以ELM為極限學(xué)習(xí)機(jī)模型對紅嶺矽卡巖型鐵礦品味反演不僅能大幅度提升模型反演速度,而且滿足高精度、高效率的品位反演需求。
以225個赤峰紅嶺矽卡巖型鐵礦的化學(xué)分析與可見光-近紅外光譜測試數(shù)據(jù)為數(shù)據(jù)源,深入研究了測試數(shù)據(jù)的預(yù)處理方法以及定量反演模型,結(jié)論如下:
(1)利用MSC算法對矽卡巖型鐵礦光譜數(shù)據(jù)進(jìn)行處理可有效降低散射對數(shù)據(jù)的影響。利用PCA算法對矽卡巖型鐵礦光譜數(shù)據(jù)進(jìn)行降維處理可有效降低原始數(shù)據(jù)冗余,提升建模速度。
(2)對于矽卡巖型鐵礦,使用經(jīng)MSC處理、PCA降維后的數(shù)據(jù),以極限學(xué)習(xí)機(jī)為建模方法,反演結(jié)果最優(yōu)。其中R2由0.94提升至0.99,MSE由0.042 0降低至0.005 7,MRE從16%降低至2%,預(yù)測精度較高。
針對矽卡巖型鐵礦的原位快速品位分析提供了一種有效方法。但由于不同類型礦體的光譜測試結(jié)果會存在不同程度的差異,因此數(shù)據(jù)處理方法、所建模型精度也會不同,對此尚需開展進(jìn)一步深入研究。