毛亞純,丁瑞波,劉善軍,包妮沙
1. 東北大學(xué)資源與土木工程學(xué)院,遼寧 沈陽 110819 2. 東北大學(xué)智慧礦山研究中心,遼寧 沈陽 110819
斑巖型銅礦是我國銅礦的主要礦種之一,約占我國銅礦總儲量的41%[1],但品位普遍偏低,平均品位僅為0.55%[2]。目前,其品位分析的主要方法為化學(xué)分析法,由于化學(xué)分析方法工藝復(fù)雜、 化驗(yàn)周期較長,相對配礦流程存在滯后效應(yīng),因此難以適應(yīng)精準(zhǔn)配礦的要求。近年來,隨著機(jī)器學(xué)習(xí)及高光譜分析的快速發(fā)展,基于高光譜定量反演建模方法被普遍應(yīng)用于植被重金屬脅迫、 土壤污染和礦石品位分析等領(lǐng)域[3-7]。
針對高光譜原始數(shù)據(jù)處理及定量反演建模等問題,大量學(xué)者對高光譜數(shù)據(jù)進(jìn)行了特征參數(shù)提取、 敏感波段選取及數(shù)據(jù)降維處理等方法研究[8-10],這些方法有效的降低了高光譜數(shù)據(jù)的數(shù)據(jù)量及數(shù)據(jù)冗余,為準(zhǔn)確、 快速建模奠定了基礎(chǔ)。另外,很多學(xué)者也對建模方法進(jìn)行了深入研究,傳統(tǒng)的高光譜數(shù)據(jù)建模方法多以偏最小二乘法為主,隨著機(jī)器學(xué)習(xí)的發(fā)展,機(jī)器學(xué)習(xí)法被廣泛應(yīng)用于反演建模中。Liu等利用SMLR,PLSR和PCR相結(jié)合的方法成功建立了不同土壤的近紅外光譜與其有機(jī)碳之間的反演模型[11];Liang等以小麥的高光譜數(shù)據(jù)為數(shù)據(jù)源,并通過建立FD-NDNI及FD-SRNI兩種新的高光譜指數(shù),利用隨機(jī)森林方法對小麥的氮含量進(jìn)行預(yù)測,取得了較好的效果[12]。雖然國內(nèi)外學(xué)者對基于高光譜數(shù)據(jù)處理及建模方法進(jìn)行了較為深入的研究,但針對斑巖型銅礦的高光譜數(shù)據(jù)處理及反演建模方法研究相對較少。
以烏山斑巖型銅礦的化學(xué)分析與光譜測試數(shù)據(jù)為數(shù)據(jù)源,并對其進(jìn)行降維及波段選擇處理,同時(shí)以BP神經(jīng)網(wǎng)絡(luò)為建模方法建立了品位定量反演模型。研究結(jié)果表明,可見光-近紅外光譜在低品位斑巖型銅礦品位分析方面具有一定的可行性,能夠?yàn)槲覈邘r型銅礦品位的快速分析提供一種有效的手段。
樣品采自中國黃金集團(tuán)內(nèi)蒙古烏山銅鉬礦露天采場。在礦區(qū)不同地點(diǎn)采集大小適中的銅鉬礦塊狀樣本。將采集的樣本經(jīng)過篩選、 研磨,共制成粉末狀樣本121件。
使用美國SVC HR-1024便攜式地物光譜儀對121件粉末狀樣品進(jìn)行光譜測試。該儀器波段范圍為350~2 500 nm,通道數(shù)為1 024,光譜精度優(yōu)于±0.5 nm,光譜分辨率≤8.5 nm,最小積分時(shí)間為1 s。為降低氣溶膠及太陽輻射傳播路徑的影響,得到可靠的測試數(shù)據(jù),實(shí)驗(yàn)在10:00—14:00進(jìn)行。測量時(shí)要求天空晴朗無云,太陽高度角在45°左右。為避免測量背景影響,將被測樣品放置于邊長為5cm的正方形黑色小盒中,測量時(shí)要求樣品表面平整,光譜儀鏡頭垂直于樣品觀測面,采樣積分時(shí)間設(shè)置為2 s,視場角為4°。為避免測試數(shù)據(jù)受方向性的影響,每個(gè)樣品在測試過程中均水平旋轉(zhuǎn)3次,每次旋轉(zhuǎn)約90°,每個(gè)角度測試1次,取4次測試的反射率均值繪制該樣品的光譜曲線。
光譜測試結(jié)束后,將全部實(shí)驗(yàn)樣品進(jìn)行了化學(xué)成分測試,以此確定各個(gè)實(shí)驗(yàn)樣品的銅含量。由化驗(yàn)結(jié)果得出,該次實(shí)驗(yàn)樣本銅品位在0.062%~0.782%之間,平均銅品位為0.279%。低于我國的斑巖型銅礦平均品位。
圖1為全部實(shí)驗(yàn)樣品的光譜曲線,光譜具有如下特征:
圖1 實(shí)驗(yàn)樣品可見光-近紅外光譜曲線Fig.1 Visible and near infrared spectra of experimental samples
(1)樣品的光譜反射率大部分在40%~70%之間。
(2)350~600 nm波段光譜曲線出現(xiàn)差異,呈現(xiàn)出兩種變化趨勢,一種為上升趨勢,另一種變化平緩;600~2 500 nm波段所有光譜曲線差別不大呈現(xiàn)較平緩的趨勢。
(3)實(shí)驗(yàn)樣品中含有部分水(包括孔隙水和結(jié)晶水),所有實(shí)驗(yàn)樣品光譜于1 400與1 900 nm附近出現(xiàn)波谷,且該處光譜曲線毛刺較多,波動(dòng)較大。
(4)所有光譜曲線于760nm處出現(xiàn)微弱波谷。
對上述現(xiàn)象進(jìn)行分析發(fā)現(xiàn),在350~600 nm間的光譜差異與樣本銅含量有一定關(guān)系,上升快的樣本銅含量均值遠(yuǎn)小于較為平緩的銅含量均值。
2.1.1 基于降維算法的預(yù)處理
(1)主成分分析法
主成分分析法[13]是一種線性數(shù)據(jù)降維分析方法,采用主成分分析法對斑巖型銅礦原始光譜數(shù)據(jù)進(jìn)行降維分析,設(shè)置累計(jì)貢獻(xiàn)率為95%,依據(jù)累計(jì)貢獻(xiàn)率計(jì)算最終降維維度d。經(jīng)處理后,原始數(shù)據(jù)被降為3維,各維主成分所占貢獻(xiàn)率如圖2所示。圖中橫坐標(biāo)為各主成分,縱坐標(biāo)為各主成分貢獻(xiàn)率。
圖2 主成分分析結(jié)果Fig.2 Principal component analysis results
(2)局部線性嵌入算法
高光譜數(shù)據(jù)在采集過程中受多種因素影響,往往包含大量的非線性因素。局部線性嵌入算法[14]是一種非線性降維算法,用于對原始數(shù)據(jù)進(jìn)行降維處理時(shí),由于近鄰點(diǎn)k與所降維度d的取值對最終降維結(jié)果有較大影響,因此設(shè)置該算法的近鄰點(diǎn)k的取值為1~100,并以歐氏距離尋找每個(gè)樣本點(diǎn)的近鄰點(diǎn),同時(shí)參照主成分分析法的降維結(jié)果,設(shè)置局部線性嵌入算法降維維度d為2~20維,用最終的降維結(jié)果為數(shù)據(jù)源,采用BP神經(jīng)網(wǎng)絡(luò)算法反演銅含量,以反演結(jié)果的平均絕對誤差為依據(jù),確定了最鄰近數(shù)k為17,降維維度為5維。
2.1.2 基于遺傳算法的最佳波段選取
遺傳算法[15]是一種以遺傳機(jī)制和生物進(jìn)化理論為基礎(chǔ)的最優(yōu)化并行隨機(jī)搜索方法,它在建模自變量提取方面具有很大的優(yōu)越性。遺傳算法主要有三個(gè)基本操作:選擇、 交叉和變異。
圖3 適應(yīng)度函數(shù)變化曲線Fig.3 Fitness function curve
(1)
經(jīng)遺傳算法處理后,挑選出了467個(gè)最佳波段組合,以此為依據(jù),在所有樣本的光譜數(shù)據(jù)中選出對應(yīng)的467個(gè)波段反射率作為后續(xù)建模的輸入數(shù)據(jù)。
為驗(yàn)證數(shù)據(jù)預(yù)處理方法對建模的有效性,以測試樣本對應(yīng)的未經(jīng)預(yù)處理與預(yù)處理后的數(shù)據(jù)作為模型的輸入數(shù)據(jù),輸出預(yù)測結(jié)果并計(jì)算預(yù)測值與真實(shí)值的平均絕對誤差和相對誤差,以此作為模型精度的評價(jià)指標(biāo)。表1為原始數(shù)據(jù)及對數(shù)據(jù)進(jìn)行不同預(yù)處理后使用BP神經(jīng)網(wǎng)絡(luò)建模的結(jié)果。
表1 不同預(yù)處理方法的反演結(jié)果Table 1 Inversion results of different pretreatment methods
由表1可看出,經(jīng)遺傳算法處理后的建模精度最高。如圖4所示,經(jīng)遺傳算法處理后使用BP神經(jīng)網(wǎng)絡(luò)預(yù)測的預(yù)測值與真實(shí)值作擬合曲線,預(yù)測值與真實(shí)值的擬合優(yōu)度為0.86,相關(guān)系數(shù)為0.92,預(yù)測結(jié)果較為理想。
圖4 預(yù)測值與實(shí)測值對比圖Fig.4 The comparison of predicted and measured values
由表1分析可知,經(jīng)過預(yù)處理后的數(shù)據(jù)用于建模,反演精度各有不同,表明不同預(yù)處理算法對建模結(jié)果有不同的影響。綜合分析預(yù)處理算法原理及反演結(jié)果,由于原始數(shù)據(jù)光譜分辨率高,數(shù)據(jù)量大,數(shù)據(jù)間有較高的冗余性,且光譜之間往往存在相關(guān)性,將原始數(shù)據(jù)作為BP神經(jīng)網(wǎng)絡(luò)模型的輸入數(shù)據(jù),造成模型精度不高,建模時(shí)間長,且易使神經(jīng)網(wǎng)絡(luò)出現(xiàn)過擬合現(xiàn)象。主成分分析法作為一種線性降維算法,將原始數(shù)據(jù)假設(shè)為線性結(jié)構(gòu)進(jìn)行降維,但光譜數(shù)據(jù)間有大量的非線性結(jié)構(gòu),這可能是導(dǎo)致主成分分析法處理后的建模效果不佳的主要原因,而局部線性嵌入算法是一種非線性降維算法,該算法假設(shè)在局部鄰域內(nèi)是線性的,一定程度上符合光譜數(shù)據(jù)的非線性結(jié)構(gòu),因此使用該算法處理后的數(shù)據(jù)用于建模,模型精度有一定的提高。遺傳算法作為一種智能尋優(yōu)算法,同時(shí)與BP神經(jīng)網(wǎng)絡(luò)結(jié)合,將其用作遺傳算法中適應(yīng)度函數(shù)關(guān)鍵參數(shù)的計(jì)算,又以遺傳算法對BP神經(jīng)網(wǎng)絡(luò)的各權(quán)值、 閾值進(jìn)行優(yōu)化。該算法無需知道先驗(yàn)知識,由算法自動(dòng)尋找最優(yōu)波段組合,舍棄敏感性低、 對建??赡茉斐韶?fù)面效果的波段。結(jié)果表明,經(jīng)該算法處理后的數(shù)據(jù)用于建模,模型精度有較大的提高。
對比降維算法與遺傳算法對原始數(shù)據(jù)進(jìn)行處理后對建模結(jié)果的影響,兩類算法均減少了數(shù)據(jù)量,簡化了模型,提高了建模速度,但降維算法改變了原始數(shù)據(jù)的原始信息及數(shù)據(jù)結(jié)構(gòu),而遺傳算法提取了敏感波段,去除了冗余波段,保留了數(shù)據(jù)大部分的原始信息,并且未改變數(shù)據(jù)結(jié)構(gòu),這可能是遺傳算法處理后的數(shù)據(jù)用于建模,精度優(yōu)于兩種降維算法的主要原因。
以121個(gè)烏山斑巖型銅礦的化學(xué)分析與可見-光近紅外光譜測試數(shù)據(jù)為數(shù)據(jù)源,對測試數(shù)據(jù)的預(yù)處理及定量反演模型的建立進(jìn)行了深入研究,得出以下結(jié)論:
(1) 用BP神經(jīng)網(wǎng)絡(luò)法對低品位斑巖型銅礦的可見光-近紅外光譜數(shù)據(jù)建立銅品位反演模型具有一定的可行性,但建模精度偏低。
(2) 用降維算法對數(shù)據(jù)進(jìn)行預(yù)處理后用于建模,有效地降低了自變量數(shù)量。主成分分析法在建模精度上沒有提高,建模平均絕對誤差為0.110%,但提高了建模速度。局部線性嵌入算法在提高建模速度的基礎(chǔ)上,同時(shí)提高了建模精度,平均絕對誤差為0.093%。
(3) 對于低品位、 光譜特征不明顯的斑巖型銅礦,使用遺傳算法與神經(jīng)網(wǎng)絡(luò)結(jié)合的方法對原始光譜數(shù)據(jù)進(jìn)行有效波段提取,處理后的結(jié)果用于建模,在提高建模速度的同時(shí),建模精度也有較大提高,反演平均絕對誤差為0.045%。由于本實(shí)驗(yàn)的斑巖型銅礦樣本銅含量較低,平均品位僅為0.279%,因此品位反演相對誤差達(dá)到16.1%,這說明該方法處理后所建模型在品位反演方面仍然具有一定的局限性,但為進(jìn)一步提高低品位斑巖型銅礦定量反演精度奠定了基礎(chǔ)。
本研究對礦山實(shí)時(shí),快速分析礦石品位提供了一定的參考價(jià)值,尤其對低品位斑巖型銅礦品位快速分析具有重要的現(xiàn)實(shí)意義。