程惠珠, 楊婉琪, 李福生*, 馬 騫, 趙彥春
1. 電子科技大學(xué)自動化工程學(xué)院, 四川 成都 611731 2. 電子科技大學(xué)長三角研究院(湖州), 浙江 湖州 313001
土壤作為生態(tài)系統(tǒng)基本要素之一, 是開展農(nóng)業(yè)生產(chǎn)的關(guān)鍵性因素, 并為各行各業(yè)的發(fā)展提供必要場所。 隨著工業(yè)化進(jìn)程的不斷推進(jìn), 一方面促進(jìn)了各國經(jīng)濟(jì)水平的不斷提升, 另一方面也不可避免的帶來了嚴(yán)重的環(huán)境問題, 其中土壤污染已經(jīng)成為比較棘手的問題[1-3]。 重金屬污染在土壤環(huán)境污染中占據(jù)較大的比重, 其主要原因是重金屬不能被土壤微生物所分解、 治理難度大、 化學(xué)性質(zhì)穩(wěn)定等而易于積累成為土壤無機(jī)污染物的重要組成部分[4]。 目前通常將土壤里毒性比較大的8種重金屬元素Cu、 Pb、 Zn、 Cd、 Cr、 Ni、 As和Hg作為土壤污染篩查的對象。
高效、 準(zhǔn)確、 便捷的土壤重金屬檢測方法對于了解土壤的環(huán)境狀況以及開展污染防治工作具有重要的意義[5]。 X射線熒光光譜分析(X-ray fluorescence spectrometry, XRF)技術(shù)[6]由于具備快速、 準(zhǔn)確、 無損等優(yōu)勢, 在檢測元素成分含量中得到了廣泛的應(yīng)用。 由于通常需要檢測的重金屬含量很低, 導(dǎo)致元素的特征峰容易重疊或者受到其他元素的特征峰影響, 給檢測分析帶來較大誤差。 隨著人工智能算法[7-8]進(jìn)入成分分析領(lǐng)域, 解決元素含量的精準(zhǔn)測定出現(xiàn)了新思路。 任順[9]等基于X射線熒光光譜結(jié)合多特征串聯(lián)策略的ICO-CARS-SPA算法, 提升有效光譜信息貢獻(xiàn)度。 劉崢瑩[10]等利用麻雀搜索算法全局優(yōu)化高斯混合模型中高斯峰的期望、 方差和權(quán)重參數(shù), 實現(xiàn)重疊峰的分解。
本工作以土壤重金屬為研究對象, 基于X射線熒光光譜分析技術(shù)對土壤中Cr、 Ni、 Cu、 Zn、 As、 Pb元素的檢測方法進(jìn)行了研究。 采集國家標(biāo)準(zhǔn)土壤樣品的XRF光譜數(shù)據(jù), 通過小波變換、 arPLS方法對原始光譜數(shù)據(jù)進(jìn)行預(yù)處理, 并采用競爭性自適應(yīng)加權(quán)算法的數(shù)據(jù)挖掘方法, 提取各土壤重金屬元素的敏感能量特征段, 分別建立了基于敏感能量段的土壤重金屬定量反演模型。
國家標(biāo)準(zhǔn)土壤樣品均采購自國家標(biāo)準(zhǔn)物質(zhì)網(wǎng), 包含GBW、 GBW(E)、 GSD、 GSS系列的57個標(biāo)準(zhǔn)物質(zhì)。 其中57個國家標(biāo)準(zhǔn)土壤樣品中八大重金屬元素含量范圍如表1所示, 針對Cd、 Hg元素其含量大多集中在低含量區(qū)域內(nèi), 而所采用儀器的檢出限在1 mg·kg-1, 因此主要考慮對于Cr、 Ni、 Cu、 Zn、 As、 Pb元素的定量分析。 國家土壤標(biāo)準(zhǔn)樣品裝杯后的示意圖如圖1(a)所示。 XRF光譜測量采用型號為TS-XH4000的手持便攜式X射線熒光光譜儀如圖1(b)所示。
圖1 土壤樣品和儀器的示意圖(a): 土壤標(biāo)準(zhǔn)樣品; (b): 手提式XRF光譜儀Fig.1 Schematic diagram of soil samples and instruments(a): Soil standard samples; (b): A handheld XRF spectrometer made
表1 57個國家標(biāo)準(zhǔn)土壤樣品重金屬元素含量范圍(mg·kg-1)Table 1 Content range of heavy metal elements in 57 national standard soil samples (mg·kg-1)
為保證土壤光譜數(shù)據(jù)的穩(wěn)定性, 在光譜儀允許的環(huán)境溫度內(nèi), 對光譜儀選用土壤模式, 調(diào)整好土壤的最佳測試參數(shù)后, 對每個樣品的測試時間設(shè)置為90 s。 并將同一個土壤樣品測試3次取平均值, 作為相應(yīng)樣品最終的光譜數(shù)據(jù)。
1.3.1 CARS算法
競爭性自適應(yīng)重加權(quán)算法[11-13]結(jié)合蒙特卡羅隨機(jī)采樣以及偏最小二乘回歸算法的特征選擇方法, 并通過獲得交叉驗證均方根誤差最小的子集來獲取最優(yōu)的特征組合。 CARS法[14-15]的每個采樣周期可分為4個連續(xù)的步驟, 包括: (1)利用蒙特卡羅采樣法從校正集中選擇一定數(shù)量的樣本, 進(jìn)行PLS建模; (2)計算通道能量段回歸系數(shù)的絕對值權(quán)重, 利用衰減指數(shù)法剔除絕對值較小的能量段變量; (3)采用自適應(yīng)加權(quán)算法在剩余的能量通道變量中選擇能量段, 建立PLSR模型; (4)選擇在均方根誤差最小的模型對應(yīng)的能量段變量作為最終的特征選擇變量。
1.3.2 粒子群算法優(yōu)化SVR模型
由于土壤的基體效應(yīng)與譜線重疊干擾, 在實際分析測試中得到的元素譜線強(qiáng)度與濃度并不是呈現(xiàn)出完美的線性關(guān)系, 因此在對于元素做定量分析時, 需要考慮使用非線性模型建立光譜的反演預(yù)測。 SVM(粒子群算法)[16-17]作為機(jī)器學(xué)習(xí)中一種應(yīng)用較為廣泛的算法, 常用于解決非線性分類與回歸問題。 考慮其泛化能力, 針對其中參數(shù)懲罰因子c、 核函數(shù)g的選取, 并且采用的是一種隨機(jī)局部搜索策略--粒子群算法, 對最優(yōu)的參數(shù)進(jìn)行尋優(yōu)。 模型預(yù)測的精度用決定系數(shù)(determination coefficients,R2)和均方根誤差(root mean squard error, RMSE)來衡量。
針對XRF光譜的預(yù)處理, 利用Matlab中的ddencmp函數(shù)自動生成小波去噪的閾值選擇方案, 小波選取為coif3, 并采用arPLS方法進(jìn)行光譜的基線校正。 以Cu元素為例, 將原始信號與進(jìn)行去噪和本底扣除后光譜信號的特征峰計數(shù)以及含量進(jìn)行線性擬合如圖2所示。
圖2 Cu元素XRF光譜預(yù)處理前后特征峰含量擬合Fig.2 Fitting diagram of characteristic peak content before and after XRF spectrum pretreatment of Cu element
為了增加特征選擇的穩(wěn)定性、 可靠性, 對CARS算法的參數(shù)進(jìn)行設(shè)定, 其中重復(fù)計算次數(shù)為2 048次, 校準(zhǔn)樣品與總樣品的比率為0.8, 交叉驗證的最大潛在變量數(shù)(即PLS主成分?jǐn)?shù))為15, 預(yù)處理法選擇“center”, MCS抽樣運(yùn)行次數(shù)為50, 并采用5折交叉驗證。 將57份經(jīng)過預(yù)處理后的標(biāo)準(zhǔn)土壤樣品作為輸入, 即樣品矩陣為57×2 048, 分別將Cr、 Ni、 Cu、 Zn、 As、 Pb元素的含量作為測試屬性, 其矩陣大小均為57×1, 計算不同重金屬元素在最小均方根誤差下的特征能量段, 作為進(jìn)行特征選擇的結(jié)果。
圖3為基于CARS算法針對Cu元素的能量段變量篩選過程。 圖中“*”為RMSECV值最低點(diǎn), 因此對于Cu元素, 在MCS抽樣次數(shù)為30時, 獲得的交叉驗證均方根誤差值最小。 在RMSECV值最低時, 此時保留的變量個數(shù)及其特征能量值如表2所示, 分析不同的元素篩選出的特征能量值。
圖3 CARS優(yōu)選Cu元素特征能量過程Fig.3 CARS optimization of Cu element characteristic energy process
表2 CARS算法篩選出的特征能量Table 2 Feature energies screened out by CARS algorithm
根據(jù)表2, 針對Cr元素, 特征能量值主要集中在5.35~6.71 keV能量段及10.02~11.14 keV能量段, 由表3可知, 正對應(yīng)Cr元素的特征峰能量段以及As元素的特征峰。 根據(jù)對于土壤的基體效應(yīng)與譜線重疊干擾, 可知選取的特征能量值對應(yīng)的特征元素, 除了待分析元素本身外, 部分還存在著土壤基體效應(yīng)元素Fe, 以及相應(yīng)的譜線干擾元素, 進(jìn)一步說明了CARS算法在進(jìn)行特征選擇時的有效性。 同時, 經(jīng)過基于CARS算法的特征變量選擇, 變量的個數(shù)由2 048個變?yōu)?~29個, 為原來變量個數(shù)的0.43%~1.42%。
表3 土壤部分元素的特征峰能量范圍Table 3 Characteristic peak energy range of some elements in soil
首先進(jìn)行樣本集劃分, 將57份土壤標(biāo)準(zhǔn)樣品劃分為預(yù)測集合與訓(xùn)練集, 包括47份訓(xùn)練集與10份驗證集。 對于粒子群算法設(shè)置其初始其參數(shù)分別為: 慣性因子0.5, 學(xué)習(xí)因子c1為1.5,c2為1.7, 迭代次數(shù)為100, 種群規(guī)模為50。 為了對PSO-SVR算法模型進(jìn)行效果驗證, 選擇SVR、 PLSR模型進(jìn)行對比。 同時, 為了說明基于CARS算法進(jìn)行特征選擇的必要性, 將未進(jìn)行特征選擇的元素特征峰計數(shù)值直接作為輸入, 采用PSO-SVR算法進(jìn)行含量分析, 得到不同定量反演方法的評估結(jié)果對比如表4所示。 首先對比PSO-SVR與CARS-PSO-SVR方法的效果, 可以看出未經(jīng)過特征選擇的PSO-SVR模型, 在訓(xùn)練集與預(yù)測集上的均方根誤差更大。 在CARS算法的基礎(chǔ)上, 對比PLSR、 SVR、 PSO-SVR模型的效果, 可以看出, 訓(xùn)練集的擬合程度均達(dá)到了0.988以上, 且RMSE均小于1, 預(yù)測集的擬合程度相對于訓(xùn)練集均有一定的下降, PSO-SVR模型的效果更好。
表4 不同定量反演方法的評估結(jié)果對比Table 4 Comparison of evaluation results of different quantitative inversion methods
土壤作為一種較為復(fù)雜的混合物, 其物理性質(zhì)、 化學(xué)性質(zhì)和不同的物質(zhì)成分共同決定了光譜特征, 除此之外, 土壤中的重金屬含量極低, 受到土壤基體效應(yīng)以及譜線重疊的影響較大。 本文采用的特征輸入為基于CARS的特征能量選擇, 省略了針對特征提取繁瑣的分析階段, 簡化了XRF光譜分析流程, 使得XRF光譜反演更加智能化, 并進(jìn)一步分析特征能量峰的來源, 使得CARS選取的特征具備可解釋性, 再采用PSO優(yōu)化的SVR建立土壤重金屬含量反演模型。