王清亞,李福生*,江曉宇,鄔書良,謝濤鋒,黃溫鋼
(1.東華理工大學(xué) 核技術(shù)應(yīng)用教育部工程研究中心,江西 南昌 330013;2.東華理工大學(xué) 核資源與環(huán)境國(guó)家重點(diǎn)實(shí)驗(yàn)室,江西 南昌 330013)
隨著工業(yè)進(jìn)程的加快,鎘(Cd)的大量利用造成了嚴(yán)重的環(huán)境污染,全世界每年約向環(huán)境中釋放40萬噸的Cd,其中59%直接進(jìn)入土壤[1]。土壤中Cd含量的傳統(tǒng)檢測(cè)方法存在效率低、成本高、易造成環(huán)境污染等問題,無法滿足較大尺度區(qū)域的土壤鎘含量的調(diào)查需求[2]。近二十年來,近端土壤傳感技術(shù),如X射線熒光光譜(X-ray fluorescence spectroscopy,XRF)[3]和可見光-近紅外(Visible and near-infrared spectra,Vis-NIR)光譜分析技術(shù)[4],因可以實(shí)現(xiàn)土壤中重金屬含量的無損、高效和無污染快速測(cè)定[5],引起了研究人員的關(guān)注。
但不同類型的土壤基質(zhì)差異大,元素種類繁多,基質(zhì)效應(yīng)明顯[6],單一采用XRF和Vis-NIR時(shí)準(zhǔn)確度[3,7]難以滿足國(guó)標(biāo)對(duì)Cd含量測(cè)定的要求[8]。多源數(shù)據(jù)融合可以將多個(gè)信息源或傳感器獲得的同一個(gè)目標(biāo)的不同信息融合到一起,利用計(jì)算機(jī)技術(shù)對(duì)這些信息進(jìn)行分析、支配和使用,做出決策,往往較單一信息更具準(zhǔn)確性[9]。目前多源數(shù)據(jù)融合已經(jīng)廣泛應(yīng)用于光譜分析領(lǐng)域。武中臣等[10]采用兩種數(shù)據(jù)融合(等權(quán)融合和累加融合)對(duì)硅酸鹽、硫酸鹽、碳酸鹽等4種礦物進(jìn)行分類研究,發(fā)現(xiàn)融合后的預(yù)測(cè)結(jié)果均好于單一檢測(cè)方法。O’rourke等[11]將可見-近紅外與中紅外光譜等權(quán)融合后,測(cè)試了愛爾蘭國(guó)家土壤數(shù)據(jù)庫中的樣品,結(jié)果顯示,相比單一檢測(cè)技術(shù),多傳感器的等權(quán)融合技術(shù)提高了檢測(cè)土壤多項(xiàng)指標(biāo)的準(zhǔn)確性。Stenberg等[12]將Vis-NIR和XRF光譜等權(quán)融合,分別獲得了土壤有機(jī)質(zhì)(SOM)礦物、水分、pH值、銅、鉛含量等重要土壤屬性。史舟等[5]通過數(shù)據(jù)外積融合測(cè)定了土壤中鉻的含量,相比單一數(shù)據(jù)預(yù)測(cè)模型,融合后的模型預(yù)測(cè)精度(ρc=0.88,RMSEP=6.8,RPD=2.30)更佳。綜合以上技術(shù)在土壤相關(guān)參數(shù)定量檢測(cè)方面的研究可知,基于數(shù)據(jù)融合測(cè)定土壤Cd含量是可行的,但目前相關(guān)研究較少。
本研究以鄱陽湖南磯山為研究區(qū),進(jìn)行野外土壤采樣、室內(nèi)理化分析、光譜采集與處理等工作,并基于XRF和Vis-NIR研究了不同數(shù)據(jù)融合算法對(duì)土壤Cd含量預(yù)測(cè)模型穩(wěn)定性和精度的影響,探索基于兩種光譜數(shù)據(jù)融合的Cd含量的預(yù)測(cè)方法,以為該區(qū)域的重金屬污染調(diào)查提供參考。
研究的區(qū)域位于江西鄱陽湖西南岸(116°10′24″~116°23′50″E,28°52′21″~29°06′46″N),共采集371個(gè)樣品,土壤類型覆蓋潮土、水稻土、黃棕壤,采用十字法取樣,采樣深度為0~20 cm,采樣時(shí)剔除侵入體,混勻后用四分法收集土樣。經(jīng)風(fēng)干、研磨,過2 mm孔徑篩后,將每份樣品分成3份,分別用于室內(nèi)理化分析和XRF、Vis-NIR光譜采集。
按照《石墨爐原子吸收分光光度法GB/T 17141-1997》進(jìn)行樣品消解和分析,用HCl-HNO3-HF-HClO4(四酸)破壞礦物晶格,以石墨爐原子吸收分光光度計(jì)測(cè)定試劑中的Cd[13]。約20%的土壤被分析兩次,用以評(píng)估方法的重復(fù)性。設(shè)置95%的置信區(qū)間,剔除超出置信區(qū)間的樣品,最終保留356個(gè)樣品進(jìn)行后續(xù)研究。選用K-S(Kennard-Stone)算法[14]計(jì)算各個(gè)樣品的歐式距離,選用60%的樣本用于建模,40%的樣品用于預(yù)測(cè)和驗(yàn)證(表1)。
表1 土壤樣品鎘含量統(tǒng)計(jì)特征Table 1 Statistical characteristics of soil Cd content
采用美國(guó)ASD公司的便攜式FieldSpec3高光譜分辨率地物波譜儀測(cè)定土壤樣品的Vis-NIR光譜,其波段值為350~2 500 nm,采樣間隔為1.4 nm(350~1 000 nm)和2 nm(1 000~2 500 nm),重采樣間隔為1 nm。將樣品放置在培養(yǎng)基中(直徑10 cm,高度1 cm),隨機(jī)掃描10次,取信噪比最佳的3次測(cè)定結(jié)果進(jìn)行平均,作為樣品光譜。
XRF測(cè)量采用泰克松德公司的TS-XH4000-G分析儀,選用土壤模式,每次測(cè)試90 s,同一個(gè)樣品測(cè)試3次。每測(cè)30個(gè)樣品校正1次,最終取3次測(cè)試結(jié)果的平均作為該樣品的光譜。TS-XH4000-G分析儀對(duì)Cd的檢出限為2 mg·kg-1。測(cè)試結(jié)束后,對(duì)測(cè)試結(jié)果進(jìn)行分析,在371個(gè)樣品中只有14個(gè)樣品的Cd含量高于儀器檢出限。大部分樣品的Cd含量低于檢出限。文中儀器對(duì)Cd含量的分析結(jié)果不作為建立模型的考慮范圍。
最小二乘支持向量機(jī)(Least squares support vector machine,LS-SVM)是基于支持向量機(jī)(SVM)的一種改進(jìn)算法,通過構(gòu)造損失函數(shù)將原SVM中算法的二次尋優(yōu)變?yōu)榍蠼饩€性方程,其求解速度較快,在光譜分析領(lǐng)域中得到了廣泛應(yīng)用[15]。LS-SVM方法共有4種核函數(shù)(線性核、多項(xiàng)式核、徑向基函數(shù)核、高斯核)可供選擇,徑向基函數(shù)核(Radial basis function,RBF)非常適用于光譜分析中的非線性問題處理[16],因此本文使用RBF函數(shù)來實(shí)現(xiàn)LS-SVM建模。
模型預(yù)測(cè)精度以決定系數(shù)(Determination coefficients,R2)、校正均方根誤差(Root mean squared error of calibration,RMSEC)、預(yù)測(cè)均方根誤差(Root mean square error of prediction,RMSEP)、相對(duì)分析誤差(Relative percent deviation,RPD)4個(gè)參數(shù)衡量。R2反映模型建立和驗(yàn)證的穩(wěn)定性,RMSEC和RMSEP用來檢驗(yàn)?zāi)P偷念A(yù)報(bào)能力[17],RPD是樣本標(biāo)準(zhǔn)差與RMSEP的比值,用以判斷模型的預(yù)測(cè)能力,RPD<1.4時(shí),模型無法對(duì)樣品進(jìn)行預(yù)測(cè);1.4≤RPD<2.0時(shí),認(rèn)為模型效果一般,可用來對(duì)樣品進(jìn)行粗略評(píng)估;RPD≥2.0時(shí),模型具有極好的預(yù)測(cè)能力[18]。
圖1 不同Cd含量土壤的原始XRF光譜(A)和Vis-NIR光譜(B)Fig.1 Theoriginal XRF spectra (A) and Vis-NIR spectra(B) of soil with different Cd contents
選取土壤樣品中Cd含量最大值、中間值、最小值(Cd含量分別為1.50、0.76、0.21 mg·kg-1)所對(duì)應(yīng)的3條原始光譜曲線進(jìn)行分析(圖1)。
根據(jù)莫塞萊定律,土壤中Cd產(chǎn)生的K系和L系特征射線的能量是唯一的。圖1A中23.17 keV處為Cd的Kα特征射線,其能量計(jì)數(shù)與Cd含量呈正相關(guān)。但Cd的L系特征射線(3.13 keV)處于傳感器探測(cè)范圍的邊緣,靈敏度較差,不可作為定量模型的輸入量,故許多定量?jī)x器只將Cd的Kα特征射線計(jì)數(shù)作為輸入量。而復(fù)雜的原級(jí)X射線與土壤樣品的作用過程和元素間特征射線的相互影響(例如Pb的23.82 keV Kβ和Cd的23.17 keV Kα射線相互影響)導(dǎo)致目標(biāo)元素的照射量率與含量之間不再是單純的正比關(guān)系,這也可從圖1A中的特征射線計(jì)數(shù)看出來。而廣泛用于土壤重金屬(如Pb、Cu、Zn、Cr等)檢測(cè)的XRF儀器利用元素特征射線與元素含量之間的正相關(guān)關(guān)系進(jìn)行定量分析,從而導(dǎo)致對(duì)Cd類亞mg·kg-1級(jí)含量的重金屬的檢測(cè)效果不佳。
不同Cd含量土壤樣品的Vis-NIR光譜(圖1B)具有以下特征:(1)光譜形態(tài)大致相同,近似平行,均呈上凸趨勢(shì),總體單調(diào)遞增;(2)在可見光波段的反射率小于近紅外波段,不同光譜間的差別也較??;(3)3條光譜曲線的差異主要在近紅外波段,出現(xiàn)特征吸收峰的位置大致相同,吸收深度和吸收面積有差別;(4)在400~600 nm區(qū)間斜率較大,和土壤中鐵的含量有關(guān);(5)在1 400、1 900、2 200 nm處存在明顯的水分吸收谷,1 400 nm附近為羥基(OH—)譜帶,1 900 nm附近為H2O譜帶,2 200 nm附近為羥基伸縮振動(dòng)與Al—OH和Mg—OH彎曲振動(dòng)的合譜帶[19]。
為消除噪音和低能射線的影響,首先在光譜中截取數(shù)據(jù)較為豐富的一段:Vis-NIR反射光譜截取450~2 450 nm段(2 000個(gè)通道),并將反射光譜轉(zhuǎn)換成吸收光譜;XRF光譜選取0.405~42.105 keV段(2 000通道)。隨后,對(duì)兩種光譜進(jìn)行基線校正、Sacitzky-Golay(S-G)平滑[20](窗口大小為15,2階多項(xiàng)式)以及標(biāo)準(zhǔn)矢量歸一化(SNV)[21]處理。最后,對(duì)處理后的Vis-NIR和XRF光譜重新采樣(保留200個(gè)通道,分辨率分別為10 nm,0.20 keV),Vis-NIR光譜的數(shù)值范圍為-3.42~4.29,XRF光譜的數(shù)值范圍為-1.16~2.37,解決了數(shù)據(jù)融合中量綱不一致的問題。
Moros等[22]提出了3種數(shù)據(jù)融合算法:累加融合(Coadditionfusion,CF)、等權(quán)融合(Equal rights fusion,ERF)、外積融合(Outer product fusion,OPF)。累加融合是將XRF和Vis-NIR光譜相關(guān)通道上的數(shù)據(jù)按照一定權(quán)重進(jìn)行加和,得到的新矩陣的行數(shù)等于樣品數(shù)量,列數(shù)不變。本研究中將對(duì)XRF和Vis-NIR光譜進(jìn)行加權(quán)(XRF∶Vis-NIR=3∶1)累加融合得到的定量模型記為CF-LSSVM;等權(quán)融合是將XRF和Vis-NIR光譜數(shù)據(jù)首尾相連,得到的新矩陣行數(shù)為樣品數(shù)量,列數(shù)為兩個(gè)光譜數(shù)據(jù)的列數(shù)之和,定量模型記為ERF-LSSVM;外積融合則通過求取XRF和Vis-NIR光譜數(shù)據(jù)的克羅內(nèi)克積(Kronecker product)[23]進(jìn)行融合:如果A是m×n矩陣,B是p×q矩陣,則求取的克羅內(nèi)克積為mp×nq的分塊矩陣[24],見公式(2)。應(yīng)用克羅內(nèi)克積的形式可以有效增強(qiáng)不同物理量光譜的共同演化性能[23,25-27]。
(2)
如圖2所示,外積融合的具體方法是:第m個(gè)被測(cè)樣品可以得到一組具有r個(gè)變量的XRF光譜(1×r)和c個(gè)變量的Vis-NIR光譜(1×c),分別記為rm、cm(公式3),將2個(gè)矩陣進(jìn)行相乘求取克羅克內(nèi)積,得到c×r矩陣(公式4),該矩陣為第m個(gè)樣品的外積融合光譜。將得到的矩陣按照1行的形式展開(Unfold)得到(1×r·c)矩陣,以此矩陣作為建立模型的輸入量,定量模型記為OPF-LSSVM。
圖2 外積融合算法示意圖Fig.2 Process of data fusion by OPF
rm=(r1,m,…,ri,m)
cm=(c1,m,…,cj,m)
(3)
(4)
(5)
其中rm、cm分別為第m個(gè)樣品的XRF光譜和Vis-NIR光譜,Am是該土壤樣品的外積融合光譜,ri,m是XRF光譜在i能量處的通道計(jì)數(shù),cj,m代表同一個(gè)樣品在j波長(zhǎng)處的吸光度。Ψ為Am矩陣的展開,為1行c×r列矩陣。
以1號(hào)土壤樣品為例,經(jīng)XRF光譜、Vis-NIR光譜融合算法后,構(gòu)建了CF光譜、ERF光譜、OPF光譜,如圖3所示。從圖中可以看出,CF光譜走勢(shì)和XRF光譜類似,保留了XRF光譜和Vis-NIR中的一些特征峰;ERF光譜圖比CF光譜圖含有更多的信息,包括XRF和Vis-NIR光譜中的所有特征峰;OPF光譜圖所含數(shù)據(jù)量最多,達(dá)到40 000個(gè)變量,其數(shù)值的變化也較大。
圖3 1號(hào)土壤樣品的XRF光譜圖(A)、Vis-NIR光譜圖(B)、累加融合光譜圖(C)、等權(quán)融合光譜圖(D)和外積融合光譜圖(E)Fig.3 XRF spectra(A),Vis-NIR spectra(B) and their coaddition fusion spectra(C),equal rights fusion spectra (D) andouter product fusion spectra(E) of No.1 soil sample
在建立LS-SVM模型時(shí),首先要選擇合適的核參數(shù)σ2和懲罰系數(shù)γ,通過網(wǎng)格搜索法和留一法(Leave-one-out)進(jìn)行全局尋優(yōu)。數(shù)據(jù)處理中γ的搜索范圍為1~10 000,σ2的搜索范圍為0.01~1 000,確定的最優(yōu)γ和σ2見表2。
表2 LS-SVM模型中γ和σ2最優(yōu)值Table 2 The optimal values of γ and σ2 in LS-SVM model
2.4.1 單一光譜預(yù)測(cè)模型使用XRF和Vis-NIR光譜作為輸入變量,建立LS-SVM模型,具體預(yù)測(cè)效果如圖4所示。從圖中可以看出,以單一光譜作為輸入量的模型中,XRF-LS-SVM模型的R2(0.63)略低于Vis-NIR-LS-SVM模型(R2=0.69),其RMSEP(0.13)則高于Vis-NIR-LS-SVM(RMSEP=0.10),表明Vis-NIR-LS-SVM模型具有很好的穩(wěn)定性和精度,略優(yōu)于XRF-LS-SVM的預(yù)測(cè)效果,但兩種模型的預(yù)測(cè)效果均不理想,RPD介于1.40~2.0之間。
XRF儀器[28]對(duì)Cd類亞mg·kg-1級(jí)含量的重金屬的檢測(cè)效果不佳,使用XRF全光譜作為模型的輸入,雖可以提高痕量元素的檢出限[29],但從實(shí)驗(yàn)結(jié)果看,預(yù)測(cè)精度和穩(wěn)定性仍然無法滿足實(shí)際檢測(cè)要求。
土壤中的重金屬常與土壤有機(jī)質(zhì)、粘土礦物結(jié)合,這些物質(zhì)在Vis-NIR光譜上具有強(qiáng)烈的特征吸收[30],可基于此使用Vis-NIR對(duì)土壤中的重金屬進(jìn)行預(yù)測(cè)。使用Vis-NIR光譜預(yù)測(cè)土壤Cd含量時(shí),效果略優(yōu)于XRF光譜預(yù)測(cè)模型,這與文獻(xiàn)研究結(jié)果類似[31]。
表3 不同方法預(yù)測(cè)精度的比較Table 3 Comparison of prediction accuracy of different methods
2.4.2 數(shù)據(jù)融合預(yù)測(cè)模型在光譜融合的預(yù)測(cè)模型中,CF-LS-SVM的RPD=1.24,基本沒有預(yù)測(cè)能力,從1號(hào)土壤樣品CF光譜圖中可以看出(圖3C),融合后光譜集合了XRF和Vis-NIR光譜的一些信息,但兩個(gè)光譜值相加,導(dǎo)致一些光譜信息消失,增強(qiáng)了融合后光譜的非線性。除CF-LS-SVM外,融合后的模型預(yù)測(cè)效果均優(yōu)于單一光譜模型,表明數(shù)據(jù)融合可以為Cd含量預(yù)測(cè)提供有效方法(表3)。ERF光譜保留了XRF和Vis-NIR的所有光譜信息。ERF-LS-SVM模型的RMSEP=0.09,比兩個(gè)單一光譜及CF-LS-SVM模型效果更佳,但其RPD=1.92也表明ERF-LS-SVM預(yù)測(cè)能力一般,僅可對(duì)土壤中Cd含量進(jìn)行粗略預(yù)測(cè)。OPF-LSSVM在所有模型中效果最好,相比ERF-LS-SVM模型,其RMSEP從0.09降低到0.06,預(yù)測(cè)精度更高,RPD=2.41則表明該模型具有極好的預(yù)測(cè)能力。
上述結(jié)果說明數(shù)據(jù)融合相較于單一光譜包含了更多的土壤信息,其中外積融合通過求取兩個(gè)光譜的克羅克內(nèi)積,增強(qiáng)了光譜的區(qū)域性,尤其是將不同物理量的XRF和Vis-NIR光譜外積融合后,可以充分利用光譜的不同性質(zhì)和互補(bǔ)信息,更利于土壤參數(shù)的預(yù)測(cè)建模。但在具體運(yùn)算過程中,外積融合的光譜變量是單一光譜變量的幾百倍,建模計(jì)算所消耗的時(shí)間也相對(duì)增加。
本文基于LS-SVM算法對(duì)比了XRF和Vis-NIR單一光譜模型及其等權(quán)融合模型、累加融合模型、外積融合模型的預(yù)測(cè)能力,結(jié)果顯示外積融合模型的預(yù)測(cè)精度和模型穩(wěn)定性最佳(R2=0.85,RMSEP=0.06,RPD=2.41),符合土壤調(diào)查中對(duì)鎘含量的預(yù)測(cè)要求。本研究為土壤重金屬含量的調(diào)查,尤其是Cd、Hg類亞mg·kg-1級(jí)重金屬含量的調(diào)查提供了借鑒方法,對(duì)開發(fā)土壤重金屬分析儀具有重要意義。