江曉宇, 李福生, 王清亞, 羅 杰, 郝 軍, 徐木強(qiáng)
1. 東華理工大學(xué)核技術(shù)應(yīng)用教育部工程研究中心, 江西 南昌 330013
2. 東華理工大學(xué)核資源與環(huán)境國家重點(diǎn)實(shí)驗(yàn)室, 江西 南昌 330013
3. 長江大學(xué), 湖北 武漢 430000
能量色散X射線熒光(EDXRF)光譜儀因其在多元素檢測中具有無損、 快速的特點(diǎn), 相比傳統(tǒng)檢測方法, 在土壤重金屬分析中具有先天的優(yōu)勢。 另外, EDXRF因其較小的體積、 較輕的重量、 更快的分析速度以及較高的準(zhǔn)確度, 廣泛應(yīng)用于野外現(xiàn)場分析。 近幾年來, EDXRF越來越受環(huán)保領(lǐng)域的歡迎, 成為土壤修復(fù)行業(yè)和環(huán)境監(jiān)管部門的首選儀器。 然而, X射線熒光光譜易受噪聲、 變量維度高和多重共線性等問題的干擾, 特別是在測土壤樣品時(shí), 因其樣品來源廣泛, 基體成分復(fù)雜, 采用偏最小二乘(PLS)直接建模的話會(huì)導(dǎo)致模型復(fù)雜, 并且降低了模型的預(yù)測能力和魯棒性。 因此, 如何選擇合適的變量顯得尤為重要。 近年來, 科學(xué)技術(shù)的飛速發(fā)展, IT和計(jì)算機(jī)技術(shù)快速應(yīng)用, 特征變量篩選方法被大量提出, 如基于統(tǒng)計(jì)學(xué)方面的變量選擇方法[1]、 基于單一指標(biāo)的變量選擇方法[2-3]以及群體智能優(yōu)化算法[4-5]等。
競爭性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted algorithm, CARS)是利用蒙特卡羅(MC)的優(yōu)勢進(jìn)行采樣和PLS回歸系數(shù)為指標(biāo)的一種特征波長變量選擇方法[6]。 其核心是利用自適應(yīng)重加權(quán)采樣(ARS)技術(shù), 然后在構(gòu)建的模型中只保留權(quán)重顯著(回歸系數(shù)絕對(duì)值大)的波長點(diǎn), 最后按照均方根誤差值最小的原則選擇最優(yōu)組合子集變量。 此外, 在對(duì)大多文獻(xiàn)調(diào)研過程中發(fā)現(xiàn), 很少有對(duì)土壤樣品X射線熒光光譜波長變量進(jìn)行篩選。 但X射線熒光光譜往往也存在維度過高, 變量數(shù)大于建模樣本數(shù)問題, 建立的模型容易過擬合, 模型穩(wěn)定性變差。
先利用能量色散X射線熒光光譜儀對(duì)土壤中的鉛和砷進(jìn)行分析獲取原始光譜信息, 然后利用CARS算法先對(duì)所獲取的原始光譜進(jìn)行波長變量選擇, 最后利用PLS分別建立土壤中鉛、 砷的定量分析模型。 為了評(píng)估建模的有效性, 一般采用預(yù)測集決定系數(shù)(determination coefficient,R2)、 模型交互驗(yàn)證均方根誤差(root mean square error of cross validation, RMSECV)、 模型預(yù)測均方根誤差(root mean square error of prediction, RMSEP)和模型相對(duì)預(yù)測誤差(relative prediction deviation, RPD)等為模型評(píng)價(jià)指標(biāo), 并與全波段、 SPA和MC-UVE等變量選擇算法所建立的定量分析模型進(jìn)行比較。
主要儀器: TS-XH4000型便攜式X射線熒光光譜儀, 浙江泰克松德能源科技有限公司; SDD探測器, 能量分辨率為125 eV, 美國Amptek公司; 球磨儀, 江蘇宜興丁蜀浩強(qiáng)機(jī)械設(shè)備有限公司; 樣品杯(聚乙烯), 尺寸為Φ3 cm×1 cm, 單開口, 帶固定麥拉膜的頸圈; 麥拉膜, 厚度為3.6 μm, 寬7.6 cm, 美國Chemplex公司。
本試驗(yàn)中, 共計(jì)樣品139個(gè), 其中野外采集土壤樣品80個(gè)(江西鄱陽湖地區(qū)), 另外59個(gè)為國家土壤標(biāo)準(zhǔn)樣品(GSD和GSS系列)。 樣品采集和制備方法必須嚴(yán)格按照《土壤環(huán)境質(zhì)量標(biāo)準(zhǔn)》(GB15618—2018)的技術(shù)規(guī)范執(zhí)行。 將采集到的所有土樣鋪開自然風(fēng)干, 去除土樣中明顯的沙子、 草屑等雜物, 使用四分法取其2份, 1份用于實(shí)驗(yàn)分析, 1份留作備用。 將國家土壤標(biāo)準(zhǔn)樣品和實(shí)驗(yàn)分析的土壤樣品均勻填入瑪瑙缽體中, 用球磨機(jī)研磨5 min, 然后過200目篩子。 將處理后的土壤樣品使用TS-XH4000便攜式XRF分析儀在管壓35 keV、 電流40 μA和時(shí)間90 s下, 采集土壤X射線熒光光譜原始數(shù)據(jù), 每個(gè)樣本測量3次, 移動(dòng)不同位置3次, 最后取平均值作為光譜數(shù)據(jù), 共獲取樣品在0~45 keV范圍內(nèi)共2 048個(gè)通道數(shù)的光譜信息。
1.3.1 CARS算法原理
CARS算法是模擬生物進(jìn)化論中的“適者生存”的法則, 每次通過ARS技術(shù)和PLS回歸系數(shù)的絕對(duì)值對(duì)變量進(jìn)行篩選, 保留PLS回歸系數(shù)中的絕對(duì)值大的點(diǎn), 去掉絕對(duì)值較小的點(diǎn), 得到一系列最優(yōu)子集[7]。 然后使用交叉驗(yàn)證(CV)方法選擇模型RMSECV最小值的子集, 并最終將子集確定為與測量元素相關(guān)的最佳波長組合。
1.3.2 CARS算法步驟
假設(shè)Y表示為m×1樣本目標(biāo)屬性矩陣,X為m×n樣本光譜矩陣, 其中m為樣本數(shù),n為變量數(shù),α表示組合系數(shù);T為X與α的線性組合, 是X的分矩陣;θ是Y和T所建PLS模型的回歸系數(shù)向量; 其中,β和ε分別表示為n維的回歸系數(shù)向量和樣本預(yù)測殘差。 假設(shè)式(1)和式(2)成立。
T=αX
(1)
Y=θT+ε=θαX+ε=βT+ε
(2)
wi=|βi|i/f
(3)
式(3)中, 每計(jì)算一次wi的過程實(shí)際上就是波長變量重要性評(píng)估的過程。 將每次計(jì)算的|βi|值較大波長變量保留, 然后采用ARS技術(shù)從中重新組合新的變量, 在此基礎(chǔ)上利用PLS建模, 計(jì)算其RMSECV值。 其中, 采樣次數(shù)設(shè)為N, 重復(fù)N次, 直到采樣結(jié)束, 我們將得到最優(yōu)變量子集集合, 即一系列RMSECV值最小的變量子集。
最后, CARS, PLS, SPA和MC-UVE的算法編寫通過Matlab R2016b實(shí)現(xiàn), 而圖表繪制由Origin9.0軟件完成。
X射線熒光光譜為特征譜, 其中鉛元素的Lα和Lβ特征峰分別在10.549和12.61 keV附近; 砷元素的Kα和Kβ特征峰在10.532和11.729 keV附近。 X射線熒光光譜采集會(huì)產(chǎn)生大量的高頻隨機(jī)噪聲、 基線漂移和散射等噪聲信息干擾, 使X射線熒光光譜與元素含量之間的相關(guān)性變差, 導(dǎo)致所建模型的準(zhǔn)確性和穩(wěn)定性會(huì)受到影響。 為消除噪聲和基線的影響, 盡可能完整保留土壤樣品中原始X射線熒光光譜的特征峰, 去噪選用小波變換(sym4小波基), 而校正基線采用適應(yīng)迭代重加權(quán)懲罰最小二乘(airPLS)法[8], 處理結(jié)果如圖1所示。 最后, 選擇處理后的X射線熒光光譜數(shù)據(jù)進(jìn)行特征變量選擇。
圖1 土壤樣品光譜的噪聲和基線校正結(jié)果
采用Kennard-Stone(K-S)算法[9]對(duì)139個(gè)土壤樣本進(jìn)行校正集與驗(yàn)證集的劃分。 K-S算法的原理: (1)計(jì)算樣本兩兩之間的距離, 選擇樣本間距離最大的兩個(gè)作為選中的集合樣本, 其余為未選中的集合樣本; (2) 對(duì)于剩余樣本, 分別計(jì)算其與選中的兩個(gè)樣本之間的距離; (3)然后選擇最短距離與所選樣本之間相對(duì)最長的距離對(duì)應(yīng)的樣本, 作為所選樣本集; (4)重復(fù)步驟(3), 直到所選樣本數(shù)等于之前確定的數(shù)量, 例如10個(gè)或20個(gè)。 本實(shí)驗(yàn)選取的樣本集為校正集, 約70%的鉛和砷樣品轉(zhuǎn)入校正集, 共97個(gè)樣品, 剩余42個(gè)樣本歸為預(yù)測集。 表1列出了被測土壤中鉛和砷實(shí)測值的變化范圍和平均值(Mean)等統(tǒng)計(jì)量。 K-S算法也是通過Matlab R2016b軟件完成。
表1 土壤鉛和砷含量實(shí)測值的統(tǒng)計(jì)結(jié)果
2.3.1 土壤中鉛特征波長選擇
先以鉛X射線熒光光譜全部的2 048個(gè)波數(shù)點(diǎn)作為選擇對(duì)象, 采用CARS算法篩選樣本光譜中與鉛相關(guān)的光譜波長變量, 篩選結(jié)果如圖2所示。 從圖2(a)中, 我們看到選擇的波長變量的數(shù)量隨著采樣次數(shù)的增加而減少, 趨勢是先快后緩, 說明波長變量先經(jīng)歷了一個(gè)粗略的選擇過程后再進(jìn)行精選過程; 圖2(b)中, 隨著采樣次數(shù)的增加, RMSECV值先減后增, 即所選波長變量的個(gè)數(shù)逐漸減少, RMSECV值也在減小, 說明與鉛無關(guān)的冗余波長變量在CARS變量篩選時(shí)優(yōu)選剔除掉, 而后RMSECV值上升, 說明是剔除了與鉛相關(guān)的波長變量引起的; 圖2(c)中紅色“*”處的MC采樣次數(shù)為26, 此時(shí)RMSECV值最小, 經(jīng)過CARS篩選后, 共選擇了60個(gè)波長變量, 且所選擇的波長變量組合最優(yōu)。
圖2 土壤中鉛的CARS變量篩選結(jié)果
2.3.2 土壤中砷特征波長選擇
以砷的X射線熒光光譜全部的2 048個(gè)波數(shù)點(diǎn)作為選擇對(duì)象, 采用CARS算法篩選樣本光譜中與砷相關(guān)的光譜波長變量, 篩選結(jié)果如圖3所示。 類似于上述鉛的情況, 從圖3(a)中我們可以看到隨著采樣數(shù)增加, 被優(yōu)選波長變量的數(shù)量迅速減少。 在圖3(b)中, 在1~34次采樣期間, RMSECV值不斷減小, 表明變量篩選時(shí)去除了與砷含量相關(guān)的變量, 但在34個(gè)樣品后, RMSECV值再次開始上升, 這表明與砷含量相關(guān)的重要變量被去除。 在采樣為34次時(shí), 即圖3(c)中“*”的位置, 出現(xiàn)RMSECV值最小, 共選擇了19個(gè)波長變量, 所對(duì)應(yīng)的光譜變量子集最優(yōu)。
圖3 土壤中砷的CARS變量篩選結(jié)果
CARS模型RMSECV值最小時(shí), 鉛和砷對(duì)應(yīng)的最優(yōu)采樣次數(shù)和最優(yōu)變量子集中包含的變量個(gè)數(shù)如表2所示。
表2 土樣中鉛和砷在RMSECV值最小時(shí)對(duì)應(yīng)的采樣次數(shù)及最優(yōu)變量子集包含的變量個(gè)數(shù)
提出采用CARS算法對(duì)原始光譜進(jìn)行波長信息變量篩選, 并與蒙特卡羅無信息變量消除(MC-UVE)和經(jīng)連續(xù)投影算法(SPA)方法進(jìn)行比較, 然后分別采用偏最小二乘(PLS)方法建立土壤中鉛和砷含量的定量檢測模型, 評(píng)價(jià)所建模型的建模效果。 CARS變量篩選方法, 基于蒙特卡羅(MC)交叉驗(yàn)證確定成樣次數(shù)設(shè)置為50次, 可滿足其可用的最大因子數(shù)。 針對(duì)SPA變量選擇方法, 其利用向量投影分析原理, 能有效地消除波長之間共線性問題, 分別設(shè)置好最小最大波長數(shù), 其最佳波長組合通過交叉驗(yàn)證建模實(shí)現(xiàn), 然后找到具有最小冗余信息的變量組, 最終提高模型精度。 MC-UVE變量選擇方法是基于PLS回歸系數(shù)b的算法, 重復(fù)N次, 得到N個(gè)回歸系數(shù)組成的矩陣, 大大減少了最終PLS模型中所包含的變量數(shù)量, 模型的復(fù)雜度和穩(wěn)定性得到改善。 其中SPA和MC-UVE變量選擇方法的具體原理和步驟見文獻(xiàn)[10-12]。
采用決定系數(shù)(R2)、 交互驗(yàn)證均方根誤差(RMSECV)、 預(yù)測均方根誤差(RMSEP)和模型相對(duì)預(yù)測誤差(RPD)等4個(gè)參數(shù)來評(píng)價(jià)PLS模型性能。 其中,R2值越接近于1, 模型的擬合度和穩(wěn)定性越好; RMSECV和RMSEP值越小, 模型預(yù)測能力越強(qiáng); RPD值等于樣本標(biāo)準(zhǔn)偏差與均方根誤差的比值。 如果RPD≥3, 認(rèn)為所建立的模型預(yù)測效果良好, 具有良好應(yīng)用價(jià)值; 如果2.25≤RPD<3, 則認(rèn)為所建立的模型預(yù)測效果較好, 具有較好實(shí)際應(yīng)用價(jià)值; 如果1.75≤RPD<2.25, 則認(rèn)為模型可用, 模型對(duì)樣本能進(jìn)行粗略評(píng)估; 如果RPD<1.75, 模型預(yù)測效果差, 無法預(yù)測樣本。
2.4.1 土壤中鉛的PLS模型的建立與驗(yàn)證
經(jīng)CARS, SPA及MC-UVE變量篩選后, 采用PLS方法建立土壤中鉛含量的定量檢測模型, 建模結(jié)果見表3。 從表3可以看出, 經(jīng)過CARS篩選后, CARS-PLS模型鉛的波長變量數(shù)從2 048減少到60個(gè), 模型最優(yōu), 所得建模集的R2, RMSECV, RMSEP和RPD分別為0.997 3, 2.610 1, 3.322 1和9.351 8, 預(yù)測集的R2, RMSECV, RMSEP和RPD分別為0.995 5, 2.598 6, 3.228和9.401 1; 與CARS-PLS模型相比, 雖然SPA-PLS和MC-UVE-PLS模型建模的波長變量更少, 但建模集和預(yù)測集的R2, RMSECV, RMSEP和RPD均劣于CARS-PLS模型。 另外, 從表3還發(fā)現(xiàn), 與全波段PLS模型相比, SPA-PLS模型的預(yù)測集R2, RMSECV, RMSEP和RPD分別0.980 5, 3.549 5, 5.344 5和8.611 4, 劣于全波段PLS模型, 模型的穩(wěn)定性不如PLS, MC-UVE-PLS和CARS-PLS模型。
表3 土樣中鉛定量檢測的PLS建模結(jié)果
2.4.2 土壤中砷的PLS模型的建立與驗(yàn)證
經(jīng)CARS, SPA及MC-UVE變量篩選后, 采用PLS方法建立土壤中砷含量的定量檢測模型, 建模結(jié)果見表4。 從表4可以看出, 砷CARS-PLS模型的波長變量數(shù)由2 048個(gè)減少到19個(gè), 與全波段PLS, SPA-PLS和MC-UVE-PLS模型相比, 砷的CARS-PLS模型建模集和預(yù)測集的R2, RMSECV, RMSEP和RPD值均最優(yōu), 所建模型效果最好。 與其他三個(gè)模型相比, 雖然SPA-PLS模型的波長變量最少, 但建模集和預(yù)測集的R2, RMSECV, RMSEP和RPD均劣于CARS-PLS和MC-UVE-PLS模型, 僅優(yōu)于全波段PLS模型。
表4 土樣中砷定量檢測的PLS建模結(jié)果
從以上結(jié)果可以看出, CARS-PLS模型定量檢測土壤中的鉛和砷要優(yōu)于全波段PLS, SPA-PLS及MC-UVE-PLS 模型, 表明CARS方法在X射線熒光光譜的波長變量選擇方面具有較明顯優(yōu)勢, 可以篩選出有用的波長信息變量并去除多余的波長變量, 來提高模型的準(zhǔn)確性和穩(wěn)定性。
圖4顯示了四種模型的預(yù)測值與傳統(tǒng)化學(xué)方法測定值之間的相關(guān)關(guān)系。 CARS-PLS模型鉛砷預(yù)測值與其實(shí)驗(yàn)室分析值或標(biāo)準(zhǔn)值最為接近, 線性最好。 這進(jìn)一步說明CARS算法可以有效篩選波長變量, 且用更少的變量建立更好的鉛砷定量分析模型。
圖4 各模型鉛、 砷校正集真實(shí)值與預(yù)測值對(duì)比
采用CARS波長變量篩選算法, 建立了土壤中X射線熒光光譜定量分析重金屬鉛和砷含量檢測模型(CARS-PLS ), 篩選出具有較高適用性的波長變量子集組合, 實(shí)現(xiàn)了鉛和砷含量的準(zhǔn)確預(yù)測。 具體結(jié)論如下:
(1)通過對(duì)土壤中鉛和砷的X射線熒光光譜進(jìn)行建模, 結(jié)果表明CARS方法是一種有效的波長變量選擇方法, 在降低模型的維數(shù)同時(shí)還剔除了多余的干擾信息, 使模型的計(jì)算效率和穩(wěn)健性得到提升。
(2)采用CARS方法對(duì)土壤中鉛和砷的波長信息變量進(jìn)行篩選, 分別篩選得到60和19個(gè)波長變量作為預(yù)測鉛和砷的優(yōu)選變量集。
(3)與全波段PLS, SPA-PLS和MC-UVE-PLS模型相比, 采用CARS-PLS所建模型具有最優(yōu)的預(yù)測精度和預(yù)測能力, 同時(shí)有效減少了波長變量。
由于此次試驗(yàn)采用的土壤樣品經(jīng)過晾干、 篩分等物理前處理過程, 消除了土壤含水率、 粒徑等因素對(duì)檢測結(jié)果的影響, 所建立的鉛砷的定量分析模型在現(xiàn)場的準(zhǔn)確性如何是下一步研究的重點(diǎn)。 另外, 在應(yīng)對(duì)極低濃度元素時(shí)會(huì)受到一定噪聲影響, 在做波長變量篩選時(shí), 會(huì)影響建模的結(jié)果, 這也是我們下一步需要優(yōu)化的地方。