朱紹農(nóng),丁 宇*,陳雨娟,鄧 凡,陳非凡,嚴(yán) 飛
1. 南京信息工程大學(xué)江蘇省大數(shù)據(jù)分析技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210044 2. 南京信息工程大學(xué)江蘇省大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心,江蘇 南京 210044 3. 南京信息工程大學(xué)江蘇省氣象能源利用與控制工程技術(shù)研究中心,江蘇 南京 210044
土壤中各種元素的含量是用來(lái)衡量土壤質(zhì)量的重要指標(biāo)之一[1],因此,如何高效的掌握土壤中元素含量是農(nóng)業(yè)發(fā)展的重要內(nèi)容。 而在工業(yè)飛速發(fā)展的大背景下,由于工業(yè)“三廢”的不合理排放,大量的重金屬污染物以不同的形式進(jìn)入土壤,其中最具代表性的便是工業(yè)用油的污染。 近年來(lái),在石油的開(kāi)采、油品的儲(chǔ)存以及運(yùn)輸使用過(guò)程中,石油泄漏事故多次發(fā)生。 2004年11月18日,陜西延安發(fā)生的特大石油泄露事故使得數(shù)百畝農(nóng)田被污染; 2013年11月山東青島的東黃輸油管道原油泄漏并發(fā)生了爆炸,不僅使得周邊土壤被嚴(yán)重污染,甚至造成了重大的人員傷亡。 含油土壤中的重金屬元素不僅會(huì)極大地破壞土壤的結(jié)構(gòu),改變其物理化學(xué)性質(zhì),還會(huì)影響植被的品質(zhì),并通過(guò)食物鏈危害人類和動(dòng)物的生命安全,嚴(yán)重威脅生態(tài)環(huán)境與人類的食品安全。 因此,檢測(cè)含油土壤中的重金屬濃度及其治理是目前環(huán)境保護(hù)工作的重點(diǎn)項(xiàng)目。 然而使用傳統(tǒng)方法進(jìn)行土壤中重金屬元素的原位分析十分困難,加之不同重金屬分析方法存在差異,導(dǎo)致分析過(guò)程周期長(zhǎng),成本高,操作工序復(fù)雜,不適合大規(guī)模使用。
激光誘導(dǎo)擊穿光譜(laser induced breakdown spectroscopy, LIBS)是一項(xiàng)近年來(lái)發(fā)展極為快速的元素分析技術(shù),目前已經(jīng)廣泛應(yīng)用于化工[2]、食品[3]、生物[4]、考古[5]以及農(nóng)業(yè)[6]等領(lǐng)域。 該技術(shù)具有檢測(cè)速度快、不需要樣品預(yù)處理等優(yōu)點(diǎn)[7],因此對(duì)于污染場(chǎng)地重金屬元素的即時(shí)檢測(cè)以及污染防控的快速反應(yīng)有著極其重要的意義。 但在實(shí)際應(yīng)用中,由于該項(xiàng)技術(shù)是通過(guò)獲取等離子體發(fā)射譜線的強(qiáng)度信息來(lái)確定元素的含量,而傳統(tǒng)的基本標(biāo)定法與內(nèi)標(biāo)定法均為單變量模型[8],對(duì)于自吸收效應(yīng),基體效應(yīng)等干擾無(wú)法做到有效的消除,故需要一種準(zhǔn)確度更高的方法來(lái)滿足實(shí)際應(yīng)用的需要。
在定量分析中,偏最小二乘法(partical least-square method, PLS)能夠在自變量存在較強(qiáng)相關(guān)性的情況下處理光譜,目前已經(jīng)在鋁合金、鋼鐵、煤炭等材料的LIBS成分檢測(cè)中得到廣泛應(yīng)用[9-10]。 PLS利用光譜數(shù)據(jù)作為自變量,被分析元素濃度作為因變量,在一定程度上可以克服傳統(tǒng)方法的缺陷。 但由于全譜建模在實(shí)驗(yàn)中復(fù)雜費(fèi)時(shí)[11],且全光譜常常摻雜著非目標(biāo)成分的吸收,導(dǎo)致樣品光譜與樣本組分性質(zhì)之間的關(guān)聯(lián)性較差,選取全譜作為模型的輸入變量,不僅可能會(huì)影響光譜的靈敏度,還會(huì)影響模型的準(zhǔn)確度。 因此,PLS結(jié)合變量選擇發(fā)展出了一些改進(jìn)的建模方法,這些方法的優(yōu)勢(shì)也在不同領(lǐng)域得到了應(yīng)用[12-13]。
本研究基于LIBS技術(shù)對(duì)含油土壤中的銅、鎳兩種重金屬污染元素進(jìn)行分析,建立PLS模型,并將獨(dú)立的PLS模型與區(qū)間變量選擇法以及后向區(qū)間變量選擇法結(jié)合,探索對(duì)定量分析性能提升的效果。
PLS算法的建模思想主要是從自變量和因變量矩陣中提取第一主成分,并求得協(xié)方差,再提取第二主成分,求得協(xié)方差,依次迭代,最后根據(jù)交叉驗(yàn)證的結(jié)果,建立最終的偏最小二乘定量回歸預(yù)測(cè)分析模型。
區(qū)間偏最小二乘法(interval partical least-square method, iPLS)是由Norgaard等提出的波段區(qū)間選擇方法[14]。 其原理主要是將數(shù)據(jù)集均分成多個(gè)同等寬度區(qū)間之后,建立每個(gè)子區(qū)間的PLS模型,再根據(jù)各個(gè)模型的交叉驗(yàn)證結(jié)果優(yōu)選出最佳的光譜波段。
后向區(qū)間偏最小二乘法(backward interval partial least-square method, BiPLS)是在iPLS的基礎(chǔ)上更進(jìn)一步提出的算法。 由于iPLS并不能確保選出的一個(gè)區(qū)間是最適于建模的,故不能排除多個(gè)區(qū)間建模效果更好的可能。 因此在BiPLS中將會(huì)進(jìn)行多次計(jì)算,并依次減少交叉驗(yàn)證表現(xiàn)最差的區(qū)間,直到只剩下一個(gè)數(shù)據(jù)區(qū)間,進(jìn)而得出交叉驗(yàn)證結(jié)果最小,即預(yù)測(cè)效果最好的波段集合。
(1)
(2)
RPD=SD/RMSE
(3)
其中n為校正集和測(cè)試集的樣品個(gè)數(shù),y和y分別為對(duì)應(yīng)的預(yù)測(cè)值和真實(shí)值,SD為樣品的標(biāo)準(zhǔn)差。 一般來(lái)說(shuō),R2越接近于1,RMSE越小,RPD越大,則說(shuō)明模型的預(yù)測(cè)能力越好,預(yù)測(cè)結(jié)果的準(zhǔn)確度越高。
實(shí)驗(yàn)裝置如圖1所示。 激發(fā)源采用Q-Switched Nd∶YAG激光器(北京鐳寶,Dawa 300),激光波長(zhǎng)1 064 nm,工作頻率1 Hz,脈沖能量設(shè)定為150 mJ。 激光器發(fā)出的高能脈沖經(jīng)反射鏡傳遞至聚焦鏡(焦距: 100 mm)后,聚焦在放置于三維樣品臺(tái)上的樣品表面。 燒蝕樣品產(chǎn)生等離子體,輻射出的光譜信號(hào)經(jīng)光纖探頭耦合至光譜儀。 光譜儀為海洋光學(xué)MX2500+, 波長(zhǎng)范圍190~520 nm,光譜分辨率0.07 nm,光譜積分時(shí)間設(shè)定為1 ms。 為了降低光譜信號(hào)產(chǎn)生前期的韌致輻射等影響,將延時(shí)時(shí)間設(shè)定為3 μs。 所有實(shí)驗(yàn)均在常溫常壓下完成。
圖1 實(shí)驗(yàn)裝置圖Fig.1 Experimental setup
實(shí)驗(yàn)樣品中Cu和Ni的成分如表1所示,由XRF檢測(cè)獲得。 樣品1是從受到油污染地區(qū)采集的原始樣品,其他樣品是通過(guò)光譜純?cè)噭┡渲贫伞?為了降低樣品不均性對(duì)實(shí)驗(yàn)結(jié)果的影響,所有的樣品均在150 ℃的烤箱中烘干6 h,烘干后的樣品研磨過(guò)200目篩網(wǎng),最終壓制成φ20×1.5 mm的圓片,壓力為20 MPa。 光譜信號(hào)采集過(guò)程中,為了進(jìn)一步降低激光能量波動(dòng)等因素對(duì)光譜信號(hào)的影響,每個(gè)樣品采集50個(gè)點(diǎn),且每個(gè)點(diǎn)是由5發(fā)脈沖產(chǎn)生的光譜信號(hào)平均所得。 建模時(shí),隨機(jī)選取了1,3,5,6,7,8,10,11,13,14和15號(hào)樣品作為校正集,剩余5個(gè)樣品作為測(cè)試集。
表1 樣品中Cu和Ni含量(%)Table 1 The Contents list of Cu and Ni (%)
波長(zhǎng)和強(qiáng)度是用于定性分析含油土壤中重金屬元素的重要信息。 圖2為所有樣品的光譜信號(hào)平均后得到的光譜圖,結(jié)合NIST數(shù)據(jù)庫(kù)可以發(fā)現(xiàn),Cu元素在216.51,324.75和327.39 nm位置的特征線信號(hào)較強(qiáng),Ni元素在338.05和361.49 nm位置特征線信號(hào)較強(qiáng)。 但由于土壤成分較為復(fù)雜,除了Cu和Ni元素,還有較多其他元素的光譜信號(hào),如K和Ca等。 這些信號(hào)的強(qiáng)度以及位置都會(huì)對(duì)Cu和Ni的譜線造成影響。 因而探得不同的變量選擇方法以剔除干擾信號(hào),達(dá)到提升定量分析結(jié)果的目的。
圖2 含油土壤樣品典型光譜Fig.2 Typical spectra of soil samples
3.2.1 PLS模型預(yù)測(cè)性能
在PLS建模過(guò)程中,潛變量數(shù)(LV)的選擇尤其重要,若LV太少,會(huì)導(dǎo)致光譜中較多信息的丟失,最終導(dǎo)致擬合不充分; 若LV太多,則會(huì)導(dǎo)致過(guò)擬合現(xiàn)象,最終得到的預(yù)測(cè)誤差會(huì)有顯著的增大。 本實(shí)驗(yàn)中,將通過(guò)交叉驗(yàn)證確定兩種元素的最佳潛變量。
圖3 Cu和Ni元素PLS模型下不同潛變量數(shù)對(duì)應(yīng)的RMSECVFig.3 RMSECVs for PLS models with differentpotential variables of Cu and Ni
如圖3所示,兩種元素對(duì)應(yīng)模型的RMSECV值先隨著LV的增加而減小,兒后又隨著LV的增加而有所起伏。 當(dāng)LV為3時(shí),Cu元素的PLS模型有最小的RMSECV; 當(dāng)LV為2時(shí),Ni元素的PLS模型有最小的RMSECV。 在最佳潛變量下,建立兩種重金屬元素的全光譜PLS模型,建模預(yù)測(cè)結(jié)果如圖4、圖5所示。
圖4 PLS模型對(duì)校正集的預(yù)測(cè)結(jié)果Fig.4 Prediction results of PLS for calibration set
圖5 PLS模型對(duì)測(cè)試集的預(yù)測(cè)結(jié)果Fig.5 Prediction results of PLS for test set
3.2.2 iPLS模型的預(yù)測(cè)性能
利用iPLS方法,將全光譜波段依次按10~25個(gè)區(qū)間進(jìn)行等分,并在每一個(gè)區(qū)間建立PLS回歸模型。 將每次等分所獲得的最小RMSECV作為衡量標(biāo)準(zhǔn)。 如表2所示,在銅元素的區(qū)間劃分過(guò)程中,當(dāng)共劃分19個(gè)區(qū)間時(shí),對(duì)應(yīng)區(qū)間9的RMSECV最小,故選擇第9區(qū)間作為銅元素iPLS建模的輸入變量。 對(duì)于Ni元素,iPLS篩選結(jié)果與Cu一致。
表2 iPLS模型不同區(qū)間個(gè)數(shù)對(duì)應(yīng)Cu的RMSECVTable 2 RMSECVs for iPLS models with differentinterval numbers of Cu
建立兩元素的iPLS預(yù)測(cè)模型,模型的預(yù)測(cè)結(jié)果如圖6、圖7所示。
圖6 iPLS模型對(duì)校正集的預(yù)測(cè)結(jié)果Fig.6 Prediction results of iPLS for calibration set
圖7 iPLS模型對(duì)測(cè)試集的預(yù)測(cè)結(jié)果Fig.7 Prediction results of iPLS for test set
3.2.3 BiPLS模型的預(yù)測(cè)性能
雖然iPLS對(duì)數(shù)據(jù)集進(jìn)行了一定程度的篩選,但由于其忽略了多區(qū)間建模效果更優(yōu)的可能性,所以可能會(huì)丟失一些其他區(qū)間的有用信息,因此采用BiPLS再次進(jìn)行特征變量的提取。 將全譜劃分為10~25個(gè)子區(qū)間,并挑選出最小RMSECV值作為建模的光譜區(qū)間集合。 對(duì)于Cu元素,結(jié)果如表3所示,當(dāng)所劃區(qū)間數(shù)為21時(shí),RMSECV最小為0.014 3。
表3 BiPLS模型下不同區(qū)間個(gè)數(shù)Cu的RMSECVTable 3 RMSECVs for BiPLS with differentinterval numbers of Cu
將由表3確定的21個(gè)子區(qū)間進(jìn)行聯(lián)合建模,依次剔除RMSECV表現(xiàn)最差的子區(qū)間,當(dāng)剔除掉11個(gè)子區(qū)間,剩下10個(gè)子區(qū)間時(shí),RMSECV的表現(xiàn)最好,10個(gè)子區(qū)間分別為第1,4,6,8,10,12,14,15,19和21區(qū)間。 對(duì)于Ni元素,BiPLS篩選結(jié)果與Cu一致。
利用篩選出的區(qū)間分別建立兩元素的BiPLS模型并預(yù)測(cè),得到兩元素預(yù)測(cè)的結(jié)果如圖8、圖9所示。
將全光譜PLS,iPLS以及BiPLS三個(gè)模型的各項(xiàng)結(jié)果進(jìn)行比較。
圖8 BiPLS模型對(duì)校正集的預(yù)測(cè)結(jié)果Fig.8 Prediction results of BiPLSfor calibration set
圖9 BiPLS模型對(duì)測(cè)試集的預(yù)測(cè)結(jié)果Fig.9 Prediction results of BiPLS for test set
表4 Cu元素的PLS,iPLS,BiPLS模型結(jié)果比較Table 4 Comparison of PLS, iPLS and BiPLS models for Cu element
表5 Ni元素的PLS,iPLS,BiPLS模型結(jié)果比較Table 5 Comparison of PLS, iPLS and BiPLS models for Ni element