楊婉琪, 李智琪, 李福生*, 呂樹彬, 樊佳婧
1. 電子科技大學(xué)自動(dòng)化工程學(xué)院, 四川 成都 611731
2. 電子科技大學(xué)長(zhǎng)三角研究院(湖州), 浙江 湖州 313001
3. 清華大學(xué)深圳國(guó)際研究生院先進(jìn)制造學(xué)部, 廣東 深圳 518055
土壤中的重金屬污染是世界上突出的環(huán)境污染問題之一。 隨著社會(huì)城市化的快速發(fā)展, 燃料燃燒、 礦產(chǎn)開采、 農(nóng)藥使用等人類活動(dòng)[1-2]加劇著土壤中重金屬的污染程度。 鎳、 銅、 砷、 鉛等重金屬在人類生活和工業(yè)排放中通過大氣沉降和農(nóng)業(yè)灌溉等方式進(jìn)入土壤, 并且長(zhǎng)時(shí)間滯留難以降解。 這些累積在土壤中的重金屬對(duì)生態(tài)環(huán)境影響大, 同時(shí)也對(duì)人類的健康構(gòu)成了嚴(yán)重威脅。 我國(guó)南方紅壤、 黃壤等多表現(xiàn)為酸性, pH值在5.0~6.5[3-4]。 根據(jù)GB15618—2018《中國(guó)人民共和國(guó)國(guó)家標(biāo)準(zhǔn)土壤環(huán)境質(zhì)量農(nóng)業(yè)地土壤污染風(fēng)險(xiǎn)管控標(biāo)準(zhǔn)(試行)》, 當(dāng)土壤中重金屬元素含量超過其風(fēng)險(xiǎn)篩選值時(shí), 可能會(huì)對(duì)人體健康造成威脅, 應(yīng)該開展進(jìn)一步的詳細(xì)調(diào)查以評(píng)估該區(qū)域的土壤污染風(fēng)險(xiǎn)程度。
然而, 土壤重金屬污染具有隱蔽性[5], 人們很難憑借肉眼分辨出土壤中是否存在重金屬及其含量, 需要依靠相關(guān)檢測(cè)技術(shù)對(duì)土壤中的元素含量進(jìn)行測(cè)定及風(fēng)險(xiǎn)評(píng)估。 能量色散型X射線熒光光譜(ED-XRF)分析是一種常用的無損分析、 快速檢測(cè)元素的方法, 因其制樣簡(jiǎn)單、 快捷、 環(huán)保、 經(jīng)濟(jì)、 準(zhǔn)確有效等優(yōu)點(diǎn)被廣泛用于土壤、 合金等的重金屬檢驗(yàn)[6-7]。 由于通常需要檢測(cè)的重金屬含量很低, 元素特征峰會(huì)出現(xiàn)與其對(duì)應(yīng)干擾元素特征峰發(fā)生譜線重疊, 從而導(dǎo)致元素檢測(cè)分析結(jié)果的誤差顯著增加[8]。 隨著人工智能算法進(jìn)入成分分析領(lǐng)域, 解決土壤重金屬污染風(fēng)險(xiǎn)測(cè)定出現(xiàn)了新思路。 何迎一[9]基于支持向量機(jī)建立土壤重金屬污染評(píng)價(jià)模型, Hu[10]等利用隨機(jī)森林算法來預(yù)測(cè)土壤重金屬含量。
本工作以土壤重金屬元素為研究對(duì)象, 采集國(guó)家標(biāo)準(zhǔn)土壤樣品的XRF光譜數(shù)據(jù), 通過小波閾值去噪、 迭代離散小波變換本底扣除對(duì)譜線進(jìn)行預(yù)處理, 然后利用競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣算法(CARS)結(jié)合一維卷積神經(jīng)網(wǎng)絡(luò)(1D-CNN), 將經(jīng)過特征篩選后的一維光譜數(shù)據(jù)作為模型的輸入, 對(duì)土壤中的重金屬污染進(jìn)行風(fēng)險(xiǎn)篩選。
實(shí)驗(yàn)樣品采用59份國(guó)家標(biāo)準(zhǔn)土壤樣品, 包含 GBW(E) 農(nóng)業(yè)土壤成分分析標(biāo)準(zhǔn)物質(zhì)、 GSD 水系沉積物成分分析標(biāo)準(zhǔn)物質(zhì)、 GSS土壤成分分析標(biāo)準(zhǔn)物質(zhì)三個(gè)系列樣本。 實(shí)驗(yàn)使用了TecSonde生產(chǎn)的型號(hào)為TS-XH4000的手持便攜式ED-XRF光譜儀, 實(shí)驗(yàn)土壤樣品和儀器如圖1(a, b)所示。 光譜儀工作電壓為45 kV, 工作電流為25 μA, 多道采集系統(tǒng)的成峰時(shí)間設(shè)置為0.8 μs。 激發(fā)源為Ag靶x射線光管, 光子激發(fā)特定樣品后, 通過SDD探測(cè)器接收特定樣品被激發(fā)后的能量, 并通過采集板進(jìn)行解析, 從而生成能譜。
圖1 土壤樣品和儀器的示意圖
為保證光譜數(shù)據(jù)測(cè)量的準(zhǔn)確性, 在室溫下選擇XRF光譜儀的土壤測(cè)量模式, 并調(diào)試儀器測(cè)試最優(yōu)參數(shù), 每個(gè)樣品的測(cè)試時(shí)間設(shè)置為90 s。 將樣品放置在光譜儀的檢測(cè)窗口上進(jìn)行測(cè)量, 對(duì)同一土壤樣品進(jìn)行三次測(cè)試, 并將三次測(cè)試結(jié)果取平均值作為該樣品的最終光譜數(shù)據(jù), 每份樣品均獲得2 048個(gè)通道數(shù)的光譜信息。 表1為59 份樣本中研究的Ni、 Cu、 As、 Pb四種重金屬元素的統(tǒng)計(jì)特征。 在土壤pH值呈酸性的條件下農(nóng)用耕地、 草地等土壤中Ni、 Cu、 As、 Pb元素污染的風(fēng)險(xiǎn)篩選值分別為60、 50、 40、 70 mg·kg-1。
表1 重金屬元素統(tǒng)計(jì)特征(單位: mg·kg-1)
1.3.1 CARS算法
CARS算法是一種特征變量選擇方法, 將偏最小二乘(PLS)模型回歸系數(shù)與蒙特卡羅采樣技術(shù)相結(jié)合[11], 基本原理是用蒙特卡羅隨機(jī)選擇一定量樣本進(jìn)行模型校準(zhǔn), 去除PLS模型中回歸系數(shù)權(quán)值較小的點(diǎn), 最后在多次采樣中選擇交叉驗(yàn)證均方根誤差(RMSECV)值最小的數(shù)據(jù), 得到一系列最優(yōu)子集。 CARS算法[12-13]的主要步驟包括: (1)用蒙特卡羅采樣一定數(shù)量的樣本作為建模集和預(yù)測(cè)集, 建立PLS模型; (2)計(jì)算PLS模型回歸系數(shù)的絕對(duì)值權(quán)重, 利用指數(shù)衰減函數(shù)去除回歸系數(shù)絕對(duì)值權(quán)重較小的變量; (3)利用自適應(yīng)加權(quán)算法, 使得有較大權(quán)重的變量將以較高的頻率被選擇, 得到最終特征點(diǎn); (4)重復(fù)以上步驟N次, 計(jì)算特征點(diǎn)集的RMSECV, 選取RMSECV 最小的一組特征點(diǎn), 得到最優(yōu)采樣結(jié)果, 即為CARS方法的最終結(jié)果。
1.3.2 1D-CNN模型
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是帶有卷積操作的深度前饋神經(jīng)網(wǎng)絡(luò)[14-15]。 對(duì)于XRF光譜數(shù)據(jù)來說, 使用一維卷積神經(jīng)網(wǎng)絡(luò)(1D-CNN)可以不需要將原始一維向量轉(zhuǎn)換為二維矩陣, 相較二維卷積神經(jīng)網(wǎng)絡(luò)能夠減少計(jì)算復(fù)雜度。 通過構(gòu)建一維卷積核, 提出土壤重金屬元素含量超標(biāo)檢測(cè)的一維卷積神經(jīng)網(wǎng)絡(luò)X熒光光譜分析模型。
卷積神經(jīng)網(wǎng)絡(luò)通常由輸入層、 卷積層、 池化層、 全連接層組成。 一維CNN的結(jié)構(gòu)與二維CNN相似, 最主要的區(qū)別是在一維卷積層中將二維CNN中卷積核的大小修改為一維, 降低了網(wǎng)絡(luò)的復(fù)雜程度, 1D-CNN模型結(jié)構(gòu)如圖2所示。 實(shí)驗(yàn)構(gòu)造了一個(gè)10層一維CNN用于判斷土壤中重金屬元素是否存在污染風(fēng)險(xiǎn), 包括輸入層—卷積層1—池化層1—卷積層2—池化層2—卷積層3—池化層3—全連接層1—全連接層2—輸出層, 使用篩選準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。
圖2 1D-CNN模型結(jié)構(gòu)圖
通過小波閾值法對(duì)光譜數(shù)據(jù)進(jìn)行去噪處理, 分解層數(shù)為3層, 小波基為db4, 以土壤樣品GBW(E)0070006為例, 去噪結(jié)果如圖3(a)所示。 可以看出在未改變樣本的光譜譜線波形的基礎(chǔ)上, 150~680通道能量的光譜譜線更加平滑, 有著很好的去噪效果。 利用迭代離散小波變換對(duì)信號(hào)進(jìn)行分解, 并與其主要分量比較取小更新信號(hào), 經(jīng)多次迭代, 可得到近似光譜本底的曲線[16]。 小波分解高層越高, 主要分量越能代表光譜譜線的主要信息, 與譜線本底越為接近, 但分解層數(shù)越高, 主要分量中也損失了更多的細(xì)節(jié)信息。 經(jīng)過多次實(shí)驗(yàn), 本底扣除過程中選擇分解層數(shù)為7層, sym4為小波基, 迭代5次時(shí)得到的譜線本底與真實(shí)本底最為接近。 以樣品GBW(E)0070006為例, 得到背景扣除后的光譜如圖3(b)所示。
圖3 預(yù)處理結(jié)果
X射線熒光光譜中有2 048個(gè)通道(能量段)信息, 而許多通道不在研究目標(biāo)范圍內(nèi), 有必要進(jìn)一步剔除區(qū)間能量中的無關(guān)變量, 有效的變量選擇方法能夠提高模型的預(yù)測(cè)性能。 采用CARS算法進(jìn)行特征篩選, 在去除冗余信息的同時(shí)還提高了數(shù)據(jù)的可靠性, 參數(shù)設(shè)置如下: 迭代次數(shù)為20次, 蒙特卡羅采樣時(shí)建模集與校正集的比例為0.8, 最大主成分?jǐn)?shù)為20, 交叉驗(yàn)證數(shù)為10。 將59份經(jīng)過預(yù)處理后的土壤樣品作為輸入, 大小為59×2 048, 以單一目標(biāo)元素的含量作為輸出, 大小為59×1。 以Pb為例, 圖4為基于CARS算法Pb元素的能量段變量篩選過程。
圖4 針對(duì)Pb元素光譜數(shù)據(jù)CARS采樣過程
由圖4可知, 篩選出來的特征變量數(shù)呈指數(shù)函數(shù)下降趨勢(shì), 譜圖的特征通道從原始的2048個(gè)急劇減少至400個(gè)通道, 然后逐漸緩慢減少并趨于穩(wěn)定。 RMSECV變化趨勢(shì)呈現(xiàn)先減小后增大的特點(diǎn), RMSECV值減小則表明篩選過程中成功剔除了與Pb元素不相關(guān)的特征峰。 圖中“*”為RMSECV值最低點(diǎn), 此時(shí)MCS采樣次數(shù)為16, 所保留的45個(gè)變量數(shù)將作為土壤污染風(fēng)險(xiǎn)篩選模型的輸入。 基于CARS算法對(duì)Ni, Cu, As和Pb元素的光譜數(shù)據(jù)篩選結(jié)果如表2所示。 經(jīng)過CARS采樣, 特征變量數(shù)出現(xiàn)大幅度減少, Ni、 Cu、 As、 Pb元素從原來的2 048個(gè)特征分別減少至37、 53、 37、 45個(gè), 為原來通道數(shù)的1.81%~2.59%, 去除了XRF光譜能量區(qū)間中大量的無用信息。
表2 重金屬元素在RMSECV值最小時(shí)對(duì)應(yīng)的采樣次數(shù)及最優(yōu)變量子集包含的變量個(gè)數(shù)
在基于XRF光譜的土壤重金屬元素污染風(fēng)險(xiǎn)篩選任務(wù)中, 對(duì)于1D-CNN模型則是一個(gè)“是”或“否”的二分類問題。 當(dāng)土壤樣品中的元素超過風(fēng)險(xiǎn)篩選值則意味著土壤中有該元素重金屬污染的風(fēng)險(xiǎn)。 以Pb元素為例, 當(dāng)Pb元素含量大于風(fēng)險(xiǎn)篩選值70 mg·kg-1時(shí), 標(biāo)簽被設(shè)置為1, 小于等于風(fēng)險(xiǎn)篩選值時(shí)設(shè)置為0。 在網(wǎng)絡(luò)輸出層對(duì)兩個(gè)標(biāo)簽進(jìn)行獨(dú)熱碼(One-hot)編碼, 模型參數(shù)設(shè)置如表3所示。 1D-CNN模型在Pytorch框架下進(jìn)行訓(xùn)練, 使用10折交叉驗(yàn)證, 設(shè)置epoch為5 000, batch size為32, 學(xué)習(xí)率為10×10-6, 損失函數(shù)為MSEloss, 通過使用Adam訓(xùn)練。 實(shí)驗(yàn)中以經(jīng)預(yù)處理及特征篩選后的特征峰計(jì)數(shù)值作為輸入, 即輸入大小為59×45, 以經(jīng)獨(dú)熱碼編碼的Pb元素是否有污染風(fēng)險(xiǎn)作為標(biāo)簽, 模型的輸出即為模型對(duì)該數(shù)據(jù)屬于這兩種類別的分?jǐn)?shù), 篩選判斷結(jié)果則為兩者間分?jǐn)?shù)高的一類。
表3 1D-CNN模型參數(shù)設(shè)置
采用CARS算法對(duì)原始光譜信息進(jìn)行變量篩選, 并與連續(xù)投影算法(SPA)進(jìn)行比較, 然后利用1D-CNN方法建立土壤重金屬元素含量超標(biāo)檢測(cè)模型。 針對(duì)SPA 變量選擇方法[17], 其利用矢量空間共線性最小化原理, 設(shè)置最小波長(zhǎng)數(shù)為1, 最大波長(zhǎng)數(shù)為50, 找到最小冗余信息的變量篩選結(jié)果, 將篩選后的結(jié)果輸入到1D-CNN模型進(jìn)行預(yù)測(cè)。
將1D-CNN模型與上述模型作對(duì)比, 表4為不同方法下元素含量風(fēng)險(xiǎn)篩選模型的準(zhǔn)確率。 首先對(duì)比CARS和SPA篩選算法的有效性, 可以看出CARS算法在X射線熒光光譜的變量選擇方面具有較明顯優(yōu)勢(shì), 可以篩選出更為有用的通道信息并去除冗余信息, 降低模型計(jì)算量。 在CARS算法基礎(chǔ)上, 對(duì)比1D-CNN和PLSR模型的效果, 發(fā)現(xiàn)1D-CNN模型的預(yù)測(cè)準(zhǔn)確率優(yōu)于傳統(tǒng)的PLSR模型, 可以提取到比PLSR方法更多更深層的有用光譜信息, 模型精度更高。 將CRAS篩選算法和1D-CNN方法結(jié)合可以很好地提取光譜特征信息, 大幅度提高了模型的準(zhǔn)確性。
表4 十折交叉驗(yàn)證下基于不同風(fēng)險(xiǎn)篩選方法的元素含量超標(biāo)預(yù)測(cè)結(jié)果準(zhǔn)確率
基于X熒光光譜分析, 建立CARS-1D-CNN模型對(duì)重金屬元素進(jìn)行土壤風(fēng)險(xiǎn)篩選判別與分析。 首先, 采用小波閾值去噪和迭代離散小波變換本底扣除對(duì)譜圖進(jìn)行預(yù)處理, 然后基于CARS 方法進(jìn)行能量特征選擇, 并將篩選后的數(shù)據(jù)作為1D-CNN模型輸入, 判斷是否有重金屬污染風(fēng)險(xiǎn)。 與全能量段1D-CNN、 SPA-1D-CNN相比, CARS方法有效去除了冗余的干擾信息, 在降低模型計(jì)算量的同時(shí)還提高了風(fēng)險(xiǎn)篩選的效率。 在CARS篩選的基礎(chǔ)上, 1D-CNN相比于傳統(tǒng)的PLSR模型具有更優(yōu)的預(yù)測(cè)精度和預(yù)測(cè)能力, Ni、 Cu、 As、 Pb的風(fēng)險(xiǎn)準(zhǔn)確率分別為96.67%, 93.22%, 91.67%, 88.33%。 首次提出將CARS結(jié)合1D-CNN模型用于土壤風(fēng)險(xiǎn)篩選, 對(duì)XRF光譜土壤重金屬元素污染篩選有一定的指導(dǎo)意義, 為深度學(xué)習(xí)在本領(lǐng)域應(yīng)用提供新的思路。