李 芳 陸安祥,3 王紀(jì)華,3
(1.北京農(nóng)業(yè)質(zhì)量標(biāo)準(zhǔn)與檢測技術(shù)研究中心,北京市農(nóng)林科學(xué)院,北京 100097;2.農(nóng)產(chǎn)品產(chǎn)地環(huán)境監(jiān)測北京市重點(diǎn)實(shí)驗(yàn)室,北京 100097;3.農(nóng)業(yè)部農(nóng)產(chǎn)品質(zhì)量安全風(fēng)險評估實(shí)驗(yàn)室(北京),北京 100097)
?
基于支持向量機(jī)的X射線熒光光譜重金屬檢測模型的建立
李芳1,2陸安祥1,2,3王紀(jì)華1,2,3
(1.北京農(nóng)業(yè)質(zhì)量標(biāo)準(zhǔn)與檢測技術(shù)研究中心,北京市農(nóng)林科學(xué)院,北京 100097;2.農(nóng)產(chǎn)品產(chǎn)地環(huán)境監(jiān)測北京市重點(diǎn)實(shí)驗(yàn)室,北京 100097;3.農(nóng)業(yè)部農(nóng)產(chǎn)品質(zhì)量安全風(fēng)險評估實(shí)驗(yàn)室(北京),北京 100097)
目的意義:建立土壤中As、Cr、Cu、Pb、Zn等5種重金屬的定量檢測模型,為土壤重金屬的快速檢測提供一種新思路。方法:利用X射線熒光光譜技術(shù)結(jié)合支持向量機(jī)對土壤中的5種重金屬元素進(jìn)行定量檢測,在對檢測數(shù)據(jù)進(jìn)行(-1,1)歸一化處理以及K折交叉驗(yàn)證尋優(yōu)的基礎(chǔ)上,討論了基于網(wǎng)格尋優(yōu)算法、粒子群算法以及遺傳算法的支持向量機(jī)回歸模型,通過比較均方根誤差,得出采用遺傳算法進(jìn)行優(yōu)化后建模效果最佳。結(jié)果:將遺傳算法參數(shù)設(shè)為進(jìn)化代數(shù)200次,種群數(shù)量20,交叉率0.4,變異率0.1,在此條件下建模并驗(yàn)證模型準(zhǔn)確度和精密度,得到5種重金屬檢測模型預(yù)測值與檢測值間決定系數(shù)r2分別為0.9821、0.958、0.9764、0.9673和0.9684,交叉驗(yàn)證均方根誤差與模型訓(xùn)練集、測試集均方根誤差數(shù)值較低。結(jié)論:模型預(yù)測精度高,相關(guān)性顯著,能夠很好的預(yù)測土壤中的5種重金屬含量,對于提高儀器的快速、準(zhǔn)確測定有著重要的意義。
X射線熒光光譜重金屬支持向量機(jī)遺傳算法
X射線熒光(X-ray Fluorescence,XRF)光譜是基于X射線激發(fā)元素并使其放射二次X射線原理的檢測方法,根據(jù)不同元素的二次X射線對應(yīng)特征能量及波長進(jìn)行定性、定量分析。XRF方法可檢測的元素范圍寬泛,從Na(11號)到U(92號)共有82種;利用XRF分析具有非破壞性、檢測效率高、樣品處理簡單等優(yōu)點(diǎn),因此目前已廣泛用于元素測定領(lǐng)域[1-3]。XRF在土壤環(huán)境中重金屬檢測方面的應(yīng)用日益增加,土壤重金屬污染的誘因包括工農(nóng)業(yè)發(fā)展迅猛、城市化進(jìn)程擴(kuò)張加速等,因此建立一種土壤重金屬快速檢測方法,能夠從宏觀上了解污染狀況,為進(jìn)一步的治理和修復(fù)等工作奠定基礎(chǔ)。
支持向量機(jī)(Support Vector Machine,SVM)由Vapnik提出,是機(jī)器學(xué)習(xí)方法的一種,可被訓(xùn)練,其原理構(gòu)造分類超平面,使正例、反例二者間的隔離邊緣被最大化[4]。SVM方法是一種有效的、通用的、便于計(jì)算的具有魯棒性的方法,適用于處理非線性、高維模式識別領(lǐng)域中的小樣本問題,且可延伸至其它機(jī)器學(xué)習(xí)方法,如:函數(shù)擬合等[5]。遺傳算法(Genetic Algorithm,GA)于1975年由美國 J.Holland教授最先提出,建立在達(dá)爾文進(jìn)化論的基礎(chǔ)上,模擬進(jìn)化過程進(jìn)行篩選確定最優(yōu)結(jié)果,直接操作結(jié)構(gòu)對象,沒有函數(shù)連續(xù)性、求導(dǎo)的制約;尋優(yōu)方法建立在概率化的基礎(chǔ)上,自動得到并指導(dǎo)優(yōu)化的搜索空間,自適應(yīng)地調(diào)整搜索方向,無需明確的規(guī)則[6]?;贕A的這些性質(zhì),人們已將其應(yīng)用在信號處理、機(jī)器學(xué)習(xí)、自適應(yīng)控制、組合優(yōu)化、人工生命等各個方面[7-11]。
本文提供一種基于SVM的XRF定量分析農(nóng)田土壤中As、Cr、Cu、Pb、Zn含量的方法,并通過GA優(yōu)化SVM的懲罰系數(shù)和核函數(shù)參數(shù),實(shí)現(xiàn)對土壤中目標(biāo)元素的定量分析。
SVM是一種針對有限樣本情況的機(jī)器學(xué)習(xí)方法,能夠?qū)崿F(xiàn)結(jié)構(gòu)風(fēng)險最小化,解決凸二次規(guī)劃問題,可避免陷入局部極值,獲得全局最優(yōu)解[12]。
已知一組訓(xùn)練集D={(x1,y1),…(xl,yl)},l為樣本數(shù)量,xi∈Rn,yi∈R,i=1,2,…..l,n為xi向量維數(shù),R為實(shí)數(shù)集。對于非線性問題可以通過非線性變換將輸入向量映射到高維特征空間,轉(zhuǎn)化為類似的線性回歸問題加以解決。這種非線性變換通過適當(dāng)?shù)暮撕瘮?shù)實(shí)現(xiàn)[13]。公式如下:
(1)
式中,δ是核函數(shù)參數(shù),xp、xq是訓(xùn)練樣品集的有效特征向量,p,q∈[1,n],最優(yōu)分類問題轉(zhuǎn)化為求分類間隔函數(shù)φ(w,ε)的最小值:
(2)
式中,γ是誤差懲罰參數(shù),ε是懲罰系數(shù)。
約束條件為:
yk[(Ψ(xk)×w+b)]≥1-ε
(3)
式中,xk是輸入層向量,yk是輸出層向量中的元素,Ψ(xk)是特征向量xk在特征空間S的映射,b是SVM模型的截距。
最后通過拉格朗日算法得到SVM模型為:
(4)
式中,αk為拉格朗日算子。SVM算法中,懲罰參數(shù)r和核函數(shù)參數(shù)δ對擬合結(jié)果影響較大,只有選擇合適的模型參數(shù),才能發(fā)揮模型的預(yù)測能力。
3.1儀器與樣品
儀器選用北京農(nóng)業(yè)質(zhì)量標(biāo)準(zhǔn)與檢測技術(shù)研究中心自主研發(fā)的便攜式 XRF光譜儀,儀器主要性能參數(shù)為:Ag靶高性能微型 X 光管、Al+Mo濾片、探測器為電子冷卻Si-PIN,測試電壓30kV、測試電流30μA。
實(shí)驗(yàn)中使用的標(biāo)準(zhǔn)物質(zhì)購自國家標(biāo)準(zhǔn)物質(zhì)研究中心,實(shí)際樣品分別采自北京、黑龍江、云南、江蘇和新疆的典型農(nóng)耕土壤表層(0~20cm)。土樣中重金屬的分析測定均按照國家標(biāo)準(zhǔn)執(zhí)行,其中As按照GB/T 22105.2-2008標(biāo)準(zhǔn)檢測,所用儀器為AFS- 830原子熒光分析儀,其余4種重金屬均使用美國Solaar- M原子吸收石墨爐進(jìn)行檢測,所執(zhí)行的標(biāo)準(zhǔn)分別為Cr:GB/T 17137-1997,Cu、Zn:GB/T 17137-1997,Pb:GB/T 17141-1997,檢測過程中加入國家標(biāo)準(zhǔn)土壤樣品(GSS- 1)進(jìn)行質(zhì)量控制,每個樣品檢測3次,采用將樣品填充進(jìn)乙烯樣品杯(直徑×高:30mm×10mm)中進(jìn)行XRF分析,樣品杯配有固定麥拉膜(美國 PremierLab Supply公司,厚6μm,XRF分析專用)的卡圈。
3.2特征提取
土壤成分的復(fù)雜性導(dǎo)致檢測光譜存在基質(zhì)效應(yīng)的干擾,影響檢測精度,因此在進(jìn)行數(shù)據(jù)分析處理前,對光譜進(jìn)行降噪、基線校正、歸一化處理和尋峰等前處理,提高信噪比,從而提高模型準(zhǔn)確度。對光譜的前處理工作經(jīng)Matlab軟件編程實(shí)現(xiàn),剔除冗余信息。臨近的重金屬峰會有相互干擾,為提高準(zhǔn)確性,以Ag(Kα線:22.16keV)為內(nèi)標(biāo)峰,歸一化處理特征峰強(qiáng)度及光譜積分強(qiáng)度,降低由于能量抖動造成的檢測誤差;最終檢測光譜經(jīng)尋峰、能量定位后提取4.95、5.41、5.90、6.40、6.93、7.48、8.05、8.64、10.54、11.22、11.73、12.61keV等12個熒光峰強(qiáng)度值,建立XRF輸入矩陣。
實(shí)驗(yàn)所用土壤樣品共109份,建立As、Cr、Cu、Pb、Zn的定量檢測模型。建模時先采用濃度梯度法劃分訓(xùn)練集、預(yù)測集,其中,訓(xùn)練集樣本數(shù)據(jù)用來建立模型,預(yù)測集樣本數(shù)據(jù)用來對模型進(jìn)行評價,對應(yīng)的樣品個數(shù)分別為71、38。由于樣品中重金屬濃度差異大,因此對數(shù)據(jù)進(jìn)行歸一化處理,歸一化至(-1,1)區(qū)間內(nèi),再進(jìn)行建模分析,方法是建立在平均數(shù)方差法的基礎(chǔ)上[14],即:設(shè)x=x(x1,x2,…,xn),建立映射f(xk)=(xk- xmean)/xvar,xmean=mean(x)=mean(x1,x2,…,xn),xvar=var(x)= var(x1,x2,…,xn),將原始輸入譜矩陣和輸出矩陣進(jìn)行歸一化處理至(-1,1)區(qū)間內(nèi),歸一化完成后再建立定量模型。
4.1不同參數(shù)尋優(yōu)方法用于建模
SVM算法建模,在得到訓(xùn)練集高正確率的同時無法確保測試集的高預(yù)測精度,針對這一問題,采用交叉驗(yàn)證(cross validation,CV)法進(jìn)行優(yōu)化,常用的方法是k折交叉驗(yàn)證 (k- fold cross validation,K-CV):將訓(xùn)練集合分成k個大小相同的子集,其中一個子集用于測試,其它 k-1 個子集用于對分類器進(jìn)行訓(xùn)練[15,16](圖1)。這樣,整個訓(xùn)練集中的每一個子集被預(yù)測一次,交叉驗(yàn)證的正確率是 k 次正確分類數(shù)據(jù)百分比的平均值,可防止過擬合及欠擬合的問題的出現(xiàn)。
圖1 交叉驗(yàn)證原理圖
對于SVM算法,懲罰參數(shù)r和核函數(shù)參數(shù)δ對擬合結(jié)果影響較大,但目前尚未有公認(rèn)的參數(shù)優(yōu)化標(biāo)準(zhǔn)方法,常用的尋優(yōu)方法包括:實(shí)驗(yàn)法、網(wǎng)格搜索算法(grid search,GS)[17]、遺傳算法(genetic algorithm,GA)[18]、粒子群算法(particle swarm optimization,PSO)[19]等.實(shí)驗(yàn)法工作量大,耗時久,難以尋到最優(yōu)值,因此實(shí)驗(yàn)中選用另外3種方法進(jìn)行試驗(yàn),并比較結(jié)果。試驗(yàn)建立在K-CV基礎(chǔ)上,通過K-CV確定適應(yīng)度函數(shù)后,再進(jìn)一步尋優(yōu),分析流程見圖2。
圖2 基于GS/PSO/GA的定量分析流程圖
4.2結(jié)果與討論
4.2.1尋優(yōu)方法的確定
均方根誤差(RMSE)可以衡量預(yù)測值與真值間的偏差,即回歸模型整體預(yù)測精度,計(jì)算公式為:
(5)
將K-CV方法運(yùn)用于適應(yīng)度函數(shù)的確定過程,計(jì)算均方根誤差CVMSE,分別采用GS、GA和PSO算法尋優(yōu),以r2和RMSE為評價指標(biāo),以Cr為例,建模結(jié)果見表1。分析表1中參數(shù)可知GA算法r2高于GS、PSO,MSE則較低,表明經(jīng)GA算法尋優(yōu)后建模,預(yù)測值與實(shí)際值更接近,模型準(zhǔn)確度更高。另外,GA算法γ值較高,縮短了建模運(yùn)算時間,因此整體比較后,選用GA算法進(jìn)行參數(shù)尋優(yōu)。Cr的參數(shù)尋優(yōu)和預(yù)測結(jié)果見圖3。
表1 不同尋優(yōu)算法建模結(jié)果
圖3 基于GA的Cr元素尋優(yōu)結(jié)果(a)適應(yīng)度曲線;(b)訓(xùn)練集結(jié)果;(c)測試集結(jié)果
4.2.2模型精密度和準(zhǔn)確度評價
選擇相對標(biāo)準(zhǔn)偏差(RSD)和相對誤差(RE)評價預(yù)測模型的精密度和準(zhǔn)確度,二者可用于分析獨(dú)立預(yù)測點(diǎn),計(jì)算公式為:
(6)
(7)
在K-CV優(yōu)化,GA參數(shù)尋優(yōu)的基礎(chǔ)上建立Cr、As、Cu、Pb、Zn五種重金屬的檢測模型。將遺傳算法的進(jìn)化代數(shù)設(shè)定為200次,種群數(shù)量設(shè)為20,交叉率設(shè)為0.4,變異率設(shè)為0.1。經(jīng)初步建模實(shí)驗(yàn)后,將SVM模型懲罰參數(shù)γ的范圍定為0~100,核函數(shù)參數(shù)δ的范圍定為0~1,懲罰系數(shù)ε范圍設(shè)定為0~1,進(jìn)行實(shí)驗(yàn)。得到的數(shù)據(jù)結(jié)果見表2。由表2可知各重金屬模型r2均大于0.96,訓(xùn)練結(jié)果與參考值大小相近,表明模型建立成功,該方法能夠很好的改進(jìn)XRF光譜儀的檢測準(zhǔn)確度。
圖4 5種重金屬的RSD、RE圖(a)相對標(biāo)準(zhǔn)偏差;(b)相對誤差比較圖(虛線為RE均值)
重金屬γδCVMSE訓(xùn)練集測試集r2RMSEr2RMSECr19.85020.4009569.1560.98625218.430.95492164.84As19.93990.4690499.8370.98462236.430.99041170.91Cu19.97530.1126166.1120.98049127.310.974365.734Pb15.28910.0741751.2240.97382152.490.9606108.58Zn13.90060.1790364.7380.97149229.360.98112183.59
4.2.3回歸模型驗(yàn)證
對所有樣品的檢測值和預(yù)測值進(jìn)行相關(guān)分析,結(jié)果見圖5。從圖5中可以看出As、Cr、Cu、Pb、Zn對應(yīng)的決定系數(shù)分別為0.9821、0.958、0.9764、0.9673和0.9684,預(yù)測值與檢測值系數(shù)接近1、說明模型預(yù)測進(jìn)度較高。整體看來,該方法數(shù)據(jù)擬合效果較好,模型準(zhǔn)確度高,進(jìn)一步證實(shí)了GA算法尋優(yōu)后建模的可行性。
圖5 SVM模型檢測值與預(yù)測值相關(guān)性
(1)在K-CV基礎(chǔ)上,比較GS、GA、PSO 3種參數(shù)尋優(yōu)算法,結(jié)果顯示基于GA優(yōu)化算法建立的模型準(zhǔn)確性最高且耗時短,最終確定用該算法尋優(yōu)建模;
(2)驗(yàn)證獨(dú)立預(yù)測點(diǎn)重復(fù)預(yù)測的RSD、RE值,分別驗(yàn)證單點(diǎn)以及整體模型預(yù)測準(zhǔn)確性和精確度,結(jié)果表明模型具有較強(qiáng)的泛化能力;
(3)在選定的優(yōu)化方法基礎(chǔ)上,設(shè)定GA算法參數(shù):進(jìn)化代數(shù)200次,種群數(shù)量20,交叉率0.4,變異率0.1,各重金屬整體r2較高,模型預(yù)測值與參考值接近,建模成功;對于提高儀器的快速、準(zhǔn)確測定有著重要的意義。
(文中建模所用到樣品數(shù)量為109,涵蓋了我國典型農(nóng)耕土壤類型,樣品具有代表性,參考其他現(xiàn)有文獻(xiàn),本實(shí)驗(yàn)所選用樣品數(shù)量合理)
[1]Kodom K,Preko K,Boamah D.X-ray Fluorescence (XRF)Analysis of Soil Heavy Metal Pollution from an Industrial Area in Kumasi,Ghana[J].Soil and Sediment Contamination:An International Journal,2012,21(8):1006-1021.
[2]Hutton L A,O’Neil G D,Read T L,et al.Electrochemical x-ray fluorescence spectroscopy for trace heavy metal analysis:enhancing x-ray fluorescence detection capabilities by four orders of magnitude[J].Analytical chemistry,2014,86(9):4566-4572.
[3]冉景,王德建,王燦,等.便攜式X射線熒光光譜法與原子吸收/原子熒光法測定土壤重金屬的對比研究[J].光譜學(xué)與光譜分析,2014,34(11):3113-3118.
[4]Aryafar A,Gholami R,Rooki R,et al.Heavy metal pollution assessment using support vector machine in the Shur River,Sarcheshmeh copper mine,Iran[J].Environmental Earth Sciences,2012,67(4):1191-1199.
[5]李曉婷,劉勇,王平.基于支持向量機(jī)的城市土壤重金屬污染評價[J].生態(tài)環(huán)境學(xué)報(bào),2014,23(8):1359-1365.
[6]馬永杰,云文霞.遺傳算法研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2012,29(4):1201-1206,1210.
[7]危濤.遺傳算法在雷達(dá)信號處理中的應(yīng)用[D].西安電子科技大學(xué),2010:13-33.
[8]趙天聞.基于機(jī)器學(xué)習(xí)方法的人臉識別研究[D].上海交通大學(xué),2008:21-25.
[9]錢燈云.基于遺傳算法的高壓最小流量閥PID自適應(yīng)控制研究[D].上海交通大學(xué),2012:33-73.
[10]崔紅建.改進(jìn)免疫遺傳算法在組合優(yōu)化問題中的應(yīng)用研究[D].大連海事大學(xué),2012:24-41.
[11]周劍利,馬壯,陳貴清.基于遺傳算法的人工生命演示系統(tǒng)的研究與實(shí)現(xiàn)[J].制造業(yè)自動化,2009,31(9):38-40.
[12]Lv J,Liu X,Huang Y.Estimation of heavy metal concentrations in rice using support vector machines and particle swarm optimization from reflectance spectroscopy[J].International Journal of Applied Mathematics and Statistics,2013,50(20):257-263.
[13]王春龍,劉建國,趙南京,等.基于支持向量機(jī)回歸的水體重金屬激光誘導(dǎo)擊穿光譜定量分析研究[J].光學(xué)學(xué)報(bào),2013,33(3):314-319.
[14]吳蕾.基于支持向量機(jī)的環(huán)境數(shù)據(jù)分析與處理[D].長沙:中南大學(xué),2013:23-28.
[15]曹兆龍.基于支持向量機(jī)的多分類算法研究[D].上海:華東師范大學(xué),2007:6-15.
[16]劉濤,賈進(jìn)章.基于K-CV&SVM的工作面煤層瓦斯含量預(yù)測[J].世界科技研究與發(fā)展,2015,37(2):147-150.
[17]郭美麗,覃錫忠,賈振紅,等.基于改進(jìn)的網(wǎng)格搜索SVR的話務(wù)預(yù)測模型[J].計(jì)算機(jī)工程與科學(xué),2014,36(4):707-712.
[18] Devos O,Downey G,Duponchel L.Simultaneous data pre-processing and SVM classification model selection based on a parallel genetic algorithm applied to spectroscopic data of olive oils[J].Food chemistry,2014,148:124-130.
[19] Liu Y,Wang G,Chen H,et al.An improved particle swarm optimization for feature selection[J].Journal of Bionic Engineering,2011,8(2):191-200.
[20]Ch S,Anand N,Panigrahi B K,et al.Streamflow forecasting by SVM with quantum behaved particle swarm optimization[J].Neurocomputing,2013,101:18-23.
Establishment of X-ray fluorescence heavy metal detection model based on support vector machine.
Li Fang1,2Lu Anxiang1,2,3,Wang Jihua1,2,3
(1.Beijing Research Center for Agricultural Standards and Testing,Beijing 100097,China;2.Beijing Municipal Key Laboratory of Agriculture Environment Monitoring,Beijing 100097,China;3.Risk Assessment Lab for Agro-products(Beijing),Ministry of Agriculture.P.R.China,Beijing 100097,China)
An X-ray fluorescence spectrum quantitative detection models for five heavy metals(Cr,Cu,Zn,Pb and As)in soil were established based on support vector machine.The experiment results showed that the model had a significant correlation;the predicted values were close to the reference values,which indicated a good modeling effect for predicting heavy metals in soil.
X-ray fluorescence;heavy metal;support vector machine;genetic algorithm
國家公益性行業(yè)(農(nóng)業(yè))科研專項(xiàng)項(xiàng)目農(nóng)產(chǎn)品產(chǎn)地重金屬污染安全評估技術(shù)與設(shè)備開發(fā)(201403014-04)資助。
李芳,女,1989年出生,2015年于吉林大學(xué)獲碩士學(xué)位,研究領(lǐng)域:農(nóng)產(chǎn)品安全,E-mail:viki2069@126.com。
10.3936/j.issn.1001-232x.2016.04.015
2016-02-29