曲 健,陳紅巖,劉文貞,李志彬,張 兵,應(yīng)亞宏
(中國計(jì)量學(xué)院機(jī)電工程學(xué)院,杭州 310018)
?
基于改進(jìn)網(wǎng)格搜索法的支持向量機(jī)在氣體定量分析中的應(yīng)用
曲 健,陳紅巖*,劉文貞,李志彬,張 兵,應(yīng)亞宏
(中國計(jì)量學(xué)院機(jī)電工程學(xué)院,杭州 310018)
針對(duì)氣體定量分析中,支持向量機(jī)建模的參數(shù)難以確定以及現(xiàn)有的方法歷時(shí)長(zhǎng)等問題,提出了一種改進(jìn)的網(wǎng)格搜索法,用于建立基于紅外光譜的CO2氣體定量分析模型。通過對(duì)汽車尾氣中CO2氣體的初始數(shù)據(jù)進(jìn)行優(yōu)化,再將優(yōu)化的核函數(shù)代入支持向量機(jī)進(jìn)行濃度的回歸分析。對(duì)濃度范圍在0.025%~20%的20組不同濃度的CO2氣體進(jìn)行定量分析,并與PSO算法作對(duì)比。實(shí)驗(yàn)表明,采用改進(jìn)的網(wǎng)格搜索法獲得的最佳參數(shù)c=0.25,g=2.828 4,PSO獲得的最佳參數(shù)c=18.302 1,g=0.01,所用時(shí)間比PSO算法節(jié)省約5倍。預(yù)測(cè)結(jié)果誤差在5%以內(nèi),符合國家對(duì)尾氣排放的相關(guān)標(biāo)準(zhǔn)。
傳感器應(yīng)用;支持向量機(jī);網(wǎng)格搜索;定量分析;紅外光譜
機(jī)動(dòng)車尾氣排放已經(jīng)成為污染環(huán)境的重要因素,尾氣排放的氣體主要有CO、NO、CO2、HC化合物等。CO2是溫室氣體,過量排放將嚴(yán)重影響我們的生活環(huán)境。在CO2氣體定量分析方法中,主要采用紅外吸收法,但由于傳感器元器件的老化、溫度的變化、供電電壓的波動(dòng)等因素,導(dǎo)致測(cè)量的精度不是很高,無法對(duì)汽車尾氣排放進(jìn)行有效的檢測(cè)和監(jiān)督。
提高氣體測(cè)量精度的方法主要有人工神經(jīng)網(wǎng)絡(luò)[1-2](ANN)方法和支持向量機(jī)[3-5](SVM)方法等。其中,劉建國[1]等人將RBF神經(jīng)網(wǎng)絡(luò)應(yīng)用到可燃混合氣體的分析中,克服了傳感器陣列在混合氣體檢測(cè)中的交叉敏感現(xiàn)象;金翠云[6]等利用粒子群優(yōu)化算法對(duì)支持向量機(jī)進(jìn)行參數(shù)優(yōu)化,并應(yīng)用于電子鼻氣體定量分析中,得到了最優(yōu)參數(shù)組合進(jìn)一步提高了預(yù)測(cè)精度;Manouchehrian Amin[7]等運(yùn)用基于遺傳算法尋優(yōu)方法的支持向量機(jī),建立回歸模型,預(yù)測(cè)巖石的強(qiáng)度和可變性屬性;陳媛媛[8]等研究粗糙集核優(yōu)化的SVM,應(yīng)用到多組分污染氣體定量分析中,使預(yù)測(cè)精度和運(yùn)算時(shí)間有所提高;付華[9]等利用MPSO優(yōu)化的基于柯西分布加權(quán)的最小二乘支持向量機(jī)(CWLS-SVM)算法來預(yù)測(cè)非線性動(dòng)態(tài)瓦斯涌出量,有效的提高了瓦斯涌出量的預(yù)測(cè)精度,降低了預(yù)測(cè)誤差。神經(jīng)網(wǎng)絡(luò)算法的收斂性及預(yù)測(cè)的準(zhǔn)確度受初始權(quán)值和閥值的選擇影響很大,因此輸出具有不一致性,容易陷入局部極小值,而支持向量機(jī)算法可以有效地避免上述問題。
本文以SVM為基礎(chǔ)對(duì)濃度范圍在0.025%~20%的20組CO2氣體樣本進(jìn)行定量分析,選取其中15組樣本作為訓(xùn)練集,建立SVM回歸模型,并對(duì)訓(xùn)練集進(jìn)行預(yù)測(cè)分析,以檢測(cè)模型的準(zhǔn)確度;選擇剩余的5組氣體樣本作為驗(yàn)證集,驗(yàn)證模型的預(yù)測(cè)精度和水平。在SVM參數(shù)的選取問題上,提出了改進(jìn)的網(wǎng)格搜索法參數(shù)尋優(yōu)。
SVM[10]算法是根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則[11]設(shè)計(jì)的一種統(tǒng)計(jì)學(xué)習(xí)理論,具有小樣本學(xué)習(xí)能力強(qiáng)、模型推廣性能好以及高維數(shù)據(jù)處理能力強(qiáng)等優(yōu)點(diǎn)。SVM回歸校正模型,就是利用SVM核函數(shù),將CO2紅外光譜輸入數(shù)據(jù)利用非線性映射Φ,映射到高維空間,然后在高維空間進(jìn)行回歸分析,建立紅外光譜數(shù)據(jù)與待測(cè)CO2氣體濃度的回歸校正模型。
本文將已知濃度的CO2樣本作為訓(xùn)練集T={(x1,y1),…,(xN,yN)}∈(Rn×R)N,其中xi∈Rn為第i個(gè)待測(cè)CO2氣體樣本,xi=(x1,x2,…,xL)為在掃描波長(zhǎng)范圍內(nèi)L個(gè)光譜數(shù)據(jù),yi∈R為對(duì)應(yīng)的待測(cè)CO2氣體濃度值,i=1,2,…,N。在高維空間需要求解的光譜與待測(cè)CO2氣體濃度的回歸函數(shù)f(xi)可表示為如下形式:
f(xi)=ω·φ(xi)+b
(1)
式中:ω·φ(xi)為向量ω與φ(xi)的內(nèi)積;ω為回歸系數(shù),b為閥值。
在此引入松弛變量ξ,ξ*≥0來求解ω與b,根據(jù)SRM準(zhǔn)則,將式(1)轉(zhuǎn)換為凸二次規(guī)劃問題:
(2)
s.t. ±[yi-ω·φ(xi)-b]≤ε+ξi,i=1,2,…,N
(3)
式中:C為懲罰參數(shù),ε為回歸函數(shù)結(jié)果與待測(cè)氣體樣本的誤差精度。
引入Lagrange函數(shù)求解式(2),通過核函數(shù)k(xi,xj)將高維空間的內(nèi)積運(yùn)算轉(zhuǎn)換在原二維空間計(jì)算,有:
(4)
得到的SVM回歸校正模型的回歸函數(shù)為:
(5)
式中:若αi不為零或者αi不為零,表示此樣本即為支持向量。
常用的核函數(shù)有線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基(RBF)核函數(shù)、Sigmoid
核函數(shù)。由于Gauss函數(shù)能較好的模擬光譜信號(hào),所以本文選用RBF核函數(shù)。其表達(dá)式如下:
K(xi,xj)=exp(-g‖xi-xj‖2),g>0
(6)
式中:參數(shù)g為gamma參數(shù)函數(shù)設(shè)置(若k為屬性的數(shù)目,則g默認(rèn)為1/k)。
SVM的回歸模型的建立需要進(jìn)行參數(shù)的優(yōu)選,主要是選擇參數(shù)c和g。網(wǎng)格搜索法[12]的基本原理是讓c和g在一定的范圍劃分網(wǎng)格并遍歷網(wǎng)格內(nèi)所有點(diǎn)進(jìn)行取值,對(duì)于取定的c和g利用K-CV[13]方法得到在此組c和g下訓(xùn)練集驗(yàn)證分類準(zhǔn)確率,最終選擇使訓(xùn)練集交叉驗(yàn)證分類準(zhǔn)確率最高的那組c和g作為最優(yōu)參數(shù)組合。這種傳統(tǒng)方法,如果采用較小的步長(zhǎng),會(huì)使得優(yōu)化時(shí)間過長(zhǎng),采用較大的步長(zhǎng)又可能陷入局部最優(yōu)。而改進(jìn)的網(wǎng)格搜索法,首先,在較大范圍內(nèi)采用大步距進(jìn)行粗搜,選擇使分類準(zhǔn)確率最高的一組c和g。在尋得了局部最優(yōu)參數(shù)之后,再在這組參數(shù)附近選擇一個(gè)小區(qū)間,采用傳統(tǒng)方法中的小步距進(jìn)行二次精搜,找到最終的最優(yōu)參數(shù)。具體的尋優(yōu)過程如圖1所示。
圖1 改進(jìn)網(wǎng)格搜索尋優(yōu)流程圖
本實(shí)驗(yàn)采用不分光紅外法(NDIR)對(duì)CO2濃度進(jìn)行檢測(cè)。經(jīng)過MCU調(diào)制的紅外光源通過一定長(zhǎng)度的氣室內(nèi),氣室中充有待測(cè)濃度的CO2氣體。由于CO2對(duì)紅外線波段中特征波長(zhǎng)紅外線能量的吸收,特定波長(zhǎng)的光源通過氣體后,在相應(yīng)譜線處會(huì)發(fā)生光強(qiáng)的衰減,紅外線的能量將減少,探測(cè)器檢測(cè)剩余的光強(qiáng)度并轉(zhuǎn)化為電信號(hào),放大濾波后作為模型的輸入。整個(gè)測(cè)試系統(tǒng)的原理如圖2所示。
圖2 NDIR測(cè)試系統(tǒng)原理圖
圖2中,檢測(cè)系統(tǒng)的核心部件—傳感器,包括進(jìn)氣口、出氣口、光源、氣室、探測(cè)器和信號(hào)處理電路等部分。如圖3所示。
圖3 傳感器裝置實(shí)物圖
以標(biāo)準(zhǔn)濃度在0.025%~20%之間的20組CO2氣體作為實(shí)驗(yàn)樣氣,對(duì)標(biāo)準(zhǔn)濃度進(jìn)行歸一化處理,便是模型的期望輸出。選擇濃度為0.025、0.12、0.23、0.46、0.62、1.05、2.00、4.02、5.04、6.03、8.09、10.01、14.10.16.20、20.20的15組樣本為訓(xùn)練集,建立SVM模型并查看模型在訓(xùn)練集上的回歸效果;選擇濃度為0.82、2.99、7.06、12.03、18.30的5組樣本為測(cè)試集,用建立好的模型對(duì)測(cè)試集進(jìn)行回歸預(yù)測(cè),并驗(yàn)證SVM模型的預(yù)測(cè)精度和水平(詳情見表一)。模型的建立需要找到最優(yōu)的懲罰參數(shù)c和RBF核參數(shù)g,本文采用改進(jìn)的網(wǎng)格搜索法進(jìn)行參數(shù)尋優(yōu)的實(shí)驗(yàn)過程如下:
①設(shè)定初始網(wǎng)格搜索的(c,g)范圍和步距。國際上對(duì)于(c,g)的范圍并沒有明確的限定,但過高的c會(huì)引起模型的過學(xué)習(xí),所以本實(shí)驗(yàn)設(shè)定的初始范圍c為-8~8(取以2為底的冪指數(shù)后),g為-8~8。由于進(jìn)行粗略參數(shù)選擇,目的是找到參數(shù)的大概位置,步距設(shè)為2。
②采用交叉驗(yàn)證的方法,其中交叉驗(yàn)證折數(shù)K取5,得到使分類準(zhǔn)確率最高的局部最優(yōu)參數(shù),c=4,g=0.0625。
③在得到的局部最優(yōu)參數(shù)的附近,重新定義搜索范圍和步距,其中c為-6~-2,g為-4~4,步距為0.5。進(jìn)行精細(xì)化選擇,二次尋優(yōu)的結(jié)果如圖4所示。
選定好最優(yōu)參數(shù)組合(c,g)后,對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,建立SVM回歸模型,之后對(duì)測(cè)試集進(jìn)行回歸分析。
圖4 參數(shù)選擇結(jié)果視圖
在訓(xùn)練集上驗(yàn)證模型的回歸效果,結(jié)果顯示均方差為0.001 98,相關(guān)系數(shù)為98.67%,說明模型的回歸分析能力是較好的,能夠很好地預(yù)測(cè)出標(biāo)準(zhǔn)氣體樣本濃度。測(cè)試集樣本的實(shí)際濃度值和模型預(yù)測(cè)的濃度值對(duì)比圖如圖5所示,驗(yàn)證集樣本的實(shí)際濃度值和模型預(yù)測(cè)的濃度值對(duì)比圖如圖6所示。
圖5 訓(xùn)練集實(shí)際濃度和預(yù)測(cè)輸出對(duì)比圖
圖6 測(cè)試集實(shí)際濃度和預(yù)測(cè)輸出對(duì)比圖
由圖5可以看出利用訓(xùn)練集建立的模型對(duì)訓(xùn)練集本身做預(yù)測(cè)時(shí),效果是比較不錯(cuò)的;將模型應(yīng)用于測(cè)試集的預(yù)測(cè),效果明顯,曲線很好地逼近真實(shí)濃度,說明本實(shí)驗(yàn)建立的模型預(yù)測(cè)精度高,可以應(yīng)用于CO2氣體的回歸預(yù)測(cè)。
若采用PSO優(yōu)化算法[14],首先需要計(jì)算粒子的初始適應(yīng)度值和初始化局部最優(yōu)和全局最優(yōu),尋優(yōu)的流程如圖7所示,最終尋優(yōu)結(jié)果曲線如圖8所示。
圖7 PSO參數(shù)優(yōu)化流程圖
圖8 PSO尋優(yōu)結(jié)果圖
由圖8可以看到,最終優(yōu)選結(jié)果的粒子適應(yīng)度值基本上圍繞在0.05~0.25之間,相對(duì)比較集中。
通過實(shí)驗(yàn),可以得到兩種方法的尋優(yōu)結(jié)果對(duì)比,包括尋優(yōu)時(shí)間長(zhǎng)短、最終模型參數(shù)以及測(cè)試結(jié)果均方差大小,如表2所示。測(cè)試數(shù)據(jù)的仿真結(jié)果及平均絕對(duì)誤差如表1所示。
由表1、表2可以看出:兩種方法建立的氣體定量分析模型的測(cè)試誤差水平基本相當(dāng)。采用改進(jìn)的網(wǎng)格搜索法進(jìn)行參數(shù)尋優(yōu),參數(shù)c明顯小于PSO法,而過高的c容易引起模型的過學(xué)習(xí);尋優(yōu)時(shí)間約為PSO的1/5,均方誤差略高于PSO。犧牲一點(diǎn)準(zhǔn)確率而節(jié)省尋優(yōu)時(shí)間是可以接受的。因此應(yīng)用此方法建立氣體定量分析模型是有效可行的。改進(jìn)式網(wǎng)格搜索法算法實(shí)現(xiàn)簡(jiǎn)單、優(yōu)化率高,通過步距的調(diào)整縮短了尋優(yōu)時(shí)間,提高了收斂速度。
表1 仿真結(jié)果對(duì)比
表2 尋優(yōu)結(jié)果對(duì)比
本文將改進(jìn)的網(wǎng)格搜索法應(yīng)用于支持向量機(jī)的參數(shù)尋優(yōu),對(duì)濃度范圍在0.025%~20%的標(biāo)準(zhǔn)CO2氣體進(jìn)行定量分析,選取其中15組樣本作為訓(xùn)練集,建立了SVM回歸模型,并對(duì)訓(xùn)練集進(jìn)行預(yù)測(cè)分析,以檢測(cè)模型的準(zhǔn)確度;選擇剩余的5組氣體樣本作為驗(yàn)證集,驗(yàn)證模型的預(yù)測(cè)精度和水平。在SVM參數(shù)的選取問題上,提出了改進(jìn)的網(wǎng)格參數(shù)尋優(yōu)法,取得的最優(yōu)參數(shù)組合(c,g)為(0.25,2.828 4)。模型的仿真絕對(duì)誤差在5%以內(nèi),符合國家關(guān)于尾氣排放的檢測(cè)標(biāo)準(zhǔn),能夠滿足氣體測(cè)量的實(shí)際需求。與啟發(fā)式算法PSO相比,在誤差精度相差不大的情況下,尋優(yōu)時(shí)間明顯減少,因此,改進(jìn)的網(wǎng)格搜索法與SVM相結(jié)合在CO2氣體紅外光譜的定量分析建模中具有一定的發(fā)展?jié)摿屯诰蚩臻g。
[1] 劉建國,安振濤,張倩. 基于傳感器陣列的可燃混合氣體RBF網(wǎng)絡(luò)分析[J]. 裝備環(huán)境工程,2013,10(3):113-116.
[2]袁力哲,楊憲江,王宇. 基于自適應(yīng)遺傳BP算法的混合氣體定量檢測(cè)研究[J]. 儀表技術(shù)與傳感器,2013(6):118-120.
[3]喬聰明. PLS-SVR的三組分混合氣體定量分析[J]. 太原理工大學(xué)學(xué)報(bào),2014,45(1):120-122,127.
[4]林繼鵬,劉君華. 基于支持向量機(jī)的多組分氣體分析[J]. 西安交通大學(xué)學(xué)報(bào),2005,39(6):586-589.
[5]張其林. 基于支持向量機(jī)的紅外光譜混合氣體組分分析[J]. 計(jì)算機(jī)時(shí)代,2010(1):9-11.
[6]金翠云,崔瑤,王穎. 粒子群優(yōu)化的SVM算法在氣體分析中的應(yīng)用[J]. 電子測(cè)量與儀器學(xué)報(bào),2012,26(7):635-639.
[7]Manouchehrian Amin,Sharifzadeh Mostafa,Hamidzadeh,et al. Selection of Regression Models for Predicting Strength and Deformability Properties of Rocks Using GA[J]. International Journal of Mining Science and Technology,2013,23(4):495-501.
[8]陳媛媛,張記龍,李曉,等. 基于粗糙集核優(yōu)化的支持向量機(jī)在多組分污染氣體定量分析中的研究與應(yīng)用[J]. 光譜學(xué)與光譜分析,2010,30(12):3384-3387.
[9]付華,王馨蕊,楊本臣,等. 基于MPSO-CWLS-SVM的瓦斯涌出量預(yù)測(cè)[J]. 傳感技術(shù)學(xué)報(bào),2014,27(11):1568-1572.
[10]白鵬,劉君華. 基于多維光譜的多組分混合氣體濃度支持向量機(jī)算法[J]. 化工自動(dòng)化及儀表,2005,32(5):43-47.
[11]哈明虎,田景峰,張植明. 基于復(fù)隨機(jī)樣本的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則[J]. 計(jì)算機(jī)研究與發(fā)展,2009,46(11):1907-1916.
[12]王興玲,李占斌. 基于網(wǎng)格搜索的支持向量機(jī)核函數(shù)參數(shù)的確定[J]. 中國海洋大學(xué)學(xué)報(bào),2005,35(5):859-862.
[13]湯寶平,劉文藝,蔣永華. 基于交叉驗(yàn)證法優(yōu)化參數(shù)的Morlet小波消噪方法[J]. 重慶大學(xué)學(xué)報(bào),2010,33(1):1-6.
[14]付華,王馨蕊,王志軍,等. 基于PCA和PSO-ELM的煤與瓦斯突出軟測(cè)量研究[J]. 傳感技術(shù)學(xué)報(bào),2014,27(12):1710-1715.
Application of Support Vector Machine Based on Improved Grid Search in Quantitative Analysis of Gas
QUJian,CHENHongyan*,LIUWenzhen,LIZhibin,ZHANGBing,YINGYahong
(College of Mechanical and Electrical Engineering,China Jiliang University,Hangzhou 310018,China)
According to the difficult in selecting parameter of SVM when modeling on the gas quantitative analysis,and existing methods need long time,SVM optimized by improved grid search method was proposed to built an infrared spectrum quantitative analysis of gas. According to this method,the spectrum data of CO2in vehicle exhaust is optimized. The kernel function leads SVM and calcu-late the concentration. By using improved grid search and PSO to make the contr-ast,quantitatively analyzed 20 different concentrations of CO2in the concentration range between 0.025%~20%. The experiment results show that this method getsc=0.25,g=2.828 4,PSO getsc=18.302 1,g=0.01,the time of modeling by improved grid search was reduced to one fifth of that of PSO optimization. And the prediction error is less than 5%,in line with national standar-ds for exhaust emissions.
sensor application;SVM;grid search;quantitative analysis;infrared spectrum
曲 健(1989-),男,山東青島人,在讀研究生,主要研究方向?yàn)闄z測(cè)技術(shù),13645712326@163.com;
陳紅巖(1965-),男,浙江杭州人,教授,研究生導(dǎo)師,浙江大學(xué)內(nèi)燃機(jī)工程專業(yè)碩士、博士學(xué)位;上海交通大學(xué)動(dòng)力與機(jī)械工程專業(yè)博士后。主要研究領(lǐng)域?yàn)槠囯娮?、發(fā)動(dòng)機(jī)排放與控制等,bbchy@163.com。
2015-01-05 修改日期:2015-02-03
C:7230;4145
10.3969/j.issn.1004-1699.2015.05.027
TH744
A
1004-1699(2015)05-0774-05