戎 舟,李佳慶
(南京郵電大學(xué)自動(dòng)化學(xué)院,江蘇南京 210003)
?
稀疏LSSVM在4-CBA軟測(cè)量建模中的應(yīng)用
戎 舟,李佳慶
(南京郵電大學(xué)自動(dòng)化學(xué)院,江蘇南京 210003)
針對(duì)最小二乘支持向量機(jī)(LSSVM)缺失稀疏性問題,采用遺傳算法對(duì)其模型進(jìn)行稀疏化。算法思想如下:對(duì)LSSVM初始模型的核函數(shù)項(xiàng)進(jìn)行二進(jìn)制編碼,采用遺傳算法對(duì)二進(jìn)制串進(jìn)行尋優(yōu),將求得的最優(yōu)個(gè)體解碼,“1”代表選取該位置對(duì)應(yīng)樣本,“0”代表舍去該位置對(duì)應(yīng)的樣本,解碼求得的樣本集再次建模,重復(fù)上述稀疏過程,以每次測(cè)試樣本相對(duì)誤差的標(biāo)準(zhǔn)差為依據(jù),當(dāng)偏差率超過10%,則不再稀疏。將該算法應(yīng)用于4-CBA(4-羥基苯甲醛)軟測(cè)量建模過程,結(jié)果表明,采用遺傳算法進(jìn)行稀疏化的LSSVM模型,支持向量能稀疏70%左右,在保證預(yù)測(cè)精度的同時(shí),大大提升了模型的效率。
LSSVM;稀疏化;遺傳算法;軟測(cè)量
軟測(cè)量技術(shù)[1-2]源于20世紀(jì)70年代Brosilow等提出的推斷控制思想,發(fā)展至今,由于采用的理論工具和所針對(duì)的實(shí)際對(duì)象的不同,已形成多種軟測(cè)量方法[3]。支持向量機(jī)[4](support vector machine,SVM)是20世紀(jì)90年代由Vapnik等提出的一種基于統(tǒng)計(jì)學(xué)習(xí)理論的學(xué)習(xí)方法,它采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,具有小樣本學(xué)習(xí)能力強(qiáng)、模型泛化性能好、能夠處理高維數(shù)據(jù)的優(yōu)點(diǎn)。最小二乘支持向量機(jī)[5](Least Squares Support Vector Machine,LSSVM)則是基于SVM的一種改進(jìn)算法。與一般SVM不同的是,LSSVM采用最小二乘線性系統(tǒng)作為損失函數(shù),將傳統(tǒng)的SVM直接采用二次規(guī)劃方法解決分類和函數(shù)估計(jì)問題轉(zhuǎn)化為求解線性方程問題,降低了計(jì)算復(fù)雜性,提升了運(yùn)算速度。作為SVM方法的一個(gè)改進(jìn)型,LSSVM繼承了SVM方法的許多優(yōu)點(diǎn),但同時(shí)也失去了稀疏性。
針對(duì)LSSVM的稀疏性問題,文獻(xiàn)[6]提出通過修剪支持向量來實(shí)現(xiàn)對(duì)最小二乘支持向量的稀疏,但該方法必須先求出非稀疏解,解一系列線性方程組的根,增加了算法的復(fù)雜性。文獻(xiàn)[7]提出了一種基于特征提取的方法,該方法是將分布在原有特征中的分類信息集中到較少數(shù)量的特征中,以達(dá)到降低樣本維數(shù),實(shí)現(xiàn)稀疏化的過程,然而,該方法過分依賴于訓(xùn)練樣本集的選取,若所選子集并不能代表原始樣本數(shù)據(jù)的特性,將會(huì)影響最終預(yù)測(cè)的效果。文獻(xiàn)[8]提出通過在特征空間中尋找樣本的最大無關(guān)組來解決解的稀疏性問題。該方法對(duì)LSSVM參數(shù)的選取有著較高的要求,選取不當(dāng),將會(huì)影響最大無關(guān)向量的數(shù)目,從而對(duì)函數(shù)的擬合能力造成影響。
針對(duì)上述問題,本文采用遺傳算法(genetic algorithm,GA)來實(shí)現(xiàn)對(duì)LSSVM的稀疏化處理。算法在運(yùn)行時(shí),采用最優(yōu)個(gè)體保存策略,以保護(hù)每代優(yōu)良個(gè)體遺傳到下一代時(shí)不被破壞[9]。
1.1 遺傳算法簡(jiǎn)介
遺傳算法(Genetic Algorithm,GA)的思想最早是20世紀(jì)60年代由美國(guó)Michigan大學(xué)的Holland教授提出的[10]?;具z傳算法包括選擇、交叉、變異三種遺傳操作[11]。選擇操作常用的方法是輪盤賭法,該方法核心思想是個(gè)體被選擇概率與其適應(yīng)度值成正比,個(gè)體在群體環(huán)境中的適應(yīng)度值越大,則被選中的概率越大,其遺傳基因就越容易在種群中擴(kuò)大;交叉操作是遺傳算法的核心,對(duì)兩個(gè)不同個(gè)體相同位置上的基因進(jìn)行交換,從而產(chǎn)生新的個(gè)體,交叉操作概率一般選在0.4~0.9之間,過小會(huì)讓算法變得遲緩,過大則有可能會(huì)破壞優(yōu)良個(gè)體;變異操作是讓染色體上的某些基因按一定的變異概率發(fā)生變化,產(chǎn)生新的個(gè)體,變異概率一般選在0.001~0.1之間。
1.2 最小二乘支持向量機(jī)
(1)
將拉格朗日法引入上述優(yōu)化問題的求解,上述優(yōu)化問題則可轉(zhuǎn)化為如下的二次規(guī)劃問題:
(2)
根據(jù)KKT條件可得:
(3)
根據(jù)推導(dǎo)方程(3),消去其中的w和e可得如下方程:
(4)
定義核函數(shù)K(xi,xj)=φ(xi)·φ(xj),本文采用的核函數(shù)是徑向基核函數(shù)K(xi,xj)=exp{-||xi-xj||2/σ2},其中σ為核參數(shù)。根據(jù)上式方程,優(yōu)化問題可轉(zhuǎn)化為求解如下矩陣方程:
(5)
解上述矩陣方程,求得系數(shù)a與b,即可得如下LSSVM模型:
(6)
1.3 基于遺傳算法的LSSVM稀疏優(yōu)化過程
通過對(duì)GA算法以及對(duì)LSSVM稀疏性的分析,本文采用GA算法用于對(duì)LSSVM的多次稀疏化過程。對(duì)LSSVM模型中的核函數(shù)項(xiàng)進(jìn)行二進(jìn)制編碼,通過選擇、交叉、變異操作對(duì)種群中個(gè)體進(jìn)行篩選,多次迭代后產(chǎn)生最佳個(gè)體,解碼得出對(duì)應(yīng)的支持向量,將此支持向量作為新的訓(xùn)練樣本集,再次建立LSSVM模型。重復(fù)上述稀疏過程,直至測(cè)試樣本相對(duì)誤差標(biāo)準(zhǔn)差的偏差率超過10%。
單次稀疏過程是將當(dāng)前訓(xùn)練樣本建立LSSVM模型,對(duì)其預(yù)測(cè)模型中的核函數(shù)項(xiàng)進(jìn)行隨機(jī)二進(jìn)制編碼,產(chǎn)生初代種群,種群中的任一個(gè)個(gè)體即為一組核函數(shù)項(xiàng)K(x,xk)的隨機(jī)組合,其中,“1”代表選取該位置對(duì)應(yīng)樣本,“0”代表舍棄。采用遺傳算法對(duì)種群進(jìn)行尋優(yōu),取測(cè)試樣本誤差平方和的倒數(shù)作為適應(yīng)度函數(shù),將求得的最優(yōu)個(gè)體解碼,取得新的訓(xùn)練樣本集。將新的訓(xùn)練樣本集再次進(jìn)行LSSVM建模,算取測(cè)試樣本相對(duì)誤差的標(biāo)準(zhǔn)差,判斷是否再次稀疏。
LSSVM模型有兩個(gè)參數(shù):正則化參數(shù)c和核參數(shù)σ,它們的選取對(duì)模型有著極大的影響,因此在每次產(chǎn)生新的支持向量后都要對(duì)其進(jìn)行尋優(yōu)處理。本文采用的是網(wǎng)格搜索算法[13],首先,c和σ在[2-7,29]范圍上以步進(jìn)為1進(jìn)行粗搜,采用K-fold交叉驗(yàn)證方法評(píng)價(jià)各網(wǎng)點(diǎn)的性能,得到性能最好的兩個(gè)參數(shù)組合bestc0和bestσ0;然后c和σ分別在[bestc0/2,bestc0×2]及[bestσ0/2,bestσ0×2]范圍上以步進(jìn)為0.1再進(jìn)行細(xì)搜,最終最佳參數(shù)組合[bestc,bestσ]。
GA-LSSVM算法實(shí)現(xiàn)的具體步驟如下:
(1)采集所需樣本數(shù)據(jù),確定訓(xùn)練樣本集和測(cè)試樣本集;
(2)調(diào)用尋優(yōu)算法對(duì)正則化參數(shù)c和核參數(shù)σ進(jìn)行參數(shù)尋優(yōu);
(3)將訓(xùn)練樣本集進(jìn)行LSSVM建模,求出測(cè)試樣本相對(duì)誤差的標(biāo)準(zhǔn)差;
(4)對(duì)模型中的核函數(shù)項(xiàng)K(x,xk)進(jìn)行二進(jìn)制編碼,產(chǎn)生初始種群,采用GA算法,通過選擇、交叉、變異操作對(duì)種群中個(gè)體進(jìn)行篩選,多次迭代后得出最優(yōu)個(gè)體;
(5)將(4)中得到的最優(yōu)個(gè)體對(duì)照原訓(xùn)練樣本解碼,選取位置為“1”所對(duì)應(yīng)樣本,組成新的訓(xùn)練樣本;
(6)將新的訓(xùn)練樣本調(diào)用尋優(yōu)算法進(jìn)行參數(shù)尋優(yōu),然后對(duì)其再次建模得到新模型,用此模型對(duì)測(cè)試樣本集進(jìn)行預(yù)測(cè),算出相對(duì)誤差的標(biāo)準(zhǔn)差;
(7)求取相對(duì)誤差標(biāo)準(zhǔn)差的偏差率。若偏差率超過10%,稀疏過程終止,取上一次稀疏結(jié)果作為最終的LSSVM模型;否則返回步驟(4);
(8)用最終稀疏后的LSSVM模型對(duì)新樣本進(jìn)行預(yù)測(cè)和分析。
本文以某化纖廠PTA生產(chǎn)工藝為研究對(duì)象,對(duì)其中間產(chǎn)物4-CBA(4-羥基苯甲醛)的濃度建立LSSVM預(yù)測(cè)模型。4-CBA是PTA生產(chǎn)工藝中的主要有色副產(chǎn)物,也是PTA產(chǎn)品的重要質(zhì)量指標(biāo)。根據(jù)文獻(xiàn)[14]對(duì)PTA生產(chǎn)工藝的研究,4-CBA含量過低會(huì)增加PX(對(duì)二甲苯)的單耗,因此,為了節(jié)約能耗,必須保證其含量在某一特定范圍內(nèi)。但在實(shí)際的生產(chǎn)過程中,由于4-CBA無法在線實(shí)時(shí)分析,離線分析存在滯后時(shí)間,無法滿足控制要求,因此,需要對(duì)4-CBA的濃度建立較精確的軟測(cè)量預(yù)測(cè)模型。
本文根據(jù)現(xiàn)場(chǎng)經(jīng)驗(yàn)和過程機(jī)理選擇4-CBA軟測(cè)量建模的輸入變量分別為:反應(yīng)器液位、反應(yīng)器溫度、反應(yīng)器尾氧含量、反應(yīng)生成的CO2含量、反應(yīng)生成的CO含量、混合罐進(jìn)料流量、反應(yīng)氧化器進(jìn)料流量、催化劑濃度、第一結(jié)晶器溫度約束、第一結(jié)晶器的尾氧含量、第三冷凝器排出水量、第四冷凝器排出水量。
樣本的采集時(shí)間從2002年的9月到12月,選擇其中的200組數(shù)據(jù)作為初始樣本數(shù)據(jù)。將其中的前100組作為訓(xùn)練樣本,后100組作為測(cè)試樣本。采集2003年的100組數(shù)據(jù),用于最終稀疏后模型的分析。遺傳算法中的參數(shù)設(shè)置如下,其中,進(jìn)化的代數(shù)maxgen=20,種群的規(guī)模sizepop=100,交叉概率pcross=0.4,變異概率pmutation=0.1。
首先對(duì)100組初始訓(xùn)練樣本集建立LSSVM模型,采用徑向基核函數(shù),通過網(wǎng)格搜索算法[15]確定最優(yōu)的模型參數(shù)為c=256,σ=12.125 7。然后通過matlab編程對(duì)訓(xùn)練樣本集和測(cè)試樣本集分別進(jìn)行擬合和預(yù)測(cè)的仿真,擬合和預(yù)測(cè)圖如圖1所示。
圖1 原始樣本的真實(shí)值與輸出值之間比較
下面對(duì)初始模型的核函數(shù)項(xiàng)采用遺傳算法進(jìn)行稀疏處理。以每次稀疏后測(cè)試樣本預(yù)測(cè)相對(duì)誤差標(biāo)準(zhǔn)差的偏差率為判定依據(jù),來確定模型稀疏的次數(shù)。
第一次稀疏優(yōu)化得到的最優(yōu)個(gè)體bestchrom=[1011101101111010001010000110111101011111001101111011100011001001011001010101011110001011100001110111],其中,“0”項(xiàng)有42項(xiàng),占原核函數(shù)項(xiàng)的42%。第二次稀疏優(yōu)化后得到的最優(yōu)個(gè)體bestchrom=[110110010010010000001110111010001001111111001111011000101],其中,“0”項(xiàng)有28項(xiàng),占核函數(shù)項(xiàng)的48.3%。第三次稀疏優(yōu)化后得到的最優(yōu)個(gè)體bestchrom=[001010011011100000001010100000],其中,“0”項(xiàng)有20項(xiàng),占核函數(shù)項(xiàng)的66.7%,由于第三次稀疏后,測(cè)試樣本估計(jì)值相對(duì)誤差的標(biāo)準(zhǔn)差的偏差率超過10%,算法終止,為了保證模型的預(yù)測(cè)精度,稀疏次數(shù)選取為兩次,這樣原來的100項(xiàng)初始訓(xùn)練樣本最終可以優(yōu)化為30項(xiàng),稀疏率為70%。算法優(yōu)化過程中,每次稀疏后測(cè)試樣本估計(jì)值相對(duì)誤差的標(biāo)準(zhǔn)差變化趨勢(shì)圖如圖2所示。
圖2 測(cè)試樣本相對(duì)誤差標(biāo)準(zhǔn)差的變化趨勢(shì)
算法優(yōu)化過程中,將每次稀疏后測(cè)試樣本預(yù)測(cè)結(jié)果的參數(shù)值統(tǒng)計(jì),如表1所示。
表1 稀疏過程測(cè)試樣本預(yù)測(cè)結(jié)果的參數(shù)值比較
稀疏情況稀疏率/%均方誤差平均相對(duì)誤差相對(duì)誤差標(biāo)準(zhǔn)差稀疏前 00.17910.03720.0460第一次稀疏420.17780.03640.0461第二次稀疏700.19250.03850.0488第三次稀疏900.27420.05960.08386
從表1可以看出,和稀疏前相比較,不管是均方誤差、平均相對(duì)誤差,還是相對(duì)誤差標(biāo)準(zhǔn)差,第三次稀疏后的結(jié)果變化都很大,而前兩次變化不大,預(yù)測(cè)效果效果也較好。因此,綜合考慮,為了保證預(yù)測(cè)的精度,稀疏次數(shù)選取為2次,稀疏率為70%。
選取2003年的100組數(shù)據(jù)作為新樣本,用稀疏化后的新模型對(duì)其進(jìn)行預(yù)測(cè)分析,并與原始模型比較。通過matlab編程分別用原始模型和優(yōu)化后的模型對(duì)新樣本進(jìn)行預(yù)測(cè)仿真,預(yù)測(cè)圖如圖3所示。
圖3 分別針對(duì)原始模型和新模型的預(yù)測(cè)
從圖3可以看出,分別針對(duì)初始樣本點(diǎn)的原始模型和30個(gè)樣本點(diǎn)的新模型對(duì)新樣本點(diǎn)的預(yù)測(cè)都達(dá)到了很好的預(yù)測(cè)效果,而且兩次模型的預(yù)測(cè)結(jié)果很接近,均方誤差和平均相對(duì)誤差都很小。上述實(shí)驗(yàn)結(jié)果表明,采用遺傳算法進(jìn)行稀疏化的最小二乘支持向量機(jī)模型,在保證預(yù)測(cè)精度的同時(shí),支持向量能稀疏70%左右,可以大大提升模型的效率,且稀疏后的模型對(duì)新樣本點(diǎn)的預(yù)測(cè)效果很好。因此,GA-LSSVM稀疏算法是可行的。
本文針對(duì)LSSVM缺失稀疏性的問題,使用了一種基于最優(yōu)個(gè)體保存策略的遺傳算法。首先詳細(xì)地介紹了GA-LSSVM算法實(shí)現(xiàn)的原理,然后通過實(shí)際應(yīng)用驗(yàn)證和分析了該算法的可行性。實(shí)驗(yàn)結(jié)果表明,該算法對(duì)LSSVM支持向量的稀疏率可以達(dá)到70%左右,優(yōu)化后的模型對(duì)新樣本點(diǎn)的預(yù)測(cè)效果很好。為了同時(shí)兼顧稀疏率和預(yù)測(cè)效果,適應(yīng)度函數(shù)可以同時(shí)將這兩個(gè)因素加進(jìn)去,本文只考慮了預(yù)測(cè)精度,這也是今后要研究的方向。
[1] 劉瑞蘭,戎舟.工業(yè)PX氧化過程4-CBA含量的軟測(cè)量.信息與控制,2014,43(3):339-343.
[2] PENG X J,WANG Y F.A geometric method for model selection in support vector machine.Expert Systems With Applications,2008 (3).
[3] 王昕.軟測(cè)量技術(shù)及其在工業(yè)聚丙烯生產(chǎn)過程中的應(yīng)用:[學(xué)位論文].杭州:浙江大學(xué),2006.
[4] 馬勇,黃德先,金以慧.基于支持向量機(jī)的軟測(cè)量建模方法.信息與控制,2004,33(4):417-421.
[5] SUYKENS J A K,VANDEWALLE J.Least squares support vector machine classifiers.Neural Processing Letters,1999(3):293-300.
[6] SUYKENS J A K,LUKAS L,VANDEWALLE J.Sparse approximation using least squares support vector machines.Geneva,2000:11757-11760.
[7] 吳德會(huì).LS-SVM的非線性特征提取新方法及與PCA的關(guān)系研究.小型微型計(jì)算機(jī)系統(tǒng),2008,29(7):1296-1300.
[8] 甘良志,孫宗海,孫優(yōu)賢.稀疏最小二乘支持向量機(jī).浙江大學(xué)學(xué)報(bào)(工學(xué)版),2007,41(2):245-248.
[9] 孟麗,許峰.基于基因庫的最優(yōu)個(gè)體保存遺傳算法.軟件導(dǎo)刊,2009,8 (7):45-47.
[10] 陳根社,陳新海.遺傳算法的研究與進(jìn)展.信息與控制,1994,23(4):215-222.
[11] 吳寧川.遺傳算法和神經(jīng)網(wǎng)絡(luò)在常減壓蒸餾裝置監(jiān)控中的應(yīng)用:[學(xué)位論文].北京:北京化工大學(xué),2002.
[12] 閻威武,朱宏棟,助惠鶴.基于最小二乘SVM的軟測(cè)量建模.系統(tǒng)仿真學(xué)報(bào),2003:1494-1496.
[13] 王健峰.基于改進(jìn)網(wǎng)格搜索法SVM參數(shù)優(yōu)化的說話人識(shí)別研究:[學(xué)位論文].哈爾濱:哈爾濱工程大學(xué),2012.
[14] 王麗軍,張宏建,李希.PTA生產(chǎn)中4-CBA濃度的影響因素分析和軟測(cè)量.合成纖維工業(yè),2005(6):1-4.
[15] 劉瑞蘭.軟測(cè)量技術(shù)的若干問題的研究及工業(yè)應(yīng)用:[學(xué)位論文].杭州:浙江大學(xué),2004.
Application of Sparse LSSVM in Soft Sensor Modeling of 4-CBA
RONG Zhou,LI Jia-qing
(College of Automation, Nanjing University of Posts and Telecommunications, Nanjing 210023,China)
For the least squares support vector machine (LSSVM) missing sparsity problem, the genetic algorithm (GA) was used for sparse model. Idea was as follows: use binary coding method to code the kernals of initial LSSVM model. Then, GA was used to screen the binary strings. Decode the best individual. “1” represents selecting corresponding position’s sample and "0"represents truncating. Model again by the new sample. Repeat the above process . The algorithm is based on the standard of testing sample’s relative error. When deviation rate of that is more than 10%, sparse operations end. The algorithm can be applied in soft sensor modeling of 4-CBA. The actual application result indicates that the sparse rate of support vectors of LSSVM model can reach about 70 percents. The algorithm improves the efficiency of model greatly without lowering the prediction precision.
LSSVM; sparse; GA; soft sensor
國(guó)家自然科學(xué)基金資助項(xiàng)目(61203213,11202107)
2015-02-11 收修改稿日期:2015-07-05
TP18
A
1002-1841(2015)12-0088-04
戎舟(1970—),副教授,碩士生導(dǎo)師,研究領(lǐng)域?yàn)闊o線傳感器網(wǎng)絡(luò),虛擬儀器及網(wǎng)絡(luò)化測(cè)控技術(shù)、通信協(xié)議一致性測(cè)試技術(shù)等。