張正風
徐州生物工程職業(yè)技術學院信息中心,江蘇 徐州 221006
基于LS-SVM苯乳酸發(fā)酵過程的建模
張正風
徐州生物工程職業(yè)技術學院信息中心,江蘇 徐州 221006
為了解決苯乳酸發(fā)酵過程中關鍵生物參數難以直接在線檢測的問題,提出了基于最小二乘支持向量機(LS-SVM)的軟測量建模方法.通過使用徑向基核函數來對菌體濃度、苯乳酸濃度建立模型,對建模的理論進行了分析和并進行了仿真研究,同時還采用支持向量機對過程進行了建模,對兩種方法的優(yōu)缺點進行了比較.結果表明,基于LS-SVM的建模方法預測精度高、跟蹤性能好,能提高在線預估的效率,非常適合于苯乳酸發(fā)酵過程的在線預估.
發(fā)酵;建模;徑向基核函數;支持向量機;最小二乘支持向量機
苯乳酸是近幾年才開始研究的一種新型高效生物防腐劑,它的發(fā)酵過程與其他生化反應一樣,具有非線性和不確定性的特點.要想掌握苯乳酸的發(fā)酵過程,并且對其進行進一步的優(yōu)化和控制,就要能夠獲得充足的發(fā)酵環(huán)節(jié)數據.在線測定發(fā)酵過程的重要狀態(tài)信息,在目前常用的測量條件和儀器下,難度較大,甚至幾乎是不可能的.因此,離線化驗一直是目前測定菌體濃度、基質濃度和產物濃度等的最常用方法.然而離線測定有很多缺點,比如測量結果滯后,限制了過程優(yōu)化控制方案的實施.
國內對苯乳酸的研究剛起步,目前關于苯乳酸的研究成果大多集中于苯乳酸的乳桿菌株的篩選[1],有關其發(fā)酵工藝的研究很少.苯乳酸發(fā)酵生產過程可持續(xù)20~100 h不等[2],在整個過程中,菌體和產物濃度不斷變化,互相影響和抑制.這導致人們對其發(fā)酵過程認識不足,不能精確地進行過程控制,因此,要在估算方法和估算精度上下功夫.本文采用基于LS-SVM的軟測量技術來改善估算方法,對苯乳酸發(fā)酵的生產過程進行建模研究.
最小二乘支持向量機(LS-SVM)是在標準支持向量機(SVM)的基礎上提出的一種擴展和改進算法[3].標準SVM算法用求解二次規(guī)劃的方法,力爭在現(xiàn)有的有限采樣數據的條件下推出最優(yōu)的結果,而且SVM擁有很多優(yōu)良的特性,如不存在局部最小問題,以及強大的小樣本學習和泛化能力.但是隨著樣本數據規(guī)模的增大,相應的二次規(guī)劃問題會變得非常復雜,一個直接的問題就是導致了計算速度會越來越慢.LS-SVM通過一個線性方程組來進行相應的訓練,有嚴格的數學理論支撐,優(yōu)勢相當明顯,算法精度高,速度快,且易于實現(xiàn),因而在模式識別和非線性建模領域的應用度較高[4].
設有如下訓練樣本集,其中為n維的樣本輸入向量,為相應的樣本輸出,n為樣本數目.構造如式(1)所形式的函數來擬合樣本[5]:
其中,ω∈Rn,是原始空間的權向量,b是偏差量,并且使用非線性映射φ(·):Rn→H將原來的輸入空間Rn映射到高維Hilbert空間φ(x),特征空間的維數不固定,有可能為無窮維.此函數的目的是求解滿足條件的ωt和b.利用結構風險最小化原則,降低學習機器的VC維,LS-SVM回歸預測可以表示為如式(2)所示的約束優(yōu)化問題[6]:
約束條件:yi=φ(xi)·ω+b+ξi,i=1,...,k.
其中ωt、ω用來控制模型的復雜度,c(c>0)表示函數的平滑過渡和允許誤差大于x的數值之間的折衷值[6].采用線性回歸的方法,相應的損失函數就是平方損失函數,也就是計算誤差ξ的平方和來作為度量和調整因選擇不同參數導致的損失.
求解這個優(yōu)化的問題可以用拉格朗日法:
對式(3)的變量(ω,b)求偏導[7],進一步得到優(yōu)化條件:
根據式(4)可以得到:
定義滿足Mercer條件的線性核函數K(xi,yj)=φ(xi)·φ(xj),該核函數的作用是用來替代內積,再對其進一步進行隱式非線性變換,從而順利地解決了維數災難問題[8].根據式(5),優(yōu)化問題最終演變?yōu)榉蔷€性模型:
通過推導可知,把待求解的優(yōu)化問題轉化為線性方程的求解問題,因此,優(yōu)化問題的算法復雜度就大大的降低.根據推導過程還能看出,LS-SVM需要預先確定的參數為正則化參數C和核函數參數δ,而對于標準的SVM算法,以RBF核函數為例,標準SVM的參數為ε、C、δ三個,因此LS-SVM算法需要預先確定的參數少,這也體現(xiàn)了LS-SVM算法的可操作性更強.
使用LS-SVM來進行苯乳酸發(fā)酵過程的建模,可測變量X通常為溶氧量、pH值、溫度、攪拌功率、發(fā)酵液體積等;輸入變量u為通氣量、熱水流速、冷水流速等;可測輸出變量為CO2濃度、反應熱量等;不可測量變量主要包括:菌體濃度、苯乳酸濃度、基質濃度[9].
輸入變量的選擇是直接影響軟測量結果的重要因素,因此要在各個輸入變量中找出與模型關系非常直接和重要的一組輸入變量作為LS-SVM測量模型的輸入參數,不可測變量作為軟測量模型的輸出,使用不同的參數來實現(xiàn)輸入輸出的非線性函數關系.
在用神經網絡和向量機建立菌體濃度估計模型時,劉毅[9]、張蓓[10]等人的研究表明,由于微生物生長速率和氧氣消耗量有很大關系,所以最重要的輔助變量是溶氧利用率DO(t).同時發(fā)酵底物和發(fā)酵產物還將產生比較明顯的抑制作用,這里選擇在t時刻實際物理意義較大的苯乳酸濃度P(t)、基質濃度K(t)和菌體濃度W(t)納入輸入變量中.另外,為了減小建模的復雜度,不采用變化量較小的溫度以及pH值這兩個變量.
除了輸入參數的選擇外,在支持向量機研究領域,另一個要事先確定的重要問題是模型選擇.本文使用RBF核函數來進行LS-SVM的建模,RBF核函數輸入參數有正則化參數C和核函數參數δ兩個參數,為了得到最佳模型選擇,要力爭尋找到最佳的參數搭配.使用最小二乘支持向量機的一個非常明顯的優(yōu)勢就是求解速度快,所以可以很快的對數據進行訓練.首先確定正則化參數集SC= {C1,C2,…,Cn}和核參數Sδ={δ1,δ2,…,δn},再對這些核函數輸入參數集分別進行組合,使用組合參數對LS-SVM進行反復訓練,最后用確認集對參數的選擇進行篩選和優(yōu)化,從而選出最佳參數組合作為使用LS-SVM進行苯乳酸發(fā)酵建模模型的最終參數.
苯乳酸發(fā)酵過程在5L生物發(fā)酵罐中進行,建模過程中所使用的數據都是來自發(fā)酵過程中的實際采樣數據,由于其生產規(guī)模小,采樣間隔時間較長,所以發(fā)酵實驗獲取到的原始數據量比較少,為了彌補這個缺陷,根據生物發(fā)酵過程兩次采樣之間的數據變化不大的特點,使用3次平滑樣條插值擬合[11]的方法來適當填充丟失的實驗數據.通過以上的數據測量和平滑補差,得到了用于發(fā)酵實驗建模的數據集合.
因為待用的建模數據尺度不統(tǒng)一,不同的數據可能有數量級上的差距,如果直接計算,大數的變化會掩蓋小數的變化,使其不能反映小的測量值的變化,同時,收斂速度也比較慢.所以在得到實驗數據之后,還要對數據進行歸一化處理.數據歸一化主要有兩種方法[12],一是把數據變?yōu)椋?,1)之間的小數,另一個方法是把有綱量表達式變?yōu)闊o綱量表達式.經過歸一化處理后,數據就變得更容易訓練和學習.
本次實驗一共采集10個批次的發(fā)酵數據,每個完整的發(fā)酵批次時間跨度30 h,任意選擇8個批次用于軟測量模型誤差的最小訓練,其余2批作為測試集對模型進行檢驗,對菌體濃度、苯乳酸濃度分別使用SVM和LS-SVM兩種方法進行建模預測.在不同批次樣本數據下,LS-SVM和SVM建模性能的比較見表1.
在對菌體濃度的預測中,LS-SVM方法選擇的
表1 LS-SVM與SVM預測性能比較Tab.1 Comparison of prediction performance of LS-SVM and SVM
參數為:C90=15 500,δ90=1.50;C130=15 000,δ130=1.70.SVM方法參數選擇均為:C=1 000,ε= 0.000 1,σ=0.5.在對苯乳酸濃度的預測中,LS-SVM的模型參數為:C100=16 500,δ100=1.34;C150=16 000,δ150=1.55,SVM模型的參數均選擇為:C=2 000,ε=0.000 1,σ=0.5.圖1和圖2分別是部分數據的訓練結果和測試結果.
圖1 LS-SVM模型的訓練曲線Fig.1 Training curve of LS-SVM model
圖2 LS-SVM模型的測試曲線Fig.2 Test curve of LS-SVM model
3.2建模結果分析
表1是在同樣的訓練集以及訓練條件下,采用LS-SVM與SVM算法的預測性能比較,文中采用了訓練時間和均方差作為衡量建模效果優(yōu)劣的兩個指標.圖1和圖2分別是對菌體濃度和苯乳酸濃度預測的訓練曲線和預測曲線.從圖1和圖2可以看出,通過定義合理的參數,LS-SVM能夠把誤差控制在一個合理的范圍內,也使LS-SVM算法具有了相當高的擬合精度和泛化能力.繼續(xù)觀察和分析表1的數據可以看出,同樣的樣本數下,LS-SVM模型訓練需要的時間更少,效率更高;通過均方差比較可以看出,兩種算法的均方差都控制在非常低的水平,說明實驗的數據精度都較高.
苯乳酸發(fā)酵過程各個變量之間相互制約,是一個高度非線性的過程.本文使用LS-SVM算法,對苯乳酸發(fā)酵過程進行仿真建模,并且和SVM算法進行比較.通過數據和圖表等實驗結果表明,LS-SVM是一種十分有效的仿真算法,該算法預測精度高、跟蹤性能好,并且能大幅提高在線預估的效率,適合于對苯乳酸發(fā)酵過程的建模,并且對于其他類似的需要在線預估的場合,該方法也有一定的參考價值.
[1] 高學金,王普,孫崇正,等.基于動態(tài)SVM的發(fā)酵過程建模[J].儀器儀表學報,2006,27(11):1497-1500. GAO X J,WANG P,SUN C Z,et al.Modeling of fermentation process based on dynamic SVM[J].Chinese journal of scientific instrument,2006,27(11):1497-1500.
[2]李興峰,江波.乳酸菌來源的苯乳酸及其對食源性致病菌的抑菌活性[J].中國食品學報,2014,35(3):250-253. LI X F,JIANG B.Lactic acid bacteria from lactic acid bacteria and their antimicrobial activity against food borne pathogens[J].Journal of Chinese institute of food science and technology,2014,35(3):250-253.
[3] 閻威武,朱宏棟,邵惠鶴.基于最小二乘支持向量機的軟測量建模[J].系統(tǒng)仿真學報,2003(10):189-191. YAN W W,ZHU H D,SHAO H H.Soft sensor modeling based on least square support vector machine[J].Journal of system simulation,2003(10):189-191.
[4] 黃麗,孫玉坤,嵇小輔,等.基于tPSO-BPNN的賴氨酸發(fā)酵軟測量[J].儀器儀表學報,2010,31(14):2317-2320. HANG L,SUN Y K,JI X F,et al.Soft sensing of lysine fermentation based on tPSO-BPNN[J].Chinese journal of scientific instrument,2010,31(14):2317-2320.
[5]SUN J,F(xiàn)ENG B,XU W B.Particles swam optimization with particles having quantum behavior[C].USA:Proceedings of IEEE conference on evolutionary computation,2004(1):325-331.
[6] 田雨波.混合神經網絡技術[M].北京:科學出版社,2009.
[7]陳凱,張靜怡.基于RBF網絡的傳動滾筒測溫系統(tǒng)[J].儀表技術與傳感器,2011(9):56-58. CHEN K,ZHANG J Y.Temperature measurement system of transmission roller based on RBF network[J]. Instrument technique and sensor,2011(9):56-58.
[8]袁曉芳,王耀南.基于混沌優(yōu)化算法的支持向量機參數選取方法[J].控制與決策,2006,21(1):111-117. YUAN X F,WANG Y N.Parameter selectionof support vector machine based on chaos optimization algorithm [J].Control and decision,2006,21(1):111-117.
[9]劉毅,王海清.采用最小二乘支持向量機的青霉素發(fā)酵過程建模研究[J].生物工程學報,2006,22(5):144-149.
LIU Y,WANG H Q.Modeling of penicillin fermentation process using least square support vector machine[J]. Chinese journal of biotechnology,2006,22(5):144-149.
[10]張蓓,熊明勇,張克旭.人工神經網絡在發(fā)酵工業(yè)中的應用[J].生物技術通訊,2003,14(1):74-76. ZHANG B,XIONG M Y,ZHANG K X.Application of artificial neural network in fermentation industry[J]. Letters in biotechnology,2003,14(1):74-76.
[11]AN S,LIU W,VENKATESH S.Fast cross-validation algorithms for least squares support vector machine and kernel ridge re-gression[J].Pattern recognition,2007,40(8):2154-2162.
[12]周兆勇,汪西莉,曹燕龍.基于GA優(yōu)選參數的SVM水質評價方法研究[J].計算機工程,2008,44(4):190-193.
ZHOU Z Y,WANG X L,CAO Y L.Study on SVM waterquality evaluation methodbased on GA optimization parameter[J].Computer engineering,2008,44(4):190-193.
本文編輯:張瑞
Modeling of Phenyllactic Acid Fermentation Process Based on Least Square Support Vector Machine
ZHANG Zhengfeng
Information Center of Xuzhou Vocational College of Bioengineering,Xuzhou 221006,China
To solve the difficulties of online measurement for crucial biological variables in the phenyllactic acid fermentation process,a soft sensor modeling method was proposed based on the least squares support vector machine(LS-SVM),and the model for concentration of mycelium and phenyllactic acid was built by kernel of Radial Basis Function.Theoretical analysis and simulation study of the modeling was investigated,and a second modeling process was constructed by the support vector machine.Finally,the effects of the two methods modeling were compared.The results show that the modeling method based on the LS-SVM has the advantages of accuracy predition,good tracking performance,improving efficiency of on-line predition,which is very suitable for the on-line estimation of the phenyllactic acid fermentation process.
fermentation;modeling;kernel of Radial Basis Function;SVM;LS-SVM
張正風,碩士,講師.E-mail:4508454@qq.com
TQ92
A
10.3969/j.issn.1674-2869.2016.04.005
1674-2869(2016)04-0333-04
2016-04-11
徐州生物工程職業(yè)技術學院科研課題項目(2014B04);第二期江蘇省職業(yè)教育教學研究課題項目(ZY94)