嵇小輔,張孟堯,王博,黃麗
(江蘇大學(xué) 電氣信息工程學(xué)院,江蘇 鎮(zhèn)江212013)
賴氨酸發(fā)酵過程是一個(gè)多變量、非線性、強(qiáng)耦合的復(fù)雜動(dòng)態(tài)過程 .目前使用的測(cè)量方法主要是在線取樣,離線分析的方法,存在較大的測(cè)量延時(shí),難以實(shí)施在線實(shí)時(shí)控制,同時(shí)在線取樣容易引入人為污染,降低發(fā)酵過程品質(zhì).在現(xiàn)有技術(shù)條件下,一些直接反映發(fā)酵品質(zhì)的基質(zhì)濃度、菌體濃度、產(chǎn)物濃度等關(guān)鍵生物量參數(shù)目前還缺乏在線實(shí)時(shí)測(cè)量的儀器與手段,成為制約在線控制的技術(shù)瓶頸.軟測(cè)量是利用在線可測(cè)的輔助變量對(duì)難以在線測(cè)量的主導(dǎo)變量進(jìn)行在線估計(jì)的技術(shù),是解決生物反應(yīng)過程測(cè)量瓶頸的有效途徑.生物反應(yīng)過程的軟測(cè)量建模有很多方法,大體可分為機(jī)理建模、黑箱建模和混合建模三大類.黑箱建模是基于過程數(shù)據(jù),采用數(shù)據(jù)擬合回歸方法建立軟測(cè)量模型.文獻(xiàn)[1-4]分別提出了采用標(biāo)準(zhǔn)支持向量機(jī)(SVM)建立了賴氨酸反應(yīng)過程的軟測(cè)量模型,以及基于模糊最小二乘支持向量機(jī)、聚類動(dòng)態(tài)最小二乘支持向量機(jī)、粒子群最小二乘支持向量機(jī)等軟測(cè)量方法.為了解決支持向量機(jī)實(shí)際應(yīng)用時(shí)存在的難題[5],Michael提出一種與支持向量機(jī)相似的稀疏概率模型,即相關(guān)向量機(jī)(RVM),其訓(xùn)練在貝葉斯框架下進(jìn)行,克服了支持向量機(jī)的上述所有缺點(diǎn),已被證實(shí)在回歸精度、泛化能力等方面優(yōu)于前者.本文將RVM引入賴氨酸反應(yīng)過程的軟測(cè)量,建立基質(zhì)濃度、菌體濃度、產(chǎn)物濃度等不可直接測(cè)量參量的軟測(cè)量模型,實(shí)現(xiàn)了賴氨酸反應(yīng)過程不可直接測(cè)量的關(guān)鍵參量的在線實(shí)時(shí)測(cè)量.
給定訓(xùn)練數(shù)據(jù)樣本集{xi,ti其中xi∈Rn是輸入變量,ti∈R是與xi對(duì)應(yīng)的輸出變量,是回歸過程中的真實(shí)值.假設(shè)輸出變量全部由帶有白噪聲的回歸模型產(chǎn)生,即有
式(1)中:樣本噪聲εi滿足均值為0,方差為σ2的高斯分布,即εi~N(ε|0,σ2).
與SVM類似,RVM將回歸函數(shù)表示成基函數(shù)K(x,xi)的線性組合形式,即
式(2)中:ω=[ω0,ω1,…,ωM]T是可調(diào)的權(quán)重向量;ω0是回歸函數(shù)中的偏置.由于噪聲εi滿足高斯分布,由式(1)可知:ti也滿足于均值y(xi;ω),方差σ2的高斯分布,即
為了描述方便起見,引入超參數(shù)β=1/σ2,則整個(gè)訓(xùn)練數(shù)據(jù)集的似然函數(shù)為
式(4)中:t=[t1,t2,…,tN]T;Φ∈RN×(N+1)是設(shè)計(jì)矩陣,定義為Φ=[Φ1(x1),Φ(x2),…,Φ(xN)]T;基函數(shù)向量Φ(xi)=[1,K(xi,x1),…,K(xi,xN)T],i=1,2,…,N,即
RVM訓(xùn)練過程的目標(biāo)是求取權(quán)值向量ω的后驗(yàn)分布.為了保證模型稀疏性,需要定義權(quán)值ωi的先驗(yàn)分布.假設(shè)ωi滿足均值為0,方差為α-1j的高斯分布,則ω的先驗(yàn)可以表示為
式(5)中:α=[α0,α1,…,αN]T每個(gè)獨(dú)立的超參數(shù)αj只與其對(duì)應(yīng)的權(quán)值ωj相關(guān).根據(jù)貝葉斯公式,利用樣本似然函數(shù)(4)和ω先驗(yàn)分布(5)可得ω的后驗(yàn)分布為
由于p(ω|α)和p(t|ω,β)均滿足高斯分布,因此其乘積p(ω|α)p(t|ω,β)也滿足高斯分布,而p(t|ω,β)不含有參數(shù)ω,可以看作是歸一化系數(shù),所以ω的后驗(yàn)?zāi)苓M(jìn)一步表示為
其協(xié)方差均值為
而其均值為
式(9)中:A=diag{α0,α1,…,αN}.
可以看出,超參數(shù)β和αj直接影響ω的后驗(yàn)分布,需要對(duì)其進(jìn)行優(yōu)化,從而獲得ω的最大后驗(yàn)分布.優(yōu)化過程可以依據(jù)貝葉斯證據(jù)框架,通過最大化邊緣似然p(ω|α,β)取負(fù)對(duì)數(shù)得到目標(biāo)函數(shù),然后令目標(biāo)函數(shù)分別對(duì)超參數(shù)αj和β求偏導(dǎo)并令偏導(dǎo)數(shù)為0而得到 .即
式(10),(11)中:μj為權(quán)值后驗(yàn)均值向量μ的第j個(gè)元素;Σj,j為協(xié)方差矩陣Σ的第j個(gè)對(duì)角元素;γj=1-αjΣj,j.在RVM模型訓(xùn)練過程中,式(8)~(11)要依次迭代計(jì)算,直到所有參數(shù)都收斂或者達(dá)到最大收斂次數(shù)為止,這時(shí)可認(rèn)為RVM建模過程完成.
賴氨酸軟測(cè)量模型的精度和泛化能力與軟測(cè)量模型輸入數(shù)據(jù)的預(yù)處理有很大關(guān)系.為了消除測(cè)量噪聲,首先對(duì)輸入數(shù)據(jù)采用巴特沃思濾波器進(jìn)行濾波處理,產(chǎn)生一個(gè)平滑的樣本數(shù)據(jù).同時(shí),由于各變量的變化范圍差別很大,因此采用最大最小值歸一化方法對(duì)數(shù)據(jù)進(jìn)行歸一化處理,將原始數(shù)據(jù)映射到區(qū)間[0,1]內(nèi),即
式(12)中:xs,i為標(biāo)準(zhǔn)化數(shù)據(jù),xi為原始數(shù)據(jù);maxxi和minxi分別為原始數(shù)據(jù)的最大值和最小值.
基于濾波和歸一化處理后的數(shù)據(jù),對(duì)RVM模型進(jìn)行學(xué)習(xí)訓(xùn)練,由此可以看出,RVM學(xué)習(xí)過程是基于貝葉斯框架對(duì)權(quán)重的后驗(yàn)分布進(jìn)行推理的過程 .具體算法有如下6個(gè)主要步驟:1)初始化超級(jí)參數(shù)αi,i=1,2,…,M;2)計(jì)算權(quán)重后驗(yàn)分布的均值μ和方差Σ;3)計(jì)算γi,i=1,2,…,M,再估計(jì)αi,i=1,2,…,M;4)重復(fù)步驟2),3),直到所有的超級(jí)參數(shù)都收斂;5)由于αi=∞對(duì)應(yīng)的權(quán)重均值為μi=0,刪除其對(duì)應(yīng)的權(quán)重;6)對(duì)于新的輸入數(shù)據(jù)x,通過收斂的αMP和σ2MP對(duì)目標(biāo)數(shù)據(jù)進(jìn)行預(yù)測(cè),所采用的預(yù)測(cè)分布函數(shù)為
針對(duì)實(shí)驗(yàn)室的WKT型生物反應(yīng)器,以L-賴氨酸流加發(fā)酵過程為對(duì)象進(jìn)行實(shí)驗(yàn)研究 .為使實(shí)驗(yàn)過程能客觀反映實(shí)際生產(chǎn)過程,對(duì)實(shí)驗(yàn)和建模過程進(jìn)行設(shè)計(jì).
1)根據(jù)前期對(duì)賴氨酸反應(yīng)過程的機(jī)理和數(shù)據(jù)分析,賴氨酸反應(yīng)過程的基質(zhì)濃度、菌體濃度、產(chǎn)物濃度的軟測(cè)量模型與溶解氧值、發(fā)酵液pH值、二氧化碳釋放率、氧吸收率和葡萄糖流加速率等參量緊密相關(guān) .因此,選擇上述變量為RVM軟測(cè)量模型的輸入變量.
2)每批次發(fā)酵周期72h,采樣周期為15min,通過測(cè)試儀器對(duì)溶解氧值、發(fā)酵液pH值、二氧化碳釋放率、氧吸收率、葡萄糖流加速率等參量進(jìn)行實(shí)時(shí)采集,每2min取樣并離線化驗(yàn)得到基質(zhì)質(zhì)量濃度ρ(基質(zhì))、菌體質(zhì)量濃度ρ(菌體)、產(chǎn)物質(zhì)量濃度ρ(產(chǎn)物)的值 .其中:菌體質(zhì)量濃度采用細(xì)胞干重法計(jì)算得到,即取10mL發(fā)酵液于離心管中,在3 000r·min-1下離心5min,棄上清,蒸餾水洗滌2次,在105℃干燥至恒質(zhì)量后稱量;基質(zhì)質(zhì)量濃度采用SBA-40C型多功能生物傳感器測(cè)定;產(chǎn)物質(zhì)量濃度采用改進(jìn)的茚三酮比色法進(jìn)行測(cè)定,即取上清液2mL加茚三酮試劑4mL混合,沸水浴加熱20min,冷卻后通過分光分度計(jì)測(cè)定475mm處的吸光度值,通過查標(biāo)準(zhǔn)L-賴氨酸曲線得到.
3)考慮5個(gè)批次培養(yǎng)以檢驗(yàn)賴氨酸反應(yīng)過程的RVM軟測(cè)量模型,每批次間的初始條件設(shè)為不同,補(bǔ)料策略亦有相應(yīng)變化,以增強(qiáng)各批次間的差異性 .發(fā)酵罐罐壓控制在0~0.25MPa,發(fā)酵罐罐溫控制在((0~50)±0.5)℃,發(fā)酵前攪拌電機(jī)轉(zhuǎn)速為400r·min-1時(shí)標(biāo)定溶解氧電極的基準(zhǔn)讀數(shù),其中前4批次發(fā)酵數(shù)據(jù)作為訓(xùn)練樣本集,離線訓(xùn)練獲得RVM軟測(cè)量模型,第5個(gè)批次用于檢驗(yàn)RVM軟測(cè)量模型的泛化能力.
采用訓(xùn)練好的RVM模型對(duì)第5批數(shù)據(jù)進(jìn)行泛化能力檢驗(yàn).基質(zhì)質(zhì)量濃度基質(zhì)質(zhì)量濃度ρ(基質(zhì))、菌體質(zhì)量濃度ρ(菌體)、產(chǎn)物質(zhì)量濃度ρ(產(chǎn)物)的預(yù)測(cè)曲線,如圖1~3所示 .從圖1~3可以看出:所建立的RVM模型具有擬合精度高、泛化能力強(qiáng)的優(yōu)點(diǎn).
圖1 基質(zhì)濃度預(yù)測(cè)曲線圖Fig.1 Predicted value of glucose concentration
圖2 菌體濃度預(yù)測(cè)曲線Fig.2 Predicted value of cell concentration
圖3 產(chǎn)物濃度預(yù)測(cè)曲線Fig.3 Predicted value of product concentration
在分析賴氨酸反應(yīng)過程特性的基礎(chǔ)上,提出一種基于相關(guān)向量機(jī)的賴氨酸反應(yīng)過程基質(zhì)濃度、菌體濃度和產(chǎn)物濃度的軟測(cè)量模型.由于采用貝葉斯方法進(jìn)行概率預(yù)測(cè),相對(duì)于支持向量機(jī)稀疏性更好,所需要的核函數(shù)向量個(gè)數(shù)更少,因此測(cè)試時(shí)間更短,可以實(shí)現(xiàn)賴氨酸反應(yīng)過程的實(shí)時(shí)、在線測(cè)量.
[1] 孫玉坤,陳明忠,嵇小輔,等.基于支持向量機(jī)的賴氨酸發(fā)酵生物參數(shù)軟測(cè)量[J].儀器儀表學(xué)報(bào),2008,29(10):2067-2071.
[2] 王博,嵇小輔,孫玉坤.基于自適應(yīng)模糊支持向量機(jī)的L-賴氨酸發(fā)酵過程建模研究[J].儀器儀表學(xué)報(bào),2010,31(8):467-481.
[3] 王博,孫玉坤,嵇小輔,等.基于 PSO-SVM 逆的L-賴氨酸發(fā)酵過程軟測(cè)量方法[J].化工學(xué)報(bào),2012,26(3):224-227.
[4] 孫玉坤,王博,黃永紅,等.基于聚類動(dòng)態(tài)LS-SVM 的L-賴氨酸發(fā)酵過程軟測(cè)量方法[J].儀器儀表學(xué)報(bào),2010,24(2):1024-1028.
[5] TIPPING M E.Sparse Bayesian learning and the relevance vector machine[J].Journal of Machine Learning Research,2001,1(3):211-244.