何 年,單 鵬,賀忠海,王巧云,李志剛,吳 綴
東北大學(xué)秦皇島分校控制工程學(xué)院,河北 秦皇島 066000
發(fā)酵過程中對物料濃度的在線檢測是保證產(chǎn)品質(zhì)量的關(guān)鍵,目前仍有大部分的工廠采用傳統(tǒng)的分離分析方法,費(fèi)時繁瑣,無法實(shí)現(xiàn)發(fā)酵的實(shí)時控制。而衰減全反射傅里葉變換紅外光譜(attenuation reflectance Fourier transformation infrared spectrometry, ATR-FTIR)技術(shù)具有快速、綠色、無損等優(yōu)點(diǎn),應(yīng)用廣泛[1-3],十分適合發(fā)酵過程中參數(shù)的在線檢測。本文通過對聚谷氨酸發(fā)酵過程中采集的ATR-FTIR光譜與建立的多元校正模型間接的測量發(fā)酵過程中主要底物葡萄糖和谷氨酸鈉的濃度。因光譜中存在基線漂移,影響定量分析精度,所以在建立多元校正模型前需進(jìn)行光譜預(yù)處理,去除噪聲和基線。
其中基于WS平滑算法的基線校正算法應(yīng)用廣泛,已成功應(yīng)用于各種光譜分析中。Eilers等首先將WS算法應(yīng)用于信號的平滑和插值[4],隨后通過添加非對稱權(quán)重,在峰值信號處實(shí)現(xiàn)較強(qiáng)的光滑,將光滑曲線作為擬合基線,提出非對稱最小二乘基線校正算法[5](asymmetric least squares, AsLS);Zhang等通過改進(jìn)非對稱權(quán)重,實(shí)現(xiàn)自適應(yīng)迭代,提出自適應(yīng)迭代加權(quán)懲罰最小二乘[6](adaptive iteratively reweighted penalized least squares, airpls);Baek[7]等將權(quán)重按logistic函數(shù)分配,實(shí)現(xiàn)權(quán)重信息柔化。(asymmetrically reweighted penalized least squares smoothing, arpls);姜安[8]等通過引入擬合殘差的一階導(dǎo)數(shù)作為新的懲罰項(xiàng),用直方圖估計(jì)背景設(shè)定閾值,加快迭代速度(jiang improved asymmetric least squares baseline correction algorithm, jasls);He[9]等通過改進(jìn)jasls的閾值,形成(improved asymmetric least squares method, iasls);近年Xu[10]等給懲罰項(xiàng)加上新的權(quán)重,形成重加權(quán)懲罰基線校正(doubly reweighted penalized least squares, drpls);Ye[11]等通過改進(jìn)arpls的權(quán)重賦值函數(shù),實(shí)現(xiàn)進(jìn)一步優(yōu)化(improved asymmetrically reweighted penalized least squares, iarpls)。
這些算法多是以改變權(quán)重或自動迭代權(quán)重的方式進(jìn)行改進(jìn),但對基線的約束都采取相同策略,選擇階次較低的整數(shù)階微分;此外還引入新的懲罰項(xiàng)來改進(jìn)算法性能。這種改進(jìn)可以通過引入不同的懲罰項(xiàng),實(shí)現(xiàn)對基線不同的約束,原模型中的懲罰項(xiàng)是對基線的粗糙度進(jìn)行約束,在jpls算法中加入了真實(shí)光譜和擬合基線殘差的一階微分作為新的懲罰項(xiàng),他們認(rèn)為擬合出的基線不僅與原始數(shù)據(jù)之間的誤差很小,而且還要求它們的一階導(dǎo)數(shù)很接近。這使得對擬合基線的約束性更強(qiáng),能夠適應(yīng)不同的光譜。
上述提及的各種改進(jìn)算法都未曾涉及對粗糙度描述方法進(jìn)行改進(jìn),都沿用整數(shù)階微分或直接固定階次,使得對基線的約束不夠靈活。低階整數(shù)階微分通常只取1,2和3階,可選擇性極差;同時考慮到整數(shù)階微分不能很好的描述基線的特點(diǎn),且在實(shí)際信號中整數(shù)階階次的信號很少見。故引入分?jǐn)?shù)階微分的概念,提高算法靈活性,擴(kuò)展對粗糙度的描述,從而進(jìn)一步研究微分階次對基線校正效果的影響。我們提出的分?jǐn)?shù)階基線校正算法涵蓋了原來的整數(shù)階算法,理論上認(rèn)為分?jǐn)?shù)階基線校正效果不會差于整數(shù)階基線校正效果;這一推斷在γ-PGA發(fā)酵光譜分析中進(jìn)行了仔細(xì)的檢驗(yàn)。
AsLS基線校正是在WS平滑算法的基礎(chǔ)上改進(jìn)而來,首先對WS平滑算法進(jìn)行簡單介紹[4]。WS優(yōu)化目標(biāo)如式(1)
(1)
式(1)中,yi為原始信號的第i個點(diǎn),zi為平滑序列的第i個點(diǎn),λ為正則化系數(shù),Δ為微分算子,一階微分可表示Δzi=Δzi-Δzi-1。Eilers在文中將最小化目標(biāo)函數(shù)的第一項(xiàng)稱為保真度,第二項(xiàng)稱為粗糙度。通過調(diào)節(jié)λ得到合適的平滑序列。當(dāng)λ越大,對粗糙度的懲罰越大,就要求序列越平滑。對于一階微分,當(dāng)λ越大時,平滑序列z就越趨向于一條水平的直線。同理二階微分,在λ越大時,滑序列z就越趨向于一條傾斜的直線。
為簡化代數(shù)運(yùn)算用矩陣表示目標(biāo)函數(shù)
Q=|y-z|2+λ|Ddz|2
(2)
最小化式(2)可得
式(2)中,y為原始信號列向量,z為平滑序列列向量,E為單位矩陣,Dd為微分矩陣,只能表示整數(shù)階。當(dāng)信號長度為5,取整數(shù)一階、二階微分時,表示如下
AsLS在WS算法基礎(chǔ)上引入非對稱權(quán)重作用于保真度[5]
Q=W|y-z|2+λ|Ddz|2
(3)
最小化式(3)可得
式(3)中,W為權(quán)重對角矩陣,式中權(quán)重系數(shù)Wi根據(jù)非對稱的方式選擇
一般p取值范圍為0.001~0.1。λ取值范圍為102~109,固定迭代次數(shù),W一般迭代10次。
AsLS也可以看作是平滑算法,通過對含有峰的光譜信號進(jìn)行平滑,得到一條光滑的不含有峰的曲線作為基線,這種基線校正方法不需要任何的先驗(yàn)信息,只需要通過調(diào)節(jié)反對稱權(quán)重和正則化系數(shù)就能得到一條適合的基線。
AsLS算法中的Dd微分算子只適用于整數(shù)階,在Dd的基礎(chǔ)上擴(kuò)展到分?jǐn)?shù)階,較為簡便的實(shí)現(xiàn)分?jǐn)?shù)階基線校正。分?jǐn)?shù)階微分定義有不同的形式,為了更好的包含原有整數(shù)階,選用Grumwald-Letnikov(GL)分?jǐn)?shù)階微分定義,表示如式(4)[12-14]
(4)
式(4)中:α為階數(shù);h為微分步長;t與a分別為微分的上、下限;Γ(x)為Gamma函數(shù)。當(dāng)函數(shù)f(x)定義域?yàn)閤∈[a,t]且h=1時,由式(4)可得出f(x)的分?jǐn)?shù)階微分表達(dá)式
(5)
式(5)中:α為階數(shù),f(x)的0階微分為f(x)本身。同樣的將微分差值運(yùn)算構(gòu)造成矩陣的形式,記為Dα。
實(shí)驗(yàn)表明,當(dāng)k較小時,基線校正效果較差,一般取20以上的值。但計(jì)算速度會隨k的增大而變慢。用Dα替換Dd即可實(shí)現(xiàn)分?jǐn)?shù)階基線校正(fractional differential asymmetric least squares, FdAsLS)。當(dāng)α取整數(shù)階時,比原來的整數(shù)階微分矩陣多了幾項(xiàng),這對于一些信號的校正是不利的,因?yàn)槠鹗疾糠贮c(diǎn)的微分變化較大,容易造成基線的突變,但對于原始信號起始部分基本為零的光譜信號,并不會產(chǎn)生影響。在取分?jǐn)?shù)階時,該現(xiàn)象尤為明顯,因?yàn)榍発行的微分表達(dá)式都是不相同的,從矩陣的前k行,可以明顯的觀察到。GL定義下的整數(shù)階矩陣相比于原來整數(shù)階矩陣,略有不同。當(dāng)信號長度為5,GL定義下的整數(shù)一階、二階微分時,表示如下
對于γ-PGA發(fā)酵實(shí)驗(yàn),選用的菌種為枯草芽孢桿菌亞種,從中國工業(yè)微生物菌種保藏管理中心(China Center of Industrial Culture Collection, CICC)購買,菌種編號為20643。將以凍干粉的形式存儲的菌種先進(jìn)行活化培養(yǎng),然后在培養(yǎng)好的固體菌落中,用接種環(huán)挑選一株生長狀態(tài)良好的菌體,接種于種子培養(yǎng)基(500 mL三角瓶裝液量100 mL),然后在37 ℃和180 r·min-1的恒溫振蕩培養(yǎng)箱中(THZ-92A,躍進(jìn)醫(yī)療器械有限公司,中國上海)中培養(yǎng)10~16 h。所用種子培養(yǎng)基為:葡萄糖(10 g·L-1),蛋白胨(10 g·L-1),牛肉膏(5 g·L-1),氯化鈉(5 g·L-1)。發(fā)酵培養(yǎng)基由葡萄糖(40 g·L-1),酵母膏(5 g·L-1),谷氨酸鈉(35 g·L-1),氯化銨(2 g·L-1),磷酸氫二鉀(5 g·L-1)和硫酸鎂組成(0.5 g·L-1)組成。種子培養(yǎng)基和發(fā)酵培養(yǎng)基均在121 ℃下滅菌20 min。將經(jīng)過種子培養(yǎng)的菌株接種到接種量為2%的發(fā)酵培養(yǎng)基中,并將3 L的發(fā)酵培養(yǎng)液放入工作容積為5 L的發(fā)酵罐(GRJB-5D,綠色生物工程有限公司,中國鎮(zhèn)江)中,在37 ℃恒溫和300 r·min-1攪拌速度的條件下進(jìn)行發(fā)酵。
用配備有水平鉑金鉆石ATR采樣附件(ZnSe,單反射)的布魯克Alpha型傅里葉變換紅外光譜儀(德國,埃特林根)上收集光譜數(shù)據(jù)。在35 ℃下,以8 cm-1的分辨率在4 000~600 cm-1的波數(shù)范圍內(nèi)進(jìn)行64次掃描。每個樣品測量之前,用蒸餾水作為參考獲取背景光譜。對于每個樣品,重復(fù)測量兩次。所得的平均光譜用于進(jìn)一步分析。作為主要底物,葡萄糖(g·L-1)和谷氨酸鈉(g·L-1)是用于監(jiān)測γ-PGA發(fā)酵的參數(shù)。總共進(jìn)行了48 h的5次發(fā)酵實(shí)驗(yàn),獲得151個樣品的光譜及其發(fā)酵參數(shù)的標(biāo)準(zhǔn)值。各批次樣本數(shù)分別為14,27,40,40和30,它們的光譜如圖1所示。
圖1 各批次光譜
各批次樣本根據(jù)Kennard-Stone(KS)算法,按3∶1比例劃分樣本,3份作為校正集,建立模型。其余1份構(gòu)成測試集,驗(yàn)證模型。多元校正模型選擇偏最小二乘回歸(partial least squares regression,PLS)[15],PLS采用5折交叉驗(yàn)證,從1~15中選出最佳潛變量個數(shù)。評價指標(biāo)選擇PLS模型的校正集均方根誤差(root mean square error of calibration, RMSEC)和測試集均方根誤差(root mean square error of prediction, RMSEP)。對5個批次數(shù)據(jù)分別建立原始光譜、原始光譜+FdAsLS預(yù)處理、原始光譜+AsLS預(yù)處理的PLS模型。最后合并所有批次樣本,重新劃分校正集和測試集,建模過程不變。
為驗(yàn)證分?jǐn)?shù)階基線校正效果,進(jìn)行六組實(shí)驗(yàn)。每組實(shí)驗(yàn)以PLS模型的RMSEP為評價指標(biāo)。固定反對稱權(quán)重p=0.001和分?jǐn)?shù)階微分長度k=20。微分階次從0.5到4.5,間隔0.1,共41個階次;λ從100到109,冪指數(shù)間隔0.5,共19個數(shù),通過網(wǎng)格搜索法篩選出最佳參數(shù)組合。為了比較分?jǐn)?shù)階和整數(shù)階基線校正算法性能的優(yōu)劣,我們將所有整數(shù)階參數(shù)組合(其中0階是用未經(jīng)過基線校正的原始數(shù)據(jù)建模)和最佳分?jǐn)?shù)階參數(shù)組合(對應(yīng)最小的RMSEP)在六組實(shí)驗(yàn)上的結(jié)果進(jìn)行了匯總(見表1)??紤]到兩種整數(shù)階微分表示不同,所有實(shí)驗(yàn),在取整數(shù)階時,選擇AsLS中的原始定義。其中只有批次2的預(yù)測模型誤差減小最多所對應(yīng)的基線校正微分階次為整數(shù)階,其余模型最佳階次都為分?jǐn)?shù)階??梢苑从吵龇?jǐn)?shù)階微分基線校正有著不低于整數(shù)階的校正效果,大多數(shù)情況下都超過了整數(shù)階。同時分?jǐn)?shù)階微分階次取值任意,運(yùn)用靈活。通過網(wǎng)格搜索法得到的最佳階次中,取值基本沒有重復(fù),足以說明分?jǐn)?shù)階微分具有自適應(yīng)性,能夠靈活地提取真實(shí)基線,因此相比于從前單一的整數(shù)階微分,分?jǐn)?shù)階微分能夠充分發(fā)揮基線校正的優(yōu)勢,能最大限度的提高多元校正模型的預(yù)測精度。在批次1中,底物的預(yù)測誤差大幅減小,葡萄糖預(yù)測模型的RMSEP從2.098降到0.857,預(yù)測精度提高較多。同時其他批次預(yù)測精度都大幅提升,表明了基線校正有助于后續(xù)光譜定量分析。將5個批次的樣本合并后建立模型(未進(jìn)行預(yù)處理的原始數(shù)據(jù)),可以明顯地觀察到,全局模型的預(yù)測結(jié)果不如各批次單獨(dú)建模(批次3除外)的局部模型;且各批次合并后的樣本即使經(jīng)過基線校正后,模型精度提升也遠(yuǎn)差于各批次單獨(dú)進(jìn)行基線校正后的預(yù)測精度,即校正效果不明顯。這一現(xiàn)象的產(chǎn)生可以歸因于不同發(fā)酵批次的基線是不相同的,通過固定一組參數(shù)對所有批次光譜進(jìn)行相同的基線校正是不合理的。從實(shí)際情況來考慮,在不同的發(fā)酵批次過程中,很多因素(如:谷草芽孢桿菌的活性、測量條件、儀器性能的差異等)都會造成基線的變化,因此應(yīng)該對不同批次光譜單獨(dú)進(jìn)行基線校正,才能充分發(fā)揮基線校正的效果。
表1 不同階次的基線校正效果比較
以批次3為例,對原始光譜建立PLS模型,發(fā)現(xiàn)預(yù)測結(jié)果很差,但經(jīng)過基線校正以后,預(yù)測均方根誤差減小,圖2可以直觀的反映出這種變化,其余各批次經(jīng)過基線校正以后,結(jié)果如圖3和圖4所示,其中圖3是預(yù)測葡萄糖濃度RMSEP最小時所對應(yīng)的基線校正處理后的結(jié)果,圖4對應(yīng)于谷氨酸鈉。
圖2 偏最小二乘回歸分析
圖3 葡萄糖RMSEP最小時對應(yīng)各批次基線校正后的光譜
圖4 谷氨酸鈉RMSEP最小時對應(yīng)各批次基線校正后的光譜
經(jīng)過基線校正后的光譜相較于原始光譜,除批次4用以預(yù)測谷氨酸鈉濃度的校正光譜還保留負(fù)的水峰,其余校正光譜基本不含或含有少量負(fù)的水峰。因此認(rèn)為峰信號全部是有用的,通常AsLS被用于只含有全部為正峰或全部為負(fù)峰的信號的校正,但是對于用水溶液測得的ATR光譜,負(fù)的水峰對于后續(xù)的分析是無用的甚至是有害的,所以可以通過AsLS基線校正將水峰扣除。改進(jìn)后的FdAsLS同樣具有該效果,且對負(fù)峰的扣除效果更好。
各批次校正后的光譜各不相同,間接反映出發(fā)酵過程的特殊性。且校正后的光譜各批次存在較大的差異,如批次4預(yù)測谷氨酸鈉時,基線校正效果作用不大,校正后的光譜基本不變,且經(jīng)過基線校正后,RMSEC反而變差了。理論上RMSEC應(yīng)該小于RMSEP,但是在該數(shù)據(jù)中,各批次經(jīng)過基線校正后部分批次出現(xiàn)RMSEP小于RMSEC的情況。這可能是樣本太小所造成的,同時測試集樣本中個別樣本預(yù)測很差,但經(jīng)過基線校正后,預(yù)測精度立刻提升,圖2(a, b)中紅色標(biāo)記的測試集樣本就屬于這種情況。圖2(a)中存在明顯偏離斜線y=x(x,y分別為測量值和PLS模型預(yù)測值。樣本點(diǎn)越偏離斜線,說明模型預(yù)測精度越差,反之預(yù)測精度越高)的點(diǎn),但經(jīng)過基線校正[圖2(b)],紅色點(diǎn)十分貼近斜線且基本均勻分布在斜線的兩側(cè)。一方面樣本的均勻分布,說明KS算法樣本劃分合理;另一方面樣本點(diǎn)經(jīng)過基線校正后靠近斜線,說明分?jǐn)?shù)階基線校正算法的有效性。當(dāng)樣本量變大時,即所有批次合并后,重新劃分校正集測試集,所得實(shí)驗(yàn)結(jié)果與理論相符。
基于WS平滑算法的各種基線校正算法(包括WS平滑算法)都可以通過微分算子擴(kuò)展至任意階次,具有更好的靈活性和可選擇性,從而進(jìn)一步提高多元校正模型的預(yù)測精度。γ-PGA發(fā)酵實(shí)驗(yàn)的光譜數(shù)據(jù)分析結(jié)果表明,分?jǐn)?shù)階微分基線校正效果優(yōu)于整數(shù)階。同時發(fā)現(xiàn)AsLS和FdAsLS基線校正算法在去除基線的同時,實(shí)現(xiàn)了對ATR光譜水峰的扣除,消除水峰對后續(xù)光譜定量的影響,擴(kuò)展了該基線校正算法應(yīng)用范圍。同時為用水溶液測得的ATR光譜消除水峰提供了新的思路。