王瑋+江輝+劉國海+梅從立+吉奕
摘 要 提出了一種基于近紅外光譜分析技術的酵母菌生長過程描述方法。利用Antaris Ⅱ型傅里葉變換近紅外光譜儀獲取酵母菌培養(yǎng)過程中,發(fā)酵物樣本在10000~4000 cm1范圍內的光譜數據,同時采用光電比濁法測定各樣本的光密度(Optical density, OD)值; 運用競爭性自適應重加權采樣(Competitive adaptive reweighted sampling, CARS)算法優(yōu)選特征光譜,再利用極限學習機(Extreme learning machine, ELM)建立酵母菌生長過程4個階段的分類模型。研究結果顯示,參與CARS-ELM模型建立的波長個數為30,其10次運行在訓練集和測試集中的平均識別率分別為98.68%和97.37%。研究結果表明,利用近紅外光譜分析技術結合適當的化學計量學方法描述酵母菌生長過程是可行的。
關鍵詞 酵母菌; 近紅外光譜; 競爭性自適應重加權采樣法; 極限學習機
1 引 言
在全球能源逐漸匱乏的大環(huán)境下,利用酵母菌發(fā)酵生物質產酒精作為能源替代品越來越引起重視。在工業(yè)生產過程中,酵母菌生長過程的測定對發(fā)酵具有重要的指導作用[1~3]。目前,酵母菌檢測的方法主要有血球計數板計數法和平板菌落計數法等, 這些方法雖然檢測過程直觀、快速,但檢測結果受操作人員因素影響較大,其穩(wěn)定性和均一性難以保證[4]。
近紅外光是介于紫外可見光和中紅外光之間的電磁波,其光譜信息主要來自有機物中含氫基團倍頻與合頻的吸收,不同基團或同一基團在不同化學環(huán)境中的近紅外吸收波長與強度都有明顯差別,適用于有機化合物理化參數的間接測量[5~7]。在酵母菌培養(yǎng)過程中,基質中的有機物大分子包含了大量的含氫基團[8]。近年來,已有一些學者利用近紅外光譜分析技術對微生物發(fā)酵過程中的底物、產物和生物量濃度進行檢測,取得了較理想的結果[9~11]。而在利用近紅外光譜分析技術對微生物生長過程動態(tài)跟蹤方面的研究卻鮮有報道。大量研究表明,近紅外光譜信息是由很多弱的、寬的、非特征重疊譜帶所構成[12], 這些光譜信息包含了很大數目的波長變量,這些波長變量有些是無信息變量和冗余變量,波長變量之間也存在著很嚴重的線性關系[13]。這些波長變量不僅會增大計算量,而且對光譜的有用信息進行干擾,從而降低模型的預測能力。因此,在利用近紅外光譜分析技術對酵母菌生長過程進行定性分析時,光譜特征和化學計量學模型的選擇與優(yōu)化至關重要,直接影響最終檢測結果的精度[12]。因此,本研究提出基于近紅外光譜分析技術的酵母菌生長過程快速描述方法。采用競爭性自適應重加權采樣(Competitive adaptive reweighted sampling, CARS)算法篩選預處理后的近紅外光譜特征波長,然后利用極限學習機(Extreme learning machine, ELM)建立酵母菌生長過程4個時期的識別模型,實現了利用近紅外光譜分析技術高精度檢測酵母菌生長狀態(tài)。
2 實驗部分
2.1 酵母菌培養(yǎng)及數據采集
2.1.1 酵母菌的擴大培養(yǎng) 從上海瑞楚生物科技有限公司購買工業(yè)發(fā)酵酵母菌種1 mL,再配制麥芽汁培養(yǎng)基,然后將原代酵母菌菌種接種到培養(yǎng)基中做平行擴大培養(yǎng),每次取生長狀況良好的菌種作為下一次接種母菌,直到培養(yǎng)得到酵母菌種40 mL結束。
2.1.2 酵母菌的分裝培養(yǎng) 酵母菌擴大培養(yǎng)結束后,分別在3個250 mL 容量瓶內裝入125 mL 無菌麥芽汁培養(yǎng)基和0.5 mL 酵母菌懸液,分別將3個容量瓶標記為Ⅰ、Ⅱ和Ⅲ,放入恒溫振蕩培養(yǎng)箱中連續(xù)培養(yǎng)72 h,溫度設置為28℃,轉速為110 r/min。按以上方案共進行6批酵母菌培養(yǎng)實驗。
2.1.3 數據采集 在酵母菌培養(yǎng)過程中,從接種開始每隔4 h采樣一次,共有19個采樣時間點(即0, 4, 8, ……72 h)。為了避免采樣次數過多而引起容量瓶內發(fā)酵污染,采樣時,將19個采樣時間點分為三部分,即0~24 h、28~48 h和52~72 h時間內的采樣分別在容量瓶Ⅰ、Ⅱ和Ⅲ中進行。這樣每批實驗可獲得19個樣本數據。共進行6批實驗,可獲得114個樣本。
2.2 光譜采集
采用Antaris Ⅱ傅里葉變換近紅外光譜儀(美國Thermo Scientific公司)的透射模式采集各樣本的近紅外光譜數據。光譜采集時,室內溫度保持在25℃左右,濕度基本恒定。樣品池采用光程5 mm標準管,掃描次數為32次,分辨率為8 cm1,掃描波數范圍為10000~4000 cm1。每個樣本采集3次,取其平均光譜作為該樣本的原始光譜。
2.3 光電比濁法測定OD值
在樣本光密度(Optical density, OD)值測定時,首先將UV-2204PC型紫外可見分光光度計的波長設置為600 nm,透光率調為100%,取光程為1 cm比色皿裝入3.5 mL無菌麥芽汁培養(yǎng)基為對照組; 樣本溶液經0.45 μm濾膜過濾后,移入比色皿測量其OD值。每個樣本測量3次,再取其平均值。若樣本溶液過稠,需稀釋后再進行測量,使得OD值保持在0.1~0.65之間[14,15]。
2.4 數據分析方法
2.4.1 競爭性自適應重加權采樣算法 為了消除光譜變量之間的冗余和共線性信息,需要對光譜數據進行變量篩選。競爭性自適應重加權采樣(Competitive adaptive reweighted sampling , CARS)是模擬達爾文進化論中“適者生存”原則[16],通過蒙特卡羅采樣法隨機選擇80%的樣本,建立偏最小二乘法(Partial least square, PLS)模型,保留回歸系數絕對值大的波長點,同時去除權重小的波長點,多次重復篩選后,選出交叉驗證均方根誤差RMSECV最小的變量子集,即為特征波長變量[17,18]。
2.4.2 極限學習機判別分析法 極限學習機算法(Extreme learning machine, ELM)是由新加坡南洋理工大學的Huang等[19]提出的一種針對單隱含層前饋神經網絡的學習算法。該算法能隨機產生輸入層與隱含層之間的連接權值和隱含層神經元的閾值,并且在訓練過程中無需調整,只需設置隱含層神經元的個數,就可以獲得唯一的最優(yōu)解,克服了傳統(tǒng)神經網絡訓練速度慢、易陷入局部最優(yōu)的問題[20],并以其學習速度快、泛化性能好等優(yōu)勢被廣泛應用于模式分類領域。
3 結果與討論
3.1 光譜分析
酵母菌發(fā)酵液主要是由蛋白質、碳水化合物等大分子化合物和乙醇組成[21]。其中,碳水化合物的主要吸收波段在6298.4~5650.4 cm1之間,蛋白質的主要吸收波段在6506.4~6776.6 cm1之間,乙醇的主要吸收波段在7154.6~6954.1 cm1和9997.2~9981.7 cm1之間[22]。圖1A為所有酵母菌發(fā)酵液樣本的原始光譜圖。從圖1可見,不同時間段獲取的酵母菌發(fā)酵液樣本的光譜吸收峰基本與文獻[22]描述的大分子化合物的吸收波段范圍吻合,很好地反映了酵母菌培養(yǎng)過程中大分子有機化合物的微量變化,這為近紅外光譜分析技術用于酵母菌發(fā)酵過程定性分析提供了理論依據。
為了消除發(fā)酵液中固態(tài)顆粒及光散射等因素對采集光譜的影響,研究采用標準正態(tài)變量變換(Standard normal variate transformation, SNV)對原始光譜進行預處理,該方法可有效消除液態(tài)樣品中懸浮顆粒及光程變化等外部因素對光譜采集的影響[23,24]。SNV預處理光譜圖如圖1B所示。
3.2 酵母菌生長曲線及樣本集劃分
為了直觀地反映酵母菌的動態(tài)生長過程,本研究根據各采樣時間點所測的樣本OD值擬合出酵母菌的生長曲線。如圖2所示,0~8 h為酵母菌生長的遲滯期,8~28 h為酵母菌生長的對數期,28~60 h為酵母菌生長的穩(wěn)定期,60~72 h為酵母菌生長的衰亡期,很好地反映了酵母菌的4個生長階段。
在模型校正過程中,將前4批實驗獲取的樣本作為訓練集,后兩批實驗獲取的樣本作為獨立測試集,用于校正模型的驗證。表1列出了酵母菌生長過程中采集的所有樣本的OD值在訓練集和測試集中的分布情況。
3.3 光譜變量篩選
圖3呈現了應用CARS算法對預處理后的光譜進行特征波長篩選的過程。從圖3A可見,隨著采樣次數增加,被保留的波長變量呈指數規(guī)律衰減,較好地反映了CARS算法在執(zhí)行時對變量粗選和精選的過程。圖3B為CARS采樣過程中,交互驗證均方根誤差(RMSECV)隨采樣次數的變化情況。從圖3B可見,當采樣次數為28時,RMSECV值達到最?。?.1736); 此時,入選的波長變量數為30,它們在全光譜區(qū)域的分布如圖4所示。對上述篩選變量的NIR吸收譜帶解析為:5650.4, 5932.0, 5935.8, 5939.7, 5943.5, 6059.2, 6159.5和6298.4 cm1是位于CH基團一級倍頻振動吸收的波段范圍; 6506.4, 6564.2, 6583.8, 6587.6, 6595.4, 6599.2, 6618.2, 6695.6, 6699.5,6768.9, 6772.8和6776.6 cm1為胺基NH鍵伸縮振動的一級倍頻附近; 6954.1, 6957.9, 6996.5, 7089.0, 7131.5, 7154.6 cm1和9981.7, 9985.6, 9989.5, 9997.2 cm1分別位于醇類OH基團伸縮振動的一級和二級倍頻附近。分析上述篩選的30個波長變量的波數可知,這些波數光譜基本都在酵母菌發(fā)酵液中的蛋白質、碳水化合物等大分子和乙醇的光譜主要吸收波段內。因此,利用CARS算法篩選的特征波長變量能較好地反映酵母菌培養(yǎng)過程中基質中有機物的微量變化。
3.4 ELM判別模型建立及預測
選用經CARS算法優(yōu)選后的30個特征波長變量建立ELM判別模型,完成酵母菌生長階段的定性描述。在ELM模型建立過程中,其隱含層神經元個數K是影響其性能的重要參數。因此,在ELM模型建立過程中需對其進行優(yōu)化。研究初始化K=10,并以11為間隔增加,依據模型在訓練集和測試集中的預測正確率來確定最佳的隱含層神經元個數。由于ELM算法權重初始化時具有隨機性,因此,針對每個K,研究均運行10次,取其中5次預測效果較好模型的記錄于表2中。從表2可知,當K=43時,訓練集和測試集的平均預測準確率分別達到了100%和99.47%,性能最佳。因此,最終確定為K=43。確定ELM算法關鍵參數后,10次運行ELM,其在訓練集中的平均預測準確率為98.68%,在訓練集中的平均預測正確率為97.37%,很好地對酵母菌生長的4個階段進行有效區(qū)分。
4 結 論
本研究利用近紅外光譜分析技術實現酵母菌培養(yǎng)過程的動態(tài)監(jiān)測。利用CARS算法對預處理后的光譜進行特征波長篩選,優(yōu)化ELM隱含層神經元數,最后建立酵母菌生長過程定性識別模型。結果表明,建立在由CARS篩選法30個特征波長變量基礎上的最佳ELM識別模型, 10次運行在測試集中的平均識別率達到97.37%。因此,利用近紅外光譜分析技術結合合適的化學計量學方法快速監(jiān)測酵母菌生長過程是可行的。本研究結果為酵母菌生長過程的快速在線監(jiān)測提供了技術支持。
References
1 Yu J, Xu Z, Tan T. Fuel Process. Technol., 2008, 89(11): 1056-1059
2 Sablayrolles J M. Pandey A, Rao L V, Soccol C R. Food Res. Int., 2009, 42(4): 418-424
3 Doran J B, Cripe J, Sutton M, Foster B. Appl. Biochem. Biotechnol., 2000, 84-86(1): 141-152
4 Wu Y J, Jin Y, Li Y R, Sun D, Liu X S, Chen Y. Vib. Spectrosc., 2012, 58(1): 109-118
5 TAO Lin-Li, YANG Xiu-Juan, DENG Jun-Ming, ZHANG Xi. Spectroscopy and Spectral Analysis, 2013, 33(11): 3002-3009
陶琳麗, 楊秀娟, 鄧君明,張 曦. 光譜學與光譜分析, 2013, 33(11): 3002-3009
6 ZHANG Li-Juan, WU Wei, QIU Lin, LIU Ying. Modern Instrument & Medical Treatment, 2012, 18(4): 76-79
張麗娟, 吳 煒, 邱 琳, 劉 瑩. 現代儀器與醫(yī)療, 2012, 18(4): 76-79
7 CHEN Huan-Wen, HU Bin, ZHANG Xie. Chinese J. Anal.Chem., 2010, 38(8): 1069-1088
陳煥文, 胡 斌, 張 燮. 分析化學, 2010, 38(8): 1069-1088
8 XU Bao-Cheng, LIU Jian-Xue, YI Jun-Peng, ZHONG Xian-Feng, CUI Guo-Ting. China Brewing, 2007, 26(3): 8-10
徐寶成, 劉建學, 易軍鵬, 鐘先鋒, 崔國庭. 中國釀造, 2007, 26(3): 8-10
9 HUANG Chang-Yi, FAN Hai-Bin, LIU Fei, XU Gan-Rong. Journal of Instrumental Analysis, 2014, 33(5): 520-526
黃常毅, 范海濱, 劉 飛, 許贛榮. 分析測試學報, 2014, 33(5): 520-526
10 ZHANG Shu-Ming, YANG Yang,NI Yuan-Ying. Spectroscopy and Spectral Analysis, 2012, 32(11): 2997-3001
張樹明, 楊 陽, 倪元穎. 光譜學與光譜分析, 2012, 32(11): 2997-3001
11 PENG Bang-Zhu, YUE Dian-Li, YUAN Ya-Hong, GAO Zhen-Peng. Spectroscopy and Spectral Analysis, 2009, 29(3): 652-655
彭幫柱, 岳田利, 袁亞宏, 高振鵬. 光譜學與光譜分析, 2009, 29(3): 652-655
12 LIU Guo-Hai, XIA Rong-Sheng, JAING Hui, MEI Cong-Li, HUANG Yong-Hong. Spectroscopy and Spectral Analysis, 2014, 34(8): 2094-2097
劉國海, 夏榮盛, 江 輝, 梅叢立, 黃永紅. 光譜學與光譜分析, 2014, 34(8): 2094-2097
13 Blanco M, Coello J, Iturriaga H, Maspoch S, González Baó R. Analyst, 2000, 50(1): 75-82
14 LI Qin. Light Ind. Sci. Technolo., 2014, (8): 7-8
李 勤. 輕工科技, 2014, (8): 7-8
15 LI Li, YANG Ze-Xian, WANG Su-Xia, DU Jin-Min. Feed Res., 2015, (1): 71-73
李 麗, 楊澤賢, 王素霞, 杜進民. 飼料研究, 2015, (1): 71-73
16 Fan W, Shan Y, Li G Y, Lyu H Y, Li H D, Liang Y Z. Food Anal. Method, 2012, 5(3): 585-590
17 Xie C, Ning X, ShaoY, He Y. Spectrochim. Acta A, 2015, 149 : 971-977
18 Tang G, Huang Y, Tian K D, Song X Z, Yan H, Hu J, Xiong Y M, Min S G. Analyst, 2014, 139(19): 4894-4902
19 Huang G B, Zhu Q Y, Siew C K. Neurocomputing, 2006, 70(1-3): 489-501
20 SHI Feng, WANG Hui, YU Lei, HU Fei. MATLAB Intelligence Algorithm-30 Case Analysis. Beijing: Beihang University Press, 2011: 290-302
史 峰, 王 輝, 郁 磊, 胡 斐. MATLAB智能算法-30個案例分析. 北京: 北京航空航天大學出版社, 2011: 290-302
21 HAN Run-Ping, BAO Gai-Ling, ZHU Lu. Spectroscopy and Spectral Analysis, 2004, 24(7): 820-822
韓潤平, 鮑改玲, 朱 路. 光譜學與光譜分析, 2004, 24(7): 820-822
22 LU Wan-Zhen. Modern Near Infrared Spectroscopy Analytical Technology (Second Edition). China Petrochemical Press, 2007: 30-32
陸婉珍. 現代近紅外光譜分析技術 (第2版). 中國石化出版社, 2007: 30-32
23 Bi Y M, Yuan K L, Xiao W Q, Wu J Z, Shi C Y, Xia J, Chu G H, Zhang G X, Zhou G J. Anal. Chim. Acta, 2016, 909: 30-40
24 Barnes R J, Dhanoa M S, Lister S J. Appl. Spectrosc., 1989, 43(5): 772-777