王開鑄,田建平*,孫 婷,鞠 杰,黃 丹,胡新軍
(1.四川輕化工大學(xué) 機(jī)械工程學(xué)院,四川 宜賓644000;2.四川輕化工大學(xué) 生物工程學(xué)院,四川 宜賓644000)
大曲是白酒釀造的糖化劑、發(fā)酵劑和生香劑[1-2]。大曲酸度值的形成主要來源于生酸微生物進(jìn)行的有機(jī)酸代謝以及脂肪、淀粉和蛋白質(zhì)的降解,可作為判斷曲香強(qiáng)弱的一個(gè)指標(biāo)[3-5]。酸度值檢測的傳統(tǒng)方法為電位滴定法,測定過程復(fù)雜且耗時(shí)長,不能及時(shí)地指導(dǎo)培曲生產(chǎn)[6-7]。
目前,相關(guān)學(xué)者對大曲研究更多是運(yùn)用相關(guān)統(tǒng)計(jì)學(xué)軟件分析大曲不同對象之間的相關(guān)性[8-11],較少運(yùn)用相關(guān)數(shù)學(xué)模型進(jìn)行量化分析,存在較大局限性,如:趙金松等[8]運(yùn)用多元統(tǒng)計(jì)、冗余分析(redundancy analysis,RDA)證實(shí)了揮發(fā)性特征組分與革蘭氏陽性(G+)菌量呈顯著正相關(guān);王世寬等[9]利用SPSS軟件分析得出溫度對乳酸菌、酵母菌、霉菌和細(xì)菌的變化有較強(qiáng)的相關(guān)性;唐賢華等[10]進(jìn)行窖外模擬發(fā)酵試驗(yàn),通過相關(guān)性分析發(fā)現(xiàn)糟醅的水分和酸度值與硬度、內(nèi)聚性、回復(fù)性呈顯著正相關(guān)(P<0.01),與黏著性呈顯著負(fù)相關(guān)(P<0.01);黃治國等[11]研究濃香型酒醅一個(gè)發(fā)酵周期中主要的微生物群落變化規(guī)律和酒醅理化指標(biāo)的變化規(guī)律,表明酒醅細(xì)菌群落的多樣性與淀粉的相關(guān)系數(shù)為0.717(P<0.01),與還原糖的相關(guān)系數(shù)為0.744(P<0.01),與總酸的相關(guān)系數(shù)為-0.704(P<0.01)。
本研究利用在大曲發(fā)酵周期(1~28 d)內(nèi)采集的大曲內(nèi)部溫度和水分?jǐn)?shù)據(jù),并結(jié)合電位滴定法測定的大曲酸度值數(shù)據(jù),建立發(fā)酵過程中大曲酸度值快速檢測的數(shù)學(xué)模型。首先對原始數(shù)據(jù)進(jìn)行異常樣本剔除,劃分樣本集,再分別運(yùn)用偏最小二乘回歸(partial least squares regression,PLSR)、支持向量回歸機(jī)(support vector regression,SVR)和反向傳播神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)建立大曲內(nèi)部溫度、水分與酸度值相關(guān)性預(yù)測模型,運(yùn)用決定系數(shù)與均方根誤差(root mean square error,RMSE)對訓(xùn)練集、測試集進(jìn)行效果評價(jià),找出最佳數(shù)學(xué)模型,并采用外部驗(yàn)證方式驗(yàn)證模型效果,為大曲指標(biāo)的快速檢測技術(shù)提供依據(jù),對于大曲生產(chǎn)技術(shù)進(jìn)步和產(chǎn)品質(zhì)量升級具有重大現(xiàn)實(shí)意義。
濃香型大曲:四川宜賓某酒業(yè)有限公司;氫氧化鈉(分析純):成都市科龍化工試劑廠。
PT100溫度傳感器:杭州美控自動(dòng)化技術(shù)有限公司;FDS-100土壤水分傳感器:邯鄲市叢臺(tái)銳達(dá)儀器設(shè)備有限公司;曲房監(jiān)測系統(tǒng):四川輕化工大學(xué)自制;CP214電子天平、STARTER 3100 pH計(jì):奧豪斯儀器(上海)有限公司;78-HW-1恒溫磁力攪拌器:金壇市醫(yī)療器械廠;ZDJ-5B型自動(dòng)滴定儀:廣州市深華生物技術(shù)有限公司。
1.3.1 數(shù)據(jù)的采集與檢測
利用曲房監(jiān)測系統(tǒng)采集濃香型大曲的內(nèi)部溫度和水分,培曲前13 d每天從兩間曲房分別采集4個(gè)不同濃香型大曲樣本,后15 d隔天采集,共160個(gè)樣本,另外再采集11個(gè)樣本(發(fā)酵時(shí)間為1 d、3 d、5 d、7 d、9 d、11 d、13 d、17 d、21 d、25 d、28 d)作為外部驗(yàn)證預(yù)測不參與建模,取樣點(diǎn)見圖1,并運(yùn)用電位滴定法[12]檢測監(jiān)測點(diǎn)大曲樣本的酸度值。
圖1 大曲取樣點(diǎn)分布Fig. 1 Distribution of sampling points of Daqu
1.3.2 數(shù)據(jù)分析方法
(1)樣本集劃分
為了達(dá)到充分訓(xùn)練模型的效果,訓(xùn)練集樣本數(shù)據(jù)要最大程度體現(xiàn)所有樣本數(shù)據(jù)狀況,根據(jù)K-S算法[13-15]將文中160個(gè)樣本數(shù)據(jù)按照3∶1的比例劃分為120個(gè)訓(xùn)練集樣本,40個(gè)測試集樣本。
(2)偏最小二乘回歸[16-17]
偏最小二乘回歸(PLSR)是一種新型的多元統(tǒng)計(jì)數(shù)據(jù)分析方法,它將多元線性回歸分析、主成分分析與典型相關(guān)分析有機(jī)結(jié)合起來,其建模原理也是建立在這3種分析方法之上的,通過從自變量集合中提取若干相互獨(dú)立的主成分來建立與因變量之間的關(guān)系。
具體建模方法:設(shè)有2個(gè)自變量X=(x1,x2)、1個(gè)因變量Y=(y1)和n個(gè)樣本點(diǎn),其中x1為大曲溫度,x2為水分,y1為大曲酸度,分別在X和Y中提取出主成分分量t1和u1,要求t1和u1應(yīng)盡可能大地?cái)y帶各自數(shù)據(jù)表中的變異信息,以及t1和u1的相關(guān)程度能夠達(dá)到最大,在第一個(gè)主成分分量t1和u1被提取后,分別實(shí)施X對t1以及Y對u1的回歸。若回歸方程此時(shí)已經(jīng)達(dá)到滿意的精度,則成分確定,否則將利用X被t1以及Y被u1解釋后的殘余信息進(jìn)行第二輪的成分提取,如此往復(fù),直到精度滿足要求為止。
(3)支持向量回歸機(jī)
支持向量回歸機(jī)(SVR)是一種監(jiān)督學(xué)習(xí)方法,廣泛應(yīng)用于分類和回歸問題,其是由VAPNIK V N[18]在基于統(tǒng)計(jì)學(xué)理論中結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的基礎(chǔ)上提出的。SVR最先是用來解決分類問題,后來通過使用替代懲罰函數(shù)(loss function)來解決回歸問題[19-22]。
大曲發(fā)酵酸度值預(yù)測模型樣本集合為{(xi,yi),…,(xs,ys)},i=1,2…,s,其中xi=(Xi1,Xi2)為大曲酸度值預(yù)測模型的特征矩陣,s=120,Xi1為大曲溫度,Xi2為大曲水分,yi為大曲發(fā)酵酸度值,通過求解函數(shù)f(x)來預(yù)測大曲溫度、水分對應(yīng)大曲發(fā)酵酸度值y值。
線性函數(shù)設(shè)為式(1):
式中:f(x)為大曲發(fā)酵酸度值預(yù)測模型輸出,ω、b為大曲發(fā)酵酸度值預(yù)測模型系數(shù)。
引入松弛變量ξi、ξ*i,可將支持向量機(jī)線性回歸求解問題轉(zhuǎn)化為優(yōu)化問題的方式確定ω的值。
式中:yi為大曲發(fā)酵酸度值預(yù)測樣本數(shù)據(jù)的輸出,xi為大曲發(fā)酵酸度值預(yù)測樣本數(shù)據(jù)的輸入,ε為松弛因子,C(C>0且為常數(shù))為懲罰因子。
在實(shí)際工作中,采用上述線性回歸方法,難以達(dá)到大曲發(fā)酵酸度值預(yù)測的精度要求,因此引入Lagrange對偶問題求解,得到式(4)。
式中:σ為高斯核寬度系數(shù)。
(4)BP神經(jīng)網(wǎng)絡(luò)[23]
BP神經(jīng)網(wǎng)絡(luò)(BPNN),即誤差反向傳播算法的學(xué)習(xí)過程,包括信息的正向傳播和誤差的反向傳播兩個(gè)過程。一般結(jié)構(gòu)可分為輸入層、隱含層、輸出層。在輸入層輸入訓(xùn)練集樣本,訓(xùn)練集樣本乘各自的連接權(quán)值輸入到隱含層,隱含層將上層傳遞下來的值再乘相應(yīng)的連接權(quán)值輸入給輸出層,輸出層根據(jù)期盼結(jié)果判斷神經(jīng)網(wǎng)絡(luò)處理是否正確,若正確則增加相應(yīng)的連接權(quán)值,相反,則減少相應(yīng)的權(quán)值。神經(jīng)元的輸出大曲酸度值yi可以表示為式(6)。
式中:xi(i=1,2,…,n)為當(dāng)前神經(jīng)元相連的其他神經(jīng)元傳遞的輸入信號,即xi=(X1,X2),X1為大曲溫度,X2為水分,wij為從神經(jīng)元j到神經(jīng)元i的連接強(qiáng)度或權(quán)值,θi為神經(jīng)元的激活閾值或偏置,f為激活函數(shù)或轉(zhuǎn)移函數(shù)神經(jīng)元的輸出。
(5)模型評價(jià)方法
為了驗(yàn)證3種算法得到模型的泛化能力和預(yù)測精度,采用決定系數(shù)R2與均方根誤差(RMSE)2個(gè)指標(biāo)進(jìn)行評價(jià),指標(biāo)計(jì)算公式分別見式(7)和式(8)。在樣本數(shù)據(jù)相同的前提下,R2越接近1,RMSE越接近0時(shí),模型的預(yù)測能力越強(qiáng)[24]。
式中:n為訓(xùn)練集樣本總數(shù);m為驗(yàn)證集樣本總數(shù);y?i為第i個(gè)樣本的預(yù)測值;yi為第i個(gè)樣本的實(shí)際測量值;ym為所有樣本實(shí)際測量值的平均值。
一個(gè)發(fā)酵周期(28 d)不同樣本大曲內(nèi)部溫度、水分和酸度值隨時(shí)間變化的曲線見圖2。
由圖2a可知,大曲內(nèi)部溫度變化呈現(xiàn)先上升后逐漸保持穩(wěn)定,再到緩慢下降的趨勢。前3天溫度迅速增長,可能是由于大曲內(nèi)部水分含量高,發(fā)酵前期微生物富集較快,第6天對曲房進(jìn)行第一次翻曲(收堆),引起溫度小幅下降,第18天進(jìn)行第二次翻曲(并房),導(dǎo)致溫度小幅上升。由圖2b可知,大曲內(nèi)部水分在整個(gè)發(fā)酵周期里呈現(xiàn)下降趨勢,前13天水分急劇下降,可能是由于霉菌等微生物大量生長繁殖產(chǎn)熱,大曲水分被蒸發(fā)和消耗,而在發(fā)酵后期水分呈緩慢下降趨勢,可能是溫度降低水分蒸發(fā)變慢。由圖2c可知,酸度值在整個(gè)發(fā)酵周期呈下降趨勢。前8天酸度值急劇下降,分析可能是產(chǎn)酸細(xì)菌大量繁殖,溫度迅速上升,產(chǎn)酸量增幅較大;發(fā)酵8~15 d酸度值下降趨勢稍緩,產(chǎn)酸細(xì)菌生長較穩(wěn)定,產(chǎn)酸量增幅較??;發(fā)酵后期,酸度值趨于平緩,表明產(chǎn)酸細(xì)菌生長受阻,此時(shí),大量的霉菌和酵母菌開始生長,產(chǎn)酸細(xì)菌則停止代謝。分析表明,大曲內(nèi)部溫度、水分與酸度值相關(guān)性無法直接獲得,需要借助現(xiàn)代數(shù)學(xué)方法建立相關(guān)預(yù)測模型,解析大曲內(nèi)部溫度、水分與酸度值之間的關(guān)系。
圖2 發(fā)酵過程中大曲內(nèi)部溫度(a)、水分(b)和酸度值(c)的變化Fig. 2 Changes in temperature (a), moisture (b) and acidity value (c)of Daqu during fermentation
2.2.1 PLSR法建立的大曲酸度值預(yù)測模型
PLSR法建立大曲酸度值預(yù)測模型的預(yù)測值與實(shí)測值的相關(guān)性散點(diǎn)分布見圖3。
采用PLSR法所建模型,在訓(xùn)練集與測試集上的決定系數(shù)R2、均方根誤差(RMSE)分別為0.796 9和0.784 7、0.159 0和0.137 2。由圖3可知,訓(xùn)練集與測試集的數(shù)據(jù)都偏離直線的數(shù)據(jù)點(diǎn)較多,故PLSR建立大曲酸度值預(yù)測模型性能很差,模型只能夠做近似運(yùn)算。
圖3 偏最小二乘回歸法大曲酸度值預(yù)測值與實(shí)測值的相關(guān)性Fig. 3 Correlation between the measured value and predicted value of Daqu acidity value by partial least square regression method
2.2.2 SVR法建立的大曲酸度值預(yù)測模型
SVR法建立大曲酸度值預(yù)測模型預(yù)測值與實(shí)測值的相關(guān)性散點(diǎn)分布見圖4。
圖4 支持向量回歸機(jī)法大曲酸度值預(yù)測值與實(shí)測值的相關(guān)性Fig. 4 Correlation between the measured value and predicted value of Daqu acidity value by support vector regression machine method
采用SVR法所建模型,在訓(xùn)練集與測試集上的決定系數(shù)R2、均方根誤差(RMSE)分別為0.916 7和0.896 7、0.101 8和0.101 0。由圖4可知,訓(xùn)練集與測試集的數(shù)據(jù)都較好的集中于直線兩側(cè),故模型性能良好,但樣本數(shù)據(jù)在訓(xùn)練集數(shù)據(jù)上的表現(xiàn)要比測試集上好,說明模型的泛化性能不好,抗干擾能力較差。
2.2.3 BPNN法建立的大曲酸度值預(yù)測模型
BPNN法建立大曲酸度值預(yù)測模型的預(yù)測值與實(shí)測值的相關(guān)性散點(diǎn)分布見圖5。
圖5 BP神經(jīng)網(wǎng)絡(luò)法大曲酸度值預(yù)測值與實(shí)測值的相關(guān)性Fig. 5 Correlation between the measured value and predicted value of Daqu acidity value by BP neural network method
采用BPNN法所建模型,在訓(xùn)練集與測試集上的決定系數(shù)R2、均方根誤差(RMSE)分別為0.901 3和0.874 5、0.110 8和0.104 8。由圖5可知,訓(xùn)練集與測試集的數(shù)據(jù)都較好的分布于直線兩側(cè),故模型性能良好,但測試集效果明顯不如SVR法的測試集效果且比PLSR法的測試集效果好,同SVR模型一樣模型的泛化性能不好,抗干擾能力較差。
2.2.4 預(yù)測模型的效果對比
由圖6可知,采用PLSR法建立的大曲酸度值預(yù)測模型不管是在訓(xùn)練集還是在測試集上性能都較差,而SVR、BPNN法建立的兩種大曲酸度值預(yù)測模型的精度均較高,模型的均方根誤差均較小,這表明本研究選取2個(gè)參數(shù)大曲內(nèi)部溫度、水分所建立的預(yù)測模型可以成功地對大曲酸度值進(jìn)行預(yù)測。此外,采用SVR法建立的大曲酸度值預(yù)測模型在訓(xùn)練集和預(yù)測集的決定系數(shù)與均方根誤差都比BPNN好且運(yùn)算時(shí)間更短,故采用SVR法建立的大曲酸度值預(yù)測模型性能要稍優(yōu)于BPNN法建立的大曲酸度值預(yù)測模型,具有更好的實(shí)用性。SVR模型具有更強(qiáng)大的非線性擬合能力,因而具有較強(qiáng)的優(yōu)越性。
圖6 三種算法預(yù)測結(jié)果對比Fig. 6 Comparison of prediction results of three algorithms
為了進(jìn)一步驗(yàn)證模型的準(zhǔn)確性和穩(wěn)定性,采用外部驗(yàn)證方式驗(yàn)證模型效果,即將未參與建模的11個(gè)預(yù)測樣本組成的驗(yàn)證集代入模型進(jìn)行預(yù)測,同時(shí)與電位滴定法測得的真實(shí)值進(jìn)行比較,對比結(jié)果見表1。由表1知,酸度值實(shí)際值和預(yù)測值都呈下降的趨勢,且模型驗(yàn)證集的大曲酸度值結(jié)果與電位滴定法測得的真實(shí)值相比,最小相對誤差為1.6%,最大相對誤差為11.1%。
表1 酸度真實(shí)值與預(yù)測值結(jié)果對比Table 1 Comparison of actual acidity and predicted results
大曲發(fā)酵過程中的酸度值與大曲內(nèi)部溫度、水分相關(guān)性無法直接獲取,必須借助現(xiàn)代數(shù)學(xué)方法進(jìn)行分析。分別使用偏最小二乘回歸(PLSR)、支持向量回歸機(jī)(SVR)、BP神經(jīng)網(wǎng)絡(luò)(BPNN)建立大曲內(nèi)部溫度、水分與酸度值的關(guān)聯(lián)性預(yù)測模型,綜合評價(jià)指標(biāo)顯示支持向量回歸機(jī)(SVR)所建大曲酸度值預(yù)測模型效果最好,測試集上的決定系數(shù)(R2)為0.874 5,均方根誤差(RMSE)為0.104 8。該模型經(jīng)外部驗(yàn)證后,模型酸度的預(yù)測值與實(shí)際值的相對誤差為1.6%~11.1%,可以通過檢測大曲內(nèi)部溫度、水分直接預(yù)測出大曲酸度值。本研究通過對大曲發(fā)酵過程酸度值的實(shí)時(shí)、無損檢測,為所有種類大曲酸度值的檢測提供了新方法,為其他理化指標(biāo)的實(shí)時(shí)、無損檢測提供了新思路,為大曲在線檢測與控制系統(tǒng)的開發(fā)提供了理論支撐。