姚澤遠(yuǎn),卜原玲,韓 偉
(華東理工大學(xué) 藥學(xué)院 制藥工程與過程化學(xué)教育部工程研究中心 上海市新藥設(shè)計(jì)重點(diǎn)實(shí)驗(yàn)室,上海 200237)
靈芝三萜作為靈芝的化學(xué)成分之一,以較少的含量在多個(gè)方面都呈現(xiàn)了較強(qiáng)的藥理活性[1-4]。目前,對(duì)靈芝三萜類化合物的研究主要集中在藥理藥效或化學(xué)成分等方面[5]。對(duì)靈芝三萜的提取大多仍是使用傳統(tǒng)的熱回流提取,該法存在耗時(shí)長(zhǎng)、能耗高、有機(jī)溶劑用量大等缺點(diǎn)[6]。超聲波輔助提取則憑借超聲波在提取過程中產(chǎn)生的空化效應(yīng)和機(jī)械效應(yīng)等,有著提取時(shí)間短、提取溫度低、提取率高等優(yōu)點(diǎn)[7],本文將通過單因素實(shí)驗(yàn)確定超聲波輔助提取工藝各因素的中心點(diǎn)和范圍,采用篩選實(shí)驗(yàn)設(shè)計(jì)Plackett-Burman(PB)篩選出對(duì)靈芝總?cè)频寐视绊戯@著的因素,并采用響應(yīng)面法對(duì)篩選出來的因素通過建立模型進(jìn)行工藝優(yōu)化。
深度神經(jīng)網(wǎng)絡(luò)(DNN)作為具有多個(gè)隱藏層的判別模型,能夠?yàn)閺?fù)雜的非線性關(guān)系建立模型,從更高的抽象層次發(fā)現(xiàn)數(shù)據(jù)之間的潛在聯(lián)系,可用于模擬非常復(fù)雜的實(shí)驗(yàn)條件和參數(shù)[8],在計(jì)算視覺、工程造價(jià)、生物醫(yī)學(xué)等領(lǐng)域都得到廣泛認(rèn)可[9-12]。蒙特卡洛算法是一種依靠重復(fù)隨機(jī)抽樣和統(tǒng)計(jì)分析來計(jì)算結(jié)果的隨機(jī)方法,特別適用于一些解析法求解非常困難甚至不可能求解的問題,同時(shí)擁有設(shè)置參數(shù)少、性能優(yōu)等優(yōu)點(diǎn),近年來在迭代和優(yōu)化領(lǐng)域均有著良好的表現(xiàn)[13]。
本文基于單因素、PB、Box-Behnken響應(yīng)面實(shí)驗(yàn)得到的數(shù)據(jù),建立一種全新的基于深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化模型,結(jié)合蒙特卡洛算法對(duì)建立的模型進(jìn)行尋優(yōu)以確定最佳工藝參數(shù),并與實(shí)驗(yàn)優(yōu)化結(jié)果進(jìn)行比較。
龍芝2號(hào)靈芝子實(shí)體由上海農(nóng)業(yè)科學(xué)院食用菌研究所提供。
齊墩果酸標(biāo)準(zhǔn)品(質(zhì)量分?jǐn)?shù)>97%),北京沃凱生物科技有限公司;高氯酸、無水乙醇、香草醛、乙酸,分析純,上海泰坦科技股份有限公司。
UV-1901PC型紫外-可見分光光度計(jì),上海亞研電子科技有限公司;KH-600KDB型高功率數(shù)控超聲波清洗器,昆山禾創(chuàng)超聲儀器有限公司;RE-2010型旋轉(zhuǎn)蒸發(fā)器,上海予華儀器設(shè)備有限公司。
文中使用了Design-Expert 12.0和Origin 2018軟件,還使用了PyCharm的Python version 3.6深度學(xué)習(xí)程序,包括:Pytorch框架,Pandas和NumPy數(shù)值處理庫(kù),SciPy和Statsmodels統(tǒng)計(jì)分析庫(kù),Matplotlib和Seaborn可視化工具。
采用香草醛-冰醋酸顯色法[14-15]測(cè)定總?cè)频暮俊R墩果酸作為標(biāo)準(zhǔn)品配制成0.105 mg/mL的標(biāo)準(zhǔn)品溶液,與香草醛質(zhì)量分?jǐn)?shù)為5%的冰醋酸溶液在酸性環(huán)境下進(jìn)行顯色反應(yīng),使用紫外-可見分光光度計(jì)測(cè)試400~800 nm的吸光度,得到最大吸收波長(zhǎng)為546 nm。在546 nm波長(zhǎng)下測(cè)定不同質(zhì)量濃度的齊墩果酸標(biāo)準(zhǔn)品溶液的吸光度,線性擬合得到吸光度(A)與齊墩果酸質(zhì)量(M)的標(biāo)準(zhǔn)曲線:A=6.736 1M+0.103 7,相關(guān)系數(shù)為0.999 4。
通過單因素、PB以及響應(yīng)面實(shí)驗(yàn)對(duì)靈芝總?cè)频奶崛」に囘M(jìn)行優(yōu)化并收集實(shí)驗(yàn)數(shù)據(jù),將這些數(shù)據(jù)用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和建立,總體流程見圖1。
圖1 靈芝總?cè)频奶崛」に噧?yōu)化步驟
1.4.1 深度神經(jīng)網(wǎng)絡(luò)的建立
使用Pandas和NumPy數(shù)值處理庫(kù)對(duì)單因素、PB、響應(yīng)面實(shí)驗(yàn)得到的所有數(shù)據(jù)進(jìn)行預(yù)處理和隨機(jī)劃分,按照8∶2得到對(duì)應(yīng)的訓(xùn)練和測(cè)試數(shù)據(jù)集。針對(duì)得到的數(shù)據(jù)集使用Pytorch框架開發(fā)Python的腳本構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型(圖2):第1層為輸入層(T0),即輸入特征(Xi),分別為乙醇體積分?jǐn)?shù)、液固比、提取時(shí)間、超聲功率和提取溫度,神經(jīng)元數(shù)量(L0)為 5;中間3層為隱藏層(T1,T2,T3),神經(jīng)元數(shù)量(Lj,j=1,2,3)分別設(shè)置為16、64和64,并進(jìn)行歸一化;第4層為輸出層(T4),即輸出的預(yù)測(cè)值(Y),對(duì)應(yīng)總?cè)频寐?神經(jīng)元數(shù)量(L4)為1。模型選擇ReLU函數(shù)激活隱藏層,優(yōu)化函數(shù)選擇隨機(jī)梯度下降,學(xué)習(xí)率設(shè)置為 0.1,迭代次數(shù)設(shè)置為 200 次。
圖2 靈芝總?cè)铺崛」に囶A(yù)測(cè)的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
1.4.2 深度神經(jīng)網(wǎng)絡(luò)的性能驗(yàn)證
模型的性能結(jié)果使用均方誤差(MSE)、平均絕對(duì)誤差(MAE)、決定系數(shù)(R2)以及Pearson相關(guān)系數(shù)(r)來表述,具體見式(1)—(4)。
(1)
(2)
(3)
(4)
在模型構(gòu)建完成后,使用蒙特卡洛算法尋找最優(yōu)模型參數(shù),一般分為3個(gè)步驟:構(gòu)造隨機(jī)概率的過程;從構(gòu)造隨機(jī)概率分布中抽樣;求解估計(jì)量,從而預(yù)測(cè)得到最優(yōu)的總?cè)乒に噮?shù)。具體公式見式(5)。
(5)
式中:f(Xi)為深度神經(jīng)網(wǎng)絡(luò)模型模擬得到的函數(shù);p(Xi)是隨機(jī)變量Xi的概率密度函數(shù);N是設(shè)置隨機(jī)樣本的數(shù)量,文中N=107;FN是對(duì)f(Xi)的期望值。
在工藝參數(shù)(提取溫度60 ℃、提取時(shí)間20 min、液固比20 mL/g、超聲功率300 W以及乙醇體積分?jǐn)?shù)90%)基本固定的條件下,通過分別調(diào)節(jié)對(duì)應(yīng)參數(shù)研究各因素對(duì)靈芝總?cè)频寐实挠绊?結(jié)果見圖3—7。
圖3 不同超聲功率對(duì)靈芝總?cè)频寐实挠绊?/p>
由圖3可知:總體上,增大超聲功率有利于提高靈芝總?cè)频牡寐?但是當(dāng)超聲功率超過300 W,過大的功率可能導(dǎo)致部分活性成分的分解,使得靈芝總?cè)频牡寐史炊兴陆?。?jù)此,確定300 W為最佳的超聲功率。
提取溫度為60 ℃時(shí)有著最高的總?cè)频寐?圖4)。可能是因?yàn)槿軇囟鹊纳邥?huì)導(dǎo)致蒸汽壓增大,更多氣體進(jìn)入超聲波產(chǎn)生的空泡中,空泡破裂的劇烈程度降低,導(dǎo)致空化效應(yīng)減弱[16],這同樣會(huì)導(dǎo)致總?cè)频寐实慕档?。因?選擇60 ℃為最佳的提取溫度。
圖4 不同提取溫度對(duì)靈芝總?cè)频寐实挠绊?/p>
由圖5可知:較長(zhǎng)的超聲提取時(shí)間能夠保證溶劑對(duì)提取物的滲透,同時(shí)也保證了超聲波所需要破壁的總能量。但是,過長(zhǎng)的時(shí)間會(huì)使得過多的活性物質(zhì)浸泡在高溫溶劑中,進(jìn)而導(dǎo)致活性物質(zhì)失活,因此,提取時(shí)間選擇20 min為宜。
圖5 不同提取時(shí)間對(duì)靈芝總?cè)频寐实挠绊?/p>
過低的液固比會(huì)使溶質(zhì)在溶劑中過飽和,導(dǎo)致傳質(zhì)速度的下降。液固比增加,提取物組分與溶劑接觸的總體積將增大,得率隨之增加。由圖6可知:當(dāng)液固比達(dá)到25 mL/g時(shí),靈芝總?cè)频娜芙獾竭_(dá)平衡狀態(tài),此時(shí)得率最高。因此,將25 mL/g作為最佳的液固比。
圖6 不同液固比對(duì)靈芝總?cè)频寐实挠绊?/p>
植物中的天然抗氧化劑大部分易溶于低極性的有機(jī)溶劑中[17],同時(shí),三萜類化合物因含有極性基團(tuán)而使其極性略有增加。選擇體積分?jǐn)?shù)為60%、70%、80%、90%、100% 的乙醇為溶劑,探究乙醇體積分?jǐn)?shù)對(duì)總?cè)频寐实挠绊?圖7)。由圖7可得:乙醇體積分?jǐn)?shù)為80%時(shí),靈芝總?cè)频寐首罡摺?/p>
圖7 不同乙醇體積分?jǐn)?shù)對(duì)靈芝總?cè)频寐实挠绊?/p>
根據(jù)單因素實(shí)驗(yàn)結(jié)果得到各因素的中心點(diǎn),通過PB對(duì)乙醇體積分?jǐn)?shù)(X1)、液固比(X2)、提取時(shí)間(X3)、超聲功率(X4)和提取溫度(X5)這5個(gè)因素進(jìn)行篩選。以靈芝總?cè)频寐蕿轫憫?yīng)值,使用Design-Expert 12.0軟件進(jìn)行實(shí)驗(yàn)設(shè)計(jì)(表1)并進(jìn)行顯著性分析(表2)。
表1 PB實(shí)驗(yàn)因素水平
表2 PB實(shí)驗(yàn)顯著性分析
由表2可知:該模型的P=0.020 6<0.05,說明所考察因素對(duì)靈芝總?cè)频寐视绊戯@著,其中提取溫度和提取時(shí)間的影響顯著(P<0.05),超聲功率的影響極顯著(P<0.01)。這3個(gè)因素將作為后續(xù)工藝優(yōu)化的主要研究對(duì)象。
2.3.1 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果
將PB篩選出的對(duì)得率影響顯著的3個(gè)因素(提取時(shí)間、超聲功率和提取溫度)作為響應(yīng)因子,靈芝總?cè)频寐?Y)為響應(yīng)值,采用Design-Expert 12.0軟件進(jìn)行實(shí)驗(yàn)設(shè)計(jì),建立3因素3水平優(yōu)化表(表3),結(jié)果見表4。
表3 響應(yīng)面實(shí)驗(yàn)設(shè)計(jì)
表4 實(shí)驗(yàn)設(shè)計(jì)和結(jié)果
2.3.2 響應(yīng)面模型的建立和方差分析
響應(yīng)面模型分析3個(gè)因素之間的交互作用,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行二階多項(xiàng)式擬合,最終得到靈芝總?cè)频寐逝c3個(gè)變量的編碼二次方程模型:Y=1.48+0.050 4A-0.001 2B+0.101 4C-0.002 7AB-0.047 1AC+0.006 7BC+0.002 2A2-0.035 8B2+0.000 6C2。
檢驗(yàn)結(jié)果采用方差分析和多元線性回歸分析,使用P和F值評(píng)價(jià)回歸方程的顯著性,結(jié)果見表5。由表5可見:模型的P<0.000 1,表明整個(gè)模型極為顯著,可以用來研究3個(gè)因素和響應(yīng)值的交互作用。模型使用了失擬指標(biāo)檢驗(yàn)?zāi)P偷倪m應(yīng)性,其失擬項(xiàng)P=0.530 2>0.05,表明該模型失擬不顯著,對(duì)實(shí)驗(yàn)結(jié)果的擬合效果良好且較為準(zhǔn)確。
表5 靈芝總?cè)频寐实姆讲罘治?/p>
分析得到模型相關(guān)系數(shù)為0.976 4,修正相關(guān)系數(shù)為0.946 0,預(yù)測(cè)修正相關(guān)系數(shù)為0.829 4,變異系數(shù)為1.030 0,信噪比為19.683 2。模型相關(guān)系數(shù)為0.976 4,表明實(shí)際值與模型的預(yù)測(cè)值在絕大多數(shù)情況下高度相關(guān);修正相關(guān)系數(shù)(0.946 0)略小于模型相關(guān)系數(shù)(0.976 4)且預(yù)測(cè)修正相關(guān)系數(shù)(0.829 4)與修正相關(guān)系數(shù)(0.946 0)的差值<0.120 0,表明數(shù)據(jù)波動(dòng)在一個(gè)合理的范圍;模型的信噪比為19.683 2,驗(yàn)證該模型具有良好擬合的可信度。以上結(jié)果均能表明該響應(yīng)面模型能夠充分反映響應(yīng)值與自變量之間的準(zhǔn)確聯(lián)系。
2.3.3 響應(yīng)面分析
根據(jù)響應(yīng)面回歸方程作出兩因子交互作用圖(圖8—10)。由圖8可知:該響應(yīng)曲面的形狀起伏較大,顯示提取時(shí)間與溫度之間的顯著相互作用,并且靈芝總?cè)频牡寐孰S二者的變大而一起提高。由圖9可知:功率對(duì)總?cè)频寐实挠绊懖蝗缣崛囟蕊@著,過低的提取溫度會(huì)使得率急劇下降,而單獨(dú)調(diào)整超聲功率,結(jié)果的變化程度較小。由圖10可知:靈芝總?cè)频寐蕰?huì)隨著提取時(shí)間的延長(zhǎng)而增大,而超聲功率則控制在 280~320 W為宜。
圖8 提取時(shí)間與提取溫度交互影響的響應(yīng)曲面
圖9 超聲功率與提取溫度交互影響的響應(yīng)曲面
圖10 提取時(shí)間與超聲功率交互影響的響應(yīng)曲面
通過響應(yīng)面模型對(duì)提取工藝參數(shù)尋優(yōu),預(yù)測(cè)得到最佳提取工藝:超聲功率為326.289 W,提取溫度為67.795 ℃,提取時(shí)間為22.203 min,液固比為25 mL/g,乙醇體積分?jǐn)?shù)為80%。在此工藝條件下靈芝總?cè)频寐实念A(yù)測(cè)值為1.784%。
根據(jù)機(jī)器功率限制和方便操作的原則進(jìn)行調(diào)整,確定工藝參數(shù):超聲功率為300 W,提取時(shí)間為22 min,提取溫度為68 ℃,液固比為25 mL/g,乙醇體積分?jǐn)?shù)為80%。在此工藝參數(shù)下預(yù)測(cè)得率為1.784%,實(shí)際測(cè)得靈芝總?cè)频寐蕿?.713%,相對(duì)誤差為3.98%。
基于深度神經(jīng)網(wǎng)絡(luò)的框架,收集響應(yīng)面、PB和單因素實(shí)驗(yàn)得到的17組、12組、25組數(shù)據(jù),隨后對(duì)相同實(shí)驗(yàn)參數(shù)得到的數(shù)據(jù)進(jìn)行平均化,整合得到47組樣本數(shù)據(jù),隨機(jī)選擇38組為訓(xùn)練數(shù)據(jù)集,剩余9組為測(cè)試數(shù)據(jù)集,構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型并進(jìn)行評(píng)估,結(jié)果如圖11所示。
圖11 深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練迭代過程
由圖11可知:神經(jīng)網(wǎng)絡(luò)在44次迭代后,訓(xùn)練集預(yù)測(cè)輸出樣本的均方誤差和決定系數(shù)趨于不變,模型已達(dá)到收斂。經(jīng)均方誤差公式計(jì)算,訓(xùn)練集的均方誤差為0.001 6,平均絕對(duì)誤差為0.022,決定系數(shù)為0.900;測(cè)試集的均方誤差為0.022,平均絕對(duì)誤差為0.13,表明該深度神經(jīng)網(wǎng)絡(luò)模型能夠較精準(zhǔn)的預(yù)測(cè)靈芝總?cè)频寐省?/p>
在構(gòu)建模型之后,利用SciPy和Statsmodels統(tǒng)計(jì)分析庫(kù),分別計(jì)算乙醇體積分?jǐn)?shù)、液固比、提取時(shí)間、超聲功率和提取溫度5個(gè)實(shí)驗(yàn)參數(shù)的Pearson相關(guān)系數(shù),發(fā)現(xiàn)提取時(shí)間、超聲功率對(duì)靈芝總?cè)频寐视泻軓?qiáng)的相互作用(r<0.05)。利用matplotlib和Seaborn可視化工具圖得到演示深度神經(jīng)網(wǎng)絡(luò)模型,模擬靈芝總?cè)频寐孰S乙醇體積分?jǐn)?shù)、液固比、提取時(shí)間、超聲功率和提取溫度的四維變化圖(圖12)。
圖12 靈芝總?cè)频寐实乃木S變化
由圖12可見:乙醇體積分?jǐn)?shù)為75%~95%時(shí),靈芝總?cè)频寐瘦^高,液固比的變化對(duì)得率的影響不顯著,二者的交互作用也很弱。當(dāng)乙醇體積分?jǐn)?shù)和液固比控制在一個(gè)較合理的范圍時(shí),提取時(shí)間不足時(shí)靈芝總?cè)频寐屎艿?15~30 min是一個(gè)較合理的提取時(shí)長(zhǎng)。超聲功率則需要控制在一個(gè)中等水平,過高或過低都會(huì)降低靈芝總?cè)频寐?。?duì)于提取溫度,過高的提取溫度會(huì)導(dǎo)致其他工藝參數(shù)的可變范圍急劇縮小。
基于已構(gòu)建的深度神經(jīng)模型,應(yīng)用蒙特卡洛算法尋找總?cè)频寐实淖顑?yōu)解,運(yùn)行結(jié)果如下:搜索空間為5×104,運(yùn)行時(shí)間為2 min,得到深度神經(jīng)模型預(yù)測(cè)靈芝總?cè)频寐首顑?yōu)解為 1.878%。該結(jié)果的實(shí)驗(yàn)條件:乙醇體積分?jǐn)?shù)為87.665%,液固比為17.229 mL/g,提取時(shí)間為12.171 min,超聲功率為342.865 W,提取溫度為57.862 ℃。
根據(jù)機(jī)器功率限制和方便操作的原則進(jìn)行調(diào)整,確定工藝參數(shù):超聲功率為360 W,提取時(shí)間為12 min,提取溫度為58 ℃,液固比為17 mL/g,乙醇體積分?jǐn)?shù)為88%。在此工藝參數(shù)下,預(yù)測(cè)得率為1.878%,實(shí)際測(cè)得靈芝總?cè)频寐蕿?.805%,相對(duì)誤差為3.89%。
本文通過深度神經(jīng)網(wǎng)絡(luò)優(yōu)化后的得率高于周曉等[18](1.30%)、洪文龍等[19](1.27%)的研究結(jié)果。
1)通過單因素實(shí)驗(yàn)得到各因素的中心點(diǎn):超聲功率為300 W,提取溫度為60 ℃,提取時(shí)間為20 min,乙醇體積分?jǐn)?shù)為80%,液固比為25 mL/g。
2)使用PB篩選得到對(duì)靈芝總?cè)频寐视绊戯@著的3個(gè)因素:提取溫度、提取時(shí)間、超聲功率。
3)建立響應(yīng)面模型得到優(yōu)化的工藝參數(shù):超聲功率為300 W,提取時(shí)間為22 min,提取溫度為68 ℃,液固比為25 mL/g,乙醇體積分?jǐn)?shù)為80%。預(yù)測(cè)得率為1.784%,實(shí)際測(cè)得靈芝總?cè)频寐蕿?.713%,相對(duì)誤差為3.98%。
4)構(gòu)建深度神經(jīng)網(wǎng)絡(luò)并使用蒙特卡洛算法進(jìn)行預(yù)測(cè)與尋優(yōu),得到最優(yōu)工藝參數(shù):超聲功率為360 W,提取時(shí)間為12 min,提取溫度為58 ℃,液固比為17 mL/g,乙醇體積分?jǐn)?shù)為88%。預(yù)測(cè)得率為1.878%,實(shí)際測(cè)得靈芝總?cè)频寐蕿?.805%,相對(duì)誤差為3.89%。比較了兩種不同方法對(duì)靈芝總?cè)频某曒o助提取工藝的優(yōu)化結(jié)果,發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行學(xué)習(xí)并結(jié)合蒙特卡洛算法進(jìn)行尋優(yōu)即可得到更優(yōu)的工藝條件和更準(zhǔn)確的預(yù)測(cè)結(jié)果,在工藝優(yōu)化方面有著廣闊的前景。