馬詩瑜,何敬成,詹陸川,林偉杰,林思濠,5,胡小剛,卞曉嵐△
(1. 上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院,上海 200023; 2. 南方醫(yī)科大學(xué)順德醫(yī)院,廣東佛山 528000;3. 廣東省人民醫(yī)院,廣東廣州 510000; 4. 廣東省珠海市人民醫(yī)院·暨南大學(xué)附屬珠海醫(yī)院,廣東珠海519099; 5. 上海健康醫(yī)學(xué)院藥學(xué)院,上海 201318; 6. 重慶大學(xué)附屬腫瘤醫(yī)院,重慶 400030)
人工神經(jīng)網(wǎng)絡(luò)算法的主要特點是模仿人腦處理信息,具有自學(xué)習(xí)、自組織、自適應(yīng)能力[1-2],很強的容錯能力,分布儲存與并行處理信息的功能及高度非線性表達能力[3-4]。與正交試驗法相比,神經(jīng)網(wǎng)絡(luò)具有學(xué)習(xí)規(guī)則、自我訓(xùn)練的能力,在給定區(qū)域內(nèi)或預(yù)測網(wǎng)絡(luò)下均可進行優(yōu)化[5],使試驗結(jié)果更可靠、穩(wěn)定,且無須目標(biāo)函數(shù)具備明確的數(shù)學(xué)表達式,就可快速得到最優(yōu)解[6]。本研究中以自擬清瘟方為例,通過多種神經(jīng)網(wǎng)絡(luò)算法對其水提工藝正交試驗結(jié)果進行進一步預(yù)測,并對提取條件參數(shù)進行優(yōu)化,旨在完善和彌補正交試驗中的不足,如解答正交試驗中無法處理缺失值、存在局部最優(yōu)解等困惑,以期最終降低中藥制劑尤其是醫(yī)療機構(gòu)制劑的開發(fā)成本、節(jié)省工藝驗證成本等。
本方臨床以水煎劑應(yīng)用,故以水為溶劑,以傳統(tǒng)煎煮方法制備樣品。按處方量稱取全方藥材(金銀花9 g,魚腥草、板藍根、大青葉、貫眾各15 g),分別取9 份。參照2020 年版《中國藥典(一部)》,以料液比(因素A)、提取時間(因素B)、提取次數(shù)(因素C)為考察因素,以綠原酸、木犀草苷、靛藍、靛玉紅含量,干膏得率及綜合評分(采用加權(quán)評分法計算得到)為考察指標(biāo)進行L9(34)正交試驗,確定最佳提取工藝。設(shè)定干膏得率及靛藍、靛玉紅、綠原酸、木犀草苷含量的加權(quán)系數(shù)分別為0.2,0.1,0.3,0.1,0.3,綜合評分=(干膏得率/干膏得率最大值× 0.2 + 靛藍含量/靛藍含量最大值× 0.1 +綠原酸含量/ 綠原酸含量最大值× 0.1 + 木犀草苷含量/木犀草苷含量最大值×0.3+靛玉紅含量/靛玉紅含量最大值×0.3)×100。因素與水平見表1,正交試驗設(shè)計與結(jié)果見表2,極差分析結(jié)果見表3,方差分析結(jié)果見表4至表6。
表1 因素與水平Tab.1 Factors and their levels
表2 L9(34)正交試驗設(shè)計與結(jié)果Tab.2 Design and results of the L9(34)orthogonal test
表3 極差分析結(jié)果Tab.3 Results of the range analysis
表4 綜合評分值的方差分析結(jié)果Tab.4 Results of the ANOVA of comprehensive score
表5 綠原酸含量的方差分析結(jié)果Tab.5 Results of the ANOVA of chlorogenic acid content
表6 木犀草苷含量的方差分析結(jié)果Tab.6 Results of the ANOVA of luteoloside content
可見,以不同指標(biāo)分析可能得到不同的制劑參數(shù),且發(fā)現(xiàn)影響提取條件的權(quán)重也不完全相同。對于不同的指標(biāo)(綜合評分值、綠原酸含量、木犀草苷含量),不同的處理影響因素對結(jié)果均無顯著影響。且存在未測出的值時(靛藍和靛玉紅含量),無法準(zhǔn)確進行相應(yīng)的方差分析和極差分析。以綜合評分值為例,最優(yōu)方案為A2B1C3及A2B1C2。而以綠原酸、木犀草苷含量為評價指標(biāo)時,最優(yōu)方案分別為A1B1C2和A2B1C2,暫定為A2B1C2,即料液比1∶10(g/mL),提取2 次,每次30 min。此外,設(shè)計綜合評分時,對所有有效成分的權(quán)重權(quán)衡后設(shè)定了不同的加權(quán)系數(shù),也會在一定程度上影響綜合評分結(jié)果。
可見,對正交試驗的結(jié)果使用極差分析和方差分析時,會因選擇不同的指標(biāo)而出現(xiàn)結(jié)果不一致的情況,造成無法選取最優(yōu)提取參數(shù)的情況。故有必要引入神經(jīng)網(wǎng)絡(luò)算法篩選提取參數(shù)。
本研究中采用前期正交試驗得到的9組樣本數(shù)據(jù),但為獲得更可信的神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果,因此增加了虛擬樣本量進行訓(xùn)練,在實際生產(chǎn)中,由于原料產(chǎn)地、批次差異、操作條件不同,檢測儀器本身的原因等,輸入變量和實際值會存在微小但不可避免的誤差,在此誤差范圍內(nèi)的輸入值與輸出值應(yīng)對應(yīng)。虛擬樣本的生成方法是在每個實際樣本的數(shù)據(jù)上增加一個±Δi值,本研究中Δi取±0.1%,使每個實際樣本產(chǎn)生9 個虛擬樣本,由此參加神經(jīng)網(wǎng)絡(luò)訓(xùn)練的樣本共90 個,增加了訓(xùn)練空間內(nèi)的樣本密度。
采用多層感知器?(MLP)神經(jīng)網(wǎng)絡(luò)算法、反向傳播(BP)和徑向基(RBF)神經(jīng)網(wǎng)絡(luò)算法、遺傳算法(GA)-BP神經(jīng)網(wǎng)絡(luò)算法以正交試驗中3種因素水平為輸入,6種指標(biāo)(Gel、L、M、Q、H、綜合評分值S)為輸出,隨機抽取70%樣本進行訓(xùn)練,剩余樣本進行測試。BP及RBF神經(jīng)網(wǎng)絡(luò)設(shè)定最大訓(xùn)練次數(shù)為1 000 次,隱藏層神經(jīng)元設(shè)定為9,GA-BP網(wǎng)絡(luò)設(shè)定最大訓(xùn)練次數(shù)為5 000次,設(shè)定2個隱藏層,隱藏層神經(jīng)元設(shè)定為5和6,通過誤差平方和決定遺傳迭代次數(shù)。通過決定系數(shù)R2可評價模型擬合的優(yōu)與劣。
MLP 神經(jīng)網(wǎng)絡(luò)算法:共訓(xùn)練了66 個樣本(73.33%),測試了24 個樣本(26.67%)。建立的神經(jīng)網(wǎng)絡(luò)為2個隱藏層,隱藏層1,2中的節(jié)點數(shù)分別為5個和4個,訓(xùn)練集中的平方和誤差為5.803,標(biāo)度因變量的相對誤差分別為0.12(L)、0.032(S)、0.062(Gel)、0.096(Q)、0.005(H)、0.126(M)。測試集中的平方和誤差為2.561,標(biāo)度因變量的相對誤差分別為0.108(L)、0.021(S)、0.288(Gel)、0.027(Q)、0.004(H)、0.091(M)。該神經(jīng)網(wǎng)絡(luò)中認為影響因素的權(quán)重大小為B>A>C(圖1)。對該神經(jīng)網(wǎng)絡(luò)的預(yù)測值與原始實際值進行比較,得出殘差圖,圖中越接近0,表示預(yù)測結(jié)果越準(zhǔn)確(見圖2)。MLP 預(yù)測中樣本的平均誤差率較大,分別為8.07%(Gel),9.41%(Q),4.37(L),20.75%(H),6.77%(M)和9.19%(S)。因此,應(yīng)考慮進一步選擇其他的神經(jīng)網(wǎng)絡(luò)進行預(yù)測和優(yōu)化。
圖1 MLP神經(jīng)網(wǎng)絡(luò)分析的因素重要性Fig.1 Importance of factors by the MLP neural network
BP神經(jīng)網(wǎng)絡(luò)和RBF神經(jīng)網(wǎng)絡(luò)算法:輸入?yún)?shù)見圖3。干膏得率、綠原酸含量、木犀草苷含量、綜合評分值的預(yù)測中,BP 神經(jīng)網(wǎng)絡(luò)算法的R2值均明顯優(yōu)于RBF 神經(jīng)網(wǎng)絡(luò),而靛藍和靛玉紅含量中RBF 神經(jīng)網(wǎng)絡(luò)算法的R2以微弱優(yōu)勢優(yōu)于BP 神經(jīng)網(wǎng)絡(luò)算法。相對誤差率,BP 神經(jīng)網(wǎng)絡(luò)和RBF 神經(jīng)網(wǎng)絡(luò)算法的平均相對誤差率對于每個指標(biāo)分別為0.12%/ 0.2%(Gel)、1.15%/ 0.10%(Q)、0.18%/ 0.26%(H)、0.05%/ 4.57%(L)、0.13%/1.75%(M)、0.072%/ 0.46%(S),詳見圖4??梢姡褂肂P 神經(jīng)網(wǎng)絡(luò)進行預(yù)測,將獲得更小的誤差和更優(yōu)的決定系數(shù)。但BP 神經(jīng)網(wǎng)絡(luò)算法的預(yù)測中發(fā)現(xiàn)存在局部最優(yōu)解問題,即不同的指標(biāo)得到不同的最好優(yōu)化參數(shù),但無法通過6個指標(biāo)給出統(tǒng)一的優(yōu)化參數(shù),故使用遺傳算法進一步解決該問題。
圖3 不同指標(biāo)的BP和RBF神經(jīng)網(wǎng)絡(luò)算法的輸入?yún)?shù)A.Gel B.Q C.H D.L E.M F.SFig.3 Input parameters of different indicators by the BP and RBF neural networks
圖4 BP神經(jīng)網(wǎng)絡(luò)和RBF神經(jīng)網(wǎng)絡(luò)預(yù)測值及決定系數(shù)的比較A.Gel B.Q C.H D.L E.M F.SFig.4 Comparison of predicted value and R2 between the BP and RBF neural networks
GA-BP 神經(jīng)網(wǎng)絡(luò)算法:輸入?yún)?shù)見圖5。遺傳迭代到60 次后,誤差平方和最?。▓D6),不同指標(biāo)中預(yù)測值與實際值(圖7、圖8)的均方誤差分別為0.28(Gel)、0.000 021(Q)、0.000 088(H)、0.022(L)、0.000 83(M)和0.23(S)。最優(yōu)參數(shù)及最優(yōu)預(yù)測值分別為:料液比0.099(g/ mL),提取時間29.97 min,提取次數(shù)2 次,Gel:27.81,Q:1.72,H:7.56,L:121.84,M:9.79,S:91.07。GA - BP 神經(jīng)網(wǎng)絡(luò)預(yù)測出的最優(yōu)參數(shù)與正交試驗方案一致。
圖5 GA-BP神經(jīng)網(wǎng)絡(luò)輸入?yún)?shù)Fig.5 Input parameters by the GA - BP neural network
圖6 遺傳迭代次數(shù)Fig.6 Genetic iteration times
圖7 GA-BP神經(jīng)網(wǎng)絡(luò)算法預(yù)測結(jié)果A.Gel B.Q C.H D.L E.M F.SFig.7 Results of prediction by the GA - BP neural network
圖8 GA-BP神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練結(jié)果A.Gel B.Q C.H D.L E.M F.SFig.8 Results of training by the GA - BP neural network
通過正交試驗和GA - BP 神經(jīng)網(wǎng)絡(luò)的預(yù)測,暫定2種最優(yōu)工藝,分別為A2B1C2和A1B1C2,現(xiàn)同時對2種工藝進行驗證試驗,結(jié)果見表7??梢姡胺ǜ鞣矫娼Y(jié)果均高于預(yù)測值,因此確定為最終工藝。
表7 驗證試驗結(jié)果(n=3)Tab.7 Results of the verification test(n=3)
本研究中主要基于前期正交試驗中發(fā)現(xiàn)的不足之處而進一步設(shè)計人工神經(jīng)網(wǎng)絡(luò)進行提取參數(shù)的篩選。正交試驗中,影響不同輸出指標(biāo)的輸入指標(biāo)權(quán)重各不相同,且統(tǒng)計過程中不同的統(tǒng)計方法得出不同的結(jié)果。綜合評分值極差分析中發(fā)現(xiàn),影響的權(quán)重為B>A>C。但方差分析中發(fā)現(xiàn),影響的權(quán)重為B>C>A,由于綜合評分值中,提取時間和提取次數(shù)的R值較接近,又均無顯著差異,也可認為兩者均對綜合評分值有次要影響作用。木犀草苷的分析中,極差分析(圖1)中發(fā)現(xiàn),影響的權(quán)重為B > A = C,可能是后兩者得到的提取結(jié)果中差值一致的結(jié)果所致。而方差分析影響權(quán)重為B>A>C,兩者最優(yōu)方案一致為A2B1C2。另外,由于本試驗中靛藍和靛玉紅的含量較低,有未測出的情況,因此在綜合評分值的考慮時,對所有有效成分的權(quán)重進行了權(quán)衡,但發(fā)現(xiàn)不同指標(biāo)的最重要影響因素也不同,綜合評分值和木犀草苷是提取時間,綠原酸是料液比。為克服上述不足,本研究中采用了不同神經(jīng)網(wǎng)絡(luò)(MLP,BP,RBF,GA-BP)算法對正交試驗結(jié)果進行優(yōu)化。
MLP 神經(jīng)網(wǎng)絡(luò)作為一種接近深度學(xué)習(xí)的網(wǎng)絡(luò)模型(復(fù)雜、多層的神經(jīng)網(wǎng)絡(luò)),其具有出色的非線性匹配能力和泛化能力、較高的并行性,以及能全局優(yōu)化[7]。缺點是在高維空間效率低,易出現(xiàn)過擬合現(xiàn)象,收斂緩慢且計算量高[8]。本研究中,初始考慮該神經(jīng)網(wǎng)絡(luò)具有全局優(yōu)化的優(yōu)點而使其進行參數(shù)優(yōu)化,設(shè)定隱層數(shù)為2 個,MLP 網(wǎng)絡(luò)的隱層能實現(xiàn)非線性樣本的線性轉(zhuǎn)化,從而實現(xiàn)樣本的分類預(yù)測,且有研究證實,多層網(wǎng)絡(luò)能獲得更精準(zhǔn)的分析結(jié)果,但使用2 個以上的多個隱層網(wǎng)絡(luò)時,可能使模型不易得到最優(yōu)解。一般深度學(xué)習(xí)模型需較大的數(shù)據(jù)量,雖然本研究的隱層設(shè)定理論上能達到較準(zhǔn)確的預(yù)測,但考慮到可能因樣本量較小而導(dǎo)致擬合結(jié)果不佳,因此考慮使用其他神經(jīng)網(wǎng)絡(luò)進行優(yōu)化。
BP 神經(jīng)網(wǎng)絡(luò)作為最經(jīng)典的神經(jīng)網(wǎng)絡(luò)算法,使用梯度下降的局部優(yōu)化技術(shù),具有多層網(wǎng)絡(luò)體系,使輸出更準(zhǔn)確;梯度下降局部優(yōu)化技術(shù),與網(wǎng)絡(luò)權(quán)重的向后誤差校正相關(guān)[9-10]。標(biāo)準(zhǔn)BP 算法常有兩點局限性:在誤差曲面上有些區(qū)域平坦,此時誤差對權(quán)值的變化不敏感,誤差下降緩慢,調(diào)整時間長,影響收斂速度;存在多個極小點,多維權(quán)值空間的誤差曲面存在多個局部極小點,它們均有誤差梯度為0 的特點。RBF 神經(jīng)網(wǎng)絡(luò)被認為是BP神經(jīng)網(wǎng)絡(luò)的進一步優(yōu)化,主要體現(xiàn)在逼近能力、分類能力和學(xué)習(xí)速度更優(yōu)。
RBF 神經(jīng)網(wǎng)絡(luò)主要用隱層節(jié)點通過基函數(shù)執(zhí)行一種非線性變化,將輸入空間映射到一個新的空間,輸出層節(jié)點則在該新空間實現(xiàn)線性加權(quán)組合[11]。該網(wǎng)絡(luò)具有獨特的分類預(yù)測原理,對非線性連續(xù)函數(shù)具有一致逼近性,易于大范圍的數(shù)據(jù)融合和并行高效處理。本研究中進一步使用RBF 神經(jīng)網(wǎng)絡(luò),正是基于其對數(shù)據(jù)融合和預(yù)測的能力。該神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)收斂速度快,計算量??;操作簡單,結(jié)果直觀。然而該函數(shù)需恰當(dāng)?shù)臄?shù)據(jù)中心與合適的RBF 函數(shù),往往不易獲得更合適的函數(shù)[12-13]。在本研究中,其預(yù)測結(jié)果不如BP 神經(jīng)網(wǎng)絡(luò)理想,可能是未獲得合適的徑向基函數(shù),且RBF 網(wǎng)絡(luò)具有“局部映射”的特性,其網(wǎng)絡(luò)輸出與數(shù)據(jù)中心離輸入模式較近的“局部”隱節(jié)點關(guān)系較大。
本研究在BP 神經(jīng)網(wǎng)絡(luò)的預(yù)測中,已使每個預(yù)測指標(biāo)獲得了更小的誤差和更優(yōu)的決定系數(shù)。但無法通過6 個指標(biāo)給出統(tǒng)一的優(yōu)化參數(shù),因此在此基礎(chǔ)上結(jié)合了GA。GA 是一種基于人工智能的隨機非線性優(yōu)化形式,可無須知道目標(biāo)的具體數(shù)學(xué)模型而模擬出最優(yōu)解,遺傳算法結(jié)合神經(jīng)網(wǎng)絡(luò)的設(shè)計方法能避免正交試驗易產(chǎn)生局部最優(yōu)解的問題,更適合于達到全局最優(yōu)組合設(shè)計的目標(biāo),是一種比正交試驗更廣泛和準(zhǔn)確的模型。采用2 種方法結(jié)合的方式對提取參數(shù)進行優(yōu)化[14-15],可以其獨特的模式識別、預(yù)測與模擬等能力為基礎(chǔ),在處理這類復(fù)雜問題時展現(xiàn)出強大的適應(yīng)性。
本研究中采用了多種神經(jīng)網(wǎng)絡(luò)進一步對正交試驗所得最優(yōu)提取參數(shù)進行優(yōu)化,并最后選擇GA-BP神經(jīng)網(wǎng)絡(luò)對制劑中的提取參數(shù)進行優(yōu)化和設(shè)計,通過模仿大腦的神經(jīng)網(wǎng)絡(luò)行為特點對數(shù)據(jù)進行處理,其利用實測數(shù)據(jù)對試驗過程進行模擬,減少人為因素造成的分析偏差,可彌補正交試驗的一些缺陷。通過該方法的預(yù)測和驗證,可減少制劑的開發(fā)成本,尤其是節(jié)省工藝驗證成本。但神經(jīng)網(wǎng)絡(luò)算法的應(yīng)用與選擇有待進一步研究。