陳桂芬,王英豪,王 興
(1.福建中醫(yī)藥大學 a.管理學院; b.藥學院, 福州 350122; 2.福建師范大學 軟件學院,福州 350108)
?
基于主成分分析與BP神經網絡的桑椹黃酮提取含量建模研究
陳桂芬1a,王英豪1b,王興2
(1.福建中醫(yī)藥大學a.管理學院; b.藥學院, 福州350122; 2.福建師范大學 軟件學院,福州350108)
摘要:目前桑椹提取黃酮含量研究主要采用人工測量的方法,對其進行有效的預測較為困難。將主成分分析與BP神經網絡結合建立科學、快速的桑椹黃酮提取含量預測模型。實測影響桑椹黃酮提取含量的4個因素組成數(shù)據樣本,對該樣本進行主成分分析,提取出影響桑椹黃酮提取含量的3個主成分,以這3個主成分數(shù)據作為BP神經網絡模型的輸入數(shù)據進行訓練,用訓練好的神經網絡對桑椹黃酮提取含量進行預測。結果表明:該模型具有較高的預測精度,利用主成分分析和BP神經網絡對桑椹黃酮提取含量進行預測以及檢測是行之有效的。
關鍵詞:桑椹; 黃酮;提取含量;主成分分析; BP神經網絡
人工神經網絡是一種模仿生物大腦的信息處理方法,具有強大的非線性函數(shù)映射功能[1],因其廣泛的適應能力、映射能力和學習能力, 在非線性多變量系統(tǒng)的建模方面有著廣泛的應用。誤差反向傳播(back propagation,BP)神經網絡是人工神經網絡中應用最廣、最經典的一種神經網絡[2]。目前已有學者將人工神經網絡應用于中醫(yī)藥的研究,文獻[3]將人工神經網絡應用于基于舌診的八綱辨證診斷;文獻[4] 將概率神經網絡應用于中醫(yī)脈象識別;文獻[5]建立抗衰老中藥藥效與其性味歸經之間關系的BP神經網絡模型。雖然人工神經網絡在中醫(yī)藥的應用研究不少,但是其應用于中藥成分提取含量的研究相對較少。主成分分析法( principle component analysis, PCA )是一種將數(shù)據進行降維的方法,與BP神經網絡結合,能夠簡化網絡結構,使網絡得到較高的精度,提高建模質量[6]。
??盀樯?浦参锷orusalbaL.的干燥果穗,性味甘寒,具有生津潤腸、補肝益腎、烏發(fā)明目等功效。桑堪資源豐富,可藥食兩用,含有豐富的黃酮類物質。黃酮類物質有很高的藥用價值,具有抗氧化、抗癌、抗血管增生、消炎、抗變應性和抗病毒等功效[7-8]。對于從桑椹提取黃酮這一研究工作,人們通常采用人工測量的方法,由于提取工藝受到很多因素的影響,比如提取的濃度、超聲波的時間、溫度等,并且提取工藝操作過程復雜,研究工作量大,在提取工藝操作有誤時,很難進行有效的快速檢測。同時在研究過程中,由于對提取工藝的結果無法預測,導致大量的工藝操作提取率低。因此,需要通過一種快速、科學的方法對提取工藝和提取結果進行有效的檢測。本文的研究基于主成分分析與BP神經網絡桑椹黃酮提取含量預測模型,這是由于模型的預測精度較高,能實現(xiàn)有效的檢測和預測。
1桑椹黃酮提取實驗材料與方法
1.1試藥與儀器
蘆丁對照品(批號10080-200707,中國食品藥品檢定研究院); Al(NO3)3、NaOH、NaNO2、NaH2PO4、NaHCO3、C2H4OH等為分析純;所用藥材???批號為20120915的,產地福建省尤溪縣)購置于福建中醫(yī)藥大學國醫(yī)堂。
DV215CD型十萬分之一電子天平(美國奧豪斯公司);KQ-500E型超聲微波清洗器(昆山超聲儀器有限公司);LC-20A型高效液相色譜儀(日本島津公司);UV 9100型紫外-可見分光光度計(北京瑞利分析儀器公司);RE-52型旋轉蒸發(fā)儀(上海亞榮生化儀器廠);HH-4型數(shù)顯恒溫水浴鍋(國華電器有限公司);DHG-9240型電熱恒溫鼓風干燥箱(上海精宏實驗設備有限公司);TDL80-2B型低速離心機(上海安亭科學儀器廠)。
1.2溶液配制
磷酸鹽緩沖液(PBS, pH值6.8)配置:1 L雙蒸水中溶入15.6 g的 NaH2PO4、1.9 g 的NaOH。對照品溶液配置:稱取蘆丁對照品5.2 mg置于25 mL量瓶中,加70%C2H4OH溶解稀釋至刻度后搖勻,得到0.208 mg/mL蘆丁對照品溶液。
1.3黃酮含量測定
參考文獻[9]方法。在25 mL容量瓶中分別精密吸取0.5,1.0,2.0,4.0,8.0 mL蘆丁對照品液,加入70%的C2H4OH至10 mL,再加入0.7 mL的 5% NaNO2并搖勻,放置6 min,再加入0.7 mL 的10% Al(NO3)3并搖勻,放置6 min,再加入5.5 mL的 4%NaOH,用70%C2H5O定容至刻度,搖勻,放置15 min后,以70%C2H4OH作為參比溶液,吸光度測定值為510 nm波長處。在本實驗中選取料液比、乙醇濃度、超聲時間、超聲溫度關鍵因素作為提取條件,通過吸光度值求得黃酮含量。實驗總共采集了52組有效數(shù)據,部分實驗結果如下表1所示。
2主成分分析法
主成分分析的基本思想是通過降維,將多個相互關聯(lián)的數(shù)值指標轉化為少數(shù)幾個互不相關的綜合指標的統(tǒng)計方法,這些綜合后的指標就是原理多指標的主要成分。主成分分析基本原理如下:
表1 桑椹黃酮提取部分實驗結果
假設對某問題研究涉及p項指標x1,x2,…,xp,則原始數(shù)據構成的p維向量為x=(x1,x2,…,xp)′。通常,問題研究涉及的指標具有不同的數(shù)量級和量綱,要消除這些指標造成的不合理影響,在主成分分析之前先標準化原始數(shù)據,即:
(1)
數(shù)據經過式(1)標準化后的矩陣用x表示,即將x=(x1,x2,…,xp)′的p個指標綜合成p個新指標,新的綜合指標可由原來的指標x1,x2,…,xp線性表示,即:
(2)
1)yj與yij(i≠j;i,j=1,2,…,p)相互無關;
2)y1為x1,x2,…,xp一切線性組合中方差最大者;y2為與y1不相關的x1,x2,…,xp所有線性組合中最大方差者;yp為y1,y2,…,yp-1都不相關的x1,x2,…,xp所有線性組合中最大方差者。新指標y1,y2,…,yp分別為原指標的第1,第2,…第p個主成分。主成分個數(shù)的選擇取決于主成分的累積方差貢獻率,通常方差貢獻率的取值以 80%為宜[6]。
3BP神經網絡
3.1BP神經網絡基本原理
BP神經網絡是一種多層的前饋神經網絡,該算法由正向傳播和反向傳播兩個過程構成。正向傳播時,傳播方向為輸入層→隱層→輸出層,每層神經元的狀態(tài)只影響下一層神經元。若在輸出層得不到期望的輸出,則轉向誤差信號的反向傳播流程。通過這兩個過程的交替進行,在權向量空間執(zhí)行誤差函數(shù)梯度下降策略,動態(tài)迭代搜索一組權向量,使網絡誤差函數(shù)達到最小值,從而完成信息提取和記憶過程。圖1給出了典型的3層BP神經網絡結構。
圖1 3層BP神經網絡結構
3.2BP神經網絡模型[10]
BP神經網絡模型包括輸出模型、作用函數(shù)模型、誤差計算模型和學習模型。
1) 節(jié)點輸出模型
隱節(jié)點輸出模型為:
(3)
輸出節(jié)點輸出模型:
(4)
其中:f為非線性作用函數(shù);q為神經單元閾值。
2) 作用函數(shù)模型
作用函數(shù)是反映下層對上層節(jié)點刺激脈沖強度的函數(shù),又稱刺激函數(shù),一般常用的如tansig函數(shù):
(5)
3) 誤差計算模型
誤差計算模型是反映神經網絡期望輸出與計算輸出之間誤差大小的函數(shù):
(6)
其中:tpi為節(jié)點的期望輸出值;Opi為節(jié)點計算輸出值。
4) 自學習模型
神經網絡的學習過程,即連接下層節(jié)點和上層節(jié)點之間的權重矩陣Wij的設定和誤差修正過程。BP網絡有師學習方式的自學模型為:
(7)
其中:h為學習因子;φi為輸出節(jié)點i的計算誤差;Oj為輸出節(jié)點j的計算輸出;α為動量因子。
4桑椹黃酮提取含量的主成分分析與BP神經網絡組合預測模型
主成分分析具有降低數(shù)據相關性和降低數(shù)據維數(shù)的功能,神經網絡具有較好的預測功能,將二者組合用于桑椹黃酮提取含量預測可以充分發(fā)揮各自優(yōu)勢,提高預測效率和精度,結合模型見圖2。
圖2 主成分分析與BP神經網絡組合模型
4.1相關性分析
采用SPSS18.0軟件進行黃酮含量提取因素相關性分析。輸入因素為:料液比、乙醇濃度、超聲時間、超聲溫度。輸出因素為:黃酮含量。對輸入因素數(shù)據進行Pearson相關系數(shù)檢驗,檢驗矩陣見表2。從表2可以看出,存在相關程度較強的輸入因素,BP神經網絡預測模型的精度必定會受此影響。 因此,對輸入數(shù)據進行主成分分析是有必要的。
表2 含量提取各因素的Pearson相關系數(shù)矩陣
4.2主成分分析
由于料液比、乙醇濃度、超聲時間、超聲溫度量綱不同,數(shù)據差異大,在進行主成分分析之前,對輸入因素數(shù)據利用式(1)進行標準化處理。數(shù)據標準化后,利用SPSS中的主成分分析功能對這些數(shù)據進行分析,特征值及累計方差貢獻率見表3,主成分因子荷載矩陣見表4。
表3 特征值及累計方差貢獻率
表4 主成分因子荷載矩陣
從表3可知:前3個成分累計方差貢獻率為85%,符合主成分的累計方差貢獻率達到80%的要求。因此,前3個成分可以代表原始變量的絕大部分信息。表4給出了原始變量與各因子Y1、Y2和Y3之間的關系,根據表4寫出因子表達式:
Y1=0.428X1-0.389X2+0.286X3+0.370X4
Y2=-0.199X1+0.406X2+0.970X3-0.092X4
Y3=-0.169X1+0.590X2-0.191X3+0.964X4
根據以上因子表達式對標準化后的數(shù)據進行主成分分析計算,部分主成分分析結果數(shù)據見表5。
表5 部分主成分分析結果數(shù)據
4.3BP神經網絡模型的設計、預測與分析
本文利用Matlab2010b軟件提供的函數(shù)工具及神經網絡工具箱建立BP神經網絡模型。BP神經網絡模型的建立包括以下3個步驟:
1) 確定網絡結構。網絡結構主要包括網絡的層數(shù)和每層的神經元個數(shù)即節(jié)點數(shù)。BP神經網絡結構由輸入層、若干個隱含層和輸出層構成。理論上已經證明,具有一個隱含層的3層BP神經網絡可以逼近在閉區(qū)間內的任何連續(xù)函數(shù),因而可完成任意m維到n維的映射,因此本文采用含一個隱含層的3層BP神經網絡對桑椹黃酮提取含量建模。輸入、輸出節(jié)點個數(shù)的確定與樣本的實際應用相關。將主成分分析后得到的數(shù)據Y1、Y2和Y3作為輸入變量,黃酮含量作為輸出變量,即該模型輸入層節(jié)點數(shù)為3,輸出層節(jié)點數(shù)為1。隱含層節(jié)點數(shù)個數(shù)可以通過以下公式進行確定[11]:
(8)
其中:K為隱含層節(jié)點數(shù)個數(shù);m為輸入節(jié)點數(shù);n為輸出節(jié)點數(shù);l為1~10之間的常數(shù)。為達到最優(yōu)預測性能,經過多次測試后,最佳隱含層節(jié)點數(shù)K=10, 收斂速度最快。
2) 確定訓練樣本和測試樣本。將經過主成分分析所得的52組樣本數(shù)據集分成1~47組作為訓練樣本子集,48~52組作為測試樣本子集。
3) 將訓練樣本進行網絡訓練,利用訓練后的網絡進行測試。進行神經網絡訓練之前,將樣本數(shù)據進行歸一化到[0, 1]范圍內。用1~47組樣本子集作為訓練樣本,對神經網絡進行訓練,用訓練好的神經網絡模型對48~52組樣本子集進行黃酮提取含量預測。隱含層傳遞函數(shù)為tansig,網絡訓練函數(shù)為trainrp(彈性梯度下降法),輸出層傳遞函數(shù)為purelin。訓練過程中的參數(shù)選取為:最大訓練迭代次數(shù)為10 000,訓練目標為0.001,訓練性能曲線如圖3所示。預測結果見表6,PCA-BP網絡預測最大相對誤差為3.98%,BP網絡預測相對誤差最大為10.98%,最小為8.03%。由此可見,使用PCA-BP網絡模型具有較高的預測精度,且明顯優(yōu)于未經主成分分析的BP網絡。
圖3 神經網絡訓練性能曲線
編號真實值預測值BP網絡相對誤差%PCA-BP網絡相對誤差/%4813.57715.06810.9814.1173.984912.02512.9918.0312.2101.545015.40513.9829.2414.8723.465116.39517.6287.5216.8802.965217.10915.6448.5616.6762.53
5結論
中藥提取工藝過程十分復雜,受到很多因素影響,對其進行有效的預測和檢測較為困難。本研究選取4種影響桑椹黃酮提取的關鍵因素,利用BP神經網絡模型對提取含量進行預測,為了提高其預測的精度,利用主成分分析進行降維,減少影響桑椹黃酮提取含量的冗余因素,用所得的3個主成分因素建立BP模型。由仿真實驗得到,5組檢驗樣本的中相對誤差最大值為3.98%,該模型預測精度較高,對桑椹黃酮提取含量的預測是行之有效的。通過該模型所預測的結果一方面可快速檢測在提取工藝操作中所產生的失誤,另一方面對預測提取含量較低的結果可控制其提取工藝操作。本模型的研究將為檢測和控制中藥有效成分的提取工藝提供一種新的思路,具有廣泛的應用前景。
[1]GOVINDARAJU R S.Artificial Neural Networks in Hydrology.I:Preliminary oncepts[J].Journal of Hydrologic Engineering,2015,5(2):115-123.
[2]YU F,XU X.A short-term load forecasting model of natural gas based on optimized genetic algorithm and improved BP neural network[J].Applied Energy,2014,134(134):102-113.
[3]施明輝,周昌樂.人工神經網絡在中醫(yī)診斷中的應用現(xiàn)狀與趨勢[J].中國中醫(yī)藥信息雜志,2007,14 (1):2.
[4]郭紅霞,王炳和,鄭思儀,等.基于概率神經網絡的中醫(yī)脈象識別方法研究[J].計算機工程與應用,2007,43(20):194-203.
[5]麥其鵬,李續(xù)娥,吳艷華,等.復方抗衰老中藥的性味歸經與藥效的BP神經網絡研究[J].中國中藥雜志,2010,35(24):3372-3376.
[6]陳建宏, 劉浪, 周智勇, 等.基于主成分分析與神經網絡的采礦方法優(yōu)選[J].中南大學學報(自然科學版),2010,41(5):1967-1972.
[7]CHEN P N,CHU S C,CHIOU H L.Mulberry anthocyanins,cyanidin 3-rutinoside and cyanidin 3-glucoside,exhibited an inhibitory effect on the migration and invasion of a human lung cancer cell line[J].Cancer Letters,2006,235 (2):248-259.
[8]LIN J Y,TANG C Y.Strawberry,loquat,mulberry,and bitter melon juices exhibit prophylactic effects on LPS-induced inflammation using murine peritoneal macrophages[J].Food Chemistry,2008,107:1587-1596.
[9]王英豪,陳志春,張理平.響應面法優(yōu)化??包S酮超聲輔助提取工藝及對酪氨酸酶活性抑制研究[J].中國中醫(yī)藥信息雜志,2016,23(2):93-96.
[10]周品.MATLAB神經網絡設計與應用[M].北京:清華大學出版社,2013:165.
[11]FENG C X J,GOWROSANKAR A C,SMITH A E.Practical guidelines for developing BP neural network models of measurement uncertainty data[J].Journal of Manufacturing Systems,2006,25(4):239-250.
(責任編輯何杰玲)
Research on Modeling of Flavonoids Extraction Content of Mulberry Based on Principal Component Analysis and BP Artificial Neural Networks
CHEN Gui-fen1a,WANG Ying-hao1b,WANG Xing2
(1.a.Management College; b.Medicine College,Fujian University of Traditional Chinese Medicine, Fuzhou 350122, China;2.Faculty of Software, Fujian Normal University, Fuzhou 350108, China)
Abstract:At present, determination of flavonoids extraction content of mulberry is mostly done manually, which is difficult to be predicted. A scientific and rapid prediction model was created through combining principal component analysis with BP artificial neural network. Data of 4 factors influencing the flavonoids extraction content of mulberry was obtained through experiments, and 3 principal components were extracted after principal component analysis of above data. BP artificial neural network was trained with above 3 principal components as input data, and then flavonoids extraction content of mulberry can be predicted through the trained BP artificial neural network. Experiment result shows that the prediction model has high prediction accuracy, so using principal component analysis and BP artificial neural network to predict flavonoids extraction content of mulberry is effective.
Key words:mulberry; flavonoid; extraction content; principal component analysis; BP artificial neural network
收稿日期:2016-02-23
基金項目:福建省自然科學基金資助項目(2013J01377);福建省教育廳A類項目(JA14087)
作者簡介:陳桂芬(1978—),女,湖北黃岡人,碩士,講師,主要從事醫(yī)學信息管理研究。
doi:10.3969/j.issn.1674-8425(z).2016.06.016
中圖分類號:R284.2
文獻標識碼:A
文章編號:1674-8425(2016)06-0096-06
引用格式:陳桂芬,王英豪,王興.基于主成分分析與BP神經網絡的桑椹黃酮提取含量建模研究[J].重慶理工大學學報(自然科學),2016(6):96-101.
Citation format:CHEN Gui-fen,WANG Ying-hao,WANG Xing.Research on Modeling of Flavonoids Extraction Content of Mulberry Based on Principal Component Analysis and BP Artificial Neural Networks[J].Journal of Chongqing University of Technology(Natural Science),2016(6):96-101.