楊承恩, 李 萌, 王天賜, 王金玲, 李雨婷, 蘇 玲
1. 吉林農業(yè)大學食藥用菌教育部工程研究中心, 吉林 長春 130118
2. 吉林農業(yè)大學生命科學學院, 吉林 長春 130118
3. 長春職業(yè)技術學院現(xiàn)代農學系, 吉林 長春 130504
4. 國藥一心制藥有限公司質檢部, 吉林 長春 130600
黑果腺肋花楸(Aroniamelanocarpa)又名黑澀石楠、 不老莓, 屬薔薇科植物, 是我國新引進的小漿果果樹, 引進后在我國黑龍江、 吉林、 遼寧等東北地區(qū)最先種植, 并逐步發(fā)展為我國最大的黑果腺肋花楸種植基地, 河北、 河南等省也已形成了規(guī)?;N植基地[1-2]。 黑果腺肋花楸果實富含多酚、 花青素、 多糖、 黃酮等活性成分, 其中花青素含量尤為突出, 遠高于葡萄、 黑枸杞、 藍莓等高花青素植物, 具有抗氧化、 防治心血管疾病、 降血糖、 抗血小板凝集等多種生物活性[3]。 國家衛(wèi)健委于2018年9月12日發(fā)布公告, 批準黑果腺肋花楸進入新食品原料名單, 也加速了黑果腺肋花楸深加工產業(yè)的發(fā)展。 目前已開發(fā)的黑果腺肋花楸產品包括酒類、 飲料、 功能食品、 化妝品等60余種。 深加工產業(yè)的不斷擴大, 使得對黑果腺肋花楸原料的需求量及品質要求越來越高。 研究表明, 不同種植地區(qū)的溫度、 土壤等氣候及環(huán)境條件的差異, 導致黑果腺肋花楸果實多酚、 黃酮、 多糖等主要成分含量差異顯著, 果品品質參差不齊[4-6]。 為加強對黑果腺肋花楸果品的規(guī)范、 有序管理, 打造具有地區(qū)特色的品牌, 需要建立可實現(xiàn)簡單、 快速、 低成本的黑果腺肋花楸果實產地鑒別方法。
當前國外研究者主要開展了黑果腺肋花楸果實及其次級代謝物臨床試驗研究工作及其酚類化合物在食品、 化妝品中作為添加劑的應用, 國內開展黑果腺肋花楸果實的研究起步相對較晚, 近年來采用超高效液相色譜-質譜法鑒定黑果腺肋花楸果實花青素成分, 并通過DPPH、 ABTS及總抗氧化離實驗, 發(fā)現(xiàn)不同產地黑果腺肋花楸果實的抗氧化活性差異, 但國內外都尚未開展黑果腺肋花楸果實產地鑒別的研究工作。 傅里葉變換紅外光譜(Fourier translation infrared spectroscopy, FTIR)具有操作簡便、 樣本需求少、 價格低廉等優(yōu)點, 適用于有機物快速分析[7]。 研究證實, 將紅外光譜技術與化學計量學方法結合可實現(xiàn)對農作物種類、 產地的快速、 準確鑒別。 陳文靜等人采用紅外光譜對12座茶山的古樹曬青茶進行鑒別研究, 發(fā)現(xiàn)不同茶山茶葉間具有一定差異[8]; 李嘉儀等基于紅外光譜技術結合Fisher判別分析方法, 建立不同產地茯苓塊識別模型, 實現(xiàn)了對茯苓塊產地的快速無損鑒別[9]; 安淑靜等采用紅外光譜結合化學計量學方法建立山茱萸產地鑒別模型, 實現(xiàn)了對7個省份山茱萸的準確高效鑒別[10]。
本研究將中紅外光譜與化學計量學結合, 采集15個產地共750份黑果腺肋花楸果實樣品的紅外光譜數(shù)據(jù), 采用化學計量學方法進行數(shù)據(jù)分析, 建立可快速、 準確識別黑果腺肋花楸產地的鑒別方法, 為黑果腺肋花楸產業(yè)的健康發(fā)展提供技術支持。
收集黑龍江省七臺河、 伊春、 雙鴨山、 佳木斯等4市; 吉林省白山、 蛟河、 通化、 延邊朝鮮族自治州等4市、 州; 遼寧省鞍山、 大連、 丹東、 錦州等4市; 河北省秦皇島市、 河南省安陽市以及俄羅斯等15個地區(qū)的黑果腺肋花楸果實, 每個地區(qū)樣品50份, 共750份。
主要設備: Nicolet is10 傅里葉變換紅外光譜儀(美國Thermo scientific), HY-12型壓片機(天津天光光學儀器有限公司), DKZ恒溫水浴鍋(上海一恒技術有限公司), 8453紫外分光光度計(美國Agilent), CS-700型超帥高速多功能粉碎機(浙江武義海納電器有限公司), 200目不銹鋼篩等。
黑果腺肋花楸果實冷凍干燥、 粉碎、 過200目篩。 分別精密稱取1.8 mg樣品, 加入190 mg溴化鉀于75 ℃恒溫干燥箱內干燥, 研磨均勻, 壓片, 掃描樣品400~4 000 cm-1間紅外光譜, 設定分辨率4 cm-1, 掃描次數(shù)16, 重復3次取平均光譜。 光譜采集過程中, 保持室內溫度25 ℃, 濕度35% RH。
采用K-S檢驗法(kennard-stone, K-S), 對符合樣本分布規(guī)律并具有代表性的訓練集光譜數(shù)據(jù)進行劃分[11]。 由于樣品、 光散射及基線漂移等因素, 采集的光譜信息出現(xiàn)的隨機偏差需經(jīng)過光譜預處理方法進行修正。 在與原始光譜對比的基礎上, 使用The Unscrambler X 10.4軟件對采集的原始光譜進行多元散射校正(multiplicative scatter correction, MSC)、 標準正態(tài)變量變換(standard normal variable transformation, SNV)、 移動平滑(smoothing, SG)、 一階導數(shù)(first derivative, FD)、 二階導數(shù)(second derivative, SD)等處理。
主成分分析(principal component analysis, PCA)是統(tǒng)計分析法中的一種重要方法, 通過線性變換將原始數(shù)據(jù)轉換為一組各維度線性無關的特征成分, 可用于提取數(shù)據(jù)的主要特征分量, 進行聚類分析的算法。
1.5.1 競爭性自適應重加權采樣法
競爭性自適應重加權采樣法(competitive adapative reweighted sampling, CARS)是參照達爾文的“適者生存”理論, 結合PLS與蒙特卡洛采樣的光譜特征信息提取方法[12], 通過減去權重小的波長點, 保留絕對值大的波長點, 找出交互驗證均方根誤差(root mean square error of cross validation, RMSECV)最低的子集, 選出最優(yōu)變量組合。
1.5.2 連續(xù)投影算法
連續(xù)投影算法(successive projections algorithm, SPA)是采用矢量空間共線性最小化原則的光譜特征波長篩選算法, 可以從冗長的光譜數(shù)據(jù)中提取出既具有代表性又冗余信息含量最少的特征波長。
1.6.1 支持向量機
支持向量機(support vector machine, SVM)是光譜定量與定性分析的常用方法[13]。 該方法通過把數(shù)據(jù)從低維度映射到高維度特征空間, 再通過線性與非線性映射關系構造一個N維超平面來解決數(shù)據(jù)分析問題。
1.6.2 隨機森林
隨機森林(random forest, RF)是一種具有集成思想的分類與預測算法[14]。 將每一個單獨的決策樹匯集成決策森林, 從而產生“好而不同”的個體學習器, 并在保持準確性和多樣性方面做出最優(yōu)的分類與預測選擇。
1.6.3 極限學習機
極限學習機(extreme learning machine, ELM)是基于經(jīng)典神經(jīng)網(wǎng)絡改進后的快速學習算法[15]。 在訓練階段采用隨機的輸入層權值和偏差, 能夠以極快的速度進行較好泛化工作, 具有選擇參數(shù)少、 學習效果好、 適用性強的特點。
1.6.4 偏最小二乘-判別分析
偏最小二乘判別分析(partial least squares-discriminant analysis, PLS-DA)是多變量數(shù)據(jù)分析技術中的判別分析法, PLS經(jīng)常用來處理分類和判別問題, 并以PCA為理論基礎在自變量存在多重相關性的條件下進行分類或回歸建模。
圖1 黑果腺肋花楸原始光譜
根據(jù)K-S法按照訓練集和測試集樣品數(shù)量比例4∶1, 劃分750份樣品, 得訓練集樣品600個, 測試集樣品150個。
采用SVM對不同預處理方法獲得的紅外數(shù)據(jù)進行建模對比, 獲得黑果腺肋花楸果實產地模型識別結果如表1, 并使用PCA對原始光譜數(shù)據(jù)和MSC光譜數(shù)據(jù)進行聚類分析對比, 如圖2(a, b)。 經(jīng)預處理優(yōu)化后, 光譜數(shù)據(jù)識別效果均高于84%, 明顯優(yōu)于未處理光譜數(shù)據(jù)模型的識別效果。 其中, MSC模型識別效果最佳, 訓練集識別率與測試集識別率均為93.33%, 能夠有效對不同產地黑果腺肋花楸果實進行鑒別。 同時, 對比原始光譜數(shù)據(jù)和MSC光譜數(shù)據(jù)的PCA聚類效果, 發(fā)現(xiàn)MSC預處理后的光譜數(shù)據(jù)聚類效果更好, 故將MSC預處理后的光譜作為樣品最優(yōu)預處理光譜。 將MSC光譜數(shù)據(jù)進行映射范圍為0~1的歸一化處理, 見圖3。
表1 光譜預處理方法對比
圖2 PCA聚類可視化的結果
圖3 歸一化后的黑果腺肋花楸光譜數(shù)據(jù)
2.4.1 CARS分析
通過Matlab2014b軟件對歸一化后光譜數(shù)據(jù)進行CARS算法的特征波長篩選, 蒙特卡羅采樣次數(shù)設置為100次, 波長篩選結果如圖4。 圖4(a)為選擇波長過程中的變量變化過程, 當運行次數(shù)在1~54次之間, 特征波長數(shù)量迅速下降, 在54~100次之間下降緩慢。 圖4(b)為特征波長選擇中RMSECV的變化趨勢, 可知在第54次時篩選時RMSECV值為最低。 圖4(c)中各線表示隨著運行次數(shù)增加各波長變量回歸系數(shù)的趨勢, 紅線所對應位置為RMSECV值最小即第54次采樣。 遵循RMSECW值最小原則, 選擇第54次采樣獲得的91個波長變量子集為最優(yōu)波長變量數(shù)。
圖4 CARS算法篩選特征波長的過程
2.4.2 SPA分析
通過Matlab2014b軟件對歸一化后的光譜數(shù)據(jù)進行SPA降維, 設定波長數(shù)為1~30, 計算不同特征波長數(shù)下的均方根誤差, 如圖5。 由圖5(a)經(jīng)過迭代后, 可知均方根誤差最小值為1.5602, 最終選取16個波長數(shù)作為最優(yōu)波長數(shù)。 光譜選取波長變量如圖5(b)所示。 這16個波長點所對應的特征波長分別為7、 12、 580、 820、 1 067、 1 201、 1 600、 2 275、 2 409、 2 576、 2 649、 2 732、 4 517、 5 240、 6 247和6 721 cm-1。
圖5 SPA算法篩選特征波長的過程
將歸一化后的MSC全段光譜(full spectrum, FS)與經(jīng)CARS、 SPA降維后的紅外光譜數(shù)據(jù)作為輸入變量, 建立RF、 ELM、 SVM、 PLS-DA的不同產地黑果腺肋花楸果實識別模型, 結果見表2和圖6(a, b)。
圖6 最優(yōu)模型識別結果
由表2可知, 在RF模型中當決策樹棵樹為4324時SPA-RF識別效果最佳, 其訓練集識別率為100%, 測試集識別率為99.33%, 僅有一個樣品發(fā)生錯誤識別。 在ELM模型中SPA-ELM識別效果最佳, 其訓練集識別率為99.5%, 有3個樣本識別錯誤, 測試集識別率為100%。 在SVM模型中測試集識別率均為100%, 但FS-SVM訓練集識別率僅為99.33%稍低于CARS-SVM與SPA-SVM訓練集識別率。 在PLS-DA模型中PLS-DA-SPA模型識別效果最佳, 其訓練集識別率為99.67%, 有2個樣本識別錯誤, 測試集識別率為100%。
綜合比較模型識別率和建模速度, 可知CARS-SVM和SPA-SVM識別效果最佳, 訓練集與測試集識別率均為100%, 但SPA-SVM建模數(shù)據(jù)僅需16個波長點, 低于CARS-SVM建模數(shù)據(jù)的91個波長點, 因此選擇c=2.824、g=2, RBF核函數(shù)時的SPA-SVM作為最優(yōu)識別模型。
采用中紅外光譜結合化學計量學方法, 提出一種對不同產地黑果腺肋花楸果實快速鑒別的方法。
紅外光譜數(shù)據(jù)經(jīng)不同方法預處理后, 結合SVM建模, 確定MSC光譜預處理方法效果最佳, MSC-SVM模型訓練集識別率為93.33%, 測試集識別率為92.67%, 能有效減少光譜采集過程中的隨機偏差。
歸一化后的光譜數(shù)據(jù), 再經(jīng)CARS和SPA光譜特征信息提取后, 結合RF、 ELM、 SVM、 PLS-DA建模都有良好的識別效果, 測試集和訓練集識別率均高于97.33%。 其中CARS-SVM、 SPA-SVM模型識別效果最佳, 測試集和訓練集識別率均為100%, 但從模型識別率和建模速度, 選擇僅需16個波長點的SPA-SVM模型為最佳模型。
中紅外光譜結合化學計量學方法, 特別是SVM模型能夠更準確地鑒別不同產地的黑果腺肋花楸果實, 此方法可為其他種類的小漿果產品來源鑒別提供參考。