王志新,王慧薈,張文波,王 忠,李月娥
蘭州大學信息科學與工程學院,甘肅 蘭州 730000
百合是百合科(Liliaceae)百合屬(Lilium)植物, 其多年生草本球根生長的肥厚鱗片構成的地下變態(tài)莖稱為百合鱗莖[1]。甘肅蘭州、江蘇宜興、江西萬載等地栽培百合鱗莖的歷史悠久, 其產(chǎn)量、質(zhì)量與產(chǎn)地有密切聯(lián)系[2-3]。百合鱗莖有著高蛋白、低脂肪的特點,是十分理想的保健食品,同時百合鱗莖具有廣泛的藥理作用, 如抗腫瘤、抗抑郁、降血糖、提高免疫力等[4-5],產(chǎn)地不明或混淆使用會導致百合制品的質(zhì)量不穩(wěn)定,影響藥理作用的發(fā)揮[6]。因此,實現(xiàn)精準產(chǎn)地和質(zhì)量鑒別分析對促進百合鱗莖市場化發(fā)展具有重要意義。
傳統(tǒng)檢驗依賴感官經(jīng)驗,通過外觀、色澤、滋味及香氣等感官指標實現(xiàn)產(chǎn)地和質(zhì)量的鑒別分析,但當前市面上的百合品種眾多,又存在種植條件和存儲方式不同導致的外在差異,導致基于人工經(jīng)驗的感官評審模式無法實現(xiàn)快速、精確、無損的檢測[7]。目前,除了傳統(tǒng)的檢驗方式以外,還可用大型儀器結合化學計量學分析的方法,如高效毛細管電泳法(HPCE)[8]、高效液相色譜法(HPLC)[5]、液相色譜質(zhì)譜聯(lián)用法(LC-MS)、液相二級質(zhì)譜法(LC-MS-MS)[9]、氣相色譜法(GC)[10-11]等。袁志鷹[12]等采用傅里葉變換衰減全反射紅外光譜(ATR-FTIR)技術采集百合的紅外光譜,并使用層次聚類分析(HCA)區(qū)分幾類百合粉末。上述方法樣品前期處理過程復雜,操作繁瑣且耗時長,會產(chǎn)生較高的現(xiàn)場倉儲成本及檢測成本,不能無損檢測而且難以滿足產(chǎn)地鑒別這一要求[13]。
拉曼光譜(Raman spectroscopy)是一種基于振動分子對光的非彈性散射的光學技術,基于拉曼光譜可以提供細胞、組織或生物液體的化學指紋圖譜,做快速準確的無損檢測,相比于其他光譜技術,拉曼光譜對水的敏感性較低,檢測過程不易受到水的干擾,這為含水生物樣本的檢測提供了很大的方便性,現(xiàn)已在農(nóng)牧業(yè)生產(chǎn)過程中獲得廣泛的應用[14-17]。
研究將拉曼光譜與機器學習算法相結合,建立了我國分布最為廣泛的三種百合鱗莖(蘭州百合、宜興百合和龍牙百合)的產(chǎn)地分類模型,提出了一種基于拉曼光譜的成分含量定量估計的方法。采用了人工先驗方法、主成分分析和t-分布隨機鄰域嵌入三種方法提取光譜數(shù)據(jù)特征,并分別應用到支持向量機、決策樹和隨機森林等算法。此外,拉曼光譜數(shù)據(jù)結合機器學習算法可以快速識別和鑒定百合鱗莖的產(chǎn)地,可為現(xiàn)代化生產(chǎn)的產(chǎn)地鑒別和百合鱗莖質(zhì)量分析提供新方法。
研究所用波長為532 nm激光(Verdi v-6)作為激發(fā)源的Alpha共聚焦拉曼顯微鏡系統(tǒng)(WITec,德國)和配備Pixis Spec 10-100× CCD相機(Princeton Instruments,Trenton,NJ)的ACTON 300i光譜儀采集拉曼光譜。激光束通過蔡司LD EC Epiplan-Neofluar 50×物鏡(NA=0.55)聚焦到樣品中(日本尼康)。
樣本選取甘肅省蘭州市的蘭州百合、江西省萬載縣的龍牙百合和江蘇省宜興市的宜興百合,按照百合鱗莖采挖時間和保存情況進行分組,樣本信息如表1所示。
表1 樣本信息
百合鱗莖在采摘后通常冷藏貯存,為了模擬真實的過程,所有的樣品存放于(3±0.5)℃的冷藏室中。百合鱗莖的所有內(nèi)部鱗片樣品都取自百合的中心鱗片上,選擇較平整位置,用刀片切下厚度約為2 mm的組織,緊貼于載玻片上。
首先用單晶硅片作為待測物對光譜系統(tǒng)進行校準,然后選取激光功率為10 mW,單點測量積分時間為5 s,積分次數(shù)為3次。對每一個樣品隨機選取多點進行測量獲取數(shù)據(jù)集,每次測量時調(diào)整位置使激光光斑進入樣品內(nèi)部的深度相同。對于單光譜測量的樣品,調(diào)整到合適的視野后隨機選取約10個點,計算這些光譜的平均譜,將其作為該樣品的典型拉曼光譜。
由于存在背景噪聲、人工操作因素以及受到樣品自身相關性質(zhì)的影響,拉曼光譜上會表現(xiàn)出冗余的信息,熒光、噪聲、宇宙射線等都會影響分析結果。因此,初次采集到的原始拉曼光譜需要進行預處理操作。
除宇宙射線(CRR)和波數(shù)校準使用WITec共聚焦拉曼光譜儀的同系列軟件Project FIVE,隨后采用四階多項式擬合法基本上去除了熒光背景,機器學習過程中對所有的光譜進行歸一化處理,使光譜的強度均落在[0,1]之間,其計算公式為
(1)
最后,去除光譜中非拉曼光譜的部分,即完成了拉曼光譜預處理,整體流程如圖1所示。
圖1 拉曼光譜預處理過程
選取三大百合鱗莖產(chǎn)區(qū)的20份樣本(表1)進行光譜采集,并進行了光譜數(shù)據(jù)預處理,典型拉曼光譜如圖2所示。
圖2 三種百合鱗莖的典型拉曼光譜
百合鱗莖的拉曼光譜中的波長范圍較大,重點區(qū)域含有1 650個波長點,建模難度較高。這些特征峰之間存在一定的相關性,因此首先對數(shù)據(jù)進行特征提取來降維運算。
首先歸納了百合鱗莖的光譜和物質(zhì)對應特點,使用了人工提取法確定代表物質(zhì),通過對國內(nèi)外學者在植物組織中的糖類、蛋白質(zhì)類、脂類、氨基酸類等物質(zhì)的研究文獻進行分析比較,提取出樣品拉曼光譜中各個特征峰的波數(shù)和強度等信息,歸納了百合鱗莖的拉曼光譜中出現(xiàn)的特征峰以及其對應的化學鍵和物質(zhì)種類,詳見表2。
經(jīng)過篩選,本研究選取了光譜數(shù)據(jù)中的27個特征,拉曼位移分別為436,479,518,520,525,832,874,876,896,942,952,1 054,1 082,1 096,1 120,1 127,1 262,1 265,1 320,1 343,1 374,1 382,1 455,1 457,1 606,1 635和1 640 cm-1。
將獲得的特征使用主成分分析(principal component analysis, PCA)和t-分布隨機鄰域嵌入(t-distributed stochastic neighbor embedding,t-SNE)進行特征提取。
主成分分析是一種常見的降維方法,對三類百合鱗莖樣品的拉曼光譜數(shù)據(jù)進行特征提取。各主成分的貢獻率及累積貢獻率如圖3所示, 第一主成分PC1和第二主成分PC2的貢獻率分別為42.06%和20.56%,前6個主成分累積貢獻率達到了81.33%。
圖3 三種百合拉曼光譜各個主成分的貢獻率和累積貢獻率
t-分布隨機鄰域嵌入是一種無監(jiān)督降維方法,本研究執(zhí)行t-SNE時選取參數(shù)值:嵌入空間維度為2,困惑度perplexity=30,數(shù)據(jù)初步降維的PCA維度為50。利用t-SNE算法對上述三種百合的拉曼光譜數(shù)據(jù)進行降維。
采用了不同的算法對三種百合共1690個樣本的拉曼光譜進行了特征提取,包括蘭州百合數(shù)據(jù)500條、宜興百合數(shù)據(jù)650條、龍牙百合數(shù)據(jù)540條。
使用“留出法”將采集到的數(shù)據(jù)集分為兩個互斥的集合,其中一個作為訓練集,另一個作為測試集,兩者保持數(shù)據(jù)分布的一致性。本研究采用k折交叉驗證法和“留一法”(leave-one-out, LOO)進行模型訓練,將訓練集S平均分成k份,輪流將其中的k-1份作為訓練集,剩下的一份作為驗證集,訓練k次后的平均驗證誤差作為該模型的誤差。
上述1 690條數(shù)據(jù),其中1 260條數(shù)據(jù)作為訓練集,剩下的430條作為測試集。以5折交叉驗證為例,數(shù)據(jù)集的劃分及訓練過程如圖4所示。
圖4 數(shù)據(jù)集的劃分和訓練示意圖
支持向量機(SVM)是一種基于結構風險最小化準則的線性分類器,分別使用人工先驗方法提取的特征、PCA提取的主成分和t-SNE提取的特征建立百合分類的SVM模型。
使用人工先驗方法提取的27個特征,建立百合分類的SVM模型。將訓練集的光譜數(shù)據(jù)作為自變量,使用參數(shù)為γ的徑向基函數(shù)(RBF)作為核函數(shù)替換實例和實例之間的內(nèi)積,定義為
K(xi,xj)=exp[-γ‖xi-xj‖]2
(2)
最優(yōu)判別函數(shù)為
(3)
式中,sgn為階躍函數(shù),x為輸入的特征向量;xi為輸出的第i個支持向量。
在進行分類時,首先需要通過訓練確定核函數(shù)參數(shù)γ和誤差項懲罰因子C,使得模型訓練正確率最高。ζ為松弛變量,ζ和γ都是為了解決線性不可分問題,在SVM模型中C和ζ為模型精度的決定因素。
經(jīng)過多次實驗表明,當C∈(22, 23),γ∈(2-2,1)時模型訓練精度較高,在此范圍內(nèi)確定超參數(shù),結果如表3所示。顯然,當C=6、γ=0.9時,分類模型性能最好,此時訓練分類正確率為91.2%,測試集的分類正確率為89.1%。
表3 不同超參數(shù)組合下的SVM模型訓練精度
利用PCA提取的前60個主成分,建立百合分類的SVM模型。首先用同樣的網(wǎng)格搜索方法確定超參數(shù),經(jīng)多次實驗得最佳參數(shù)為C=7,γ=1.3,此時訓練準確率為96.8%。隨后選取不同的主成分個數(shù)進行五折交叉驗證,結果如圖5所示,選取PCA的前22個主成分作為輸入時,測試數(shù)據(jù)的分類正確率最高,達到了91.2%。
圖5 基于PCA特征提取的SVM模型分類正確率
利用t-SNE提取的特征,建立百合分類的SVM模型。仍然使用同樣的網(wǎng)格搜索方法確定超參數(shù),經(jīng)多次實驗得最佳參數(shù)為C=92.2,γ=512,此時模型訓練準確率為95.7%,測試集的分類正確率為93.7%,與前兩種特征提取方法相比,正確率有了明顯的特高。
為了進行對比,本研究采用決策樹算法進行百合分類模型的訓練。經(jīng)過多次實驗,基于人工先驗的特征提取方法應用于決策樹模型時最佳參數(shù)lAP=13,基于PCA的特征提取方法應用于決策樹模型時最佳參數(shù)lPCA=13,基于t-SNE的特征提取方法應用于決策樹模型時最佳參數(shù)lt-SNE=17,如圖6所示。在最后進行剪枝優(yōu)化后,基于人工先驗的特征提取方法的決策樹分類模型正確率為78.8%,基于PCA的特征提取方法的決策樹模型正確率為91.7%,基于t-SNE的特征提取方法的決策樹模型正確率為86.7%。
圖6 葉子節(jié)點的最小樣本數(shù)對決策樹性能的影響
決策樹算法進行分類時思想十分樸素,分類速度較快,但這也決定了它的泛化能力較弱。因此,本研究建立了基于RF算法的三種百合光譜數(shù)據(jù)分類模型。
利用人工先驗方法提取的27個特征,結合RF進行模型訓練。采用五折交叉驗證結果表明,人工先驗的特征結合RF分類模型在測試集上的最高正確率為90.2%;選取不同的PCA主成分個數(shù),并結合RF進行分類模型訓練,選擇前8個主成分作為分類模型的輸入時,在測試集數(shù)據(jù)上的平均正確率為95.8%,且選取更多主成分時,準確率的提升不再顯著;利用t-SNE提取的特征,結合RF進行分類模型訓練,采用五折交叉驗證多次實驗表明,模型的平均預測準確率為90.7%。本處展示效果最佳的基于PCA特征提取的RF模型,如圖7所示。
圖7 基于PCA特征提取的RF模型分類正確率
在分類問題中,精度(accuracy)、查準率(precision)、召回率(recall)和F1分數(shù)是最常見的性能度量值,反映了使用該模型進行分類預測時的基本表現(xiàn)情況。
若將預測為1的樣本稱為陽性(positive),預測為0的樣本稱為陰性(negative),對比模型預測的類別和測試集樣本的真實類別,所有測試集樣本可以分為真陽性(true positive,TP)、假陽性(false positive,F(xiàn)P)、真陰性(true negative,TN)和假陰性(false negative,F(xiàn)N)。
將正確率Acc、查準率P和召回率R定義為
(4)
(5)
(6)
由此可見,查準率是指所有被模型預測為陽性的樣例中,有多少預測正確;查全率是指所有實際為陽性的樣例中,有多少被預測出來,也就是敏感性(sensitivity)。這兩個指標實際上是相對矛盾的,為了調(diào)和P和R,我們引入了F1分數(shù),表示為
(7)
化簡,得
(8)
在本研究中,每個模型都可以得到三個混淆矩陣,分別計算得到三組P和R,計算各自的均值,得
(9)
(10)
(11)
三種特征提取方法和三種機器學習算法相結合,建立了共9種百合拉曼光譜分類模型,在同一個測試集上的分類精度如表5和圖8所示,當采用基于PCA提取的前8個主成分結合RF建立百合分類模型時,計算量較小且準確率最高,達到了95.8%。
表4 不同模型方法組合下的模型評價結果
表5 所有模型的分類準確率
圖8 所有模型的分類準確率對比圖
基于三種百合在400~2 000 cm-1拉曼譜峰信息,將拉曼光譜與機器學習算法相結合,提出了現(xiàn)場快速識別和鑒定百合鱗莖產(chǎn)地的方法模型。實驗結果表明該模型可以有效鑒定百合鱗莖質(zhì)量,篩選不同產(chǎn)地樣本的特征,為百合鱗莖的產(chǎn)地鑒別及溯源分析提供新思路。