陳 逃,郭 慧,袁 滿,譚福元,李益洲,李夢龍
1. 四川大學化學學院,四川 成都 610064 2. 四川大學網絡空間安全學院,四川 成都 610064 3. 成都圖徑生物科技有限公司,四川 成都 610093
冬蟲夏草是菌絲體毛蟲和真菌性基質芽的寄生復合物[1],因為其出色的保護和免疫調節(jié)作用,成為備受推崇的傳統(tǒng)中藥材。冬蟲夏草具有多種有效成分,包括多糖、蟲草、腺苷、甘露醇、固醇、甘露聚糖和核苷[1]等。各種分析方法已經被應用到冬蟲夏草活性成分的研究[2]。Li等[3]采用毛細管電泳測定冬蟲夏草三種主要核苷的含量來探究與藥理作用相關的成分。Yang等[4]優(yōu)化毛細管電泳質譜法(CE-MS)同時測定天然蟲草和人工蟲草中的核苷和核苷堿基。Zhao等[5]結合親水相互作用色譜(HILIC)和電噴霧電離質譜(ESI-MS)來表征和定量天然蟲草。Hu等[6]使用高效液相色譜-串聯(lián)質譜法(HPLC-MS/MS)在冬蟲夏草中檢測到有效的化學標記。憑借指紋分析功能,近紅外光譜技術(NIR)也以其快速,低成本和無損檢測等優(yōu)勢,廣泛用于食品和藥物的定性和定量分析[7]。Xie等[8]使用傅里葉變換近紅外光譜(FT-NIR)定量測定冬蟲夏草菌絲體中精氨酸的含量,并通過特征選擇算法獲得了預測精氨酸含量的最佳波數(shù)。而紅外光譜在野生冬蟲夏草不同部位差異性研究鮮有報道。
紅外光譜信號通常會受到干擾,因此需要進行預處理提高光譜數(shù)據質量以便后續(xù)研究。標準正態(tài)變化(standard normal variation,SNV)[9]和多元散射校正(multiplicative scatter correction,MSC)[10]已廣泛用于光譜數(shù)據的預處理。此外,通過變量選擇消除無關冗余信息,降低模型復雜度并提高模型穩(wěn)定性。
基于野生冬蟲夏草不同部位的紅外數(shù)據探討了采用不同預處理SNV和MSC、特征挑選競爭自適應再權重取樣(competitive adaptive reweighted sampling,CARS)[11]和變量組合種群分析(variable combination population analysis,VCPA)[12]、預測模型偏最小二乘判別分析(partial least squares discriminant analysis,PLS-DA)[13]和線性判別分析(linear discriminant analysis,LDA)[14]分別構建蟲草部位的識別模型,并比較各方法的效果和以及對篩選的特征波長進行分析,有助于在分子層面上加深對野生冬蟲夏草形成的認識,可為后期藥物開發(fā)高效利用野生蟲草提供參考。
用于實驗的冬蟲夏草包括子座頭、子座中、頭部、蟲體中段、蟲體尾段總共808個樣本,均由成都圖徑生物科技有限公司提供,樣本詳細信息如表1所示。所有樣本采用美國PerkinElmer公司生產的Spectrum 100型傅里葉變換紅外光譜儀,掃描范圍為400~4 000 cm-1。訓練集和測試集隨機按4∶1生成,訓練集使用十倍交叉驗證,準確率(accuracy,Acc)作為評價指標。
表1 樣本信息Table 1 General information of samples
紅外光譜在測量時,會受到背景噪聲和散射因素影響,因此對光譜進行預處理,可以提高后續(xù)光譜數(shù)據分析的可靠性。本研究使用標準正態(tài)變換(SNV)消除基線變化所引起的潛在影響、使用多元散射校正(MSC)消除散射效應,增強紅外吸收光譜信息。
CARS[11]首先采用蒙特卡洛(Monte Carlo)策略將樣本數(shù)據集用于構建PLS模型,基于模型的系數(shù)來估計波長貢獻。然后采用指數(shù)遞減函數(shù)(exponentially decreasing function,EDF)除去系數(shù)絕對值小的波數(shù)。最后保留具有較大絕對值系數(shù)的波數(shù)作為特征選擇結果。
VCPA[12]也常用于光譜數(shù)據變量選擇。首先,使用二進制矩陣采樣(binary matrix sampling,BMS)方法生成具有多樣性變量組合子集。其次采用模型總體分析(model population analysis,MPA)和訓練集交互驗證均方根誤差(root-mean squared error of cross-validation,RMSECV)評估子模型。然后根據指數(shù)遞減函數(shù)(EDF)去除PLS模型系數(shù)絕對值較小波長。最后,具有最低RMSECV值的子集將作為最終變量選擇結果。
LDA基本思想是在一定訓練樣本上設法將樣本特征投影到子空間,使得同類樣本投影點互相聚集,不同類樣本投影點互相遠離,這樣相同類別之間距離最小,對于新樣本進行分類時,投影到同一子空間,根據投影位置和距離確定新樣本類別。
偏最小二乘判別分析(PLS-DA)是一種監(jiān)督分類方法,根據偏最小二乘回歸(PLSR)算法開發(fā)而來。PLS-DA算法集主成分分析、多元線性回歸和相關性分析等優(yōu)點于一身,可以將特征變量和目標通過映射變換最終建立類別與光譜矩陣的判別關系。
冬蟲夏草不同部位平均紅外光譜圖如圖1(a)所示,可看出部位間存在較大差異,但通過肉眼無法區(qū)分。冬蟲夏草不同部位間皮爾森相關系數(shù)計算如圖1(b)所示,可看出不同部位之間有很強的相關性,但不完全相同,因此借助化學計量學方法進行識別。
圖1 冬蟲夏草不同部位均值紅外光譜(a)與相似性(b)Fig.1 The averaged Fourier-transform infrared spectra for different parts of Cordyceps (a);The similarities between each two parts of Cordyceps (b)
表2可以看出,PLS-DA經過CARS和VCPA特征挑選之后,特征維數(shù)大幅下降,分別從3 601降到669和420,而且準確率90.1%,91.4%與全部特征預測準確率92.0%相當。而LDA結果相對較差,模型最高預測準確率為85.8%,經特征挑選后準確率分別為80.9%和82.1%。結果表明PLS-DA預測效果優(yōu)于LDA,特征挑選有利于降低模型復雜程度。
表2 不同部位的分類結果Table 2 The model performance on discriminating different cordyceps parts
針對不同特征挑選、建模方法所得獨立測試集預測結果進一步用混淆矩陣分析如圖2所示。結果表明,大多數(shù)錯誤預測情況都出現(xiàn)在靠近對角線附近區(qū)域,表明該樣本被預測為臨近部位。
圖2 不同方法獨立測試集的混淆矩陣(a): CARS-PLS-DA; (b): CARS-LDA; (c): VCPA-PLS-DA; (d): VCPA-LDAFig.2 The confusion matrix of independent data set by different methods(a): CARS-PLS-DA; (b): CARS-LDA; (c): VCPA-PLS-DA; (d): VCPA-LDA
對CARS和VCPA挑選的變量分析發(fā)現(xiàn)有85個共享特征,對于特征挑選結果差異性應該來源于算法本身的差異。特征波數(shù)選擇結果對應光譜圖中位置如圖3(a,b)所示。
圖3 CARS (a)和VCPA (b)特征選擇結果Fig.3 The result of feature selection method CARS (a) and VCPA (b)
其中共同波數(shù)參照文獻[15]報道見表3所示,如波數(shù)630與625 cm-1對應冬蟲夏草活性成分甘露醇,說明特征挑選方法的特征波數(shù)具有一定化學意義,挑選特征具有可行性。
表3 蟲草特征挑選與化學解釋Table 3 Holistic assignment of infrared spectroscopy spectra of Cordyceps
對CARS和VCPA挑選波數(shù)畫出box-plot圖和Wilcoxon rank-sum檢驗熱圖如圖4、圖5所示。從圖4當中可看出,子座中段MS與蟲體中段ML的p值最低,該數(shù)據說明冬蟲夏草這兩部位活性成分差異性最顯著。如在圖4波數(shù)1 084 cm-1(b)所示,結果顯示在該波數(shù)下不同部位之間活性成分有顯著性差異。類似情況在圖5也可觀察得到。結果表明,冬蟲夏草不同部位之間活性成分有顯著性差異。
圖4 CARS選擇波數(shù)對應箱線圖A(1 084, 1 024, 630, 879 cm-1)和Wilcoxon rank-sum檢驗熱圖B(1 084, 1 024, 630, 879 cm-1)Fig.4 The box-plot A (1 084, 1 024, 630, 879 cm-1) and heat-map for Wilcoxon rank-sum test of wavenumbers selectedby CARS B(1 084, 1 024, 630, 879 cm-1)
圖5 VCPA選擇波數(shù)對應箱線圖A(1 089,1 028,874,625 cm-1)和 Wilcoxon rank-sum檢驗熱圖B(1 089,1 028,874,625 cm-1)Fig.5 The box-plot A(1 089,1 028,874,625 cm-1) and heat-map for Wilcoxon rank-sum test of wavenumbers selected by VCPA B(1 089,1 028,874,625 cm-1)
通過化學計量學模型結合紅外光譜數(shù)據,實現(xiàn)對野生冬蟲夏草不同部位有效識別??傮w而言,PLS-DA模型優(yōu)于LDA模型,準確率在90.0%以上,冬蟲夏草不同部位在活性成分上確實存在較大的差異。特征挑選方法可以保證準確率的同時降低模型復雜程度,同時挑選的特征具有一定的化學可解釋性,說明特征挑選的可行性。本研究可有助于在分子水平上加深對野生冬蟲夏草形成的認識,并對后期藥物開發(fā)高效利用蟲草提供參考,為合理有效利用名貴中草藥提供依據。