鐘偉萍,羅 陽,陳懿瑤,李小倩,王夢妍,田孟良
1四川農(nóng)業(yè)大學(xué)農(nóng)學(xué)院,成都 611130;2四川農(nóng)業(yè)大學(xué)新農(nóng)村發(fā)展研究院,雅安 625014
主成分分析方法[1](PCA)是將原來的數(shù)據(jù)指標(biāo)(一般是多維數(shù)據(jù))通過一系列算法重新組成新的互不相關(guān)的幾個綜合指標(biāo)代替原來數(shù)據(jù)指標(biāo)的一種統(tǒng)計方法,通過找出最能代表原始數(shù)據(jù)的計算方法,處理掉那些噪聲和冗余維度,在降低數(shù)據(jù)維度的同時還保證了數(shù)據(jù)原始特征不失真,對相似性越高的數(shù)據(jù),采用主成分分析越有效。在進(jìn)行主成分方差分析的時候存在單個指標(biāo)方差影響和指標(biāo)之間相關(guān)性影響,因此在前者計算的時候多采取協(xié)方差矩陣進(jìn)行計算,后者多采用相關(guān)性矩陣進(jìn)行計算分析。
我國石斛(Dendrobium)資源豐富,中國藥典[2]規(guī)定有4種石斛可供入藥,并且石斛作為藥食同源的植物,在保健品上使用也較多,所以市場上石斛“真假”混亂,加工品表觀不易鑒別。中國藥典規(guī)定的檢測方法檢測指標(biāo)有限,且檢測手段復(fù)雜。因此對已有檢測手段進(jìn)行檢測優(yōu)化,利用高效陰離子交換色譜和高效液相色譜檢測石斛中藥典規(guī)定及已報道明確活性的11種化學(xué)成分[3-5]。通過主成分分析對比,尋找質(zhì)量差異,在建立檢測檢驗方法的同時也探討數(shù)據(jù)處理對分類鑒別產(chǎn)生的影響,為石斛種質(zhì)開發(fā)和質(zhì)量控制提供參考。
石斛材料為課題組收集的種質(zhì)資源,種類如下表(表1)。
表1 實驗材料Table 1 The experimental materials
DIONEX-ICS-5 000+型離子色譜(配備脈沖安培積分檢測器),Chromeleon 7 色譜工作站, CarboPacTMPA100 Analytical(4 mm×250 mm)色譜柱(美國Thermo Fisher Scientific公司);Agilent 1200高效液相色譜儀(配備紫外分檢測器),XDB-C18色譜柱(美國Agilent公司);LX-03型萬能高速粉碎機(永康市紅光工貿(mào)有限公司);CP224S電子天平(德國Sartorius公司);UPH-III-10T型超純水機(成都超純科技有限公司);KQ-400KDE型高功率數(shù)控超聲波清洗器(東莞市科橋超聲波設(shè)備有限公司);Allegra X-30R Centrifuge 型離心機(美國貝克曼庫爾特);0.45 μm津騰有機濾頭及一次性注射器(天津市津騰實驗設(shè)備有限公司)。
甘露糖、鼠李糖、阿拉伯糖、葡萄糖、木糖、果糖、乳糖、丁香酸、柚皮素、香豆素、香草醛標(biāo)準(zhǔn)品均為色譜級(北京Solarbio公司);50% NaOH溶液(美國sigma公司);無水乙醇為優(yōu)級純(成都市科隆化學(xué)品有限公司);甲醇、乙腈、磷酸均為色譜級(天津市科密歐化學(xué)試劑有限公司);用水為電阻率≥18.19 MΩ·cm的超純水。
1.3.1 色譜條件
離子色譜:淋洗液為超純水-5 mol/L NaOH溶液(0 min 90%~10% 0.8 mL/min,3 min 90%~10% 0.8 mL/min,5 min 85%~15% 0.8 mL/min,7 min 85%~15% 0.4 mL/min,9 min 80%~20% 0.3 mL/min,12 min 80%~20% 0.4 mL/min,14 min 80%~20% 0.6 mL/min,18 min 85%~15% 0.6 mL/min,20 min 85%~15% 0.8 mL/min,24 min 90%~10% 0.8 mL/min,30 min Stop),進(jìn)樣量25 μL,柱溫30 ℃。
液相色譜:流動相為0.01%磷酸-乙腈-甲醇,洗脫程序(0 min 80%~0%~20%,6 min 70%~10%~20%,12 min 57%~10%~33%,15 min 54%~13%~33%,20 min 50%~20%~30%,22 min 70%~10%~20%,25 min 80%~0%~20%,流速0.6 mL/min),λ=270 nm,進(jìn)樣量6 μL,柱溫25 ℃。
1.3.2 標(biāo)準(zhǔn)品配制
分別精密量取各標(biāo)準(zhǔn)品配制成質(zhì)量濃度為1 000 mg/L儲備母液,在精密吸取配制成梯度濃度標(biāo)曲溶液,過0.45 μm濾膜后上樣檢測。
1.3.3 樣品制備
石斛糖樣液采用“水提醇沉”與三氟乙酸水解進(jìn)行制備,取上述一年生石斛材料,烘干粉碎過40目篩,精密稱定粉末0.5 g,加入50 mL超純水,400 W/50 ℃超聲提取1 h,放冷,取上清液5 mL,加入無水乙醇20 mL,冷藏4 h后離心(4 000 rpm)30 min,沉淀加10 mL熱水溶解得多糖提取液,在次精密吸取多糖提取溶液1 mL,精密加入TFA 1 mL(6 moL/L),密閉,100 ℃水解12 h,揮干溶劑,加入5 mL熱水溶解,放冷過0.45 μm濾膜得測試樣液I。
其余成分樣液采用“醇提”制備,精密稱取樣品粉末0.5 g,加入甲醇25 mL,400 W /40 ℃超聲提取2 h,放冷,取上清液過0.45 μm濾膜得測試樣液II。
1.3.4 數(shù)據(jù)處理
所有數(shù)據(jù)采用Excel 2016版和R x64 3.44版軟件進(jìn)行處理分析。
精密吸取配置成各糖濃度均為10 mg/L混合樣液,按1.3.1項下離子色譜條件進(jìn)樣測試,混合糖標(biāo)準(zhǔn)品分離色譜圖(圖1),出峰先后順序為甘露糖、鼠李糖、阿拉伯糖、葡萄糖、木糖、果糖、乳糖,所有糖標(biāo)準(zhǔn)品能在20 min之內(nèi)實現(xiàn)快速分離鑒別,分離度、理論塔板數(shù)均達(dá)能到分析要求。
圖1 糖類標(biāo)準(zhǔn)品分離色譜圖Fig.1 The chromatogram of sugar standard注:1:甘露糖;2:鼠李糖;3:阿拉伯糖;4:葡萄糖;5:木糖;6:果糖;7:乳糖。Note:1:mannose;2:mannose;3:arabinose;4:glucose;5:xylose;6:fructose;7:lactose.
精密吸取配置其余4種化學(xué)成分,濃度為10 mg/L,按1.3.1項下液相色譜條件進(jìn)樣測試,混合標(biāo)準(zhǔn)品分離色譜圖(圖2),出峰先后順序為丁香酸、香草醛、香豆素、柚皮素,4個標(biāo)準(zhǔn)品能在25 min之內(nèi)實現(xiàn)快速分離鑒別,分離度、理論塔板數(shù)均達(dá)能到分析要求。
圖2 4種化學(xué)標(biāo)準(zhǔn)品分離色譜圖Fig.2 The chromatogram of 4 chemical standard注:1:丁香酸;2:香草醛;3:香豆素;4:柚皮素。Note:1:syringate;2:vanillin;3:coumarin;4:naringenin.
通過標(biāo)準(zhǔn)曲線計算,得到線性回歸方程、線性范圍、回收率、相對標(biāo)準(zhǔn)偏差(RSD)等數(shù)據(jù)(表2)。數(shù)據(jù)表明,利用離子色譜和液相色譜對石斛樣品中化學(xué)成分的檢測分析滿足簡便、快速、精確的要求。
表2 標(biāo)準(zhǔn)曲線Table 2 Linear equations
分別取樣液I和樣液II,分別按1.3.1項下離子色譜條件和液相色譜條件進(jìn)樣測試。測定各成分含量如下(表3),11種化學(xué)成分在石斛種分布差異顯著,所有石斛均含有甘露糖、鼠李糖、阿拉伯糖、葡萄糖、木糖、丁香酸、香豆素和柚皮素成分;麝香石斛中阿拉伯糖含量高于其它種,為0.63‰;紫婉石斛中葡萄糖和木糖含量高于其它種,分別為1.92‰和9.61‰;喇叭唇石斛中甘露糖、果糖、乳糖含量高于其它種,分別為6.74‰、0.39‰和3.08‰;黃喉石斛中鼠李糖含量高于其它種,為1.12‰;疊鞘石斛中香草醛含量高于其它種,為0.479‰;蜻蜓石斛中丁香酸、柚皮素含量高于其它種,分別為0.409‰和0.526‰;玫瑰石斛中香豆素含量高于其它種,為0.87‰。
表3 各成分含量(‰)Table 3 The component content(‰)
通過R計算,得到11種化學(xué)成相似性系數(shù)(表4),結(jié)果表明有45.5%的數(shù)據(jù)之間相似性系數(shù)大于0.3,其中以糖類成分之間相似性較高,因此數(shù)據(jù)適宜于采用主成分分析方法進(jìn)行進(jìn)一步分析。
表4 相似性系數(shù)矩陣Table 4 The similarity coefficient matrix
2.5.1 特征向量
利用R軟件分別輸入相關(guān)系數(shù)矩陣和協(xié)方差矩陣計算命令,得到其特征向量(表5),選取方差累積貢獻(xiàn)值大于80%的主成分進(jìn)行下一步分析。
表5 不同矩陣主成分分析的特征值Table 5 The eigenvalues of principal component analysis of different matrices
2.5.2 載荷矩陣
載荷矩陣(表6)反應(yīng)對評價結(jié)果的影響程度,其絕對值越趨近于1則代表該主成分對變量的代表性越高,對評價結(jié)果越重要。
表6 不同矩陣主成分載荷Table 6 The different matrix principal component loads
2.5.3 主成分得分圖
計算相關(guān)系數(shù)矩陣主成分得分,繪制主成分得分三維空間圖并結(jié)合平方歐式距離聚類樹狀圖(圖3),結(jié)果表明在這11種化學(xué)成分上,不同石斛之間可聚為以下幾類,第一類為細(xì)莖石斛、喇叭唇石斛和紫婉石斛,這3種石斛在甘露糖、阿拉伯糖、木糖、果糖、乳糖含量上相近;第二類為黃喉石斛和疊鞘石斛,這2種石斛在木糖、果糖、丁香酸含量上相近;第三類為鐵皮石斛、金釵石斛、姬竹葉石斛、鼓槌石斛、長蘇石斛、長距石斛、景洪石斛和滇金石斛,這8種石斛在果糖、鼠李糖、香豆素、柚皮素含量上相近;其余蜻蜓石斛、麝香石斛、玫瑰石斛各單獨為一類。
計算協(xié)方差矩陣主成分得分,繪制主成分得分二維空間圖并結(jié)合平方歐式距離聚類樹狀圖(圖4),結(jié)果表明在這11種化學(xué)成分上,分類主要衡量標(biāo)準(zhǔn)在于PC1向量上,在PC1主成分向量上距離相近,只是在PC2主成分向量上有一定距離,因此可以分為以下幾類,第一類為細(xì)莖石斛、紫婉石斛和喇叭唇石斛;第二是蜻蜓石斛和麝香石斛;第三類是金釵石斛、姬竹葉石斛、玫瑰石斛、長蘇石斛、長距石斛、景洪石斛、滇金石斛、鐵皮石斛、鼓槌石斛、黃喉石斛和疊鞘石斛。
圖3 相關(guān)系數(shù)矩陣主成分得分圖和聚類樹狀圖Fig.3 The principal component score of correlation coefficient matrix and Cluster tree
圖4 協(xié)方差矩陣主成分得分圖和聚類樹狀圖Fig.4 The principal component score of covariance matrix and Cluster tree
不論是在天然產(chǎn)物[6]或者中藥標(biāo)志物[7]的研究中,我們更多的是集中在研究其自身化學(xué)成分的組成、檢測方法手段的建立更新,但大量的數(shù)據(jù)隨著多維質(zhì)譜等新技術(shù)檢測設(shè)備[8-9]的更新而不斷的激增,那如何從中篩選有用指標(biāo),如何建立數(shù)據(jù)分析方法進(jìn)行大數(shù)據(jù)的挖掘,這將是人為鑒定和分類標(biāo)準(zhǔn)建立的重要末端環(huán)節(jié),而不同的數(shù)據(jù)分析處理方法將會帶來不同的標(biāo)準(zhǔn)體系。同時,很多的化學(xué)成分是存在相關(guān)性的,所以面對海量的“多維”數(shù)據(jù)選擇能有效“降維”的分析手段,主成分分析是一個很好的數(shù)據(jù)處理分析方法。
通過色譜法測試得到的石斛樣品中11種化學(xué)成分進(jìn)行分析表明,16種石斛在化學(xué)成分上存在明顯差異,并且不同的主成分分析方法得到的結(jié)果存在一定差異,這本身與兩種算法差異存在關(guān)系。在對相關(guān)性較大的數(shù)據(jù)處理時,如果采用協(xié)方差矩陣算法則可能導(dǎo)致重要的主成分和主成分次序發(fā)生變換;而在對原始數(shù)據(jù)做相關(guān)系數(shù)分析時,會存在權(quán)大(即在原始數(shù)據(jù)中的重要程度)權(quán)小之分,而權(quán)的大小又是隨機的,所以在提取主成分時也會存在一定問題。
本次研究基于對石斛質(zhì)量控制標(biāo)準(zhǔn),建立高效、精確的檢測檢驗手段得到大量數(shù)據(jù)的同時,對主成分分析方法進(jìn)行研究,通過對比相關(guān)性矩陣和協(xié)方差矩陣兩種算法的不同,得到的分析結(jié)果還是存在一定差異。兩者的優(yōu)勢效應(yīng)不同是造成分析結(jié)果差異的主要原因,相關(guān)性矩陣的優(yōu)勢效應(yīng)主要表現(xiàn)在相關(guān)性大、相關(guān)性指數(shù)多的一類指標(biāo),而協(xié)方差矩陣主要表現(xiàn)在單個指標(biāo)方差大、指標(biāo)之間相關(guān)程度高的一類指標(biāo)。因此,在選擇主成分分析時,應(yīng)注意數(shù)據(jù)分析方法的全面性,建立標(biāo)準(zhǔn)統(tǒng)一的數(shù)據(jù)處理和信息挖掘方法,避免采用單一、不全面的人為分類標(biāo)準(zhǔn)。而通過分析本次實驗結(jié)果,采用協(xié)方差矩陣算法進(jìn)行的主成分分析更適用于此次所測試的結(jié)果,這主要是由于此次分析的11種化學(xué)成分中,有7種單糖成分,因此其指標(biāo)之間的相關(guān)程度較高,適用于協(xié)方差矩陣算法。