夏珍珍,鄭 丹,夏 虹,姚晶晶,王勝鵬,仇建飛
(1.湖北省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)質(zhì)量標(biāo)準(zhǔn)與檢測(cè)技術(shù)研究所 農(nóng)業(yè)部農(nóng)產(chǎn)品質(zhì)量安全風(fēng)險(xiǎn)評(píng)估實(shí)驗(yàn)室(武漢),湖北武漢 430064;2.湖北省農(nóng)業(yè)科學(xué)院果樹(shù)茶葉研究所,湖北 武漢 430064;3.吉林省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)質(zhì)量標(biāo)準(zhǔn)與檢測(cè)技術(shù)研究所 農(nóng)業(yè)部農(nóng)產(chǎn)品質(zhì)量安全風(fēng)險(xiǎn)評(píng)估實(shí)驗(yàn)室(長(zhǎng)春),吉林 長(zhǎng)春 130033)
香菇(Lentinuseduodes,Shiitake)是藥食同源的食用菌品種,富含多種營(yíng)養(yǎng)物質(zhì),如人體必需氨基酸、蛋白質(zhì)、維生素、多糖、核苷酸等?,F(xiàn)代醫(yī)學(xué)研究發(fā)現(xiàn)香菇子實(shí)體和菌絲中含有大量生物活性物質(zhì),具有防癌、抗癌、降低血壓血脂等醫(yī)藥保健價(jià)值[1]。我國(guó)是香菇的發(fā)源地,早在4 000年前就有食用記載。由于香菇的附加產(chǎn)值較普通農(nóng)作物高,近年來(lái)香菇種植更是成為山區(qū)產(chǎn)業(yè)扶貧的重要模式之一[2]。目前我國(guó)的香菇主產(chǎn)區(qū)可分為東南(福建、浙江)、華中(湖北、河南)、東北(遼寧、吉林)和西南(四川、重慶、云南)等。隨著香菇種植范圍的擴(kuò)大,其產(chǎn)量也隨之增加,2018年我國(guó)香菇產(chǎn)量達(dá)1 043.12萬(wàn)噸,占我國(guó)食用菌總產(chǎn)量的16.4%,是名副其實(shí)的主要品種[3]。
現(xiàn)有香菇的產(chǎn)品標(biāo)準(zhǔn)有兩項(xiàng),分別為國(guó)家標(biāo)準(zhǔn)《GB/T 38581-2020 香菇》[4]和行業(yè)標(biāo)準(zhǔn)《GH/T 1013-2015 香菇》[5]。標(biāo)準(zhǔn)中的質(zhì)量評(píng)價(jià)指標(biāo)主要包括感官要求(形態(tài)、色澤、氣味等)、理化指標(biāo)(水分、砷、鉛、汞、鎘等重金屬指標(biāo))。感官指標(biāo)的描述多為無(wú)法量化的文字描述,理化指標(biāo)則是重金屬含量的要求,屬于安全要求。標(biāo)準(zhǔn)對(duì)于香菇中的多糖類物質(zhì)、蛋白質(zhì)類物質(zhì)、小分子揮發(fā)性風(fēng)味物質(zhì)這類品質(zhì)指標(biāo)暫無(wú)規(guī)定。但是這類有機(jī)物與香菇的口感和營(yíng)養(yǎng)價(jià)值密切相關(guān),從而影響著消費(fèi)者的購(gòu)買(mǎi)習(xí)慣。栽培香菇的生長(zhǎng)環(huán)境如光照、氣溫、水源等差異會(huì)造成香菇中有機(jī)物的累積差異,因而香菇的品質(zhì)跟種植的產(chǎn)地環(huán)境有很大的相關(guān)性。我國(guó)香菇種植范圍廣,不同產(chǎn)地間的香菇品質(zhì)參數(shù)差異很大[6]。隨著飲食結(jié)構(gòu)的調(diào)整,人們對(duì)食物的營(yíng)養(yǎng)價(jià)值要求提高。香菇品質(zhì)的高低不僅影響其內(nèi)含的有機(jī)物組成和含量,且不同品質(zhì)香菇間的售價(jià)也存在較大差異。有些不法商家更是為了經(jīng)濟(jì)利益,混淆產(chǎn)地,以次充好。針對(duì)這一問(wèn)題,建立快速、準(zhǔn)確的香菇產(chǎn)地鑒別方法成為分析工作者的一項(xiàng)重要任務(wù),且對(duì)保障香菇品牌和消費(fèi)者利益具有實(shí)際意義。
目前用于產(chǎn)地鑒別的分析技術(shù)包括光譜法、質(zhì)譜法、分子生物學(xué)等[7]方法,但對(duì)于香菇產(chǎn)地的研究報(bào)道較少,僅有朱哲燕和王升等[6,8]分別利用中紅外光譜法和氣相色譜-質(zhì)譜法的香菇產(chǎn)地研究。由于中紅外光譜法和氣相色譜-質(zhì)譜法自身的特點(diǎn),如對(duì)樣品的制備周期長(zhǎng)、提取方法復(fù)雜耗時(shí)、有機(jī)溶劑消耗量大、分析速度長(zhǎng)等,制約了其在快速分類領(lǐng)域的應(yīng)用。近紅外光譜技術(shù)因具有快速、無(wú)損、測(cè)量方便、成本低等特點(diǎn)已經(jīng)在食品、醫(yī)藥、石油領(lǐng)域廣泛應(yīng)用[9-10]。近年來(lái),近紅外光譜也廣泛用于小麥、芝麻、茶葉等農(nóng)產(chǎn)品真實(shí)性溯源方向[11-13]。但由于近紅外光譜吸收帶寬,光譜重疊嚴(yán)重,因而必須結(jié)合化學(xué)計(jì)量學(xué)才能實(shí)現(xiàn)定性、定量分析。本文采集不同產(chǎn)地干香菇樣品的近紅外漫反射譜結(jié)合不同的光譜預(yù)處理方法和波長(zhǎng)選擇方法,建立了香菇產(chǎn)地鑒別模型,可為香菇的質(zhì)量控制提供新的評(píng)價(jià)方法。
采用美國(guó)Antaris型傅里葉變換近紅外光譜儀(Fourier transform near infrared spectrometer,F(xiàn)T-NIR),測(cè)量選用積分球漫反射光學(xué)儀器,光譜掃描區(qū)間4 000 ~ 10 000 cm-1,光譜分辨率2 cm-1,InGaAs檢測(cè)器。光譜數(shù)據(jù)處理采用Matlab R2017b(The Math Works,Natick,USA)軟件。
采集吉林、湖北、福建不同產(chǎn)地的栽培香菇干樣共計(jì)113個(gè),香菇分別購(gòu)于基地和市場(chǎng)。在低溫4 ℃冷庫(kù)中避光保存。其中吉林香菇樣品58個(gè),湖北香菇31個(gè),福建香菇24個(gè),香菇產(chǎn)地信息列于表1。采用粉碎機(jī)將樣品粉碎,過(guò)100目篩供光譜測(cè)試用。將樣品倒入與儀器配套的旋轉(zhuǎn)杯中充分壓實(shí)后采集光譜,每條光譜掃描64次取平均作為最終光譜。
表1 香菇樣本數(shù)和產(chǎn)地分布情況Table 1 Sample numbers and origins of the shiitake samples in the research
由于香菇樣本顆粒不均、獲得的近紅外光譜信息復(fù)雜,且存在一些噪聲、基線漂移、背景干擾等問(wèn)題,需對(duì)光譜進(jìn)行一定的預(yù)處理,以提高模型的效果。運(yùn)用到的預(yù)處理方法有求一階導(dǎo)數(shù)(First order derivative,1st)、小波變換(Continuous wavelet transform,CWT)、多元散射校正(Multivariate scatter correction,MSC)、標(biāo)準(zhǔn)正態(tài)變換(Standard normal transformation,SNV)等[14-17]。
由于近紅外光譜的譜峰寬,特征吸收不明顯,存在大量冗余信息,因此需進(jìn)行必要的波長(zhǎng)篩選,挑選出特征波長(zhǎng)進(jìn)行建模。隨機(jī)測(cè)試(Randomization test,RT)是由邵學(xué)廣課題組提出的一種變量篩選方法,隨機(jī)檢驗(yàn)通過(guò)建立大量隨機(jī)模型,利用隨機(jī)模型與真實(shí)模型的統(tǒng)計(jì)值之間是否具有統(tǒng)計(jì)性差異確定有效參數(shù)[18],已經(jīng)廣泛應(yīng)用于近紅外數(shù)據(jù)的有效波長(zhǎng)選擇[19],本文采用該方法進(jìn)行特征光譜信息的篩選。
偏最小二乘判別分析(Partial least squares discriminant analysis,PLSDA)是一種廣泛應(yīng)用的分類方法[20],分別建立了3種香菇產(chǎn)地的判別模型。通過(guò)優(yōu)化最佳因子數(shù)得到最優(yōu)的判別模型,并通過(guò)模型預(yù)測(cè)的正確率評(píng)價(jià)3個(gè)產(chǎn)地的模型分類效果,模型的訓(xùn)練集和預(yù)測(cè)集樣品信息如表2所示。
表2 訓(xùn)練集和預(yù)測(cè)集樣品信息Table 2 Varieties of calibration set and prediction set of samples
不同產(chǎn)地香菇的近紅外原始譜如圖1A所示,各近紅外光譜的變化趨于一致,分別在8 400、6 786、5 764、5 159、4 709、4 281 cm-1附近有較寬的吸收峰,主要為香菇中有機(jī)物的C—H、N—H、O—H振動(dòng)的倍頻峰。在7 000 cm-1后香菇樣品的光譜出現(xiàn)漂移,因而需對(duì)上述光譜進(jìn)行一定的前處理。選取的光譜預(yù)處理方法包括CWT、1st、MSC和SNV,處理后的光譜如圖1(B~E)??捎^察到,經(jīng)光譜預(yù)處理后可消除光譜間的漂移,增加光譜的分辨率。但由于不同產(chǎn)地香菇光譜間的差異較小,仍無(wú)法從譜圖信息上直接區(qū)分,需進(jìn)一步借助化學(xué)計(jì)量學(xué)的方法解析不同產(chǎn)地間香菇的近紅外光譜差別。
主成分分析(Principal component analysis,PCA)是一種常用的聚類分析方法,通過(guò)將多變量的光譜空間轉(zhuǎn)換為新變量空間來(lái)減少信息的冗余,從而最大限度的保留和發(fā)掘原光譜數(shù)據(jù)的特征。對(duì)栽培香菇的原始光譜進(jìn)行主成分分析,得到的前兩個(gè)主成分得分圖如圖2A所示,其中藍(lán)色圓點(diǎn)表示吉林省的香菇樣品,紅色點(diǎn)表示湖北省的香菇樣品,黑色點(diǎn)表示福建省香菇,前兩個(gè)主成分的貢獻(xiàn)率達(dá)到98.3%,包含了絕大部分的樣品信息。分別觀察各色圓點(diǎn),發(fā)現(xiàn)各色圓點(diǎn)均有一定的聚集,整體看三色圓點(diǎn)有較大范圍的重合,且在第一主成分(PC1)上的重疊較第二主成分(PC2)嚴(yán)重。兩兩考察,黑色點(diǎn)與紅色點(diǎn)、黑色點(diǎn)與藍(lán)色點(diǎn)的重疊部分較大,而紅色點(diǎn)與藍(lán)色點(diǎn)的重疊范圍相對(duì)較小,總體看原始光譜的PCA聚類效果不好,未能發(fā)現(xiàn)各省份香菇的區(qū)分特征。為了提高PCA的分類效果,采用不同的光譜預(yù)處理技術(shù)以減少光譜的背景漂移和分辨率差等問(wèn)題。經(jīng)不同的光譜預(yù)處理后的PCA得分圖如圖2(B~E)所示。
圖2B和C為經(jīng)CWT和1st處理后的前兩個(gè)主成分得分圖,前兩個(gè)主成分方差貢獻(xiàn)率分別為91.9%和91.7%,相比原始光譜的貢獻(xiàn)率有所下降但仍代表了絕大部分的樣品信息。相比原始光譜的得分圖,經(jīng)過(guò)處理后各色散點(diǎn)間的相互覆蓋程度有一定減少,尤其是紅色點(diǎn)與藍(lán)色點(diǎn)的重疊范圍進(jìn)一步減少,因而經(jīng)CWT和1st處理后光譜的PCA區(qū)分效果相對(duì)原始光譜變好。圖2D和E為經(jīng)MSC和SNV處理后的前兩個(gè)主成分得分圖,前兩個(gè)主成分方差貢獻(xiàn)率分別為76.5%和77.6%,與原始光譜和經(jīng)CWT和1st處理后光譜相比,經(jīng)MSC和SNV處理后其方差貢獻(xiàn)率進(jìn)一步下降,但依然解釋了大部分的樣品信息。且經(jīng)MSC和SNV處理的黑色和紅色圓點(diǎn)的聚集較原始光譜和CWT和1st處理的緊湊;藍(lán)色圓點(diǎn)的聚集程度也較原始光譜緊湊,但相比于CWT和1st的處理有所分散。觀察藍(lán)色點(diǎn)和紅色點(diǎn)的覆蓋程度(覆蓋程度越大表示各省類別相差越小,反之則越大),表明其覆蓋程度相對(duì)于原始光譜有明顯減小,但相較于CWT和1st處理,從其對(duì)角線的角度觀察,兩色圓點(diǎn)覆蓋程度略有減小。綜上可知,經(jīng)過(guò)預(yù)處理的光譜PCA分類效果較原始光譜有較大改善,因而可以確定對(duì)原始光譜進(jìn)行預(yù)處理的必要,但不同預(yù)處理方法的改善效果差別不明顯。由于基于PCA只能定性的分析香菇產(chǎn)地,無(wú)法實(shí)現(xiàn)對(duì)未知香菇產(chǎn)地的鑒別,因而需對(duì)樣品進(jìn)一步建立各省份香菇的產(chǎn)地判別模型。
通過(guò)PLSDA方法將每類產(chǎn)地的香菇樣品按照3∶1比例隨機(jī)分為建模集和預(yù)測(cè)集兩部分,建模集用于建立PLSDA判別模型,預(yù)測(cè)集用于考察已建立模型的判別效果,預(yù)測(cè)結(jié)果列于表3中,預(yù)測(cè)結(jié)果通過(guò)預(yù)測(cè)正確率表示,其中分省預(yù)測(cè)正確率和總預(yù)測(cè)正確率按照下列公式計(jì)算:
其中,與實(shí)際情況相符的樣本數(shù)量包括兩部分:樣本實(shí)際是屬于該省份且模型預(yù)測(cè)為“是”的情況和樣本實(shí)際不屬于該省份且模型預(yù)測(cè)為“不是”的情況。
以表3中Raw+PLSDA結(jié)果為例,吉林省的預(yù)測(cè)集樣本共有33個(gè),其中屬于吉林省的樣本為17個(gè),預(yù)測(cè)屬于吉林省樣品17個(gè),不屬于吉林省樣本16個(gè),預(yù)測(cè)不屬于吉林省樣本13個(gè),因此與實(shí)際情況相符的樣本數(shù)量為30個(gè),則吉林省的分省預(yù)測(cè)正確率為90.91%。同理,湖北省和福建省的分省預(yù)測(cè)正確率分別為93.94%和96.97%,最終的總預(yù)測(cè)正確率為93.94%。
從表3還可以看出,通過(guò)CWT、1st、MSC、SNV預(yù)處理后光譜的PLSDA的分省預(yù)測(cè)正確率較原始光譜的分省預(yù)測(cè)正確率有所變化,如吉林省的預(yù)測(cè)正確率得到提高。分析湖北省PLSDA的預(yù)測(cè)率,CWT處理后預(yù)測(cè)正確率略有提升,1st和MSC處理后的模型正確率維持不變,SNV處理后的模型正確率略有降低。分析福建省PLSDA的預(yù)測(cè)率,除MSC方法處理后預(yù)測(cè)率較原始數(shù)據(jù)持平,其他處理方法的預(yù)測(cè)率均略有下降,但也均為93.94%。比較3個(gè)省的總預(yù)測(cè)正確率,發(fā)現(xiàn)CWT處理較原始光譜和其他處理方式的光譜的模型預(yù)測(cè)正確率高,達(dá)到95.96%。因而選擇CWT預(yù)處理方法對(duì)光譜數(shù)據(jù)進(jìn)行后續(xù)處理。
表3 不同預(yù)處理的PLSDA的分類結(jié)果Table 3 The results predicted of PLSDA by different preprocessing method
全波長(zhǎng)范圍的近紅外光譜存在大量冗余信息,采用全波長(zhǎng)進(jìn)行分類建模,會(huì)增加計(jì)算量。為了選擇有效的變量需要進(jìn)行波長(zhǎng)選擇,選擇RT方法來(lái)進(jìn)行模型優(yōu)化。選擇波長(zhǎng)后的模型預(yù)測(cè)結(jié)果見(jiàn)表4。將Raw+RT+PLSDA的預(yù)測(cè)結(jié)果與表3中Raw+PLSDA結(jié)果進(jìn)行比較,發(fā)現(xiàn)選擇波長(zhǎng)后,吉林、湖北、福建的預(yù)測(cè)正確率較原始光譜有所提高,總預(yù)測(cè)正確率由93.94%提高到95.96%。其中福建省的預(yù)測(cè)正確率提高最明顯,達(dá)到100%;吉林省的模型預(yù)測(cè)正確率提到93.94%;而湖北省的模型預(yù)測(cè)正確率維持不變,推測(cè)可能是由于此處建模樣品數(shù)量較少造成,但通過(guò)減少參與建模的波長(zhǎng),客觀上降低了模型的冗余度,提高了模型的解釋性,因而選擇波長(zhǎng)是必要的。
經(jīng)CWT預(yù)處理和RT選擇特征波長(zhǎng)后,PLSDA的總預(yù)測(cè)正確率也有所提高,達(dá)到96.97%。其中,吉林省的模型預(yù)測(cè)正確率提高最明顯,達(dá)到100%,湖北省的模型預(yù)測(cè)正確率達(dá)96.97%,福建省的模型預(yù)測(cè)正確率下降至93.94%,但CWT+RT+PLSDA模型預(yù)測(cè)的總預(yù)測(cè)正確率還是較Raw+RT+PLSDA模型的預(yù)測(cè)正確率提高了近1%。因而得出,CWT結(jié)合RT得到的香菇產(chǎn)地模型預(yù)測(cè)效果優(yōu)于原始光譜結(jié)合RT,對(duì)原始光譜進(jìn)行預(yù)處理十分必要。另外,通過(guò)RT波長(zhǎng)選擇后,原始光譜的3 112個(gè)變量,縮減到1 200個(gè)變量以下,極大地降低了運(yùn)算的數(shù)據(jù)量,其選擇的具體波長(zhǎng)分布見(jiàn)圖3。
表4 波長(zhǎng)選擇后的PLSDA的分類結(jié)果Table 4 The results predicted of PLSDA by different wavelength selection methods
本文研究了利用近紅外光譜結(jié)合化學(xué)計(jì)量學(xué)方法快速區(qū)分香菇地理起源的可行性,為香菇產(chǎn)地的快速無(wú)損判別提供了一種新方法。對(duì)于地理特征,采用PLSDA分別建立了吉林、湖北、福建等香菇主產(chǎn)省份的產(chǎn)地判別模型,然后通過(guò)4種光譜預(yù)處理方法和波長(zhǎng)選擇方法進(jìn)行優(yōu)化。判別分析模型效果均由預(yù)測(cè)集中的樣本預(yù)測(cè)正確率進(jìn)行評(píng)估。結(jié)果發(fā)現(xiàn),CWT和RT的組合具有更好的預(yù)測(cè)結(jié)果。本方法為香菇產(chǎn)地的真實(shí)性溯源提供了一種新方法,在香菇產(chǎn)業(yè)發(fā)展具有一定的實(shí)際意義,但由于文中建立的香菇產(chǎn)地判別模型僅覆蓋吉林、湖北、福建3個(gè)香菇主產(chǎn)省份,并未覆蓋全國(guó)樣品,無(wú)法實(shí)現(xiàn)除此之外其他省份的香菇產(chǎn)地判別,后續(xù)將繼續(xù)擴(kuò)大樣品覆蓋范圍,從而擴(kuò)大香菇產(chǎn)地判別模型的應(yīng)用省份。