張欣欣,李尚科,李 跑, *,單 楊,蔣立文,劉 霞
1. 湖南農(nóng)業(yè)大學(xué)食品科學(xué)技術(shù)學(xué)院食品科學(xué)與生物技術(shù)湖南省重點(diǎn)實(shí)驗(yàn)室,湖南 長沙 410128 2. 湖南省農(nóng)業(yè)科學(xué)院湖南省農(nóng)產(chǎn)品加工研究所,湖南 長沙 410125
柑橘是柑、柚、橙、枳、橘(桔)等的總稱,是世界第一大水果。柑橘富含水分、維生素、常量以及微量元素、礦物質(zhì)、酚類、萜類等營養(yǎng)和生物活性物質(zhì)[1]。由于氣候、土壤、水分差異,不同產(chǎn)地柑橘在口感、質(zhì)地方面有所差別,但不同產(chǎn)地的柑橘外觀相似,表皮氣味相近,非專業(yè)人士難以實(shí)現(xiàn)準(zhǔn)確鑒別分析。
國內(nèi)外許多學(xué)者利用化學(xué)分析與DNA標(biāo)記等方法實(shí)現(xiàn)了柑橘及其副產(chǎn)物的品種、產(chǎn)地、病害的鑒別分析。Xiao等[2]利用感官評(píng)定、氣相色譜質(zhì)譜聯(lián)用與氣相色譜-嗅覺評(píng)判三種方法對(duì)不同產(chǎn)地甜橙精油的揮發(fā)性成分進(jìn)行了分析。Nicolosi等[3]利用DNA標(biāo)記法實(shí)現(xiàn)了柑橘品種的鑒別分析。這些方法準(zhǔn)確度高,但費(fèi)時(shí)費(fèi)力,不利于大面積推廣,且對(duì)樣品具有破壞性,無法實(shí)現(xiàn)快速無損分析,影響產(chǎn)品的二次銷售。近年來,近紅外光譜技術(shù)因其快速無損、綠色環(huán)保的特點(diǎn)在食品鑒別分析領(lǐng)域得到了廣泛應(yīng)用[4-6]。然而由于柑橘皮對(duì)光譜的干擾較大,導(dǎo)致現(xiàn)階段柑橘產(chǎn)地?zé)o損鑒別研究匱乏。此外柑橘體積較大,因此需要對(duì)光譜采樣點(diǎn)進(jìn)行優(yōu)化。
由于光譜采集過程中存在環(huán)境、樣本、操作人員等的影響,所以光譜往往存在譜峰重疊、較大背景、基線漂移等干擾。為了消除這些干擾,需要結(jié)合化學(xué)計(jì)量學(xué)方法對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理[7-10]?,F(xiàn)階段提出了很多光譜預(yù)處理方法,如去趨勢(shì)校正(DT)[11]、去偏置校正(De-bias)[12]、多元散射校正(MSC)[13]、小波變換(WT)[14-15]等,不同光譜預(yù)處理方法適用范圍不同,DT和De-bias用于消除光譜中存在的基線漂移,MSC等用來消除顆粒分布不均勻及顆粒大小不同所產(chǎn)生的散射對(duì)光譜的影響,WT等求導(dǎo)算法常用來扣除儀器背景或基線漂移對(duì)信號(hào)的影響。但實(shí)際分析光譜中往往存在多種干擾,僅用單一預(yù)處理方法無法實(shí)現(xiàn)對(duì)光譜的優(yōu)化。為此,在處理光譜數(shù)據(jù)時(shí)通常需采用預(yù)處理組合的形式以消除多種干擾[9]。結(jié)合光譜預(yù)處理方法,可以建立準(zhǔn)確的鑒別和定量模型。常用的鑒別算法有無監(jiān)督的主成分分析(PCA)方法與有監(jiān)督的Fisher線性判別分析(FLD),其中Fisher線性判別分析方法要求樣本數(shù)大于變量數(shù),需要對(duì)數(shù)據(jù)進(jìn)行降維處理。本文通過結(jié)合PCA與FLD的優(yōu)勢(shì),利用近紅外光譜,提出了一種不同柑橘產(chǎn)地?zé)o損鑒別的方法。通過單一與組合預(yù)處理對(duì)獲得的柑橘光譜進(jìn)行預(yù)處理,利用PCA-FLD方法建立鑒別模型,并與PCA方法模型進(jìn)行對(duì)比,以期為不同產(chǎn)地柑橘的快速無損鑒別提供一種新方法。
云南、湖南、廣西武鳴和來賓是國內(nèi)常見的沃柑主產(chǎn)區(qū),且這四個(gè)產(chǎn)地沃柑在本地超市容易購得。它們外觀上十分相似,但在價(jià)格上存在一定的差別。從本地水果超市購買新鮮的云南沃柑、湖南沃柑、廣西武鳴沃柑、廣西來賓沃柑各30個(gè),共計(jì)120個(gè),擦拭表皮,于室溫下放置12 h。
傅里葉變換近紅外光譜儀,(AntarisII,美國Thermo Scientific公司),采用積分球漫反射模式采集完整光譜,波數(shù)范圍為10 000~4 000 cm-1,最小間隔約為4 cm-1,共采集1557個(gè)數(shù)據(jù)點(diǎn)。使用MATLAB R2010b(The Mathworks, USA)軟件進(jìn)行數(shù)據(jù)分析與處理。
光譜采集在室溫下進(jìn)行。直接將沃柑立放在近紅外光譜儀光斑的中心位置,待重心平衡后,開始對(duì)樣品進(jìn)行掃描,利用漫反射模式對(duì)沃柑的果梗部、果頂部以及赤道線(四等分)進(jìn)行光譜采集,每個(gè)樣品共采集6個(gè)點(diǎn)的光譜,每個(gè)點(diǎn)測(cè)量3次,取其平均值作為原始光譜。用Kennard-Stone(KS)分組方法將120個(gè)沃柑樣品數(shù)據(jù)以2∶1的比例分為80個(gè)校正集與40個(gè)驗(yàn)證集。此外,對(duì)每個(gè)類別樣品分別進(jìn)行KS分組計(jì)算以保證每類樣品在校正集和驗(yàn)證集集的平衡。
為了消除儀器和環(huán)境的干擾,提高信噪比,采用DT、De-bias、MSC、最大最小歸一化(Min-Max)、標(biāo)準(zhǔn)正態(tài)變量變換(SNV)、一階導(dǎo)數(shù)(1st)、二階導(dǎo)數(shù)(2nd)以及連續(xù)小波變換(CWT)等預(yù)處理方法對(duì)光譜進(jìn)行處理。近紅外信號(hào)中存在非常明顯的基線漂移干擾,求導(dǎo)預(yù)處理可以消除基線漂移干擾,強(qiáng)化譜帶特征; 由于柑橘樣品物理性狀原因,信號(hào)中存在光散射的干擾,而MSC和SNV是常用的校正散射影響的方法。因此我們采用了求導(dǎo)和消除光散射預(yù)處理的組合方式以消除光譜中的多種干擾。采用1st-DT,1st-SNV,1st-MSC,CWT-SNV,CWT-MSC和SNV-1st等組合預(yù)處理方法對(duì)光譜進(jìn)行優(yōu)化。為了實(shí)現(xiàn)不同產(chǎn)地柑橘無損鑒別分析,采用PCA及FLD方法建立鑒別模型。FLD方法要求樣本數(shù)為變量數(shù)的3~5倍,因此采用PCA方法對(duì)數(shù)據(jù)進(jìn)行降維處理,利用得到的主成分建立PCA-FLD鑒別模型。
圖1為不同光譜采集點(diǎn)的原始光譜。光譜的大致走勢(shì)與其他學(xué)者采集的柑橘光譜相似,在8 500~8 300,7 100~6 900,5 700~5 500和5 200~5 000 cm-1四處有較為明顯的波峰,分別為CH第三泛頻帶、CH第二泛頻帶、CH的第一泛頻帶和CH與CO組合帶[16-17],可能與柑橘中的還原糖、果膠、有機(jī)酸的近紅外吸收有關(guān)。此外,原始光譜中存在明顯的譜峰重疊、較大背景、基線漂移等干擾。僅通過原始光譜無法實(shí)現(xiàn)不同產(chǎn)地柑橘的鑒別。因此在建立鑒別模型前需采用預(yù)處理方法對(duì)原始光譜進(jìn)行優(yōu)化處理。
圖1 原始光譜圖(a)—(h): 赤道線1—4、果梗部、果頂部、赤道線4個(gè)點(diǎn)平均以及6個(gè)點(diǎn)平均Fig.1 The raw spectra(a)—(h): equator 1—4, top, bottom, average of 4 points, average of 6 points, respectively
采用PCA方法結(jié)合光譜預(yù)處理方法以建立不同產(chǎn)地柑橘的鑒別模型。圖2為赤道線4個(gè)采集點(diǎn)平均光譜結(jié)合單一預(yù)處理的PCA結(jié)果。其中校正集樣本用實(shí)心圖標(biāo),驗(yàn)證集樣本用空心圖標(biāo)表示。因?yàn)榍皟蓚€(gè)主成分(PC1和PC2)對(duì)沃柑光譜數(shù)據(jù)變量的累計(jì)方差貢獻(xiàn)率在90%以上,因此選擇PC1和PC2進(jìn)行PCA分析。從圖2(a)可知,不同產(chǎn)地沃柑數(shù)據(jù)的置信橢圓呈現(xiàn)交織狀態(tài),鑒別率為0%; 經(jīng)MSC,Min-Max和SNV單一預(yù)處理優(yōu)化后鑒別率得到了提高,但最佳鑒別率僅為5%[圖2(b—i)]。其他光譜采集點(diǎn)以及6個(gè)采集點(diǎn)平均光譜得到的結(jié)果也較為類似。以上結(jié)果表明,采用單一預(yù)處理結(jié)合PCA模型無法實(shí)現(xiàn)柑橘產(chǎn)地的鑒別分析。為了進(jìn)一步消除光譜中的多重干擾,采用組合預(yù)處理優(yōu)化光譜數(shù)據(jù),并建立PCA鑒別模型。然而,即使結(jié)合組合預(yù)處理優(yōu)化處理,赤道線4個(gè)點(diǎn)平均光譜的最佳鑒別率僅為2.5%。此外,在6個(gè)點(diǎn)的鑒別結(jié)果中,組合預(yù)處理后的最佳鑒別分析結(jié)果也僅為5%,可能是因?yàn)椴煌a(chǎn)地柑橘果皮干擾較大,PCA方法無損挖掘得到隱藏在柑橘皮中的差異信息。
圖2 赤道線4個(gè)采集點(diǎn)平均光譜結(jié)合單一預(yù)處理的主成分分析結(jié)果(a)—(i): 原始光譜,DT,De-bias,MSC,Min-Max,SNV,1st,2nd和CWTFig.2 PCA results of 4 equator points average spectra with single pretreatment methods(a)—(i): raw spectra, DT, De-bias, MSC, Min-Max, SNV, 1st, 2nd and CWT, respectively
FLD是一種有效的有監(jiān)督分類方法,常用于尋找目標(biāo)類之間的最優(yōu)邊界。為了使樣本數(shù)達(dá)到變量數(shù)的3~5倍,我們采用PCA方法對(duì)數(shù)據(jù)進(jìn)行降維處理。圖3為隨著主成分(PC)數(shù)量增加的累積方差貢獻(xiàn)率??梢钥吹?,隨著PC數(shù)量的增加,其方差貢獻(xiàn)率迅速增加最終趨于100%。除2nd預(yù)處理方法以外,前30個(gè)主成分基本包含所有信息(>99.99%),且樣本數(shù)剛好達(dá)到了變量數(shù)的3~5倍。因此我們采用PC數(shù)為30的PCA-FLD方法對(duì)數(shù)據(jù)進(jìn)行降維處理。
圖3 不同部位光譜分析的累計(jì)方差貢獻(xiàn)率((a): 赤道線4個(gè)點(diǎn); (b): 赤道線4個(gè)點(diǎn)+果梗部+果頂部(Fig.3 Cumulative variance contribution rates(at different positions((a): 4 points on equator; (b): 4 points on equator+stem+top
利用PCA-FLD結(jié)合單一與組合預(yù)處理優(yōu)化以實(shí)現(xiàn)不同產(chǎn)品柑橘無損鑒別,并考察不同光譜采集部位對(duì)結(jié)果的影響。表1為不同預(yù)處理方法后的PCA-FLD結(jié)果。由表中可以看出,與PCA分析模型相比,PCA-FLD模型鑒別率得到了顯著提高。利用PCA-FLD方法分析4個(gè)點(diǎn)平均光譜數(shù)據(jù)時(shí),無需結(jié)合光譜預(yù)處理即可達(dá)到97.5%的鑒別準(zhǔn)確率; 結(jié)合De-bias或MSC預(yù)處理可獲得100%的鑒別準(zhǔn)確率; 最低的鑒別率結(jié)果為經(jīng)過2nd預(yù)處理后的67.5%,可能原因是2nd預(yù)處理的累計(jì)方差貢獻(xiàn)率小于99%。采用6個(gè)點(diǎn)平均光譜數(shù)據(jù)時(shí),無需結(jié)合預(yù)處理方法,便可實(shí)現(xiàn)不同產(chǎn)地柑橘的100%鑒別; 除CWT外,其他單一預(yù)處理優(yōu)化后的PCA-FLD模型鑒別結(jié)果均達(dá)到了100%; 經(jīng)組合預(yù)處理優(yōu)化的模型鑒別結(jié)果均超過90%。圖4為原始光譜經(jīng)過De-bias預(yù)處理后的PCA-FLD結(jié)果,表明PCA-FLD模型可以實(shí)現(xiàn)所有產(chǎn)地沃柑的鑒別分析。
表1 基于不同預(yù)處理的PCA-FLD模型鑒別準(zhǔn)確率Table 1 Identification accuracies by PCA-FLD with different pretreatment methods
圖4 De-bias預(yù)處理的PCA-FLD結(jié)果(a): 赤道線4點(diǎn)平均光譜數(shù)據(jù); (b): 6點(diǎn)平均光譜數(shù)據(jù)Fig.4 PCA-FLD results with De-bias method(a): 4 points average spectra; (b): 6 points average spectra
基于近紅外光譜結(jié)合化學(xué)計(jì)量學(xué)方法,建立了不同產(chǎn)地柑橘的快速無損的鑒別方法。在不破壞沃泔樣品的情況下,獲得了沃柑赤道線及其果梗部、果頂部共6個(gè)位置的光譜數(shù)據(jù)。用光譜預(yù)處理方法對(duì)光譜進(jìn)行優(yōu)化處理,并利用PCA與PCA-FLD模式識(shí)別方法建立鑒別模型,同時(shí)對(duì)柑橘的光譜采集位置進(jìn)行了優(yōu)化。結(jié)果表明: 僅通過預(yù)處理和光譜采集位置的優(yōu)化,PCA方法都不能實(shí)現(xiàn)不同產(chǎn)地柑橘的鑒別分析,最高鑒別率僅為5%; 采用PCA-FLD方法建立的模型鑒別結(jié)果顯著優(yōu)于PCA方法,采用4個(gè)點(diǎn)平均光譜獲得的鑒別率可達(dá)到97.5%,結(jié)合De-bias或MSC預(yù)處理可以實(shí)現(xiàn)不同產(chǎn)地柑橘100%的鑒別; 當(dāng)采用6個(gè)點(diǎn)平均光譜數(shù)據(jù)時(shí),無需預(yù)處理即可實(shí)現(xiàn)對(duì)不同產(chǎn)地柑橘的100%鑒別。PCA與PCA-FLD的結(jié)果有很大差別,主要原因是PCA為無監(jiān)督的模式識(shí)別方法,而采用有監(jiān)督模式識(shí)別的FLD方法對(duì)不同產(chǎn)地沃柑6點(diǎn)平均光譜進(jìn)行處理可實(shí)現(xiàn)100%的聚類分析,因?yàn)樵摲椒ㄐ杼峁╊悇e的先驗(yàn)知識(shí),在處理分類問題時(shí)有更好的降維與分類效果。本實(shí)驗(yàn)為不同柑橘產(chǎn)地的無損鑒別提供了一個(gè)參考,在今后的研究中,將對(duì)其他柑橘水果進(jìn)行進(jìn)一步分析,以建立適用性更強(qiáng)的鑒別模型。