謝嘉,劉健,秦磊磊,薛剛,李亞茹,劉靜怡,賴衍清
[1.酵母功能湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 宜昌 443000;2.三峽公共檢驗(yàn)檢測(cè)中心,湖北 宜昌 443000;3.珀金埃爾默企業(yè)管理(上海)有限公司,上海 200000]
酵母水解物廣泛應(yīng)用于水產(chǎn)業(yè)[1?2]與家畜業(yè)[3?4],它可以有效增強(qiáng)動(dòng)物體的免疫力,改善動(dòng)物體內(nèi)的腸道環(huán)境,促進(jìn)細(xì)胞的修復(fù)與再生,從而加快動(dòng)物體的生長(zhǎng)速度。不同工廠、不同工藝生產(chǎn)的酵母水解物,其營養(yǎng)價(jià)值存在明顯差異。目前研究農(nóng)產(chǎn)品溯源以及真假判別主要有穩(wěn)定同位素分析技術(shù)[5?6]、礦物元素指紋分析技術(shù)[7?8]、氨基酸與脂肪酸指紋分析技術(shù)[9]以及近紅外光譜分析技術(shù)[10?11]。前三種分析技術(shù)對(duì)實(shí)驗(yàn)人員要求較高、耗時(shí)耗力,而近紅外光譜分析技術(shù)具有方便快捷、無須任何預(yù)處理、信息量豐富、光譜特性穩(wěn)定、重現(xiàn)性佳等諸多優(yōu)點(diǎn),在真假判別以及產(chǎn)地溯源方面具有很好的應(yīng)用前景。
利用近紅外光譜法對(duì)酵母水解物溯源分析以及真假判別目前還沒見報(bào)道,筆者采用主成分分析(PCA)法對(duì)預(yù)處理后的不同工廠、不同工藝的酵母水解物光譜進(jìn)行分類,提取最佳主因子數(shù),再結(jié)合線性判別分析(LDA)法,建立了酵母水解物產(chǎn)地溯源以及真假判別模型,所有樣品識(shí)別準(zhǔn)確率均超過85%,為近紅外光譜分析技術(shù)在酵母水解物產(chǎn)地溯源以及真假判別方面的研究提供理論依據(jù)。
近紅外光譜儀:FT9700型傅里葉近紅外變換光譜,美國珀金埃爾默公司。
酵母水解物樣品:在3 個(gè)酵母工廠的生產(chǎn)線直接取樣,根據(jù)不同工廠、不同工藝、不同時(shí)間段,共采集樣品500 個(gè),其中NA-Y 系列59 個(gè)、NA-L 系列108個(gè)、NA-C系列101個(gè)、NX-C系列122個(gè)、NX-L系列110 個(gè),市場(chǎng)隨機(jī)選取偽劣樣品MF 10 個(gè)。訓(xùn)練(建模)樣本集與預(yù)測(cè)樣本集見表1。
表1 訓(xùn)練(建模)樣本集與預(yù)測(cè)樣本集
干涉儀:Michelson 干涉儀;光源:鹵鎢燈光源;樣品杯:藍(lán)寶石材質(zhì),主要成分為三氧化二鋁;分束器:寬范圍多鍍層CaF2;光譜掃描次數(shù):64 次;分辨率:8 cm-1;光譜范圍:14 304~3 856 cm-1;漫反射采樣附件:電磁驅(qū)動(dòng)旋轉(zhuǎn)樣品盤,保證光譜數(shù)據(jù)的均一性。
使用漫反射模式采集光譜,考慮到酵母水解物可能會(huì)吸潮,掃描之前要保持干燥、恒溫的環(huán)境,室溫為25 ℃、相對(duì)濕度為45%左右時(shí)最佳。每個(gè)樣品掃描3次,取其平均值作為樣品的典型光譜。
光譜數(shù)據(jù)采集軟件為Results Plus (Perkin Elmer,版本號(hào):3.19.21170),建模訓(xùn)練集的原始圖譜如圖1所示。
圖1 酵母水解物(訓(xùn)練集)原始圖譜
采用非線性迭代偏最小二乘法進(jìn)行主成分分析[12?13]??紤]到酵母水解物屬于生物樣品,近紅外光譜信息量豐富,遂使用14 304~3 856 cm-1全波數(shù)光譜進(jìn)行預(yù)處理:采用一階求導(dǎo)法、平滑濾波法[14]可有效消除基線以及其它背景的干擾,進(jìn)而提高分辨率和靈敏度;采用標(biāo)準(zhǔn)正態(tài)變量轉(zhuǎn)換消除樣品表面散射、固體顆粒大小以及光程的變化對(duì)近紅外漫反射光譜的影響;采用多元散射校正消除顆粒大小以及顆粒分布不均勻產(chǎn)生的散射影響;采用去趨勢(shì)算法消除漫反射光譜的基線漂移。
將上述光譜預(yù)處理方法進(jìn)行不同的結(jié)合[15?16],并對(duì)預(yù)處理后的光譜進(jìn)行主成分分析,根據(jù)不同主因子數(shù)的特征值,選擇最佳光譜預(yù)處理方法。特征值的大小代表矩陣正交化后所對(duì)應(yīng)特征向量對(duì)整個(gè)矩陣的貢獻(xiàn)程度。某主因子數(shù)所對(duì)應(yīng)的特征值越大,則說明該主因子數(shù)所包含的樣品信息量越豐富。如果某主因子數(shù)所對(duì)應(yīng)的特征值為0,則說明該主因子數(shù)不包含任何信息,變量為常數(shù)。當(dāng)變量與矩陣X之間存在一定程度的線性相關(guān)時(shí),X的變化將體現(xiàn)在最前面幾個(gè)載和向量(主因子數(shù))方向上,X在最后幾個(gè)載和向量(主因子數(shù))的投影很小,可以認(rèn)為它們是由測(cè)量噪聲所引起的。
不同預(yù)處理方法光譜主成分分析的各主因子數(shù)特征值見表2。由表2可知,使用多元散射校正對(duì)全光譜進(jìn)行預(yù)處理,對(duì)處理后的光譜進(jìn)行主成分分析,各主因子數(shù)所對(duì)應(yīng)的特征值幾乎都為0,變量與矩陣X沒有線性關(guān)系,說明多元散射校正光譜預(yù)處理無法用于酵母水解物產(chǎn)地分類;使用平滑濾波法聯(lián)合一階求導(dǎo)法,各主因子數(shù)所對(duì)應(yīng)的特征值也幾乎都為0,不適用于酵母水解物產(chǎn)地分類。使用平滑濾波法、一階求導(dǎo)法、標(biāo)準(zhǔn)正態(tài)變量轉(zhuǎn)換法,三者聯(lián)合用于近紅外光譜預(yù)處理時(shí),各主因子數(shù)所對(duì)應(yīng)的特征值最大,變量與矩陣X有明顯的線性關(guān)系,可用于酵母水解物的產(chǎn)地分類,光譜預(yù)處理后的譜圖如圖2所示。
圖2 酵母水解物(訓(xùn)練集)預(yù)處理后光譜
表2 不同預(yù)處理方法光譜主成分分析的各主因子數(shù)特征值
上述分析結(jié)果表明,6 個(gè)主因子數(shù)的累計(jì)方差貢獻(xiàn)率為67.80%、22.53%、5.09%、2.63%、1.28%、0.68%,其中前5 個(gè)主因子數(shù)的累積方差貢獻(xiàn)率為99.32%,確定主因子數(shù)為5。
3家工廠的酵母水解物樣品不同成分得分分布分別如圖3~圖6 所示。由圖3~圖6 可知,利用前三個(gè)主因子數(shù)基本可以區(qū)分不同工廠、不同工藝的5種酵母水解物樣品,但有少部分的樣品有重疊,利用其它主成分的投影時(shí),重疊情況會(huì)更嚴(yán)重。
圖3 酵母水解物樣品主成分1(PC-1)與主成分2(PC-2)得分分布
圖4 酵母水解物樣品主成分1(PC-1)與主成分3(PC-3)得分分布
圖6 酵母水解物樣品主成分1(PC-1)、主成分2(PC-2)及主成分3(PC-3)得分分布3D圖
主成分分析法屬于無監(jiān)督的模式識(shí)別方法,它可以通過光譜的特異性區(qū)分各類物質(zhì)。線性判別分析(LDA)屬于有監(jiān)督的模式識(shí)別方法[17?18],它首先需要對(duì)各光譜進(jìn)行定義,區(qū)分出光譜所對(duì)應(yīng)的樣品種類,讓計(jì)算機(jī)向這些被預(yù)先區(qū)分出的樣本“學(xué)習(xí)”。LDA算法的目的是使降維后的數(shù)據(jù)類間方差最大,類內(nèi)方差最小,LDA就是求解SB/SW(SW為類內(nèi)協(xié)方差矩陣,SB為類間協(xié)方差矩陣)的特征值與特征向量,該算法能夠把彼此關(guān)聯(lián)的多變量數(shù)據(jù),簡(jiǎn)化為少數(shù)幾個(gè)互相獨(dú)立的新變量數(shù)據(jù),而且簡(jiǎn)化之后的數(shù)據(jù)不會(huì)出現(xiàn)信息量丟失,依舊能保持原來數(shù)據(jù)的絕大部分信息。根據(jù)上述主成分分析的結(jié)論,該數(shù)據(jù)的主因子數(shù)為5,因此,使用LDA法對(duì)前5個(gè)主因子數(shù)進(jìn)行分析、建模,使用馬氏距離[19?20]來判斷異常值。
LDA 算法樣品分類如圖7 所示。由圖7 可知,LDA 算法的訓(xùn)練集所有樣品的識(shí)別準(zhǔn)確率達(dá)到94.81%,訓(xùn)練集混淆矩陣見表3。
圖7 LDA算法樣品分類圖
表3 訓(xùn)練集混淆矩陣
訓(xùn)練集中NX-C 系列樣品識(shí)別率為99.02%,NX-L 系列樣品識(shí)別率為86.67%,NA-Y 系列樣品識(shí)別率為100%,NA-C 系列樣品識(shí)別率為97.53%,NA-L系列樣品識(shí)別率為93.18%。將驗(yàn)證集代入建好的PCA-LDA模型中,其混淆矩陣見表4。
表4 驗(yàn)證集混淆矩陣
驗(yàn)證集中NX-C系列樣品識(shí)別率為100%,NXL系列樣品識(shí)別率為85%,NA-Y系列樣品識(shí)別率為100%,NA-C 系列樣品識(shí)別率為100%,NA-L 系列樣品識(shí)別率為95%。
找出訓(xùn)練集樣品中的誤判樣品,列出各樣品的馬氏距離,如圖8所示。
圖8 訓(xùn)練集誤判樣品的馬氏距離
誤判樣品的馬氏距離基本位于3~5之間,將馬氏距離報(bào)警值設(shè)為5,即可有效區(qū)分偽劣樣品。對(duì)10個(gè)市場(chǎng)上流通的偽劣樣品進(jìn)行近紅外光譜掃描,并用已建好的模型預(yù)測(cè),拒絕率達(dá)到100%,偽劣樣品的馬氏距離如圖9所示。
圖9 偽劣樣品的馬氏距離
使用PCA-LDA 模型預(yù)測(cè)偽劣樣品時(shí),各樣品的馬氏距離均遠(yuǎn)大于5,該模型可有效用于酵母水解物的真假判別分析。
使用平滑濾波法結(jié)合一階求導(dǎo)法以及標(biāo)準(zhǔn)正態(tài)變量轉(zhuǎn)化法對(duì)酵母水解物原始光譜進(jìn)行預(yù)處理,去除光譜所產(chǎn)生的噪聲和散射的干擾,對(duì)預(yù)處理后的光譜進(jìn)行主成分分析確定主因子數(shù),再結(jié)合線性判別分析,對(duì)三個(gè)產(chǎn)地、兩種不同工藝的酵母水解物進(jìn)行產(chǎn)地溯源分析,主成分分析法基本可以區(qū)分酵母水解物的產(chǎn)地,但有部分重疊,而PCA-LDA聯(lián)用法可更有效區(qū)分酵母水解物產(chǎn)地,所有樣品的識(shí)別率都在85%以上。根據(jù)誤判樣品設(shè)置馬氏距離閾值,偽劣樣品的識(shí)別率達(dá)到100%。因此基于PCALDA 法結(jié)合近紅外光譜用于酵母水解物產(chǎn)地溯源及真假判別分析具有一定的可行性與實(shí)用價(jià)值。