呂都,唐健波,趙緒婷,劉永翔,李俊,陳中愛,王梅,馮亞超
(1.貴州省農(nóng)業(yè)科學(xué)院生物技術(shù)研究所,貴州 貴陽 550006;2.遵義師范學(xué)院生物與農(nóng)業(yè)科技學(xué)院,貴州 遵義 563006;3.葉縣食品檢驗(yàn)檢測中心,河南 平頂山 467200)
小麥(Triticum aestivum),為禾本科植物,是一種在世界各地廣泛種植的谷類作物,在我國北方地區(qū)種植面積大,是主要糧食作物之一,約占全國糧食消費(fèi)總額的20%[1-2]。小麥營養(yǎng)豐富,易被霉菌污染[3],其富含淀粉、蛋白質(zhì)、脂肪和礦物質(zhì)是霉菌等微生物生長的良好培養(yǎng)基[4]。當(dāng)小麥的儲(chǔ)藏條件適宜霉菌和其他微生物生長時(shí),霉菌等微生物會(huì)快速繁殖消耗小麥的營養(yǎng)物質(zhì)[5-6],并產(chǎn)生有毒有害的代謝毒素,造成小麥發(fā)霉變質(zhì)使其商品性降低,甚至?xí)?duì)人畜產(chǎn)生毒害作用[7]。
目前,常用的霉菌污染檢測方法主要有平板計(jì)數(shù)法[8]、酶聯(lián)免疫法[9]和熒光染色法[10]等,這些方法靈敏度和精準(zhǔn)度較高,但是需要的試驗(yàn)試劑多,試驗(yàn)的操作過程比較繁瑣,試驗(yàn)花費(fèi)的時(shí)間較長,檢測的效率較低。近紅外光譜分析技術(shù)是由硬件、化學(xué)計(jì)量學(xué)軟件和模型三部分構(gòu)成,傅里葉變換近紅外光譜儀用于采集樣品的近紅外光譜,化學(xué)計(jì)量學(xué)軟件用于建立預(yù)測模型,預(yù)測模型用于待測樣品的定量和定性預(yù)測分析[11-12]。
常用化學(xué)計(jì)量學(xué)分類算法主要有偏最小二乘判別分析法(partial least squares-discriminant analysis,PLS-DA)和支持向量機(jī)分類法(support vector machine classification,SVM)。PLS-DA是一種有監(jiān)督模式的分析方法,根據(jù)已知樣品集的特征變量,選定適合的判別準(zhǔn)則建立分析模型,將光譜數(shù)據(jù)與分類變量進(jìn)行線性回歸,對(duì)未知樣品進(jìn)行判別分析[13]。樣本數(shù)量越多、差異性越顯著,所建立的PLS-DA判別模型結(jié)果越準(zhǔn)確[14]。SVM是一種研究小樣本統(tǒng)計(jì)學(xué)習(xí)規(guī)律理論,由Cortes和Vapnik,在1995年首次提出并闡述了其基本原理[15]。SVM采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則來控制學(xué)習(xí)機(jī)器的容量從而揭示了過度擬合與泛化能力之間的關(guān)系,在樣本量少的情況下,依然能夠很好地對(duì)樣本進(jìn)行識(shí)別[16]。本研究以未污染霉菌的小麥和污染霉菌的小麥樣品為研究對(duì)象,運(yùn)用近紅外光譜分析技術(shù)結(jié)合支持向量機(jī)分類方法,建立快速鑒別小麥霉菌污染的判別模型,旨在為小麥的儲(chǔ)藏安全提供快速檢測的技術(shù)手段。
小麥:河南省豫糧糧食集團(tuán)有限公司;黑曲霉(ATCC 16404):中國工業(yè)微生物菌種保藏中心;馬鈴薯葡萄糖瓊脂培養(yǎng)基:上海博偉生物科技有限公司;75%乙醇(分析純):天津科密歐化學(xué)試劑有限公司。
60Co輻照?qǐng)觯嘿F州金農(nóng)輻照科技有限責(zé)任公司;MPA型傅里葉變換近紅外光譜儀:德國Bruker公司;YXQ-LS-75SII型高壓滅菌鍋、SPX-150B-Z型生化培養(yǎng)箱:上海博迅實(shí)業(yè)有限公司醫(yī)療設(shè)備廠;SW-CJ-2D型超凈工作臺(tái):蘇州凈化設(shè)備有限公司;AB104-N電子天平:上海第二天平儀器廠。
1.3.1 樣品制備
用自封袋將小麥樣品分裝成200g/份,共分裝63份。放置在60Co輻照?qǐng)鰞?nèi)進(jìn)行輻照處理,處理輻照劑量為15 kGy,確保小麥樣品中的霉菌和其他微生物都被殺滅。將輻照后的每份樣品分為兩份。一份不作任何處理,另一份進(jìn)行模擬霉菌污染。將黑曲霉活化培養(yǎng),并制備濃度1×106CFU/mL的菌懸液。加入菌懸液模擬霉菌污染,放置在恒溫恒濕箱中培養(yǎng)備用,共計(jì)126份樣品。
1.3.2 近紅外光譜的采集
以鍍金的漫反射體作參比校正,工作期間,每隔0.5 h掃描一次背景光譜。使用OPUS 7.5軟件,調(diào)用積分球不旋轉(zhuǎn)程序,掃描光譜區(qū)域選用3 594.9 cm-1~12 790.3 cm-1,分辨率為 16 cm-1,掃描次數(shù)為 64 次,每個(gè)樣品掃描3次。每隔1 h,進(jìn)行1次背景光譜采集。
1.3.3 異常光譜的剔除與光譜數(shù)據(jù)降維
由于樣品制備和人員操作等原因會(huì)獲得少量異常光譜,這可能會(huì)導(dǎo)致模型偏差[17-18]。本試驗(yàn)采用基于馬氏距離的主成分分析來剔除異常光譜。近紅外光譜吸收譜帶重疊嚴(yán)重,因此,需要對(duì)其進(jìn)行降維處理。將原始光譜數(shù)據(jù)進(jìn)行“壓縮”,獲得的少量能代表樣本差異和原始數(shù)據(jù)的變量集合稱為主成分[19],并將獲得的主成分作為支持向量機(jī)的輸入變量。用獲得的主成分代替原始光譜數(shù)據(jù)計(jì)算馬氏距離,馬氏距離的閾值范圍由閾值權(quán)重系數(shù)決定,如果樣本的馬氏距離超過閾值范圍,則將該樣品定義為需要去除的異常樣品。
1.3.4 樣品訓(xùn)練集和驗(yàn)證集的劃分
在Matlab 2019b中使用基于聯(lián)合x-y距離的樣本集劃分法(sample set partitioning based on joint x-y distance,SPXY),將樣本按照訓(xùn)練集和驗(yàn)證集之比為3∶1進(jìn)行劃分。
1.3.5 光譜的預(yù)處理
為了消除基線漂移、噪聲和散射效應(yīng)對(duì)近紅外光譜圖的影響,本研究采用平滑(smoothing)、卷積平滑導(dǎo)數(shù)(savitzky golay derivative,SG derivative)、基線校正(baseline)、標(biāo)準(zhǔn)正態(tài)變換(standard normal variate,SNV)、多元散射校正(multiplicative scatter correction,MSC)、消除噪音(noise)、數(shù)據(jù)元素解析處理(deresolve)和歸一化處理(normalize)等預(yù)處理方法對(duì)輸入變量進(jìn)行處理,以提高模型的穩(wěn)健性和準(zhǔn)確性[20-21]。
1.3.6 SVM判別模型的建立和優(yōu)化
將主成分作為支持向量機(jī)分類判別模型的輸入變量,將無霉菌污染樣品定義為“1”類,霉菌污染樣品定義為“2”類,作為支持向量機(jī)分類判別模型的輸出變量,使用支持SVM方法建立判別模型。以訓(xùn)練集準(zhǔn)確度和內(nèi)部交叉驗(yàn)證準(zhǔn)確度為指標(biāo),探究線性核函數(shù)(linear)、多項(xiàng)式核函數(shù)(polynomial)、徑向基核函數(shù)(radial basis function,RBF)和 S型核函數(shù)(sigmoid)的建模效果,然后采用網(wǎng)格全局尋優(yōu)算法確定核函數(shù)參數(shù)C和g的最佳值。
1.3.7 判別模型驗(yàn)證
將31份外部驗(yàn)證集樣品(未參與判別模型建立的樣品)的近紅外光譜數(shù)據(jù),帶入建好的判別模型中進(jìn)行驗(yàn)算獲得判定結(jié)果,對(duì)判別模型進(jìn)行外部驗(yàn)證,根據(jù)判別準(zhǔn)確度來評(píng)價(jià)判別模型的預(yù)測能力。
本實(shí)驗(yàn)數(shù)據(jù)采用 OPUS 7.5、Unscrambler 10.4、Matlab 2019b、和Origin 9.5.0處理分析和作圖。
小麥樣品的近紅外光譜圖見圖1。
圖1 小麥樣品的近紅外光譜圖Fig.1 Near infrared spectra of wheat samples
近紅外光譜圖主要反映的是有機(jī)物中含氫基團(tuán)(包含C-H、O-H和N-H)振動(dòng)吸收的情況。由圖1可知,未污染霉菌小麥樣品的近紅外光譜圖和污染霉菌小麥的近紅外光譜峰形相似,且吸收譜帶重疊嚴(yán)重,直接從近紅外光譜圖中獲取的信息較少,因此需要使用化學(xué)計(jì)量學(xué)知識(shí)和化學(xué)計(jì)量學(xué)數(shù)據(jù)軟件,對(duì)其進(jìn)行更深的分析處理。
基于馬氏距離的主成分分析[22]剔除異常光譜圖,結(jié)果見圖2。
圖2 基于馬氏距離的主成分分析剔除異常光譜Fig.2 Elimination of abnormal spectra by principal component analysis based on Mahalanobis distance
由圖2可知,設(shè)置置信區(qū)間為95%時(shí),有5個(gè)樣品被認(rèn)定為異常樣品,將其從樣品中剔除掉,剩余有效樣品121份。
小麥樣品的近紅外光譜圖含有的信息非常多,將剔除異常光譜樣品剩余的121個(gè)有效樣品,進(jìn)行主成分分析提取到8個(gè)主成分能夠代表原始樣本的98.80%,主成分分析結(jié)果見表1。
表1 樣品主成分分析結(jié)果Table 1 Results of principal component analysis of samples
將121份有效樣品進(jìn)行主成分分析獲得的主成分矩陣,按照訓(xùn)練集與驗(yàn)證集之比3∶1的比例,在Matlab 2019b軟件中使用SPXY樣本劃分方法,將樣本劃分為訓(xùn)練集90份和驗(yàn)證集31份。將訓(xùn)練集90份樣品建立判別模型,驗(yàn)證集31份樣品為外部驗(yàn)證樣品,對(duì)判別模型進(jìn)行檢驗(yàn)。
采用 smoothing、SG dericative、baseline、SNV、MSC、noise、deresolve和normalize等預(yù)處理方法對(duì)輸入變量進(jìn)行處理,處理后的輸入變量,見圖3。
圖3 不同預(yù)處理方式處理后的輸入變量譜圖Fig.3 Input variable spectra after different preprocessing methods
選擇支持向量機(jī)分類模型核函數(shù)為RBF,核函數(shù)參數(shù)C取值1,參數(shù)g取值0.125。以訓(xùn)練集準(zhǔn)確度和內(nèi)部交叉驗(yàn)證準(zhǔn)確度為指標(biāo),將預(yù)處理后的輸入變量使用支持向量機(jī)分類方法建立判別模型,結(jié)果見表2。
表2 不同預(yù)處理方式對(duì)判別模型的影響Table 2 The influence of different preprocessing methods on discriminant model
表2結(jié)果表明,noise方法處理后,模型的訓(xùn)練集準(zhǔn)確度達(dá)到100%,但是內(nèi)部交叉驗(yàn)證準(zhǔn)確度只有52.22%,可能是此方法處理的輸入變量建立的判別模型出現(xiàn)了過擬合現(xiàn)象。綜合內(nèi)部訓(xùn)練集準(zhǔn)確度和內(nèi)部交叉驗(yàn)證準(zhǔn)確度,最終確定SNV為最佳預(yù)處理方式,與李軍濤[23]的研究結(jié)果一致,SNV預(yù)處理方式可以消除固體顆粒大小、表面散射以及光程變化對(duì)近紅外光譜的影響。SVM判別模型的內(nèi)部訓(xùn)練集準(zhǔn)確度為96.67%,內(nèi)部交叉驗(yàn)證準(zhǔn)確度為93.33%。
用最佳預(yù)處理方式處理后的輸入變量,選擇線性核函數(shù)(linear)、多項(xiàng)式核函數(shù)(polynomial)、徑向基核函數(shù)(radial basis function,RBF) 和 S型核函數(shù)(sigmoid),核函數(shù)參數(shù)C取值1,參數(shù)g取值0.125,建立SVM判別模型,以訓(xùn)練集準(zhǔn)確度和內(nèi)部交叉驗(yàn)證準(zhǔn)確度為指標(biāo),結(jié)果見表3。
表3 不同核函數(shù)對(duì)判別模型的影響Table 3 The influence of different kernel functions on discriminant model
表3結(jié)果表明,選用的核函數(shù)為linear時(shí),建立的判別模型,內(nèi)部訓(xùn)練集準(zhǔn)確度為98.89%,內(nèi)部交叉驗(yàn)證準(zhǔn)確度為97.78%。
以linear為支持向量機(jī)分類模型核函數(shù),以訓(xùn)練集準(zhǔn)確度和內(nèi)部交叉驗(yàn)證準(zhǔn)確度為指標(biāo),由于核函數(shù)為linear,核函數(shù)參數(shù)g值為1,采用網(wǎng)格全局尋優(yōu)算法[24]確定參數(shù)C的最佳值。由于核函數(shù)參數(shù)C值取值范圍較廣,為了作圖方便,以lgC值為橫坐標(biāo),以判別模型的準(zhǔn)確度為縱坐標(biāo),結(jié)果見圖4。
圖4 不同核函數(shù)參數(shù)C值對(duì)判別模型的影響Fig.4 The influence of different kernel function parameter C value on discriminant model
圖4結(jié)果表明,當(dāng)核函數(shù)參數(shù)C值由0.01逐漸增大時(shí),判別模型的訓(xùn)練集準(zhǔn)確度和內(nèi)部交叉驗(yàn)證準(zhǔn)確度也隨著增大。當(dāng)核函數(shù)參數(shù)C值為10時(shí),建立的SVM判別模型,其內(nèi)部訓(xùn)練集準(zhǔn)確度為100.00%,內(nèi)部交叉驗(yàn)證準(zhǔn)確度為98.89%。當(dāng)核函數(shù)參數(shù)值C大于10時(shí),內(nèi)部訓(xùn)練集準(zhǔn)確度為100.00%,但是內(nèi)部交叉驗(yàn)證準(zhǔn)確度呈現(xiàn)下降趨勢(shì),準(zhǔn)確度為96.67%,因此,確定判別模型核函數(shù)參數(shù)C的最佳取值為10。
將31個(gè)外部驗(yàn)證集樣品的主成分作為輸入變量,帶入建立并優(yōu)化好的SVM判別模型中,獲得樣品的判別結(jié)果,將判別結(jié)果與樣品的真實(shí)分類結(jié)果進(jìn)行比較結(jié)果見表4。
由表4可知,16個(gè)無霉菌污染樣品,即定義為“1”類的樣品,全部判定正確;15個(gè)霉菌污染樣品,即定義為“2”類的樣品,全部判定正確。因此,本研究所建立的SVM判別模型識(shí)別能力強(qiáng),可以用于小麥中霉菌污染的快速檢測。
表4 SVM判別模型對(duì)外部驗(yàn)證集樣品的判別結(jié)果Table 4 Discriminant results of SVM discriminantmodel for samples of external verification set
本研究采用近紅外光譜技術(shù)結(jié)合支持向量機(jī)分類法(SVM)建立快速鑒別小麥霉菌污染的判別模型,并對(duì)鑒別模型進(jìn)行了優(yōu)化和驗(yàn)證。將小麥樣品的原始光譜進(jìn)行主成分分析提取了8個(gè)主成分,能夠代表98.80%的樣本信息,輸入變量的預(yù)處理方式為SNV時(shí),SVM判別模型內(nèi)部訓(xùn)練集準(zhǔn)確度為96.67%,內(nèi)部交叉驗(yàn)證準(zhǔn)確度為93.33%。繼續(xù)優(yōu)化SVM判別模型的參數(shù),當(dāng)判別模型的核函數(shù)為linear時(shí),SVM判別模型,內(nèi)部訓(xùn)練集準(zhǔn)確度為98.89%,內(nèi)部交叉驗(yàn)證準(zhǔn)確度為97.78%。進(jìn)一步采用網(wǎng)格全局尋優(yōu)算法優(yōu)化核函數(shù)linear參數(shù)C值,當(dāng)時(shí)核函數(shù)linear參數(shù)C值為10時(shí),SVM判別模型,其內(nèi)部訓(xùn)練集準(zhǔn)確度為100.00%,內(nèi)部交叉驗(yàn)證準(zhǔn)確度為98.89%。將未參與建立模型的外部驗(yàn)證集31份樣品光譜,帶入鑒別模型進(jìn)行判斷,模型判斷正確率為100%。本研究建立的模型準(zhǔn)確可靠,與傳統(tǒng)的培養(yǎng)法和化學(xué)分析法相比具有檢測時(shí)間短、操作便捷、檢測效率高等優(yōu)點(diǎn),可以為小麥的安全儲(chǔ)藏提供技術(shù)支持。