林 顥 王 卓 陳全勝 林金金
(江蘇大學(xué)食品與生物工程學(xué)院, 鎮(zhèn)江 212013)
大米是消費(fèi)最廣泛的谷物之一,大多數(shù)國(guó)家都會(huì)把大米作為戰(zhàn)略資源來(lái)儲(chǔ)存以應(yīng)對(duì)突發(fā)狀況[1]。因富含蛋白質(zhì)、淀粉和脂肪等營(yíng)養(yǎng)物質(zhì),隨著儲(chǔ)藏時(shí)間的延長(zhǎng),新鮮大米將會(huì)發(fā)生陳化。大米中的脂類物質(zhì)由于不穩(wěn)定性會(huì)發(fā)生水解或者氧化反應(yīng),并開始散發(fā)出異味[2]。因此,氣味常作為一種判斷大米新鮮度的指標(biāo)。
傳統(tǒng)檢測(cè)氣體的方式主要采用感官評(píng)定和氣相色譜質(zhì)譜聯(lián)用儀(GC-MS)[3]。感官評(píng)定具有一定主觀性,且大米儲(chǔ)藏過程中會(huì)產(chǎn)生有害氣體,易對(duì)實(shí)施嗅覺和味覺方面評(píng)定的評(píng)價(jià)人員造成健康威脅,使感官判別分析不適于大米的陳化檢測(cè)。而 GC-MS 技術(shù)操作繁瑣、成本高、耗時(shí)較長(zhǎng)使其不能應(yīng)用于大米新鮮度的快速檢測(cè)中[4]。嗅覺可視化技術(shù)是近幾年興起的一種表征氣體的新方法[5],該方法利用酯類、醇類、醛類、酸類等揮發(fā)性有機(jī)物質(zhì)與色敏傳感器反應(yīng),使構(gòu)成傳感器的特定色敏材料的電子產(chǎn)生能級(jí)躍遷,即在宏觀上表現(xiàn)為顏色的變化[6]。通過CCD相機(jī)獲取反應(yīng)前后色敏材料的RGB差值可對(duì)揮發(fā)性氣體進(jìn)行定性定量的分析。這種技術(shù)已經(jīng)在判別鑒定肉類新鮮度[7]、食醋種類[8]、紅茶發(fā)酵程度[9]等研究中取得了較好的分類或定量效果。然而,基于嗅覺可視化技術(shù)獲取的變化信息主要是通過提取反應(yīng)前后的RGB差值圖像來(lái)表征的,即每個(gè)色敏材料的顏色變化僅通過R、G、B3個(gè)分量來(lái)表征。因此,較少的有效信息量可能會(huì)一定程度上限制判別大米儲(chǔ)藏時(shí)間的正確率。
本文以氟硼吡咯類化合物作為制作色敏傳感器的色敏材料,并且使用色敏傳感器結(jié)合可見/近紅外光譜技術(shù)對(duì)大米儲(chǔ)藏時(shí)間進(jìn)行鑒別。通過提取與不同儲(chǔ)藏時(shí)間大米揮發(fā)性氣體反應(yīng)后色敏材料的光譜信息,從更多維的數(shù)據(jù)水平上對(duì)大米的儲(chǔ)藏時(shí)間進(jìn)行鑒別。在數(shù)據(jù)處理過程中,應(yīng)用聯(lián)合區(qū)間偏最小二乘法(Si-PLS)篩選各色敏材料光譜數(shù)據(jù)的最佳變量區(qū)間[10],隨后分別采用遺傳算法(GA)、蟻群算法(ACO)[11]和無(wú)信息變量消除(UVE)方法[12]進(jìn)行變量篩選,并用PCA(主成分分析)和LDA(線性判別分析)算法建立大米的儲(chǔ)藏時(shí)間預(yù)測(cè)模型。
選用中糧集團(tuán)的福臨門蘇軟香型大米作為研究對(duì)象,將購(gòu)于當(dāng)?shù)芈糜纬械男迈r大米置于恒溫恒濕箱內(nèi)儲(chǔ)藏,設(shè)定儲(chǔ)藏溫度為40℃,空氣相對(duì)濕度為80%。實(shí)驗(yàn)時(shí),依據(jù)大米在培養(yǎng)箱中的不同時(shí)長(zhǎng)將其分為儲(chǔ)藏期0、1、2、4、6個(gè)月的樣品,每個(gè)儲(chǔ)藏期取30份,每份準(zhǔn)確稱量8.0 g,共獲取150組樣品。將各組樣品按照2∶1的比例隨機(jī)分配為訓(xùn)練集和校正集。訓(xùn)練集樣本(100份)用于建立儲(chǔ)藏時(shí)間預(yù)測(cè)模型,校正集(50份)用于評(píng)價(jià)判別模型的性能。
實(shí)驗(yàn)所用可見/近紅外光譜檢測(cè)系統(tǒng)如圖1所示,由鹵素?zé)?、光纖、光譜儀、色敏傳感器和計(jì)算機(jī)組成。光譜儀為USB2000+型可見/近紅外光譜儀(美國(guó)Ocean Optics公司),所用傳感器型號(hào)為線陣CCDILX554B,測(cè)量的波長(zhǎng)范圍為300~1 000 nm。SD1200型鹵素?zé)?超微光學(xué)公司,中國(guó)臺(tái)灣)功率為10 W。
圖1 可見/近紅外-色敏傳感器檢測(cè)系統(tǒng)Fig.1 Detection system of visible/near-infrared combined with colorimetric sensor array1.色敏傳感器 2.光源 3.可見/近紅外光譜儀 4.計(jì)算機(jī) 5.光纖
1.3.1光譜采集
通過前期的實(shí)驗(yàn),選取3種對(duì)大米揮發(fā)性氣體敏感的氟硼吡咯類化合物作為色敏材料,由經(jīng)典林賽方法在實(shí)驗(yàn)室制得[13]。將色敏材料分別以2.0 mg/mL的質(zhì)量濃度溶解于二氯甲烷中,并用毛細(xì)管(0.5 mm×10 mm)吸取溶液至管長(zhǎng)的1/5處,點(diǎn)在3 cm×1 cm的反相硅膠板(德國(guó)Merk公司)上,使各色敏材料擴(kuò)散形成的印染區(qū)域大小保持一致,以構(gòu)成3×1的色敏傳感器陣列,如圖2所示。一個(gè)傳感器對(duì)應(yīng)采集一份大米樣品的儲(chǔ)藏?fù)]發(fā)性氣體信息,本實(shí)驗(yàn)共制備150個(gè)色敏傳感器用于判別不同儲(chǔ)藏時(shí)間的大米且制備完成后立即用于實(shí)驗(yàn)以減小外界因素影響。所用色敏材料的名稱和簡(jiǎn)稱為8-(4-溴苯基)- 4,4-二氟硼二吡咯甲烷(BrBDP)、8-(4-硝基苯基)- 4,4-二氟-6-溴硼二吡咯甲烷(NO2BrBDP)、8-(4-硝基苯基)- 4,4-二氟-2,6-二溴硼二吡咯甲烷(NO2Br2BDP)。
圖2 色敏傳感器陣列Fig.2 Colorimetric sensor array
將制成的色敏傳感器正面朝上固定在保鮮膜上,并把大米樣品倒入潔凈玻璃皿中,迅速將帶有傳感器的保鮮膜覆蓋于玻璃皿頂部并密封好,使色敏傳感器能夠與氣體充分接觸。之后將玻璃皿放入溫度設(shè)置為45℃的恒溫箱內(nèi),以加速反應(yīng),待大米的揮發(fā)氣體與色敏材料充分反應(yīng)14 min后取出色敏傳感器,通過可見/近紅外光譜技術(shù)采集反應(yīng)后的傳感器陣列的反射光譜數(shù)據(jù)。光譜采集參數(shù)設(shè)置如下:積分時(shí)間為50 ms,平滑度為5,平均次數(shù)為10次。每個(gè)色敏傳感器能夠獲得3條光譜數(shù)據(jù),每條光譜共1 024個(gè)變量。因此,共采集450條光譜數(shù)據(jù)。
1.3.2光譜變量篩選
在變量篩選前,先用標(biāo)準(zhǔn)歸一化處理方法(SNV)對(duì)光譜進(jìn)行預(yù)處理以校正光譜由光散射產(chǎn)生的影響[14]。為了降低光譜變量篩選時(shí)的盲目性并縮小搜索范圍,Si-PLS算法首先用于篩選每條光譜的最佳數(shù)據(jù)區(qū)間[15]。將光譜數(shù)據(jù)分成15~30個(gè)區(qū)間,從中聯(lián)合2~4個(gè)區(qū)間,使用交互驗(yàn)證均方根誤差作為參考標(biāo)準(zhǔn)以選擇最佳聯(lián)合區(qū)間, 交互驗(yàn)證均方根誤差越小所選區(qū)間代表性越高。盡管Si-PLS減小了數(shù)據(jù)維度,但是在數(shù)據(jù)中大量具有多重共線性的數(shù)據(jù)仍然增加了建立大米儲(chǔ)藏時(shí)間預(yù)測(cè)模型的計(jì)算負(fù)擔(dān)。因此,分別使用3種不同的變量篩選算法來(lái)選擇特征波長(zhǎng),即UVE、GA和ACO。
UVE為一種基于回歸系數(shù)穩(wěn)定性分析的光譜變量篩選算法,它能防止所建的模型處于過擬合狀態(tài),并提高模型的預(yù)測(cè)性能。 UVE 的一般操作步驟如下:在光譜矩陣中加入具有與光譜變量數(shù)相等的隨機(jī)噪聲變量,用偏最小二乘法(PLS)建立模型,以此獲得回歸系數(shù)矩陣并計(jì)算光譜變量的穩(wěn)定性。若某光譜變量的穩(wěn)定性小于某一閾值時(shí)將被剔除[16-17]。
圖4 各色敏材料的平均光譜曲線Fig.4 Average spectrum of each color-sensitive material
GA算法是模擬生物進(jìn)化遺傳過程中自然選擇和生物進(jìn)化的隨機(jī)化搜索方法,利用遺傳算子進(jìn)行選擇、交換和突變等操作使光譜變量“優(yōu)勝劣汰”,最終篩選出最佳光譜變量[18-19]。其一般的運(yùn)行步驟如圖3所示。
圖3 GA運(yùn)行步驟Fig.3 Running step of GA
ACO是一種基于優(yōu)化尋找路徑的群集智能演化計(jì)算方法。其靈感源于自然界中真實(shí)蟻群的覓食行為,先行的螞蟻會(huì)在經(jīng)過的路徑上釋放信息素,后續(xù)的螞蟻能夠感知這些信息素,并根據(jù)信息素和信息素強(qiáng)度的反饋機(jī)制來(lái)選擇路徑。在ACO的優(yōu)化方案中,所有螞蟻一起搜索有關(guān)自身行為和問題特征的信息,通過蟻群的協(xié)作以修改行動(dòng)策略,最終得到一個(gè)最優(yōu)方案。ACO模型一般有3個(gè)核心的算法步驟:選擇概率、局部信息素更新和全局信息素更新[20]。
1.3.3模式識(shí)別法
經(jīng)3種算法(GA、ACO和UVE)分別篩選后,為了建立預(yù)測(cè)模型對(duì)不同儲(chǔ)藏時(shí)間大米的識(shí)別,同時(shí)進(jìn)一步地確定最佳波長(zhǎng)變量篩選方法,將通過3種不同變量提取算法篩選后的數(shù)據(jù)進(jìn)行模式識(shí)別。使用PCA和LDA兩種分析方法區(qū)分不同儲(chǔ)藏時(shí)間的大米,所建立的模型通過訓(xùn)練集和校正集的正確識(shí)別率來(lái)判定模型,最終選出最優(yōu)的大米儲(chǔ)藏時(shí)間預(yù)測(cè)模型。
將色敏傳感器分別與150份不同儲(chǔ)藏時(shí)間的大米樣品揮發(fā)性氣體反應(yīng),然后提取3種色敏材料的光譜數(shù)據(jù),共獲得450條光譜曲線。通過計(jì)算得出BrBDP、NO2BrBDP和NO2Br2BDP這3種色敏材料采集的大米在不同儲(chǔ)藏時(shí)間內(nèi)的平均光譜曲線,結(jié)果如圖4所示。可以發(fā)現(xiàn),在與不同儲(chǔ)存時(shí)間的大米揮發(fā)性氣體反應(yīng)后,每種色敏材料獲得的光譜均存在差異,這表明色敏傳感器的顯色反應(yīng)會(huì)因儲(chǔ)藏時(shí)間的不同而有所區(qū)別。此外,波長(zhǎng)范圍400~500 nm以及550~620 nm處光譜數(shù)據(jù)具有明顯的差異。因此,通過提取可見/近紅外光譜以表征色敏傳感器信號(hào)變化,對(duì)大米儲(chǔ)藏期進(jìn)行預(yù)測(cè)具有可行性。
首先使用Si-PLS算法分別對(duì)經(jīng)過SNV預(yù)處理后的3類光譜進(jìn)行初步篩選,數(shù)據(jù)處理的結(jié)果如表1所示。BrBDP在區(qū)間數(shù)為26時(shí)獲得最佳聯(lián)合區(qū)間:1、5、14和16子區(qū)間。NO2BrBDP在區(qū)間數(shù)為29時(shí)獲得最佳聯(lián)合區(qū)間:5、6、8和16子區(qū)間。NO2Br2BDP在區(qū)間數(shù)為24時(shí)獲得最佳聯(lián)合區(qū)間:6、8、9和11子區(qū)間。因此,變量的總數(shù)從3 076縮小為500個(gè)。將各色敏材料提取出來(lái)的光譜數(shù)據(jù)區(qū)間整合作為新的數(shù)據(jù)集以進(jìn)一步提取有效變量。
表1 Si-PLS光譜區(qū)間篩選結(jié)果Tab.1 Spectral interval screening results of Si-PLS
2.3.1UVE變量?jī)?yōu)選
將經(jīng)Si-PLS初步篩選后的光譜數(shù)據(jù)用UVE算法提取其有效光譜變量。圖5(T表示變量穩(wěn)定性系數(shù))顯示了UVE變量的穩(wěn)定性結(jié)果,中間的豎直線為隨機(jī)噪聲變量和波長(zhǎng)變量的分割線,左邊為波長(zhǎng)變量,右邊為隨機(jī)噪聲變量。上、下兩條水平虛線分別表示變量穩(wěn)定性系數(shù)的上、下閾值。若波長(zhǎng)變量的變量穩(wěn)定性系數(shù)在上下閾值之間被稱為無(wú)用信息波長(zhǎng)變量,需要剔除。而變量穩(wěn)定性系數(shù)在兩閾值之外的波長(zhǎng)變量為有用信息變量,需要保留。因此,共優(yōu)選出68個(gè)光譜波長(zhǎng)變量。
圖5 UVE處理后各變量的穩(wěn)定性Fig.5 Stability of each variable in UVE analysis
2.3.2GA變量?jī)?yōu)選
將經(jīng)Si-PLS初步篩選后的光譜數(shù)據(jù)用GA算法提取其有效光譜變量。在使用GA算法之前,將控制參數(shù)設(shè)置為:初始種群大小為50,最大選取變量500,交叉概率Pc=0.5,變異概率Pm=0.01,遺傳迭代次數(shù)為100,適應(yīng)度函數(shù)為交互驗(yàn)證均方根誤差。圖6展示了所有波長(zhǎng)在計(jì)算過程中被選擇的次數(shù),圖中虛線以上的69個(gè)變量的頻數(shù)超過了5,將這些變量作為最終篩選結(jié)果。
圖6 各光譜變量的選擇頻數(shù)Fig.6 Selection frequency of each variable
2.3.3ACO變量?jī)?yōu)選
將經(jīng)Si-PLS初步篩選后的光譜數(shù)據(jù)用ACO算法提取其有效光譜變量。應(yīng)用ACO算法進(jìn)行特征波長(zhǎng)選擇之前,首先對(duì)ACO算法的參數(shù)進(jìn)行初始化設(shè)定。本文設(shè)置蟻群大小為20; 因所有節(jié)點(diǎn)在初始化時(shí)信息素的強(qiáng)度都相同, 則設(shè)置信息素強(qiáng)度τ=1,螞蟻對(duì)各個(gè)節(jié)點(diǎn)選擇的概率一致,則啟發(fā)因子α=1;能見度η=1,為減少算法的隨機(jī)性,使得期望啟發(fā)因子β=2,信息素耗散常數(shù)ρ=0.95,并將種群的進(jìn)化代數(shù)設(shè)置為150。圖7是用ACO算法篩選出來(lái)的20個(gè)變量以及對(duì)應(yīng)的權(quán)重系數(shù)。
圖7 ACO算法變量提取結(jié)果Fig.7 ACO algorithm variable extraction result
2.4.1主成分分析
主成分分析作為一種簡(jiǎn)化數(shù)據(jù)集的統(tǒng)計(jì)技術(shù),能夠?qū)⒍嗑S變量的數(shù)據(jù)計(jì)算轉(zhuǎn)變?yōu)檩^低維度。其原理是對(duì)變量進(jìn)行重組,得到一組互不相關(guān)但能表示原數(shù)據(jù)集絕大部分信息的新變量,即主成分(PCs),以此在主成分圖上直觀呈現(xiàn)不同儲(chǔ)藏時(shí)間大米的聚類趨勢(shì)。圖8展示了由Si-PLS-UVE、Si-PLS-GA和Si-PLS-ACO共3種不同變量篩選方法提取的數(shù)據(jù)產(chǎn)生的三維主成分分析圖。其中,由Si-PLS-UVE-PCA方法得到的結(jié)果顯示前3個(gè)PCs的累計(jì)方差貢獻(xiàn)率為97.52%,Si-PLS-GA-PCA方法得到的主成分貢獻(xiàn)率為97.68%以及Si-PLS-ACO-PCA方法的結(jié)果為92.81%??梢钥闯?,不同儲(chǔ)藏時(shí)間的大米樣本之間在各個(gè)變量提取算法中基本能區(qū)分開,新鮮大米和儲(chǔ)藏1個(gè)月的大米在空間模型上距離較近且有小部分重合,可能在大米儲(chǔ)藏的前期其揮發(fā)性有機(jī)物質(zhì)的種類及其含量變化趨勢(shì)不大,但是兩個(gè)儲(chǔ)藏期的樣本都各自有一定的聚類趨勢(shì)。
圖8 不同變量提取算法的三維主成分得分Fig.8 Principal component analysis of wheat with different variable extraction method
2.4.2線性判別方法
LDA算法的原理是通過搜尋一種線性變換,使得組內(nèi)距離與組間距離的比值最大化。本研究在基于PCA計(jì)算的基礎(chǔ)上,將PCs作為潛變量輸入。表2為3類不同變量篩選算法的LDA分類結(jié)果。用Si-PLS-UVE所提取的光譜變量建立預(yù)測(cè)模型后,取主成分?jǐn)?shù)為9時(shí),訓(xùn)練集的正確識(shí)別率為98%,校正集的正確識(shí)別率為96%。用Si-PLS-GA所提取的光譜變量建立預(yù)測(cè)模型后,取主成分?jǐn)?shù)為7時(shí),訓(xùn)練集的正確識(shí)別率為92%,校正集的正確識(shí)別率為92%。用Si-PLS-ACO所提取的光譜變量建立預(yù)測(cè)模型后,取主成分?jǐn)?shù)為10時(shí),訓(xùn)練集的正確識(shí)別率為98%,校正集的正確識(shí)別率為90%。由此可見,Si-PLS-UVE提取光譜變量所建立的預(yù)測(cè)模型識(shí)別率最高。在預(yù)判集中僅兩份新鮮大米樣品被誤判為1個(gè)月的儲(chǔ)藏期,這與上述PCA所得結(jié)果一致,新鮮大米和儲(chǔ)藏1個(gè)月的大米之間的判別存在一定的誤差,整體而言,通過色敏傳感器-可見/近紅外光譜技術(shù)對(duì)大米的儲(chǔ)藏時(shí)間進(jìn)行區(qū)別的結(jié)果較好。
表2 不同變量篩選算法的LDA分類結(jié)果Tab.2 LDA classification results of three variable screening algorithms
利用色敏傳感器結(jié)合近紅外光譜技術(shù)對(duì)大米中的可揮發(fā)性氣體的表征可對(duì)大米的儲(chǔ)藏時(shí)間進(jìn)行快速、直觀的鑒別。使用3種氟硼吡咯類色敏材料制作色敏傳感器,并用可見-近紅外光譜技術(shù)提取光譜信息。并對(duì)不同的變量提取算法進(jìn)行了比較,確定了由Si-PLS-UVE算法提取光譜信息后,所建立的預(yù)測(cè)模型判別率性能最優(yōu),訓(xùn)練集和校正集的識(shí)別率分別達(dá)到了98%和96%。在大米儲(chǔ)藏時(shí)間的檢測(cè)研究中提供了一種可行的方法。