翁士狀, 儲(chǔ)昭結(jié), 王滿琴, 王 年
安徽大學(xué), 農(nóng)業(yè)生態(tài)大數(shù)據(jù)分析與應(yīng)用技術(shù)國(guó)家地方聯(lián)合工程研究中心, 安徽 合肥 230601
食用植物油富含脂肪酸及維生素E、 礦物質(zhì)、 類胡蘿卜素等多種營(yíng)養(yǎng)物質(zhì), 是人體能量和營(yíng)養(yǎng)需要的重要來源[1]。 當(dāng)食用植物油中的飽和脂肪酸攝入過多時(shí), 人體就會(huì)增加患膽固醇高和心血管疾病的風(fēng)險(xiǎn)。 通過檢測(cè)不同食用植物油中不同飽和脂肪酸含量的參考值, 不僅可以用于對(duì)食用植物油的分類, 還可以確定其變質(zhì)程度和評(píng)定其氧化程度。 因此, 測(cè)定出食用油中飽和脂肪酸含量對(duì)保障人們身體健康和食品安全具有重要意義[2]。
目前, 理化分析與圖譜檢測(cè)等方法常應(yīng)用于食用油摻假、 分類、 新鮮度、 品質(zhì)及成分分析等應(yīng)用中[3-4]。 在理化分析方面, 氣相色譜-質(zhì)譜分析法(GC-MS)被用于測(cè)定食用油中6種甘油單酸酯標(biāo)記物的含量, 用于區(qū)分用過的食用油和新鮮的食用油[1]。 熒光光譜用于鑒定摻假植物食用油, 可在2 min內(nèi)檢測(cè)出大豆油中0.4%精制摻假油[5]。 理化分析方法準(zhǔn)確度高, 但其操作過程中檢測(cè)指標(biāo)較多, 不適用于快速分析。 相較于理化分析方法, 紅外光譜、 拉曼光譜和反射率光譜等圖譜類方法可以做到快速且不破壞樣品, 便于進(jìn)行無損檢測(cè)。 中紅外光譜被用于測(cè)定亞麻籽油與菜籽油、 芝麻油和葵花籽油摻假, 準(zhǔn)確度最高可達(dá)到99.0%, 預(yù)測(cè)誤差為1.3%~2.5%[6]。 紅外光譜分析樣品時(shí), 樣品前處理需要專業(yè)人員, 不好操控。 Kwofie, Lavine等使用拉曼光譜技術(shù)對(duì)15種不同食用油分類準(zhǔn)確率為95%[7]。 拉曼光譜技術(shù)可提供快速、 簡(jiǎn)單、 可重復(fù)且無損傷的定性定量分析, 但存在靈敏度不高、 需要特定波長(zhǎng)的激光光源和精度低等問題。 反射率光譜主要是通過測(cè)量樣本的光譜特性計(jì)算其物理結(jié)構(gòu)或化學(xué)屬性來實(shí)現(xiàn)定量檢測(cè)或定性識(shí)別。 反射光譜具有波長(zhǎng)范圍寬、 操作簡(jiǎn)單、 掃描時(shí)間短、 無需獨(dú)立光源和儀器便攜式等特點(diǎn)。 反射率光譜分析帶殼花生中總油脂和脂肪酸的含量, 對(duì)總油脂和脂肪酸預(yù)測(cè)決定系數(shù)R2值達(dá)到0.99[8]。 在預(yù)測(cè)兩種山茶籽中油脂和水分含量時(shí), 其中對(duì)油脂的預(yù)測(cè)模型R2分別為0.98和0.95, 對(duì)水分的預(yù)測(cè)模型R2分別為0.92和0.89[9]。 反射率光譜分析樣品時(shí)其設(shè)備方便小型便捷, 樣本處理簡(jiǎn)單, 因此采用反射光譜技術(shù)對(duì)食用油脂肪酸進(jìn)行分析。
利用機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)反射率光譜的智能化、 自動(dòng)化分析, 可以使對(duì)食用油中脂肪酸的檢測(cè)更快速、 便捷。 判別分析和主成分分析結(jié)合偏最小二乘回歸(PLSR)對(duì)油品的GC-MS譜進(jìn)行分析, 實(shí)現(xiàn)對(duì)芝麻油品摻假的判別準(zhǔn)確率為97.27%~100%[10]。 應(yīng)用PLSR對(duì)不同品牌不同種類食用油的中紅外光譜數(shù)據(jù)進(jìn)行摻假辨別, 其準(zhǔn)確度最高可以達(dá)到99.0%, 誤差在1.3%~2.5%之間[5]。 在對(duì)油品監(jiān)測(cè)分析方面, 傳統(tǒng)機(jī)器學(xué)習(xí)快速簡(jiǎn)單, 對(duì)于小數(shù)據(jù)量、 簡(jiǎn)單的關(guān)系很有效, 但在對(duì)大數(shù)據(jù)訓(xùn)練樣本時(shí)難以很好地表達(dá)高度復(fù)雜的數(shù)據(jù)信息。 區(qū)別于傳統(tǒng)機(jī)器學(xué)習(xí), 深度學(xué)習(xí)網(wǎng)絡(luò)可以從大數(shù)據(jù)中自動(dòng)提取特征, 從而提高模型的性能。 在基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的光譜分析中, 將豬肉的中紅外光譜數(shù)據(jù)集和大腸桿菌的拉曼光譜數(shù)據(jù)集可視化且基于類激活映射卷積神經(jīng)網(wǎng)絡(luò), 平均準(zhǔn)確率可達(dá)98.83%和100%[11]。 Laarhoven等利用一維CNN對(duì)啤酒、 藥片、 葡萄酒、 咖啡、 橄欖油以及果汁的紅外和拉曼光譜數(shù)據(jù)進(jìn)行分類預(yù)測(cè), 其平均準(zhǔn)確率為96%[12]。 同樣, 在將時(shí)間序列心電圖數(shù)據(jù)輸入CNN時(shí), 平均F1-score為78.2%。 一維CNN的處理分析往往難以挖掘光譜數(shù)據(jù)的深度特征信息。 為獲得更精確的分析結(jié)果, 設(shè)計(jì)一個(gè)合理的能夠充分挖掘光譜中信息的卷積回歸網(wǎng)絡(luò)是非常必要的。
本研究利用面向反射率光譜的光譜基二維卷積回歸網(wǎng)絡(luò)實(shí)現(xiàn)了食用油中飽和脂肪酸的測(cè)定。 本研究的目的: (1)探索使用反射率光譜檢測(cè)油品中飽和脂肪酸的可行性; (2)評(píng)價(jià)中心化(CEN)、 多元散射校正(MSC)、 標(biāo)準(zhǔn)正態(tài)變量變換(SNV)及標(biāo)準(zhǔn)化(STA)等算法對(duì)光譜數(shù)據(jù)的去噪性能; (3)構(gòu)建一種新型的基于光譜的二維卷積回歸網(wǎng)絡(luò)(S2DCRN)用于脂肪酸分析, 并與全卷積網(wǎng)絡(luò)(FCN)、 偏最小二乘回歸(PLSR)、 支持向量回歸(SVR)及隨機(jī)森林(RF)比較; (4)利用序列前向選擇(SFS)、 隨機(jī)蛙跳(RFrog)及遺傳算法(GA)選取重要波長(zhǎng), 構(gòu)建簡(jiǎn)易、 穩(wěn)健的反射率光譜分析模型; (5)探索S2DCRN模型在多種脂肪酸分析中的通用性。
13種不同品牌的玉米油、 13種不同品牌的菜籽油、 13種不同品牌的芝麻油、 13種不同品牌的橄欖油、 15種不同品牌的花生油、 15種不同品牌的大豆油及11種不同品牌的葵花籽油均購(gòu)于合肥大潤(rùn)發(fā)超市。 每個(gè)油品取4份樣分別置于玻璃燒杯中, 每份25 mL, 共獲得372個(gè)樣本。
光譜范圍為350~2 500 nm的反射率光譜用PSR-3500便攜式地物光譜儀(Spectral Evolutions, Lawrence, MA, USA)測(cè)量, 其光譜分辨率為1 nm, 測(cè)量環(huán)境如圖1所示。 數(shù)據(jù)采集時(shí), 每個(gè)樣本測(cè)量5個(gè)反射光譜數(shù)據(jù), 每測(cè)量一次移動(dòng)一次位置。 首先, 將光纖探頭垂直對(duì)準(zhǔn)標(biāo)準(zhǔn)白板并保持距離2 cm進(jìn)行儀器校準(zhǔn), 再依次將樣本置于采集臺(tái), 保持油樣上表面與光纖探頭垂直距離2 cm。 由于反射光譜受光照和系統(tǒng)物理結(jié)構(gòu)差異等因素的影響, 用白板校準(zhǔn)消除或最小化這些影響。 校準(zhǔn)公式如式(1)
圖1 食用油的反射率光譜采集平臺(tái)
(1)
式(1)中,ρ(λ)為被測(cè)物體的反射率;ρS(λ)為標(biāo)準(zhǔn)白板的反射率; ,V(λ)和VS(λ)分別為測(cè)量物體和標(biāo)準(zhǔn)白板的儀器測(cè)量值。
氣相色譜質(zhì)譜聯(lián)用儀(GCMS-QP2010, Shimadzu, Japan)使用DB-5MS型毛細(xì)管柱(30 m×0.25 mm×0.25 μm), 氦氣(99.99%)為載氣, 設(shè)置恒定流速為1 mL·min-1。 柱箱溫度從60 ℃以15 ℃·min-1速度升至215 ℃, 再以10 ℃·min-1的速度升至250 ℃, 然后以2 ℃·min-1的速度升至260 ℃, 最后以5 ℃·min-1的速度升至280 ℃并保持2 min。 進(jìn)樣口溫度為250 ℃, 以40∶1的分流比進(jìn)樣, 每次進(jìn)樣量為1 μL。 儀器的離子化方式選擇電子轟擊式離子源, 接口溫度和離子源溫度分別設(shè)置為270和250 ℃。 將溶劑延遲時(shí)間設(shè)置為10 min, 電子能量設(shè)置為70 eV, 檢測(cè)器電壓設(shè)置為1 500 V, 采集速率為每秒20個(gè)光譜。
1.3.2 實(shí)驗(yàn)過程
由于食用油中各種脂肪酸的沸點(diǎn)比較高, 且含碳量相似的脂肪酸沸點(diǎn)相近, 不容易實(shí)現(xiàn)氣化及分離, 因此使用GC-MS測(cè)定食用油中的脂肪酸含量之前需要對(duì)食用油進(jìn)行甲酯化預(yù)處理。 甲酯化預(yù)處理流程如下: 首先, 稱量100 mg油樣, 再加入2 mL正己烷并將混合物置于超聲波清洗器中20 min使其完全溶解; 再加入2 mL氫氧化鉀與甲醇溶液(28 mg·mL-1氫氧化鉀), 再將混合物置于超聲波清洗器中5 min, 使油同時(shí)皂化和甲酯化; 最后, 將2 mL鹽酸加入溶液后置于超聲波清洗器中5 min以中和過量的氫氧化鉀; 靜置10 min后取頂部有機(jī)溶液并過濾至進(jìn)樣瓶中, 最后進(jìn)行GC-MS分析獲取油樣中軟脂酸、 花生酸以及山崳酸的含量。
1.3.3 光譜預(yù)處理及變量選擇方法
反射光譜數(shù)據(jù)除了含有油樣本身的信息外, 還包含了其他無關(guān)信息和噪聲, 因此對(duì)于消除光譜數(shù)據(jù)中的無關(guān)信息及噪聲的預(yù)處理舉足輕重。 對(duì)光譜數(shù)據(jù)的預(yù)處理主要有CEN, MSC, SNV和STA方法。 CEN可增加樣品光譜之間的差異, 從而提高模型的穩(wěn)健性和預(yù)測(cè)能力; MSC可用來消除樣本間的基線平移和漂移現(xiàn)象, 增強(qiáng)光譜特異性; SNV主要用來消除固體顆粒大小、 表面散射以及光程變化對(duì)漫反射的影響; STA給光譜中所有變量相同的權(quán)重, 可以避免異常值和極端值的影響。
變量選擇的方法主要包括SFS, RFrog及GA。 SFS是指特征子集X從空集開始, 每次選擇一個(gè)特征x加入特征子集X, 使得特征函數(shù)J(X)最優(yōu)。 即每次都選擇一個(gè)使得評(píng)價(jià)函數(shù)的取值達(dá)到最優(yōu)的特征加入, 其實(shí)就是一種簡(jiǎn)單尋找最優(yōu)解的貪心算法。 RFrog利用少量的變量迭代, 輸出每個(gè)變量選擇可能性, 從而進(jìn)行變量的選擇, 是一種非常有效的高維數(shù)據(jù)變量選擇方法。 GA通過數(shù)學(xué)的方式, 利用計(jì)算機(jī)仿真運(yùn)算, 將問題的求解過程轉(zhuǎn)換成類似生物進(jìn)化中的染色體基因的交叉、 變異等過程。
1.4.1 傳統(tǒng)機(jī)器學(xué)習(xí)
聯(lián)合國(guó)教科文組織指出:“將來的文盲是沒有學(xué)會(huì)學(xué)習(xí)的人!”學(xué)生是學(xué)習(xí)的主人,理所當(dāng)然要從小學(xué)習(xí)些自能讀書的本領(lǐng)。因此,教師應(yīng)該更新教學(xué)觀念,確立主體地位;創(chuàng)設(shè)情境,實(shí)施愉快教學(xué);教給方法,重視培養(yǎng)能力;課后延伸,養(yǎng)成良好習(xí)慣等。為學(xué)生自主學(xué)習(xí)創(chuàng)造良機(jī),把語文教學(xué)的水平推向一個(gè)新的高度。
在對(duì)食用油中飽和脂肪酸進(jìn)行檢測(cè)時(shí), 利用數(shù)理統(tǒng)計(jì)方法中回歸分析來確定光譜和脂肪酸變量間相互依賴的定量關(guān)系。 PLSR與主成分回歸具有相似性, PLSR沒有尋找響應(yīng)變量和預(yù)測(cè)變量之間最大方差的超平面, 而是分別將預(yù)測(cè)變量和響應(yīng)變量投影到一個(gè)新空間, 尋找一個(gè)線性回歸模型。 RF是一種由多棵決策樹組成的非線性集成方法, 每棵樹都依賴于獨(dú)立采樣的隨機(jī)向量的值, 并且對(duì)森林中所有樹具有相同的分布, 森林的泛化誤差隨著森林中樹木數(shù)量的增加而收斂到一個(gè)極限。 在回歸分析中, 采用最小方差原則來最小化每棵樹的方差。 SVR是一種非線性回歸模型, 其主要思想是找到一個(gè)回歸平面, 讓一個(gè)集合內(nèi)所有數(shù)據(jù)到該平面的距離最近。 在解決非線性、 小樣本及高維數(shù)據(jù)實(shí)際問題時(shí)表現(xiàn)優(yōu)異。
1.4.2 FCN網(wǎng)絡(luò)
隨著利用帶標(biāo)簽數(shù)據(jù)量的快速增長(zhǎng)和圖形處理器的巨大進(jìn)步, CNN網(wǎng)絡(luò)研究在各種任務(wù)上取得了較好的成果。 經(jīng)典的CNN架構(gòu)除了輸入層和輸出層外, 還包括卷積層、 池化層和完全連接層。 卷積神經(jīng)網(wǎng)絡(luò)通過權(quán)值共享降低復(fù)雜度和參數(shù), 提高神經(jīng)網(wǎng)絡(luò)的泛化能力, 通過池化操作減少神經(jīng)元, 增強(qiáng)魯棒性。 卷積層的功能是對(duì)輸入數(shù)據(jù)進(jìn)行特征提取, 其內(nèi)部包含多個(gè)卷積核, 組成卷積核的每個(gè)元素都對(duì)應(yīng)一個(gè)權(quán)重系數(shù)和一個(gè)偏差量, 類似于一個(gè)前饋神經(jīng)網(wǎng)絡(luò)的神經(jīng)元。 卷積層在計(jì)算不同的特征圖時(shí), 首先可以通過將輸入與學(xué)習(xí)的內(nèi)核進(jìn)行卷積, 然后應(yīng)用基于元素的非線性來獲得新的特征圖, 由幾個(gè)卷積核組成激活函數(shù)上的卷積結(jié)果。 在卷積層進(jìn)行特征提取后, 輸出的特征圖會(huì)被傳遞至池化層進(jìn)行特征選擇和信息過濾。 池化層的每個(gè)特征圖都連接到先前卷積層的相應(yīng)特征圖。 全連接層的作用則是對(duì)提取的特征進(jìn)行非線性組合從而得到輸出。
通常CNN在卷積之后會(huì)接上若干個(gè)全連接層, 將卷積層產(chǎn)生的特征圖映射成為一個(gè)固定長(zhǎng)度的特征向量。 FCN將CNN中的全連接層轉(zhuǎn)化成一個(gè)個(gè)的卷積層。 FCN的架構(gòu)(圖2)來源于CNN, FCN將池化層和全連接層替換為卷積層, 每一層的sigmoid函數(shù)都增加了網(wǎng)絡(luò)的非線性度。 在所有卷積層之后, 采用全局平均池化進(jìn)行正則化, 加強(qiáng)特征圖與標(biāo)簽之間的對(duì)應(yīng)關(guān)系, 對(duì)輸入空間變換具有更強(qiáng)的魯棒性。 由于CNN對(duì)二維矩陣形式的數(shù)據(jù)輸入表現(xiàn)力較好, 故將一維向量形式的光譜數(shù)據(jù)轉(zhuǎn)換為二維矩陣形式輸入網(wǎng)絡(luò)模型(如圖3)。 若n1×n2大于n, 則在最后補(bǔ)零使其構(gòu)成n1×n2的矩陣。
圖2 全卷積網(wǎng)絡(luò)結(jié)構(gòu)
1.4.3 S2DCRN網(wǎng)絡(luò)
對(duì)食用油脂肪酸回歸分析設(shè)計(jì)了光譜基二維卷積回歸網(wǎng)絡(luò)(圖4), 為增加網(wǎng)絡(luò)的非線性建模能力, 采用sigmoid函數(shù)與卷積層和池化層相結(jié)合的方法用于提取主要特征, 提高學(xué)習(xí)效率。 全連接層的核心操作就是矩陣向量乘積, 相當(dāng)于一個(gè)特征空間線性變換到另一個(gè)特征空間, 可以把有用的信息提取整合。 采用交叉熵?fù)p失作為損失函數(shù), 同時(shí)增加1個(gè)全連接層和1個(gè)未激活函數(shù)隱藏單元的輸出層, 該網(wǎng)絡(luò)光譜數(shù)據(jù)同樣以二維矩陣形式輸入(圖3)。
圖3 二維矩陣形式的光譜輸入
圖4 面向光譜的二維卷積回歸網(wǎng)絡(luò)結(jié)構(gòu)圖
1.4.4 模型評(píng)估
(2)
(3)
PLSR, RF, SVR, FCN和S2DCRN在Python和Keras的環(huán)境下實(shí)現(xiàn), 且所有方法均在NVidia GeForce RTX 2080Ti和Intel Core i7-8700 CPU的電腦設(shè)備進(jìn)行。
玉米油、 菜籽油、 芝麻油、 橄欖油、 花生油、 大豆油和葵花籽油的原始光譜如圖5(a)所示。
每類油樣品的平均反射光譜如圖5(b)所示。 從圖中可以看出, 在反射光譜的350~700 nm波段范圍內(nèi), 7類食用油的反射光譜之間存在較大的差別, 其中花生油的反射率光譜變化隨著波長(zhǎng)增大而快速增加; 在反射光譜的700~2 500 nm處, 7類食用油光譜的總體趨勢(shì)是相似的。 反射率變化與化學(xué)基團(tuán)振動(dòng)產(chǎn)生的倍頻信息和合頻信息有關(guān), 差異表現(xiàn)在不同種類食用油的反射率大小不同, 這些差異是由于被測(cè)物在可見色譜范圍內(nèi)的顏色特征不同所導(dǎo)致的, 具體到食用油的反射光譜檢測(cè)中, 350~700 nm之間的反射光譜差異可能是不同種類食用油中葉綠素和胡蘿卜素的含量不同引起的[8]。 在反射光譜的700~1 700 nm處出現(xiàn)了幾個(gè)波峰和波谷, 其中位于856和1 098 nm處的波峰歸屬于C—H鍵的三級(jí)倍頻振動(dòng), 而1 586 nm處的波峰歸屬于N—H鍵的二級(jí)倍頻振動(dòng)。 在反射光譜1 320 nm處的波峰與C—H鍵的彎曲振動(dòng)有關(guān), 而980 nm處的波峰與O—H鍵的彎曲振動(dòng)有關(guān)。
圖5 所有油樣的原始反射率光譜(a)以及七種食用油的平均反射率光譜(b)
表1 不同預(yù)處理方法后PLSR對(duì)食用油中軟脂酸含量預(yù)測(cè)結(jié)果
表2 采用SNV去噪后對(duì)食用油中軟脂酸含量預(yù)測(cè)結(jié)果
2 151維的全光譜會(huì)降低模型的訓(xùn)練速度和分析效率, 無法滿足快速檢測(cè)的需求。 特征提取或者特征選擇能夠減少光譜的維度, 篩選出重要的特征, 有效提高模型的魯棒性。 采用SFS, RFrog及GA等方法選取光譜特征的重要波長(zhǎng)。 在RFrog處理后, 食用油的光譜維數(shù)從2 151降至64。 但對(duì)于食用油中脂肪酸的快速檢測(cè), 光譜維數(shù)仍然太多。 為進(jìn)一步簡(jiǎn)化模型, 分別再利用GA和SFS對(duì)于選定的64個(gè)波長(zhǎng)進(jìn)一步篩選。 通過RFrog-GA和RFrog-SFS選取, 分別從2 151個(gè)全光譜波長(zhǎng)中選取了16和14個(gè)重要波長(zhǎng), 所選重要波長(zhǎng)的重要性從大到小排序(見表3)。 由圖5(b)可知, 7類食用植物油的反射率光譜在350~700 nm范圍內(nèi)差異較大, 在700~2 500 nm范圍內(nèi)光譜強(qiáng)度和趨勢(shì)均相似。 RFrog-SFS選擇的特征波長(zhǎng)均位于在350~700 nm光譜范圍內(nèi)。 雖通過RFrog-GA選擇的特征波長(zhǎng)數(shù)目與RFrog-SFS相當(dāng), 但仍有部分重要波長(zhǎng)位于1 200~2 200 nm范圍內(nèi)。 結(jié)果表明, 通過RFrog-SFS選擇的重要波長(zhǎng)數(shù)目最少且重要波長(zhǎng)的分布范圍最小。
表3 不同方法選取的重要波長(zhǎng)
表4 重要波長(zhǎng)選擇后S2DCRN對(duì)食用油中軟脂酸含量預(yù)測(cè)結(jié)果
表5 重要波長(zhǎng)選擇后S2DCRN對(duì)食用油中花生酸和山崳酸的含量預(yù)測(cè)結(jié)果