劉冬陽(yáng) 孫曉榮 劉翠玲 尚經(jīng)開 張?zhí)礻?yáng) 馮雨晨
(食品安全大數(shù)據(jù)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院,北京 100048)
小麥具有營(yíng)養(yǎng)價(jià)值高、容易儲(chǔ)藏等特點(diǎn),因此國(guó)家將其作為重要的商品糧食。中國(guó)是全球小麥生產(chǎn)量與消費(fèi)量最大的國(guó)家,并且每年還需進(jìn)口千萬噸的小麥,基本將其全部用于生產(chǎn)小麥粉產(chǎn)品以滿足國(guó)民的日常食用需求[1]?;曳质切←湻鄣囊环N主要成分,是指經(jīng)高溫灼燒后殘留下的無機(jī)成分占小麥粉的百分比?;曳謺?huì)影響面制食品的口感和色澤,如全麥面包的灰分含量就會(huì)高于饅頭的含量,國(guó)標(biāo)檢測(cè)常用的手段為850 ℃高溫定時(shí)法,費(fèi)時(shí)費(fèi)力且人工成本高[2]。近幾年小麥粉安全事件頻繁發(fā)生,這也揭露了小麥粉品質(zhì)檢測(cè)存在的問題和漏洞,體現(xiàn)了對(duì)小麥粉品質(zhì)進(jìn)行高效準(zhǔn)確檢測(cè)的重要性。
目前,拉曼光譜技術(shù)已被廣泛應(yīng)用于材料、化工、石油、高分子、地質(zhì)等多個(gè)領(lǐng)域。在食品檢驗(yàn)方面,Bruno等人[3]建立大豆油中共軛亞油酸(CLA)定量分析模型,相關(guān)系數(shù)R2達(dá)到0.97,實(shí)驗(yàn)結(jié)果理想。Stefanov等[4]利用拉曼光譜結(jié)合PLS算法測(cè)定牛奶中支鏈脂肪酸,相關(guān)系數(shù)大于0.65。Di Anibal等[5]運(yùn)用多種拉曼光譜技術(shù)檢測(cè)了烹飪香料中的蘇丹紅,結(jié)果顯示表面增強(qiáng)拉曼檢測(cè)結(jié)果最佳,說明表面增強(qiáng)拉曼光譜技術(shù)可用于區(qū)分出蘇丹紅摻假香料。張克勤等[6]采用激光拉曼技術(shù)檢測(cè)了五谷中的糖類和蛋白質(zhì),結(jié)果表明碳水化合物含量高于蛋白質(zhì)。
模擬退火算法在很多優(yōu)化問題上都有應(yīng)用,但應(yīng)用于光譜技術(shù)的研究較少,尤其是在拉曼光譜分析技術(shù)中的應(yīng)用更是少之又少。石吉勇等[7]基于SAA優(yōu)化食醋總酸含量的定量模型,篩選出17個(gè)總酸特征波數(shù)點(diǎn),其預(yù)測(cè)集R2為0.921優(yōu)于原始譜圖定量模型效果。Balabin等[8]對(duì)比16種優(yōu)化譜區(qū)算法對(duì)生物柴油特征的提取結(jié)果,得出模擬退火算法是優(yōu)化效果明顯的算法之一。
拉曼光譜譜峰覆蓋了5~4 000 cm-1波數(shù)范圍,同時(shí)拉曼光譜在采集時(shí)所需樣本也較少,因此無論是無機(jī)物還是有機(jī)物,拉曼光譜都可以測(cè)得[9-12]。旨在多角度尋求最優(yōu)檢測(cè)方法,豐富小麥粉檢測(cè)手段,運(yùn)用11種不同預(yù)處理方法組合進(jìn)行光譜預(yù)處理,再結(jié)合模擬退火算法優(yōu)化波數(shù),后建立偏最小二乘定量分析模型,提升模型整體預(yù)測(cè)能力和穩(wěn)健性,確定拉曼光譜檢測(cè)小麥粉品質(zhì)可行性并優(yōu)化模型。
1.1.1 用于定量分析的樣本
126個(gè)小麥粉樣本全部取自北京古船小麥粉廠,其種類包括富強(qiáng)粉,麥芯粉,精制雪花粉和面包粉。樣本中灰分真實(shí)值來自古船小麥粉廠檢驗(yàn)人員按照國(guó)標(biāo)法 GB5009.4—2016標(biāo)準(zhǔn)用電熱板碳化,進(jìn)箱式馬弗爐灼燒測(cè)得的數(shù)據(jù)?;曳侄糠治鰧?shí)驗(yàn)隨機(jī)取92份樣本作為校正集,34份樣本作為測(cè)試集,灰分的取值范圍為0.46%~0.85% 。
1.1.2 儀器與設(shè)備
實(shí)驗(yàn)采用DXR激光共焦顯微拉曼光譜儀采集小麥粉樣本的拉曼光譜。激光共焦顯微拉曼光譜儀參數(shù)設(shè)置為:激光波長(zhǎng)780 nm,激光能量20 Ev,光柵400 lines/mm,光闌50 mm,估計(jì)分辨率4.7~8.7 cm-1,掃描次數(shù)16次,采集曝光時(shí)間為5 s。
1.2.1 拉曼光譜的采集
在掃描樣本前,首先要以實(shí)驗(yàn)室內(nèi)空氣為背景,檢測(cè)光學(xué)臺(tái)內(nèi)激光。待激光能量值趨于穩(wěn)定后,取少量小麥粉樣本放置在載玻片上,再一同放置在10倍物鏡下,調(diào)節(jié)物鏡與載物臺(tái)之間的距離直到能清楚地觀察到小麥粉在顯微鏡下的成像,關(guān)閉樣品艙門,小麥粉在10倍物鏡下成像如圖1所示。實(shí)驗(yàn)采用面掃描,每次取9個(gè)點(diǎn),掃描出9條光譜,圖2為1次掃描單點(diǎn)的小麥粉樣本拉曼光譜圖。
圖1 小麥粉在10倍物鏡下成像
圖2 小麥粉拉曼光譜圖
1.2.2 模擬退火算法
模擬退火算法(SAA)起源于金屬的退火原理,材料先經(jīng)過升溫能量變大,原子發(fā)生移動(dòng),再經(jīng)冷卻能量減小,移動(dòng)減慢,最后在常溫時(shí)達(dá)到全局穩(wěn)定狀態(tài)。而在模擬退火算法中,相當(dāng)于算法先進(jìn)行隨機(jī)搜索,在經(jīng)每一次狀態(tài)轉(zhuǎn)移后,進(jìn)行局部搜索,最終找到最優(yōu)解。
拉曼光譜的波長(zhǎng)點(diǎn)相當(dāng)于退火材料的微觀狀態(tài),在確定目標(biāo)函數(shù)和初始溫度后,隨機(jī)選擇一組波數(shù)作為初始解,并開始迭代。在迭代過程中,若新的目標(biāo)函數(shù)優(yōu)于前一解的目標(biāo)函數(shù),則將其作為最優(yōu)解。否則由接受準(zhǔn)則判別是否接受這個(gè)解,滿足則進(jìn)行當(dāng)前解和目標(biāo)函數(shù)的迭代,否則放棄新解。在迭代過程中算法內(nèi)置記憶器記錄了迭代過程中出現(xiàn)的最優(yōu)解和目標(biāo)函數(shù)值,為了防止多個(gè)極值同時(shí)存在,在迭代終止時(shí)得到的歷史最優(yōu)解,即為優(yōu)選的波數(shù)點(diǎn)。
1.2.2.1 接受準(zhǔn)則
接受準(zhǔn)則用于迭代過程中判別算法是否接受當(dāng)前解,有利于模擬退火算法最終選擇最優(yōu)解,是實(shí)現(xiàn)全局搜索的要素。
由解i到解j的接受概率由式(1)函數(shù)確定:
(1)
式中:f(i)、f(j)分別表示解i、j的目標(biāo)函數(shù),t表示溫度/ ℃。
1.2.2.2 目標(biāo)函數(shù)
目標(biāo)函數(shù)是模擬退火尋優(yōu)過程的主要依據(jù)。在用拉曼光譜技術(shù)分析時(shí),目標(biāo)函數(shù)通常選擇校正模型的相關(guān)系數(shù)R2、交互驗(yàn)證校正標(biāo)準(zhǔn)偏差(RMSECV)或者預(yù)測(cè)標(biāo)準(zhǔn)偏差(RMSEP)作為參數(shù)。
1.2.2.3 冷卻進(jìn)度表
冷卻進(jìn)度表包含了模擬退火控制進(jìn)程的所有參數(shù),初始溫度T0,衰減因子α,馬爾可夫鏈長(zhǎng)度Lk和終止條件S。當(dāng)T0足夠大時(shí)算法的搜索范圍也會(huì)變大,但同時(shí)也增加了算法優(yōu)化的時(shí)間,因此降溫策略選擇指數(shù)降溫Tk+1=Tk×α。通常選取足夠小的衰減因子α用于避免馬爾可夫鏈過長(zhǎng),而終止條件S的值無限接近于0。
由模擬退火算法的原理可以看出,初始點(diǎn)選擇不具有依賴性,對(duì)于隨機(jī)搜索算法這是十分重要的優(yōu)勢(shì),避免了因初始點(diǎn)選擇不當(dāng)造成的優(yōu)化失敗,同時(shí)以一定幾率接受劣質(zhì)解,保證算法不陷入局部最優(yōu)且增加了尋優(yōu)靈活性。算法隱含并行性,采用并行策略優(yōu)化提升了收斂速度和解的質(zhì)量,善于搜索復(fù)雜區(qū)域,因此選擇了該算法進(jìn)行波數(shù)篩選[13-14]。
實(shí)驗(yàn)建立了關(guān)于灰分含量的PLS定量校正模型,并對(duì)檢驗(yàn)集樣本進(jìn)行預(yù)測(cè)。在不經(jīng)過波數(shù)篩選時(shí),小麥粉中灰分拉曼全譜PLS定量模型實(shí)驗(yàn)結(jié)果R2為0.724 3,RMSEC為0.0760,RMSEP為0.089 8,RPD為1.365 0,RMSEP/RMSEC為1.182 2。
實(shí)驗(yàn)選用了導(dǎo)數(shù)、卷積(SG)平滑、歸一化、標(biāo)準(zhǔn)正態(tài)變換(standant normal variate transformation, SNV)、多元散射校正(multipicative scatter correction, MSC)共五種常用的光譜預(yù)處理法,構(gòu)成了11種優(yōu)化組合方法,并通過模擬退火算法優(yōu)化波數(shù)[15-17]。
由于冷卻進(jìn)度表參數(shù)的設(shè)置是模擬退火算法尋優(yōu)過程的關(guān)鍵,實(shí)驗(yàn)針對(duì)初始溫度以及衰減因子兩個(gè)重要參數(shù)進(jìn)行了不同取值的對(duì)比分析,探索適合小麥粉PLS定量模型的最優(yōu)設(shè)置。由于模擬退火算法是一種隨機(jī)優(yōu)化方法,因此在每一組參數(shù)建立模型時(shí),均優(yōu)化5次后取平均值作為該模型的實(shí)驗(yàn)結(jié)果。模型的RMSEC和RMSEP隨初始溫度變化如圖3所示。
圖3 RMSEC與RMSEP隨初始溫度變化曲線
由圖3可知,模型的RMSEC和RMSEP隨初始溫度的升高逐漸減小,RMSEC在400、2 000和10 000 ℃數(shù)值較小,RMSEP在2 000 ℃ 數(shù)值較小。主要原因在于足夠大的初始溫度可以保證模型搜索全面,但隨著溫度的增加,優(yōu)化速度明顯降低,因此綜合以上因素,實(shí)驗(yàn)選取400 ℃ 作為初始溫度。模型的RMSEC和RMSEP隨衰減因子α變化如圖4所示,可以看出,RMSEC和RMSEP在整體趨勢(shì)上隨衰減因子增高而降低,但是在0.98之后數(shù)值有所回升,RMSEC和RMSEP均在α為0.97時(shí)數(shù)值最小,因此實(shí)驗(yàn)選取α=0.97作為衰減因子。
通過以上實(shí)驗(yàn)以及參考相關(guān)文獻(xiàn),研究最終選擇的冷卻進(jìn)度表參數(shù)為T0=600 ℃,α=0.98,Lk=400,S=0.000 001 ℃[18-19],最終建立了關(guān)于灰分含量的PLS定量分析模型,優(yōu)化模型結(jié)果如表1所示:
圖4 RMSEC與RMSEP隨衰減因子變化曲線
R2RMSECRMSEPRPDRMSEP/RMSEC0.724 30.076 00.089 81.365 01.182 2SAA0.983 80.018 30.019 26.394 81.045 6+SAA0.987 40.016 20.016 87.306 61.036 7SG+SAA170.980 30.020 20.020 65.952 21.019 5250.974 60.023 00.021 15.802 60.920 3SG++SAA170.980 60.020 00.015 97.701 30.794 2250.975 10.022 70.020 85.900 20.915 6SG+SNV+SAA170.987 50.016 10.015 08.167 90.931 8250.984 90.017 70.020 95.866 31.180 0SG+MSC+SAA170.972 20.024 00.018 16.757 80.755 6250.955 80.030 30.023 75.182 40.781 8SG++SAA170.962 40.027 90.028 64.291 61.024 3250.975 10.022 70.019 46.316 30.854 6SG++SAA170.937 10.036 10.041 02.994 61.133 8250.941 80.034 70.026 24.672 60.755 8SG++SNV+SAA170.965 30.026 80.020 95.869 90.779 2250.956 60.030 00.025 04.903 00.833 9SG++MSC+SAA170.967 70.025 90.026 44.642 11.020 7250.980 00.020 30.022 25.524 81.091 0SG++SNV+SAA170.964 10.027 30.031 53.893 11.154 1250.972 60.023 80.022 85.373 30.957 1SG++MSC+SAA170.937 20.036 10.043 32.834 51.198 8250.952 30.031 40.031 13.944 50.988 9
從實(shí)驗(yàn)結(jié)果可以看出,優(yōu)化組合方法結(jié)合模擬退火算法處理灰分定量模型后,模型各評(píng)價(jià)參數(shù)都有大幅度提升,11種預(yù)處理組合方法對(duì)性能參數(shù)有不同程度的影響,但在滿足模型穩(wěn)健性的前提下,所有優(yōu)化方式都可以滿足檢測(cè)準(zhǔn)確性要求。其中SG(平滑17個(gè)點(diǎn))+SNV+SAA的優(yōu)化方式效果最優(yōu),相關(guān)系數(shù)R2為0.987 5,RMSEC和RMSEP分別為0.016 1和0.15,RPD高達(dá)8.167 9,波數(shù)由3 320個(gè)點(diǎn)篩選為110個(gè)點(diǎn),模型穩(wěn)健性參數(shù)良好,定量模型及預(yù)測(cè)結(jié)果如圖5所示,其中橫縱坐標(biāo)分別表示小麥粉中灰分含量所占的百分比。
圖5 SG(17)+SNV+SAA的灰分拉曼定量模型
本實(shí)驗(yàn)建立了小麥粉中灰分拉曼全譜PLS定量模型,經(jīng)11種優(yōu)化組合方法處理并通過模擬退火算法優(yōu)化波數(shù)。實(shí)驗(yàn)結(jié)果表明,不同的優(yōu)化組合方法對(duì)指標(biāo)有一定程度的影響,其中SG(17)+SNV+SAA的優(yōu)化方式效果最佳,這是因?yàn)榫矸e平滑法本身是一種加權(quán)平均方法,通過多項(xiàng)式對(duì)移動(dòng)窗口內(nèi)信息進(jìn)行擬合,其更加強(qiáng)調(diào)中心點(diǎn)的中心作用, 而SNV消除了固態(tài)或粉末狀樣本顆粒大小、表面散射及光程變動(dòng)對(duì)光譜的影響, 二者相綜合,使各項(xiàng)指標(biāo)大幅度提升,模型的準(zhǔn)確性和穩(wěn)健性得到保障。從實(shí)驗(yàn)結(jié)果中可以看出,在模型待測(cè)組分濃度與波數(shù)相關(guān)性以及模型預(yù)測(cè)準(zhǔn)確性方面展現(xiàn)了自身的優(yōu)越性,預(yù)測(cè)準(zhǔn)確性和誤差分布范圍也比較好。實(shí)驗(yàn)結(jié)果顯示,拉曼光譜技術(shù)經(jīng)過預(yù)處理并結(jié)合模擬退火算法對(duì)小麥粉中灰分組分的定量分析有一定的可行性,本研究為小麥粉組分的定量分析提供了一種新的方法途徑,也為建立一個(gè)準(zhǔn)確性高、穩(wěn)定性強(qiáng)、可應(yīng)用于實(shí)際生產(chǎn)工作的優(yōu)秀小麥粉檢測(cè)模型提供借鑒。