劉伯揚(yáng),高安平*,楊 戩,高永亮,白 鵬,特日格樂,馬利軍,趙三軍,李雪晶,張慧萍,康俊巍,李 慧,王 慧,楊 斯,李晨曦,劉 蓉
1. 內(nèi)蒙古蒙牛乳業(yè)(集團(tuán))股份有限公司,內(nèi)蒙古 呼和浩特 011500 2. 天津大學(xué)精密儀器與光電子工程學(xué)院,天津 300072
牛奶含有多種人體必需的營養(yǎng)成分,在居民日常膳食中占有重要地位[1]。隨著經(jīng)濟(jì)發(fā)展和人民生活水平提高,牛奶及其衍生產(chǎn)品的消費(fèi)量不斷增長,消費(fèi)者對乳制品質(zhì)量安全的要求也逐漸提高。原料奶是整個乳制品產(chǎn)業(yè)鏈中的最上游,其質(zhì)量直接影響乳制品的生產(chǎn)與消費(fèi)安全。近年來,原料奶摻假事件時有發(fā)生,一些非法添加劑,如三聚氰胺、蛋白精、革皮水解物等,是造成重大食品安全事故的重要因素,嚴(yán)重危害消費(fèi)者健康。現(xiàn)代乳制品生產(chǎn)環(huán)節(jié)較多,生產(chǎn)設(shè)備衛(wèi)生安全不達(dá)標(biāo),或者生產(chǎn)環(huán)節(jié)出現(xiàn)泄漏,也容易造成二次污染及經(jīng)濟(jì)損失。為了保證牛奶及乳制品生產(chǎn)消費(fèi)安全,我國制定了嚴(yán)密的質(zhì)量標(biāo)準(zhǔn)體系,并且要求在乳制品生產(chǎn)及消費(fèi)各個環(huán)節(jié)對各種非法添加物進(jìn)行嚴(yán)格檢測。
牛奶主要成分,如蛋白質(zhì)等的檢測常用凱氏定氮法、酶-比色法等化學(xué)方法,步驟繁瑣,檢測靈敏度低,時效性差。對于三聚氰胺、植物蛋白、糖類等摻假物質(zhì),則主要以高效液相色譜、氣相色譜-質(zhì)譜聯(lián)用、光譜儀為代表的儀器分析方法為主[2-4]。儀器分析方法檢測靈敏度較高,可以實現(xiàn)微量成分檢測,但是需要根據(jù)不同摻假物種類設(shè)計預(yù)處理及分析流程,檢測效率較低,無法滿足實時在線檢測需要[5-6]。現(xiàn)代乳制品工業(yè)要求在生產(chǎn)的各個環(huán)節(jié)對牛奶質(zhì)量及可能存在的摻假物質(zhì)進(jìn)行快速檢測。目前的在線檢測方法及設(shè)備仍比較落后,難以實現(xiàn)標(biāo)準(zhǔn)化快速檢測,影響生產(chǎn)效率及產(chǎn)品質(zhì)量。
光譜檢測技術(shù)具有快速、無損等優(yōu)勢,廣泛應(yīng)用于各種在線檢測及過程分析[7-9]。紅外光譜檢測方法可以同時獲取多種分子鍵及官能團(tuán)信息,根據(jù)光譜吸收峰位置、強(qiáng)度對多種物質(zhì)成分進(jìn)行定性定量分析,尤其適用復(fù)雜樣品分析。國內(nèi)外研究小組針對牛奶質(zhì)量及摻假物快速檢測需要,研究了多種基于紅外光譜分析技術(shù)的判別方法與定量分析模型。Brand[10]等采用衰減全反射傅里葉變換紅外光譜技結(jié)合偏最小二乘回歸模型法,建立牛奶中摻假物的回歸模型,對尿素預(yù)測相關(guān)系數(shù)達(dá)到0.96以上。Zaalberg[11]等在牛奶近紅外光譜測量基礎(chǔ)上,結(jié)合主成分分析與回歸判別方法,建立不同理化指標(biāo)及新鮮度判別模型,取得了較好的準(zhǔn)確度。Mohamed[12]等采用近紅外光譜技術(shù)檢測摻有植物水解蛋白的牛奶樣品,采用三氯乙酸對摻假樣品進(jìn)行預(yù)處理后,檢測結(jié)果更準(zhǔn)確。隨著光譜檢測技術(shù)發(fā)展,機(jī)器學(xué)習(xí)及深度學(xué)習(xí)方法也為光譜數(shù)據(jù)處理及模型研究奠定了基礎(chǔ),擴(kuò)展了光譜方法應(yīng)用領(lǐng)域[13-15]。
目前多數(shù)摻假牛奶鑒別模型需要根據(jù)摻假物的光譜特征,建立用于不同類型摻假物的靶向鑒別模型,以提高識別精度,而實際生產(chǎn)中摻假物質(zhì)種類多、成分復(fù)雜,建立靶向識別模型的復(fù)雜度和成本較高。為了滿足生產(chǎn)在線快速檢測需要,研究非靶向異常牛奶樣品鑒別方法成為提高在線檢測效率的關(guān)鍵。由于近紅外波段主要是O—H、N—H、C—H等含氫基團(tuán)的倍頻、合頻信息,吸收特征往往不明顯,并且信號較弱,不利于多種摻假物同時鑒別。中紅外光譜表征了分子基頻吸收,天然牛奶與摻假物質(zhì)在中紅外波段具有較為明顯的吸收特征,豐富的譜峰信息為非靶向判別模型提供了基礎(chǔ)。然而,由于中紅外光譜覆蓋范圍大,需要鑒別的摻假物種類較多,非靶向鑒別模型面臨的主要問題是如何篩選有效波段與建模變量組合,結(jié)合不同分類算法,提高鑒別模型準(zhǔn)確度及泛化能力[16]。
針對牛奶在線快速檢測需要,研究了基于中紅外光譜的多種類摻假異常牛奶樣品非靶向鑒別方法。選擇蒙牛公司奶質(zhì)穩(wěn)定的六個奶源地收集天然原樣品,配制了含有多種摻假物的異常牛奶樣品。采集樣品中紅外吸收光譜,利用預(yù)處理方法提高光譜信噪比及一致性。采用蒙特卡洛無信息變量消除(Monte Carlo uninformative variable elimination,MC-UVE)、無變量信息消除-連續(xù)投影(uninformative variable elimination-successive projections algorithm,UVE-SPA)與競爭自適應(yīng)重加權(quán)采樣(competitive adapative reweighted sampling,CARS)三種方法篩選原始光譜中的特征波長變量,分別建立偏最小二乘判別(partial least squares discriminant analysis,PLS-DA)及支持向量機(jī)(support vector machine,SVM)的非靶向識別模型,對比分析不同特征變量組合對于摻假異常牛奶樣品的識別效果,為乳制品在線生產(chǎn)及質(zhì)量檢測提供支持。
采用的牛奶樣本來源于蒙牛公司六個奶質(zhì)穩(wěn)定的奶源地,共收集1 560例優(yōu)質(zhì)生鮮奶,其中470例作為正常牛奶樣本集。根據(jù)原料奶收儲中常見的摻假物,配制了含有植脂末、淀粉、蔗糖、尿素、三聚氰胺、水解蛋白粉、亞硝酸鹽、檸檬酸、碳酸氫鈉等多種類型的異常牛奶樣品集,共計1 090例。每種樣品均經(jīng)過充分混勻,并放置于冰箱冷藏保存,室溫環(huán)境下完成光譜測量。采用MilkoScan FT1傅里葉變換光譜儀(丹麥Foss公司)測量樣品光譜,測量范圍4 000~926 cm-1,光譜分辨率4 cm-1,每個樣品重復(fù)掃描16次取平均光譜,以提高光譜信噪比。
牛奶樣品屬于高散射介質(zhì),透射光譜容易受到脂肪顆粒等多次散射影響,測量過程中的樣品變化也會在一定程度上引起光譜基線漂移。在線檢測過程中,受到儀器振動、噪聲等因素影響,原始光譜信噪比也會下降。針對牛奶樣品特點(diǎn)及測量干擾來源,選擇平滑濾波、多元散射校正及歸一化等預(yù)處理方法,提高光譜信噪比及一致性。
非靶向鑒別模型需要準(zhǔn)確識別含有不同種類摻假物的異常牛奶樣本,因此測量光譜范圍較寬,以保證能夠覆蓋不同物質(zhì)的吸收特征。測量得到的樣品中紅外吸收光譜共包含1 060個波長變量,不同波長信息對于鑒別模型的貢獻(xiàn)不同,部分無信息變量還有可能影響分類模型性能。為了提高鑒別模型準(zhǔn)確度以及算法效率,首先需要采用變量篩選方法剔除不相關(guān)的波長,得到特征波長變量組合作為判別模型輸入。本文研究中,根據(jù)牛奶樣品光譜特征、摻假物種類,并綜合信息有效性等指標(biāo),選擇MC-UVE、UVE-SPA與CARS三種方法對原始光譜中進(jìn)行變量篩選,得到特征波長變量組合[16]。
MC-UVE 方法根據(jù)偏最小二乘回歸系數(shù)的穩(wěn)定性來消除無信息變量。首先在樣品光譜矩陣中加入相同變量數(shù)目的隨機(jī)噪聲,然后通過交叉驗證法建立PLS模型,根據(jù)得到的回歸系數(shù)向量的平均值除以標(biāo)準(zhǔn)差得到判定閾值,分別比較波長變量與隨機(jī)噪聲最大閾值的范圍,將小于隨機(jī)噪聲閾值的變量視為無信息變量。MC-UVE 方法在交互驗證過程中,采用蒙特卡洛采樣方法,從訓(xùn)練集中隨機(jī)選擇一定數(shù)量的樣本作為構(gòu)建PLS子模型的訓(xùn)練子集,可以在一定程度上提高選擇最佳模型的概率。
采用MC-UVE篩選得到的數(shù)量往往較多,在一定程度上影響分類算法效率。研究中采用連續(xù)投影方法(successive projections algorithm,SPA)進(jìn)一步篩選,獲得最優(yōu)變量組合。UVE-SPA 方法中,SPA用于選擇具有最小冗余信息的變量,從一個變量開始,在每次迭代中合并一個具有最大投影向量的新變量,根據(jù)線性判別模型驗證集中的最佳準(zhǔn)確度篩選得到有效變量。UVE-SPA可以有效減少變量的數(shù)量,選出均方根誤差最小的變量組合。
CARS方法則基于“適者生存”準(zhǔn)則,采用迭代統(tǒng)計方法篩選有效信息變量。算法過程可以分為隨機(jī)采樣,波長選擇,自適應(yīng)重加權(quán)采樣等過程,通過循環(huán)迭代方式篩選出最佳波長變量組合。隨機(jī)采樣過程一般采用蒙特卡洛采樣方法,劃分?jǐn)?shù)據(jù)集進(jìn)行建模分析,根據(jù)原始數(shù)據(jù)和相應(yīng)的響應(yīng)變量計算有效信息變量,將得到的變量按權(quán)重進(jìn)行降序排序,應(yīng)用偏最小二乘回歸來評估所選變量的性能。每個變量的權(quán)重基于自適應(yīng)加權(quán)采樣計算公式如式(1)
(1)
式(1)中,bi是每個變量的回歸系數(shù)的絕對值。選擇具有最佳精度的變量子集作為有效信息變量集合。
本研究的非靶向鑒別模型需要準(zhǔn)確識別添加不同類摻假物的異常牛奶樣品,因此對鑒別模型的普適性、無偏性與泛化能力要求更高。根據(jù)這一實際要求,分別研究了基于支持向量機(jī)(SVM)與偏最小二乘判別(PLS-DA)的鑒別模型,并對比不同波長變量組合的鑒別結(jié)果。
偏最小二乘判別在主成分分析基礎(chǔ)上,結(jié)合了數(shù)據(jù)降維與回歸模型的優(yōu)勢,實現(xiàn)樣品準(zhǔn)確、高效分類。首先對樣本類別進(jìn)行編碼,然后使用偏最小二乘法對樣本類別編碼數(shù)值進(jìn)行回歸,劃定閾值用于預(yù)測未知樣品類別。其優(yōu)勢在于在選擇判別主成分時不僅考慮了特征矩陣的信息,同時也兼顧了特征向量方向信息,具有較好的準(zhǔn)確度和泛化能力。
支持向量機(jī)是一種常用的經(jīng)典機(jī)器學(xué)習(xí)模型,其核心思想是尋找一個最優(yōu)分割平面,使得兩類樣本與分割平面的間隔最大,實現(xiàn)分類與判別。算法核心是對于給定樣本數(shù)目為m的訓(xùn)練樣本集D={(x1,y1),(x2,y2),…,(xm,ym)},y={+1,-1},找到一個超平面(ω,b)使得間隔最大。該目標(biāo)可表示為式(2)
s.t.yi(ωTxi+b)≥1,i=1,2,…,m
(2)
根據(jù)Karush-Kuhn-Tucker條件,只有滿足yif(xi)-1=0的樣品點(diǎn)才對會對支持向量機(jī)分類模型有影響,定義這樣的點(diǎn)為支持向量。為了滿足高維數(shù)據(jù)處理需要,支持向量機(jī)分類模型可以通過構(gòu)建核函數(shù)的方式,將樣品向量從原始空間映射到一個更高維的特征空間,并使其在特征空間內(nèi)線性可分。利用不同的核函數(shù),可以處理各種非線性分類與回歸任務(wù),避免直接計算高維特征空間內(nèi)及提高算法效率。由于支持向量機(jī)最終決策函數(shù)只由少數(shù)的支持向量確定,避免了“維數(shù)災(zāi)難”,因此模型具有較好的泛化能力。
模型訓(xùn)練采用蒙特卡洛內(nèi)部交叉驗證方法,按照4∶1的比例隨機(jī)劃分為訓(xùn)練集和測試集,以保證訓(xùn)練后模型準(zhǔn)確度及泛化能力。模型評價指標(biāo)包括準(zhǔn)確率(Accuracy),靈敏度(Sensitivity),特異性(Specificity),計算公式如式(3)—式(5)
(3)
(4)
(5)
式(3)—式(5)中,TP表示被正確分類為陽性的樣本數(shù)目,FP表示被錯誤分類為陽性的樣本數(shù)目,TN表示被正確分類為陰性的樣本數(shù)目,FN表示被錯誤分類為陰性的樣本數(shù)目。以上三種評價指標(biāo)中,準(zhǔn)確率是指所有樣本中正確分類數(shù)量的占比,用于衡量分類器總體性能。但是在實際應(yīng)用中,正常樣品與異常樣品數(shù)量可能不平衡,在某些情況下需要確定正常樣本與異常樣品各自分類精度。因此,分別采用靈敏度衡量分類器對正常樣品的識別能力,而用特異性衡量分類器對異常樣品的識別能力。
如圖1所示,正常牛奶樣本與添加不同摻假物的異常牛奶樣品的中紅外光譜在大部分范圍內(nèi)較為相似,但在某些波段表現(xiàn)出較大差異。其中,1 250、1 550和1 650 cm-1幾個波長主要反映了蛋白及含有氨基類物質(zhì)的吸收,而1 774、2 856和2 928 cm-1附近的吸收峰主要由脂肪引起。正常與異常牛奶光譜差別較大的區(qū)域主要分布在1 000~1 100、1 370~1 580和3 030~3130 cm-1三個波長范圍。其中,1 000~1 100 cm-1波段主要反映氮雜環(huán)化合物的環(huán)振動峰,1 370~1 580 cm-1吸收峰主要與含磷成分及多肽類物質(zhì)有關(guān),3 030~3 130 cm-1主要反映了氨基及多肽等物質(zhì)的吸收特征。
圖1 正常牛奶樣品及摻偽樣品中混外光譜比較Fig.1 Mid-infrared spectrum of normal and abnormal milk
由于牛奶中87%的成分是水,水分子在中紅外波段具有較強(qiáng)的吸收峰,尤其是在1 610~1 650及3 200~3 400 cm-1范圍內(nèi),由于氫鍵締合作用,表現(xiàn)為雜亂的強(qiáng)吸收峰。雖然在這一波長范圍內(nèi)不同樣品的光譜差異較大,但是主要是水分子吸收造成的,與摻偽物質(zhì)無關(guān)。因此,需要利用特征波長變量篩選方法剔除這一波段范圍內(nèi)的波長變量,以提高鑒別準(zhǔn)確度。
鑒別模型的準(zhǔn)確度與輸入變量密切相關(guān),采用變量篩選方法得到的建模波長變量組合不僅需要包含樣品光譜信息,并且需要剔除無關(guān)變量以及可能對分類影響較大的波段。分別對比MC-UVE、UVE-SPA及CARS三種變量篩選方法得到波長變量組合的分布情況。
基于MC-UVE算法的特征波長變量選擇結(jié)果如圖2所示,圖2(a)中分界線左側(cè)為測量光譜變量矩陣,右側(cè)為算法添加與測量光譜變量數(shù)相同的隨機(jī)噪聲矩陣,根據(jù)隨機(jī)噪聲最大閾值決定光譜矩陣中的無用變量,并將其剔除。由于MC-UVE方法根據(jù)隨機(jī)噪聲選取閾值,因此篩選得到的變量較多,如圖2(b)所示,達(dá)到142個。
圖2 MC-UVE波長變量篩選過程及結(jié)果(a):算法過程;(b):得到波長變量結(jié)果及分布Fig.2 Screening process and results of MC-UVE algorithm(a):Stability distribution of each variable;(b):Distributionof the selected variable
圖3中,在MC-UVE方法基礎(chǔ)上,進(jìn)一步采用SPA方法進(jìn)行二次篩選,最終得到變量數(shù)量為26個。從篩選得到的變量分布可以看出,大部分波長變量分布在不同物質(zhì)吸收峰。變量數(shù)目減少,一方面可以避免分類模型訓(xùn)練出現(xiàn)過擬合,另一方面也可以提高模型分類識別效率。
圖3 UVE-SPA波長變量篩選結(jié)果Fig.3 Results of UVE-SPA algorithm
CARS算法提取光譜特征變量,設(shè)置采樣次數(shù)為100,采用5折交叉驗證方式,重采樣率選擇為0.8。圖4(a)中展示了篩選過程,隨著迭代次數(shù)增加,算法選取的特征變量數(shù)據(jù)逐步減少。在前30次迭代中,特征變量數(shù)呈指數(shù)衰減趨勢,在這之后的迭代過程中,特征變量數(shù)緩慢減少并逐漸趨于穩(wěn)定。當(dāng)采樣數(shù)小于30時,RMSECV基本不變,大于48后,RMSECV緩慢增加,綜合考慮建模效果,最終根據(jù)迭代次數(shù)選擇最佳變量組合,得到變量數(shù)為56個。如圖4(b)所示,篩選得到的變量也主要分布在蛋白質(zhì)、脂肪以及可能存在的摻偽物質(zhì)的特征吸收波長。
圖4 CARS波長變量篩選過程及結(jié)果(a):算法過程;(b):得到波長變量結(jié)果及分布Fig.4 Screening process and results of CARS algorithm(a):Algorithmic processes;(b):Distribution of the selected variable
分別以MC-UVE,UVE-SPA和CARS篩選得到的特征變量組合為分類模型輸入變量,建立基于PLS-LDA及SVM分類模型,結(jié)果如表1所示。對比不同分類模型效果可知,總體上SVM模型優(yōu)于PLS-DA模型,特別是在變量較多的情況下,SVM分類模型的核函數(shù)映射方法可以避免數(shù)據(jù)維數(shù)過高造成的“災(zāi)難”。變量篩選方法可以進(jìn)一步提高模型分類準(zhǔn)確率,其中CARS算法篩選出的變量組織精度最高。MC-UVE與UVE-SPA篩選出的變量數(shù)量雖然相差較多,但是最后得到的分類準(zhǔn)確度基本相當(dāng),并且UVE-SPA方法在預(yù)測集上表現(xiàn)更好,也說明采用SPA方法進(jìn)一步篩選,減少特征變量數(shù),可以在一定程度上減少模型過擬合風(fēng)險。
表1 不同特征變量組合與分類模型結(jié)果比較Table 1 Prediction results by different combinations of characteristic variables with classification model
如圖5(a,b)所示,對比不同特征變量組合與分類模型對正常和摻假牛奶誤分類結(jié)果可知,基于CARS方法篩選得到的特征波長變量組合建立的SVM識別模型可以較為準(zhǔn)確識別異常牛奶樣品,整體誤分類樣品較少。而基于MC-UVE篩選特征變量組合與SVM分類方法對于正常牛奶的識別分類精度較高,但是對少部分異常牛奶樣本產(chǎn)生誤判。在實際應(yīng)用中,由于異常樣本誤判可能會對后續(xù)生產(chǎn)及產(chǎn)品質(zhì)量產(chǎn)生比較嚴(yán)重的影響,提高模型對于異常樣本的判別準(zhǔn)確度是保證生產(chǎn)安全的關(guān)鍵。
圖5 異常牛奶鑒別結(jié)果混淆矩陣(a):CARS-SVM鑒別模型結(jié)果;(b):MC-UVE-SVM鑒別模型結(jié)果Fig.5 Confusion matrix detailing the multiclass discrimination results of abnormal milk(a):CARS-SVM model;(b):MC-UVE-SVM model
針對乳制品生產(chǎn)異常牛奶樣品檢測需要,研究了中紅外光譜非靶向鑒別方法,結(jié)合變量篩選及機(jī)器學(xué)習(xí)方法,提高模型判別準(zhǔn)確度。研究了基于MC-UVE、UVE-SPA與CARS方法的特征波長變量篩選方法,分別建立PLS-DA及SVM非靶向識別模型,鑒別多種摻假成分異常牛奶樣品。實驗結(jié)果表明,采用法篩選得到的特征波長變量組合建立的SVM分類模型效果整體優(yōu)于PLS-DA模型。采用CARS篩選得到的波長變量組合結(jié)合SVM分類模型對訓(xùn)練集與測試集的鑒別準(zhǔn)確率分別達(dá)到97.84%與94.55%,并且可以準(zhǔn)確識別異常牛奶樣品。研究表明,基于中紅外光譜的非靶向鑒別模型可以實現(xiàn)多種摻假物的異常牛奶樣品快速準(zhǔn)確識別,為牛奶及乳制品質(zhì)量與生產(chǎn)過程檢測提供了支持。