宗 婧,卜漢萍,陳 達,陳曉宇,鮑 蕾*
(1.天津大學(xué) 精密儀器與光電子工程學(xué)院,天津 300072;2.雀巢研發(fā)(中國)有限公司 雀巢食品安全研究院,北京 100016;3.中國民航大學(xué) 飛機防火及應(yīng)急研究所,天津 300300)
乳粉作為一種大宗高頻的食品原料,在全球經(jīng)濟中占有重要地位[1]。然而由于經(jīng)濟利益驅(qū)使,乳粉的摻假行為在相當(dāng)程度上較為猖獗,嚴(yán)重危害人民群眾特別是嬰幼兒的生命健康[2]。當(dāng)前我國食品安全標(biāo)準(zhǔn)檢測方法僅針對有限量標(biāo)準(zhǔn)的物質(zhì)制定,雖然檢測目標(biāo)涵蓋千余種化學(xué)物質(zhì),但僅僅是現(xiàn)有化學(xué)物質(zhì)的極小部分。因此,對乳粉真?zhèn)螁栴}進行科學(xué)評估成為目前重要而急迫的任務(wù)。
常用的乳粉摻假檢測方法主要為高效液相色譜法[3]、氣相色譜-質(zhì)譜聯(lián)用法[3]、液相色譜-串聯(lián)質(zhì)譜法[4]、基質(zhì)輔助激光解吸電離飛行時間質(zhì)譜(MALDI-TOF MS)[5]等色譜和質(zhì)譜技術(shù),通過構(gòu)建大數(shù)據(jù)庫的方式,盡可能地覆蓋奶粉中的未知物。這些方法雖然檢測靈敏度高,但樣品前處理繁瑣,費時費力且費用較高,難以實現(xiàn)對乳粉的大批量快速篩查。此外,受限于我國當(dāng)前的人力物力條件,這類高端儀器的篩查技術(shù)難以普及。因此,迫切需要發(fā)展新型、高效的乳粉非定向篩查技術(shù)。
在各類檢測技術(shù)中,拉曼光譜技術(shù)具有簡單、無損、通量高等優(yōu)點,可同時檢測有機和無機組分,在食品安全非定向篩查領(lǐng)域具備良好的應(yīng)用潛力[6-8]。在拉曼光譜的非定向篩查中,往往依賴主成分分析(PCA)、簇類獨立軟模型(SIMCA)等數(shù)據(jù)降維方法進行定性分析[1,7-8],但這些方法僅能針對已知類別畫出合理分界線。然而,在食品未知摻雜物的拉曼光譜信號中,摻雜物的存在極可能導(dǎo)致信號產(chǎn)生畸變,而傳統(tǒng)的PCA方法和SVM方法無法克服畸變信號對模型的影響,從而導(dǎo)致建模失敗。此外,傳統(tǒng)的拉曼光譜技術(shù)只單純使用光譜儀采集樣品單點數(shù)據(jù)或多個數(shù)據(jù)取平均值,而忽略了乳粉樣本的非均勻異質(zhì)特征和取樣代表性[9],極有可能淹沒低濃度摻雜物的光譜特征,從而導(dǎo)致其檢測靈敏度降低,造成對乳粉樣本的誤判錯判。針對以上問題,近年來發(fā)展的拉曼高光譜成像技術(shù)可有效改善樣本取樣的代表性,結(jié)合新型的化學(xué)計量學(xué)方法,具備良好的非定向篩查應(yīng)用潛力。
在實際應(yīng)用中,拉曼高光譜成像有機結(jié)合了拉曼光譜技術(shù)和二維成像平臺,在大面積掃描樣品的同時,準(zhǔn)確捕獲微區(qū)部分的精細信息[10],進而以圖譜合一的方式準(zhǔn)確記錄食品關(guān)鍵組分的空間拓撲結(jié)構(gòu)。然而,拉曼高光譜成像技術(shù)在食品領(lǐng)域的應(yīng)用尚處于起步階段,如檢測牛肉肌肉內(nèi)脂肪分布的特征[11],定量檢測面粉中過氧化苯甲酰添加劑[12],檢測辣椒粉中的摻假物[13]等,這些研究均針對特定的食品組分或摻雜組分進行分析,尚未發(fā)揮其非定向篩查功能。對于拉曼和近紅外等光譜成像技術(shù)的定性分析,大部分僅參考待測摻雜物的純物質(zhì)光譜,找出典型摻雜物的特征譜峰位置,并結(jié)合該位置強度信息畫出單波長強度圖,根據(jù)相應(yīng)的閾值判據(jù),畫出二值成像圖[14-18]。除此之外,文獻還報道了光譜角測量(SAM)、光譜相關(guān)性測量(SCM)和歐式距離測量(EDM)等光譜相似性分析方法,由此比較被測物每個像素點的光譜與純摻雜物的光譜相似度,通過設(shè)置有效閾值的方式達到定性分析食品中摻雜物的目的[11,19]。然而,在乳粉真?zhèn)舞b別的實踐過程中,由于各類摻雜物質(zhì)種類繁多,不法商販極有可能添加新型摻假物來規(guī)避檢查[6],定向篩查方法難以全面覆蓋未知摻雜物信息,傳統(tǒng)的拉曼高光譜成像技術(shù)難以滿足相關(guān)要求,發(fā)展新型、高效的拉曼高光譜成像迫在眉睫。
本文擬發(fā)展一種基于穩(wěn)健建模驅(qū)動的拉曼高光譜成像技術(shù)(RMD-RHIM),以實現(xiàn)乳粉真?zhèn)蔚姆嵌ㄏ蚝Y查。在RMD-RHIM方法中,以蛋白質(zhì)這一典型指標(biāo)的穩(wěn)健建模為切入點,將拉曼高光譜摻雜像素點映射為畸變像素點,構(gòu)建可視化的二值圖像,進而以非定向的方式精確識別奇異樣本。結(jié)果表明,RMD-RHIM方法對絕大部分未知摻雜物均具有很好的識別率,為乳粉真實性的非定向篩查提供了一種新手段,并可拓展到其它食品樣本的非定向篩查。
圖1 便攜式拉曼高光譜成像系統(tǒng)示意圖Fig.1 Schematic diagram of the portable Raman hyperspectral imaging system
實驗采用自行搭建的拉曼高光譜成像裝置(圖1),由二維位移平臺(BIOS-105T-304GS型,SIGMA KOKI,日本)、便攜式拉曼光譜儀(課題組自主研發(fā))和自行編寫的集成控制軟件組成。便攜式拉曼光譜儀使用激發(fā)光源波長為785 nm,功率為100 mW的二極管激光器;CCD檢測器為64×1 024像素陣列;波數(shù)范圍為200~2 200 cm-1。在實驗過程中,將采集區(qū)域設(shè)置為30 mm×30 mm,將二維位移平臺步長設(shè)置為0.6 mm,單點積分時間為600 ms,以50×50的分辨率采集2 500個點拉曼光譜數(shù)據(jù)。因此,每個乳粉樣品高光譜數(shù)據(jù)為50×50×1 024的數(shù)據(jù)立方體。
光譜數(shù)據(jù)處理采用Matlab R2016a軟件進行計算。airPLS和mIRPLS的算法參考文獻[20-21],通過相關(guān)算法的有機結(jié)合,巧妙地將未知摻雜物的篩查問題轉(zhuǎn)化為奇異樣本識別問題。
建模樣品:采用50個不同品牌、不同批次的市售脫脂奶粉構(gòu)建正常光譜數(shù)據(jù)標(biāo)準(zhǔn)庫,其蛋白質(zhì)濃度均采用國標(biāo)方法[22]進行測試。
驗證樣本:使用4組驗證樣品:①15個正常市售脫脂乳粉(陰性樣本);②30個含有隨機摻雜組分的乳粉(陽性樣本);③尿素單摻雜樣品15個,按照15個濃度梯度,以0.1%、0.2%、0.3%、0.4%、0.5%、0.7%、1.0%、1.5%、2.0%、2.5%、3.0%、3.5%、4.0%、4.5%、5.0%(質(zhì)量分?jǐn)?shù))混合摻入脫脂乳粉中;④三聚氰胺單摻雜樣品15個,濃度梯度同③。
摻雜樣品③和④的制備:實驗試劑為尿素(99%,生物技術(shù)級,麥克林)和三聚氰胺(99%,麥克林)。每個樣品20 g,按0.1%、0.2%、0.3%、0.4%、0.5%、0.7%、1.0%、1.5%、2.0%、2.5%、3.0%、3.5%、4.0%、4.5%、5.0%(質(zhì)量分?jǐn)?shù))加入摻雜物質(zhì)和脫脂乳粉,使用上海滬西XW-80A渦流混合儀振動5 min混勻,以確保奶粉中摻假顆粒的均勻性。
乳粉是一種非均質(zhì)復(fù)雜體系,其摻雜區(qū)域會破壞乳粉原有的關(guān)鍵組分特征分布,進而導(dǎo)致其拉曼高光譜信號產(chǎn)生畸變,破壞后續(xù)的多元建模過程。因此,本研究提出一種基于穩(wěn)健建模驅(qū)動的拉曼高光譜成像技術(shù)(RMD-RHIM),借助穩(wěn)健建模的奇異樣本識別能力,準(zhǔn)確找出畸變數(shù)據(jù),將乳品摻雜區(qū)域映射為高光譜畸變像素點,在未知摻雜物種類的情況下,高效實現(xiàn)乳粉摻雜的非定向篩查[23-24]。該技術(shù)首先采用真實脫脂奶粉樣品數(shù)據(jù)構(gòu)建正常光譜標(biāo)準(zhǔn)庫,同時采集單一的待測樣品數(shù)據(jù),共同組成動態(tài)的訓(xùn)練集樣本。在此基礎(chǔ)上,使用airPLS算法去除熒光干擾,拉平基線。然后,通過mIRPLS穩(wěn)健建模算法,找出待測樣品中的畸變像素點,并標(biāo)記為“摻雜區(qū)域”,畫出包含樣品定位信息的二值圖,從而得到待測樣品的摻雜二值圖像。具體流程如圖2所示。
圖2 基于穩(wěn)健建模驅(qū)動的拉曼高光譜成像方法流程圖Fig.2 Flowchart of the robust model driven Raman hyperspectral imaging method(RMD-RHIM)
1.3.1 光譜預(yù)處理脫脂乳粉是有機樣品,其原始拉曼光譜具有強烈的熒光背景,嚴(yán)重影響后續(xù)模型的建立,需提前扣除,且高光譜數(shù)據(jù)量大,需要相關(guān)預(yù)處理算法具有快的處理速度。本研究采用自適應(yīng)迭代重加權(quán)懲罰最小二乘算法(airPLS)[20],通過連續(xù)多次調(diào)用加權(quán)懲罰最小二乘算法,擬合出熒光背景的平滑曲線,并將其扣除。由于airPLS算法運用稀疏矩陣技術(shù),其運算速度僅與信號的長度呈線性關(guān)系,處理速度快。因此,適用于本研究中拉曼高光譜數(shù)據(jù)的基線校正。
1.3.2 穩(wěn)健建模算法本研究采用的穩(wěn)健建模算法是改進的迭代重加權(quán)PLS(Modified iterative reweighted PLS,mIRPLS)算法[21],該算法通過檢測刪除了光譜變量中多個畸變點,構(gòu)造出可靠的PLS模型。在mIRPLS中,使用了自適應(yīng)的調(diào)整參數(shù),當(dāng)?shù)趇個樣本(1≤i≤n)的預(yù)測誤差超過訓(xùn)練集樣本濃度[-3σi,3σi]的范圍,則視其為一個畸變點。其中,n是建模集樣品的總數(shù),σi是使用留一法n-1個樣本的標(biāo)準(zhǔn)偏差,ri是第i個樣本(1≤i≤n)的預(yù)測誤差。其數(shù)學(xué)表達式為:
本研究將Φi=0的像素點標(biāo)記為“摻假”,將Φi≠0的點標(biāo)記為“正?!?。
脫脂乳粉中蛋白質(zhì)的熒光背景嚴(yán)重干擾模型建立,因此,采用airPLS算法對原始拉曼光譜進行預(yù)處理,以克服熒光背景干擾,光譜預(yù)處理結(jié)果見圖3。正常脫脂乳粉的原始拉曼光譜出現(xiàn)了明顯的基線漂移(實線),使用airPLS算法后(虛線),其基線平整,熒光背景被有效扣除,表明airPLS能有效克服拉曼光譜中熒光背景的干擾,為后續(xù)穩(wěn)健建模分析奠定了良好的基礎(chǔ)。
圖3 使用airPLS進行光譜預(yù)處理前后對比圖Fig.3 Comparison of Raman spectra before and after airPLS
RMD-RHIM方法最重要的步驟是穩(wěn)健模型的建立。本方法將50個建模樣本的高光譜數(shù)據(jù)與待測樣本高光譜數(shù)據(jù)輸入mIRPLS穩(wěn)健建模方法中建立模型。通過mIRPLS的畸變點檢測功能,挑選出摻雜奶粉中畸變的拉曼高光譜像素點,標(biāo)記為“摻雜”,其他像素點標(biāo)記為“正常”,并最終轉(zhuǎn)化為可視化的二值圖像。
正常脫脂乳粉(陰性樣本)、含有1.90%水解乳清(相當(dāng)于5%蛋白質(zhì)摻雜)的脫脂乳粉和含有0.91%三聚氰胺(相當(dāng)于10%蛋白質(zhì)摻雜)的脫脂乳粉的RMD-RHIM非定向篩查結(jié)果見圖4。其中A1、B1和C1分別為三者的2 500個像素點的拉曼光譜數(shù)據(jù),由圖可見脫脂乳粉的熒光背景較強,需先使用airPLS方法去除基線背景,以顯著提升后續(xù)穩(wěn)健建模的可靠性。A2、B2和C2為經(jīng)RMD-RHIM方法檢測出的畸變點(深紅色)并結(jié)合二維位移平臺的定位信息畫出的摻假成像二值圖,其像素點的采樣間隔為0.6 mm(30 mm范圍內(nèi)有50個像素點),以白色表示正常脫脂乳粉,紅色表示摻假的畸變像素點。由圖可見,當(dāng)樣品為正常脫脂乳粉(A2)時,摻假成像二值圖為全白色,代表并無任何摻假物質(zhì)的存在。而當(dāng)樣品為摻假樣品時,二值圖用深紅色像素點表示出此為摻假樣品,且顯示出摻假物的分布情況(B2、C2)。由此可見,RMD-RHIM能以可視化的方式實現(xiàn)乳粉真?zhèn)蔚姆嵌ㄏ蚝Y查。
圖4中B2和C2的摻雜像素點分布較為均勻,符合正常的乳粉摻雜分布模式,側(cè)面證明了此成像方法的有效性。此外,B2為含有1.90%水解乳清的陽性樣品,C2為含有0.91%三聚氰胺的陽性樣品,單從摻雜物質(zhì)的質(zhì)量分?jǐn)?shù)來看,B2的摻雜像素點應(yīng)多于C2,但結(jié)果卻恰恰相反。其原因在于,本研究使用的拉曼光譜儀的激光器的光斑遠大于摻雜物質(zhì)的顆粒,因此一個像素點并不代表一個摻雜顆粒。這可以由像素點的拉曼光譜圖B1和C1證明,其光譜并非純的摻雜物質(zhì)信號,而是在純?nèi)榉劾庾V的基礎(chǔ)上,疊加摻雜物光譜。乳清蛋白摻雜物不具有明顯的特征峰,如圖B1所示。反觀圖C1,部分像素點光譜的674.3 cm-1波數(shù)具有很尖銳的譜峰,這是三聚氰胺作為一種富氮類化合物所具有的明顯特征尖峰,其相對純?nèi)榉酃庾V畸變明顯。因此三聚氰胺顆粒即使占激光光斑面積的很小一部分,該像素點所采集的拉曼光譜也會發(fā)生明顯畸變,進而被RMD-RHIM方法標(biāo)記為摻雜像素點。因此出現(xiàn)了如B2和C2這種摻雜像素點個數(shù)與摻雜物質(zhì)濃度不成比例的現(xiàn)象。由此可見,RMD-RHIM方法對含有尖銳譜峰的摻雜物更加靈敏。
采用本方法對15個正常脫脂乳粉(陰性樣本)的第1組驗證樣本和含有60個摻假樣品(陽性樣本)的第2、3、4組進行驗證,計算方法的識別率,其計算公式如下:
識別率(Classification rate)=正確分類數(shù)量(Correct classification numbers)/樣品總數(shù)(Numbers)
RMD-RHIM方法評價結(jié)果見表1。陰性樣本的正確識別率為93.3%,陽性樣本的正確識別率為98.3%,表明非定向篩查的準(zhǔn)確識別率可滿足實際工業(yè)需求。為進一步驗證RMD-RHIM方法的檢測靈敏度,分別采用含有0.1%~5.0%(質(zhì)量分?jǐn)?shù))的尿素和三聚氰胺的摻假脫脂乳粉樣品進行驗證(Set 3、4)。發(fā)現(xiàn)其對尿素和三聚氰胺的檢測靈敏度均達到0.1%,正確識別率為100%,完全滿足乳粉真?zhèn)巫R別的需求。
表1 基于RMD-RHIM方法非定向篩查模型預(yù)測結(jié)果評價Table 1 Evaluation of prediction results of RMD-RHIM method
-:no data
本文提出了一種穩(wěn)健建模驅(qū)動的拉曼高光譜成像方法,該方法借助拉曼高光譜成像技術(shù),將乳粉中未知摻雜物的識別問題轉(zhuǎn)化為拉曼高光譜信號的畸變處理問題;借助穩(wěn)健建模方法,將畸變信號轉(zhuǎn)化為奇異樣本識別問題,進而巧妙地克服了定向篩查無法遍歷所有摻雜物的問題。實驗結(jié)果表明,RMD-RHIM能較準(zhǔn)確地識別乳粉的陰性和陽性樣本,以可視化的方式實現(xiàn)乳粉真?zhèn)蔚姆嵌ㄏ蚝Y查,并為其他食品體系的非定向篩查提供了一種新思路。