宗 婧,卜漢萍,陳 達(dá),陳曉宇,鮑 蕾*
(1.天津大學(xué) 精密儀器與光電子工程學(xué)院,天津 300072;2.雀巢研發(fā)(中國)有限公司 雀巢食品安全研究院,北京 100016;3.中國民航大學(xué) 飛機(jī)防火及應(yīng)急研究所,天津 300300)
乳粉作為一種大宗高頻的食品原料,在全球經(jīng)濟(jì)中占有重要地位[1]。然而由于經(jīng)濟(jì)利益驅(qū)使,乳粉的摻假行為在相當(dāng)程度上較為猖獗,嚴(yán)重危害人民群眾特別是嬰幼兒的生命健康[2]。當(dāng)前我國食品安全標(biāo)準(zhǔn)檢測(cè)方法僅針對(duì)有限量標(biāo)準(zhǔn)的物質(zhì)制定,雖然檢測(cè)目標(biāo)涵蓋千余種化學(xué)物質(zhì),但僅僅是現(xiàn)有化學(xué)物質(zhì)的極小部分。因此,對(duì)乳粉真?zhèn)螁栴}進(jìn)行科學(xué)評(píng)估成為目前重要而急迫的任務(wù)。
常用的乳粉摻假檢測(cè)方法主要為高效液相色譜法[3]、氣相色譜-質(zhì)譜聯(lián)用法[3]、液相色譜-串聯(lián)質(zhì)譜法[4]、基質(zhì)輔助激光解吸電離飛行時(shí)間質(zhì)譜(MALDI-TOF MS)[5]等色譜和質(zhì)譜技術(shù),通過構(gòu)建大數(shù)據(jù)庫的方式,盡可能地覆蓋奶粉中的未知物。這些方法雖然檢測(cè)靈敏度高,但樣品前處理繁瑣,費(fèi)時(shí)費(fèi)力且費(fèi)用較高,難以實(shí)現(xiàn)對(duì)乳粉的大批量快速篩查。此外,受限于我國當(dāng)前的人力物力條件,這類高端儀器的篩查技術(shù)難以普及。因此,迫切需要發(fā)展新型、高效的乳粉非定向篩查技術(shù)。
在各類檢測(cè)技術(shù)中,拉曼光譜技術(shù)具有簡單、無損、通量高等優(yōu)點(diǎn),可同時(shí)檢測(cè)有機(jī)和無機(jī)組分,在食品安全非定向篩查領(lǐng)域具備良好的應(yīng)用潛力[6-8]。在拉曼光譜的非定向篩查中,往往依賴主成分分析(PCA)、簇類獨(dú)立軟模型(SIMCA)等數(shù)據(jù)降維方法進(jìn)行定性分析[1,7-8],但這些方法僅能針對(duì)已知類別畫出合理分界線。然而,在食品未知摻雜物的拉曼光譜信號(hào)中,摻雜物的存在極可能導(dǎo)致信號(hào)產(chǎn)生畸變,而傳統(tǒng)的PCA方法和SVM方法無法克服畸變信號(hào)對(duì)模型的影響,從而導(dǎo)致建模失敗。此外,傳統(tǒng)的拉曼光譜技術(shù)只單純使用光譜儀采集樣品單點(diǎn)數(shù)據(jù)或多個(gè)數(shù)據(jù)取平均值,而忽略了乳粉樣本的非均勻異質(zhì)特征和取樣代表性[9],極有可能淹沒低濃度摻雜物的光譜特征,從而導(dǎo)致其檢測(cè)靈敏度降低,造成對(duì)乳粉樣本的誤判錯(cuò)判。針對(duì)以上問題,近年來發(fā)展的拉曼高光譜成像技術(shù)可有效改善樣本取樣的代表性,結(jié)合新型的化學(xué)計(jì)量學(xué)方法,具備良好的非定向篩查應(yīng)用潛力。
在實(shí)際應(yīng)用中,拉曼高光譜成像有機(jī)結(jié)合了拉曼光譜技術(shù)和二維成像平臺(tái),在大面積掃描樣品的同時(shí),準(zhǔn)確捕獲微區(qū)部分的精細(xì)信息[10],進(jìn)而以圖譜合一的方式準(zhǔn)確記錄食品關(guān)鍵組分的空間拓?fù)浣Y(jié)構(gòu)。然而,拉曼高光譜成像技術(shù)在食品領(lǐng)域的應(yīng)用尚處于起步階段,如檢測(cè)牛肉肌肉內(nèi)脂肪分布的特征[11],定量檢測(cè)面粉中過氧化苯甲酰添加劑[12],檢測(cè)辣椒粉中的摻假物[13]等,這些研究均針對(duì)特定的食品組分或摻雜組分進(jìn)行分析,尚未發(fā)揮其非定向篩查功能。對(duì)于拉曼和近紅外等光譜成像技術(shù)的定性分析,大部分僅參考待測(cè)摻雜物的純物質(zhì)光譜,找出典型摻雜物的特征譜峰位置,并結(jié)合該位置強(qiáng)度信息畫出單波長強(qiáng)度圖,根據(jù)相應(yīng)的閾值判據(jù),畫出二值成像圖[14-18]。除此之外,文獻(xiàn)還報(bào)道了光譜角測(cè)量(SAM)、光譜相關(guān)性測(cè)量(SCM)和歐式距離測(cè)量(EDM)等光譜相似性分析方法,由此比較被測(cè)物每個(gè)像素點(diǎn)的光譜與純摻雜物的光譜相似度,通過設(shè)置有效閾值的方式達(dá)到定性分析食品中摻雜物的目的[11,19]。然而,在乳粉真?zhèn)舞b別的實(shí)踐過程中,由于各類摻雜物質(zhì)種類繁多,不法商販極有可能添加新型摻假物來規(guī)避檢查[6],定向篩查方法難以全面覆蓋未知摻雜物信息,傳統(tǒng)的拉曼高光譜成像技術(shù)難以滿足相關(guān)要求,發(fā)展新型、高效的拉曼高光譜成像迫在眉睫。
本文擬發(fā)展一種基于穩(wěn)健建模驅(qū)動(dòng)的拉曼高光譜成像技術(shù)(RMD-RHIM),以實(shí)現(xiàn)乳粉真?zhèn)蔚姆嵌ㄏ蚝Y查。在RMD-RHIM方法中,以蛋白質(zhì)這一典型指標(biāo)的穩(wěn)健建模為切入點(diǎn),將拉曼高光譜摻雜像素點(diǎn)映射為畸變像素點(diǎn),構(gòu)建可視化的二值圖像,進(jìn)而以非定向的方式精確識(shí)別奇異樣本。結(jié)果表明,RMD-RHIM方法對(duì)絕大部分未知摻雜物均具有很好的識(shí)別率,為乳粉真實(shí)性的非定向篩查提供了一種新手段,并可拓展到其它食品樣本的非定向篩查。
圖1 便攜式拉曼高光譜成像系統(tǒng)示意圖Fig.1 Schematic diagram of the portable Raman hyperspectral imaging system
實(shí)驗(yàn)采用自行搭建的拉曼高光譜成像裝置(圖1),由二維位移平臺(tái)(BIOS-105T-304GS型,SIGMA KOKI,日本)、便攜式拉曼光譜儀(課題組自主研發(fā))和自行編寫的集成控制軟件組成。便攜式拉曼光譜儀使用激發(fā)光源波長為785 nm,功率為100 mW的二極管激光器;CCD檢測(cè)器為64×1 024像素陣列;波數(shù)范圍為200~2 200 cm-1。在實(shí)驗(yàn)過程中,將采集區(qū)域設(shè)置為30 mm×30 mm,將二維位移平臺(tái)步長設(shè)置為0.6 mm,單點(diǎn)積分時(shí)間為600 ms,以50×50的分辨率采集2 500個(gè)點(diǎn)拉曼光譜數(shù)據(jù)。因此,每個(gè)乳粉樣品高光譜數(shù)據(jù)為50×50×1 024的數(shù)據(jù)立方體。
光譜數(shù)據(jù)處理采用Matlab R2016a軟件進(jìn)行計(jì)算。airPLS和mIRPLS的算法參考文獻(xiàn)[20-21],通過相關(guān)算法的有機(jī)結(jié)合,巧妙地將未知摻雜物的篩查問題轉(zhuǎn)化為奇異樣本識(shí)別問題。
建模樣品:采用50個(gè)不同品牌、不同批次的市售脫脂奶粉構(gòu)建正常光譜數(shù)據(jù)標(biāo)準(zhǔn)庫,其蛋白質(zhì)濃度均采用國標(biāo)方法[22]進(jìn)行測(cè)試。
驗(yàn)證樣本:使用4組驗(yàn)證樣品:①15個(gè)正常市售脫脂乳粉(陰性樣本);②30個(gè)含有隨機(jī)摻雜組分的乳粉(陽性樣本);③尿素單摻雜樣品15個(gè),按照15個(gè)濃度梯度,以0.1%、0.2%、0.3%、0.4%、0.5%、0.7%、1.0%、1.5%、2.0%、2.5%、3.0%、3.5%、4.0%、4.5%、5.0%(質(zhì)量分?jǐn)?shù))混合摻入脫脂乳粉中;④三聚氰胺單摻雜樣品15個(gè),濃度梯度同③。
摻雜樣品③和④的制備:實(shí)驗(yàn)試劑為尿素(99%,生物技術(shù)級(jí),麥克林)和三聚氰胺(99%,麥克林)。每個(gè)樣品20 g,按0.1%、0.2%、0.3%、0.4%、0.5%、0.7%、1.0%、1.5%、2.0%、2.5%、3.0%、3.5%、4.0%、4.5%、5.0%(質(zhì)量分?jǐn)?shù))加入摻雜物質(zhì)和脫脂乳粉,使用上海滬西XW-80A渦流混合儀振動(dòng)5 min混勻,以確保奶粉中摻假顆粒的均勻性。
乳粉是一種非均質(zhì)復(fù)雜體系,其摻雜區(qū)域會(huì)破壞乳粉原有的關(guān)鍵組分特征分布,進(jìn)而導(dǎo)致其拉曼高光譜信號(hào)產(chǎn)生畸變,破壞后續(xù)的多元建模過程。因此,本研究提出一種基于穩(wěn)健建模驅(qū)動(dòng)的拉曼高光譜成像技術(shù)(RMD-RHIM),借助穩(wěn)健建模的奇異樣本識(shí)別能力,準(zhǔn)確找出畸變數(shù)據(jù),將乳品摻雜區(qū)域映射為高光譜畸變像素點(diǎn),在未知摻雜物種類的情況下,高效實(shí)現(xiàn)乳粉摻雜的非定向篩查[23-24]。該技術(shù)首先采用真實(shí)脫脂奶粉樣品數(shù)據(jù)構(gòu)建正常光譜標(biāo)準(zhǔn)庫,同時(shí)采集單一的待測(cè)樣品數(shù)據(jù),共同組成動(dòng)態(tài)的訓(xùn)練集樣本。在此基礎(chǔ)上,使用airPLS算法去除熒光干擾,拉平基線。然后,通過mIRPLS穩(wěn)健建模算法,找出待測(cè)樣品中的畸變像素點(diǎn),并標(biāo)記為“摻雜區(qū)域”,畫出包含樣品定位信息的二值圖,從而得到待測(cè)樣品的摻雜二值圖像。具體流程如圖2所示。
圖2 基于穩(wěn)健建模驅(qū)動(dòng)的拉曼高光譜成像方法流程圖Fig.2 Flowchart of the robust model driven Raman hyperspectral imaging method(RMD-RHIM)
1.3.1 光譜預(yù)處理脫脂乳粉是有機(jī)樣品,其原始拉曼光譜具有強(qiáng)烈的熒光背景,嚴(yán)重影響后續(xù)模型的建立,需提前扣除,且高光譜數(shù)據(jù)量大,需要相關(guān)預(yù)處理算法具有快的處理速度。本研究采用自適應(yīng)迭代重加權(quán)懲罰最小二乘算法(airPLS)[20],通過連續(xù)多次調(diào)用加權(quán)懲罰最小二乘算法,擬合出熒光背景的平滑曲線,并將其扣除。由于airPLS算法運(yùn)用稀疏矩陣技術(shù),其運(yùn)算速度僅與信號(hào)的長度呈線性關(guān)系,處理速度快。因此,適用于本研究中拉曼高光譜數(shù)據(jù)的基線校正。
1.3.2 穩(wěn)健建模算法本研究采用的穩(wěn)健建模算法是改進(jìn)的迭代重加權(quán)PLS(Modified iterative reweighted PLS,mIRPLS)算法[21],該算法通過檢測(cè)刪除了光譜變量中多個(gè)畸變點(diǎn),構(gòu)造出可靠的PLS模型。在mIRPLS中,使用了自適應(yīng)的調(diào)整參數(shù),當(dāng)?shù)趇個(gè)樣本(1≤i≤n)的預(yù)測(cè)誤差超過訓(xùn)練集樣本濃度[-3σi,3σi]的范圍,則視其為一個(gè)畸變點(diǎn)。其中,n是建模集樣品的總數(shù),σi是使用留一法n-1個(gè)樣本的標(biāo)準(zhǔn)偏差,ri是第i個(gè)樣本(1≤i≤n)的預(yù)測(cè)誤差。其數(shù)學(xué)表達(dá)式為:
本研究將Φi=0的像素點(diǎn)標(biāo)記為“摻假”,將Φi≠0的點(diǎn)標(biāo)記為“正?!薄?/p>
脫脂乳粉中蛋白質(zhì)的熒光背景嚴(yán)重干擾模型建立,因此,采用airPLS算法對(duì)原始拉曼光譜進(jìn)行預(yù)處理,以克服熒光背景干擾,光譜預(yù)處理結(jié)果見圖3。正常脫脂乳粉的原始拉曼光譜出現(xiàn)了明顯的基線漂移(實(shí)線),使用airPLS算法后(虛線),其基線平整,熒光背景被有效扣除,表明airPLS能有效克服拉曼光譜中熒光背景的干擾,為后續(xù)穩(wěn)健建模分析奠定了良好的基礎(chǔ)。
圖3 使用airPLS進(jìn)行光譜預(yù)處理前后對(duì)比圖Fig.3 Comparison of Raman spectra before and after airPLS
RMD-RHIM方法最重要的步驟是穩(wěn)健模型的建立。本方法將50個(gè)建模樣本的高光譜數(shù)據(jù)與待測(cè)樣本高光譜數(shù)據(jù)輸入mIRPLS穩(wěn)健建模方法中建立模型。通過mIRPLS的畸變點(diǎn)檢測(cè)功能,挑選出摻雜奶粉中畸變的拉曼高光譜像素點(diǎn),標(biāo)記為“摻雜”,其他像素點(diǎn)標(biāo)記為“正?!?,并最終轉(zhuǎn)化為可視化的二值圖像。
正常脫脂乳粉(陰性樣本)、含有1.90%水解乳清(相當(dāng)于5%蛋白質(zhì)摻雜)的脫脂乳粉和含有0.91%三聚氰胺(相當(dāng)于10%蛋白質(zhì)摻雜)的脫脂乳粉的RMD-RHIM非定向篩查結(jié)果見圖4。其中A1、B1和C1分別為三者的2 500個(gè)像素點(diǎn)的拉曼光譜數(shù)據(jù),由圖可見脫脂乳粉的熒光背景較強(qiáng),需先使用airPLS方法去除基線背景,以顯著提升后續(xù)穩(wěn)健建模的可靠性。A2、B2和C2為經(jīng)RMD-RHIM方法檢測(cè)出的畸變點(diǎn)(深紅色)并結(jié)合二維位移平臺(tái)的定位信息畫出的摻假成像二值圖,其像素點(diǎn)的采樣間隔為0.6 mm(30 mm范圍內(nèi)有50個(gè)像素點(diǎn)),以白色表示正常脫脂乳粉,紅色表示摻假的畸變像素點(diǎn)。由圖可見,當(dāng)樣品為正常脫脂乳粉(A2)時(shí),摻假成像二值圖為全白色,代表并無任何摻假物質(zhì)的存在。而當(dāng)樣品為摻假樣品時(shí),二值圖用深紅色像素點(diǎn)表示出此為摻假樣品,且顯示出摻假物的分布情況(B2、C2)。由此可見,RMD-RHIM能以可視化的方式實(shí)現(xiàn)乳粉真?zhèn)蔚姆嵌ㄏ蚝Y查。
圖4中B2和C2的摻雜像素點(diǎn)分布較為均勻,符合正常的乳粉摻雜分布模式,側(cè)面證明了此成像方法的有效性。此外,B2為含有1.90%水解乳清的陽性樣品,C2為含有0.91%三聚氰胺的陽性樣品,單從摻雜物質(zhì)的質(zhì)量分?jǐn)?shù)來看,B2的摻雜像素點(diǎn)應(yīng)多于C2,但結(jié)果卻恰恰相反。其原因在于,本研究使用的拉曼光譜儀的激光器的光斑遠(yuǎn)大于摻雜物質(zhì)的顆粒,因此一個(gè)像素點(diǎn)并不代表一個(gè)摻雜顆粒。這可以由像素點(diǎn)的拉曼光譜圖B1和C1證明,其光譜并非純的摻雜物質(zhì)信號(hào),而是在純?nèi)榉劾庾V的基礎(chǔ)上,疊加摻雜物光譜。乳清蛋白摻雜物不具有明顯的特征峰,如圖B1所示。反觀圖C1,部分像素點(diǎn)光譜的674.3 cm-1波數(shù)具有很尖銳的譜峰,這是三聚氰胺作為一種富氮類化合物所具有的明顯特征尖峰,其相對(duì)純?nèi)榉酃庾V畸變明顯。因此三聚氰胺顆粒即使占激光光斑面積的很小一部分,該像素點(diǎn)所采集的拉曼光譜也會(huì)發(fā)生明顯畸變,進(jìn)而被RMD-RHIM方法標(biāo)記為摻雜像素點(diǎn)。因此出現(xiàn)了如B2和C2這種摻雜像素點(diǎn)個(gè)數(shù)與摻雜物質(zhì)濃度不成比例的現(xiàn)象。由此可見,RMD-RHIM方法對(duì)含有尖銳譜峰的摻雜物更加靈敏。
采用本方法對(duì)15個(gè)正常脫脂乳粉(陰性樣本)的第1組驗(yàn)證樣本和含有60個(gè)摻假樣品(陽性樣本)的第2、3、4組進(jìn)行驗(yàn)證,計(jì)算方法的識(shí)別率,其計(jì)算公式如下:
識(shí)別率(Classification rate)=正確分類數(shù)量(Correct classification numbers)/樣品總數(shù)(Numbers)
RMD-RHIM方法評(píng)價(jià)結(jié)果見表1。陰性樣本的正確識(shí)別率為93.3%,陽性樣本的正確識(shí)別率為98.3%,表明非定向篩查的準(zhǔn)確識(shí)別率可滿足實(shí)際工業(yè)需求。為進(jìn)一步驗(yàn)證RMD-RHIM方法的檢測(cè)靈敏度,分別采用含有0.1%~5.0%(質(zhì)量分?jǐn)?shù))的尿素和三聚氰胺的摻假脫脂乳粉樣品進(jìn)行驗(yàn)證(Set 3、4)。發(fā)現(xiàn)其對(duì)尿素和三聚氰胺的檢測(cè)靈敏度均達(dá)到0.1%,正確識(shí)別率為100%,完全滿足乳粉真?zhèn)巫R(shí)別的需求。
表1 基于RMD-RHIM方法非定向篩查模型預(yù)測(cè)結(jié)果評(píng)價(jià)Table 1 Evaluation of prediction results of RMD-RHIM method
-:no data
本文提出了一種穩(wěn)健建模驅(qū)動(dòng)的拉曼高光譜成像方法,該方法借助拉曼高光譜成像技術(shù),將乳粉中未知摻雜物的識(shí)別問題轉(zhuǎn)化為拉曼高光譜信號(hào)的畸變處理問題;借助穩(wěn)健建模方法,將畸變信號(hào)轉(zhuǎn)化為奇異樣本識(shí)別問題,進(jìn)而巧妙地克服了定向篩查無法遍歷所有摻雜物的問題。實(shí)驗(yàn)結(jié)果表明,RMD-RHIM能較準(zhǔn)確地識(shí)別乳粉的陰性和陽性樣本,以可視化的方式實(shí)現(xiàn)乳粉真?zhèn)蔚姆嵌ㄏ蚝Y查,并為其他食品體系的非定向篩查提供了一種新思路。