林梓杰,董慶利
(上海理工大學(xué)健康科學(xué)與工程學(xué)院,上海 200093)
肉品富含蛋白質(zhì)、維生素和許多其他對(duì)健康有益的營(yíng)養(yǎng)物質(zhì),在人類飲食中扮演著重要角色。隨著社會(huì)經(jīng)濟(jì)的發(fā)展,人們對(duì)肉品的需求量不斷增加。全球肉品消費(fèi)量已從1961年的7 000 萬t增長(zhǎng)到2021年的3.28 億t[1-2],到2050年預(yù)計(jì)將超過4.64 億t[3]。另一方面,肉品營(yíng)養(yǎng)豐富的特性也使其成為微生物的天然培養(yǎng)基,在加工、貯藏、運(yùn)輸及銷售過程中極易受到致病菌、腐敗菌等有害微生物的污染,進(jìn)而對(duì)消費(fèi)者的健康產(chǎn)生威脅。因此,針對(duì)肉品中的有害微生物進(jìn)行精準(zhǔn)、有效的檢測(cè)、預(yù)測(cè)和控制,對(duì)整個(gè)肉品行業(yè)至關(guān)重要。
過去的20年里,食品行業(yè)得到了巨大的發(fā)展,信息化、自動(dòng)化程度不斷提升,食品安全監(jiān)管體系逐步完善,這也使得包括肉品在內(nèi)的整個(gè)食品行業(yè)產(chǎn)生了規(guī)??涨暗臄?shù)據(jù)流[4]。機(jī)器學(xué)習(xí)方法可以從海量、復(fù)雜的數(shù)據(jù)中提取關(guān)鍵信息,學(xué)習(xí)數(shù)據(jù)集中各變量間的隱藏關(guān)系,現(xiàn)已逐漸成為食品安全領(lǐng)域數(shù)據(jù)密集型分析任務(wù)的強(qiáng)有力工具。
本文通過歸納近年來國(guó)內(nèi)外相關(guān)研究,總結(jié)了機(jī)器學(xué)習(xí)方法在肉品中有害微生物的檢測(cè)和預(yù)測(cè)建模中所起到的關(guān)鍵作用,分析了該法在實(shí)際應(yīng)用時(shí)的不足之處,并展望了該法在肉類微生物安全研究中的應(yīng)用前景。
機(jī)器學(xué)習(xí)這一概念最初由Arthur Samuel于20世紀(jì)50年代提出:“機(jī)器學(xué)習(xí)是一個(gè)研究領(lǐng)域,讓計(jì)算機(jī)無需進(jìn)行明確編程就具備學(xué)習(xí)能力”。1997年,Tom Mitchell又為其提出了一個(gè)更加工程化的概念:“一個(gè)計(jì)算機(jī)程序利用經(jīng)驗(yàn)E來學(xué)習(xí)任務(wù)T,性能是P,如果針對(duì)任務(wù)T的性能P隨著經(jīng)驗(yàn)E不斷增長(zhǎng),則任務(wù)T被稱之為機(jī)器學(xué)習(xí)”。現(xiàn)如今,大多數(shù)被廣泛使用的機(jī)器學(xué)習(xí)算法或模型都是在20世紀(jì)60—90年代提出的,如K-近鄰、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等。隨著大數(shù)據(jù)時(shí)代的到來,得益于數(shù)據(jù)量和計(jì)算機(jī)計(jì)算能力的指數(shù)級(jí)增長(zhǎng),機(jī)器學(xué)習(xí)在各個(gè)領(lǐng)域的應(yīng)用都得到了史無前例的發(fā)展。
作為人工智能領(lǐng)域的一個(gè)重要分支,不同于傳統(tǒng)算法,機(jī)器學(xué)習(xí)在解決實(shí)際問題時(shí)不再試圖編寫詳細(xì)且明確的規(guī)則或計(jì)算機(jī)指令。相反,機(jī)器學(xué)習(xí)系統(tǒng)從具體的實(shí)例中訓(xùn)練模型,并不斷優(yōu)化模型參數(shù),以提高對(duì)新實(shí)例的預(yù)測(cè)準(zhǔn)確性。機(jī)器學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)性和規(guī)則未知性使其特別適用于以下幾類問題[5]:1)有解決方案但解決方案需要進(jìn)行大量人工微調(diào)或需要遵循大量規(guī)則的問題;2)通過傳統(tǒng)的數(shù)學(xué)方法無法得出顯式解的復(fù)雜問題;3)不斷有新實(shí)例或新數(shù)據(jù)產(chǎn)生而使舊規(guī)則失效的問題;4)擁有大量數(shù)據(jù)且需要從中獲取更多規(guī)律的問題。
在訓(xùn)練過程中,機(jī)器學(xué)習(xí)系統(tǒng)可能會(huì)受到來自人類的指導(dǎo)或監(jiān)督。通常,根據(jù)是否受到監(jiān)督,機(jī)器學(xué)習(xí)中的問題大致可以分為有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)[5]。有監(jiān)督學(xué)習(xí)要求所有提供給算法的輸入必須具有相應(yīng)的輸出,即人為地為輸入數(shù)據(jù)建立期望的或基于事實(shí)的標(biāo)簽。常見的分類和回歸問題就是2 類典型的有監(jiān)督學(xué)習(xí)任務(wù)。與有監(jiān)督學(xué)習(xí)不同,無監(jiān)督學(xué)習(xí)任務(wù)中的訓(xùn)練數(shù)據(jù)都是不具有標(biāo)簽的,并要求算法自主發(fā)現(xiàn)輸入數(shù)據(jù)中的規(guī)律。聚類分析、主成分分析(principal components analysis,PCA)和異常值檢測(cè)是常見的無監(jiān)督學(xué)習(xí)任務(wù)。與前2 類機(jī)器學(xué)習(xí)任務(wù)不同,強(qiáng)化學(xué)習(xí)是一種非常復(fù)雜的學(xué)習(xí)系統(tǒng),它可以在給定情況下找到完成任務(wù)目標(biāo)的最優(yōu)方案。強(qiáng)化學(xué)習(xí)基于“回報(bào)-懲罰”機(jī)制實(shí)現(xiàn)學(xué)習(xí)過程,即算法目標(biāo)隨著時(shí)間的推移實(shí)現(xiàn)回報(bào)最大化。
為了適應(yīng)具有不同復(fù)雜程度的問題,人們提出了許多基于不同理論的機(jī)器學(xué)習(xí)算法。圖1總結(jié)了4 種代表性的基礎(chǔ)機(jī)器學(xué)習(xí)算法[6]。K-means是一種常用的基于歐氏距離的聚類算法,屬于無監(jiān)督學(xué)習(xí)[7],其可以動(dòng)態(tài)地將相似的觀察結(jié)果劃分成簇,并根據(jù)目標(biāo)間的歐氏距離判斷相似度(圖1A)。支持向量機(jī)(support vector machine,SVM)是一種功能強(qiáng)大且全面的機(jī)器學(xué)習(xí)算法[8],它能夠執(zhí)行線性或非線性分類、回歸,甚至是異常值檢測(cè)任務(wù)。SVM算法使用實(shí)線或平面將不同類別的觀察數(shù)據(jù)分成不同的類,特別適用于中小型復(fù)雜數(shù)據(jù)集的分類(圖1B)。決策樹(decision tree,DT)算法[9]可以根據(jù)輸入數(shù)據(jù)的不同特征將實(shí)例遞歸地劃分為不同的類,以生成類似流程圖的樹結(jié)構(gòu),DT算法中根節(jié)點(diǎn)和葉節(jié)點(diǎn)表示對(duì)某一屬性的1 次測(cè)試(圖1C)。人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)通常由人工神經(jīng)元多層相互連接組成,以模擬真實(shí)的生物神經(jīng)元在動(dòng)物大腦中的協(xié)同工作[10]。這些人工神經(jīng)元接收輸入信號(hào),并通過權(quán)重和輸入的線性組合以及一個(gè)非線性激活函數(shù)將輸出信號(hào)傳入到下一層中的人工神經(jīng)元(圖1D)。ANN算法一般由1 個(gè)輸入層、1 個(gè)或多個(gè)隱含層和1 個(gè)輸出層組成,而一個(gè)包含許多隱含層的神經(jīng)網(wǎng)絡(luò)被稱作深度神經(jīng)網(wǎng)絡(luò),即深度學(xué)習(xí)的核心[10]。
圖1 4 種代表性的機(jī)器學(xué)習(xí)算法示意圖[6]Fig.1 Schematic diagrams of four machine learning models[6]
傳統(tǒng)的微生物檢測(cè)方法,如平板計(jì)數(shù)法、聚合酶鏈?zhǔn)椒磻?yīng)法、免疫分析法等,通常耗時(shí)、有損且需要專業(yè)操作人員,因此傳統(tǒng)檢測(cè)方法并不能很好地滿足現(xiàn)代肉品行業(yè)的需求[11-12]。隨著計(jì)算機(jī)科學(xué)和光學(xué)技術(shù)的發(fā)展,光譜技術(shù)、計(jì)算機(jī)視覺、生物傳感器等新型檢測(cè)技術(shù)逐步進(jìn)入研究人員的視野,其中光譜技術(shù)因其快速、無損和高效的優(yōu)點(diǎn),在微生物檢測(cè)領(lǐng)域脫穎而出[11,13-14]。然而,光譜技術(shù)在檢測(cè)過程中往往會(huì)產(chǎn)生大量復(fù)雜且難以解釋的數(shù)據(jù),如何剔除檢測(cè)數(shù)據(jù)中的冗余信息并提取關(guān)鍵特征是光譜技術(shù)在實(shí)際應(yīng)用時(shí)的難點(diǎn)。如前所述,機(jī)器學(xué)習(xí)方法特別適合于大量復(fù)雜數(shù)據(jù)的分析工作,且該法已在國(guó)內(nèi)外許多研究中與光譜技術(shù)一起應(yīng)用于肉品中有害微生物的快速檢測(cè)。Argyri等[15]比較傅里葉變換紅外光譜和拉曼光譜在預(yù)測(cè)牛肉中微生物數(shù)量時(shí)的性能差異。在數(shù)據(jù)分析時(shí),該研究使用了多種不同的機(jī)器學(xué)習(xí)方法,包括偏最小二乘回歸(partial least square regression,PLSR)、遺傳算法(genetic algorithm,GA)、ANN算法、支持向量回歸(support vector regression,SVR)等。結(jié)果表明,PLSR和SVR模型的預(yù)測(cè)效果普遍優(yōu)于其他模型。Duan Cui等[16]使用便攜式近紅外光譜對(duì)比目魚魚片中的總細(xì)菌數(shù)進(jìn)行無損快速檢測(cè),將GA和ANN算法應(yīng)用于600~1 100 nm的紅外光譜數(shù)據(jù)分析,并建立了相應(yīng)的預(yù)測(cè)模型。結(jié)果表明,2 種機(jī)器學(xué)習(xí)算法的均方根誤差(root mean square error,RMSE)均小于其他模型。董小棟等[17]利用高光譜成像技術(shù)和SVR模型對(duì)香腸中菌落總數(shù)進(jìn)行定量預(yù)測(cè)和數(shù)據(jù)可視化,SVR模型的相關(guān)系數(shù)高達(dá)0.977 7。除了對(duì)微生物數(shù)量進(jìn)行定量分析外,利用光譜技術(shù)結(jié)合無監(jiān)督機(jī)器學(xué)習(xí)算法還可以實(shí)現(xiàn)對(duì)肉品中有害微生物的定性區(qū)分。孫穎穎[18]使用基于納米銀顆粒的表面增強(qiáng)拉曼光譜結(jié)合PCA和層次聚類分析(hierarchical clustering analysis,HCA),實(shí)現(xiàn)了對(duì)牛肉樣品中的鼠傷寒沙門氏菌、單核細(xì)胞增生李斯特菌(以下簡(jiǎn)稱單增李斯特菌)、金黃色葡萄球菌、大腸桿菌O157:H7的分類,對(duì)于不同致病菌的分類準(zhǔn)確率達(dá)到93%。類似的結(jié)果也見于Xie Yunfei[19]、Witkowska[20]等的相關(guān)研究中。表1總結(jié)了部分光譜技術(shù)和機(jī)器學(xué)習(xí)方法在肉品有害微生物檢測(cè)中的應(yīng)用研究。
表1 光譜技術(shù)和機(jī)器學(xué)習(xí)方法在肉品有害微生物檢測(cè)中的應(yīng)用實(shí)例Table 1 Application of spectroscopy combined with machine learning in detection of harmful microorganism in meat
光譜技術(shù)和機(jī)器學(xué)習(xí)方法的結(jié)合可以定性或定量檢測(cè)不同肉品基質(zhì)中的有害微生物,在國(guó)內(nèi)外的研究中也日趨成熟。然而,現(xiàn)階段與光譜檢測(cè)技術(shù)相關(guān)聯(lián)的機(jī)器學(xué)習(xí)算法大多較為基礎(chǔ),在分析涉及多種肉品基質(zhì)或微生物類別的大型數(shù)據(jù)集時(shí),難免會(huì)占用大量的計(jì)算資源,分析效率低下,并嚴(yán)重影響檢測(cè)準(zhǔn)確性[32]。因此,開發(fā)更加復(fù)雜且先進(jìn)的機(jī)器學(xué)習(xí)算法以匹配日益增大的數(shù)據(jù)量,是拓展光譜檢測(cè)技術(shù)實(shí)際應(yīng)用前景的重點(diǎn)和難點(diǎn)。
食源性致病菌及其引起的食源性疾病是全球食品安全面臨的重要挑戰(zhàn)之一[33]。根據(jù)Li Weiwei等[34]的研究,2003—2017年間我國(guó)因肉品暴發(fā)的食源性疾病中有近半數(shù)是由食源性致病菌污染所引起。此外,根據(jù)國(guó)家食品安全風(fēng)險(xiǎn)評(píng)估中心和疾病預(yù)防控制中心2020—2021年的相關(guān)監(jiān)測(cè)數(shù)據(jù),肉品中的沙門氏菌、大腸桿菌、副溶血性弧菌等依然是我國(guó)亟需控制的重要食源性致病因子[35-36]。針對(duì)此類食品安全問題,在肉品工業(yè)中應(yīng)采取更有效的措施嚴(yán)格控制肉品中致病菌的污染水平,并結(jié)合預(yù)測(cè)微生物學(xué)建模估算其在不同加工及流通條件下的生長(zhǎng)/失活特性,以降低因食源性致病菌所引發(fā)的食源性疾病暴發(fā)風(fēng)險(xiǎn)。
預(yù)測(cè)微生物學(xué)是一門在微生物學(xué)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)和應(yīng)用計(jì)算機(jī)科學(xué)基礎(chǔ)上建立起來的學(xué)科,它的目的是研究和設(shè)計(jì)一系列能描述和預(yù)測(cè)食品微生物在特定條件下生長(zhǎng)和衰亡的模型[37]。根據(jù)不同的分類標(biāo)準(zhǔn)可將預(yù)測(cè)微生物學(xué)模型分為不同的類別。其中,由Whiting和Buchanan劃分的一級(jí)、二級(jí)和三級(jí)模型在預(yù)測(cè)微生物學(xué)中應(yīng)用較為廣泛[38]。一級(jí)模型主要描述微生物量(如微生物細(xì)胞的數(shù)目、濁度、形成的毒素濃度等響應(yīng)值)與時(shí)間之間的函數(shù)關(guān)系。二級(jí)模型亦稱次級(jí)模型,通過建立一級(jí)模型中的各項(xiàng)參數(shù)與環(huán)境條件之間的函數(shù)關(guān)系,其可以很好地表示環(huán)境條件對(duì)微生物行為的影響。三級(jí)模型主要指建立在一級(jí)生長(zhǎng)/失活模型和二級(jí)生長(zhǎng)/失活模型之上的電腦應(yīng)用軟件程序。
傳統(tǒng)的預(yù)測(cè)微生物學(xué)模型在描述食源性致病菌的生長(zhǎng)失活行為及環(huán)境條件與致病菌特定行為的定量關(guān)系時(shí),通常使用經(jīng)驗(yàn)式的數(shù)學(xué)回歸方法[39]。通過傳統(tǒng)模型得到的預(yù)測(cè)結(jié)果大多是確定性的點(diǎn)估計(jì)[40-41],然而由于變異性的存在,實(shí)際的致病菌行為通常是某個(gè)特定的范圍,而不是單一的確定值。在食品供應(yīng)鏈中,影響微生物行為的變異性來源主要包括加工、貯藏等環(huán)節(jié)中環(huán)境條件的變異性、菌株變異性、單細(xì)胞異質(zhì)性等[42]。由于忽視了微生物行為的變異性,傳統(tǒng)的確定性模型已被證明并不適用于描述所有場(chǎng)景下微生物的行為特性[43-45]。近年來,更加注重微生物行為變異性的隨機(jī)模型得到研究人員的關(guān)注,這類模型通過概率分布的方式更好地體現(xiàn)了變異性對(duì)微生物行為的影響[46-47]。然而,由于通常難以將模型的預(yù)測(cè)結(jié)果與實(shí)際的觀測(cè)結(jié)果進(jìn)行對(duì)比且依賴大量的理論化假設(shè),關(guān)于隨機(jī)模型的可用性與準(zhǔn)確性依然存在爭(zhēng)議。不同于確定性模型和隨機(jī)模型,機(jī)器學(xué)習(xí)方法可以在不作出過多假設(shè)和相關(guān)機(jī)制未知的情況下,準(zhǔn)確捕捉輸入和輸出之間的復(fù)雜規(guī)則。因此,機(jī)器學(xué)習(xí)方法在預(yù)測(cè)微生物學(xué)領(lǐng)域中也已經(jīng)得到越來越多的應(yīng)用。范志文等[48]使用反向傳播神經(jīng)網(wǎng)絡(luò)(back propagation ANN,BP-ANN)構(gòu)建了醬牛肉中金黃色葡萄球菌在不同溫度和不同初始菌量下的生長(zhǎng)模型。結(jié)果表明,經(jīng)過超參數(shù)優(yōu)化之后的BP-ANN相較于傳統(tǒng)的Gompertz模型表現(xiàn)出更低的預(yù)測(cè)誤差。Oscar等[49-52]使用前饋神經(jīng)網(wǎng)絡(luò)、廣義回歸神經(jīng)網(wǎng)絡(luò)建立了雞肉中多種不同血清型沙門氏菌的生長(zhǎng)模型,均取得了較好的預(yù)測(cè)效果。除了生長(zhǎng)建模,機(jī)器學(xué)習(xí)算法還可應(yīng)用于食源性致病菌的失活建模研究中。相較于三階多項(xiàng)式回歸模型,ANN算法更精確地描述了香腸中單增李斯特菌在不同環(huán)境條件下的失活行為[53]。Gosukonda等[54]在傳統(tǒng)BP-ANN的基礎(chǔ)上,引入卡爾曼濾波算法,并成功描述了牛肉表面低壓電流對(duì)大腸桿菌O157:H7失活行為的影響,該模型成功體現(xiàn)出微生物在失活過程中的變異性和不確定性。表2總結(jié)了機(jī)器學(xué)習(xí)方法在肉品有害微生物預(yù)測(cè)建模中的部分應(yīng)用。
表2 機(jī)器學(xué)習(xí)方法在肉品中有害微生物預(yù)測(cè)建模中的應(yīng)用實(shí)例Table 2 Selected examples of the application of machine learning in predictive modeling of harmful microorganism in meat
機(jī)器學(xué)習(xí)算法因其較強(qiáng)的靈活性和較高的預(yù)測(cè)精度而在預(yù)測(cè)微生物學(xué)相關(guān)領(lǐng)域得到廣泛應(yīng)用?,F(xiàn)階段,限制機(jī)器學(xué)習(xí)模型性能的主要因素是數(shù)據(jù)集的大小和質(zhì)量。如果數(shù)據(jù)集體積過小且具有大量的缺失值,機(jī)器學(xué)習(xí)模型便很容易產(chǎn)生過擬合現(xiàn)象,從而導(dǎo)致預(yù)測(cè)準(zhǔn)確度的下降。因此,在未來的研究中應(yīng)結(jié)合大型微生物行為數(shù)據(jù)庫(kù)(如Combase數(shù)據(jù)庫(kù)),對(duì)機(jī)器學(xué)習(xí)算法進(jìn)行預(yù)訓(xùn)練,從而提升其在包括肉品在內(nèi)的多種食品基質(zhì)中的適用性。
此外,由于機(jī)器學(xué)習(xí)模型的“黑盒”屬性,研究人員往往只能得到單一的預(yù)測(cè)結(jié)果,無法得知模型在預(yù)測(cè)過程中如何做出決策以及數(shù)據(jù)集中每個(gè)輸入特征如何對(duì)最終預(yù)測(cè)產(chǎn)生影響。因此,在未來的研究中,應(yīng)利用特征重要性分析等方法,提升機(jī)器學(xué)習(xí)方法在預(yù)測(cè)微生物行為時(shí)的可解釋性。
隨著大數(shù)據(jù)時(shí)代的到來,機(jī)器學(xué)習(xí)已在各個(gè)領(lǐng)域內(nèi)展現(xiàn)出其獨(dú)有的魅力。利用機(jī)器學(xué)習(xí)方法從海量數(shù)據(jù)中提取關(guān)鍵信息,對(duì)肉品有害微生物進(jìn)行精準(zhǔn)識(shí)別與預(yù)測(cè),是實(shí)現(xiàn)肉類微生物安全的重要途徑。本文綜述了機(jī)器學(xué)習(xí)方法在肉品有害微生物檢測(cè)和預(yù)測(cè)建模方向的研究進(jìn)展,分析了該法的優(yōu)勢(shì)和不足,以期為今后該領(lǐng)域內(nèi)的研究提供一定參考。
以下,針對(duì)機(jī)器學(xué)習(xí)方法在肉類微生物安全領(lǐng)域內(nèi)應(yīng)用時(shí)所體現(xiàn)出的不足之處提出展望:1)針對(duì)光譜檢測(cè)技術(shù)中可能出現(xiàn)的高維復(fù)雜數(shù)據(jù)集,可結(jié)合深度學(xué)習(xí)方法和遷移學(xué)習(xí)的思想,提高重要特征的識(shí)別效率,并加快模型的訓(xùn)練速度,從而使得光譜檢測(cè)技術(shù)可以更好地應(yīng)用于肉品有害微生物的檢測(cè);2)應(yīng)加快大型微生物行為數(shù)據(jù)庫(kù)的構(gòu)建和完善,充分發(fā)揮機(jī)器學(xué)習(xí)的優(yōu)勢(shì),建立適用范圍更廣、預(yù)測(cè)精度更高的肉品微生物預(yù)測(cè)模型;3)推進(jìn)機(jī)器學(xué)習(xí)在肉品有害微生物控制中的應(yīng)用,通過機(jī)器學(xué)習(xí)方法,優(yōu)化現(xiàn)階段肉品殺菌工藝中的相關(guān)參數(shù),從“檢測(cè)”“預(yù)測(cè)”“控制”3 個(gè)角度實(shí)現(xiàn)肉類微生物安全。