姚仁朋,孫玉敬*,趙 圓,孟瑞鋒
(1 浙江工業(yè)大學(xué)食品科學(xué)與工程學(xué)院 杭州310014 2 內(nèi)蒙古工業(yè)大學(xué)航空學(xué)院 呼和浩特 010051)
隨著人口增長以及人們對健康食品的需求日益增加,食品加工中的質(zhì)量安全問題越來越受到重視。食品加工是指將天然的動、植物等原料加工為食品,或?qū)⒁环N形式的食品加工為更適合現(xiàn)代人飲食習(xí)慣的其它形式的食品。據(jù)聯(lián)合國糧食及農(nóng)業(yè)組織(FAO)的數(shù)據(jù)顯示,到2050 年,全球人口可能增長到91 億左右[1]。為了滿足日益增長的人口對多種食品的需求,將新型的技術(shù)應(yīng)用于食品領(lǐng)域的研究必不可少。
使用人工智能機器取代人類勞動一直是科研人員研究的目標(biāo)。如今,具有執(zhí)行復(fù)雜任務(wù)能力的智能機器正逐漸取代人類的工作。這些機器被訓(xùn)練成能夠通過視覺、語音識別等接受并處理信息,然后做出有用的決策[2]。人工智能領(lǐng)域涵蓋機器學(xué)習(xí)、自然語言處理、視覺、機器人和自動駕駛車輛等。人工智能領(lǐng)域中,實現(xiàn)食品加工領(lǐng)域智能化的兩種主要算法是機器學(xué)習(xí)(ML)和深度學(xué)習(xí)(DL)。ML 和DL 技術(shù)都已成為食品加工過程中的有效工具,包括食品分級、分類、預(yù)測、質(zhì)量評價等。目前機器學(xué)習(xí)等人工智能算法和技術(shù)是國內(nèi)外食品學(xué)術(shù)界和企業(yè)界關(guān)注的熱點,并在短期內(nèi)取得了一定的進展,而尚無相關(guān)的綜述報道。本文將系統(tǒng)總結(jié)機器學(xué)習(xí)與深度學(xué)習(xí)模型,并詳細闡述機器學(xué)習(xí)在食品領(lǐng)域,諸如圖像識別、分級、質(zhì)量檢測和食品產(chǎn)業(yè)鏈中的應(yīng)用,旨在為人工智能在食品工業(yè)中的應(yīng)用提供理論指導(dǎo)。
機器學(xué)習(xí)和人工智能的具體方法是指計算機操作系統(tǒng)借助獲取的數(shù)據(jù)庫數(shù)據(jù)得到一定的三維圖,并繼續(xù)借助這個三維圖進行預(yù)測的方法。這種特殊的方法使用密集的訓(xùn)練樣本來立即找出選擇模式,最終獲得更準確和可預(yù)測的未來數(shù)據(jù)庫數(shù)據(jù)或趨勢[3],其核心是借助最小二乘法對數(shù)據(jù)庫中的數(shù)據(jù)進行分析,并從中學(xué)習(xí),然后在數(shù)據(jù)庫的新數(shù)據(jù)中進行決策或預(yù)測。機器學(xué)習(xí)和人工智能的具體方法分為傳統(tǒng)的機器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò),它們有可能用于更復(fù)雜的分布式系統(tǒng)和改進的數(shù)據(jù)統(tǒng)計分析。下文將重點介紹傳統(tǒng)機器學(xué)習(xí)方法和深度學(xué)習(xí)方法的主要算法。
傳統(tǒng)的機器學(xué)習(xí)涉及在小樣本集上手動提取特征,以平衡學(xué)習(xí)結(jié)果的有效性和學(xué)習(xí)模型的可解釋性,在有限樣本的特定情況下,如何解決學(xué)習(xí)問題的結(jié)構(gòu)框架[4]。傳統(tǒng)機器學(xué)習(xí)和人工智能是指結(jié)合強化訓(xùn)練的具體方法,以及強化訓(xùn)練數(shù)據(jù)庫數(shù)據(jù)是否有標(biāo)簽,可分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。相關(guān)算法包括線性回歸算法、邏輯回歸算法、貝葉斯網(wǎng)絡(luò)、K-鄰近算法、K-平均算法、決策樹算法、隨機森林、支持向量機、降維方法等。
傳統(tǒng)的機器學(xué)習(xí)方法通常是監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí),其中監(jiān)督學(xué)習(xí)方法通過對已知數(shù)據(jù)樣本進行學(xué)習(xí)和訓(xùn)練,以預(yù)測新數(shù)據(jù)的結(jié)果[5],該方法通常應(yīng)用于分類和回歸問題。而無監(jiān)督學(xué)習(xí)則主要應(yīng)用聚類與降維,不需要對數(shù)據(jù)某些結(jié)果的影響進行分析[6]。在無監(jiān)督學(xué)習(xí)中,數(shù)據(jù)雖沒有標(biāo)記,但會形成聚集結(jié)構(gòu),相似數(shù)據(jù)會歸為一組,這些未標(biāo)記數(shù)據(jù)的分組被稱為聚類。而降維則是指在一定條件下將隨機變量數(shù)量減少[7],它包含變量選擇和特征提取兩種方法。目前在食品加工行業(yè)中應(yīng)用最多的機器學(xué)習(xí)方法便是監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí),通過這兩種方法可以提取樣品的特征值,篩選出更為關(guān)鍵的特征變量,保持對原始數(shù)據(jù)準確和完整的描述。此外,隨著技術(shù)的不斷發(fā)展,一些新的更加復(fù)雜的學(xué)習(xí)方法應(yīng)用到食品加工行業(yè)中,最有代表性的便是強化學(xué)習(xí)。強化學(xué)習(xí)更加強調(diào)系統(tǒng)與外界不斷的交互反饋,它是以試錯的方式來學(xué)習(xí)[8],通過與環(huán)境不斷交互來獲得環(huán)境的反饋(獎勵),然后不斷優(yōu)化狀態(tài)-行為的對應(yīng)關(guān)系。它主要是針對流程中需要推理的場景,更多關(guān)注的是模型的性能。圖2 展示了機器學(xué)習(xí)的幾種主要的學(xué)習(xí)方法。
1.1.1 相關(guān)算法 線性回歸算法(Linear regression):在線性回歸中,其中一個變量的變化是由另一個變量的變化引起的[9]。因此,線性回歸既為幾個變量之間的關(guān)系,其中一個變量的增加會影響另一個變量按比例增加或減少。與之相對應(yīng)的還有邏輯回歸算法(Logistic regression),該算法是機器學(xué)習(xí)領(lǐng)域的一種技術(shù),適用于二分類問題[10],尤其適用于需要精確輸出的場景,例如預(yù)測某些事件的發(fā)生(是否會下雨)。一般情況下,邏輯回歸會采用某一函數(shù)對概率值進行限制,從而輸出預(yù)測事件發(fā)生與未發(fā)生的概率比例,對于二分類問題極為有效。
在食品供應(yīng)鏈污染暴露預(yù)測中,貝葉斯網(wǎng)絡(luò)(Bayesian network)得到了廣泛的應(yīng)用,該算法的運算過程基于先驗信息、總體分布信息以及樣本信息計算得出后驗分布信息[11]。而在食品的分類任務(wù)中最常用的兩種方法便是K-鄰近算法(Knearest neighbors,KNN)與K-平均算法(Kmeans)。其中K-鄰近算法通過確定樣本最近的K個鄰居來預(yù)測未知數(shù)據(jù)的分類(K 為一個小于20的整數(shù),而且該算法中的鄰居K 必須是已正確分類的對象),并將其歸為相應(yīng)的類別[12]。而K-平均算法是通過定義K 個中心,每個中心聚集一個類別的數(shù)據(jù),使每個數(shù)據(jù)都屬于離它最近的中心,然后將數(shù)據(jù)劃分為若干個類別。
在預(yù)測一件事情發(fā)生的概率,即二分類問題中,最常用的算法則是決策樹算法(Decision tree),決策樹是監(jiān)督學(xué)習(xí)的一種,是一種樹形結(jié)構(gòu),以樹的形式來表示選擇和結(jié)果,用來輔助決策[13]。圖3 展示了一個簡易的決策樹模型,樹包含節(jié)點和分支,節(jié)點代表對象或選擇,分支代表判斷結(jié)果輸出,最終分類結(jié)果表示為樹的葉節(jié)點。隨后在1995 年,貝爾實驗室在決策樹算法的基礎(chǔ)上提出隨機森林算法[14]。它可以看作是由多個決策樹組合而成,并且每一個決策樹之間沒有相關(guān)性。在運行中,每個決策樹都將獨立進行決策,最后在所有的決策結(jié)果中選擇一個出現(xiàn)次數(shù)最多的決策當(dāng)作最終的選擇結(jié)果。
除了上述的機器學(xué)習(xí)算法之外,還有兩種較為復(fù)雜而應(yīng)用非常廣泛的算法。支持向量機算法(Support vector machine,SVM)是一種監(jiān)督學(xué)習(xí)的分類型算法。它通過找到符合分類要求的超平面對數(shù)據(jù)進行分類,使得訓(xùn)練集中的樣本盡可能地遠離超平面[15]。算法中的超平面是對所輸入變量進行劃分的一個平面。在二維空間中,可以將其想象成一條直線,假設(shè)所有輸入的數(shù)據(jù)都可以被超平面完全地劃分開來。SVM 學(xué)習(xí)算法的目標(biāo)是尋求一組系數(shù),以便通過超平面最終獲得最佳類別分割[16]。此外在實際運用中,當(dāng)特征數(shù)據(jù)的量增加到某個臨界點時,分類器的性能便會下降,這個問題就是“維數(shù)詛咒”。因此需要用降維方法(Dimensional reduction methods)對數(shù)據(jù)的特征進行降維。最常用的方法便是主成分分析(Principal component analysis,PCA)與線性判別分析(Linear discriminant analysis,LDA)[17]。主成分分析是一種無監(jiān)督降維方法,通過在大量數(shù)據(jù)中找出數(shù)據(jù)的主要成分,找出的主要成分稱為K,用來表示數(shù)據(jù),從而達到降維的目的。而線性判別分析則是有監(jiān)督的方法,可以理解為尋找一條直線在低維空間中,將高維空間的樣本點投影到該直線上,確保同類樣本點靠近,異類樣本點遠離,從而達到降維的目的。
深度學(xué)習(xí)是機器學(xué)習(xí)的一個子集,它使用多層神經(jīng)網(wǎng)絡(luò)來提取具有多個抽象層次的復(fù)雜特征代表[18],是傳統(tǒng)機器學(xué)習(xí)的增強方法??梢詫⑸疃葘W(xué)習(xí)理解為是一種由多層神經(jīng)元(非線性模塊)組成的深度神經(jīng)網(wǎng)絡(luò),用來細化多級表示的一種學(xué)習(xí)方法。因為深度學(xué)習(xí)具有從原始數(shù)據(jù)中自動提取特征的強大學(xué)習(xí)能力,可以快速解決許多復(fù)雜的問題,因此近幾年深度學(xué)習(xí)的應(yīng)用日益增加。
深度學(xué)習(xí)算法在分類以及回歸問題上表現(xiàn)出了強大的優(yōu)勢,然而該算法需要大量的精準數(shù)據(jù)作為支撐,獲得一個豐富且準確的數(shù)據(jù)集可能是深度學(xué)習(xí)的一大難題。近幾年,深度學(xué)習(xí)方法已經(jīng)開始應(yīng)用于食品科學(xué)領(lǐng)域,主要涉及食品類別識別、食品中的異物檢測、果蔬品質(zhì)檢測、食品卡路里估計等領(lǐng)域。深度學(xué)習(xí)涉及到的主要算法有:人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(Recursive neural network,RNN)、反向傳播(Back-propagation,BP)、自編碼器(Auto-encoder,AE)等。
1.2.1 相關(guān)算法 在食品加工的深度學(xué)習(xí)領(lǐng)域,應(yīng)用最多的學(xué)習(xí)算法是人工神經(jīng)網(wǎng)絡(luò)及其基于該網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化算法,如反向傳播網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)是一種結(jié)構(gòu)相對簡單的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)之一。該網(wǎng)絡(luò)由3 層結(jié)構(gòu)組成,每層包含多個節(jié)點(神經(jīng)元),層間通過連接神經(jīng)元來實現(xiàn)[19-20]。其中第1 層為輸入層(用來接收外部輸入的數(shù)據(jù),并將外部世界的數(shù)據(jù)轉(zhuǎn)化成圖像的像素特征或者其它可以通過數(shù)學(xué)模型進行量化的特征),第2 層為隱藏層(用來處理輸入層輸入的數(shù)據(jù),且隱藏層的每一個神經(jīng)元只與上一層的所有神經(jīng)元相連),最后一層為輸出層(用來輸出所獲得的概率預(yù)測結(jié)果)。隨后為了優(yōu)化模型的性能,研究者們提出了更加高效的模型:反向傳播。反向傳播神經(jīng)網(wǎng)絡(luò)是一種多層前饋神經(jīng)網(wǎng)絡(luò),通常采用誤差反向傳播算法進行訓(xùn)練。該方法計算神經(jīng)網(wǎng)絡(luò)中權(quán)重的損失函數(shù)的梯度,而后將梯度反饋給優(yōu)化算法以更新權(quán)重[21]。與ANN 相比,該模型可以預(yù)設(shè)誤差值,結(jié)果傳到輸出層后再次反向傳遞給輸入層,達到預(yù)設(shè)的誤差值時停止傳播,從而達到預(yù)期效果。
在隨后的研究中,食品圖像的識別與分類成為研究熱點,上述的兩種模型性能已經(jīng)明顯欠缺,因此卷積神經(jīng)網(wǎng)絡(luò)隨之應(yīng)用到食品加工行業(yè)中。卷積神經(jīng)網(wǎng)絡(luò)具有6 個主要結(jié)構(gòu):輸入層、卷積層、激活層、池化層、全連接層和輸出層[22-23]。其卷積層是卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中最為關(guān)鍵的部分,它由一組卷積內(nèi)核來構(gòu)建,卷積操作也是由遍布在卷積層內(nèi)的卷積內(nèi)核通過矩陣計算完成。經(jīng)卷積層提取特征將結(jié)果輸入到池化層進行二次采樣,然后重復(fù)卷積操作。最后由一組完全鏈接的神經(jīng)元組成全連接層,一般放置在池化層后,對結(jié)果進行輸出。雖然CNN 模型的性能十分優(yōu)益,但是該模型不能夠處理數(shù)據(jù)的時間先后問題,這對于那些對出現(xiàn)時間要求特別高的數(shù)據(jù)(如手寫體識別、菜肴制作等)是致命的缺陷。為了解決時間問題,科研工作者便提出了遞歸神經(jīng)網(wǎng)絡(luò)模型。該模型是通過循環(huán)連接來擴展卷積神經(jīng)網(wǎng)絡(luò),從而處理數(shù)據(jù)的輸入先后問題。一種典型的遞歸神經(jīng)網(wǎng)絡(luò)模型[24]如圖7 所示。
隨著食品數(shù)據(jù)庫的不斷發(fā)展,用來解決數(shù)據(jù)過多、過于復(fù)雜的模型也應(yīng)用到食品加工行業(yè)中。自編碼器是一種無監(jiān)督學(xué)習(xí)模型,其作用與主成分分析相似,不過主成分分析處理的是線性問題,而自編碼器解決的是非線性問題。輸入層的神經(jīng)元數(shù)量大于隱含層的神經(jīng)元數(shù)量,便可以實現(xiàn)將數(shù)據(jù)從高維到低維的轉(zhuǎn)換,然后利用低維的特征向量重構(gòu)原始的數(shù)據(jù),從而解決數(shù)據(jù)冗雜的問題。一種基于自動編碼器模型的框架結(jié)構(gòu)[25]如圖8 所示。
食品工業(yè)是傳統(tǒng)的勞動密集型產(chǎn)業(yè),隨著勞動力人口的減少,以及消費者需求的多樣化,在食品產(chǎn)業(yè)鏈的整個過程實施智能化加工是必需的。智能化加工不僅滿足了消費者的需求,同時生產(chǎn)了高質(zhì)量以及相對價格較低的產(chǎn)品,實現(xiàn)了智能化從農(nóng)田到生產(chǎn)者到銷售商再到消費者的全過程。
用機器來替代人類處理一些復(fù)雜費時的事情是未來的發(fā)展方向,如今經(jīng)過訓(xùn)練后擁有可以處理復(fù)雜任務(wù)能力的智能機器設(shè)備正在取代人工,這些機器經(jīng)過訓(xùn)練,可以接收到視覺、語音、環(huán)境等給予的信息與反饋,并做出有用的決定。在食品工業(yè)領(lǐng)域,人工智能已被用作數(shù)據(jù)分析工具,用來解決食品領(lǐng)域的大多數(shù)挑戰(zhàn),例如食品分類與分級、卡路里估算、農(nóng)產(chǎn)品、肉魚等食品的質(zhì)量檢測以及食品產(chǎn)業(yè)鏈上包裝檢測與異物檢測等領(lǐng)域。智能化生產(chǎn)不僅減少了人們的工作量和錯誤,而且確保了整個食品行業(yè)的最大生產(chǎn)效率與安全性[26]。該節(jié)主要介紹機器學(xué)習(xí)在食品工業(yè)的一些最新研究進展。
食品的識別與分類是幫助人們記錄日常飲食的一項重要任務(wù),由于食品圖像的識別在食物質(zhì)量評估以及智能廚具等領(lǐng)域具有重要的應(yīng)用價值,目前關(guān)于食品圖像識別的技術(shù)引起了大部分學(xué)者的關(guān)注。通過識別食品圖像來獲取食品主要特征是獲取食品信息的主要手段,目前隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,人們用來識別和分類食品圖像的方法大部分為卷積神經(jīng)網(wǎng)絡(luò)模型[27-30],這為識別食物和分析食物的營養(yǎng)成分提供了一種快速準確而且低成本的分析方法,已經(jīng)廣泛應(yīng)用于食品的圖像處理上。然而對于食品行業(yè)來說,食品的多樣性(如食品質(zhì)地、顏色、形狀、成分等)也成為了圖像處理的一大難題[31]。
2.1.1 食品101 數(shù)據(jù)庫 常用的食品圖像分類方法有機器學(xué)習(xí)方法以及深度學(xué)習(xí)方法,而傳統(tǒng)的機器學(xué)習(xí)方法依賴于手動提取特征,會受到多種不確定因素的限制,導(dǎo)致很難解釋食品圖像的真實含義,導(dǎo)致分類的準確性偏低。因此為了達到更高的分類準確性,研究者開始使用深度學(xué)習(xí)方法對食品圖像進行分類。食品圖像識別技術(shù)的迅速發(fā)展可以追溯到2014 年Bossard 等[32]創(chuàng)建的食品101 數(shù)據(jù)集。隨著食品101 數(shù)據(jù)庫的發(fā)布,一些較大規(guī)模的食品圖像基準庫也不斷發(fā)布,這大大推動了食品圖像識別技術(shù)的發(fā)展。Bossard 等[32]使用傳統(tǒng)的機器學(xué)習(xí)方法對食品101 數(shù)據(jù)庫中的食品進行分類,實現(xiàn)了平均50.76%的分類準確性。該數(shù)據(jù)庫包含了101 類食品,每一類食品擁有1 000種食品圖像,是食品領(lǐng)域常用的數(shù)據(jù)集。
后來許多學(xué)者又針對101 數(shù)據(jù)庫進行了一系列的基于深度學(xué)習(xí)方法的分類器訓(xùn)練,其中在分類任務(wù)中應(yīng)用最廣的評價指標(biāo)是前1 名分類準確率(Top-1%)與前5 名分類準確率(Top-5%)。對于前者,分類器將輸出正確概率最大的一個作為預(yù)測結(jié)果,如果預(yù)測結(jié)果中最可能的食品分類正確,則預(yù)測結(jié)果正確;對于后者,它預(yù)測最大概率結(jié)果的前5 個,只要5 個里面有1 個是正確的,就是預(yù)測正確。在先前研究的基礎(chǔ)上,對3 個數(shù)據(jù)庫(食品101 數(shù)據(jù)庫、UECFood-256 數(shù)據(jù)庫以及UECFood-100 數(shù)據(jù)庫)上研究者所做的食品識別研究做出了歸納,如表1 所示。其中食品識別的最高準確率是Martinel 等[33]開發(fā)的一種新的卷積神經(jīng)網(wǎng)絡(luò)模型,稱為WISeR,專門用于食品圖像的識別,該模型在UECFood-100 數(shù)據(jù)庫獲得了最高的識別精度,Top-1%與Top-5%分別為89.58%與99.23%。
表1 基于CNN 的方法在3 個基準數(shù)據(jù)庫上實現(xiàn)的性能[28-30,33,36-41]Table 1 Performances of CNN-based approaches achieved on three benchmarked databases[28-30,33,36-41]
隨后,研究者將更多先進的技術(shù)應(yīng)用到機器學(xué)習(xí)中,以增強模型的性能,例如Srigurulekha等[27]應(yīng)用了MAX 合并技術(shù)與CNN 相結(jié)合,用于從關(guān)鍵圖像中分離和制備模型。在該方法中,模型對FOOD-101 數(shù)據(jù)集實現(xiàn)了86.85%的準確度。Zhang 等[34]設(shè)計了一種具有13 層卷積層的卷積神經(jīng)網(wǎng)絡(luò),并使用了3 種類型的數(shù)據(jù)增加方法:圖像旋轉(zhuǎn)、伽馬校正和注入噪聲。該模型與其它的水果識別模型相比,準確性達到94.94%,至少比其它最先進的模型識別準確率高5%。Xu 等[35]對亞洲食品數(shù)據(jù)集使用了Mixup 數(shù)據(jù)增強預(yù)處理,使用了3 種神經(jīng)網(wǎng)絡(luò)模型分別為:VGG-16、MobileNetV2、ResNet50,并使用CBAM(卷積塊注意模塊)來改進這3 種基線卷積神經(jīng)網(wǎng)絡(luò)。最終這3種卷積神經(jīng)網(wǎng)絡(luò)模型達到的最好分類精度分別為:Top-1%與Top-5%為85.15%與97.11%,Top-1%與Top-5%為86.28%與97.11%,Top-1%與Top-5%為87.33%與97.33%。他們的方法驗證了CBAM 注意機制和Mixup 數(shù)據(jù)增強算法能有效的提高食品圖像分類的準確性。
2.1.2 菜肴識別 與傳統(tǒng)的食品圖像相比,菜肴圖像的識別更為困難,因為菜肴圖像的關(guān)鍵特征不容易被捕捉到,而且每一種菜肴都是混合了多種食品制作而成,因此分割菜肴食品圖像并找出其關(guān)鍵特征成為了一個難以解決的問題。目前的研究,大都致力于在不同環(huán)境下穩(wěn)定的識別菜肴圖像,開發(fā)移動端程序來方便用戶進行食品識別。多是將菜肴圖像分割成許多的小塊然后利用CNN 或者性能更好的深度學(xué)習(xí)模型來提取圖像特征,最后做出預(yù)測,一些性能更好的復(fù)雜網(wǎng)絡(luò)模型可能對識別菜肴具有更良好的性能。
目前對于食品菜肴識別技術(shù)多是應(yīng)用食品圖像分割技術(shù)以及特征識別技術(shù)[40,42-43],然后把圖像傳回云端進行分析,從而識別圖片的類型。Ciocca等[42]開發(fā)了一種基于CNN 的野外食品識別系統(tǒng),稱為IVLFood-WS,其工作示意圖如圖9 所示。該程序可以將使用者上傳的食物圖像進行分析,然后通過云端分析,最后將食物的信息反饋給用戶。可以幫助用戶鑒別食物以及提供其中的過敏原信息、菜肴的食品配比以及預(yù)測該食品的卡路里含量。Liu 等[43]提出了一種基于人工智能的多菜食品識別模型,該模型使用Efficient Det 深度學(xué)習(xí)模型,能夠有效的識別臺灣地區(qū)菜系的單菜以及混合菜,有助于人們正確的決定健康飲食的攝入量。該試驗對獲得的2 517 家餐廳的數(shù)據(jù)集進行訓(xùn)練和測試,并使用了多種食品圖像數(shù)據(jù)集,最后該模型在菜肴識別的精度上達到了準確性87%與召回率97%的高準確性結(jié)果。
農(nóng)作物的分級與分選往往關(guān)系到農(nóng)產(chǎn)品的收成與銷售,在以往的食品工業(yè)中,農(nóng)作物分揀分級往往都依賴于人工。手動分揀和分級基于人工操作,這不僅繁瑣、耗時而且分揀出來的產(chǎn)品質(zhì)量不一,目前食品行業(yè)已經(jīng)通過機器視覺進行分選和分級,實現(xiàn)了高效、一致、優(yōu)秀的分選速度與準確率。目前機器視覺系統(tǒng)與機器學(xué)習(xí)已應(yīng)用于食品工業(yè)中新鮮產(chǎn)品的分級、分類,檢測新鮮水果和種子上的裂紋、黑斑和擦傷缺陷等領(lǐng)域。然而圖像分析、機器學(xué)習(xí)以及機器視覺等新技術(shù)在動物產(chǎn)品分級以及食品工業(yè)機械自動化上的研究較少,缺乏相關(guān)的報道。
2.2.1 種子分級 糧食以及農(nóng)產(chǎn)品的多樣性是農(nóng)業(yè)系統(tǒng)的一個重要方面,為了獲得更高的作物產(chǎn)量和預(yù)期的產(chǎn)物質(zhì)量,種子品種的鑒定與分級是最為關(guān)鍵的。農(nóng)作物種子與上述菜肴所不同的是:種子質(zhì)量鑒定與分級往往更加復(fù)雜,它無法像菜肴一樣根據(jù)食物的表面特征就得出結(jié)論,種子的質(zhì)量定級還需要評估許多內(nèi)部因素,因此許多研究者將不同的成像技術(shù)與機器學(xué)習(xí)模型相結(jié)合,對農(nóng)作物種子進行分級與分類[44-45]。例如,Wu 等[44]提出了一種基于高光譜成像(HSI)和深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)的燕麥種子品種識別方法。該試驗開發(fā)了一種端到端學(xué)習(xí)方法訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò),并與傳統(tǒng)的3 種分類器(邏輯回歸、徑向基函數(shù)支持向量機和線性支持向量機)進行結(jié)合和比較,最終的研究結(jié)果表示,基于深度卷積神經(jīng)網(wǎng)絡(luò)的模型優(yōu)于傳統(tǒng)的分類器,在測試集上達到了99.19%的最高準確率。Nie 等[45]將近紅外高光譜成像技術(shù)與深度學(xué)習(xí)相結(jié)合,用來分類雜交絲瓜種子與雜交秋葵種子。該試驗采用偏最小二乘判別分析、支持向量機和深度卷積神經(jīng)網(wǎng)絡(luò)來建立判別分析模型,并將3 種模型進行比較。結(jié)果表明,深度卷積神經(jīng)網(wǎng)絡(luò)模型獲得了最高的分類準確性,在測試集上,分類雜交絲瓜種子與雜交秋葵種子分別獲得了95.93%與98.24%的高分類準確率,并且隨著數(shù)據(jù)的增加,DCNN 模型的性能保持穩(wěn)定并上升,而且解決了數(shù)據(jù)過擬合的問題。
2.2.2 水果分級 對于水果等產(chǎn)品分級是一個至關(guān)重要的過程,因為它極大地影響著產(chǎn)品到達市場時消費者的偏好和滿意度。并且將果實進行分類有助于挑選出不同質(zhì)量的水果并將其分級,便于后續(xù)的運輸與銷售。近幾年隨著深度學(xué)習(xí)模型的不斷發(fā)展,許多應(yīng)用在水果分級上的模型都取得了良好的分類精度。例如Unay 等[46]提出了一種基于二維卷積神經(jīng)網(wǎng)絡(luò)(CNN)的蘋果多光譜圖像分級方法。對于蘋果的二類分類(即將蘋果分為有缺陷和健康),該模型的分類準確性達到了95.6%;在多類分類中(將蘋果分為健康、碰傷蘋果、有缺陷導(dǎo)致拒收的蘋果、有嚴重缺陷的蘋果)的分類精度達到了87.1%。Helwan 等[47]設(shè)計了一種基于剩余學(xué)習(xí)網(wǎng)絡(luò)(ResNet-50)的深度學(xué)習(xí)方法水果智能分級系統(tǒng)。該系統(tǒng)利用遷移學(xué)習(xí)來實現(xiàn)水果分級,旨在將水果,特別是香蕉分類為健康或有缺陷的類別。該模型在香蕉的二類分類中獲得了99%的高準確率。
在多類分類任務(wù)中,研究者多使用一些成像技術(shù)與機器學(xué)習(xí)相結(jié)合進行分類,然而模型的性能與二分類任務(wù)相比仍然較差。例如Mesa 等[48]將香蕉分為三級并開發(fā)了一種多輸入模型,給香蕉進行分級。該模型利用了RGB、高光譜成像以及深度學(xué)習(xí)技術(shù),利用兩種成像技術(shù)來提取香蕉的尺寸以及紋理等特征,然后做為學(xué)習(xí)數(shù)據(jù)輸入到CNN 中實現(xiàn)對香蕉的分級。作者對多輸入模型與僅使用RGB 或高光譜成像以及傳統(tǒng)的機器學(xué)習(xí)方法進行了比較,最終的結(jié)果顯示混合輸入模型獲得了最高的準確性為98.45%,同時召回率也達到97.43%。Ganguli 等[49]使用基于預(yù)先訓(xùn)練的ImageNet 模型的深度卷積神經(jīng)網(wǎng)絡(luò),并使用MLP 網(wǎng)絡(luò)來分析所提取的香蕉分類和數(shù)字信息,并將RGB 與高光譜成像技術(shù)相結(jié)合應(yīng)用于該模型中,獲得了更高的分類精度(98.4%)。Bhole 等[50]設(shè)計了一種以深度學(xué)習(xí)為中心的芒果無損分類和分級系統(tǒng),將芒果分為三級。該模型使用了基于轉(zhuǎn)移學(xué)習(xí)的預(yù)訓(xùn)練SqueezeNet 模型,通過識別芒果的缺陷、形狀、大小和成熟度來對芒果進行分級,最后該系統(tǒng)的分類精度為93.33%。
目前的研究大多都是將產(chǎn)品質(zhì)量分為二類與三級,且取得了較好的分類精度。然而在多類分類任務(wù)中,模型的準確率明顯要低于二類分類,這可能是由于分類任務(wù)的復(fù)雜性導(dǎo)致,在質(zhì)量的多類分類任務(wù)中,模型的性能有待改善。
外部質(zhì)量屬性與產(chǎn)品外觀相關(guān),包括顏色、形狀、尺寸和無表面缺陷等特性。它們決定了消費者的購買行為,因為這些屬性可以很容易地用眼睛檢查。食品的質(zhì)量是現(xiàn)代食品產(chǎn)業(yè)的一個關(guān)鍵因素,高質(zhì)量的產(chǎn)品更容易在市場上取得成功。而在傳統(tǒng)的食品工業(yè)中,產(chǎn)品的質(zhì)量評價仍然大量的依賴人工檢測,這種方法不僅費時、成本高,而且極易受到外在因素的影響。為了滿足消費者日益增長的食品安全意識,研究者們已經(jīng)將計算機視覺技術(shù)結(jié)合機器學(xué)習(xí)應(yīng)用到食品的質(zhì)量評價中。該技術(shù)可以客觀、快速、無接觸的對產(chǎn)品進行質(zhì)量檢測,近年來受到食品行業(yè)廣泛的關(guān)注,并得到迅速的發(fā)展。
2.3.1 果蔬質(zhì)量檢測 果蔬中含有人體所必需的、豐富的營養(yǎng)物質(zhì),是人體健康飲食的重要組成部分。然而在運輸、采摘、儲藏等過程中,極其容易受到病蟲害、外力損傷等影響,影響果蔬本身的營養(yǎng)價值,嚴重時甚至?xí)p害消費者的健康。果蔬與其它類型的食品相比,其內(nèi)在的相似性與獨特性更為明顯,這也為果蔬質(zhì)量檢測提供了更多的挑戰(zhàn)。目前關(guān)于果蔬質(zhì)量檢測的研究大多都集中在農(nóng)業(yè)與健康領(lǐng)域[24,51-55],且目前關(guān)于果蔬質(zhì)量檢測的研究大多采用CNN 網(wǎng)絡(luò)模型以及其改進模型,并沒有應(yīng)用更復(fù)雜的模型,而且也沒有將果蔬自身的特征、形態(tài)與模型結(jié)合,因此關(guān)于果蔬質(zhì)量分級的研究還有較大的空間。
在檢測中,對于病蟲害的檢測尤為重要,因為這直接關(guān)系到該產(chǎn)品是否可以進入市場進行銷售。病蟲害的檢測需要一種成熟的成像技術(shù)將水果圖像呈現(xiàn)出來,供機器對水果質(zhì)量進行分級檢測,最近的研究已經(jīng)將機器學(xué)習(xí)與光譜技術(shù)相結(jié)合來評價水果的質(zhì)量等級。例如Rahamathunnisa等[52]提出了一種蔬菜病害檢測系統(tǒng),用于檢測蔬菜的病害。蔬菜的識別基于諸如形狀、顏色、大小、質(zhì)地等特征。并且系統(tǒng)使用了K-Means 聚類算法來對所捕獲的圖像進行分割,以及使用支持向量機來進行有監(jiān)督的分類學(xué)習(xí)。Liu 等[53]開發(fā)了一種基于高光譜成像的黃瓜缺陷檢測分類方法,該方法使用堆疊自動編碼器與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,該模型先使用CNN 掃描整個黃瓜圖像,確定黃瓜的缺陷圖像,然后再傳輸?shù)蕉询B自動編碼器對黃瓜的缺陷特征進行深度學(xué)習(xí),最后模型的準確率為91.1%。Tan 等[55]將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于紅外傳感器網(wǎng)絡(luò)采集的蘋果果皮病變圖像的識別,旨在實現(xiàn)基于機器學(xué)習(xí)的蘋果病蟲害檢測系統(tǒng)。作者使用了主成分分析對所采集到的蘋果圖像進行降維,然后用五層CNN 模型對經(jīng)過處理的圖像進行訓(xùn)練。最后與傳統(tǒng)的多層感知器與ANN 等神經(jīng)網(wǎng)絡(luò)模型進行比較,該網(wǎng)絡(luò)模型具有最高的分類準確性,為97.5%。
感官品質(zhì)的檢測也是果蔬質(zhì)量檢測中重要的一環(huán),這關(guān)系到果蔬在貨架上的等級分類以及消費者的購買體驗。Kaur 等[51]提出了一種基于人工神經(jīng)網(wǎng)絡(luò)的圖像處理技術(shù),用來對蔬菜進行分類與質(zhì)量檢測。該技術(shù)首先使用相機捕捉蔬菜的圖像,然后從采樣圖像中有效地提取特征。所提取的特征有諸如顏色、形狀和大小的參數(shù),最后采用人工神經(jīng)網(wǎng)絡(luò)技術(shù)對質(zhì)量進行檢測。最后作者對4種不同顏色、大小、形狀的蔬菜進行分析,并且取得了良好的結(jié)果。Azizah 等[54]提出了一種使用卷積神經(jīng)網(wǎng)絡(luò)模式的深度學(xué)習(xí)模型來檢測山竹的質(zhì)量。為了驗證數(shù)據(jù)的準確性,作者使用了四重驗證交叉來運行該CNN 方法,最終的研究結(jié)果顯示山竹果實的缺陷檢測效率為97%。Rodriguez 等[56]使用深度學(xué)習(xí)技術(shù)研究李子品種在早期生長階段的鑒別。作者采集了不同品種李子以及不同成熟度的李子圖像來構(gòu)建數(shù)據(jù)集,對采集的圖像進行分割以去除不需要的背景,然后使用AlexNet 體系結(jié)構(gòu)作為CNN 模型,最后模型獲得的分類準確度范圍為91%~97%。Zhang 等[24]總結(jié)了基于深度學(xué)習(xí)的食品和農(nóng)產(chǎn)品定量分析,作者總結(jié)了水果以及農(nóng)作物的質(zhì)量分析以及所使用的光譜數(shù)據(jù),具體分析見表2。
表2 基于深度學(xué)習(xí)的食品和農(nóng)產(chǎn)品定量分析[24]Table 2 Deep learning-based quantitative analysis of food and agricultural products[24]
咖啡作為世界上最暢銷的飲料之一,咖啡的感官質(zhì)量檢測也尤為重要,目前對咖啡的質(zhì)量、風(fēng)味預(yù)測以及咖啡豆成熟度等方面的研究越來越成熟。Ramos 等[57]設(shè)計了一種用于無損的查找咖啡枝葉中可收獲和不可收獲的咖啡豆果實的多視圖立體視覺(MVS)模型,MVS 使機器人能夠計數(shù)水果并估計它們的成熟度。Araújo 等[58]開發(fā)了一個檢測系統(tǒng)來檢測豆類的質(zhì)量和類型,隨后作者采用了K-平均算法和KNN 將豆類分為三類:咖啡豆、黑白豆和黑豆,分類準確率為99.88%??Х鹊娘L(fēng)味是影響咖啡銷量的重要一環(huán),目前已經(jīng)有研究將深度學(xué)習(xí)方法應(yīng)用于咖啡的風(fēng)味預(yù)測中。Chang等[59]用近紅外光譜提取咖啡的特征,然后作為數(shù)據(jù)輸入到機器學(xué)習(xí)與深度學(xué)習(xí)模型進行學(xué)習(xí)。作者使用了4 種不同核函數(shù)的集成支持向量機、2種不同雜質(zhì)指數(shù)的集成隨機森林模型和一維ResNe101 模型,最后對7 種主要的咖啡風(fēng)味預(yù)測結(jié)果中,采用集成支持向量機和一維ResNe101 模型的準確率相似,都為78%左右,而ResNe101 模型的召回率更高,達到了70.65%。因為對于水果的質(zhì)量檢測來說,召回率是一個更為重要的指標(biāo),因此認為ResNe101 模型擁有更高的識別精度。
2.3.2 動物產(chǎn)品質(zhì)量檢測 肉蛋類以及水產(chǎn)品是人類重要的蛋白質(zhì)來源,近幾年,機器視覺、機器學(xué)習(xí)以及光譜傳感技術(shù)已經(jīng)廣泛的應(yīng)用于肉產(chǎn)品領(lǐng)域的快速無損質(zhì)量檢測技術(shù)。畜肉產(chǎn)品的檢測主要集中在檢測肉類的顏色、質(zhì)地以及破碎程度,尤其對于海產(chǎn)品來說,深度學(xué)習(xí)技術(shù)的應(yīng)用,提供了一種檢驗水產(chǎn)品新鮮度的新方法,這不僅免除了大量的人工操作而且出現(xiàn)錯誤的概率也更小。Huang 等[60]使用計算機視覺系統(tǒng)與近紅外光譜相結(jié)合的方法,捕獲魚類的圖像得到有關(guān)魚類感官和結(jié)構(gòu)變化的信息。作者采用了主成分分析法來提取數(shù)據(jù)中最關(guān)鍵的特征,并建立了反向傳播人工神經(jīng)網(wǎng)絡(luò)來預(yù)測魚類的新鮮度。Poonnoy 等[61]首次將相對內(nèi)部距離(RID)值與人工神經(jīng)網(wǎng)絡(luò)相結(jié)合,并以此為依據(jù)對煮蝦的形狀進行分類。4 種形狀包括“規(guī)則”、“無尾”、“單尾”以及“破碎體”,通過分割蝦圖像并在分割輪廓上繪制相關(guān)線來計算RID 值。最后該模型的總體預(yù)測準確率為99.80%。然而目前關(guān)于機器學(xué)習(xí)技術(shù)應(yīng)用在動物產(chǎn)品新鮮度的檢驗上,并沒有準確的檢驗指標(biāo),相關(guān)的動物檢測指標(biāo)仍需進一步的研究報道。
對于有殼的蛋類食物,成像系統(tǒng)往往無法采集蛋內(nèi)的 信息,Syahrir 等[62]首次將Nakano 等[63]開發(fā)的無損檢測血斑褐殼雞蛋系統(tǒng)與別的方法相結(jié)合,使用圖像處理來檢測雞蛋內(nèi)部的血液斑點。Nasiri 等[64]在Syahrir 等[62]開發(fā)的圖像系統(tǒng)的基礎(chǔ)上進行進一步改進,使用了深度卷積神經(jīng)網(wǎng)絡(luò)來對未清洗的雞蛋進行分類。使用VGG16 架構(gòu)修改全局平均池化層、密集層、批量歸一化層和丟棄層,CNN 模型采用了分層結(jié)構(gòu),能夠自動提取特征,無需去除背景便可實現(xiàn)分類任務(wù),對于雞蛋使用透光法對雞蛋進行圖像采集,用于對檢測模型的訓(xùn)練以及測試。最后該模型對于3 種雞蛋(即完整、帶血和破損)的準確度、精密度、敏感度和特異度分別達到了96.55%,95.59%,94.92%,97.39%。
許多用來分析的模型成功應(yīng)用在質(zhì)量檢測中,表明深度學(xué)習(xí)方法在未來食品行業(yè)中具有重大的應(yīng)用前景。目前的問題是如何將這些先進的圖像處理技術(shù)引入食品領(lǐng)域,如營養(yǎng)成分分析、缺陷檢測以及食物不同成分的分割等,食物的多樣性與復(fù)雜性為這些技術(shù)的應(yīng)用提供了高難度。
食品的產(chǎn)業(yè)鏈是一個復(fù)雜的系統(tǒng),包括從種植者和養(yǎng)殖者到生產(chǎn)者到銷售商再到消費者的全過程,這個過程也稱作“從農(nóng)田到餐桌”,這個過程中的每一步都與消費者的利益緊密相關(guān)。然而來自食品供應(yīng)鏈的信息往往是不可靠的,這導(dǎo)致政府很難獲得食品的準確信息來對食品進行監(jiān)管,因此將智能學(xué)習(xí)應(yīng)用于食品產(chǎn)業(yè)鏈上,有助于信息透明化以及幫助政府檢驗食品的信息。
在食品產(chǎn)業(yè)鏈中,假冒偽劣產(chǎn)品嚴重危害著消費者的健康,單獨靠人工去檢測假冒食品不僅費時費力而且容易出現(xiàn)誤差,有研究已經(jīng)將機器學(xué)習(xí)方法與機器視覺系統(tǒng)相結(jié)合,通過對比食品上的包裝細節(jié)與文字等信息可以很好的解決人工檢測的缺陷。例如Mezgec 等[65]提出了一種結(jié)合了深度學(xué)習(xí)、營養(yǎng)相容性和自然語言處理的用于識別假冒食品的模型。模型首先將捕獲的食物圖像匹配識別圖片中的每個食物項目,然后將它們的食物細節(jié)與食物項目進行比較,同時考慮它們的名稱。最終這種模型的準確率為92.18%。
質(zhì)量和消費者接受度也是食品行業(yè)最重要的問題,為了確保食品的質(zhì)量、安全和衛(wèi)生,必須建立標(biāo)準操作規(guī)范和質(zhì)量控制系統(tǒng),并在生產(chǎn)過程中和整個食品供應(yīng)鏈中予以遵守。食品工業(yè)發(fā)展前期,保持食品的質(zhì)量往往需要大量的人力對食品進行檢測,這樣不僅耗時耗力還有可能帶來偏差。隨著技術(shù)的進步,機器視覺系統(tǒng)、機器學(xué)習(xí)等方法在食品上的應(yīng)用,改變了食品行業(yè)現(xiàn)有的狀況。TOMRA 是一家提供基于機器學(xué)習(xí)的智能設(shè)備公司,該公司開發(fā)了一種機器視覺技術(shù)與傳感器相結(jié)合的產(chǎn)品,現(xiàn)已應(yīng)用到食品制造商的生產(chǎn)流水線中。這些基于傳感器的機器視覺系統(tǒng)可用于食品的分揀、分級、去皮和包裝,如圖10 所示[66]。此外,在食品的加工程度上也有越來越多的研究者關(guān)注,食品的加工程度很大因素上影響著消費者的健康。長期使用過度加工的食品對消費者的身體傷害巨大。Menichetti 等[67]開發(fā)了一種機器學(xué)習(xí)算法來預(yù)測食品的加工程度,作者設(shè)計了Food-Pro(一種食品分類器),該模型可以提供準確的食品加工程度,捕捉食品的化學(xué)物理變化及其對健康的影響。最后作者研究發(fā)現(xiàn)對超加工食品的長期攝入會導(dǎo)致代謝綜合征等風(fēng)險,食用一些加工程度較為輕微的食品來代替超加工食品,可以顯著降低超加工食品對健康的影響?;谀壳暗难芯窟M展,并沒有研究按照食品的加工程度對食品進行分類,關(guān)于食品的加工程度仍然很難鑒定,因此在未來的研究上,可能還會更多的涉及食品加工程度的鑒定以及食品分類。
圖1 人工智能、機器學(xué)習(xí)、深度學(xué)習(xí)之間的關(guān)系Fig.1 The relationship between artificial intelligence,machine learning,and deep learning
圖2 機器學(xué)習(xí)的分類Fig.2 Classification of Machine Learning
圖3 決策樹模型示例Fig.3 An example of decision tree
圖4 一種典型的人工神經(jīng)網(wǎng)絡(luò)模型Fig.4 A typical model of artificial neural network
圖5 一種反向傳播網(wǎng)絡(luò)模型Fig.5 An example structure of BP network
圖6 一種典型的卷積神經(jīng)網(wǎng)絡(luò)模型Fig.6 A typical model of convolutional neural network
圖7 一種典型的遞歸神經(jīng)網(wǎng)絡(luò)模型[24]Fig.7 A typical model of recurrent neural network[24]
圖8 基于自動編碼器模型的框架[25]Fig.8 Framework of the proposed autoencoder based model[25]
圖9 IVLFood-WS 工作示意圖[42]Fig.9 Schematic representation of the IVLFood-WS work[42]
圖10 一種基于自動機器視覺的芒果分類機模型[66]Fig.10 An automated machine-vision based mango sorter model[66]
將機器學(xué)習(xí)技術(shù)引入食品工業(yè)中,不僅有助于提高所加工產(chǎn)品的安全與質(zhì)量,保持了生產(chǎn)效率的同時確保了食品系統(tǒng)的一致性。深度學(xué)習(xí)是機器學(xué)習(xí)的一個子集,與各種神經(jīng)網(wǎng)絡(luò)模型和基于機器學(xué)習(xí)的方法相比,深度學(xué)習(xí)在食品加工領(lǐng)域諸如圖像識別、食品分級、質(zhì)量檢測等方面都表現(xiàn)出了比機器學(xué)習(xí)更加優(yōu)秀的性能,可以被證實成為一種有效的建模策略。深度學(xué)習(xí)的學(xué)習(xí)效率非??捎^,可能是未來食品加工領(lǐng)域的一個重點探索目標(biāo)。然而影響深度學(xué)習(xí)在食品領(lǐng)域應(yīng)用的一些問題仍舊突出,如食品的多樣性以及復(fù)雜性給模型進行特征提取帶來了困難;這種模型對于小規(guī)模的數(shù)據(jù)會出現(xiàn)輸出結(jié)果較差的偏差,因此模型需要大量且準確的數(shù)據(jù)樣本進行學(xué)習(xí)訓(xùn)練,而獲得一個準確且可靠的樣本十分困難,研究者不停的對數(shù)據(jù)集進行補充與矯正;模型的高成本也制約著人工智能在食品加工領(lǐng)域的大規(guī)模應(yīng)用;對于一些APP 的開發(fā),制約因素則是需要移動設(shè)備具有足夠的儲存空間,現(xiàn)如今的大部分程序都是通過云端計算,這樣會導(dǎo)致消耗的時間較長而且結(jié)果會發(fā)生一定的偏差。未來的研究方向可能集中于研究一些更復(fù)雜的神經(jīng)網(wǎng)絡(luò)應(yīng)用于食品領(lǐng)域,并且搜集大量且準確的數(shù)據(jù)來豐富食品數(shù)據(jù)庫。