吳冀豪 常玉祥 汪宇玲 彭思繪
(東華理工大學(xué)信息工程學(xué)院,江西南昌,330013)
傳統(tǒng)上,水果和蔬菜的識別采用人工分類的方式,但是人工分類會受到很多限制,容易受主觀因素的影響,結(jié)果會出現(xiàn)較大偏差。不同于其他傳統(tǒng)人工識別技術(shù),計(jì)算機(jī)視覺技術(shù)在果蔬識別中作為質(zhì)量評估、分類、自動分級和機(jī)器人收割的一種重要技術(shù)[1-3],目前在實(shí)際應(yīng)用中已取得良好的效果。
機(jī)器識別果蔬的分類是一個(gè)相對比較復(fù)雜的過程,果蔬種類繁多,形狀、顏色和質(zhì)地不規(guī)則,這對果蔬分類系統(tǒng)提出了更高的要求。果蔬的視覺數(shù)據(jù)從二值化圖像擴(kuò)展到高光譜圖像促進(jìn)了果蔬識別的發(fā)展[4-8],且果蔬識別和分類的技術(shù)通常是將視覺數(shù)據(jù)上的特征描述和機(jī)器學(xué)習(xí)算法相結(jié)合[9]。盡管已有不少學(xué)者進(jìn)行了大量的相關(guān)研究,但要建立一個(gè)有效的果蔬分類系統(tǒng),仍需要克服許多挑戰(zhàn)。因此,本文詳述了果蔬分類所受的制約,比較了用于分類的計(jì)算機(jī)視覺技術(shù),最后對果蔬識別的現(xiàn)狀進(jìn)行了總結(jié)和展望。
機(jī)器識別果蔬分類受到的制約條件主要包括以下幾個(gè)方面。
果蔬分類任務(wù)的一個(gè)關(guān)鍵步驟是選擇適合所需場景的傳感器用于數(shù)據(jù)采集。傳感器大致分為視覺傳感器和非視覺傳感器兩大類,目前均已廣泛地應(yīng)用在果蔬分類任務(wù)中。但是由于傳感器功能不同,其所適用的應(yīng)用場景也不同,例如,視覺傳感器對照明條件和背景顏色高度敏感,則適用于夜晚或天氣狀況不好等場景;高光譜相機(jī)在拍攝果蔬圖像時(shí),因其對相似顏色等因素不敏感,故在檢測相似顏色或背景的水果時(shí)會受限,但是可以將水果的高光譜信息與水果的其他特征相結(jié)合,以此提高果蔬的識別性能。目前,熱紅外分析也用于諸多領(lǐng)域,如植物病害檢測、冷藏對果實(shí)的冷害、農(nóng)作物成熟度估算和農(nóng)作物產(chǎn)量估算[10]。不同種類的傳感器都有各自的優(yōu)缺點(diǎn),在果蔬識別過程中,選取合適的傳感器采集數(shù)據(jù),對果蔬分類的結(jié)果起著至關(guān)重要的作用。
特征是用于與其他物體作區(qū)分的物理特征。果蔬具有多種物理特征,例如顏色、質(zhì)地、形狀和大小,這些都是可以用作分類的特征參數(shù),并且果蔬具有類別間和類別內(nèi)的同異性。其中,類別間的變化是主要變化,即顏色、紋理和形狀的變化,而類別內(nèi)的變化通常難以發(fā)現(xiàn),其特征難以區(qū)分。理想的系統(tǒng)是能夠進(jìn)行類別間和類別內(nèi)的分類,單個(gè)特征不能使得果蔬進(jìn)行有效地分類,故將傳統(tǒng)的單個(gè)物理特征與深度學(xué)習(xí)特征相結(jié)合,才能使相似性高、難以區(qū)分的果蔬種類能夠被準(zhǔn)確分類。
計(jì)算機(jī)視覺是用于圖像分類和識別的一種重要技術(shù),可以利用算法對果蔬進(jìn)行分類,通常是基于CNN(Convolutional Neural Networks, 卷積神經(jīng)網(wǎng)絡(luò))完成。在果蔬識別分類過程中,CNN 通過有監(jiān)督和無監(jiān)督相結(jié)合的訓(xùn)練方式來實(shí)現(xiàn)對果蔬特征的提取和轉(zhuǎn)換,相比傳統(tǒng)機(jī)器學(xué)習(xí)方法,其減少了人工干預(yù)的過程,擁有自主學(xué)習(xí)特征和表達(dá)能力。
果蔬識別分類的核心思想是:采用一種或多種傳感器以及機(jī)器學(xué)習(xí)技術(shù)來識別與產(chǎn)品相關(guān)聯(lián)的特征,例如形狀、顏色、紋理和尺寸。實(shí)際上,果蔬的所有物理特征都被認(rèn)為是有效分類的可行特征。最初的方法是采用單一的特征,即通過形狀、紋理、顏色等進(jìn)行分類,但是單一的特征識別存在很多局限性,例如基于顏色、紋理特征的方法容易受光照條件以及果蔬的顏色和外形的制約,而形狀幾何特征又易受到背景遮擋和果蔬聚類的影響,因此針對不同環(huán)境的不同果蔬,采用多特征組合算法能顯著提高果蔬識別的準(zhǔn)確率[11]。
目前有一些研究是采用各種機(jī)器學(xué)習(xí)模型來構(gòu)建水果分類器,例如,SVM(Support Vector Machine, 支持向量機(jī))、KNN(K-Nearest Neighbor,K 近鄰)、Decision Tree(決策樹)等。SVM 借助核函數(shù)對數(shù)據(jù)進(jìn)行非線性映射,是一類按監(jiān)督學(xué)習(xí)方式對數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器,其決策邊界是對學(xué)習(xí)樣本求解的最大邊距超平面,適合中小型數(shù)據(jù)樣本、非線性、高維的分類問題;KNN 是無限維數(shù)據(jù)的基于實(shí)例的非參數(shù)相似性度量學(xué)習(xí),適用于樣本容量較大的類域的自動分類;決策樹是一種基于實(shí)例的歸納學(xué)習(xí)方法,它能從給定的無序的訓(xùn)練樣本中,提煉出樹型的分類模型,是用于多類分類的基于概率的圖。目前,SVM 和KNN 已被廣泛用于水果和蔬菜分類,并有文章闡述了其相關(guān)的分類效果[12-13]。例如在實(shí)際應(yīng)用中,由于背景環(huán)境、光照、鏡反射和識別不一致等外界因素的變化,通常會影響果蔬識別分類的準(zhǔn)確率。
CNN 是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)的代表算法之一。CNN 具有主動學(xué)習(xí)特征的特點(diǎn),同時(shí)具有很強(qiáng)的表達(dá)能力和泛化能力,通過利用CNN 能夠提取到高級的圖像特征。CNN 通過多層的卷積網(wǎng)絡(luò),從原始圖像中逐漸地提取每一級別的圖像特征,由一開始的紋理、顏色、形狀等淺層特征再到淺層特征中的高級特征??梢岳肅NN 來提取特征,然后使用同為無監(jiān)督學(xué)習(xí)的其他算法來實(shí)現(xiàn)分類。這樣整個(gè)檢測過程就可以實(shí)現(xiàn)全過程無監(jiān)督學(xué)習(xí),最終完成自動化的水果識別任務(wù)。關(guān)于CNN 的整體特征提取能力已有文章闡述其顯著的對象分類效果[14]。
目前,各種不同的卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在農(nóng)業(yè)生產(chǎn)中深入應(yīng)用。從最初簡單的CNN 模型發(fā)展到AlexNet 網(wǎng)絡(luò)模型、VGGNet 網(wǎng)絡(luò)模型、Resnet 網(wǎng)絡(luò)模型、Faster R-CNN 網(wǎng)絡(luò)模型、SSD 網(wǎng)絡(luò)模型、YOLO 網(wǎng)絡(luò)模型、FCN 模型、語義分割網(wǎng)絡(luò)模型等一系列新的深度學(xué)習(xí)模型。每一種網(wǎng)絡(luò)模型都有優(yōu)缺點(diǎn),例如SSD 網(wǎng)絡(luò)的優(yōu)勢是識別精度較高、泛化性和魯棒性較強(qiáng),檢測速度快,缺點(diǎn)是需要對輸入的圖像進(jìn)行預(yù)處理,且對一些小目標(biāo)的果蔬的檢測精度低。
總結(jié)各種果蔬識別的方法的優(yōu)缺點(diǎn),具體如下:
1)傳統(tǒng)數(shù)字圖像處理技術(shù)是通過果蔬圖像的形狀、紋理、顏色特征進(jìn)行分類,但是這種方法受限于目標(biāo)特征信息的獲取程度,容易受光照變化、背景遮擋、果蔬聚類等環(huán)境影響,特征獲取會受到極大干擾,故該類方法不適應(yīng)于復(fù)雜自然環(huán)境下的果蔬識別檢測。
2)相較于傳統(tǒng)的數(shù)字圖像處理技術(shù),基于機(jī)器學(xué)習(xí)模型的圖像處理技術(shù)與分類器的目標(biāo)檢測算法的優(yōu)勢在于,果蔬識別的檢測精度以及魯棒性方面有不同程度的提高,它依賴于數(shù)據(jù)進(jìn)行分類識別,具有響應(yīng)速度快、分類效果好的優(yōu)點(diǎn),缺點(diǎn)是在數(shù)據(jù)訓(xùn)練前需要提前設(shè)定各種參數(shù),最終的分類效果與各種參數(shù)的設(shè)定有關(guān),在一定程度上具有隨機(jī)性,并且調(diào)參過程較為復(fù)雜,對于多分類問題效果較差,通常僅適用于大棚環(huán)境下單一品種的檢測識別。
3)深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)是通過有監(jiān)督和無監(jiān)督相結(jié)合的訓(xùn)練方式來實(shí)現(xiàn)對圖像特征的提取和轉(zhuǎn)換。它的優(yōu)勢在于針對復(fù)雜自然環(huán)境下的水果檢測時(shí),具有較好的魯棒性,且適用于多種類果蔬的分類;缺點(diǎn)是需要有足夠大的訓(xùn)練集來對圖像特征進(jìn)行模型訓(xùn)練,且訓(xùn)練時(shí)間較長。
綜上所述,基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)更加適用于復(fù)雜自然環(huán)境下的水果檢測識別,不過它需要在大型數(shù)據(jù)集上對圖像進(jìn)行測試,并對結(jié)果進(jìn)行理論證明。本文對不同計(jì)算機(jī)視覺數(shù)據(jù)集上可用的分類算法進(jìn)行了比較,如表1 所示。
表1 各類算法在不同數(shù)據(jù)集下的識別率
果蔬種類繁多,每一種都會呈現(xiàn)出多種特征,故要采用的分類算法會受可用數(shù)據(jù)集稀缺的限制?,F(xiàn)有文獻(xiàn)中進(jìn)行的大多數(shù)實(shí)驗(yàn)會在類別方面或者數(shù)據(jù)集大小方面受到限制,目前大力發(fā)展預(yù)先訓(xùn)練的CNN 亦面臨缺乏大量數(shù)據(jù)集的問題。
本文總結(jié)了當(dāng)下機(jī)器進(jìn)行果蔬分類的相關(guān)研究成果,分析了現(xiàn)有技術(shù)在數(shù)據(jù)采集、特征表示和分類算法等方面存在的制約。目前一些最新類型的傳感器尚未應(yīng)用于果蔬分類領(lǐng)域,主要原因之一是缺乏數(shù)據(jù),需要擴(kuò)充數(shù)據(jù)以建立新的數(shù)據(jù)集,以使各種傳感器獲得更有效的結(jié)果。另外,針對網(wǎng)絡(luò)結(jié)構(gòu)的研究,應(yīng)該進(jìn)一步繼續(xù)完善網(wǎng)絡(luò)結(jié)構(gòu),尋找輕量級、檢測速度快、適用范圍更廣的網(wǎng)絡(luò)結(jié)構(gòu),以實(shí)現(xiàn)更高的識別效果,從而進(jìn)一步促進(jìn)深度學(xué)習(xí)在果蔬識別方面的應(yīng)用。