摘要:
針對(duì)傳統(tǒng)圣女果品質(zhì)質(zhì)量分級(jí)機(jī)只能通過(guò)圣女果果實(shí)大小進(jìn)行分級(jí),不能檢測(cè)圣女果表面缺陷的問(wèn)題,采用遷移學(xué)習(xí)方法,對(duì)比不同的網(wǎng)絡(luò)模型,選出更適用于進(jìn)行圣女果果實(shí)表面缺陷識(shí)別的神經(jīng)網(wǎng)絡(luò)InceptionV3。以InceptionV3為基本模型進(jìn)行改進(jìn)。首先,通過(guò)引入并修改寬度因子α來(lái)壓縮通道數(shù)量,提高模型訓(xùn)練速度;然后,修改全連接層神經(jīng)元個(gè)數(shù);最后,插入注意力網(wǎng)絡(luò)結(jié)構(gòu)并對(duì)比插入不同的注意力網(wǎng)絡(luò)結(jié)構(gòu),提出一種基于改進(jìn)InceptionV3神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型(N—InceptionV3_FD)。結(jié)果表明,N—InceptionV3_FD模型在圣女果表面缺陷檢測(cè)識(shí)別中準(zhǔn)確率達(dá)97.06%,比原InceptionV3模型提高7.84個(gè)百分點(diǎn),且損失函數(shù)值更加平穩(wěn),穩(wěn)定在0.1左右,為圣女果的表面缺陷檢測(cè)提供理論基礎(chǔ)。
關(guān)鍵詞:圣女果;表面缺陷;圖像分類;卷積神經(jīng)網(wǎng)絡(luò);遷移學(xué)習(xí)
中圖分類號(hào):S641.2
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2095-5553 (2025) 03-0153-07
收稿日期:2023年8月18日" 修回日期:2023年11月13日*
基金項(xiàng)目:山東省自然科學(xué)基金(ZR2022MC152);中央引導(dǎo)地方科技發(fā)展專項(xiàng)計(jì)劃(23—1—3—6—zyyd—nsh)
第一作者:劉起,男,1999年生,青島人,碩士;研究方向?yàn)檗r(nóng)業(yè)信息化。E-mail: 1102251172@qq.com
通訊作者:馬德新,男,1977年生,山東莒縣人,博士,教授;研究方向?yàn)檗r(nóng)業(yè)信息化、深度學(xué)習(xí)。E-mail: madexin@163.com
Surface defect recognition of cherry tomato fruits based on double attention fusion network structure
Liu Qi1, Dai Dongnan1, Sun Mengyan1, Ma Dexin1," 2, Xu Yang3
(1. Animation amp; Media, Qingdao Agricultural University, Qingdao, 266109, China; 2. Intelligent Agriculture Institute,
Qingdao Agricultural University, Qingdao, 266109, China; 3. Kaisheng Haofeng Agricultural Co., Ltd., Qingdao, 266109, China)
Abstract:
Traditional cherry tomato grading machines can only classify fruits based on size and cannot detect the surface defects of cherry tomatoes. To solve the problem, a transfer learning method is used to compare different network models and select the neural network, InceptionV3, which is more suitable for the identification of surface defects of cherry tomatoes. The InceptionV3 model is improved by introducing and modifying the width factor α to reduce the number of channels and improve the training speed of the model. Then the number of neurons in the fully connected layer is modified, and finally the attention network structure is inserted. By comparing different attention network structures, a deep learning model based on the improved InceptionV3 neural network, named N—InceptionV3_FD, is proposed. The results show that the N—InceptionV3_FD model achieves an accuracy of 97.06% in cherry tomato surface defect detection, increased by 7.84% over the original InceptionV3 model, with a more stable loss function maintaining around 0.1. This model provides a theoretical basis for the surface defect detection of cherry tomatoes.
Keywords:
cherry tomato; surface defects; image classification; convolutional neural network; transfer learning
0 引言
圣女果,又名櫻桃番茄、葡萄番茄和小西紅柿,有“愛(ài)情果”的美稱[1],是普通番茄的一種變種,果小、水分多,富含番茄紅素、谷胱甘肽、礦物質(zhì)和多種維生素等物質(zhì)。圣女果還具有防癌、降血壓和降低膽固醇等作用,被聯(lián)合國(guó)糧農(nóng)組織列為優(yōu)先推廣的果蔬之一[2," 3]。圣女果是典型的呼吸躍變型果蔬,采摘后很快進(jìn)入呼吸躍變期,致病微生物的入侵也會(huì)引發(fā)圣女果細(xì)胞組織內(nèi)部發(fā)生一系列復(fù)雜的生理生化變化,進(jìn)而加速其衰老過(guò)程[4],造成圣女果表面缺陷。因此,對(duì)采摘后的圣女果表面缺陷進(jìn)行準(zhǔn)確識(shí)別具有重要的實(shí)用價(jià)值。
隨著農(nóng)業(yè)信息化的發(fā)展,越來(lái)越多的機(jī)器學(xué)習(xí)方法運(yùn)用到圣女果圖像識(shí)別方面。Xu等[5]提出了一種改進(jìn)的Mask R—CNN用于圣女果的視覺(jué)識(shí)別。Xiang等[6]提出了一種新穎的基于一維卷積ResNet(Con1dResNet)的回歸模型,結(jié)果表明,高光譜成像技術(shù)在SSC和硬度檢測(cè)中的應(yīng)用潛力,為未來(lái)櫻桃番茄果實(shí)品質(zhì)的無(wú)損檢測(cè)提供新選擇。Yuan等[7]提出了一種基于深度學(xué)習(xí)的櫻桃番茄檢測(cè)方法,在VGG16、MobileNet、InceptionV2網(wǎng)絡(luò)的不同基礎(chǔ)網(wǎng)絡(luò)上設(shè)計(jì)了一個(gè)對(duì)比試驗(yàn),發(fā)現(xiàn)InceptionV2網(wǎng)絡(luò)是最好的基礎(chǔ)網(wǎng)絡(luò)。與其他檢測(cè)方法相比,該方法在櫻桃番茄檢測(cè)方面有顯著提高。Sun等[8]提出了一種基于改進(jìn)特征金字塔網(wǎng)絡(luò)的番茄器官識(shí)別方法,采用Soft—NMS代替非極大值抑制篩選番茄器官邊界框,構(gòu)建番茄關(guān)鍵器官識(shí)別模型。Hsieh等[9]使用Mask R—CNN對(duì)象檢測(cè)算法開(kāi)發(fā)了水果成熟度檢測(cè)系統(tǒng)。使用ResNet—101的COCO預(yù)訓(xùn)練模型的遷移學(xué)習(xí)被應(yīng)用于主干。
圣女果表面缺陷程度是衡量圣女果質(zhì)量的一個(gè)重要指標(biāo)[10]。目前,國(guó)內(nèi)大多采用的是傳統(tǒng)的圣女果分級(jí)機(jī),傳統(tǒng)的圣女果分級(jí)機(jī)是通過(guò)圣女果個(gè)頭大小進(jìn)行分級(jí),不能準(zhǔn)確檢測(cè)到圣女果表面的缺陷。針對(duì)上述問(wèn)題,本文提出一種基于改進(jìn)InceptionV3模型與遷移學(xué)習(xí)相結(jié)合的檢測(cè)方法,實(shí)現(xiàn)對(duì)圣女果表面缺陷檢測(cè)識(shí)別的方法。建立4類圣女果缺陷數(shù)據(jù)集,以IncetionV3網(wǎng)絡(luò)模型為基礎(chǔ),微調(diào)構(gòu)建新的模塊,添加雙重注意力融合網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建N—InceptionV3_FD模型,提高模型準(zhǔn)確率和穩(wěn)定性。
1 圖像采集與數(shù)據(jù)集構(gòu)建
1.1 圣女果圖像采集
搭建數(shù)據(jù)采集裝置(圖1),在實(shí)驗(yàn)室自然光照下,以白色桌布為背景,固定位置擺放圣女果,采用佳能EOS80D單反相機(jī)(1 800萬(wàn)像素)拍攝圣女果圖像。
試驗(yàn)數(shù)據(jù)采集自山東青島平度,研究對(duì)象的品種為“釜山88圣女果”,圣女果缺陷各類圖像如圖2所示。
1.2 圖像預(yù)處理及構(gòu)建
將預(yù)處理后的圖像進(jìn)行整理,得到5 184像素×3 456像素的圖像共1 045幅。針對(duì)小樣本泛化能力不足的問(wèn)題,在訓(xùn)練前增加圖像數(shù)量可以提高訓(xùn)練結(jié)果的準(zhǔn)確率,對(duì)訓(xùn)練集中的圖像執(zhí)行一系列隨機(jī)變換操作。數(shù)據(jù)增強(qiáng)是一種技術(shù)手段,利用有限的數(shù)據(jù)生成具有相同價(jià)值的新數(shù)據(jù),以此來(lái)增加訓(xùn)練數(shù)據(jù)集的質(zhì)量。這種方法能夠通過(guò)處理后的圖片輸入到神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,為算法提供更多信息,從而提升網(wǎng)絡(luò)的魯棒性并降低其他識(shí)別因素的干擾,部分?jǐn)?shù)據(jù)增強(qiáng)后的圣女果圖像如圖3所示。將圣女果圖像劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,數(shù)量比例為7∶2∶1。去除增強(qiáng)后的無(wú)效圖像后,結(jié)合計(jì)算機(jī)配置及各項(xiàng)功能,隨機(jī)選擇5 184像素×3 456像素的圖像1 045幅后構(gòu)建4類采摘后圣女果圖像數(shù)據(jù)集,詳見(jiàn)表1。
1.3 模型性能評(píng)價(jià)指標(biāo)
在訓(xùn)練完成之后,需要對(duì)模型性能進(jìn)行評(píng)估[11," 12]。為全面衡量模型的識(shí)別性能,采用準(zhǔn)確率Accuracy、精確率Precision、召回率Recall、調(diào)和平均值F1—Score作為模型的評(píng)價(jià)指標(biāo),計(jì)算如式(1)~式(4)所示。Accuracy為所有被正確識(shí)別的樣本數(shù)占總樣本數(shù)的比例。Accuracy是一個(gè)常見(jiàn)且直觀的評(píng)價(jià)指標(biāo),但是在樣本數(shù)量不平衡時(shí),Accuracy的值更容易偏向數(shù)量更多的樣本。試驗(yàn)在構(gòu)建數(shù)據(jù)集時(shí),控制所有數(shù)據(jù)集樣本量保持一致,避免出現(xiàn)上述問(wèn)題。Precision是衡量模型正確預(yù)測(cè)能力的指標(biāo),代表被正確預(yù)測(cè)的樣本數(shù)量占被預(yù)測(cè)成該類別總樣本數(shù)量的比重。Recall表示被正確預(yù)測(cè)的樣本數(shù)量占該類別總樣本數(shù)的比例。F1—Score是結(jié)合Precision和Recall的綜合指標(biāo),其取值范圍是0~1,1代表模型的最優(yōu)輸出,0代表模型的最差輸出。
Accuracy=TP+TNTP+TN+FT+FN
(1)
Presicion=TPTP+FP
(2)
Recall=TPTP+FN
(3)
F1—score=2×Presicion×RecallPresicion+Recall
(4)
式中: TP——實(shí)際為正被預(yù)測(cè)為正的樣本數(shù)量;
FP——實(shí)際為負(fù)但被預(yù)測(cè)為正的樣本數(shù)量;
FN——實(shí)際為正但被預(yù)測(cè)為負(fù)的樣本數(shù)量;
TN——實(shí)際為負(fù)被預(yù)測(cè)為負(fù)的樣本數(shù)量。
1.4 試驗(yàn)環(huán)境及模型參數(shù)配置
基于TensorFlow平臺(tái),采用Keras深度學(xué)習(xí)框架,使用Jupyter搭建模型,詳細(xì)超參數(shù)如表2所示。
2 試驗(yàn)方法
2.1 遷移學(xué)習(xí)
遷移學(xué)習(xí)也稱為歸納遷移,其目標(biāo)是將某個(gè)領(lǐng)域或任務(wù)上學(xué)習(xí)到的知識(shí)或模式應(yīng)用到不同但相關(guān)的領(lǐng)域或問(wèn)題中[13]。在傳統(tǒng)機(jī)器學(xué)習(xí)中,每個(gè)任務(wù)都需要從頭開(kāi)始訓(xùn)練模型,耗費(fèi)大量時(shí)間和計(jì)算資源。而遷移學(xué)習(xí)則可以利用已有模型的特征表示和參數(shù)初始化,提高新任務(wù)的學(xué)習(xí)效率和性能。遷移學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)名詞,指一種學(xué)習(xí)對(duì)另一種學(xué)習(xí)的影響,或習(xí)得的經(jīng)驗(yàn)對(duì)完成其他活動(dòng)的影響。通俗來(lái)講,遷移學(xué)習(xí)就是利用數(shù)據(jù)、任務(wù)、模型間的相似性,將訓(xùn)練好的內(nèi)容應(yīng)用到新的任務(wù)上。由于這一過(guò)程發(fā)生在兩個(gè)領(lǐng)域間,已有的知識(shí)和數(shù)據(jù),也就是被遷移的對(duì)象被稱為源域,被賦予經(jīng)驗(yàn)的領(lǐng)域被稱為目標(biāo)域,遷移學(xué)習(xí)不是具體的模型,更像是解題思路。遷移學(xué)習(xí)就是通過(guò)找到已知事物和未知事物之間的相似之處來(lái)學(xué)習(xí)認(rèn)識(shí)未知事物,降低直接對(duì)目標(biāo)域從頭開(kāi)始學(xué)習(xí)的高成本,從而提高模型的訓(xùn)練速度、節(jié)省硬件資源,解決數(shù)據(jù)集樣本過(guò)小等問(wèn)題。
遷移學(xué)習(xí)通過(guò)運(yùn)用已知事物的相關(guān)知識(shí)來(lái)快速輔助學(xué)習(xí)未知事物,網(wǎng)絡(luò)模型利用在ImageNet數(shù)據(jù)集上訓(xùn)練好參數(shù)的權(quán)重文件,再對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練參數(shù)或增加注意力機(jī)制等方式進(jìn)行遷移學(xué)習(xí),這種學(xué)習(xí)方式在訓(xùn)練好參數(shù)的經(jīng)典模型中,通常會(huì)取得較好的識(shí)別效果。如何合理地發(fā)現(xiàn)二者之間相似性,進(jìn)而利用這個(gè)橋梁來(lái)幫助學(xué)習(xí)新知識(shí),是遷移學(xué)習(xí)的核心問(wèn)題[14]。
2.2 InceptionV3網(wǎng)絡(luò)結(jié)構(gòu)
InceptionV3是一種深度卷積神經(jīng)網(wǎng)絡(luò)模型,InceptionV3模型的深度為159,共23 903 010個(gè)參數(shù),大小為92 MB,其結(jié)構(gòu)參數(shù)如表3所示。
InceptionV3模型中的Inception module最明顯的特點(diǎn)是神經(jīng)網(wǎng)絡(luò)各層之間卷積運(yùn)算的改進(jìn)和擴(kuò)展[15," 16],用多個(gè)分支提取不同抽象程度的特征信息,以提高網(wǎng)絡(luò)的表達(dá)能力[17]。這種多尺度設(shè)計(jì)使得模型可以同時(shí)感知圖像的細(xì)節(jié)和整體結(jié)構(gòu),從而提高分類和識(shí)別的準(zhǔn)確性。每個(gè)Inception模塊都由多個(gè)分支組成,每個(gè)分支都有不同的卷積核大小和步幅,以捕捉不同尺度的特征。InceptionV3模塊分支結(jié)構(gòu)如圖4所示。
2.3 初始網(wǎng)絡(luò)模型對(duì)比
試驗(yàn)共使用5種未微調(diào)卷積神經(jīng)網(wǎng)絡(luò)模型VGG16、VGG19、MobileNetV2、InceptionV3、ResNetV2對(duì)數(shù)據(jù)集進(jìn)行遷移學(xué)習(xí),5種網(wǎng)絡(luò)模型訓(xùn)練后識(shí)別準(zhǔn)確率如表4所示。InceptionV3的準(zhǔn)確率為89.22%,平均運(yùn)行時(shí)間相對(duì)較短,更適合當(dāng)前圖像識(shí)別任務(wù)。
2.4 引入并修改寬度因子
在InceptionV3中,寬度因子被應(yīng)用于每個(gè)Inception模塊的卷積層中,包括3×3卷積層、5×5卷積層和1×1卷積層??梢酝ㄟ^(guò)修改寬度因子來(lái)調(diào)整卷積核數(shù)量,降低InceptionV3模型的參數(shù)量,使InceptionV3模型效率更快。引入寬度因子α來(lái)壓縮通道數(shù)量,提高模型訓(xùn)練速度。壓縮后的通道數(shù)量為N=αd,d為原始的網(wǎng)絡(luò)通道數(shù)。
由表5可知,當(dāng)α=0.25時(shí),模型速度最快,但準(zhǔn)確率不足;當(dāng)α=1.00時(shí),模型準(zhǔn)確率最高,但速度最慢。綜合考慮模型的平均運(yùn)行時(shí)間、識(shí)別每幅圖像的時(shí)間和準(zhǔn)確率,本試驗(yàn)選擇寬度因子α=0.5。
2.5 添加并修改全連接層神經(jīng)元個(gè)數(shù)
降低完InceptionV3模型的參數(shù)量后,需要提升InceptionV3模型的準(zhǔn)確率。InceptionV3模型被認(rèn)為是端到端的卷積神經(jīng)網(wǎng)絡(luò),沒(méi)有全連接層。其最后一層是一個(gè)全局平均池化層,將每個(gè)特征圖上的所有數(shù)值平均起來(lái),生成一個(gè)固定長(zhǎng)度的向量,然后該向量被輸入softmax層中進(jìn)行分類。全連接層在整個(gè)卷積神經(jīng)網(wǎng)絡(luò)中起到“分類器”的作用,起到把學(xué)到的“分布式特征表示”映射到樣本標(biāo)記空間的作用[18]。單個(gè)全連接層神經(jīng)元個(gè)數(shù)增加,增加寬度,模型復(fù)雜度提升,理論上可以提高模型的學(xué)習(xí)能力。但并不是數(shù)量越多越好,可能會(huì)造成過(guò)擬合以及運(yùn)行效率降低等后果。選擇修改寬度因子后的InceptionV3模型作為基準(zhǔn)模型,保持其他參數(shù)不變,添加一層全連接層并選擇不同神經(jīng)元數(shù)量,分別為128、256、512、1 024,搭配SELU激活函數(shù),學(xué)習(xí)率設(shè)置為0.001,在數(shù)據(jù)集上進(jìn)行訓(xùn)練測(cè)試,結(jié)果如圖5所示。
神經(jīng)元數(shù)量為128、256、512、1024,在測(cè)試集上的平均準(zhǔn)確率分別為88.24%、89.22%、91.18%、80.39%。對(duì)比數(shù)據(jù)發(fā)現(xiàn),當(dāng)神經(jīng)元連接數(shù)量為512時(shí),驗(yàn)證集準(zhǔn)確率最高,因此,在對(duì)圣女果表面缺陷識(shí)別時(shí)可以選擇全連接層神經(jīng)元的數(shù)量為512。改進(jìn)后的InceptionV3模型命名為N—InceptionV3模型。
2.6 雙重注意力融合網(wǎng)絡(luò)結(jié)構(gòu)
注意力機(jī)制是模擬人眼系統(tǒng)對(duì)觀察場(chǎng)景所加關(guān)注程度不一樣這一機(jī)制而設(shè)計(jì)出來(lái)的,注意力機(jī)制可以描述為將一個(gè)查詢和一組鍵值對(duì)映射到一個(gè)輸出[19],添加注意力機(jī)制可以增強(qiáng)圖像特征表達(dá)的魯棒性和泛化能力。DANET是一種包含注意力機(jī)制的網(wǎng)絡(luò)模型。引入雙重注意力機(jī)制,分別是空間注意力機(jī)制和通道注意力機(jī)制,用于增強(qiáng)網(wǎng)絡(luò)對(duì)圖像中的重要信息的感知能力。空間注意力模塊和通道注意力模塊在網(wǎng)絡(luò)中的結(jié)合,使得DANet能夠在各種圖像分割任務(wù)中實(shí)現(xiàn)高精度的性能,從而增強(qiáng)特征表達(dá)的魯棒性和泛化能力??臻g注意力模塊可以捕捉空間信息,而通道注意力模塊則可以捕捉通道之間的相關(guān)性。二者網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
DANet計(jì)算如式(5)所示。
Sji=exp(Bi·Cj)∑Ni=1exp(Bi·Cj)
(5)
式中: Sji——i位置對(duì)j位置的影響。
首先,特征圖A(維度為c×h×w)經(jīng)過(guò)一個(gè)卷積層處理后,生成新的特征映射D,其維度仍為c×h×w。其次,將D的形狀調(diào)整為c×n,其中N是像素點(diǎn)總數(shù),即h×w。然后,將調(diào)整后的D與空間注意力圖S的轉(zhuǎn)置進(jìn)行矩陣乘法運(yùn)算,得到一個(gè)c×n大小的矩陣。之后將這個(gè)矩陣恢復(fù)為c×h×w的維度。最后,將這個(gè)矩陣乘以系數(shù)α,并與原始特征圖A相加,從而實(shí)現(xiàn)空間注意力機(jī)制,計(jì)算如式(6)所示。
Ej=α∑Ni=1(SijDi)+Aj
(6)
通道注意力的實(shí)現(xiàn)與空間注意力機(jī)制類似。特征圖A(c×h×w)重塑成c×n的矩陣,分別經(jīng)過(guò)轉(zhuǎn)置、矩陣乘法、Softmax到注意力圖X(c×c),計(jì)算如式(7)所示。
Xji=exp(Aj·Aj)∑Ci=1exp(Aj·Aj)
(7)
隨后這個(gè)注意力圖X與reshape成c×n的A矩陣進(jìn)行矩陣乘法,得到的輸出(c×n)再reshape成c×h×w和原始特征圖A進(jìn)行加權(quán),計(jì)算如式(8)所示。
Ej=β∑Ci=1(XjiAi)+Aj
(8)
式中: β——
可學(xué)習(xí)的參數(shù),β初始值為0,通過(guò)逐漸學(xué)習(xí)可獲得更大權(quán)重。
2.7 構(gòu)建N—InceptionV3_FD模型
利用參數(shù)遷移學(xué)習(xí)的方法將調(diào)整完的N—InceptionV3模型的共性知識(shí)進(jìn)行遷移[20],構(gòu)成圣女果表面缺陷識(shí)別模型N—InceptionV3_FD,N—InceptionV3的前半部分包含一些卷積層和池化層,通過(guò)多個(gè)Inception模塊提取特征。最后一個(gè)Inception模塊的輸出被連接到DANet中,DANet的輸出再次連接到N—InceptionV3的最后一個(gè)卷積層的輸入上,得到一個(gè)加入DANet的N—InceptionV3網(wǎng)絡(luò)結(jié)構(gòu)。以此構(gòu)建基于改進(jìn)的N—InceptionV3和遷移學(xué)習(xí)的圣女果表面缺陷識(shí)別模型N—InceptionV3_FD,以提高模型識(shí)別率。N—InceptionV3_FD模型結(jié)構(gòu)如圖7所示。
3 試驗(yàn)結(jié)果與分析
3.1 添加注意力機(jī)制對(duì)比
為驗(yàn)證改進(jìn)N—InceptionV3網(wǎng)絡(luò)模型中的DANet注意力機(jī)制模塊對(duì)改進(jìn)模型識(shí)別的影響,設(shè)計(jì)3組網(wǎng)絡(luò)模型,分別為包含DANet注意力機(jī)制模塊模型InceptionV3_FD模型、沒(méi)有添加注意力機(jī)制模塊的N—InceptionV3模型、沒(méi)有任何改動(dòng)的初始InceptionV3模型。將這3組網(wǎng)絡(luò)模型采用相同的批處理尺寸、學(xué)習(xí)率和迭代次數(shù)進(jìn)行訓(xùn)練,試驗(yàn)結(jié)果如圖8所示。InceptionV3模型的識(shí)別準(zhǔn)確率為89.22%,改進(jìn)后的N—InceptionV3模型的識(shí)別準(zhǔn)確率為91.18%,包含DANet注意力機(jī)制模塊模型N—InceptionV3_FD模型的識(shí)別準(zhǔn)確率為97.06%。添加DANet注意力機(jī)制模塊可以提高網(wǎng)絡(luò)模型識(shí)別準(zhǔn)確率。由此可見(jiàn),DANet注意力機(jī)制模塊有助于網(wǎng)絡(luò)模型更好地關(guān)注有效特征,提高模型提取特征的能力,從而提高網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率[21]。
3.2 消融試驗(yàn)
為證實(shí)算法改進(jìn)的有效性,進(jìn)行消融試驗(yàn)。對(duì)比N—InceptionV3_ED與InceptionV3在同一位置,參數(shù)不變的情況下分別添加SENet、EANet、DANet的測(cè)試準(zhǔn)確率。具體數(shù)據(jù)如表6所示。
由表6可知,N—InceptionV3_ED模型在圣女果果實(shí)表面缺陷識(shí)別檢測(cè)方面,準(zhǔn)確率最高,達(dá)到97.06%。N—InceptionV3_FD模型對(duì)不同圣女果種類識(shí)別結(jié)果如表7所示。
由表7和圖9可知,N—InceptionV3_FD模型的測(cè)試結(jié)果在不同品質(zhì)上識(shí)別的均較為準(zhǔn)確,其中畸形果和皺皮果的識(shí)別準(zhǔn)確率達(dá)到100%,且好果與裂痕果的識(shí)別準(zhǔn)確率在90%以上,證明N—InceptionV3_FD模型可以很好地運(yùn)用于圣女果果實(shí)采摘后的分級(jí)識(shí)別研究。
3.3 可視化分析
熱力圖是一種用于可視化神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征的方法。作為一種可視化工具,熱力圖在神經(jīng)網(wǎng)絡(luò)特征學(xué)習(xí)中發(fā)揮著重要作用。在熱力圖中紅色區(qū)域代表高激活度,顏色越深則激活程度越高;而藍(lán)色區(qū)域則代表低激活或未激活狀態(tài)。圖10為N—InceptionV3_ED所得的熱力圖,可以看出,盡管不同品質(zhì)的圣女果圖像在熱力圖中所關(guān)注的核心決策區(qū)域存在差異,但圣女果圖像中間的自身位置均處于熱力圖高亮區(qū)。表明其著重關(guān)注4種不同品質(zhì)圣女果圖像中間的特征。
4 結(jié)論
1) 采用inceptionV3進(jìn)行模型訓(xùn)練,最終改進(jìn)模型N—InceptionV3_FD準(zhǔn)確率為97.06%,損失函數(shù)值趨于平穩(wěn),并穩(wěn)定在0.1。
2) 通過(guò)試驗(yàn)對(duì)比分析,初始InceptionV3模型要比VGG16模型、VGG19模型、MobileNetV2模型、ResNetV2模型的準(zhǔn)確率高,在同等條件下準(zhǔn)確率分別高13.73%、9.81%、3.93%、5.89%,且平均運(yùn)行時(shí)間相對(duì)較短,因此選擇InceptionV3模型進(jìn)行改進(jìn)。
3) 考慮到InceptionV3模型參數(shù)量較大,在對(duì)InceptionV3模型提升準(zhǔn)確率前先通過(guò)引入寬度因子α來(lái)壓縮通道數(shù)量,提高模型訓(xùn)練速度。同時(shí)考慮α取不同值時(shí)的準(zhǔn)確率和效率,選擇寬度因子α的值為0.5。
4) 添加并修改全連接層神經(jīng)元個(gè)數(shù)理論上可以提高模型的學(xué)習(xí)能力。結(jié)果表明,添加一層全連接層神經(jīng)元個(gè)數(shù)為512要比神經(jīng)元個(gè)數(shù)為128、256、1024的準(zhǔn)確率高,在同等條件下準(zhǔn)確率分別高2.94%、1.96%、10.79%。因此,選擇其中準(zhǔn)確率最高的神經(jīng)元個(gè)數(shù)為512來(lái)組成N—InceptionV3模型。
5) 添加注意力機(jī)制可以增強(qiáng)圖像特征表達(dá)的魯棒性和泛化能力。結(jié)果表明,添加DANet模型N—InceptionV3_FD模型比N—InceptionV3模型和初始InceptionV3模型在同等條件下準(zhǔn)確率分別高5.88%、7.84%。因此,選擇添加DANet注意力機(jī)制模塊模型N—InceptionV3_FD模型作為最終改進(jìn)模型。
參 考 文 獻(xiàn)
[1] 胡亞云, 傅虹飛, 寇莉萍. 模擬超市銷售期間圣女果質(zhì)構(gòu)特性變化的研究[J]. 食品工業(yè)科技, 2012, 33(4): 383-386.
Hu Yayun, Fu Hongfei, Kou Liping. Study on texture characteristic changes of cherry tomato during the shelf phase [J]. Science and Technology of Food Industry, 2012, 33(4): 383-386.
[2] Block Q, Patterson B, Subar A. Fruit, vegetables, and cancer prevention: A review of the epidemiological evidence [J]. Nutrition and Cancer, 1992, 18(1): 1-29.
[3] 常培培, 梁燕, 張靜, 等. 5種不同果色櫻桃番茄品種果實(shí)揮發(fā)性物質(zhì)及品質(zhì)特性分析[J]. 食品科學(xué), 2014, 35(22): 215-221.
Chang Peipei, Liang Yan, Zhang Jing, et al. Volatile components and quality characteristics of cherry tomato from five color varieties [J]. Food Science, 2014, 35(22): 215-221.
[4] 張文婷, 趙武奇, 魯曉翔, 等. 四種物流貯藏溫度對(duì)圣女果品質(zhì)的影響[J]. 食品工業(yè)科技, 2015, 36(5): 329-333.
Zhang Wenting, Zhao Wuqi, Lu Xiaoxiang, et al. Effect of 4 kinds of logistics storage temperature on the quality of cherry tomatoes [J]. Science and Technology of Food Industry, 2015, 36(5): 329-333.
[5] Xu P, Fang N, Liu N, et al. Visual recognition of cherry tomatoes in plant factory based on improved deep instance segmentation [J]. Computers and Electronics in Agriculture, 2022, 197: 106991.
[6] Xiang Y, Chen Q, Su Z, et al. Hyperspectral Imaging for cherry tomato [J]. arXiv preprint arXiv:2203.05199, 2022.
[7] Yuan T, Lü L, Zhang F, et al. Robust cherry tomatoes detection algorithm in greenhouse scene based on SSD [J]. Agriculture, 2020, 10(5): 160.
[8] Sun J, He X, Wu M, et al. Detection of tomato organs based on convolutional neural network under the overlap and occlusion backgrounds [J]. Machine Vision and Applications, 2020, 31: 1-13.
[9] Hsieh K W, Huang B Y, Hsiao K Z, et al. Fruit maturity and location identification of beef tomato using R—CNN and binocular imaging technology [J]. Journal of Food Measurement and Characterization, 2021, 15(6): 5170-5180.
[10] 田華, 汪金萍, 王遠(yuǎn). 圣女果品質(zhì)特征及檢測(cè)技術(shù)研究進(jìn)展[J]. 食品研究與開(kāi)發(fā), 2018, 39(11): 204-209.
Tian Hua, Wang Jinping, Wang Yuan. Research progress on quality detection of cherry tomatoes [J]. Food Research and Development, 2018, 39(11): 204-209.
[11] 高芳征, 湯文俊, 陳光明, 等. 基于改進(jìn)YOLOv3的復(fù)雜環(huán)境下西紅柿成熟果實(shí)快速識(shí)別[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào), 2023, 44(8): 174-183.
Gao Fangzheng, Tang Wenjun, Chen Guangming, et al. Fast recognition of ripe tomato fruits in complex environment based on improved YOLOv3 [J]. Journal of Chinese Agricultural Mechanization, 2023, 44(8): 174-183.
[12] 李平, 馬玉琨, 李艷翠, 等. 基于遷移學(xué)習(xí)的小麥籽粒品種識(shí)別研究[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào), 2023, 44(7): 220-228.
Li Ping, Ma Yukun, Li Yancui, et al. Study on wheat seed variety identification based transfer learning [J]. Journal of Chinese Agricultural Mechanization, 2023, 44(7): 220-228.
[13] 王佳, 馬睿, 趙威, 等. 基于微調(diào)型VGG16的登海605玉米品種鑒別方法研究[J]. 中國(guó)糧油學(xué)報(bào), 2023(8): 229-234.
Wang Jia, Ma Rui, Zhao Wei, et al. Research on identification method of Denghai 605 maize variety based on fine-tuning VGG16 [J]. Journal of the Chinese Cereals and Oils Association, 2023(8): 229-234.
[15] Nainan N A, Jeevika H, Jalan R, et al. Real time face mask detection using MobileNetV2 and InceptionV3 models [C]. IEEE Mysore Sub Section International Conference (MysuruCon). IEEE, 2021: 341-345.
[16] 史冊(cè), 南新元. 改進(jìn)InceptionV3與遷移學(xué)習(xí)的太陽(yáng)能電池板缺陷識(shí)別[J]. 計(jì)算機(jī)工程與科學(xué), 2023, 45(4): 646-653.
Shi Ce, Nan Xinyuan. Improved InceptionV3 and transfer learning for solar panel defect recognition [J]. Computer Engineering amp; Science, 2023, 45(4): 646-653.
[17] 謝虹, 姜文剛. RRA—InceptionV3結(jié)合魯棒的稀疏表示的表情識(shí)別方法[J]. 計(jì)算機(jī)工程, 2023, 49(7): 196-203.
Xie Hong, Jiang Wengang. RRA—InceptionV3 combined robust sparse representation method for expression recognition [J]. Computer Engineering, 2023, 49(7): 196-203.
[18] 朱虎明, 李佩, 焦李成, 等. 深度神經(jīng)網(wǎng)絡(luò)并行化研究綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2018, 41(8): 1861-1881.
Zhu Huming, Li Pei, Jiao Licheng, et al. Review of parallel deep neural network [J]. Chinese Journal of Computers, 2018, 41(8): 1861-1881.
[19] 余勝, 謝莉. 基于遷移學(xué)習(xí)和卷積視覺(jué)轉(zhuǎn)換器的農(nóng)作物病害識(shí)別研究[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào), 2023, 44(8): 191-197.
Yu Sheng, Xie Li. Research on plant disease identification based on transfer learning and convolutional vision transformer [J]. Journal of Chinese Agricultural Mechanization, 2023, 44(8): 191-197.
[20] 巨志勇, 馬素萍. 改進(jìn)的InceptionV3果蔬識(shí)別算法[J]. 包裝工程, 2019, 40(21): 30-35.
[21] 鄧志軍, 田秋紅. 改進(jìn)Inception—v3網(wǎng)絡(luò)的手勢(shì)圖像識(shí)別[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2022, 31(11): 157-166.
Deng Zhijun, Tian Qiuhong. Improved Inception—v3 network for gesture image recognition [J]. Computer Systems amp; Applications, 2022, 31(11): 157-166.