摘 要:針對(duì)光照、遮擋、果實(shí)密集以及分布不均衡等復(fù)雜環(huán)境造成草莓識(shí)別不準(zhǔn)確問(wèn)題,該文提出一種基于YOLOv7的改進(jìn)模型為YOLOv7-SCC,制作草莓樣本數(shù)據(jù)集建立真實(shí)采摘的復(fù)雜環(huán)境數(shù)據(jù),首先,使用輕量級(jí)特征提取網(wǎng)絡(luò)ShuffleNetv2替換YOLOv7主干網(wǎng)絡(luò),實(shí)現(xiàn)輕量化的同時(shí)有效減少模型參數(shù)量;其次,引入CBAM注意力機(jī)制模塊,從而增強(qiáng)特征網(wǎng)絡(luò)對(duì)草莓區(qū)域的識(shí)別;最后,選用內(nèi)容感知特征重組(CARAFE)上采樣來(lái)擴(kuò)展特征融合網(wǎng)絡(luò)中的感受野并充分利用語(yǔ)義信息。經(jīng)實(shí)驗(yàn),改進(jìn)后的模型參數(shù)量降低59%,浮點(diǎn)數(shù)降低68.2%,準(zhǔn)確率為99.6%。結(jié)果證明,改進(jìn)后的YOLOv7-SCC可以實(shí)現(xiàn)草莓成熟度的準(zhǔn)確識(shí)別,同時(shí)保持高精度,使其成為與其他算法相比更適合高壟草莓成熟度檢測(cè)的選擇。
關(guān)鍵詞:高壟草莓;成熟度檢測(cè);YOLOv7;ShuffleNetv2;CBAM;CARAFE
中圖分類(lèi)號(hào):TP183 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2096-9902(2024)21-0001-07
Abstract: Aiming at the problem of inaccurate strawberry identification caused by complex environments such as light, occlusion, dense fruits and uneven distribution, this paper proposes an improved model based on YOLOv7 to YOLOv7-SCC to create a strawberry sample dataset to establish real picking complex environment data. First, use ShuffleNetv2 to replace the YOLOv7 backbone network to achieve lightweight and effectively reduce the amount of model parameters; Secondly, the CBAM attention mechanism module is introduced to enhance the recognition of strawberry areas by the feature network; finally, Content-Aware ReAssembly of FEatures(CARAFE) upsampling is selected to expand the receptive fields in the feature fusion network and make full use of semantic information. After experiments, the parameter quantity of the improved model is reduced by 59%, the floating point number is reduced by 68.2%, and the accuracy rate is 99.6%. The results proved that the improved YOLOv7-SCC can accurately identify strawberry ripeness while maintaining high accuracy, making it a more suitable choice for high-ridge strawberry ripeness detection than other algorithms.
Keywords: high-ridge strawberry; maturity test; YOLOv7; ShuffleNetv2; CBAM; CARAFE
草莓口感良好,營(yíng)養(yǎng)成分高,是春冬季節(jié)常見(jiàn)的水果之一[1]。草莓被廣泛用于制作蛋糕、果脯和果汁等產(chǎn)品,具有良好的市場(chǎng)前景,因此,種植前景也很廣闊[2]。從20世紀(jì)開(kāi)始,我國(guó)從國(guó)外了解到草莓這種新型水果,各地漸漸有特定的種植區(qū)進(jìn)行草莓的種植。隨著經(jīng)濟(jì)實(shí)力的增強(qiáng)及社會(huì)生活水平的提高,我國(guó)已成為全世界草莓種植面積、產(chǎn)量最大的國(guó)家。目前,國(guó)內(nèi)草莓的栽培面積已達(dá)10萬(wàn)hm2,總產(chǎn)量達(dá)188萬(wàn)t,草莓的采摘收獲主要依靠人工,存在勞動(dòng)強(qiáng)度較大,成本高等問(wèn)題[3],因此,機(jī)械化采摘成為草莓產(chǎn)業(yè)化種植發(fā)展的必然趨勢(shì),然而由于田間環(huán)境復(fù)雜,準(zhǔn)確識(shí)別草莓成熟度難度較大,這使得計(jì)算機(jī)視覺(jué)技術(shù)近幾年來(lái)在農(nóng)業(yè)中得到了廣泛的應(yīng)用。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)可以實(shí)現(xiàn)二維圖像數(shù)據(jù)的高精度識(shí)別,研究人員嘗試將CNN應(yīng)用于草莓檢測(cè),此外,目標(biāo)檢測(cè)任務(wù)被應(yīng)用于廣泛場(chǎng)景中皆取得不錯(cuò)的成果,快速穩(wěn)定的目標(biāo)識(shí)別系統(tǒng)能夠使采摘機(jī)器人進(jìn)行長(zhǎng)時(shí)間有效的工作,大大提高了采摘效率。目前,深度卷積神經(jīng)網(wǎng)絡(luò)主要有兩大類(lèi),其中以YOLO系列[4-6]為代表的單階段目標(biāo)檢測(cè)算法(One-stage),雖然檢測(cè)速度比兩階段目標(biāo)檢測(cè)算法(Two-stage)算法更快,但精度有所損失;以Faster R-CNN[7]為代表的兩階段目標(biāo)檢測(cè)算法,通常精度比單階段目標(biāo)檢測(cè)算法更高,但檢測(cè)速度更慢。
文獻(xiàn)[8]中將草莓成熟度分為成熟、近成熟、未成熟3個(gè)標(biāo)準(zhǔn),并結(jié)合YOLOv5與暗通道圖像增強(qiáng)來(lái)識(shí)別草莓成熟度。文獻(xiàn)[9]提出一種基于低空遙感技術(shù)結(jié)合深度學(xué)習(xí)的草莓植株識(shí)別新方案,選用Fasrer-RCNN檢測(cè)框架進(jìn)行試驗(yàn),通過(guò)可見(jiàn)光譜波段低空遙感影像中草莓植株冠層的外部輪廓特征來(lái)定義草莓植株的判別標(biāo)準(zhǔn)。文獻(xiàn)[10]水果檢測(cè)通過(guò)傳統(tǒng)的數(shù)字圖像處理、基于機(jī)器學(xué)習(xí)的圖像分割和分類(lèi)以及基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法來(lái)實(shí)現(xiàn)。文獻(xiàn)[11]提出使用神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)草莓果實(shí)的一種既快速又精確的檢測(cè)系統(tǒng)。提供實(shí)時(shí)視頻作為輸入,各個(gè)幀將使用深度信息進(jìn)行增強(qiáng),以提供每個(gè)草莓的位置,該系統(tǒng)用于檢測(cè)大規(guī)模采收的草莓。文獻(xiàn)[12]提出了一種使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)草莓果實(shí)成熟度的自動(dòng)化系統(tǒng)。CNN用于提取草莓表面的顏色、大小和形狀特征,測(cè)試數(shù)據(jù)根據(jù)提取到的特征進(jìn)行草莓分類(lèi),第二階段分類(lèi)的產(chǎn)出決定了草莓是否成熟或受損,分類(lèi)輸出以及分類(lèi)圖像顯示在GUI上。
高壟草莓生長(zhǎng)環(huán)境復(fù)雜惡劣,常有泥土、枝葉等遮擋草莓,同時(shí)亦有大量顏色相近的草莓聚集,易造成簇?fù)?、重疊、遮擋等現(xiàn)象,導(dǎo)致草莓目標(biāo)檢測(cè)難度大。因此,在識(shí)別過(guò)程中需要考慮以下幾個(gè)方面的問(wèn)題。草莓形狀的差異性,在目標(biāo)重疊和遮擋的情況下,較難通過(guò)目標(biāo)的外形信息來(lái)進(jìn)行區(qū)分;草莓表面顏色的差異性,草莓會(huì)因其表面紋理的差異,同時(shí)受到光照、陰影等因素的影響,導(dǎo)致圖像中的草莓出現(xiàn)亮度和顏色變化,進(jìn)而影響識(shí)別結(jié)果;草莓背景的復(fù)雜性,其識(shí)別背景往往比較復(fù)雜,存在泥土、綠葉等干擾信息,使得背景中的紋理和顏色等信息與草莓果實(shí)的信息混淆,干擾識(shí)別的準(zhǔn)確性。
由于上述差異,現(xiàn)有的目標(biāo)識(shí)別策略難以直接應(yīng)用于草莓識(shí)別領(lǐng)域,YOLOv7由于其更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練策略,具有更好的檢測(cè)精度和更快的推理速度,針對(duì)數(shù)據(jù)樣本存在的問(wèn)題進(jìn)行算法模型改進(jìn)與優(yōu)化,為成熟草莓機(jī)械化采摘提供研究基礎(chǔ)。
1 YOLOv7網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv7整體網(wǎng)絡(luò)架構(gòu)如圖1所示,主要由Input層、Backbone層和Head層這3部分組成。將640×640像素的RGB圖像輸入到骨干部分進(jìn)行特征提取,然后對(duì)提取的特征進(jìn)行頭部融合得到大、中、小尺寸特征,最后,將融合后的特征發(fā)送到檢測(cè)頭并輸出檢測(cè)結(jié)果。
YOLOv7網(wǎng)絡(luò)模型主要分為2部分:骨干網(wǎng)絡(luò)和檢測(cè)頭部;骨干網(wǎng)絡(luò)由ELAN模塊和MP-1模塊組成,ELAN模塊有2條分支,一條是經(jīng)過(guò)一個(gè)1×1的卷積做通道數(shù)變化,另一條先經(jīng)過(guò)一個(gè)1×1的卷積做通道數(shù)變化。再經(jīng)過(guò)4個(gè)3×3的卷積做特征提??;MP-1模塊是由2個(gè)相同長(zhǎng)度的分支組成的下采樣模塊,上分支由MaxPool和CBS模塊組成,下分支由2個(gè)CBS模塊組成,MP1模塊的作用是在特征圖下采樣過(guò)程中減少特征信息損失的同時(shí)減少參數(shù);SPPCSPC模塊是一種改進(jìn)的空間金字塔池化結(jié)構(gòu),該模塊在卷積中添加了并發(fā)的多個(gè)MaxPool操作過(guò)程,通過(guò)將并行最大池化操作與多個(gè)卷積塊相結(jié)合來(lái)避免圖像失真和特征復(fù)制。Head層使用的路徑聚合特征金字塔網(wǎng)絡(luò)(PAFPN)[13]通過(guò)引入自下而上的路徑實(shí)現(xiàn)了不同層次特征的高效融合,使得信息從底層到頂層的傳遞更加容易,在特征區(qū)域中訓(xùn)練重新參數(shù)卷積(Repconv)[14]模塊以獲得更詳細(xì)的信息。
2 改進(jìn)的YOLOv7模型
2.1 ShuffleNetv2
ShuffleNetv2[15]通常使用深度可分離卷積(Depthwise Separable Convolution)進(jìn)行下采樣,該結(jié)構(gòu)既能減少參數(shù)量又可以降低計(jì)算復(fù)雜度。通過(guò)分組卷積和通道混洗將網(wǎng)絡(luò)的通道數(shù)和深度分開(kāi)。在網(wǎng)絡(luò)的不同階段逐步減少特征圖的分辨率,進(jìn)而提高感受野并更大范圍地獲取上下文信息。
ShuffleNetv2主要的改進(jìn)是采用了通道混洗操作,這使得不同通道組之間可以有效地進(jìn)行信息交流,此操作增強(qiáng)了網(wǎng)絡(luò)捕獲空間和通道依賴(lài)關(guān)系的能力。ShuffleNetv2還利用深度可分離卷積,將卷積運(yùn)算分解為單獨(dú)的深度卷積和逐點(diǎn)卷積。該操作在降低了網(wǎng)絡(luò)的計(jì)算復(fù)雜度的同時(shí)還保留了其表達(dá)能力,ShuffleNetv2的基本單元如圖2所示。
2.2 CBAM
CBAM[16]是一個(gè)結(jié)合通道注意力和空間注意力的輕量級(jí)模塊,通過(guò)學(xué)習(xí)的方式自動(dòng)獲取每個(gè)特征通道的重要程度。
CBAM提取特征空間注意力的方式:經(jīng)過(guò)Channel Attention后,最終將經(jīng)過(guò)通道重要性選擇后的特征圖送入特征空間注意力模塊,空間注意力是以通道為單位進(jìn)行最大池化和平均池化,并將兩者的結(jié)果進(jìn)行concat,之后再一個(gè)卷積降成1×w×h的特征圖空間權(quán)重,再將該權(quán)重和輸入特征進(jìn)行點(diǎn)積,從而實(shí)現(xiàn)空間注意力機(jī)制。CBAM結(jié)構(gòu)如圖3所示。
通道注意力模塊的輸出Mc(F)如公式(1)所示
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))), (1)
式中:F是輸入特征圖,AvgPool和MaxPool分別表示全局平均池化和最大池化操作,MLP表示多層感知機(jī),σ表示Sigmoid激活函數(shù)。
空間注意力模塊的輸出Ms(F)通過(guò)公式(2)表示
Ms(F)=σ(f 7×7([AvgPool(F);MaxPool(F)])),(2)
式中:f 7×7表示一個(gè)7×7的卷積操作,[AvgPool(F);MaxPool(F)]表示將平均池化和最大池化結(jié)果沿通道軸拼接起來(lái)。
2.3 CARAFE
CARAFE的核心思想:使用輸入特征本身的內(nèi)容來(lái)指導(dǎo)上采樣過(guò)程,從而實(shí)現(xiàn)更精準(zhǔn)和高效的特征重建。CARAFE[17]由上采樣預(yù)測(cè)模塊和特征重組模塊組成,如圖4所示。
CARAFE模塊首先采用空間注意力機(jī)制來(lái)更好地關(guān)注空間位置,還引入了通道重加權(quán)機(jī)制,通過(guò)學(xué)習(xí)得到的通道權(quán)重可以對(duì)不同通道的特征響應(yīng)進(jìn)行加權(quán)組合,從而提高特征的表征能力。
上采樣預(yù)測(cè)模塊首先進(jìn)行特征圖通道壓縮,即用1×1卷積將尺寸為H×W×C的輸入特征圖的通道數(shù)壓縮至H×W×Cm,應(yīng)用kup×kup的卷積核進(jìn)行卷積運(yùn)算;然后進(jìn)行內(nèi)容編碼以生成重組內(nèi)核,輸入通道數(shù)為Cm,輸出通道數(shù)為σ2k,將通道數(shù)擴(kuò)展到σ2k以進(jìn)行內(nèi)容編碼;最后,對(duì)輸出進(jìn)行空間歸一化。特征重組模塊中將輸出特征圖與傳統(tǒng)特征圖得到的對(duì)應(yīng)位置作點(diǎn)積,得到輸出值。
2.4 YOLOv7-SCC模型
改進(jìn)后的YOLOv7-SCC模型主要由提取特征的主干網(wǎng)絡(luò)(Backbone)、頸部結(jié)構(gòu)和包含特征融合與特征圖輸出的Head組成。將640×640像素的RGB圖像輸入到主干部分,經(jīng)過(guò)輕量級(jí)骨干網(wǎng)絡(luò)ShuffleNetv2后輸出特征圖,加入CBAM注意力機(jī)制增強(qiáng)對(duì)草莓果實(shí)的特征,選用CARAFE上采樣可以利用底層的內(nèi)容信息來(lái)預(yù)測(cè)重組內(nèi)核,并在預(yù)定義的附近區(qū)域內(nèi)重組特征,確保在充分利用語(yǔ)義信息的同時(shí)還能擴(kuò)展特征融合網(wǎng)絡(luò)中的感受野。綜上所述,本文改進(jìn)的YOLOv7-SCC的整體結(jié)構(gòu)如圖5所示。
3 數(shù)據(jù)收集與結(jié)果分析
3.1 實(shí)驗(yàn)環(huán)境
本文選用的實(shí)驗(yàn)設(shè)備及硬件見(jiàn)表1。
3.2 數(shù)據(jù)集準(zhǔn)備
針對(duì)草莓采摘時(shí)受光照、環(huán)境等因素影響的問(wèn)題,本文在YOLOv7的基礎(chǔ)上主要做了以下改進(jìn),提出了一種新的檢測(cè)模型YOLOv7-SCC,克服了草莓果實(shí)準(zhǔn)確率低的問(wèn)題,提高了對(duì)小目標(biāo)的檢測(cè)能力。高壟草莓?dāng)?shù)據(jù)集按照8∶2的比例劃分為訓(xùn)練集和驗(yàn)證集,使用PyTorch和OpenCV對(duì)訓(xùn)練集進(jìn)行圖像增強(qiáng)處理,實(shí)現(xiàn)數(shù)據(jù)集的擴(kuò)展,原始數(shù)據(jù)集共804張圖像,增強(qiáng)后數(shù)據(jù)集為4 939張圖像,見(jiàn)表2。
表2 數(shù)據(jù)集中圖像數(shù)量分布
3.3 模型評(píng)估指標(biāo)
本研究主要從模型輕量化程度和識(shí)別準(zhǔn)確率來(lái)檢驗(yàn)?zāi)P偷男Ч?,采用選擇均值平均精度(mAP)、每秒千兆浮點(diǎn)運(yùn)算次數(shù)(GFLOPs)、每秒幀數(shù)(FPS)和參數(shù)量(Parameters)作為評(píng)價(jià)模型輕量化程度的4個(gè)指標(biāo)。
1)mAP指標(biāo):TP(True Positive)為正確檢測(cè)出草莓成熟度的樣本數(shù),F(xiàn)N(False Negative)為錯(cuò)誤檢測(cè)草莓成熟度的樣本數(shù),F(xiàn)P(False Positive)為未成熟草莓被錯(cuò)誤檢測(cè)為成熟草莓的樣本數(shù),TN(True Negative)為未成熟草莓被正確檢測(cè)為未成熟草莓的樣本數(shù)。AP是PR曲線下的面積,用于描述高壟草莓檢測(cè)的平均準(zhǔn)確度。
P= , (3)
R= , (4)
AP =PR dr , (5)
mAP=AP(i) 。(6)
2)GFLOPs:GFLOPs用來(lái)衡量模型的復(fù)雜度,計(jì)算公式如下所示
GFLOPs=(2CiK2-1)HWC0 , (7)
式中:Ci和C0表示輸入和輸出通道的數(shù)量,K表示內(nèi)核的大小,H和W用于描述特征圖的大小。
3)FPS:FPS的值等于模型每秒處理的圖像數(shù)量,可以用來(lái)檢測(cè)模型速度,n為模型處理的圖片數(shù)量;T為消耗的時(shí)間。其公式如下
FPS= 。(8)
4)Parameters:參數(shù)量指的是模型包含的參數(shù)數(shù)量。
根據(jù)YOLOv7-SCC模型的訓(xùn)練過(guò)程可以看出,在150~200 epoch后,各評(píng)價(jià)指標(biāo)趨于穩(wěn)定,訓(xùn)練結(jié)果如圖6所示,當(dāng)epoch達(dá)到200時(shí),模型的訓(xùn)練結(jié)束。
3.4 輕量級(jí)網(wǎng)絡(luò)比較實(shí)驗(yàn)分析
為了進(jìn)一步分析改進(jìn)算法檢測(cè)高壟草莓的成熟度,將輕量化網(wǎng)絡(luò)替換YOLOv7骨干網(wǎng)絡(luò),要實(shí)現(xiàn)既能準(zhǔn)確識(shí)別草莓成熟度也要滿足模型輕量化,選擇適當(dāng)?shù)墓歉删W(wǎng)絡(luò)也是重中之重,因此我們將當(dāng)今主流輕量化網(wǎng)絡(luò)進(jìn)行對(duì)比,主要模型結(jié)構(gòu)有MobileNetv3[18]、ShuffleNetv2、GhostNet[19]其每個(gè)網(wǎng)絡(luò)模型Parameters、GFLOPs和mAP見(jiàn)表3。
從表3可以看出,模型加入了ShuffleNetv2網(wǎng)絡(luò)后Parameters降低了46.2%,GFLOPs減少了62.1%且mAP并未減少,與其他輕量級(jí)網(wǎng)絡(luò)對(duì)比,加入ShuffleNetv2網(wǎng)絡(luò)后的模型具有更好的精度和更低的參數(shù),因此本文選用ShuffleNetv2網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),在降低模型復(fù)雜度的同時(shí)還能保留表達(dá)能力,能夠在使用更少的計(jì)算資源情況下實(shí)現(xiàn)更好的檢測(cè)結(jié)果。
3.5 不同檢測(cè)模型的測(cè)試結(jié)果
利用hDqzkO0TTmPLvLEwQauebmkmeRqU+i4+G3793G6qM2w=獲取的數(shù)據(jù)集對(duì)不同的模型進(jìn)行訓(xùn)練測(cè)試,以識(shí)別和檢測(cè)不同生長(zhǎng)狀態(tài)的草莓。部分試驗(yàn)結(jié)果如圖7所示。從(a)組的試驗(yàn)結(jié)果可以看出,YOLOv5不能精確區(qū)分熟草莓和近熟草莓,如(b)組的測(cè)試結(jié)果所示,YOLOv7無(wú)法檢測(cè)到具有相似背景特征的草莓目標(biāo),說(shuō)明該模型對(duì)草莓特征的提取和融合能力不足,從(c)組的檢測(cè)結(jié)果可以看出,與YOLOv5和YOLOV7模型相比,改進(jìn)的YOLOV7-SCC模型可以更準(zhǔn)確地檢測(cè)出不同生長(zhǎng)狀態(tài)的草莓目標(biāo)。
(a) YOLOv5 (b) YOLOv7 (c) YOLOv7-SCC
4 結(jié)論
本研究提出一種適用于果實(shí)枝葉重疊且難以區(qū)分的密集草莓園的多目標(biāo)識(shí)別算法。在YOLOv7模型的基礎(chǔ)上,首先,提出將骨干網(wǎng)絡(luò)替換為更輕量化的ShuffleNetv2結(jié)構(gòu),其中運(yùn)用信道混洗操作,在保留表達(dá)能力的同時(shí)降低模型參數(shù)提升準(zhǔn)確率;其次,引入CBAM注意力機(jī)制加強(qiáng)模型對(duì)草莓不同狀態(tài)的特征關(guān)注度;最后,添加CARAFE上采樣模塊,通過(guò)擴(kuò)大模型的感知領(lǐng)域,幫助網(wǎng)絡(luò)感知更廣泛的上下文信息,并通過(guò)上下文融合判斷來(lái)提高特征表示能力,從而提取和融合這些精細(xì)特征實(shí)現(xiàn)特征重建。實(shí)驗(yàn)結(jié)果表明,與原模型相比,改進(jìn)后的模型參數(shù)量和浮點(diǎn)數(shù)分別減少了59.0%和68.2%,準(zhǔn)確率為99.6%。改進(jìn)后的YOLOv7-SCC各項(xiàng)指標(biāo)均達(dá)到最佳性能,在保持高精度的同時(shí)減少了模型的參數(shù)和計(jì)算量,其輕量的網(wǎng)絡(luò)結(jié)構(gòu)和高效的檢測(cè)結(jié)果更適合高壟草莓檢測(cè)任務(wù)。
參考文獻(xiàn):
[1] 張?chǎng)?中國(guó)草莓產(chǎn)業(yè)發(fā)展現(xiàn)狀與前景思考[J].農(nóng)業(yè)展望,2012,8(2):3-30.
[2] 吳曉云,高照全,李志強(qiáng),等.國(guó)內(nèi)外草莓生產(chǎn)現(xiàn)狀與發(fā)展趨勢(shì)[J].北京農(nóng)業(yè)職業(yè)學(xué)院學(xué)報(bào),2016,30(2):6-21.
[3] 王糧局.基于動(dòng)態(tài)識(shí)別定位的多機(jī)械手草莓收獲機(jī)器人的研究[D].北京:中國(guó)農(nóng)業(yè)大學(xué),2016.
[4] GE Z, LIU S, WANG F, et al. (2021) YOLOX: Exceeding YOLO Series in 2021. arXiv:2107.08430.
[5] BOCHKOVSKIY A, WANG C-Y, LIAO H-Y M. (2020) YOLOv4: Optimal Speed and Accuracy of Object Detection[J]. arXiv:2004.10934.
[6] REDMON J, FARHADI A.(2018) YOLOv3: An Incremental Improvement[J]. arXiv:1804.02767.
[7] REN S, HE K, GIRSHICK R, et al.(2017) Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[C]. IEEE Trans Pattern Anal Mach Intell 39:1137-1149.
[8] XIAO B, NGUYEN M, YAN W Q. Fruit ripeness identification using transformers[J]. Appl. Intell.,2023,53(19):22488-22499.
[9] WANG D, WANG X, CHEN Y, et al. “Strawberry ripeness classification method in facility environment based on red color ratio of fruit rind[J]. Comput. Electron. Agric.,2023,214:108313.
[10] FAN Y, ZHANG S, FENG K, et al. Strawberry Maturity Recognition Algorithm Combining Dark Channel Enhancement and YOLOv5[J]. Sensors,2022(22):419.
[11] WANG D, HE D. Fusion of Mask RCNN and attention mechanism for instance segmentation of apples under complex background[J]. Comput Electron Agric, 2022, 196:106864.
[12] CHO W, NA M, KIM S, et al. Automatic pregvgctBRVw8pc5fTPPrGz4g==diction of brix and acidity in stages of ripeness of strawberries using image processing techniques[C]. In: 2019 34th International Technical Conference on Circuits/Systems, Computers and Communications (ITC-CSCC). IEEE, JeJu, Korea (South).
[13] SHU LIU, LU QI, HAIFANG QIN, et al. Path Aggregation Network for Instance Segmentation[J].arXiv,2018.
[14] DING X H, ZHANG X Y, MA N N, et al. RepVGG: Making VGG-style ConvNets Great Again[J].arXiv,2021.
[15] MA N, ZHANG X, ZHENG H-T, et al. ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design[J]. arXiv,2018:1807.11164.
[16] WOO S, PARK J, LEE J-Y, et al. CBAM: Convolutional Block Attention Module[J].arXiv,2018:1807.06521.
[17] WANG J, CHEN K, XU R, et al. CARAFE: Content-Aware ReAssembly of Features[J]. arXiv,2019:1905.02188.
[18] HOWARD A, SANDLER M, CHU G, et al. Searching for MobileNetV3[J].arXiv,2019:1905.02244.
[19] HAN K, WANG Y, TIAN Q, et al. GhostNet: More Features From Cheap Operations. In: 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)[C]. IEEE, Seattle, WA, USA.