摘要:
為解決瓜蔞檢測(cè)技術(shù)存在的檢測(cè)精度低且檢測(cè)時(shí)間長(zhǎng)的問(wèn)題,提出一種基于改進(jìn)YOLOv5算法的瓜蔞分級(jí)方法YOLOv5-GCB。在主干網(wǎng)絡(luò)引入Ghost卷積模塊替換傳統(tǒng)卷積,在保證準(zhǔn)確率的同時(shí)減少模型的參數(shù)量;在特征提取網(wǎng)絡(luò)和推理層之間添加CA注意力模塊,增強(qiáng)模型對(duì)空間和通道信息的關(guān)注,提高檢測(cè)精度;在頸部網(wǎng)絡(luò)中引入雙向加權(quán)特征金字塔網(wǎng)絡(luò)(Bi-directional Feature Pyramid Network,BiFPN)替換原始結(jié)構(gòu),融合不同尺度特征提升多尺度目標(biāo)的表達(dá)能力。結(jié)果表明:與原有的YOLOv5模型相比,改進(jìn)的YOLOv5-GCB算法對(duì)瓜蔞等級(jí)的檢測(cè)準(zhǔn)確率提高4%,達(dá)到95.3%,檢測(cè)速度達(dá)到31.5 fps。該研究提出的算法在保證瓜蔞分級(jí)檢測(cè)準(zhǔn)確率的同時(shí)擁有更高的識(shí)別速度,為實(shí)際場(chǎng)景中的瓜蔞分級(jí)提供理論研究和技術(shù)支持。
關(guān)鍵詞:瓜蔞分級(jí);目標(biāo)檢測(cè);多尺度特征融合;CA注意力機(jī)制
中圖分類號(hào):S609.2; TP183; TP399
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2095-5553 (2024) 04-0100-08
收稿日期:2023年10月19日" 修回日期:2023年12月20日
基金項(xiàng)目:江蘇省高等學(xué)?;A(chǔ)科學(xué)(自然科學(xué))研究重大項(xiàng)目(23KJA520005)
第一作者:霍正瑞,男,1998年生,江蘇東海人,碩士研究生;研究方向?yàn)橛?jì)算機(jī)視覺(jué)。E-mail: 495691435@qq.com
通訊作者:孫鐵波,男,1983年生,遼寧綏中人,博士,副教授;研究方向?yàn)闄C(jī)器視覺(jué)及軟件仿真。E-mail: sieo2005@163.com
A method for grading Trichosanthes based on improved YOLOv5 algorithm
Huo Zhengrui1, Sun Tiebo2
(1. College of Marine Food and Biological Engineering, Jiangsu Ocean University, Lianyungang, 222000, China;
2. School of Intelligent Manufacturing, Jiangsu Food and Pharmaceutical and Science College, Huaian, 223001, China)
Abstract:
In order to solve the problems of low detection accuracy and long detection time of trichosanthes detection technology, a method of grading trichosanthes, YOLOv5-GCB, based on improved YOLOv5 algorithm, is proposed. Firstly, the Ghost convolution module is introduced in the backbone network to replace the traditional convolution, which reduces the number of parameters of the model while guaranteeing the accuracy. Then, the CA attention is added between the feature extraction network and the inference layer module is added between the feature extraction network and the inference layer to enhance the model’s attention to spatial and channel information and improve the detection accuracy." Finally, a Bi-directional Feature Pyramid Network (BiFPN) is introduced into the neck network to replace the original structure, and the fusion of different scale features improves the expression ability of multi-scale targets. The results show that compared with the original YOLOv5 model, the improved YOLOv5-GCB algorithm increases the detection accuracy of trichosanthes grades by 4% to 95.3%, and the detection speed reaches 31.5 fps. The algorithm proposed in this study guarantees the accuracy of trichosanthes grades detection with higher recognition speed, which provides theoretical research and technical support for trichosanthes grades grading in real scenarios.
Keywords:
target detection; trichosanthes classification; multi-scale feature fusion; CA attention mechanism
0 引言
瓜蔞是一種多年生草質(zhì)藤本植物,屬于葫蘆科瓜蔞屬,具有藥食兼用的價(jià)值[1]。目前的瓜蔞質(zhì)量分級(jí)主要依靠人工進(jìn)行,然而,這種人工分級(jí)方式耗時(shí)長(zhǎng)、勞動(dòng)力成本高,對(duì)人的視力、判斷力、工作效率和經(jīng)驗(yàn)要求較高。同時(shí),由于人工分級(jí)的主觀性,可能導(dǎo)致分級(jí)結(jié)果不準(zhǔn)確[2],給瓜蔞生產(chǎn)加工帶來(lái)不利影響。因此,采用自動(dòng)化技術(shù)實(shí)現(xiàn)瓜蔞分級(jí)已成為行業(yè)迫切需要解決的問(wèn)題。
隨著卷積神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,在各種視覺(jué)任務(wù)中,特別是水果的成熟度識(shí)別和分類方面,深度學(xué)習(xí)技術(shù)取得了顯著的成果。目前的目標(biāo)檢測(cè)模型主要分為一階段目標(biāo)檢測(cè)和雙階段目標(biāo)檢測(cè)模型。雙階段目標(biāo)檢測(cè)需要先生成大概包含的位置區(qū)域,之后對(duì)類別區(qū)域進(jìn)行分類和位置回歸,雖然精度較高,但速度相對(duì)較慢。雙階段模型中較為經(jīng)典的是R-CNN(區(qū)域卷積神經(jīng)網(wǎng)絡(luò))[3]系列,包括Fast R-CNN[4],F(xiàn)aster R-CNN[5]等。而一階段模型中,最具代表性的是YOLO系列[6-9]。由于不需要候選框,直接利用神經(jīng)網(wǎng)絡(luò)得到分類以及回歸結(jié)果。雖然犧牲部分精度,但檢測(cè)速度顯著提高,更加適合實(shí)時(shí)檢測(cè)的場(chǎng)景。
基于上述思想,許多學(xué)者開(kāi)始利用深度學(xué)方法來(lái)對(duì)水果的成熟度進(jìn)行識(shí)別和分類。聶衍文等[10]提出一種基于YOLOv5的輕量化芒果果面缺陷檢測(cè)算法,采用C3_Ghost來(lái)代替原YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)中的C3模塊,在滿足芒果表面缺陷檢測(cè)要求的前提下,相較于原算法可使參數(shù)量減少45.9%,降低了模型對(duì)部署設(shè)備的性能需求。Habaragamuwa等[11]利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行室內(nèi)成熟和未成熟草莓的判斷。Nasir等[12]提出一種基于VGG16卷積神經(jīng)網(wǎng)絡(luò)的椰棗自動(dòng)分級(jí)方法,整體分類準(zhǔn)確率達(dá)96.98%。張立杰等[13]提出一種基于改進(jìn)型SSD卷積神經(jīng)網(wǎng)絡(luò)的蘋果定位與分級(jí)算法,使用深度可分離卷積模塊替換原SSD網(wǎng)絡(luò)主干特征提取網(wǎng)絡(luò)中部分標(biāo)準(zhǔn)卷積,實(shí)現(xiàn)了網(wǎng)絡(luò)的輕量化,但檢測(cè)精度稍微降低。熊俊濤等[14]提出一種基于YOLOv5-Lite的自然環(huán)境木瓜成熟度檢測(cè)方法,采用Mobilenetv3作為主干特征提取網(wǎng)絡(luò)替換原來(lái)的CSPDarknet53,通過(guò)將3個(gè)具有相同的初步有效特征層進(jìn)行對(duì)應(yīng)替換,從而減少參數(shù)量,但存在檢測(cè)速度降低的局限性。惠巧娟等[15]提出基于多尺度特征度量元學(xué)習(xí)的玉米葉片病害識(shí)別模型,通過(guò)VGG16和Swin Transformer網(wǎng)絡(luò)提取全局和局部特征,利用多尺度特征融合網(wǎng)絡(luò)實(shí)現(xiàn)全局和局部特征的深度融合,強(qiáng)化特征分類能力,最終總體檢測(cè)精度在Plant Village數(shù)據(jù)集和自建數(shù)據(jù)集上分別提升3.05%和3.28%,但識(shí)別速度方面沒(méi)有改進(jìn)。
綜上所述,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)在農(nóng)業(yè)中的分類任務(wù)已經(jīng)取得了較為理想的效果。然而,目前基于深度學(xué)習(xí)模型的瓜蔞識(shí)別與檢測(cè)研究較少,并且其他檢測(cè)模型還存在檢測(cè)精度低、模型參數(shù)量大等問(wèn)題。因此,本文通過(guò)改進(jìn)YOLOv5算法對(duì)檢測(cè)精度和模型輕量化進(jìn)行研究,有效解決了瓜蔞在實(shí)際分級(jí)中精確度和輕量化難以平衡的問(wèn)題。通過(guò)獲取種植基地的瓜蔞圖像,采用改進(jìn)的YOLOv5-GCB深度學(xué)習(xí)算法對(duì)瓜蔞進(jìn)行等級(jí)檢測(cè),進(jìn)而為農(nóng)業(yè)生產(chǎn)中瓜蔞的選擇性采收提供精確的視覺(jué)檢測(cè)技術(shù)支持。
1 數(shù)據(jù)集
本文使用的瓜蔞圖像數(shù)據(jù)來(lái)自種植基地購(gòu)買的全瓜蔞,參考團(tuán)體標(biāo)準(zhǔn)T/CACM 1021.152—2018[16]將瓜蔞分為一等品、二等品、三等品以及四等品,數(shù)據(jù)集部分可視化樣本如圖1所示。
使用一臺(tái)IphoneXs Max手機(jī)的后置攝像頭在固定光源下,距離瓜蔞目標(biāo)13 cm處拍攝。為充分模擬自然條件下瓜蔞的位姿,拍攝角度環(huán)視整個(gè)瓜蔞,充分采集到正面、底面、側(cè)面的瓜蔞圖像,共獲得1 300張圖片。隨機(jī)選取原圖像數(shù)據(jù)分別進(jìn)行水平、垂直翻轉(zhuǎn)等操作,從而將數(shù)據(jù)集增加到2 643張。通過(guò)人工篩選去除圖像質(zhì)量較差的樣本之后,最終的圖片數(shù)量為2 200張。數(shù)據(jù)集統(tǒng)一采用LabelImg工具的矩形框標(biāo)注法進(jìn)行標(biāo)注,并按照8∶1∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
2 相關(guān)技術(shù)和理論
根據(jù)不同的網(wǎng)絡(luò)深度和特征圖的寬度,YOLOv5可以分為四種模型:YOLOv5s,YOLOv5m,YOLOv5l和YOLOv5x。在MSCOCO測(cè)試數(shù)據(jù)集上研究并獲得這些模型的性能,如表1所示。
從性能對(duì)比可以得出結(jié)論,在這些版本中,YOLOv5s的處理速度最快,YOLOv5x的檢測(cè)精度最高。具體來(lái)說(shuō),這四個(gè)模型具有相同的網(wǎng)絡(luò)結(jié)構(gòu),由輸入、骨干網(wǎng)絡(luò)、頸部和檢測(cè)頭4個(gè)部分組成。YOLOv5s的結(jié)構(gòu)如圖2所示。
Input包括Mosaic數(shù)據(jù)增強(qiáng)、圖像尺寸處理和自適應(yīng)Anchor計(jì)算。Mosaic數(shù)據(jù)增強(qiáng)是一種創(chuàng)新的數(shù)據(jù)增強(qiáng)技術(shù),通過(guò)隨機(jī)組合和分布4個(gè)圖像來(lái)增加數(shù)據(jù)集中目標(biāo)的多樣性,該方法能夠增強(qiáng)網(wǎng)絡(luò)的魯棒性并減少計(jì)算資源的消耗。圖像尺寸處理可以自適應(yīng)地為不同長(zhǎng)度和寬度的原始圖像添加最小黑色邊框,并將它們統(tǒng)一縮放到標(biāo)準(zhǔn)大小,可以在模型推理過(guò)程中減少冗余信息,提升推理速度。自適應(yīng)錨框計(jì)算將輸出預(yù)測(cè)框與基于初始錨框的實(shí)框進(jìn)行對(duì)比,計(jì)算差距然后反向更新,不斷迭代參數(shù)以獲得最優(yōu)的錨框值。
Backbone主要由Focus、Conv、C3、空間金字塔池化(Spatial Pyramid Pooling,SPP)等模塊組成。Focus模塊將輸入數(shù)據(jù)分成4個(gè)部分,每個(gè)部分相當(dāng)于兩個(gè)下采樣。這4段數(shù)據(jù)在通道維度上拼接,然后通過(guò)卷積操作得到特征圖。Focus模塊可以在丟失較少信息的情況下,同時(shí)完成下采樣,并且還通過(guò)reshape減少FLOPs,加快網(wǎng)絡(luò)推理速度。Conv是復(fù)合卷積模塊,主要作用為依次對(duì)輸入執(zhí)行二維卷積、正則化和激活操作。
C3模塊是由若干個(gè)瓶頸殘差結(jié)構(gòu)模塊構(gòu)成的。在殘差結(jié)構(gòu)模塊中,輸入數(shù)據(jù)首先通過(guò)兩個(gè)卷積層進(jìn)行處理,然后將處理后的結(jié)果與原始輸入進(jìn)行concat操作,在不增加輸出深度的情況下完成特征傳遞。此外,空間金字塔池化模塊(SPP模塊)通過(guò)執(zhí)行不同內(nèi)核大小的最大池化操作,以實(shí)現(xiàn)特征的融合[17]。在頸部網(wǎng)絡(luò)中,使用特征金字塔網(wǎng)絡(luò)(FPN)和路徑聚合網(wǎng)絡(luò)(PAN)的結(jié)構(gòu)。FPN結(jié)構(gòu)自上而下將高層特征圖傳遞到底層的特征圖,而PAN結(jié)構(gòu)則在FPN后面添加一個(gè)自下而上的金字塔。這兩種結(jié)構(gòu)共同增強(qiáng)了頸部網(wǎng)絡(luò)的特征融合能力。Head部分根據(jù)特征融合網(wǎng)絡(luò)的輸出進(jìn)行多尺度預(yù)測(cè)。然后,通過(guò)非極大值抑制(NMS)算法過(guò)濾掉與其他預(yù)測(cè)框高度重疊的預(yù)測(cè)框,最終生成預(yù)測(cè)結(jié)果。
3 YOLOv5-GCB網(wǎng)絡(luò)架構(gòu)
3.1 Ghost模塊輕量化
在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中,通常增加卷積層數(shù)量可以提取更多的特征,同時(shí)也帶來(lái)一些挑戰(zhàn)。更多的卷積層會(huì)導(dǎo)致參數(shù)量和計(jì)算量的增加,這會(huì)導(dǎo)致龐大且復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),因此在計(jì)算能力和存儲(chǔ)空間有限的設(shè)備上部署會(huì)非常困難。本文利用Ghost卷積代替?zhèn)鹘y(tǒng)卷積,顯著降低模型的參數(shù)量并縮短模型的推理時(shí)間,從而提升模型的效率。Ghost卷積是GhostNet[18]中提出的一個(gè)創(chuàng)新模塊,主要優(yōu)點(diǎn)是能夠在保持特征圖數(shù)量的同時(shí),減少參數(shù)和計(jì)算量。圖3為普通卷積和Ghost卷積之間的比較。
原始的Ghost模塊由兩部分組成,分別為精簡(jiǎn)卷積和輕量級(jí)線性變換操作。精簡(jiǎn)卷積將普通卷積操作的卷積核數(shù)量壓縮為原來(lái)的一半,從而可以減少一半的計(jì)算量。輕量級(jí)線性變換是對(duì)第一步操作所提取出的特征圖逐個(gè)進(jìn)行卷積核為3或5的卷積。最后將以上兩步操作所得到的特征圖進(jìn)行拼接來(lái)生成最終的特征圖,得到與普通卷積相當(dāng)?shù)奶卣鲌D,能夠在降低影響網(wǎng)絡(luò)提取特征性能的同時(shí)減少參數(shù)量。
假設(shè)輸入特征圖的大小為h×w×c,輸出特征圖的大小為h′×w′×n,卷積核的大小為k×k,h和w是輸入特征圖的高度和寬度,h′和w′分別是輸出要素映射的高度和寬度。在這個(gè)普通卷積過(guò)程中,所需的FLOP數(shù)量計(jì)算如式(1)所示。
3.2 CA注意力模塊
CA注意力機(jī)制模塊包括坐標(biāo)信息嵌入以及坐標(biāo)注意力生成兩部分,其結(jié)構(gòu)如圖4所示。
在瓜蔞質(zhì)量分級(jí)過(guò)程中,由于破損、病害等缺陷在圖像中所占像素比例較小,瓜蔞圖像經(jīng)過(guò)卷積操作后,容易出現(xiàn)目標(biāo)漏檢的情況。為了提升網(wǎng)絡(luò)在復(fù)雜場(chǎng)景下對(duì)目標(biāo)的檢測(cè)能力,同時(shí)加強(qiáng)網(wǎng)絡(luò)對(duì)有效信息的關(guān)注,本文在YOLOv5網(wǎng)絡(luò)中引入一種新型的注意力機(jī)制(Coordinate Attention, CA)。與普通的注意力機(jī)制不同,CA模塊是簡(jiǎn)單高效的注意力機(jī)制,不僅計(jì)算不同通道之間的相關(guān)性,還考慮了特征圖的空間位置信息,這使得網(wǎng)絡(luò)能夠?qū)W⒂陉P(guān)鍵信息,同時(shí)忽略無(wú)關(guān)信息。
不同于常規(guī)的注意力機(jī)制,CA注意力機(jī)制將全局池化分解成兩個(gè)一維特征編碼操作,從而讓網(wǎng)絡(luò)能精準(zhǔn)獲取位置信息。
坐標(biāo)信息嵌入階段,對(duì)輸入尺寸為C×H×W的特征圖,分別沿著X和Y方向?qū)γ總€(gè)通道進(jìn)行池化操作,池化核尺寸分別為(H,1)和(1,W),得到第c個(gè)通道高度為H的輸出特征圖zhc(h),如式(3)所示。同樣,可以得到寬度為W的第c通道的輸出特征圖zwc(w),如式(4)所示。在沿著兩個(gè)空間方向進(jìn)行特征聚合后,可以得到一對(duì)具有方向感知的特征圖。這兩種轉(zhuǎn)換使得注意力模塊能夠捕獲一個(gè)空間方向上的長(zhǎng)期依賴關(guān)系,同時(shí)保留另一個(gè)空間方向上的精確位置信息,這有助于網(wǎng)絡(luò)精確定位感興趣的目標(biāo)。
3.3 多尺度特征融合網(wǎng)絡(luò)
受限于待檢測(cè)目標(biāo)大小與位姿不同,如何更有效地處理興趣目標(biāo)的類別與位置仍是目標(biāo)檢測(cè)的難題。原始YOLOv5算法中采用的特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)[18](FPN),如圖5(a)所示,這種結(jié)構(gòu)通過(guò)自上而下的方式融合了不同層次的特征,從而實(shí)現(xiàn)了對(duì)圖像的淺層位置信息和深層語(yǔ)義信息的同時(shí)處理。然而,這種結(jié)構(gòu)會(huì)受到單向信息流的影響。為解決這一問(wèn)題,研究者們提出了路徑聚合網(wǎng)絡(luò)(PAN)[20]結(jié)構(gòu),如圖5(b)所示。
這種結(jié)構(gòu)在FPN的基礎(chǔ)上增加了一個(gè)反向的信息流通道,將底層的圖像信息傳遞到預(yù)測(cè)特征層,從而使得預(yù)測(cè)層能同時(shí)處理高層的語(yǔ)義信息和底層的位置信息。但是,PAN結(jié)構(gòu)在特征融合過(guò)程中可能會(huì)出現(xiàn)信息不足的情況,導(dǎo)致信息的丟失,這嚴(yán)重影響了輸出特征的質(zhì)量。
為了解決上述問(wèn)題,本文采用一種更加高效的BiFPN[21]特征融合結(jié)構(gòu),如圖5(c)所示。BiFPN結(jié)構(gòu)是以PAN為基礎(chǔ),刪除了無(wú)特征融合的節(jié)點(diǎn),并在同一特征層的輸入節(jié)點(diǎn)和輸出節(jié)點(diǎn)之間添加了跳躍連接,從而在節(jié)省資源消耗的同時(shí)融合了更豐富的特征信息。BiFPN結(jié)構(gòu)采用權(quán)值與其總和的比例進(jìn)行快速歸一化融合,從而提高對(duì)不同場(chǎng)景下目標(biāo)的感知能力。在預(yù)測(cè)端,能夠有效地融合不同層級(jí)間的特征圖信息,解決特征融合不充分的問(wèn)題。改進(jìn)后的YOLOv5-GCB網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
4 試驗(yàn)結(jié)果與分析
4.1 試驗(yàn)環(huán)境
本文采用的訓(xùn)練平臺(tái)硬件:Intel(R)Core(R)i7 127700F CPU @2.10 GHz 16G,GPU是GeForceRTX 3060 Ti;深度學(xué)習(xí)框架選用Pytorch;編程語(yǔ)言為Python;CUDA及GPU加速庫(kù)Cudnn的版本為11.0和7.6.5。
對(duì)于YOLOv5-GCB模型,訓(xùn)練過(guò)程中設(shè)置Batchsize為16,初始學(xué)習(xí)率設(shè)置為0.001,動(dòng)量參數(shù)設(shè)置為0.937,采用SGD優(yōu)化器進(jìn)行優(yōu)化,使用Focal_loss進(jìn)行平衡正負(fù)樣本,正負(fù)樣本平衡參數(shù)設(shè)置為0.25。
由圖7可知,改進(jìn)前網(wǎng)絡(luò)在75輪迅速收斂并趨于穩(wěn)定,改進(jìn)后網(wǎng)絡(luò)在50輪就迅速收斂并達(dá)到穩(wěn)定,并且兩種網(wǎng)絡(luò)都達(dá)到了很高的平均精度,改進(jìn)后的網(wǎng)絡(luò)較原始網(wǎng)絡(luò)有了較大提高。
4.4 消融試驗(yàn)
為了進(jìn)一步驗(yàn)證各個(gè)改進(jìn)模塊的作用和有效性[22],本文設(shè)置了消融試驗(yàn),其結(jié)果如表2所示。由表2可知,不同的模塊加入對(duì)于模型來(lái)說(shuō)均有積極影響。與原始YOLOv5相比,添加Ghost模塊模型的FLOPs以及模型重量分別減少了25%和23%,而mAP與Recall分別降低0.5%和2.7%。在Ghost模塊的基礎(chǔ)上加入CA注意力模塊可以使mAP與Recall分別提高了2.7%和4.1%。多尺度特征融合的改進(jìn)可以使整體平均精度提高1.9%,模型參數(shù)量少量增加。由此可知,改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)可以有效提高瓜蔞分級(jí)檢測(cè)的準(zhǔn)確性,并且顯著降低了模型的參數(shù)量。
4.5 對(duì)比試驗(yàn)
為了更加客觀地評(píng)價(jià)改進(jìn)的YOLOv5模型在瓜蔞分級(jí)檢測(cè)中的效果,本文將改進(jìn)后的YOLOv5模型與其他主流算法進(jìn)行了對(duì)比,包括YOLOv7、YOLOv6、原YOLOv5、YOLOv3、YOLOv4、Faster R-CNN、SSD[23]。試驗(yàn)過(guò)程遵循控制變量原則,試驗(yàn)軟硬件環(huán)境保持一致。評(píng)價(jià)指標(biāo)采用精確率(Precision)、召回率(Recall)、F1-Score值以及mAP值作為參考指標(biāo)。試驗(yàn)結(jié)果如表3所示。
對(duì)比表3中數(shù)據(jù)可知,YOLOv5-GCB網(wǎng)絡(luò)相較于原始的YOLOv5準(zhǔn)確率和召回率方面提升了4.6%和3.9%,分別達(dá)到了95.8%和94.2%,并且在常用的檢測(cè)模型中該網(wǎng)絡(luò)的精度也是最高的,平均檢測(cè)精度達(dá)到了95.3%,滿足瓜蔞檢測(cè)對(duì)精度的要求。與其他模型比較,改進(jìn)模型的平均精度相較于Faster R-CNN、SSD、YOLOv3、YOLOv4、YOLOv5、YOLOv6、YOLOv7分別高出10.1%、20.1%、9.2%、7.9%、4%、2.8%和0.7%,檢測(cè)速度除了略慢于SSD均領(lǐng)先其他模型;證明了改進(jìn)模型在滿足檢測(cè)實(shí)時(shí)性要求的同時(shí)具有很高的檢測(cè)準(zhǔn)確率。
為驗(yàn)證本文算法的有效性,將本文改進(jìn)目標(biāo)檢測(cè)算法與目前主流目標(biāo)檢測(cè)算法檢測(cè)結(jié)果進(jìn)行了可視化展示,如圖8所示。本文算法檢測(cè)框和目標(biāo)貼合得更為緊密,置信度更高,同時(shí)分級(jí)檢測(cè)精度更高。
為了更有效地驗(yàn)證CA注意力模塊對(duì)網(wǎng)絡(luò)性能的提升,本文使用Grad-CAM對(duì)網(wǎng)絡(luò)關(guān)注信息進(jìn)行可視化效果對(duì)比。將兩種網(wǎng)絡(luò)輸入Grad-CAM測(cè)試后,YOLOv5與加入CA注意力機(jī)制前后的熱力圖對(duì)比如圖9所示。
由圖9可知,引入CA注意力機(jī)制后,可以使網(wǎng)絡(luò)更有效地提取瓜蔞缺陷的全局特征信息,使網(wǎng)絡(luò)對(duì)目標(biāo)位置的捕捉更為精確。此外,該機(jī)制還能夠減少網(wǎng)絡(luò)對(duì)無(wú)關(guān)信息的關(guān)注,提高網(wǎng)絡(luò)的檢測(cè)精度。
5 結(jié)論
1) 本文模型的主干網(wǎng)絡(luò)通過(guò)Ghost模塊代替?zhèn)鹘y(tǒng)卷積網(wǎng)絡(luò)的方式獲取冗余特征圖,顯著降低參數(shù)量。
在特征提取主干網(wǎng)絡(luò)和推理層之間嵌入CA注意力機(jī)制模塊,同時(shí)獲取跨通道間特征信息和位置信息,增強(qiáng)網(wǎng)絡(luò)精確定位目標(biāo)的能力。
將Neck層中原有的PAN結(jié)構(gòu)修改為BiFPN結(jié)構(gòu),優(yōu)化信息流融合渠道,提升模型的檢測(cè)效果。
2) 通過(guò)對(duì)比試驗(yàn)可知,改進(jìn)后的模型相較于原始算法,檢測(cè)速度達(dá)31.5 fps,在保證檢測(cè)速度的同時(shí)平均準(zhǔn)確率達(dá)到95.3%,能夠滿足瓜蔞分級(jí)檢測(cè)的要求。
未來(lái)將本文所提算法部署到嵌入式設(shè)備中,并且通過(guò)嵌入式設(shè)備與硬件系統(tǒng)的通信達(dá)到瓜蔞自動(dòng)分級(jí)場(chǎng)景的實(shí)現(xiàn)。同時(shí),將繼續(xù)擴(kuò)大不同等級(jí)瓜蔞的數(shù)據(jù)集中的種類和數(shù)量,提高瓜蔞自動(dòng)分級(jí)算法的可信度。
參 考 文 獻(xiàn)
[1] 柴欣, 朱霖, 戚愛(ài)棣, 等. 栝樓屬植物化學(xué)成分研究進(jìn)展[J]. 遼寧中醫(yī)藥大學(xué)學(xué)報(bào), 2013, 15(1): 66-70.
Chai Xin, Zhu Lin, Qi Aidi, et al. Research progress in the chemical constituents of trichosanthes L [J]. Journal of Liaoning University of Traditional Chinese Medicine, 2013, 15(1): 66-70.
[2] 郭書(shū)巧, 束紅梅, 何曉蘭, 等. 江蘇省栝樓產(chǎn)業(yè)發(fā)展現(xiàn)狀及對(duì)策[J]. 中國(guó)瓜菜, 2019, 32(12): 84-87.
[3] Bochkovskiy A, Wang C Y, Liao H Y M. Yolov4: Optimal speed and accuracy of object detection [J]. arXiv, 2020: 10934.
[4] Girshick R. Fast r-cnn [C]. Proceedings of the IEEE/International Conference on Computer Vision, 2015: 1440-1448.
[5] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks [J]. IEEE/Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[6] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 779-788.
[7] Redmon J, Farhadi A. YOLO9000: Better, faster, stronger [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 7263-7271.
[8] Redmon J, Farhadi A. YOLOv3: An incremental improvement [J]. ArXiv Preprint ArXiv: 1804.02767, 2018.
[9] Bochkovskiy A, Wang C, Liao H M. YOLOv4: Optimal speed and accuracy of object detection [J]. ArXiv Preprint ArXiv: 2004.10934, 2020.
[10] 聶衍文, 楊佳晨, 文慧心, 等. 基于機(jī)器視覺(jué)的輕量化芒果果面缺陷檢測(cè)[J]. 食品與機(jī)械, 2023, 39(3): 91-95, 240.
Nie Yanwen, Yang Jiachen, Wen Huixin, et al. Light weight detection of mango surface defects based on machine vision [J]. Food amp; Machinery, 2023, 39(3): 91-95, 240.
[11] Habaragamuwa H, Ogawa Y, Suzuki T, et al. Detecting greenhouse strawberries (mature and immature), using deep convolutional neural network [J]. Engineering in Agriculture, Environment and Food, 2018, 11(3): 127-138.
[12] Nasiri A, Taheri-Garavand A, Zhang Y. Image-based deep learning automated sorting of date fruit [J]. Postharvest Biology and Technology, 2019, 153: 133-141.
[13] 張立杰, 周舒驊, 李娜, 等. 基于改進(jìn)SSD卷積神經(jīng)網(wǎng)絡(luò)的蘋果定位與分級(jí)方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2023, 54(6): 223-232.
Zhang Lijie, Zhou Shuhua, Li Na, et al. Apple location and classification based on improved SSD convolutional neural network [J]. Transactions of the Chinese Society for Agricultural Machinery, 2023, 54(6): 223-232.
[14] 熊俊濤, 韓詠林, 王瀟, 等. 基于YOLOv5-Lite的自然環(huán)境木瓜成熟度檢測(cè)方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2023, 54(6): 243-252.
Xiong Juntao, Han Yonglin, Wang Xiao, et al. Method of maturity detection for papaya fruits in natural environment based on YOLOv5-Lite [J]. Transactions of the Chinese Society for Agricultural Machinery, 2023, 54(6): 243-252.
[15] 惠巧娟, 孫婕. 基于多尺度特征度量元學(xué)習(xí)的玉米葉片病害識(shí)別模型研究[J]. 江蘇農(nóng)業(yè)科學(xué), 2023, 51(9): 199-206.
Hui Qiaojuan, Sun Jie. Study on maize leaf disease recognition model based on multi-scale feature metric meta-learning [J]. Jiangsu Agricultural Sciences, 2023, 51(9): 199-206.
[16] T/CACM 1021.152—2018, 中藥材商品規(guī)格等級(jí)—瓜蔞[S].
[17] He K, Zhang X, Ren S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition [J]. IEEE/Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[18] Han K, Wang Y, Tian Q, et al. GhostNet: More features from cheap operations [C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 1580-1589.
[19] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 2117-2125.
[20] Liu S, Qi L, Qin H, et al. Path aggregation network for instance segmentation [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 8759-8768.
[21] Tan M, Pang R, Le Q V. EfficientDet: Scalable and efficient object detection [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 10781-10790.
[22] Zou Y, Zhao L, Kang Y, et al. Topic-oriented spoken dialogue summarization for customer service with saliency-aware topic modeling [C]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(16): 14665-14673.
[23] Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector [J]. International Journal of Engineering Intelligent Systems for Electrical Engineering and Communications, 2016, 14(3): 21-37.
中國(guó)農(nóng)機(jī)化學(xué)報(bào)2024年4期