周紹發(fā) 肖小玲 劉忠意 魯力
摘要:針對(duì)目前在復(fù)雜環(huán)境下蘋果樹葉病害檢測(cè)準(zhǔn)確度低、魯棒性差、計(jì)算量大等問題,提出一種改進(jìn)的基于YOLOv5s蘋果樹葉病害的檢測(cè)方法。首先,該方法在YOLOv5s網(wǎng)絡(luò)基礎(chǔ)上,選擇考慮方向性的SIoU邊框損失函數(shù)替代CIoU邊框損失函數(shù),使網(wǎng)絡(luò)訓(xùn)練和推理過程更快,更準(zhǔn)確。其次,在特征圖轉(zhuǎn)換成固定大小的特征向量的過程中,使用了簡單化的快速金字塔池化(SimSPPF)替換快速金字塔池化(SPPF)模塊,在不影響效率的情況下丟失的信息更少。最后在主干網(wǎng)絡(luò)中使用BoTNet(bottleneck transformers)注意力機(jī)制,使網(wǎng)絡(luò)準(zhǔn)確的學(xué)習(xí)到每種病害的獨(dú)有特征,并且使網(wǎng)絡(luò)收斂更快。結(jié)果表明,相比于基準(zhǔn)網(wǎng)絡(luò)YOLOv5s,改進(jìn)后的YOLOv5s網(wǎng)絡(luò)mAP精度為86.5%,計(jì)算量為15.5GFLOPs,模型權(quán)重大小為13.1 MB,相對(duì)于基準(zhǔn)YOLOv5s,平均精度提升了6.3百分點(diǎn)、計(jì)算量降低了0.3GFLOPs、模型權(quán)重壓縮了1 MB。并適用于遮擋、陰影、強(qiáng)光、模糊的復(fù)雜環(huán)境。本研究所提出的方法,在降低了網(wǎng)絡(luò)大小、權(quán)重、計(jì)算量的情況下提高了復(fù)雜環(huán)境下蘋果樹葉病害的檢測(cè)精度,且對(duì)復(fù)雜環(huán)境具有一定的魯棒性。在預(yù)防和治理蘋果樹葉病害上有較高的實(shí)際應(yīng)用價(jià)值,在后續(xù)研究上,會(huì)擴(kuò)充更多類別的病害數(shù)據(jù)集,部署到無人機(jī)等物聯(lián)網(wǎng)設(shè)備,從而為實(shí)現(xiàn)智能果園種植提供技術(shù)參考。
關(guān)鍵詞:蘋果樹葉病害;目標(biāo)檢測(cè);YOLOv5s;bottleneck transformers;SIoU
中圖分類號(hào):TP391.41? 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1002-1302(2023)13-0212-09
據(jù)國家統(tǒng)計(jì)局2016—2018年全國果園數(shù)據(jù),蘋果園的占比達(dá)到了18%,在所有種植水果種類中,是僅次于柑橘的第二大果類,其產(chǎn)量已經(jīng)達(dá)到了 4 139萬t[1]。蘋果產(chǎn)量受到氣候、土壤地質(zhì)、灌溉、病害等多種因素的影響。在眾多因素中,蘋果病害是影響產(chǎn)量的最重要因素之一,而樹葉的病害是最常見的。蘋果樹葉病害的特點(diǎn)是種類多且某些病害表現(xiàn)相似,用肉眼難以區(qū)分,導(dǎo)致無法準(zhǔn)確定位病害,最終導(dǎo)致產(chǎn)量下降。因此,準(zhǔn)確識(shí)別出蘋果樹葉病害的類別,是防治病害與對(duì)癥下藥的重要前提[2]。
傳統(tǒng)的病害檢測(cè)方法主要為對(duì)含有病害的圖片進(jìn)行分析,一般是基于圖片的機(jī)器學(xué)習(xí)方法,其代表方法有基于支持向量機(jī)(SVM)和圖片RGB特性分析,以及利用優(yōu)化算法提高其他機(jī)器學(xué)習(xí)方法組合類方法[3]。但是以上方法表現(xiàn)的好壞太依賴于特征提取的方法以及原本數(shù)學(xué)方法的局限。
深度學(xué)習(xí)法對(duì)于圖像的特征提取與整合有著較大的進(jìn)步,已被用于各種植物病害檢測(cè)。根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)的不同,Bari等使用改進(jìn)的Fast R CNN(卷積神經(jīng)網(wǎng)絡(luò))實(shí)現(xiàn)了對(duì)稻葉的常見病害檢測(cè)并具有高精度實(shí)現(xiàn)效果[3];王超學(xué)等使用YOLOv3來檢測(cè)葡萄的病蟲害并實(shí)現(xiàn)了實(shí)際部署[4];Richey等使用YOLOv4實(shí)現(xiàn)了低時(shí)延的玉米病害檢測(cè)[5];Haque等使用YOLOv5實(shí)現(xiàn)了蔬菜病害檢測(cè),提高了對(duì)小范圍病害的檢測(cè)和定位效果[6];雷建云等使用改進(jìn)的殘差網(wǎng)絡(luò)實(shí)現(xiàn)了多種類的水稻害蟲識(shí)別,并實(shí)現(xiàn)了77.12%的高準(zhǔn)確率和強(qiáng)魯棒性[7]。
上述方法大多數(shù)都能對(duì)研究目標(biāo)實(shí)現(xiàn)較為準(zhǔn)確的檢測(cè),但是很少考慮所提出方法在面對(duì)不同環(huán)境下的蘋果樹葉病害是否能夠?qū)崿F(xiàn)高準(zhǔn)確率、更小計(jì)算量的檢測(cè)。為解決此類問題,本研究提出一種以YOLOv5網(wǎng)絡(luò)為基礎(chǔ),加入Bottleneck Transformers注意力機(jī)制,并使用簡單化后的快速金字塔池化(SimSPPF)代替原有的快速金字塔池化(SPPF)網(wǎng)絡(luò),以期實(shí)現(xiàn)在復(fù)雜環(huán)境下高準(zhǔn)確率的蘋果樹葉病害檢測(cè)。
1 材料與方法
1.1 數(shù)據(jù)集來源
本研究的蘋果樹葉病害數(shù)據(jù)是自建數(shù)據(jù)集,一部分來自AI Studio,為收集不同環(huán)境下的蘋果病害圖片,使用網(wǎng)絡(luò)爬蟲、谷歌搜索等技術(shù)獲取另外一部分,總計(jì)2 041張,圖片格式為jpg,像素為1 000×750。為防止數(shù)據(jù)集過少產(chǎn)生過擬合和泛化性差的現(xiàn)象,通過旋轉(zhuǎn)、平移、等比例縮放、垂直和水平翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)方法,數(shù)據(jù)集總量為4 082張。葉片病害的種類有4類:蛙眼?。╢rog eye)、白粉?。╬owdery mildew)、銹葉病(rust)、斑點(diǎn)病(scab),具體見圖1。
1.2 數(shù)據(jù)預(yù)處理及分析
收集到的數(shù)據(jù)是沒有標(biāo)注或者標(biāo)注不準(zhǔn)確的。使用Label-Img對(duì)全部蘋果樹葉做病害標(biāo)注。采用最大矩形框標(biāo)注明顯病害處,標(biāo)注格式為YOLO的txt格式。每張圖片至少有1個(gè)病害標(biāo)注。葉片標(biāo)注示例與標(biāo)簽分布見圖2。
1.3 YOLOv5網(wǎng)絡(luò)
YOLOv5網(wǎng)絡(luò)是在YOLOv4的基礎(chǔ)上改進(jìn)的1階段(one-stage)目標(biāo)檢測(cè)方法[8],相較于生成候選區(qū)域(region proposal),再通過卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)目標(biāo)的分類與定位的2階段(two-stage)檢測(cè)方法更加簡潔有效。YOLOv5具體的改進(jìn)是增加了自適應(yīng)錨框和K-means算法聚類,并采用遺傳算法在訓(xùn)練過程中調(diào)整錨框。使得整個(gè)訓(xùn)練過程可以找到更好的先驗(yàn)框,提高檢測(cè)準(zhǔn)確率。YOLOv5根據(jù)不同的使用場景目的有YOLOv5l、YOLOv5m、YOLOv5s等版本,為保證算法的實(shí)時(shí)性和大小可控,本研究選擇了YOLOv5s版本,具體結(jié)構(gòu)見圖3。
YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)大致分成4個(gè)部分:輸入(input)、主干網(wǎng)絡(luò)(backone)、頸部(neck)及預(yù)測(cè)頭(head)。首先輸入部分是對(duì)圖像進(jìn)行預(yù)處理,如Mosaic增強(qiáng)。主干網(wǎng)絡(luò)通過卷積神經(jīng)網(wǎng)絡(luò)提取圖片特征信息,頸部負(fù)責(zé)將信息上采樣,不同網(wǎng)絡(luò)層的特征信息融合并將圖像特征傳遞到預(yù)測(cè)層。預(yù)測(cè)頭對(duì)圖像特征進(jìn)行預(yù)測(cè),生成邊界框并預(yù)測(cè)類別。
1.4 YOLOv5s網(wǎng)絡(luò)的改進(jìn)
1.4.1 SIoU 邊界框回歸損失是評(píng)價(jià)目標(biāo)檢測(cè)算法準(zhǔn)確度的重要評(píng)判標(biāo)準(zhǔn)之一,而最常用的計(jì)算指標(biāo)是交并比(IoU),即目標(biāo)檢測(cè)中預(yù)測(cè)框與真實(shí)框的重疊程度,具體見式1。IoU值越高說明A框與B框重合程度越高,代表模型預(yù)測(cè)越準(zhǔn)確。
IoU=|A∩B||A∪B|。(1)
式中:A代表預(yù)測(cè)框;B代表真實(shí)框。
但是IoU對(duì)尺度不敏感,如果2個(gè)框沒有相交,根據(jù)定義,IoU=0,不能反映2個(gè)框的距離大小,會(huì)造成Loss=0沒有梯度回傳,無法進(jìn)行學(xué)習(xí)訓(xùn)練。隨著目標(biāo)檢測(cè)技術(shù)的不斷改進(jìn),隨后出現(xiàn)不同的IoU改進(jìn)算法:在IoU的基礎(chǔ)上,解決邊界框不重合時(shí)的問題的GIoU[9];在IoU和GIoU的基礎(chǔ)上,考慮邊界框中心點(diǎn)距離信息的DIoU[10];在DIoU的基礎(chǔ)上,考慮邊界框?qū)捀弑瘸叨刃畔⒌腃IoU[11]。YOLOv5s默認(rèn)使用CIoU。
SCYLLA-IoU (SIoU)是Gevorgyan在2022年提出的新邊界框回歸損失函數(shù),重新定義了懲罰指標(biāo),極大改進(jìn)了目標(biāo)檢測(cè)算法的訓(xùn)練和推理速度。通過在損失函數(shù)代價(jià)中引入方向性,與現(xiàn)有方法CIoU損失相比,訓(xùn)練階段的收斂速度更快,推理性能更好[12]。主要由角度損失(angle cost)、距離損失(distance cost)、形狀損失(shape cost)、IoU損失(IoU cost)4個(gè)損失函數(shù)組成。
Angle cost的目的是如果α≤π4就最小化α,反之最小化β=π2-α。具體見圖4-a和式(2)。
Λ=1-2×sin2arcsinx-π4
x=chσ=sinα
σ=(bgtcx-bcx)2+(bgtcy-bcy)2
ch=max(bgtcy,bcy)-min(bgtcy,bcy)。(2)
式中:ch為真實(shí)框和預(yù)測(cè)框中心點(diǎn)的高度差;σ為真實(shí)框和預(yù)測(cè)框中心點(diǎn)的距離;sinα在訓(xùn)練過程中若大于45°取β,否則取α;bgtcx、bgtcy為真實(shí)框中心坐標(biāo);bcx、bcy為預(yù)測(cè)框中心坐標(biāo)。
Distance cost是真實(shí)框和預(yù)測(cè)框的最小外接矩形相關(guān)。具體見圖4-b和式(3)。
Δ=∑t=x,y(1-e-γρt)
ρx=bgtcx-bcxcw2,ρy=bgtcy-bcych2,γ=2-Λ。(3)
式中:cw、ch為真實(shí)框和預(yù)測(cè)框最小外接矩形的寬和高;ρt指距離損失使用2次冪來賦權(quán)重。
Shape cost具體見式(4):
Ω=∑t=w,h(1-e-ωt)θ
ωw=|w-wgt|max(w,wgt),ωh=|h-hgt|max(h,hgt)。(4)
式中:w、h,wgt、hgt分別為預(yù)測(cè)框和真實(shí)框的寬和高;θ控制對(duì)形狀損失的關(guān)注程度;ωt是由w、h共同確定的冪數(shù)值。
最終的損失函數(shù)包含了IoU cost,詳見圖4-c和式(5)。
Lbox=1-IoU+Δ+Ω2
IoU=|B∩BGT||B∪BGT|。(5)
1.4.2 SimSPPF SPP(spatial pyramid pooling)結(jié)構(gòu)又被稱為空間金字塔池化,是He等在2015年提出的,它能將任意大小的特征圖轉(zhuǎn)換成固定大小的特征向量[13]。這避免了對(duì)圖像區(qū)域裁剪、縮放等操作導(dǎo)致的圖像失真等問題,解決了提取到重復(fù)特征的問題,極大地提高了產(chǎn)生候選框的速度,且節(jié)省了計(jì)算成本。而YOLOv5在SPP的基礎(chǔ)上將原本并行的Maxpool替換成串行Maxpool,并行和串行的效果一樣,但串行的效率更高,稱之為SPPF。而SimSPPF將SPPF的激活函數(shù)SiLU替換為ReLU,更加高效,具體改變見圖5。
1.4.3 BoTNet 當(dāng)前,注意力機(jī)制在目標(biāo)檢測(cè)領(lǐng)域已經(jīng)得到廣泛應(yīng)用[14]。注意力機(jī)制的靈感來自于人類視覺面對(duì)不同事物時(shí)會(huì)選擇性地關(guān)注重要的信息部分,忽略其他不重要的信息。在注意力機(jī)制的幫助下,神經(jīng)網(wǎng)絡(luò)可以將有限的計(jì)算能力去捕捉更重要的圖像特征,最終達(dá)到更好的檢測(cè)精度。
為了使網(wǎng)絡(luò)能夠在不加大計(jì)算量的前提下獲取到更重要的蘋果樹葉病害特征,引入了BoTNet(bottleneck transformers)——基于ResNet改進(jìn)的一種多頭自注意力機(jī)制(multi-head self-attention,MHSA)[15]。BoTNet與ResNet相比,是在一個(gè)標(biāo)準(zhǔn)的bottleneck block中將空間3×3卷積層替換成MHSA,差異見圖6,而MHSA原理見圖7。
不同的注意力層對(duì)應(yīng)不同的樹葉病害類別,在自注意力部分采用的是相對(duì)位置編碼[16]。具體計(jì)算見式(6)至式(8)。
Attention(Q,K,V)=softmaxQKTdkV。(6)
式中:Attention(Q,K,V)為得到的注意力的值;Q、K、V分別為查詢量(query)、鍵(key)和值(value);dk是key的維度。
MHSA是由多個(gè)不同的單注意力組成,具體見式(7)~式(8)。
headi=Attention(QWQi,KWKi,VWVi);(7)
MultiHead(Q,K,V)=Concati(headi)WO。(8)
式(7)至式(8)中:Wi和WO為參數(shù)矩陣。
綜上,改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)不同病害添加了注意力機(jī)制,能夠?qū)W習(xí)到每種病害獨(dú)有的特征,在提取特征時(shí),使用更加高效的SimSPPF,并在預(yù)測(cè)階段引入了具有方向性的SIoU,提高了推理速度及準(zhǔn)確度。整體改進(jìn)的結(jié)構(gòu)見圖8。
2 結(jié)果與分析
2.1 試驗(yàn)環(huán)境與參數(shù)設(shè)置
本研究試驗(yàn)的環(huán)境:CPU為AMD R5 5600,GPU為NVIDIA RTX 3070,操作系統(tǒng)為Windows10,編譯環(huán)境為Python3.7、Pytorch1.12.1深度學(xué)習(xí)框架,GPU訓(xùn)練加速為CUDA11.6。試驗(yàn)時(shí)間為2022年7—9月,試驗(yàn)地點(diǎn)為長江大學(xué)農(nóng)學(xué)院與計(jì)算機(jī)科學(xué)學(xué)院。試驗(yàn)初始參數(shù)設(shè)置見表1。
表1中圖像大小是調(diào)整大小之后得來的,學(xué)習(xí)率下降方式采用余弦退火(cosine annealing),實(shí)現(xiàn)動(dòng)態(tài)的學(xué)習(xí)率。Batch size為16,訓(xùn)練總的輪次為300次(epoch)。在每個(gè)epoch中,對(duì)圖片的色調(diào)、飽和度、亮度進(jìn)行變化調(diào)整,并使用了Mosaic方式將多張圖片進(jìn)行拼接,以實(shí)現(xiàn)每個(gè)輪次的數(shù)據(jù)都是不同的,增加網(wǎng)絡(luò)的泛化性。將原始數(shù)據(jù)集按照? 8 ∶1 ∶1 的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
2.2 評(píng)價(jià)指標(biāo)
本研究采用目標(biāo)檢測(cè)領(lǐng)域常見的精準(zhǔn)率(precision,P)、召回率(recall,R)、IoU閾值設(shè)置為0.5的平均精度均值mAP(mean average precision,mAP)和計(jì)算量(GFLOPs)作為評(píng)價(jià)指標(biāo)。其中GFLOPs代表10億次浮點(diǎn)運(yùn)算量,其他具體計(jì)算見式(9)~式(12)。
P=TpTp+Fp;(9)
R=TpTp+Fn;(10)
PmAP=∫10P(R)dR;(11)
PmAP=∑PmAPn;(12)
式中:TP(true postives)是預(yù)測(cè)正確的正類樣本數(shù)量;FP(false postives)是預(yù)測(cè)錯(cuò)誤的正類樣本數(shù)量;Fn(false negatives)是預(yù)測(cè)錯(cuò)誤的負(fù)類樣本數(shù)量;n為預(yù)測(cè)的類別數(shù)。
2.3 對(duì)比試驗(yàn)
2.3.1 損失對(duì)比 對(duì)本研究改進(jìn)后的YOLOv5s與原YOLOv5s進(jìn)行對(duì)比試驗(yàn),除本研究改進(jìn)部分,其他網(wǎng)絡(luò)參數(shù)都參照表1設(shè)定,類別訓(xùn)練損失與類別驗(yàn)證損失的過程見圖9。由圖9可知,改進(jìn)后的網(wǎng)絡(luò),在同樣的迭代輪次的情況下,損失更小,網(wǎng)絡(luò)訓(xùn)練更高效。
2.3.2 注意力機(jī)制對(duì)比 為驗(yàn)證本研究所提出的BoTNet注意力機(jī)制的有效性,在基準(zhǔn)模型采用YOLOv5s,且在超參數(shù)和圖像輸入設(shè)置相同的情況下,分別將其與當(dāng)前比較熱門的SE(squeeze-and-excitation)、CBAM(convolutional block attention module)、SimAM(simple attention module)注意力機(jī)制進(jìn)行對(duì)比,試驗(yàn)結(jié)果見表2、圖10。
由表2、圖10可知,本研究提出的BoTNet注意力機(jī)制在更小的計(jì)算量和模型權(quán)重的情況下,能實(shí)現(xiàn)更高的目標(biāo)檢測(cè)精度。
2.3.3 網(wǎng)絡(luò)對(duì)比及消融試驗(yàn) 為體現(xiàn)本研究所提出網(wǎng)絡(luò)性能的優(yōu)越性,選取SSD、YOLOv3、YOLOv4、YOLOX等幾種熱門目標(biāo)檢測(cè)網(wǎng)絡(luò)。都使用默認(rèn)網(wǎng)絡(luò)參數(shù),且其他條件相同的情況下進(jìn)行了對(duì)比試驗(yàn)。各種網(wǎng)絡(luò)試驗(yàn)結(jié)果見表3。
由表3可知,在最重要的評(píng)價(jià)指標(biāo)mAP上,改進(jìn)后的YOLOv5s網(wǎng)絡(luò)比SSD網(wǎng)絡(luò)提升27.9百分點(diǎn);比YOLOv3網(wǎng)絡(luò)提升26.6百分點(diǎn);比YOLOv4提升20.6百分點(diǎn);比YOLOX網(wǎng)絡(luò)提升16.2百分點(diǎn);比基準(zhǔn)YOLOv5s網(wǎng)絡(luò)提升6.3百分點(diǎn)。在精準(zhǔn)率和召回率上也都遠(yuǎn)高于其他網(wǎng)絡(luò)。
為全面地驗(yàn)證本研究所提出每個(gè)改進(jìn)部分的有效性,對(duì)每個(gè)改進(jìn)部分進(jìn)行消融試驗(yàn)(ablation experiment),即在網(wǎng)絡(luò)其他條件不變下,每次只增加1個(gè)改進(jìn)部分的試驗(yàn)。試驗(yàn)結(jié)果見表4。
通過表4的試驗(yàn)數(shù)據(jù)可知,每個(gè)改進(jìn)的部分都有效果,在將IoU損失函數(shù)改成SIoU后,mAP上升,同時(shí)權(quán)重大小有微小的下降,說明SIoU相較于CIoU是更高效的。使用了SimSPPF和BoTNet后,在權(quán)重大小和計(jì)算量(GFLOPs)下降的情況下,mAP實(shí)現(xiàn)了明顯的上升。說明在將任意大小的特征圖轉(zhuǎn)換成固定大小的特征向量的過程中,SimSPPF丟失的信息更少。而BoTNet讓整個(gè)網(wǎng)絡(luò)更好地學(xué)習(xí)到了每種病害的獨(dú)有特征。
2.4 實(shí)例檢測(cè)
選取測(cè)試集的圖片,使用上述訓(xùn)練好的各個(gè)網(wǎng)絡(luò)進(jìn)行實(shí)例檢測(cè),實(shí)例檢測(cè)結(jié)果見圖11。
由圖11可知,本研究所提出的方法,在識(shí)別病害時(shí)平均置信度是最高的,實(shí)現(xiàn)了更準(zhǔn)確的檢測(cè)。
為驗(yàn)證本研究所提出網(wǎng)絡(luò)在不同環(huán)境下的魯棒性,選擇遮擋、陰影、強(qiáng)光、模糊4種非正常環(huán)境的部分測(cè)試集圖片。環(huán)境實(shí)例檢測(cè)見圖12。由圖12可知,本研究所提出的方法在復(fù)雜的環(huán)境下也能達(dá)到較高的準(zhǔn)確度。
3 結(jié)論
針對(duì)目前蘋果樹葉病害檢測(cè)準(zhǔn)確度低的問題,本研究提出了一種基于YOLOv5s的方法,首先將邊界框損失函數(shù)替換成考慮方向性的SIoU,實(shí)現(xiàn)了更高效的網(wǎng)絡(luò)訓(xùn)練,更加準(zhǔn)確的推理。在提取圖片特征并轉(zhuǎn)換為固定特征的過程中,使用了更優(yōu)的SimSPPF,丟失的圖片特征信息更少。在網(wǎng)絡(luò)訓(xùn)練過程中加入了BoTNet注意力機(jī)制,使網(wǎng)絡(luò)能學(xué)習(xí)到每種病害的獨(dú)有特征。試驗(yàn)表明,所改進(jìn)的網(wǎng)絡(luò)相比于其他網(wǎng)絡(luò),有著更高的mAP,更低的計(jì)算量,更小的模型權(quán)重。對(duì)復(fù)雜環(huán)境下采集到的葉片病害圖片也能準(zhǔn)確地檢測(cè),具有一定的環(huán)境魯棒性。在
實(shí)際的病蟲害防護(hù)中,具有一定的應(yīng)用價(jià)值。后續(xù),會(huì)收集更加復(fù)雜環(huán)境下的數(shù)據(jù),增加數(shù)據(jù)集,并采用不同數(shù)據(jù)預(yù)處理方法來提取不同環(huán)境下的圖片特征,來達(dá)到更好的模型泛化性能與精確度。
參考文獻(xiàn):
[1]李會(huì)賓,史 云. 果園采摘機(jī)器人研究綜述[J]. 中國農(nóng)業(yè)信息,2019,31(6):1-9.
[2]李書琴,陳 聰,朱 彤,等. 基于輕量級(jí)殘差網(wǎng)絡(luò)的植物葉片病害識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2022,53(3):243-250.
[3]Bari B S,Islam M N,Rashid M,et al. A real-time approach of diagnosing rice leaf disease using deep learning-based faster R-CNN framework[J]. Peer J Computer Science,2021,7:e432.
[4]王超學(xué),祁 昕,馬 罡,等. 基于YOLOv3的葡萄病害人工智能識(shí)別系統(tǒng)[J]. 植物保護(hù),2022,48(6):278-288.
[5]Richey B,Shirvaikar M V. Deep learning based real-time detection of northern corn leaf blight crop disease using YOLOv4[C]//Real-Time Image Processing and Deep Learning. 2021:39-45.
[6]Haque M E,Rahman A,Junaeid I,et al. Rice leaf disease classification and detection using YOLOv5[EB/OL]. (2022-09-04)[2022-10-10]. https://arxiv.org/pdf/2209.01579.pdf.
[7]雷建云,陳 楚,鄭 祿,等. 基于改進(jìn)殘差網(wǎng)絡(luò)的水稻害蟲識(shí)別[J]. 江蘇農(nóng)業(yè)科學(xué),2022,50(14):190-198.
[8]Ultralytics.YOLOv5[EB/OL]. (2020-06-26)[2022-02-22]. https://github.com/ultralytics/YOLOv5.
[9]Rezatofighi H,Tsoi N,Gwak J Y,et al. Generalized intersection over union:a metric and a loss for bounding box regression[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019:658-666.
[10]Zheng Z,Wang P,Liu W,et al. Distance-IoU loss:faster and better learning for bounding box regression[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020:12993-13000.
[11]Zheng Z H,Wang P,Ren D W,et al. Enhancing geometric factors in model learning and inference for object detection and instance segmentation[J]. IEEE Transactions on Cybernetics,2022,52(8):8574-8586.
[12]Gevorgyan Z.SIoU loss:more powerful learning for bounding box regression[EB/OL]. (2022-05-25)[2022-10-10]. https://arxiv.org/abs/2205.12740.
[13]He K M,Zhang X Y,Ren S Q,et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916.
[14]Guo M H,Xu T X,Liu J J,et al. Attention mechanisms in computer vision:a survey[J]. Computational Visual Media,2022,8(3):331-368.
[15]Srinivas A,Lin T Y,Parmar N,et al. Bottleneck transformers for visual recognition[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville:IEEE,2021:16514-16524.
[16]Shaw P,Uszkoreit J,Vaswani A.Self-attention with relative position representations[EB/OL]. (2018-04-12)[2022-09-10]. https://arxiv.org/pdf/1803.02155.pdf.