摘要: 針對麥穗數(shù)據(jù)集中存在的檢測目標(biāo)密集、 遮擋、 各地區(qū)形態(tài)不一致現(xiàn)象引起的漏檢、 模型泛化能力弱等問題, 提出一種基于改進(jìn)YOLOv7的麥穗檢測算法. 首先, 在YOLOv7網(wǎng)絡(luò)的骨干特征提取網(wǎng)絡(luò)引入混合注意力機(jī)制加強(qiáng)對位置特征的提取, 緩解檢測目標(biāo)密集導(dǎo)致的漏檢問題; 其次, 在骨干特征提取網(wǎng)絡(luò)引入能結(jié)合不同尺寸的可切換空洞卷積(switchable atrous convolution, SAC), 通過增大感受野實現(xiàn)提取不同尺度的特征信息, 可有效改善因遮擋現(xiàn)象引起的漏檢問題; 最后, 在特征融合部分引入增量學(xué)習(xí)模塊(example vector correction, EVC), 提高模型的魯棒性和泛化能力. 實驗結(jié)果表明, 改進(jìn)后的麥穗識別算法在全球小麥麥穗數(shù)據(jù)集的平均目標(biāo)檢測精度與原YOLOv7相比提高了2.11個百分點.
關(guān)鍵詞: 小麥麥穗檢測; 混合注意力; 增量學(xué)習(xí); 空洞卷積
中圖分類號: TP391" 文獻(xiàn)標(biāo)志碼: A" 文章編號: 1671-5489(2024)04-0886-09
Wheat Ear Detection Algorithm Based on Improved YOLOv7
CHEN Sen, XU Weifeng, WANG Hongtao, LEI Yao
(Department of Computer, North China Electric Power University (Baoding), Baoding 071003, Hebei Province, China;
Key Laboratory of Energy and Power Knowledge Computing of Hebei Province, Baoding 071003, Hebei Province, China)
Abstract: Aiming at the problems of dense detection targets, occlusion, missed detection caused by inconsistent morphology in various regions and weak generalization ability of the model in the wheat ear dataset, we proposed a wheat ear detection algorithm based on improved YOLOv7. Firstly, we introducd a mixed attention mechanism into the backbone feature extraction network of YOLOv7 network to strengthen the extraction of location features and alleviate the missed detection problem caused by dense detection targets. Secondly, switchable atrous convolution (SAC) which could combine different sizes was introduced into the backbone feature extraction network, and the feature information of different scales was extracted by increasing the receptive field, which could effectively improve the missed detection problem caused by occlusion. Finally, an incremental learning module example vector correction (EVC) was introduced into the feature fusion part to improve the robustness and generalization ability of the model. The experimental results show that the average target detection accuracy of the improved wheat ear recognition algorithm in the global wheat ear dataset is 2.11 percentage points" higher than that of the original YOLOv7.
Keywords: wheat ear detection; mixed attention; incremental learning; atrous convolution
小麥?zhǔn)鞘澜缛蠹Z食作物之一, 其播種面積在谷類作物中位居首位. 使用視覺傳感器輔助小麥產(chǎn)量預(yù)估已成為該領(lǐng)域目前研究的重要方向之一, 要完成準(zhǔn)確預(yù)估, 勢必涉及最基礎(chǔ)的麥穗檢測問題[1]. 本文提出一種結(jié)合深度學(xué)習(xí)[2]技術(shù)基于目標(biāo)檢測的麥穗檢測方法[3], 利用計算機(jī)視覺技術(shù)完成麥穗的檢測任務(wù).
在目標(biāo)檢測領(lǐng)域, 基于水平框的目標(biāo)檢測算法取得了許多研究成果. 這些算法主要分為兩類: 兩階段算法和單階段算法. 兩階段算法, 如Faster R-CNN[4]和SSD[5], 具有較高的精度但檢測速度較慢; 單階段算法, 如YOLO[6]及無錨框的YOLOX[7]等, 單階段算法具有更快的速度但精度較低. 針對麥穗檢測問題, Wang等[8]提出了結(jié)合角點檢測和全卷積層(fully convolutional networks, FCN)[9]的方法; 張領(lǐng)先等[10]采用卷積神經(jīng)網(wǎng)絡(luò)結(jié)合非極大值抑制(non-maximum suppression, NMS)[11]的方法提升識別效果, 建立了較高準(zhǔn)確率的麥穗識別模型. 但這兩種方法都只專注于統(tǒng)計麥穗的數(shù)量, 并且應(yīng)用受限于特定地區(qū)的小麥檢測, 模型泛化性較差. 在單階段算法中, 陳佳瑋等[12]基于YOLOv4算法[13]構(gòu)建了輕量級深度學(xué)習(xí)模型MobileNetV2-YOLOv4, 檢測速度比傳統(tǒng)算法更快但檢測精度略低. 此外, 張連屹[14]提出的YOLOv3-P模型在YOLOv3[15]網(wǎng)絡(luò)中引入了特征加強(qiáng)模塊[16]和融合注意力[17-18], 緩解了麥穗遮擋現(xiàn)象引起的漏檢問題, 也在全球小麥檢測數(shù)據(jù)集(global wheat head detection, GWHD)上取得了較好的效果, 但模型的檢測精度和泛化能力還有待提高. 黃碩等[19]提出將CBAM(convolutional block attention module)注意力和YOLOv5相結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu), 但其僅結(jié)合注意力機(jī)制[20]導(dǎo)致模型還有進(jìn)一步改進(jìn)的空間. 目前, 最新的單階段算法仍以YOLO系列為代表, 尤其是YOLOv7[21], 在速度和精度方面性能優(yōu)異. 為解決麥穗檢測任務(wù)的特殊性和傳統(tǒng)算法的局限性, 本文將基于YOLOv7算法框架提出一種新的麥穗圖像檢測算法.
本文算法主要集中在以下三方面工作: 1) 在YOLOv7的骨干特征提取網(wǎng)絡(luò)的卷積塊中引入混合注意力機(jī)制NAM(normalization-based attention module)[22], 形成新的卷積塊CNAM(convolutional normalization-based attention module), 通過該機(jī)制能加強(qiáng)對麥穗目標(biāo)的特征提取能力,
減輕由于檢測目標(biāo)密集導(dǎo)致的漏檢; 2) 在骨干特征提取網(wǎng)絡(luò)的MP(MaxPool)模塊中, 擬采用能結(jié)合不同尺寸的可切換空洞卷積(switchable atrous convolution, SAC)[23], 使模型能適應(yīng)不同尺度的麥穗目標(biāo), 改善由于遮擋現(xiàn)象導(dǎo)致的漏檢; 3) 在特征融合部分的FPN(feature pyramid network)[24]處引入增量式學(xué)習(xí)模塊EVC(example vector correction)[25], 以提高模型的泛化能力.
1 模型設(shè)計
1.1 YOLOv7模型
YOLO系列算法是單階段目標(biāo)檢測算法中最典型的代表之一, 而YOLOv7[21]則是目前該系列中最先進(jìn)的算法. 相比于傳統(tǒng)版本, YOLOv7在準(zhǔn)確率和速度上均有顯著提升, 其采用了模型重參數(shù)化、 新的標(biāo)簽分配策略、 ELAN高效網(wǎng)絡(luò)結(jié)構(gòu)、 帶輔助頭的訓(xùn)練等策略, 因而在檢測精度和速度上效果很好, 其網(wǎng)絡(luò)架構(gòu)[26]如圖1所示.
1.2 融合混合注意力機(jī)制
在麥穗圖像數(shù)據(jù)集中, 大部分圖片中的麥穗?yún)^(qū)域只占原圖的一小部分, 麥穗在有限范圍內(nèi)分布集中. 但大量背景區(qū)域并未提供模型所需的相關(guān)信息, 增加了麥穗檢測任務(wù)的難度. 因此, 本文引入了NAM注意力機(jī)制[22]改進(jìn)麥穗檢測網(wǎng)絡(luò)模型, 抑制其不太顯著但顏色與麥穗圖片相似的葉片特征, 使其更專注于與麥穗相關(guān)的特征, 減少背景特征對模型的影響, 緩解數(shù)據(jù)集中目標(biāo)密集導(dǎo)致的漏檢問題. NAM注意力是一種基于歸一化的注意力模塊, 采用與CBAM[27]注意力相同的模塊集成方式, 在不增加額外計算量的前提下, 重新設(shè)計其通道注意力和空間注意力子模塊, 經(jīng)過實驗對比, 將NAM添加到Y(jié)OLOv7的Backbone中效果最好. NAM模塊結(jié)構(gòu)如圖2所示.
在通道注意力模塊中, 使用Batch Normalization(BN)中的比例因子度量通道的重要性. 這些比例因子是根據(jù)每個batch的均值μ和標(biāo)準(zhǔn)差σ計算的, 因此能反映每個通道在當(dāng)前batch中的重要性程度, 用計算公式可表示為
Bout=BN(Bin)=γBin-μβσβ2+ε+β,(1)
其中ε為無限接近0的數(shù)值, 目的是避免分母為零.
本文使用這些比例因子加權(quán)特征圖, 以增強(qiáng)對重要特征的響應(yīng). 先將每個通道的特征圖乘以可訓(xùn)練的仿射變換參數(shù)γ, 再將它們與可訓(xùn)練位移參數(shù)β相加得到加權(quán)特征圖. 通道注意力模塊公式為
Mc=Sigmoid(Wγ(BN(F1))),(2)
其中γ表示每個通道的縮放因子, Wγ表示權(quán)重, F1表示輸入的特征.
針對空間注意力模塊, 將BN的比例因子應(yīng)用于空間維度, 用來衡量像素的重要性, 本文將其命名為像素歸一化, 用公式可表示為
Ms=Sigmoid(Wλ(BNs(F2))).(3)
1.3 改進(jìn)MPConv模塊
針對麥穗數(shù)據(jù)集中存在麥穗會被其他待檢測麥穗遮擋的現(xiàn)象, 為提高麥穗檢測模型的抗遮擋能力, 本文在YOLOv7骨干特征提取網(wǎng)絡(luò)的MPConv模塊中的CBS模塊(Conv卷積、 Batch normalization歸一化、 Silu激活函數(shù))引入SAC[23] , 替代原來的普通卷積, SAC可以自適應(yīng)地選擇不同的膨脹率, 以適應(yīng)不同大小的檢測目標(biāo), 其結(jié)構(gòu)如圖3所示.
由圖3可見, SAC包含3個核心組件: 兩個全局上下文模塊和一個SAC組件. 這兩個上下文模塊分別添加在SAC組件的前后. 在SAC組件中, 用y=Conv(x,w,r)表示采用權(quán)重為w
、 空洞率為r、 輸入為x的卷積操作, 其中y為輸出. 從普通卷積到空洞卷積的轉(zhuǎn)換公式為
Conv(x,w,1)→S(x)Conv(x,w,1)+(1-S(x))Conv(x,w+Δw,r),(4)
其中: r為一個超參數(shù), 通常情況下, r=3; Δw為可通過訓(xùn)練得到的權(quán)重; 變換函數(shù)S(·)由一個5×5的平均池化層和一個1×1卷積層組成.
YOLOv7骨干網(wǎng)絡(luò)中MPConv模塊的作用是下采樣, 如圖4(A)所示, 該模塊有兩個分支: 第一個分支是進(jìn)行最大池化操作, 將特征圖下采樣, 然后使用1×1卷積進(jìn)行通道數(shù)的變換; 第二個分支是使用1×1卷積進(jìn)行通道數(shù)的變換, 然后使用3×3卷積核、 步長為2的卷積塊進(jìn)行下采樣. 最終將第一個分支和第二個分支的輸出進(jìn)行拼接, 得到下采樣后的結(jié)果. 如圖4(B)所示, 本文將第二個分支的第二個模塊中的普通卷積改為SAC, 使網(wǎng)絡(luò)更能適應(yīng)不同尺寸的檢測目標(biāo), 以提高麥穗檢測模型的抗遮擋能力, 改善檢測模型的漏檢問題.
1.4 改進(jìn)特征融合模塊
針對麥穗數(shù)據(jù)集中圖片來源廣、 不同生長時期的圖片差異大等因素導(dǎo)致的模型泛化能力弱等問題, 本文在YOLOv7的特征融合部分引入CFPNet網(wǎng)絡(luò)的EVC模塊[25], 該模塊是CFPNet網(wǎng)絡(luò)引入的一種增量式學(xué)習(xí)模塊. EVC用于解決目標(biāo)檢測中的遺忘問題, 即在原模型基礎(chǔ)上, 如何在不重新訓(xùn)練整個模型的情況下快速適應(yīng)新的樣本, 其結(jié)構(gòu)如圖5所示.
EVC模塊由兩個并行連接的塊構(gòu)成, 其中上方分支使用輕量級多層感知機(jī)(MLP)捕獲頂級特征的全局信息, 同時, 為保留局部信息, 下方分支使用可學(xué)習(xí)的視覺中心機(jī)制(LVC)聚合層內(nèi)局部區(qū)域特征. 將這兩個模塊的結(jié)果特征圖沿通道維度連接在一起, 作為EVC的輸出, 用于下游識別, 用公式可表示為
X=cat(MLP(Xin);LVC(Xin)).(5)
MLP主要由兩個殘差模塊組成: 一個基于深度卷積的模塊(與傳統(tǒng)的空間卷積相比, 深度卷積可提高特征表示能力, 同時降低計算成本)和一個基于通道MLP的模塊. 這兩個模塊之后都先進(jìn)行了通道縮放操作和DropPath操作, 再進(jìn)行殘差連接, 以提高模型的特征泛化能力和魯棒性. 用函數(shù)表示為
in=DConv(GN(Xin))+Xin,(6)
MLP(Xin)=CMLP(GN(in))+in,(7)
其中GN( )表示組標(biāo)準(zhǔn)化, DConv( )表示深度卷積." 而LVC模塊則為一個帶有固有字典的編碼器, 主要分為兩部分: 一部分為Codebook, 另一部分為比例因子S, 為可學(xué)習(xí)的視覺中心.
EVC是一種廣義的層內(nèi)特征調(diào)節(jié)方法, 不僅可以提取全局長程依賴性, 還可以盡可能地保留輸入圖像的局部角點區(qū)域信息, 因此適合密集的預(yù)測任務(wù). 但在特征金字塔的每層都使用EVC會導(dǎo)致大量的計算開銷, 考慮到該因素, 本文只在特征融合部分的FPN結(jié)構(gòu)的第一個上采樣后引入EVC模塊.
1.5 改進(jìn)后的YOLOv7結(jié)構(gòu)
改進(jìn)后的YOLOv7網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示, 改進(jìn)部分皆為綠色填充. 首先, 通過在YOLOv7的骨干特征提取網(wǎng)絡(luò)中的ELAN模塊和特征融合模塊的SPPCSPC模塊融合NAM注意力, 提高網(wǎng)絡(luò)對數(shù)據(jù)集中重要特征的提取能力以及對葉子等不重要特征的抑制能力, 緩解因為目標(biāo)密集導(dǎo)致的漏檢問題; 其次, 將骨干特征提取網(wǎng)絡(luò)中MPConv模塊的第二個分支3×3普通卷積更改為可結(jié)合不同尺寸的空洞卷積SAC, 提高網(wǎng)絡(luò)針對不同尺寸目標(biāo)的特征提取能力, 緩解由于遮擋現(xiàn)象引起的漏檢問題; 最后, 在特征融合模塊FPN結(jié)構(gòu)的最頂層處引入增量學(xué)習(xí)模塊EVC, 提高模型的魯棒性和泛化能力.
2 實 驗
為評估改進(jìn)后的YOLOv7算法在小麥麥穗數(shù)據(jù)集上的檢測性能, 本文實驗在全球小麥公開數(shù)據(jù)集GWHD上進(jìn)行訓(xùn)練和測試. 實驗的開發(fā)環(huán)境: 操作系統(tǒng)為Linux, Python3.8, PyTorch1.
11, CUDA11; 硬件環(huán)境: CPU采用Intel(R)Xeon(R)Silver4110CPU@2.10 GHz, RAM采用14 GB, GPU采用RTX2080Ti(11 GB).
2.1 數(shù)據(jù)集及處理
由于全球小麥公開數(shù)據(jù)集GWHD為.csv格式, 因此本文先將其轉(zhuǎn)換為YOLO格式, 經(jīng)篩選后數(shù)據(jù)集共有
6 515張圖片, 尺寸大小為1 024×1 024, 其中訓(xùn)練集為3 657張圖片, 驗證集和測試集分別為1 476張和1 382張圖片. 訓(xùn)練集、 驗證集和測試集實例分別如圖7和圖8所示.
2.2 實驗參數(shù)設(shè)置
本文實驗中, 由于設(shè)備性能所限, 將輸入圖像的大小縮放至1 024×1 024像素, 并使用SGD作為優(yōu)化器, 設(shè)學(xué)習(xí)率為1×10-2, 動量為0.9, 權(quán)重衰減為5×10-4. 為調(diào)整學(xué)習(xí)率, 使用余弦退火算法. 在訓(xùn)練過程中, 每個batch中包含6張圖像, 在添加EVC模塊后, 將batch尺寸調(diào)整為2. 對模型進(jìn)行300個epoch的訓(xùn)練, 并交替進(jìn)行10個訓(xùn)練epoch和1個測試epoch.
2.3 實驗評價指標(biāo)
在小麥麥穗檢測實驗中, 本文使用mAP@0.5和mAP@(0.5~0.95)的平均值作為評價指標(biāo). 其中, mAP@0.5表示在交并比(IoU)閾值大于0.5的情況下的平均準(zhǔn)確率均值. 準(zhǔn)確率(Precision)、 召回率(Recall)、 平均準(zhǔn)確率AP和平均準(zhǔn)確率均值mAP的計算公式分別為
Precision=TPTP+FP,(8)Recall=TPTP+FN,(9)
AP=∫10ρ(r)dr,(10)mAP=1c∑ci=1APi,(11)
其中: TP表示正確的預(yù)測; FP表示錯誤的預(yù)測; FN表示預(yù)測中漏掉的檢測目標(biāo); Precision表示預(yù)測為TP的比例; Recall表示被正確預(yù)測的目標(biāo)數(shù)與數(shù)據(jù)集中的所有目標(biāo)數(shù)的比例; 每個類別的平均準(zhǔn)確率AP通過在準(zhǔn)確率-召回率曲線下計算曲線下面積獲得; 平均準(zhǔn)確率mAP是所有類別的AP的平均值, 通常使用AP@0.5作為衡量指標(biāo).
2.4 YOLOv7網(wǎng)絡(luò)模型與改進(jìn)后網(wǎng)絡(luò)模型實驗結(jié)果對比
本文以遞增的方式考察每個模塊對整個網(wǎng)絡(luò)模型的作用. 表1列出了本文算法在數(shù)據(jù)集GWHD上的消融實驗結(jié)果. 由表1可見, 與原始的YOLOv7相比, 本文設(shè)計的檢測模型在數(shù)據(jù)集GWHD上的mAP@(0.5~0.95)提升了2.11個百分點.
針對數(shù)據(jù)集實際情況, 原YOLOv7與改進(jìn)后的YOLOv7網(wǎng)絡(luò)模型檢測效果對比如圖9和圖10所示. 圖9為目標(biāo)密集圖片檢測結(jié)果對比. 由圖9可見, 圖9(A)左下角存在由于檢測目標(biāo)密集導(dǎo)致的漏檢情況, 而圖9(B)改進(jìn)后的網(wǎng)絡(luò)模型則成功檢測出目標(biāo). 圖10為遮擋嚴(yán)重圖片檢測結(jié)果對比. 由圖10可見, 圖10(A)中心的上方和下方都存在由于遮擋導(dǎo)致的漏檢, 而圖10(B)改進(jìn)后的網(wǎng)絡(luò)模型則成功檢測出遮擋麥穗. 且改進(jìn)后的網(wǎng)絡(luò)檢測效果整體置信度得分都高于原YOLOv7的檢測效果.
2.5 改進(jìn)后網(wǎng)絡(luò)模型與其他網(wǎng)絡(luò)模型的實驗結(jié)果對比
下面對改進(jìn)后的YOLOv7網(wǎng)絡(luò)模型與其他經(jīng)典網(wǎng)絡(luò)模型進(jìn)行對比實驗, 以驗證其有效性. 在保持配置環(huán)境和初始訓(xùn)練參數(shù)一致的條件下, 對其進(jìn)行比較, 結(jié)果列于表2. 由表2可見, 當(dāng)對輸入圖片做相同的設(shè)置后, 改進(jìn)后的YOLOv7網(wǎng)絡(luò)模型的檢測效果最好, 其mAP值也有顯著提升, 表明改進(jìn)后的網(wǎng)絡(luò)模型更適合用于麥穗檢測的場景.
綜上所述, 針對麥穗數(shù)據(jù)集檢測中存在的問題, 本文引入了一系列改進(jìn)措施. 首先, 引入混合注意力機(jī)制加強(qiáng)對位置特征的提取, 緩解了檢測目標(biāo)密集導(dǎo)致的漏檢問題; 其次, 引入能結(jié)合不同尺寸的空洞卷積SAC, 實現(xiàn)提取不同尺度的特征信息, 進(jìn)一步改善了由于遮擋導(dǎo)致的漏檢問題; 最后, 引入增量學(xué)習(xí)模塊EVC提高模型的魯棒性和泛化能力. 實驗結(jié)果表明, 該算法在全球小麥麥穗數(shù)據(jù)集GWHD上的平均目標(biāo)檢測精度比原YOLOv7模型提高了2.11個百分點.
參考文獻(xiàn)
[1] MA J C, LI Y X, DU K M, et al. Segmenting Ears of Winter Wheat at Flowering Stage Using Digital Images and Deep Learning [J]. Computers and Electronics in Agriculture, 2020, 168: 105159-1-105159-16.
[2] 于增源. 基于深度學(xué)習(xí)的麥穗檢測與精準(zhǔn)分割方法研究 [D]. 南京: 南京農(nóng)業(yè)大學(xué), 2019. (YU Z Y. Research on Wheat Ears Detection and Accurate Segmentation Method Based on Deep Learning [D]. Nanjing: Nanjing Agricultural University, 2019.)
[3] 李柯泉, 陳燕, 劉佳晨, 等. 基于深度學(xué)習(xí)的目標(biāo)檢測算法綜述 \. 計算機(jī)工程, 2022, 48(7): 1\|12. (LI K Q, CHEN Y, LIU J C, et al. A Review of Deep Learning Based Target Detection Algorithms \. Computer Engineering, 2022, 48(7): 1\|12.)
[4] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks [J]. IEEE Transations on Pattern Analysis and Machine Intelligence, 2016, 39(6): 1137-1149.
[5] LIU W, ANGUELOV D, ETHAN D, et al. SSD: Single Shot MultiBox Detector [C]//European Conference on Computer Vision. Berlin: Springer, 2016: 21-37.
[6] REDMON J, DIVVALA S, GIRSHICK R, et al. You Only Look Once: Unified, Real-Time Object Detection [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 779-788.
[7] 李美霖, 芮杰, 金飛, 等. 基于改進(jìn)YOLOX的遙感影像目標(biāo)檢測算法 \. 吉林大學(xué)學(xué)報(地球科學(xué)版), 2023, 53(4): 1313\|1322. (LI M L, RUI J, JIN F, et al. Target Detection Algorithm for Remote Sensing Images Based on Improved YOLOX \. Journal of Jilin University (Earth Science Edition), 2023, 53(4): 1313\|1322.)
[8] WANG D Y, FU Y Y, YANG G J, et al. Combined Use of FCN and Harris Corner Detection for Counting Wheat Ears in Field Conditions [J]. IEEE Access, 2019, 7: 178930-178941.
[9] SHELHAMER E, LONG J, DARRELL T. Fully Convolutional Networks for Semantic Segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(4): 640-651.
[10] 張領(lǐng)先, 陳運(yùn)強(qiáng), 李云霞, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的冬小麥麥穗檢測計數(shù)系統(tǒng) [J]. 農(nóng)業(yè)機(jī)械學(xué)報, 2019, 50(3): 144-150. (ZHANG L X, CHEN Y Q, LI Y X, et al. Convolutional Neural Network-Based Wheat Spike Detection Counting System for Winter Wheat [J]. Journal of Agricultural Machinery, 2019, 50(3): 144-150.)
[11] NEUBECK A, VAN GOOL L. Efficient Non-maximum Suppression [C]//18th International Conference on Pattern Recognition (ICPR’06). Piscataway, NJ: IEEE, 2006: 850-855.
[12] 陳佳瑋, 李慶, 譚巧行, 等. 結(jié)合輕量級麥穗檢測模型和離線Android軟件開發(fā)的田間小麥測產(chǎn) [J]. 農(nóng)業(yè)工程學(xué)報, 2021, 37(19): 156-164. (CHEN J W, LI Q, TAN Q X, et al. Combining Lightweight Wheat Spike Detection Model and Offline Android Software Development for Field Wheat Yield Measurement [J]. Journal of Agricultural Engineering, 2021, 37(19): 156-164.)
[13] 張寶朋, 康謙澤, 李佳萌, 等. 輕量化的YOLOv4目標(biāo)檢測算法 \. 計算機(jī)工程, 2022, 48(8): 206\|214. (ZHANG B P, KANG Q Z, LI J M, et al. Lightweight YOLOv4 Target Detection Algorithm \. Computer Engineering, 2022, 48(8): 206\|214.)
[14] 張連屹. 基于改進(jìn)YOLOv3的麥穗檢測算法研究 [D]. 長春: 吉林大學(xué), 2021. (ZHANG L Y. Research on Wheat Ears Detection Algorithm Based on Improved YOLOv3 [D]. Changchun: Jilin University, 2021.)
[15] REDMON J, FARHADI A. YOLOv3: An Incremental Improvement [EB/OL]. (2018-04-08)[2023-01-20]. https://arxiv.org/abs/1804.02767.
[16] 陳喬松, 周麗, 毛彥嵋, 等. 基于淺層空間特征融合與自適應(yīng)通道篩選的目標(biāo)檢測方法 \. 江蘇大學(xué)學(xué)報(自然科學(xué)版), 2022, 43(1): 67\|74. (CHEN Q S, ZHOU L, MAO Y M, et al. A Target Detection Method Based on Shallow Spatial Feature Fusion and Adaptive Channel Screening \. Journal of Jiangsu University (Natural Science Edition), 2022, 43(1): 67\|74.)
[17] 歐陽繼紅, 王梓明, 劉思光. 改進(jìn)多尺度特征的YOLO_v4目標(biāo)檢測方法 [J]. 吉林大學(xué)學(xué)報(理學(xué)版), 2022, 60(6): 1349-1355. (OUYANG J H, WANG Z M, LIU S G. Improved YOLO_v4 Target Detection Method with Multi-scale Features [J]. Journal of Jilin University (Science Edition), 2022, 60(6): 1349-1355.)
[18] 逄晨曦, 李文輝. 基于注意力改進(jìn)的自適應(yīng)空間特征融合目標(biāo)檢測算法 [J]. 吉林大學(xué)學(xué)報(理學(xué)版), 2023, 61(3): 557-566. (PANG C X, LI W H. Adaptive Spatial Feature Fusion Object Detection Algorithm Based on Attention Improvement [J]. Journal of Jilin University (Science Edition), 2023, 61(3): 557-566.)
[19] 黃碩, 周亞男, 王起帆, 等. 改進(jìn)YOLOv5測量田間小麥單位面積穗數(shù) [J]. 農(nóng)業(yè)工程學(xué)報, 2022, 38(16): 235-242. (HUANG S, ZHOU Y N, WANG Q F, et al. Improvement of YOLOv5 to Measure the Number of Spikes per Unit Area of Wheat in the Field [J]. Journal of Agricultural Engineering, 2022, 38(16): 235-242.)
[20] 高陳強(qiáng), 董亞盼, 諶放, 等. 一種基于注意力機(jī)制的紅外小目標(biāo)檢測方法 \. 重慶郵電大學(xué)學(xué)報(自然科學(xué)版), 2023, 35(2): 219\|226. (GAO C Q, DONG Y P, CHEN F, et al. An Infrared Small Target Detection Method Based on Attention Mechanism \. Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition), 2023, 35(2): 219\|226.)
[21] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors [EB/OL]. (2022-06-06)[2023-01-30]. https://arxiv.org/abs/2207.02696.
[22] LIU Y C, SHAO Z R, TENG Y Y, et al. NAM: Normalization-Based Attention Module [EB/OL]. (2021-11-24)[2023-02-01]. https://arxiv.org/abs/2111.12419.
[23] QIAO S Y, CHEN L C, YUILLE A. DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution [EB/OL]. (2020-06-03)[2023-01-15]. https://arxiv.org/abs/2006.02334.
[24] LIU S, QI L, QIN H F, et al. Path Aggregation Network for Instance Segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 8759-8768.
[25] QUAN" Y, ZHANG D, ZHANG L Y, et al. Centralized Feature Pyramid for Object Detection [J]. IEEE Transactions on Images Processing, 2023, 32: 4341-4354.
[26] 戚玲瓏, 高建瓴. 基于改進(jìn)YOLOv7的小目標(biāo)檢測 [J]. 計算機(jī)工程, 2023, 49(1): 41-48. (QI L L, GAO J L. Small Target Detection Based on Improved YOLOv7 [J]. Computer Engineering, 2023, 49(1): 41-48.)
[27] WOO S, PARK J, LEE J Y, et al. Cbam: Convolutional Block Attention Module
[C]//Proceedings of the European Conference on Computer Vision (ECCV). New York: ACM, 2018: 3-19.
(責(zé)任編輯: 韓 嘯)