摘要:針對(duì)復(fù)雜自然環(huán)境下雜草識(shí)別準(zhǔn)確率不高、泛化和擬合能力較差等問題,提出基于注意力與小平核的ConvNeXt雜草圖像識(shí)別方法。首先,在ConvNeXt模塊中加入GRN正則化策略,有效減少識(shí)別過程的過擬合風(fēng)險(xiǎn),提高模型的泛化能力;其次,提出在所有Block中把7×7的深度可分離卷積分解為有4個(gè)平行分支的小平方核,提升對(duì)雜草圖像的特征提取能力;最后,在ConvNeXt結(jié)合上述方法下,引入SENet通道注意力模塊,進(jìn)一步提高模型在通道方向的特征融合,強(qiáng)化雜草特征,構(gòu)建出雜草識(shí)別模型。為驗(yàn)證模型的識(shí)別性能,使用公開的9類雜草圖像樣本進(jìn)行對(duì)比試驗(yàn),結(jié)果表明,與主流模型相比,模型在準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)上均表現(xiàn)優(yōu)異,分別達(dá)到96.172%、95.556%、96.478%、96.014%;消融試驗(yàn)結(jié)果表明,與基準(zhǔn)模型ConvNeXt相比,GRN、小平方核分別提高8.639%、5.691%,SENet在前二者基礎(chǔ)上提高了5.174百分點(diǎn);可視化分析證明,引入的通道注意力能更好關(guān)注到雜草特征。該模型可提高雜草識(shí)別準(zhǔn)確率和對(duì)真實(shí)環(huán)境的泛化能力,為精準(zhǔn)防控雜草提供有效的解決方法。
關(guān)鍵詞:雜草識(shí)別;ConvNeXt;GRN正則化策略;小平方核;通道注意力
中圖分類號(hào):S126;TP391.41" 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1002-1302(2024)14-0207-07
收稿日期:2023-08-17
基金項(xiàng)目:國家自然科學(xué)基金(編號(hào):U1936123)。
作者簡介:楊德龍(1999—),男,河南信陽人,碩士研究生,主要從事深度學(xué)習(xí)、圖像識(shí)別研究。E-mail:delongyang@mail.shiep.edu.cn。
通信作者:李 婧,博士,副教授,主要從事深度學(xué)習(xí)、區(qū)塊鏈技術(shù)研究。E-mail:lijing@shiep.edu.cn。
世界人口快速增長,預(yù)計(jì)2050年將達(dá)到90億人,對(duì)糧食的需求量將大幅增加;發(fā)展精準(zhǔn)農(nóng)業(yè)對(duì)解決糧食增長至關(guān)重要[1],有效防控雜草是其中關(guān)鍵措施之一。雜草通過爭(zhēng)奪資源、釋放化學(xué)物質(zhì)而干擾作物生長,雜草的自動(dòng)檢測(cè)和識(shí)別在雜草防控中具有重要作用[2],其精準(zhǔn)識(shí)別能有效防控雜草。
卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域已取得不錯(cuò)的成果,并被研究者引入雜草識(shí)別領(lǐng)域。趙輝等提出以農(nóng)作物田間雜草為研究對(duì)象,以DenseNet-121網(wǎng)絡(luò)為基礎(chǔ),在每個(gè)卷積層后引入通道注意力機(jī)制,強(qiáng)化雜草特征并抑制背景特征,然后加入dropout正則化,并且和VGG16、ResNet-50、未改進(jìn)的DenseNet-121模型進(jìn)行對(duì)比試驗(yàn)[3]。疏雅麗等提出基于Resnet-50的網(wǎng)絡(luò)模型,改變殘差塊下采樣的位置,引入注意力機(jī)制,結(jié)合遷移學(xué)習(xí),使雜草識(shí)別準(zhǔn)確率達(dá)到96.31%[4]。曲福恒等為了提高作物雜草圖像識(shí)別的準(zhǔn)確率,在Resnet-50網(wǎng)絡(luò)模型中提出在Retinex算法上加入顏色恢復(fù)函數(shù),將殘差網(wǎng)絡(luò)中的激活函數(shù)換位Leaky ReLU,并引入CBAM注意力機(jī)制模塊,識(shí)別準(zhǔn)確率達(dá)到95.3%,高于一些主流算法[5]。Olsen等提出的DeepWeeds數(shù)據(jù)集,為雜草物種貢獻(xiàn)了第1個(gè)大型、公共、多類圖像數(shù)據(jù)集,并用Inception-v3、ResNet50介紹該數(shù)據(jù)集分類性能的基線[6]。綜上所述,卷積神經(jīng)網(wǎng)絡(luò)可以極好地解決圖像識(shí)別問題,在識(shí)別準(zhǔn)確率上有較高的提升,但仍存在以下問題:(1)雜草分類的主要挑戰(zhàn)是雜草和作物可能具有非常相似的顏色或紋理,現(xiàn)有的深度學(xué)習(xí)分類模型難以準(zhǔn)確提取特征,導(dǎo)致結(jié)果泛化能力不強(qiáng);(2)因雜草圖像多樣且圖像像素占比高,在特征提取過程中,卷積神經(jīng)網(wǎng)絡(luò)會(huì)提取大量無效的背景信息,導(dǎo)致過擬合。
針對(duì)上述問題,本研究提出改進(jìn)的ConvNeXt農(nóng)業(yè)雜草識(shí)別模型GSI_ConvNeXt[7],通過加入GRN正則化策略[8],提高模型的泛化能力,降低過擬合風(fēng)險(xiǎn)。將ConvNeXt Block中的深度可分離卷積分解為4個(gè)平行分支的小平方核,提高特征提取能力。同時(shí)加入SENet通道注意力機(jī)制[9],進(jìn)一步加強(qiáng)圖像特征之間的融合,從而實(shí)現(xiàn)對(duì)不同雜草的高效準(zhǔn)確識(shí)別。
1 農(nóng)業(yè)雜草識(shí)別模型
1.1 模型構(gòu)建
針對(duì)雜草圖像識(shí)別準(zhǔn)確率較低以及泛化能力弱等問題,在原有ConvNeXt網(wǎng)絡(luò)的基礎(chǔ)上,增加GRN正則化策略和通道注意力機(jī)制SEnet,并把7×7深度可分離卷積分解為小平方核,從而構(gòu)建農(nóng)業(yè)雜草識(shí)別網(wǎng)絡(luò)模型。具體來說,在ConvNeXt模塊中添加GRN正則化策略和SENet注意力模塊(圖1),同時(shí)把ConvNeXt網(wǎng)絡(luò)的Layer Scale的功能直接封裝到GRN里面,這樣在減少代碼冗余的同時(shí),也不會(huì)降低網(wǎng)絡(luò)的精度。然后將每個(gè)模塊中第一部分 DWConv卷積分解成4個(gè)平行分支,分別為 DWConv、 DWConv、 DWConv、Identity。最后經(jīng)過添加dropout、激活函數(shù)、全局平均池化等操作,可以精準(zhǔn)實(shí)現(xiàn)雜草特征的提取。所構(gòu)建的GSI_ConvNeXt網(wǎng)絡(luò)模型以不同種類的雜草圖像為研究對(duì)象,進(jìn)行一系列試驗(yàn)驗(yàn)證,雜草分類準(zhǔn)確度和泛化能力對(duì)比基準(zhǔn)模型和現(xiàn)有主流的網(wǎng)絡(luò)相比都有一定的提升,證明本模型對(duì)雜草識(shí)別的有效性。
1.2 ConvNeXt模型
GSI_ConvNeXt是在基準(zhǔn)模型ConvNeXt基礎(chǔ)上進(jìn)行改進(jìn)的。ConvNeXt網(wǎng)絡(luò)是由Facebook團(tuán)隊(duì)于2022年提出的一種純卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)模型,ConvNeXt的整體結(jié)構(gòu)是基于ResNet結(jié)構(gòu)進(jìn)行設(shè)計(jì)的。如圖2所示,ConvNeXt模型輸入圖像的高、寬、深為H×W×C。首先通過1個(gè)普通卷積和層標(biāo)準(zhǔn)化,之后通過1次核心結(jié)構(gòu)ConvNeXt模塊,再經(jīng)過多次下采樣和ConvNeXt模塊(這一步是整個(gè)網(wǎng)絡(luò)的核心),最后對(duì)輸出的特征圖經(jīng)過全局池化、層標(biāo)準(zhǔn)化以及全連接層輸出最終的結(jié)果。表1所展示的是ConvNeXt-Tiny各部分詳細(xì)參數(shù)。
1.3 全局響應(yīng)歸一化
GSI_ConvNeXt加入響應(yīng)歸一化層GRN,其目的是提高模型通道的對(duì)比度和選擇性,防止過擬合,提高模型的泛化能力。全局響應(yīng)歸一化(global response normalization,GRN)是一種神經(jīng)網(wǎng)絡(luò)的有效正則化方法,旨在緩解深度卷積神經(jīng)網(wǎng)絡(luò)中的過擬合問題。它會(huì)對(duì)同一特征圖中的所有位置和通道同時(shí)進(jìn)行歸一化,而不是針對(duì)單個(gè)位置或者通道進(jìn)行歸一化處理。這種全局歸一化方法可以保證在輸入數(shù)據(jù)的范圍發(fā)生較大變化時(shí),神經(jīng)網(wǎng)絡(luò)的表現(xiàn)仍然穩(wěn)定,應(yīng)用在卷積神經(jīng)網(wǎng)絡(luò)中時(shí),可以大大減少過擬合現(xiàn)象的發(fā)生。
輸入時(shí)給定1個(gè)輸入特征X∈RH×W×C,在GRN中會(huì)經(jīng)過3個(gè)步驟:
全局特征聚合,使用一個(gè)全局函數(shù)G(·)將一個(gè)空間特征圖Xi聚合成一個(gè)向量gx:
G(X):=X∈RH×W×C→gx∈RC。(1)
公式(1)可以看作是一個(gè)簡單的池化層。其中,
G(X)=gx{‖X1‖,‖X2‖,…,‖XC‖}∈RC,是聚合第i個(gè)通道統(tǒng)計(jì)信息的標(biāo)量。
特征歸一化,將一個(gè)響應(yīng)歸一化函數(shù)N(·) 應(yīng)用于聚合值。具體來說,使用一個(gè)標(biāo)準(zhǔn)的除法歸一化操作:
N(‖Xi‖):‖Xi‖∈R→‖Xi‖∑j=1,2,3,…,C‖Xj‖∈R。(2)
式中:‖Xi‖表示第i通道的L2范數(shù)。
特征校準(zhǔn),使用計(jì)算得到的特征歸一化分?jǐn)?shù)來校準(zhǔn)原始輸入響應(yīng):
Xi=Xi×N[G(X)i]∈RH×W。(3)
1.4 IncepitonNeXt模塊
IncepitonNeXt是把基準(zhǔn)模型ConvNeXt所有的 深度可分離卷積分解為有4個(gè)平行分支的小平方核[10],分解后的卷積核可以更好地提取雜草圖像特征。在一些著名的神經(jīng)網(wǎng)絡(luò)如AlexNet[11]、Inceptionv1[12]中,已經(jīng)使用11×11、7×7的大卷積核,雖然可以明顯提高一些圖像的識(shí)別準(zhǔn)確率,但是在一些數(shù)據(jù)集上的效果反而不好。為了改變這個(gè)缺陷,VGG提出大量的3×3卷積堆疊[13],Inceptionv3將k×k卷積分解為1×k、k×1的序列疊加[14]。本研究使用的基準(zhǔn)模型ConvNeXt默認(rèn)采用7×7的卷積核。對(duì)于大卷積核而言,如MixConv將卷積核分成從3×3到k×k的幾個(gè)組,又受到ShuffleNet v2的啟發(fā)[15],發(fā)現(xiàn)對(duì)部分通道進(jìn)行處理時(shí),單個(gè)深度可分卷積層已經(jīng)足夠,因此本研究引入IncepitonNeXt模塊代替7×7的卷積核,將大的kh×kw卷積核分解為1×kw、kh×1 的卷積核。具體來說,IncepitonNeXt模塊會(huì)有以下3個(gè)步驟:
首先,將輸入的X沿著通道維度分為4組,即
Xhw,XW,Xh,Xid=Split(X)
=X:,:g,X:g,:2g,X:2,:3g,X:3g:。(4)
式中:g是卷積分支的通道數(shù)??梢栽O(shè)置比率rg來確定分支通道數(shù),其中g(shù)=rgC 。
接下來,將分裂輸入饋送到不同的并行分支中:
Xhw′=DWConvg→gks×ksg(Xhw);
Xw′=DWConvg→g1×kbg(Xw);
Xh′=DWConvg→gkb×1g(Xh);
Xid′=Xid。(5)
式中:ks表示小方形卷積核大小,默認(rèn)設(shè)置為3;kb代表帶卷積核大小,默認(rèn)設(shè)置為11。
最后,從每個(gè)分支把得到的各個(gè)輸出Concat起來:
X′=Concat(Xhw′,Xw′,Xh′,Xid′)。(6)
上述過程如圖3所示。
1.5 通道注意力
SENet是經(jīng)典使用通道注意力機(jī)制的網(wǎng)絡(luò),是2017屆ImageNet分類比賽的冠軍,它提出一種通道方向的注意力機(jī)制。通過在網(wǎng)絡(luò)模型中插入SE模塊,可以允許網(wǎng)絡(luò)執(zhí)行特征再校準(zhǔn)機(jī)制,從而學(xué)習(xí)使用全局信息有選擇地強(qiáng)調(diào)有信息量的特征,抑制不太有用的特征。簡單來說,就是評(píng)估各個(gè)特征通道的重要程度,再對(duì)不同的特征通道進(jìn)行增強(qiáng)或者抑制。SE模塊主要是壓縮(squeeze)、激勵(lì)(excitation)這2個(gè)核心部分,其核心(SENet)結(jié)構(gòu)如圖4所示。
SENet總體可以分為壓縮操作、激勵(lì)操作、Scale操作3個(gè)部分。
(1)壓縮操作。作用于1組通道數(shù)據(jù),將它們進(jìn)行壓縮,生成每個(gè)通道的全局特征表示。這樣,全局特征就可以表示為整個(gè)網(wǎng)絡(luò)提供通道響應(yīng)的全局信息。
z=Fksq=1H×W∑Hi=1∑Wj=1vk(i,j) k=1,2,3,…,C。(7)
式中:z是指輸入特征執(zhí)行壓縮操作后的結(jié)果;vk(i,j)為經(jīng)過一系列卷積之后的特征層;C為v的通道數(shù)。
(2)激勵(lì)操作。對(duì)每個(gè)通道進(jìn)行計(jì)算,以得到該通道的權(quán)重,用這個(gè)權(quán)重進(jìn)行調(diào)制,使得網(wǎng)絡(luò)可以自適應(yīng)地對(duì)不同通道信息進(jìn)行加權(quán),以提高網(wǎng)絡(luò)對(duì)于不同通道特征的敏感度。
s=Fex(z,W)=σ[g(z,W)]=σ[W2δ(W1z)]。(8)
式中:σ表示Sigmoid函數(shù);δ表示ReLU激活函數(shù);W1∈RCγ×C、W2∈RC×Cγ是2個(gè)全連接層的參數(shù),γ用于減少全連接層的維度。
(3)Scale操作。Scale操作是在激勵(lì)操作的基礎(chǔ)上使用1個(gè)標(biāo)量運(yùn)算,對(duì)每個(gè)通道的特征進(jìn)行縮放,以達(dá)到對(duì)不同通道特征值范圍的動(dòng)態(tài)平衡。
X=Fscale=sk×vk。(9)
式中:Fscale表示標(biāo)量sk和特征層vk的逐通道乘法。
1.6 數(shù)據(jù)來源
本研究所采用的數(shù)據(jù)是公開數(shù)據(jù)集DeepWeeds,該數(shù)據(jù)集是針對(duì)雜草自動(dòng)識(shí)別和分類任務(wù)而建立的,包含17 509幅具有較高復(fù)雜度農(nóng)業(yè)區(qū)域圖像,主要是原產(chǎn)于澳大利亞的9種不同雜草物種與鄰近植物群,包括中國蘋果、蛇麻草、香蒲、刺槐、暹羅草、苦參、橡膠藤、百日草、陰性草共9類農(nóng)業(yè)雜草圖像,這些圖像類別大多都有相似的顏色、形狀、大小,其中極個(gè)別的雜草非常相似,使得準(zhǔn)確識(shí)別難度加大。該數(shù)據(jù)集中每個(gè)圖像大小均為256×256,這可能會(huì)增加模型的計(jì)算量。圖5展示了該數(shù)據(jù)集的部分雜草樣本。
1.7 數(shù)據(jù)預(yù)處理
在深度學(xué)習(xí)圖像識(shí)別中,當(dāng)數(shù)據(jù)集的數(shù)量較大并且各類別分配均勻的情況下,卷積神經(jīng)網(wǎng)絡(luò)才能發(fā)揮出較好的特征提取能力。在DeepWeeds雜草數(shù)據(jù)集中,陰性草類的圖像有9 106幅,其余8類雜草每類樣本數(shù)量大約為1 000幅;對(duì)比其他8類樣本圖像數(shù)量,需要減少陰性草的比例,使其達(dá)到正常圖像識(shí)別范疇的類別比例。本研究采取隨機(jī)去除70%的陰性草樣本的做法,最終總樣本數(shù)量達(dá)到11 103幅圖像。然后將樣本隨機(jī)劃分為3個(gè)數(shù)據(jù)集,三者劃分的比例大約為訓(xùn)練集 ∶驗(yàn)證集 ∶測(cè)試集=3.74 ∶1 ∶1,訓(xùn)練集為7 232幅,驗(yàn)證集1 938幅,測(cè)試集1 933幅。DeepWeeds數(shù)據(jù)集圖像識(shí)別難度可歸結(jié)為顏色相同、光照反光、角度偏移、遮擋物遮擋,并且類別間差異較小。因此在試驗(yàn)開始之前,要先對(duì)數(shù)據(jù)集預(yù)處理,例如本研究將圖像大小設(shè)置為224×224,進(jìn)行中心裁剪、隨機(jī)水平翻轉(zhuǎn)、標(biāo)準(zhǔn)化等預(yù)處理。
2 試驗(yàn)方法
2.1 試驗(yàn)環(huán)境
本試驗(yàn)于2023年5月在上海電力大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院使用Autodl上的服務(wù)器運(yùn)行,所有試驗(yàn)均是在同一個(gè)服務(wù)器上開發(fā)。試驗(yàn)使用Ubuntu 20.04,CPU型號(hào)為12 vCPU IntelXeon Platinum 8255C CPU @ 2.50 GHz,GPU型號(hào)為RTX 2080 Ti(顯存為11 GB),深度學(xué)習(xí)框架為PyTorch 1.11.0,Cuda版本為11.3。網(wǎng)絡(luò)試驗(yàn)參數(shù)設(shè)置如下:優(yōu)化器采用AdamW[16],學(xué)習(xí)率調(diào)整使用余弦退火策略,在模型訓(xùn)練初期使用Warm up預(yù)熱學(xué)習(xí)率的方式[17],加速模型的收斂速度。模型的迭代次數(shù)為100,批次大小為16,初始學(xué)習(xí)率為0.000 5,采用權(quán)重衰減的方法抑制過擬合[18],衰減系數(shù)設(shè)為0.02。損失函數(shù)采用交叉熵?fù)p失函數(shù)CrossEntropyLoss[19]。
2.2 評(píng)估指標(biāo)
本研究選取準(zhǔn)確率(accuracy,A)、召回率(recall,R)、精確率(precision,P)、F1分?jǐn)?shù)(F1 scores)作為判斷模型好壞的評(píng)價(jià)方法。
準(zhǔn)確率指分類正確樣本數(shù)與總樣本數(shù)的比例,其計(jì)算公式為:
A=TP+TNTP+TN+FP+FN。(10)
精確率指預(yù)測(cè)為正的樣本中是真正的正樣本的比例。其計(jì)算公式為:
P=TPTP+FP。(11)
召回率指樣本中的正例被預(yù)測(cè)正確的比例。其計(jì)算公式為:
R=TPTP+FN。(12)
F1分?jǐn)?shù)指精準(zhǔn)率和召回率的調(diào)和平均數(shù)。其計(jì)算公式為:
F1=2×P×RP+R。(13)
式中:TP(真陽性)表示將正例預(yù)測(cè)為正例的數(shù)量;FP(假陽性)表示將負(fù)例預(yù)測(cè)為正例的數(shù)量;FN(假陰性)表示將負(fù)例預(yù)測(cè)為負(fù)例的數(shù)量;TN(真陰性)表示將正例預(yù)測(cè)為負(fù)例的數(shù)量。一般而言,準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)的值越高,模型的分類性能越好。
3 試驗(yàn)結(jié)果分析
3.1 模型性能分析
本研究利用驗(yàn)證集準(zhǔn)確率、測(cè)試集準(zhǔn)確率來評(píng)估GSI_ConvNeXt網(wǎng)絡(luò)分類模型的訓(xùn)練效果。其中,驗(yàn)證集是用于調(diào)整模型的超參數(shù)和進(jìn)行模型選擇,驗(yàn)證集的準(zhǔn)確率高說明超參數(shù)的選擇比較優(yōu);而測(cè)試集用于評(píng)估真實(shí)世界數(shù)據(jù)的準(zhǔn)確率和泛化能力,對(duì)模型進(jìn)行客觀的、獨(dú)立的評(píng)估,最能說明模型的性能。
為了驗(yàn)證本研究模型的有效性,在一定條件(數(shù)據(jù)集與處理方法相同)下迭代100次,在驗(yàn)證集上分別與3種典型圖像識(shí)別網(wǎng)絡(luò)進(jìn)行準(zhǔn)確率和Loss曲線的對(duì)比,其結(jié)果如圖6所示。圖6-A為不同模型準(zhǔn)確率對(duì)比,而圖6-B則為驗(yàn)證集的損失值在不同模型中的對(duì)比。由圖6-A可知,本研究模型準(zhǔn)確率最高,達(dá)到96.172%;ResNet50達(dá)到95.200%;而ShuffleNet v2、MoblieNet v2[20]接近90%。由圖6-B可知,本研究模型驗(yàn)證集的Loss曲線比其他3個(gè)模型更加平滑,說明模型擬合得更好。因此,相比主流的經(jīng)典模型,本研究構(gòu)建的模型在驗(yàn)證集上訓(xùn)練得最好。
對(duì)于多分類而言,驗(yàn)證集的準(zhǔn)確率不能完全說明該模型在真實(shí)數(shù)據(jù)中擬合得好,還需要看測(cè)試集的準(zhǔn)確率,也就是看該模型對(duì)真實(shí)數(shù)據(jù)的泛化能力。本研究模型采用準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)來說明模型的性能。由表2可知,本研究模型在準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)上的數(shù)值均為最高,識(shí)別準(zhǔn)確率比Resnet50高約1.3百分點(diǎn);本研究模型在測(cè)試集的準(zhǔn)確率僅僅比驗(yàn)證集的準(zhǔn)確率低0.528百分點(diǎn),說明本研究模型對(duì)數(shù)據(jù)的擬合能力好。
3.2 混淆矩陣
混淆矩陣在多分類任務(wù)中是最常見且最有效的評(píng)價(jià)指標(biāo),可以直觀地看到類別的誤識(shí)別情況。采用驗(yàn)證集訓(xùn)練好的權(quán)重對(duì)測(cè)試集的1 933幅圖像進(jìn)行分類結(jié)果測(cè)試,9類雜草的混淆矩陣結(jié)果如圖7所示(顏色的深淺代表每個(gè)類別識(shí)別正確圖像數(shù)量)。由圖7可以看出,大部分雜草類別預(yù)測(cè)錯(cuò)誤的圖像數(shù)量都比較少,其中,中國蘋果、蛇草這2個(gè)類別誤識(shí)別數(shù)量較多。中國蘋果有9幅圖像誤識(shí)別為陰性草,有6幅圖像誤識(shí)別為蛇草;蛇草有10幅圖像誤識(shí)別為中國蘋果。這是因?yàn)檫@2個(gè)類別圖像特征較為相似,造成這2類互識(shí)別錯(cuò)誤相較于其他較多。
3.3 消融試驗(yàn)
為了驗(yàn)證本研究所提出的優(yōu)化方法對(duì)基準(zhǔn)模型性能的提高能力,在相同試驗(yàn)條件下,使用ConvNeXt模型對(duì)測(cè)試集采用不同優(yōu)化方法進(jìn)行測(cè)試,其結(jié)果如表3所示。在基準(zhǔn)模型上,添加GRN正則化策略方法,可以在準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)這4項(xiàng)指標(biāo)上都有大約8百分點(diǎn)左右的性能提升;而把7×7的深度可分卷積更改為4個(gè)平行分支的小平方核IncepitonNeXt,其結(jié)果在4個(gè)指標(biāo)下也有5百分點(diǎn)的性能提升;在只加入SENet注意力機(jī)制的準(zhǔn)確率也大概提升了0.5百分點(diǎn)。本研究所提出的GSI_ConvNeXt模型,取得了約13百分點(diǎn)的性能提升。從試驗(yàn)結(jié)果上看,基準(zhǔn)模型ConvNeXt準(zhǔn)確率較低,其原因首先可能是Deepweeds數(shù)據(jù)集的特征與ConvNeXt模型所能捕捉的特征不匹配,模型可能無法準(zhǔn)確地對(duì)其特征進(jìn)行識(shí)別;把深度可分卷積更改為IncepitonNeXt,可更好地捕捉DeepWeeds數(shù)據(jù)集的特征。其次,單獨(dú)使用ConvNeXt模型很容易導(dǎo)致結(jié)果嚴(yán)重過擬合,需要加入GRN正則化策略,可以明顯提升模型精度。單獨(dú)加注意力機(jī)制效果提升甚微,但是在加入GRN正則化策略和IncepitonNeXt的基礎(chǔ)上再加入SEnet,經(jīng)過不斷優(yōu)化超參數(shù),可以在前二者基礎(chǔ)上再提升5百分點(diǎn)的精度,使本研究模型在測(cè)試集上達(dá)到96.172%的識(shí)別準(zhǔn)確率,結(jié)果明顯高于基準(zhǔn)模型。因此,本研究所提出的改進(jìn)ConvNeXt模型的方法對(duì)農(nóng)業(yè)雜草的識(shí)別是有效的。
3.4 雜草圖像特征圖可視化
卷積神經(jīng)網(wǎng)絡(luò)的特征可視化可以有效判別分類模型的效果。本研究利用Grad-CAM可視化雜草圖像的特征圖[21],主要是將本研究所提出的網(wǎng)絡(luò)模型的最后一層特征層利用Grad-CAM進(jìn)行可視化輸出,觀察雜草圖像中的有效區(qū)域,可以直觀看出模型能否正確提取雜草特征。如圖8所示,從上到下使用3種雜草圖像分別是中國蘋果、苦參、暹羅草。熱力圖展示的是基準(zhǔn)模型和本研究模型之間特征圖的對(duì)比(圖中顏色越深,代表模型對(duì)于所在區(qū)域關(guān)注度越高,對(duì)識(shí)別結(jié)果的影響越大),可以明顯看出本研究提出的雜草識(shí)別模型正確關(guān)注到了圖像中的雜草特征,說明本研究添加的注意力機(jī)制可以有效增加模型對(duì)圖像特征提取能力。進(jìn)一步看出,熱力圖主要以雜草的葉子及其顏色為感興趣區(qū)域,也從側(cè)面說明本研究模型對(duì)于雜草特征的提取效果較好。
4 結(jié)論
為了精準(zhǔn)防控雜草,本研究提出GSI_ConvNeXt模型,在基準(zhǔn)ConvNext基礎(chǔ)上,利用9類雜草圖像,加入GRN正則化策略和通道注意力模塊,把深度可分卷積分解成4個(gè)平行分支的小平方核,構(gòu)建雜草識(shí)別模型,實(shí)現(xiàn)對(duì)農(nóng)業(yè)雜草分類的高效準(zhǔn)確識(shí)別,并得出以下結(jié)論:
(1)在ConvNeXt模塊中加入GRN正則化方法,降低模型過擬合;針對(duì)不同雜草圖像自身特點(diǎn),加入通道注意力機(jī)制、更改深度可分卷積,提高礦物圖像特征融合的能力。
(2)與一些主流網(wǎng)絡(luò)模型相比,GSI_ConvNeXt對(duì)9類雜草圖像識(shí)別中訓(xùn)練過程收斂更快,準(zhǔn)確率、精度、召回率、F1分?jǐn)?shù)4項(xiàng)數(shù)值均最佳。消融試驗(yàn)進(jìn)一步證明了模型的有效性。
(3)利用Grad-CAM方法,通過與基準(zhǔn)模型的圖像特征圖的可視化結(jié)果進(jìn)行對(duì)比,進(jìn)一步證明本研究模型在雜草識(shí)別領(lǐng)域的有效性。
本研究成果對(duì)于農(nóng)業(yè)雜草識(shí)別領(lǐng)域具有一定的借鑒意義。如何進(jìn)一步提高雜草識(shí)別的準(zhǔn)確率和泛化能力,以及如何將模型應(yīng)用到實(shí)際場(chǎng)景中,仍然是重要的研究方向。
參考文獻(xiàn):
[1]Tauber M,Gollan B,Schmittner C,et al. Passive precision farming reshapes the agricultural sector[J]. Computer,2023,56(1):120-124.
[2]李東升,胡文澤,蘭玉彬,等. 深度學(xué)習(xí)在雜草識(shí)別領(lǐng)域的研究現(xiàn)狀與展望[J]. 中國農(nóng)機(jī)化學(xué)報(bào),2022,43(9):137-144.
[3]趙 輝,曹宇航,岳有軍,等. 基于改進(jìn)DenseNet的田間雜草識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(18):136-142.
[4]疏雅麗,張國偉,王 博,等. 基于深層連接注意力機(jī)制的田間雜草識(shí)別方法[J]. 計(jì)算機(jī)工程與應(yīng)用,2022,58(6):271-277.
[5]曲福恒,李婉婷,楊 勇,等. 基于圖像增強(qiáng)和注意力機(jī)制的作物雜草識(shí)別[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2023,44(3):815-821.
[6]Olsen A,Konovalov D A,Philippa B,et al. DeepWeeds:a multiclass weed species image dataset for deep learning[J]. Scientific Reports,2019,9:2058.
[7]Liu Z,Mao H Z,Wu C Y,et al. A ConvNet for the 2020s[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans:IEEE,2022:11966-11976.
[8]Woo S,Debnath S,Hu R H,et al. ConvNeXt v2:co-designing and scaling ConvNets with masked autoencoders[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver:IEEE,2023:16133-16142.
[9]Hu J,Shen L,Sun G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7132-7141.
[10]Yu W H,Zhou P,Yan S C,et al. InceptionNeXt:when inception meets ConvNeXt[EB/OL]. [2022-11-12]. http://arxiv.org/abs/2303.16900.
[11]Alom M Z,Taha T M,Yakopcic C,et al. The history began from AlexNet:a comprehensive survey on deep learning approaches[EB/OL]. [2022-11-12]. http://arxiv.org/abs/1803.01164.
[12]Szegedy C,Vanhoucke V,Ioffe S,et al. Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas:IEEE,2016:2818-2826.
[13]Yu W,Yang K,Bai Y,et al. Visualizing and comparing AlexNet and VGG using deconvolutional layers[C]//Proceedings of the 33
rd International Conference on Machine Learning,2016.
[14]Xia X L,Xu C,Nan B. Inception-v3 for flower classification[C]//2017 2nd International Conference on Image,Vision and Computing. Chengdu:IEEE,2017:783-787.
[15]Ma N N,Zhang X Y,Zheng H T,et al. ShuffleNet v2:practical guidelines for efficient CNN architecture design[C]//Computer Vision -ECCV 2018 of Munich:ACM,2018:122-138.
[16]Loshchilov I,Hutter F. Decoupled weight decay regularization[EB/OL]. [2022-11-12]. http://arxiv.org/abs/1711.05101.
[17]You Y,Gitman I,Ginsburg B. Large batch training of convolutional networks[EB/OL]. [2022-11-12]. http://arxiv.org/abs/1708.03888.
[18]李文舉,蘇 攀,崔 柳. 基于隨機(jī)擾動(dòng)的過擬合抑制算法[J]. 計(jì)算機(jī)仿真,2022,39(5):134-138.
[19]Ho Y,Wookey S.The real-world-weight cross-entropy loss function:modeling the costs of mislabeling[J]. IEEE Access,2020,8:4806-4813.
[20]王改華,翟乾宇,曹清程,等. 基于MoblieNet v2的圖像語義分割網(wǎng)絡(luò)[J]. 陜西科技大學(xué)學(xué)報(bào),2022,40(1):174-181.
[21]朱炳宇,劉 朕,張景祥.融合Grad-CAM和卷積神經(jīng)網(wǎng)絡(luò)的COVID-19檢測(cè)算法[J]. 計(jì)算機(jī)科學(xué)與探索,2022,16(9):2108-2120.