楊森森,張 昊,興 陸,杜 勇
(東北農(nóng)業(yè)大學(xué)電氣與信息學(xué)院,哈爾濱 150030)
雜草繁殖速度快,生長周期短,會與早期生長階段的作物競爭光照、水分和營養(yǎng)物質(zhì),若不及時(shí)控制,會對作物的產(chǎn)量和品質(zhì)造成嚴(yán)重影響[1]?;瘜W(xué)除草是目前農(nóng)戶使用最廣泛的除草方法[2],但其作業(yè)精度無法保證,會導(dǎo)致除草劑的嚴(yán)重浪費(fèi)和潛在的生態(tài)環(huán)境污染問題。此外,大劑量的農(nóng)藥噴施會使部分雜草產(chǎn)生抗藥性,導(dǎo)致雜草難以被徹底清除[3-4]。因此,能夠精準(zhǔn)噴施作業(yè)的自動(dòng)除草系統(tǒng)成為研究的熱點(diǎn)[5]?;谟?jì)算機(jī)視覺技術(shù)的自動(dòng)雜草識別方法能夠提供準(zhǔn)確的田間雜草分布信息,是實(shí)現(xiàn)自動(dòng)化精準(zhǔn)除草作業(yè)的前提[6]。傳統(tǒng)的雜草自動(dòng)識別方法主要依靠手工設(shè)計(jì)的形狀、紋理等特征,通過結(jié)合支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)模型,取得了一定的效果[7-9]。由于人工設(shè)計(jì)的特征無法較好地表達(dá)雜草種類信息,這些方法只能在形態(tài)差異較大的數(shù)據(jù)樣本上表現(xiàn)良好,難以實(shí)際應(yīng)用于識別準(zhǔn)確率要求較高的田間除草作業(yè)。
卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在雜草識別上取得了較好的表現(xiàn)[10-11]。OLSEN 等構(gòu)建了包含多類別雜草的DeepWeeds數(shù)據(jù)集,用于訓(xùn)練InceptionV3 和ResNet-50 模型對雜草進(jìn)行識別,最高準(zhǔn)確率為95%[12]。AHMAD 等[13]評估了3 種流行模型的雜草識別性能,其中VGG-16 模型準(zhǔn)確率最高,達(dá)到98.9%。趙輝等[14]在DenseNet 網(wǎng)絡(luò)基礎(chǔ)上引入了通道注意力機(jī)制與DropBlock 正則化模塊,在玉米幼苗和伴生雜草的數(shù)據(jù)集上平均準(zhǔn)確率可達(dá)98.63%。王璨等[15]提出了一種基于雙重注意力語義分割網(wǎng)絡(luò)的玉米幼苗識別方法,并實(shí)現(xiàn)了玉米幼苗的精準(zhǔn)分割,該模型的平均交并比和平均像素識別準(zhǔn)確率分別達(dá)到了94.16%和95.68%。
上述基于深度學(xué)習(xí)的雜草識別方法識別精度良好,但模型參數(shù)和計(jì)算量較大,導(dǎo)致算法部署速度緩慢。因此部分工作者從模型輕量化的角度開展了相關(guān)研究。其中,孫俊等[16]通過多尺度特征融合,利用空洞卷積與全局池化對AlexNet 模型進(jìn)行了改進(jìn),在大幅減少模型參數(shù)的同時(shí)保證了較高的雜草識別準(zhǔn)確率;亢潔等[17]提出了一種基于輕量網(wǎng)絡(luò)MobileNet 的雜草檢測模型,采用多尺度融合模塊和通道注意力機(jī)制SENet 提升小目標(biāo)檢測效果并進(jìn)行特征增強(qiáng)。在保證了檢測精度的同時(shí)大幅提高了檢測速度。以上通過對網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)上的改進(jìn),使模型能夠?qū)崿F(xiàn)精度與速度的平衡以滿足實(shí)際作業(yè)需求,但由于卷積得到的是局部性特征表達(dá),其網(wǎng)絡(luò)結(jié)構(gòu)難以同時(shí)學(xué)習(xí)到反映待識別主體形態(tài)與細(xì)節(jié)的全局性語義特征,從而造成外觀相似的不同雜草之間以及雜草與作物間的誤識。
近年來,視覺Transformer 在多個(gè)視覺任務(wù)中取得了超過卷積神經(jīng)網(wǎng)絡(luò)的表現(xiàn)[18-21]。視覺Transformer 將自注意力機(jī)制直接應(yīng)用于圖像塊序列從而捕獲圖像中的重要區(qū)域[22],同卷積神經(jīng)網(wǎng)絡(luò)相比能夠?qū)W習(xí)到更豐富的語義信息。得益于視覺Transformer 的優(yōu)秀性能,其在農(nóng)業(yè)領(lǐng)域也得到了廣泛關(guān)注。徐艷蕾等[23]將視覺Transformer和卷積網(wǎng)絡(luò)相結(jié)合,采用雙分支結(jié)構(gòu),分別提取全局特征和局部特征,實(shí)現(xiàn)了針對蘋果葉片的病害識別。也有學(xué)者將視覺Transformer 應(yīng)用于雜草識別研究上。王璨等[24]提出了基于位移窗口Transformer 網(wǎng)絡(luò)的雜草識別方法,使用改進(jìn)Swin transformer 作為主干網(wǎng)絡(luò)對交疊遮擋情況下的玉米和雜草目標(biāo)進(jìn)行識別,實(shí)現(xiàn)了玉米與雜草的精細(xì)分割。上述工作在識別準(zhǔn)確率上均表現(xiàn)優(yōu)秀,但由于自注意力機(jī)制的引入帶來了龐大的計(jì)算量以及模型對大規(guī)模訓(xùn)練數(shù)據(jù)的需求,需要更長的訓(xùn)練時(shí)間和更多的計(jì)算資源,且在實(shí)際部署時(shí)識別速度較慢,無法滿足田間雜草識別的實(shí)時(shí)性要求。
為解決上述問題,本研究提出了一種基于改進(jìn)MobileViT 網(wǎng)絡(luò)的輕量化田間雜草識別方法。MobileViT是一種適用于移動(dòng)設(shè)備的輕量級視覺Transformer[25],其結(jié)合了CNN 與ViT 的優(yōu)勢,通過自注意力機(jī)制將卷積學(xué)習(xí)到的局部語義信息建模成全局語義信息,從而能夠在更少計(jì)算量的條件下學(xué)習(xí)到足夠好的圖像特征。同時(shí),由于MobileViT 中很好地融入了卷積的特性,其與ViT相比大幅減小了模型訓(xùn)練時(shí)對數(shù)據(jù)量的需求,更加適用于數(shù)據(jù)規(guī)模相對較小的雜草識別問題。本研究通過卷積和MobileViT 模塊混合的結(jié)構(gòu)學(xué)習(xí)雜草圖像中具有辨別細(xì)微差異能力的細(xì)粒度特征,以期待獲得高準(zhǔn)確率與實(shí)時(shí)性的識別性能,為嵌入式實(shí)時(shí)系統(tǒng)中雜草識別方法的設(shè)計(jì)提供參考。
本研究采用公共雜草數(shù)據(jù)集Corn Weed[26]進(jìn)行模型訓(xùn)練與評估,以驗(yàn)證本研究提出的輕量化雜草識別方法的有效性。該數(shù)據(jù)集由玉米幼苗及其主要伴生雜草圖像組成,包括玉米幼苗及莎草、藜、刺兒菜、早熟禾共5 類5 998 張圖像。數(shù)據(jù)集中的作物與雜草樣本拍攝于不同的時(shí)間、光照與土壤環(huán)境下,均為農(nóng)田環(huán)境下具有復(fù)雜背景的雜草圖像,部分玉米幼苗及雜草圖像樣本如圖1 所示。
圖1 Corn Weed 數(shù)據(jù)集中部分玉米與雜草圖像示例Fig.1 Example images of maize and weed on Corn Weed Dataset
從圖1 中可以看到,早熟禾、玉米幼苗、莎草的圖像樣本間存在較大形態(tài)相似性,這對準(zhǔn)確區(qū)分這3 類的圖像樣本造成了一定的難度。
將數(shù)據(jù)集中不同尺寸圖像的分辨率統(tǒng)一轉(zhuǎn)換為256×256×3 以適應(yīng)模型的輸入大小。數(shù)據(jù)集的劃分遵循文獻(xiàn)[26]的設(shè)置,按照7:3 的比例劃分為訓(xùn)練集和測試集,其中玉米、莎草、藜和刺兒菜的訓(xùn)練集圖像數(shù)量為840 張,測試集圖像數(shù)量為360 張,早熟禾的訓(xùn)練集和測試集圖像數(shù)量為839 和359 張。各個(gè)類別的樣本分布均衡且數(shù)目充足,能夠滿足模型訓(xùn)練時(shí)對數(shù)據(jù)的需求,所以本研究未使用數(shù)據(jù)增強(qiáng)技術(shù)對雜草及玉米幼苗圖像數(shù)據(jù)進(jìn)行擴(kuò)充。
為了保證模型在輕量化的同時(shí)能夠準(zhǔn)確地區(qū)分形態(tài)相似的雜草與玉米幼苗,本研究構(gòu)建了一種基于改進(jìn)MobileViT 網(wǎng)絡(luò)的輕量化雜草識別方法,該方法采用MobileViT 模塊和卷積混合結(jié)構(gòu)作為雜草特征提取網(wǎng)絡(luò),其中MobileViT 模塊包含自注意力機(jī)制,可建模雜草與玉米幼苗圖像中的長距離語義信息,以捕捉更具辨別力的細(xì)粒度特征。標(biāo)準(zhǔn)卷積和深度可分離卷積可在學(xué)習(xí)局部信息的同時(shí)對特征圖下采樣形成多尺度特征,然后使用ECA 模塊進(jìn)一步加強(qiáng)對特征圖關(guān)鍵位置的關(guān)注,最終損失函數(shù)用于模型參數(shù)優(yōu)化,分類層負(fù)責(zé)輸出雜草的預(yù)測類別。本文方法在對原始MobileViT 網(wǎng)絡(luò)進(jìn)行參數(shù)調(diào)整的基礎(chǔ)上,引入了ECA 機(jī)制,以進(jìn)一步提高模型的識別能力,從而更好地實(shí)現(xiàn)了識別精度與速度的平衡。
MobileViT 模塊使用標(biāo)準(zhǔn)卷積與Transformer 機(jī)制分別學(xué)習(xí)特征圖中局部與全局信息,是本研究提出的輕量化雜草識別方法的核心,其結(jié)構(gòu)如圖2 所示。假設(shè)MobileViT 模塊的輸入特征圖X大小為H×W×C,(H為輸入特征圖的高度,W為輸入特征圖的寬度,C為輸入特征圖的通道數(shù)),3×3 大小的卷積核被用于建模特征圖中局部的空間信息,接下來1×1 大小的卷積將特征圖映射到更高的d維特征空間,以豐富卷積學(xué)習(xí)到的語義信息。
圖2 MobileViT block 結(jié)構(gòu)圖Fig.2 MobileViT block structure diagram
經(jīng)過兩次卷積操作后輸入特征圖X變換為大小相等的局部特征圖XL。然后將XL劃分為N個(gè)大小相等的圖像塊,每個(gè)圖像塊中包含P個(gè)像素,再將其展開為一組大小為P×N×d的特征序列XU,以學(xué)習(xí)特征圖中全局語義信息,其中P=w×h,N=(H×W)/P(w和h是預(yù)設(shè)好的圖像塊的寬度和高度,d是特征維度),XU中不同圖像塊間相同位置的像素點(diǎn)特征通過連續(xù)的L組Transformer 模塊處理得到全局特征序列XG:
XG是經(jīng)過Transformer 模塊處理后得到的全局特征序列,大小為P×N×d,p是每個(gè)圖像塊中第p個(gè)位置的像素特征。不同于原始的視覺Transformer,MobileViT并未丟失圖像塊內(nèi)部像素與圖像塊之間的位置信息,所以,計(jì)算自注意力時(shí)不需要位置編碼來添加位置信息,之后將XG折疊得到特征圖XF,XF的大小為H×W×d,其中H、W與X的H、W相等,以上的展開與折疊操作均通過Transpose 與Reshape 函數(shù)組合來實(shí)現(xiàn)。然后XF被1×1 大小的卷積映射到和MobileViT 模塊輸入特征圖X相同的維度C,此時(shí)XF的大小為H×W×C,可與輸入特征圖X并聯(lián)疊加成維度為2C的新特征圖,最后使用一個(gè)3×3 大小的卷積核融合并聯(lián)后的新特征圖,并將新特征圖維度映射回C。
MobileViT 模塊對全局信息學(xué)習(xí)的有效性如圖3 所示,圖中紅色像素點(diǎn)通過Transformer 與藍(lán)色像素點(diǎn)建立聯(lián)系,而藍(lán)色像素點(diǎn)已經(jīng)通過卷積與周圍的臨近像素建立了聯(lián)系,因此,XU(p)可以代表卷積所覆蓋的3×3 大小區(qū)域的局部語義信息,XG(p)則編碼了不同圖像塊間第p個(gè)位置的全局語義信息,也就是說XG中每個(gè)像素均能對X中所有像素進(jìn)行編碼,本研究設(shè)置h=w=2從而保證MobileViT 模塊的有效感受野能夠覆蓋空間分辨率為H×W的輸入特征圖。
圖3 MobileViT 模塊中像素點(diǎn)之間關(guān)系Fig.3 Relationship between pixel points in the MobileViT block
本研究采用的雜草特征提取網(wǎng)絡(luò)基于原始的MobileViT 網(wǎng)絡(luò)結(jié)構(gòu),共包括5 個(gè)階段,如圖4 所示。算法輸入為RGB 三通道圖像。在階段1 部分,通過步長為4 的4×4 卷積將256×256×3 大小的輸入圖片下采樣地映射成64×64×16 大小的特征圖以便于后續(xù)計(jì)算,然后,一個(gè)ECA 模塊被用于特征圖增強(qiáng);不同于原始MobileViT結(jié)構(gòu),本研究并未采用步長為2 的3×3 卷積,這是因?yàn)樵趫D像被映射為特征圖的階段中,更大的卷積核與卷積步長能更好地考慮到圖像中的冗余性[27]。本研究采用的ECA 模塊結(jié)構(gòu)如圖5 所示,ECA 模塊通過對特征圖中不同通道的交互實(shí)現(xiàn)重要特征的加強(qiáng)。在階段2 中,先將特征圖送入到兩個(gè)疊加的MobileNetv2 模塊中,在進(jìn)行下采樣的同時(shí)進(jìn)一步提取特征,與階段1 相同,階段2同樣使用ECA 模塊增強(qiáng)下采樣后的特征圖。階段3 由多組MobileViT 模塊和下采樣的MobileNetv2 模塊構(gòu)成,MobileViT 模塊負(fù)責(zé)在學(xué)習(xí)局部語義特征的同時(shí)捕捉到全局語義特征,MobileNetv2 模塊負(fù)責(zé)將特征圖下采樣并在通道上升維以形成多尺度的特征表達(dá)。階段4 和階段5 與階段3 功能上相同,但在MobileViT 模塊內(nèi)部的參數(shù)設(shè)置與MobileNetv2 模塊數(shù)量上有所不同?;诟倪M(jìn)MobileViT 的特征提取網(wǎng)絡(luò)內(nèi)部參數(shù)如表1 所示。
表1 基于改進(jìn)MobileViT 的特征提取網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Internal parameters of feature extraction network
圖4 基于改進(jìn)MobileViT 網(wǎng)絡(luò)的輕量化雜草識別網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 Diagram of light-weighted weed recognition method based on improved MobileViT network
圖5 ECA 模塊結(jié)構(gòu)圖Fig.5 Efficient channel attention(ECA) module structure diagram
本研究使用了僅包含卷積、池化和全連接層的簡單分類層以區(qū)分不同類別的雜草。如圖4 中分類層與損失函數(shù)部分所示,首先,通過1×1 大小的卷積對輸入特征圖的通道數(shù)進(jìn)行升維,隨后,使用全局平均值池化求得長度為384 的特征編碼,然后送入線性分類層進(jìn)行最終分類。
交叉熵?fù)p失函數(shù)(Lcross)被用于本研究中輕量化雜草識別模型的參數(shù)優(yōu)化,計(jì)算式如下:
式中V為訓(xùn)練集中所有樣本的集合,Y為訓(xùn)練集中所有樣本真實(shí)標(biāo)簽的集合,n為數(shù)據(jù)集中樣本總數(shù),p(vi)為訓(xùn)練集中第i個(gè)樣本通過網(wǎng)絡(luò)得到的輸出。
本研究中所有網(wǎng)絡(luò)模型均在AI Studio 軟件環(huán)境下使用深度學(xué)習(xí)工具箱Paddle Paddle 進(jìn)行訓(xùn)練。硬件配置如下,內(nèi)存大小100 GB,CPU 型號為Intel(R) Xeon(R) Gold 6 148 CPU @ 2.40 GHz,顯卡型號為NVIDIA Tesla V100,顯存為32 GB。模型訓(xùn)練超參數(shù)設(shè)置如下,batch size 設(shè)置為64,訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)時(shí)優(yōu)化器采用動(dòng)量為0.9 的SGD,訓(xùn)練本文方法和MobileViT 時(shí)優(yōu)化器選用AdamW[28],學(xué)習(xí)率均初始化為0.001,學(xué)習(xí)率變化策略為余弦退火,所有網(wǎng)絡(luò)模型訓(xùn)練時(shí)最大迭代次數(shù)為50。
本研究以識別準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、和F1 分?jǐn)?shù)4 個(gè)評價(jià)指標(biāo)[29]。為了衡量模型在實(shí)際部署時(shí)的性能,本研究還使用了推理時(shí)間毫秒(ms)作為評價(jià)指標(biāo),推理時(shí)間表示網(wǎng)絡(luò)模型在CPU上預(yù)測單張圖片所需要的時(shí)間。
為驗(yàn)證本研究提出的輕量化雜草識別方法的性能優(yōu)勢,本研究訓(xùn)練了多個(gè)對比的卷積網(wǎng)絡(luò)模型,包括以往雜草識別研究中性能較好的VGG-16[30]、ResNet-50[31]、Dense-Net161[32]網(wǎng)絡(luò)模型,以及在輕量化圖像識別任務(wù)中表現(xiàn)出色的MobileNetv1[33]、MobileNetv2[34]、MobileNetv3[35]和ShuffleNet[36]網(wǎng)絡(luò)模型。對比試驗(yàn)中所有卷積網(wǎng)絡(luò)模型均使用在ImageNet 數(shù)據(jù)集的預(yù)訓(xùn)練模型上微調(diào)的方式進(jìn)行訓(xùn)練,本文方法由于較原始的MobileViT 做了部分改動(dòng),沒有可直接調(diào)用的預(yù)訓(xùn)練模型,故采用模型參數(shù)隨機(jī)初始化的方式從頭訓(xùn)練。選擇測試集中最高識別準(zhǔn)確率對應(yīng)輪次得到的模型作為最終模型,對比試驗(yàn)結(jié)果如表2 所示。
表2 不同模型雜草識別結(jié)果對比Table 2 Comparison of weed recognition results using different models
從表2 中可以看到,對于類別間形態(tài)相似的雜草識別,通用卷積神經(jīng)網(wǎng)絡(luò)的識別準(zhǔn)確率明顯高于輕量化卷積神經(jīng)網(wǎng)絡(luò),而結(jié)合全局語義信息學(xué)習(xí)能力的本文方法識別效果要好于所有卷積神經(jīng)網(wǎng)絡(luò)模型,本文方法在識別準(zhǔn)確率、精準(zhǔn)度、召回率和F1 分?jǐn)?shù)上均為最高,識別準(zhǔn)確率99.61%,較通用卷積網(wǎng)絡(luò)DenseNet-161 模型提高了約0.5 個(gè)百分點(diǎn),較輕量化卷積網(wǎng)絡(luò)MobileNetv2 提高了1.78 個(gè)百分點(diǎn),表明本文方法具有較大的雜草識別性能優(yōu)勢。MobileNetv3 的識別準(zhǔn)確率率僅為91.55%,遠(yuǎn)不及MobileNetv2 的識別準(zhǔn)確率,可能的原因是MobileNetv3 的結(jié)構(gòu)是通過神經(jīng)網(wǎng)絡(luò)架構(gòu)在ImageNet 數(shù)據(jù)集上搜索得到的,并不適用于本研究的雜草識別任務(wù)。圖6 展示了不同雜草識別模型在測試集上識別結(jié)果的混淆矩陣,圖6a 為文獻(xiàn)[26]中GCN-ResNet-101 模型識別結(jié)果的混淆矩陣,圖6b 為本文方法識別結(jié)果的混淆矩陣。在圖6 中,對于玉米、莎草、早熟禾,本文方法的識別精度為99.44%、99.17%、99.72%,分別高于GCNResNet-101 模型2.34、1.97、1.52 個(gè)百分點(diǎn),在形態(tài)差異較大的藜上,本文方法的精度更是達(dá)到了100%。得益于全局語義信息的加入,本文方法也明顯地降低了玉米幼苗、莎草和刺兒菜之間的識別錯(cuò)誤率。以上結(jié)果表明本文方法能夠有效地學(xué)習(xí)到更具辨別能力的雜草細(xì)粒度特征,在區(qū)分自然場景下高相似度的作物與雜草上有更高的識別精度。
圖6 不同模型在Corn Weed 測試集上的混淆矩陣Fig.6 Confusion matrix of different models on Corn Weed test set
雖然通用卷積神經(jīng)網(wǎng)絡(luò)有良好的雜草識別精度,但由于其模型較為復(fù)雜且計(jì)算量龐大、并不適合部署在有實(shí)時(shí)性要求的田間雜草識別系統(tǒng)上;而輕量化卷積神經(jīng)網(wǎng)絡(luò)的識別速度雖快,但是識別精度往往較低。本研究希望通過使用改進(jìn)MobileViT 網(wǎng)絡(luò)來實(shí)現(xiàn)模型僅有較少參數(shù)的同時(shí)保持高的識別精度。為此,本文方法與主流卷積網(wǎng)絡(luò)的識別效率進(jìn)行了對比,以驗(yàn)證本文方法的有效性,結(jié)果如表2 所示。通過模型大小、準(zhǔn)確率、推理時(shí)間的對比結(jié)果可以看到,本文方法有著和輕量化卷積神經(jīng)網(wǎng)絡(luò)相近的識別速度,單張圖像推理時(shí)間僅為83 ms,能夠滿足除草作業(yè)的實(shí)時(shí)性要求,同時(shí),該方法的準(zhǔn)確率不僅高于具有其數(shù)倍模型大小與推理時(shí)間的DenseNet-161 通用卷積網(wǎng)絡(luò),且遠(yuǎn)高于MobileNetv2 輕量化網(wǎng)絡(luò)。本文方法通過卷積和Transformer 的巧妙結(jié)合,實(shí)現(xiàn)了識別精度與識別速度的權(quán)衡,能夠很好地應(yīng)用于田間雜草識別。
考慮到MobileViT 的原始結(jié)構(gòu)是針對ImageNet 數(shù)據(jù)集設(shè)計(jì),直接遷移到本文任務(wù)上可能存在模型結(jié)構(gòu)不適配的問題,為此,本研究對MobileViT 網(wǎng)絡(luò)進(jìn)行了部分改進(jìn),在網(wǎng)絡(luò)的第一步卷積中采用了更大的步長與卷積核,并通過ECA 模塊加強(qiáng)對特征圖中重要信息的關(guān)注。MobileViT 的原始網(wǎng)絡(luò)根據(jù)網(wǎng)絡(luò)的規(guī)模和參數(shù)量的不同分為MobileViT-S、MobileViT-XS 和MobileViTXXS,本文方法與3 個(gè)原始版本的MobileViT 網(wǎng)絡(luò)的識別性能比較結(jié)果如表3 所示。在表3 中可以看到,本文方法與MobileViT-S 有著相似的識別準(zhǔn)確率,但在單張圖像推理時(shí)間上明顯小于MobileViT-S,相較于MobileViT-XXS,本文方法在準(zhǔn)確率上提高了0.39 個(gè)百分點(diǎn),但由于本文方法參數(shù)設(shè)置是基于MobileViT-XS網(wǎng)絡(luò)的,因此推理時(shí)間略有增加。盡管如此,本文方法的推理速度仍足以滿足田間除草的實(shí)時(shí)性要求。
表3 本文方法與原始MobileViT 識別性能對比Table 3 Comparison of performance between our method and MobileViT
本文在Corn Weed 測試集每個(gè)類別中抽取一幅圖像,分別在MobileNetv2,DenseNet-161 與本文方法上使用梯度類激活映射方法[37]進(jìn)行可視化分析。為了獲得更好的可視化結(jié)果,在生成激活熱力圖時(shí)僅使用了正確的標(biāo)簽,對網(wǎng)絡(luò)模型最后一個(gè)卷積層輸出的特征圖求梯度以得到激活分布,并用熱力圖的形式將激活分布疊加在原圖片上呈現(xiàn),可視化結(jié)果如圖7 所示。
圖7 不同識別方法的可視化結(jié)果Fig.7 Visualization results of different methods
從可視化結(jié)果中能夠看到,本文算法可以很好地關(guān)注到圖像中雜草與玉米幼苗所在區(qū)域,與對比的卷積神經(jīng)網(wǎng)絡(luò)相比熱力圖覆蓋效果更加精準(zhǔn)。本文方法對早熟禾、莎草和玉米圖像可視化效果中,葉片、莖稈等關(guān)鍵部分有著較高的激活值,這對區(qū)分形態(tài)相似的雜草與作物有著顯著幫助。同時(shí),通過不同模型對藜的圖像可視化效果可以看到即使存在其他類別雜草的干擾,本文方法得到的整體熱力圖也能聚焦于藜所在的位置,而DenseNet-161 與MobileNetv2 未能準(zhǔn)確覆蓋到目標(biāo)區(qū)域。可視化結(jié)果表明,本研究提出的雜草識別方法能夠加強(qiáng)對重要雜草特征的提取,抑制對背景特征的提取,可以有效地解決農(nóng)田環(huán)境下的雜草識別問題。
本小節(jié)旨在驗(yàn)證本文方法在實(shí)際農(nóng)田環(huán)境下的預(yù)測效果,使用本文方法對具有復(fù)雜背景的圖像進(jìn)行了識別以及試驗(yàn)對比。在實(shí)際田間環(huán)境下存在著多種干擾因素,如背景干擾,光照不均等,因此除了識別模型本身,往往還需要對目標(biāo)進(jìn)行預(yù)定位。預(yù)定位可以使用傳統(tǒng)的圖像處理技術(shù)或增加子網(wǎng)絡(luò)結(jié)構(gòu)來實(shí)現(xiàn)。本小節(jié)的試驗(yàn)是在統(tǒng)一的植株目標(biāo)預(yù)定位處理之后進(jìn)行的。本研究的數(shù)據(jù)采集地點(diǎn)位于黑龍江省哈爾濱市的東北農(nóng)業(yè)大學(xué)試驗(yàn)田,采集時(shí)間為2022 年5 月,主要集中在上午10:00 和下午03:00 進(jìn)行采集,以代表實(shí)際應(yīng)用場景中植株在不同生長環(huán)境及光照條件下的狀態(tài)。為了更真實(shí)地模擬實(shí)際場景,拍攝時(shí)采用了不同的角度對植株進(jìn)行拍攝,并且設(shè)備到植株的距離在20~60 cm 內(nèi)隨機(jī)變化,以模擬實(shí)際作業(yè)時(shí)不同地形對數(shù)據(jù)采集的影響。采集類別包括早熟禾、藜、玉米、刺兒菜和莎草5 類。由于考慮到實(shí)際田間環(huán)境的復(fù)雜性,采集的數(shù)據(jù)涵蓋了不同天氣條件和作物生長環(huán)境,測試圖像選取包括葉片交疊、背景雜亂等復(fù)雜區(qū)域的自然場景圖像。在本方法中,待檢測圖像首先通過預(yù)定位模塊,將玉米和其余雜草框選出來,然后對預(yù)定位得到的植株,包括作物和雜草,分別使用不同的模型進(jìn)行分類對比。圖8 中展示了部分樣本圖像的預(yù)定位結(jié)果和不同模型的預(yù)測概率。
圖8 本文方法實(shí)際田間識別效果預(yù)測圖Fig.8 Predicted performance of the proposed method for field recognition
從圖8 中可以看出,本文方法的預(yù)測概率普遍高于DenseNet-161 網(wǎng)絡(luò)模型。其中圖8a 和圖8b 中背景顏色均與待識別目標(biāo)接近,本文方法不僅正確識別出目標(biāo),且對比DenseNet-161 網(wǎng)絡(luò)模型,在正確類別上的預(yù)測概率顯著提高。同時(shí),得益于自注意力機(jī)制的引入,即使在背景與待識別目標(biāo)外形接近且存在葉片重疊的情況下,本文方法也能準(zhǔn)確識別目標(biāo),并提高正確預(yù)測概率,這對于識別形態(tài)差異較小的田間雜草具有重要意義。在其余圖像上,本文方法同樣擁有更好的預(yù)測結(jié)果。未來的研究工作可以包括自主拍攝、預(yù)定位和分類模型的集成和改進(jìn)等方面,以進(jìn)一步提高田間雜草識別的性能。
為了在保證識別精度的前提下,提高實(shí)際田間環(huán)境中玉米與雜草識別的實(shí)時(shí)性,本研究提出了一種基于MobileViT 網(wǎng)絡(luò)的輕量化雜草識別方法,利用MobileViT網(wǎng)絡(luò)的全局信息學(xué)習(xí)能力可以捕捉到作物與雜草圖像中最具辨別力的區(qū)域。
1)在農(nóng)田環(huán)境下,該方法對玉米植株及其4 類伴生雜草的識別準(zhǔn)確率高達(dá)99.61%,對比表現(xiàn)最好的通用卷積網(wǎng)絡(luò)模型DenseNet-161,該方法的準(zhǔn)確率提高了約0.5 個(gè)百分點(diǎn),較輕量化卷積網(wǎng)絡(luò)模型MobileNetv2 準(zhǔn)確率提高了1.78 個(gè)百分點(diǎn)。本文方法能夠準(zhǔn)確地區(qū)分出形態(tài)較為相似的玉米幼苗與雜草,對比基于卷積神經(jīng)網(wǎng)絡(luò)的現(xiàn)有雜草識別方法優(yōu)勢顯著。
2)本文方法單幅圖像識別耗時(shí)僅為83 ms,能夠滿足實(shí)時(shí)性要求,相對于原始的MobileViT 結(jié)構(gòu),該方法在雜草識別精度和速度之間能夠更好地取得平衡??蔀橹悄艹菰O(shè)備提供高效的雜草分布信息指導(dǎo)。
3)通過可視化分析可以看到本文方法很好地關(guān)注到了圖像中葉片、莖稈等關(guān)鍵部分,進(jìn)一步驗(yàn)證了該方法的有效性和可解釋性。本文工作也驗(yàn)證了在復(fù)雜田間環(huán)境下使用改進(jìn)MobileViT 網(wǎng)絡(luò)進(jìn)行田間雜草識別的有效性,為真實(shí)農(nóng)業(yè)場景下的雜草識別提供了可行方案。