圖分類號(hào):S435.115 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào): 1000-4440(2025)05-0905-11
Abstract:Toaddress thechallenges ofcomplex backgrounds,smallesion targets,and the similaritybetween lesion targetsand backgroundfeatures inrice 1smut imagescollcted byunmannedaerial vehicles(UAVs),we proposed the LSN-YOLOv8detection model.Themodel was basedon theYOLOv8 framework,andthe largeselective kernel network (LSKNet)was incorporated into the backbone network.Bydynamicallyadjusting thereceptive field range,the model enhanceditsabilitytoextractfeaturesofsmalltargets.Aditionally,acoordinateatention mechanism(CA)modulewas inte
grated into the backbone network to combine the spatial location information of lesionswith channel attention, thereby enhancingthe model's focusonkeyregionswhile reducing background interference.The detection process was visualized and analyzed using the gradient-weighted class activation mapping(Grad-CAM)technique,thereby
providingintuitive explanationsfor the model’sdecision-making.To verifythe model’s performance,rice1 smut images captured by UAVsat diffrent disease stages andundervariousbackgroundconditionswereused toconstructarice 1 smutdataset.Thisdatasetwasutilizedfor modeltrainingand testing.Theexperimentalresultsindicatedthattheprecision, recall,and mean average precision at an intersection over union threshold of 0.50( mAP50 )of the LSN-YOLOv8 model proposed in this study were 94.8% , 87.3% ,and 92.3% ,respectively. These indices were all higher than those of classic object detection models such as YOLOv5,YOLOv7,YOLOv8 and Faster R-CNN.The visualization analysis results using Grad-CAM technology indicated thatthe LSN-YOLOv8 model wascapableof moreaccurately focusing onthediseased regions in the images.TheLSN-YOLOv8 model proposed inthis studycan provide technical supportforthemonitoring of rice 1 smut,disease control and prevention,and the identification of rice disease resistance.
KeyWords:rice1smut;disease identification;unmannedaerial vehicle;YOLOv8model;largeselective ker-nel network(LSKNet);coordinate attention mechanism(CA)
水稻是全球最重要的糧食作物之一[1],其產(chǎn)量與質(zhì)量的提升是水稻生產(chǎn)的核心目標(biāo)。在生長(zhǎng)過(guò)程中,水稻會(huì)遭遇各種病蟲(chóng)害的侵襲,由稻綠核菌引起的稻曲病已成為全球水稻栽培區(qū)三大主要真菌病害之[2]。該病害不僅導(dǎo)致水稻產(chǎn)量下降,還產(chǎn)生有害毒素,嚴(yán)重影響食用安全[3]。目前,稻曲病的防治主要依賴化學(xué)藥劑,但長(zhǎng)期使用化學(xué)藥劑易引發(fā)土壤污染和農(nóng)藥殘留等問(wèn)題4。選育抗病品種是防治稻曲病的有效途徑[5],而準(zhǔn)確識(shí)別稻曲病的癥狀及判斷其發(fā)病階段是抗病品種選育和精準(zhǔn)施藥的關(guān)鍵。傳統(tǒng)的稻曲病檢測(cè)主要依賴人工目測(cè),存在效率低、勞動(dòng)強(qiáng)度大、主觀性強(qiáng)等缺陷,難以實(shí)現(xiàn)實(shí)時(shí)監(jiān)測(cè),且準(zhǔn)確率較低[6]深度學(xué)習(xí)模型能夠從作物圖像中提取病斑特征,實(shí)現(xiàn)對(duì)病害類型的早期準(zhǔn)確識(shí)別,從而減少農(nóng)業(yè)損失[7]。Zeng等[8]提出了一種自注意卷積神經(jīng)網(wǎng)絡(luò)(SACNN),該方法融合圖像的全局與局部特征,對(duì)作物病害的識(shí)別準(zhǔn)確率超過(guò) 95% 。楊峰等9]基于YOLOv8 模型,采用改進(jìn)的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)ShuffleNetV2作為主干網(wǎng)絡(luò),顯著提升了模型對(duì)病蟲(chóng)害檢測(cè)的魯棒性。李仁杰等[10]針對(duì)自然環(huán)境下背景復(fù)雜和密集遮擋等問(wèn)題,提出一種改進(jìn)的YOLOv5模型,實(shí)現(xiàn)了對(duì)番茄葉片病害的實(shí)時(shí)檢測(cè),模型精度達(dá)到 98.9% 。Wang等[]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)和門(mén)控循環(huán)單元(GRU),提出了一種用于冬小麥產(chǎn)量估算的模型。盡管這些研究在作物病害識(shí)別方面取得了一定進(jìn)展,但其主要依賴地面相機(jī)獲取圖像,地面相機(jī)難以在短時(shí)間內(nèi)覆蓋大面積農(nóng)田,無(wú)法滿足大范圍病害快速識(shí)別與防治的需求。
無(wú)人機(jī)遙感技術(shù)憑借其覆蓋范圍廣、速度快、成本低等特點(diǎn),在作物病害檢測(cè)領(lǐng)域已展現(xiàn)出了獨(dú)特優(yōu)勢(shì)[12]。 Hu 等[13]構(gòu)建DDYOLOv5 模型,并基于無(wú)人機(jī)獲取的松樹(shù)遙感影像數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練和測(cè)試,實(shí)現(xiàn)了對(duì)不同病害程度松樹(shù)的檢測(cè)與分類。Bao等[14]提出了一種基于DDMA-YOLO的無(wú)人機(jī)遙感目標(biāo)檢測(cè)方法,用于檢測(cè)茶葉枯病。Tetila等[15對(duì)深度學(xué)習(xí)模型進(jìn)行了優(yōu)化,并基于無(wú)人機(jī)拍攝的大豆蟲(chóng)害圖像數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練和測(cè)試,結(jié)果表明,該模型分類性能顯著提升,準(zhǔn)確率達(dá)到 93.82% 。孫鈺等[16通過(guò)簡(jiǎn)化SSD300目標(biāo)檢測(cè)框架避免了復(fù)雜的圖像預(yù)處理步驟,有效提升了無(wú)人機(jī)監(jiān)測(cè)的效率和準(zhǔn)確性。Kerkech等[17提出基于可見(jiàn)光與紅外圖像配準(zhǔn)的葡萄藤霜霉病檢測(cè)方法,該方法對(duì)融合圖像的檢測(cè)精度達(dá)到 92% 。胡根生等[18利用無(wú)人機(jī)采集野外茶園的遙感圖像并構(gòu)建輕量型網(wǎng)絡(luò)LiTLBNet,在動(dòng)態(tài)監(jiān)測(cè)茶葉枯病中,該模型的檢測(cè)精度達(dá)到 75.1% ,平均精度均值達(dá)到 78.5% 。
目前,水稻稻曲病的檢測(cè)仍面臨諸多挑戰(zhàn)。病害目標(biāo)尺寸小,多次下采樣操作易造成特征信息丟失;水稻稻曲病病斑隨機(jī)分布在稻穗上,且不同時(shí)期的病斑尺寸、形狀不一;水稻稻曲病病斑的顏色與背景相似,復(fù)雜背景會(huì)對(duì)檢測(cè)造成干擾。針對(duì)這些問(wèn)題,本研究擬將YOLOv8作為基本網(wǎng)絡(luò)框架,融入大選擇性核網(wǎng)絡(luò)(Large selective kernel network,LSKNet)[19],通過(guò)動(dòng)態(tài)調(diào)整感受野增強(qiáng)模型對(duì)小目標(biāo)特征的提取能力,集成坐標(biāo)注意力機(jī)制(Coordinateattention,CA)[20]以去除冗余特征,結(jié)合GradCAM算法[21]實(shí)現(xiàn)檢測(cè)過(guò)程的可視化,為模型決策提供直觀解釋。以期提升模型對(duì)復(fù)雜背景下水稻稻曲病的識(shí)別性能。
1材料與方法
1.1 病害圖像采集
本研究使用的水稻稻曲病病害圖像于2023年9月-2023年10月采集自安徽省農(nóng)業(yè)科學(xué)院合肥市南崗試驗(yàn)基地和牛角大圩試驗(yàn)基地。采用搭載2.000×107 像素CMOS傳感器的大疆御2專業(yè)版(DJIMavic2Pro)無(wú)人機(jī)進(jìn)行巡飛和視頻錄制。為減少無(wú)人機(jī)旋翼氣流對(duì)水稻冠層的干擾,根據(jù)水稻株高調(diào)整無(wú)人機(jī)飛行高度和鏡頭焦距。飛行高度設(shè)置為 1.2~1.8m ,攝像頭俯仰角設(shè)置為 -60°~-30° ,以避免拍攝正下方受氣流擾動(dòng)較大的冠層區(qū)域,采集圖像如圖1所示。為了提高圖像數(shù)據(jù)的多樣性和模型的環(huán)境適應(yīng)性,本研究對(duì)試驗(yàn)基地不同田塊和不同發(fā)病階段的水稻進(jìn)行了視頻錄制,共錄制13段視頻,每段時(shí)長(zhǎng)為 2~4min ,視頻格式為MP4,分辨率為3840像素 ×2160 像素。
1.2 數(shù)據(jù)集構(gòu)建
采用CRVideoMate對(duì)錄制的視頻進(jìn)行分幀處理,輸出圖像分辨率為3 3840×2160 ,以JPG格式保存。如圖2所示,為確保圖像質(zhì)量,剔除了模糊和相似度較高的幀,并將每幅圖像均等分割為4個(gè)分辨率為1920像素 ×1080 像素的圖像,最終獲得860張裁剪圖像。將860張裁剪圖像按照 .7:2:1 的比例劃分為訓(xùn)練集(600張)驗(yàn)證集(180張)和測(cè)試集(80張)。如圖3所示,使用LabelImg工具對(duì)圖像進(jìn)行單目標(biāo)標(biāo)注,并生成對(duì)應(yīng)的標(biāo)簽文件,用于后續(xù)模型訓(xùn)練和數(shù)據(jù)處理。
1.3水稻稻曲病識(shí)別模型設(shè)計(jì)
1.3.1基本框架模型選擇YOLO系列模型具有檢測(cè)精度高和檢測(cè)速度快的優(yōu)勢(shì),目前已成為目標(biāo)檢測(cè)的主流模型。其中,YOLOv8模型是在YOLOv5模型基礎(chǔ)上進(jìn)行的更新和改進(jìn)[22],該模型由輸入端、骨干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)和輸出端4個(gè)部分組成。在骨干網(wǎng)絡(luò)中,YOLOv8采用C2f特征提取模塊替代YOLOv5模型的C3特征提取模塊,通過(guò)融合低分辨率和高分辨率特征,增強(qiáng)模型對(duì)目標(biāo)語(yǔ)義信息和細(xì)節(jié)特征的提取能力[23]。YOLOv8模型的特征金字塔網(wǎng)絡(luò)(Featurepyramidnetworks)沿用了YOLOv5模型的路徑聚合網(wǎng)絡(luò)(PANet)架構(gòu),但在上采樣過(guò)程中刪除了原有的卷積結(jié)構(gòu)。YOLOv8模型的輸出端采用解耦頭設(shè)計(jì),通過(guò)無(wú)錨(Anchor-Free)機(jī)制替代傳統(tǒng)的錨定(Anchor-Based)機(jī)制,顯著提升了模型對(duì)不規(guī)則物體的檢測(cè)性能。YOLOv8有 n,s,m,l,x 5 種參數(shù)量[24],本研究選擇輕量化的 Υ0LOv8n 作為基線模型,以兼顧檢測(cè)效率與計(jì)算資源消耗。
1.3.2 LSN-YOLOv8模型設(shè)計(jì)本研究基于YOLOv8n模型進(jìn)行了3個(gè)方面的改進(jìn)。第一,在骨干網(wǎng)絡(luò)中引入大選擇性核網(wǎng)絡(luò)(LSKNet),通過(guò)動(dòng)態(tài)調(diào)整機(jī)制自適應(yīng)選擇不同尺寸的空間感受野,增強(qiáng)模型對(duì)小目標(biāo)的特征提取能力。第二,在骨干網(wǎng)絡(luò)末端的C2f特征提取模塊后引入坐標(biāo)注意力機(jī)制(CA),坐標(biāo)注意力機(jī)制通過(guò)融合位置信息與通道注意力,為不同區(qū)域分配差異化權(quán)重,使網(wǎng)絡(luò)更加聚焦于稻曲病病斑區(qū)域,進(jìn)一步提升特征提取的準(zhǔn)確性和魯棒性。第三,采用梯度加權(quán)類激活映射(Grad-CAM)對(duì)模型進(jìn)行特征可視化分析,直觀展示網(wǎng)絡(luò)在病害識(shí)別過(guò)程中的關(guān)注區(qū)域,驗(yàn)證模型決策的合理性,增強(qiáng)模型的可解釋性。改進(jìn)后的LSN-YOLOv8模型結(jié)構(gòu)如圖4所示。
1.3.2.1大選擇性核網(wǎng)絡(luò)(LSKNet)引入無(wú)人機(jī)遙感圖像中,水稻稻曲病部位僅占少量像素,且缺乏明顯的顏色、紋理、形狀等外觀特征,易被漏檢。此外,經(jīng)過(guò)多次下采樣操作后,圖像的分辨率降低,特征信息減弱,導(dǎo)致主干網(wǎng)絡(luò)難以提取其特征信息。在這種情況下,僅依賴有限的背景信息進(jìn)行檢測(cè),往往容易出錯(cuò)。遙感圖像通常包含豐富的背景先驗(yàn)信息,這些信息能夠引導(dǎo)模型關(guān)注關(guān)鍵特征,從而學(xué)習(xí)到更具區(qū)分度的特征表達(dá)。本研究采用的大選擇性核網(wǎng)絡(luò)(LSKNet)通過(guò)空間選擇機(jī)制,對(duì)經(jīng)過(guò)大深度卷積核處理的特征進(jìn)行自適應(yīng)加權(quán)和空間融合。該網(wǎng)絡(luò)能夠根據(jù)輸入特征動(dòng)態(tài)調(diào)整各目標(biāo)的感受野范圍,從而獲取更全面的上下文信息。這種空間維度上的自適應(yīng)感受野調(diào)整機(jī)制,特別適用于無(wú)人機(jī)多視角拍攝圖像和復(fù)雜田間環(huán)境下的稻曲病檢測(cè)任務(wù)。將LSKNet集成到Y(jié)OLOv8n的特征提取網(wǎng)絡(luò)中,可顯著提升模型對(duì)小尺度稻曲病特征的關(guān)注能力,進(jìn)而提高整體識(shí)別準(zhǔn)確率。
大選擇性核網(wǎng)絡(luò)(LSKNet)的結(jié)構(gòu)如圖5所示,主要由前饋網(wǎng)絡(luò)模塊(FFN)和大內(nèi)核選擇模塊(LKSelection)2個(gè)子模塊組成。FFN模塊通過(guò)全連接層
Inputs:輸入;Backbone:主干網(wǎng)絡(luò); Conv :卷積操作;C2f:特征提取模塊;CA:坐標(biāo)注意力模塊;LSKNet:大選擇性核網(wǎng)絡(luò);SPPF:空間金字塔池化模塊;CBS:組合模塊; Conv2d :二維卷積層; MaxPool :最大池化層; BatchNorm2d :批量歸一化層;SiLU:激活函數(shù); Neck :頸部網(wǎng)絡(luò);Concat:融合;Upsample:上采樣;Head:檢測(cè)頭。
(FC)、深度卷積(DWConv)、激活函數(shù)(GELU)和第2個(gè)全連接層(FC)的級(jí)聯(lián)結(jié)構(gòu)實(shí)現(xiàn)通道混合和特征細(xì)化。大內(nèi)核選擇模塊(LKSelection)由全連接層、大內(nèi)核選擇子模塊(LSKModule)GELU激活函數(shù)和第2個(gè)全連接層組成。LSKModule作為L(zhǎng)SK-Net的核心組件,采用大核卷積和空間核選擇機(jī)制實(shí)現(xiàn)特征提取。大核卷積通過(guò)將LSKModule分解為一系列深度可分離卷積序列實(shí)現(xiàn)高效計(jì)算。這些深度可分離卷積的卷積核尺寸和擴(kuò)張率逐步增加,從而在捕捉更廣泛上下文信息的同時(shí),減少了計(jì)算量和參數(shù)量。序列中,第 i 次深度可分離卷積的核大小 (k) 、擴(kuò)張率 (d) 和接受野 (RF) 滿足以下遞推關(guān)系:
ki-1?ki;d1=1,di-1i?RFi-1
RF?1=k?1,RF?i=di(ki-1)+RF?i-1
式中, ki-1 為第 i-1 次深度可分離卷積核大小; ki 為第 i 次深度可分離卷積核大小; d1 為初始擴(kuò)張率;di-1 為第 i-1 次擴(kuò)張率; di 為第 i 次擴(kuò)張率; RFi-1 為第 i-1 個(gè)感受野; RFi 為第 i 個(gè)感受野。
這種設(shè)計(jì)保證了感受野的快速擴(kuò)展,同時(shí)通過(guò)
LKSelection:大內(nèi)核選擇模塊;FC:全連接層;GELU:激活函數(shù);LSKModule:大內(nèi)核選擇子模塊; Norm :規(guī)范化;FFN:前饋網(wǎng)絡(luò); DWConv :深度可分離卷積;LargeKernel:大內(nèi)核模塊;LargeK:大型內(nèi)核;Concat:融合; AvgMaxPool :平均池化和最大池化;SA:自注意力機(jī)制; Conv :卷積處理;Sigmoid:激活函數(shù);SpatialSelection:空間選擇模塊。
限制最大擴(kuò)張率避免了特征映射間出現(xiàn)間隙,顯著減少了參數(shù)量[25]。在特征提取過(guò)程中,模型通過(guò)不同尺度的感受野對(duì)輸入特征 (X) 進(jìn)行逐層分解,獲取多尺度上下文信息。分解公式如下:
U0=X,Ui+1=Fidw(Ui)
式中, U0 為初始輸入; X 為輸入特征; Ui+1 為第i+1 次輸入; Ui 為第 i 次輸入; Fidw 為第 i 次深度可分離卷積操作; 為 Ui 第 i 次經(jīng)過(guò) 1×1 卷積變換的結(jié)果; Fi×1 為第 χi 次 1×1 卷積操作; [1,N] 為第1層到第 N 層。
LSKNet通過(guò)空間核選擇機(jī)制,從不同尺度的大卷積核中篩選出對(duì)特征映射最具有信息量的空間區(qū)域,具體步驟如下:
(1)將不同感受野對(duì)應(yīng)的卷積核所提取的特征圖拼接在一起,形成一個(gè)包含多尺度信息的特征向量:
式中, 為串接后的特征表示;
為第 i 個(gè)特征表示。
(2)對(duì)融合特征執(zhí)行通道平均池化和最大池化操作,將得到的雙通道池化特征通過(guò)卷積層 F2N (???) 映射為 N 個(gè)空間注意力圖,利用Sigmoid激活函數(shù)為每個(gè)解耦的大卷積核生成獨(dú)立的的空間選擇掩膜,將解耦的大卷積核序列與對(duì)應(yīng)的空間選擇掩膜進(jìn)行加權(quán)處理,并通過(guò) F(?) 融合獲得關(guān)注特征So 計(jì)算公式如下:
式中, SAavg 為平均池化結(jié)果; Pavg 為平均池化操作; SAmax 為最大池化結(jié)果; Pmax 為最大池化操作; 為特征表示; F2N 為將2個(gè)通道的池化特征變換為 N 個(gè)空間注意力圖操作;
為經(jīng)過(guò) F2N 操作后的特征表示; σ 為激活函數(shù);
為第 i 個(gè)池化特征;
為
經(jīng)過(guò)激活函數(shù) (σ) 處理后的特征表示; s 為關(guān)注特征; F 為卷積層融合操作;
為
和
2個(gè)特征在 i=1 到 i=N 層的所有項(xiàng)求和。
(3)將輸入特征 (X) 和注意力特征(S)進(jìn)行逐元素相乘,獲得輸出特征。計(jì)算公式如下:
Y=X?S
式中, Y 為輸出特征; X 為輸入特征; s 為關(guān)注特征。
LSKNet通過(guò)動(dòng)態(tài)調(diào)整感受野范圍,有效整合遙感圖像的背景先驗(yàn)信息,顯著提升了模型的多尺度上下文信息捕獲能力、小自標(biāo)病害特征的提取精度、無(wú)人機(jī)視角下稻曲病的識(shí)別準(zhǔn)確率。
1.3.2.2坐標(biāo)注意力機(jī)制(CA)引入自然環(huán)境下,無(wú)人機(jī)遙感采集的水稻病害圖像存在復(fù)雜背景(如健康的水稻葉片、健康的稻穗、陰影等)干擾問(wèn)題。由于稻曲病在圖像中表現(xiàn)為小目標(biāo),隨著網(wǎng)絡(luò)層數(shù)的加深,病害特征容易被大量背景信息淹沒(méi)而逐漸丟失,導(dǎo)致模型識(shí)別精度下降。為解決這一問(wèn)題,本研究在特征提取網(wǎng)絡(luò)中引人了坐標(biāo)注意力機(jī)制(CA)。該機(jī)制能夠獲取特征圖像的位置信息和通道間關(guān)系,從而增強(qiáng)模型對(duì)稻曲病區(qū)域的關(guān)注,減少?gòu)?fù)雜背景的干擾。坐標(biāo)注意力機(jī)制模塊結(jié)構(gòu)如圖6所示。
Input:輸入;Residual:殘差連接; ?XAvgPool :水平方向的全局平均池化; YAvgPool :垂直方向的全局平均池化;Concat:拼接水平和垂直方向;BatchNorm:批量歸一化;Non-linear:非線性激活函數(shù); Conv2d :分解為兩個(gè)方向的卷積操作;Sigmoid:激活水平方向和垂直方向的注意力權(quán)重;Re-weight:將注意力權(quán)重與原始特征相乘;Output:加權(quán)后的輸出特征圖。
坐標(biāo)注意力機(jī)制通過(guò)坐標(biāo)信息嵌人和坐標(biāo)注意力生成將輸入特征圖中的目標(biāo)位置信息嵌入通道注意力中。首先,對(duì)輸入特征圖分別沿水平和垂直方向進(jìn)行平均池化,獲得 (H,1) 和 (1,W) 的位置信息。隨后,將這些位置信息與通道注意力結(jié)合,生成具有空間感知能力的注意力圖。該機(jī)制保留了空間特征細(xì)節(jié),同時(shí)精確捕捉目標(biāo)位置信息,使模型能夠準(zhǔn)確定位病害區(qū)域。計(jì)算公式如下:
式中, zcH(H) 為高度 H 的全局平均池化結(jié)果;zcW(W) 為寬度 W 的全局平均池化結(jié)果; i )為在通道 c 上,對(duì)于給定的高度 H ,沿著寬度方向i 對(duì)所有位置的特征值 xc(H,i) 進(jìn)行平均池化; W 為寬度;
為在通道 αc 上,對(duì)于給定的寬度W ,沿著高度方向 j 對(duì)所有位置的特征值 xc(j,W) 進(jìn)行平均池化; H 為高度。
CA提供精確的位置引導(dǎo),而LSKNet則基于位置信息進(jìn)行自適應(yīng)核選擇,這種協(xié)同作用顯著提升了模型的識(shí)別精度。此外,CA輸出的位置權(quán)重增強(qiáng)了模型的可解釋性,使決策過(guò)程更加透明。
1.4 試驗(yàn)方法
1.4.1試驗(yàn)平臺(tái)與參數(shù)設(shè)置本研究的模型訓(xùn)練與測(cè)試試驗(yàn)在配備IntelCorei7-11700KCPU(主頻2.30GHz )、NVIDIA GeForce RTX 4080 GPU和Windows10(64位)操作系統(tǒng)的計(jì)算機(jī)平臺(tái)上進(jìn)行。迭代次數(shù)(Epoch)設(shè)置為300,批處理大?。˙atchsize)設(shè)置為16。模型優(yōu)化采用隨機(jī)梯度下降算法(SGD),主干網(wǎng)絡(luò)通過(guò)加載預(yù)訓(xùn)練權(quán)重進(jìn)行初始化,初始學(xué)習(xí)率設(shè)置為0.01,整個(gè)模型基于PyTorch深度學(xué)習(xí)框架實(shí)現(xiàn),使用Python編程語(yǔ)言開(kāi)發(fā)。
1.4.2評(píng)價(jià)指標(biāo)為了評(píng)估模型性能,本研究采用精準(zhǔn)度 (P) 、召回率 (R) 和交并比閾值為0.50時(shí)的平均精度值均值( mAP50 )3個(gè)通用評(píng)價(jià)指標(biāo)。檢測(cè)結(jié)果的判定標(biāo)準(zhǔn)為:當(dāng)預(yù)測(cè)邊界框與真實(shí)邊界框的交并比(IoU)超過(guò)閥值0.5時(shí),判定為正樣本;否則判定為負(fù)樣本。
2 結(jié)果與分析
2.1LSKNet模塊和CA模塊對(duì)模型的影響
基于自制的水稻稻曲病數(shù)據(jù)集驗(yàn)證LSN-YOLOv8中LSKNet模塊和CA模塊的有效性。如表1所示,與YOLOv8模型相比, YOLOv8+LSKNet 模型精準(zhǔn)度、召回率和 mAP50 分別提高了10.7個(gè)百分點(diǎn)、3.4個(gè)百分點(diǎn)和13.8個(gè)百分點(diǎn),表明LSKNet模塊通過(guò)動(dòng)態(tài)調(diào)整感受野能有效增強(qiáng)模型對(duì)小目標(biāo)特征的提取能力。與YOLOv8模型相比, Υ0L0v8+CA 模型精準(zhǔn)度和 mAP50 分別提高了2.8個(gè)百分點(diǎn)和0.4個(gè)百分點(diǎn),而召回率降低了3.3個(gè)百分點(diǎn)。表明CA模塊能夠提升定位精度,但可能漏掉一些真正的正樣本。與YOLOv8模型相比,LSN-YOLOv8模型的精準(zhǔn)度提高了13.5個(gè)百分點(diǎn),召回率提高了11.5個(gè)百分點(diǎn), mAP50 提高了14.9個(gè)百分點(diǎn),表明LSKNet模塊和CA模塊的協(xié)同作用能夠顯著提升模型對(duì)小目標(biāo)特征的關(guān)注能力。
2.2 不同模型識(shí)別性能對(duì)比
進(jìn)一步將LSN-YOLOv8模型和主流檢測(cè)模型FasterR-CNN、YOLOv5、YOLOv7和YOLOv8分別進(jìn)行對(duì)比。如圖7所示,YOLOv5模型能夠識(shí)別圖像中形態(tài)特征較完整的病害目標(biāo),但對(duì)被健康葉片遮擋的病害目標(biāo)存在重復(fù)識(shí)別的情況。YOLOv7模型較好地解決了重復(fù)識(shí)別和錯(cuò)誤識(shí)別的問(wèn)題,但其識(shí)別精度較低。YOLOv8模型的漏識(shí)別率較低,但精度仍有待提高。FasterR-CNN模型對(duì)病害的特征變化或尺度變化的適應(yīng)性差,而病害表征與葉片特征相似度高,導(dǎo)致出現(xiàn)漏識(shí)別的情況。LSN-YOLOv8模型對(duì)不同尺度、不同發(fā)病階段的病害均能實(shí)現(xiàn)準(zhǔn)確識(shí)別,表明該模型具有更強(qiáng)的特征提取能力,在田間環(huán)境中表現(xiàn)出更好的適應(yīng)性。
將YOLOv5、YOLOv7、YOLOv8、Faster R-CNN 模 型性能進(jìn)行對(duì)比。如圖8所示,LSN-YOLOv8模型 的精準(zhǔn)度、召回率和 mAP50 分別達(dá)到了 94.8% 、 87.3% 和 92.3% 。與YOLOv5模型相比,LSNYOLOv8模型的精準(zhǔn)度、召回率和 mAP50 分別提高 17.0個(gè)百分點(diǎn)、14.8個(gè)百分點(diǎn)和14.2個(gè)百分點(diǎn)。 與YOLOv7模型相比,LSN-YOLOv8模型的精準(zhǔn)度、 召回率和 mAP50 分別提高14.0個(gè)百分點(diǎn)、17.3個(gè)百 分點(diǎn)和15.6個(gè)百分點(diǎn)。與YOLOv8模型相比,LSNYOLOv8模型的精準(zhǔn)度、召回率和 mAP50 分別提高了 13.5個(gè)百分點(diǎn)、11.5個(gè)百分點(diǎn)和14.9個(gè)百分點(diǎn)。 與FasterR-CNN模型相比,LSN-YOLOv8模型的精 準(zhǔn)度、召回率和 mAP50 分別提高了10.8個(gè)百分點(diǎn)、 6.1個(gè)百分點(diǎn)和7.7個(gè)百分點(diǎn)。
2.3 模型關(guān)注特征可視化
為驗(yàn)證LSN-YOLOv8模型的性能,采用梯度加權(quán)類激活映射(Grad-CAM)技術(shù)對(duì)LSN-YOLOv8模型決策過(guò)程進(jìn)行可視化分析。具體為,從模型輸出層獲取水稻稻曲病的預(yù)測(cè)信息,沿著梯度傳播路徑將信息傳遞至網(wǎng)絡(luò)前端各層。在此過(guò)程中,預(yù)測(cè)信息以梯度權(quán)重的形式被分配到每一層的特征圖上,最終生成一系列針對(duì)水稻稻曲病目標(biāo)的熱力圖。這些熱力圖直觀地展示了模型在識(shí)別過(guò)程中所關(guān)注的關(guān)鍵特征區(qū)域,清晰地揭示了模型的預(yù)測(cè)邏輯和決策依據(jù)。
如圖9所示,在第9層的坐標(biāo)注意力模塊(CA)能夠有效捕捉病害圖像的位置信息,并對(duì)不同區(qū)域賦予差異化的關(guān)注權(quán)重,為后續(xù)LSKNet模塊的特征提取提供了良好的空間引導(dǎo)。第10層的大選擇性核網(wǎng)絡(luò)(LSKNet)則在CA模塊定位的基礎(chǔ)上,對(duì)重點(diǎn)區(qū)域?qū)崿F(xiàn)了像素級(jí)的特征增強(qiáng);而C2f模塊在整個(gè)可視化過(guò)程中展現(xiàn)出平滑的特征過(guò)渡能力,使得病害特征的呈現(xiàn)更加自然連貫。整體可視化結(jié)果表明,LSN-YOLOv8模型不僅實(shí)現(xiàn)了對(duì)病害區(qū)域的精確定位,其決策過(guò)程也具有良好的可解釋性。
Conv:卷積層;C2f:特征提取模塊;CA;坐標(biāo)注意力模塊;LSKNet:大選擇性核網(wǎng)絡(luò);SPPF:空間金字塔池化模塊;US:上采樣;CCT:融合;DET:檢測(cè)輸出。
利用Grad-CAM技術(shù)對(duì)YOLOv8和LSN-YOLOv8進(jìn)行可視化分析,如圖10所示,YOLOv8模型對(duì)關(guān)鍵病害區(qū)域的關(guān)注程度不足,并且存在對(duì)非病害區(qū)域的關(guān)注。相比之下,LSN-YOLOv8模型在保持全局關(guān)注的同時(shí),能夠更準(zhǔn)確地聚焦于圖像中的病害區(qū)域,對(duì)非病害區(qū)域的關(guān)注較少,這一表現(xiàn)完全符合模型設(shè)計(jì)的預(yù)期目標(biāo)。
3結(jié)論
水稻稻曲病檢測(cè)是篩選和培育抗病水稻品種的關(guān)鍵環(huán)節(jié)。為實(shí)現(xiàn)在自然田間條件下水稻稻曲病的快速準(zhǔn)確檢測(cè),本研究基于無(wú)人機(jī)遙感圖像數(shù)據(jù)集,針對(duì)無(wú)人機(jī)視角下水稻稻曲病圖像特征,以YOLOv8模型為基礎(chǔ),提出了一種改進(jìn)的LSN-YOLOv8模型。該模型主要在以下3個(gè)方面進(jìn)行了改進(jìn):在骨干網(wǎng)絡(luò)中集成大選擇性核網(wǎng)絡(luò)(LSK-Net);在主干網(wǎng)絡(luò)特征提取階段引入坐標(biāo)注意力機(jī)制(CA)模塊:采用Grad-CAM技術(shù)對(duì)模型決策過(guò)程的可視化分析。試驗(yàn)結(jié)果表明,LSN-YOLOv8模型精準(zhǔn)度、召回率、 mAP50 分別為 94.8%.87.3% 和92.3% ,均高于YOLOv5、YOLOv7、YOLOv8、FasterR-CNN模等經(jīng)典目標(biāo)檢測(cè)模型。梯度加權(quán)類激活映射(Grad-CAM)技術(shù)可視化分析結(jié)果表明,LSN-YOLOv8模型能夠更準(zhǔn)確地聚焦于圖像中的病害區(qū)域。本研究提出的LSN-YOLOv8模型可為稻曲病監(jiān)測(cè)、病害防治和水稻抗病性鑒定提供技術(shù)支持。未來(lái)可以進(jìn)一步探究LSKNet的輕量化設(shè)計(jì),以實(shí)現(xiàn)模型在資源受限設(shè)備上的高效部署,從而進(jìn)一步拓展其在實(shí)際應(yīng)用場(chǎng)景中的適用性。
參考文獻(xiàn):
[1] BINRAHMANANMR,ZHANGJH.Trendsinriceresearch: 2030andbeyond[J].Food and EnergySecurity,2023,12(2): e390.
[2] SUNWX,F(xiàn)ANJ,F(xiàn)ANGAF,etal.Ustilaginoideavirens:inpathology,2020,58:363-385.
[3]QIU J,MENG S, DENG Y, et al. Ustilaginoidea virens:a fungus infects rice flower and threats world rice production[J].Rice Science,2019,26(4):199-206.
[4]ZHOU L,MUBEEN M, IFTIKHAR Y,et al. Rice 1 smut pathogen;implications for mycotoxincontamination,current status,and futureperspectives[J].Frontiers in Microbiology,2024,15:1344831.
[5]ROYA,SAHUPK,DAS C,et al. Conventional and new-breeding technologies for improving disease resistance in lentil (Lens culinaris Medik)[J].Frontiers in Plant Science,2023,13:1001682.
[6]陸煜,俞經(jīng)虎,朱行飛,等.基于卷積神經(jīng)網(wǎng)絡(luò)的輕量級(jí)水稻 葉片病害識(shí)別模型[J].江蘇農(nóng)業(yè)學(xué)報(bào),2024,40(2):312-319.
[7]BUJAI,SABELLAE,MONTEDURO AG,et al.Advances in plant disease detection and monitoring:from traditional assays to in-field diagnostics[J].Sensors,2021,21(6):2129.
[8]ZENG W,LI M. Crop leaf disease recognition based on self-attention convolutional neural network[J].Computers and Electronics in Agriculture,2020,172:105341.
[9]楊鋒,姚曉通.基于改進(jìn)YOLOv8 的小麥葉片病蟲(chóng)害檢測(cè)輕 量化模型[J].智慧農(nóng)業(yè)(中英文),2024,6(1):147-157.
[10]李仁杰,宋濤,高婕,等.基于改進(jìn)YOLOv5的自然環(huán)境下 番茄患病葉片檢測(cè)模型[J].江蘇農(nóng)業(yè)學(xué)報(bào),2024,40(6): 1028-1037.
[11]WANG J,WANG PX,TIANHR,et al. A deep learning framework combining CNN and GRU for improving wheat yield estimates using time series remotely sensed multi-variables[J].Computers and Electronics in Agriculture,2023,206:107705.
[12]鮑文霞,吳育桉,胡根生,等.基于改進(jìn)RDN網(wǎng)絡(luò)的無(wú)人機(jī)茶 葉圖像超分辨率重建[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(4):241- 249.
[13]HU G S,YAOP,WAN MZ,et al.Detection and classification of diseased pine trees with different levels of severity from UAV remote sensing images[J]. Ecological Informatics,2022,72:101844.
[14]BAO W X,ZHU ZQ,HU G S,et al. UAV remote sensing detection of tea leaf blight based on DDMA-YOLO[J]. Computers and Electronics in Agriculture,2023,205:107637.
[15]TETILA EC,MACHADO BB,ASTOLFIG,et al.Detection and classification of soybean pestsusingdeep learning with UAV images[J].Computers and Electronics in Agriculture,2020,179: 105836.
[16]孫鈺,周焱,袁明帥,等.基于深度學(xué)習(xí)的森林蟲(chóng)害無(wú)人機(jī) 實(shí)時(shí)監(jiān)測(cè)方法[J].農(nóng)業(yè)工程學(xué)報(bào),2018,34(21):74-81.
[17]KERKECHM,HAFIANE A,CANALSR.Vine disease detection in UAV multispectral images using optimized image registration and deep learning segmentation approach[J]. Computers and Electronics in Agriculture,2020,174:105446.
[18]胡根生,謝一帆,鮑文霞,等.基于輕量型網(wǎng)絡(luò)的無(wú)人機(jī)遙感圖 像中茶葉枯病檢測(cè)方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2024,55(4):165- 175.
[19]LIYX,LIX,DAIYM,etal.Lsknet:afoundationlightweight backbone for remote sensing[J].International Journal of Computer Vision,2024,133:1410-1431.
[20]SONGYF,ZHANG Z,SHANCF,et al.Constructing stronger and faster baselinesfor skeleton-based action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022,45(2):1474-1488.
[21]JAHMUNAHV,NGEYK,ANRS,etal.Explainabledetection ofmyocardial infarction using deep learning models with GradCAMtechnique on ECG signals[J].Computers in Biology and Medicine,2022,146:105550.
[22]SHENL Y,LANG BH,SONG Z X.DS-YOLOv8-Based object detection method for remote sensing images[J].IEEE Access, 2023,11:125122-125137.
[23]SOLIMANIF,CARDELLICCHIOA,DIMAUROG,etal.Optimizing tomato plantphenoty detection:boosting YOLOv8 architectureto tackle data complexity[J].Computersand Electronicsin Agriculture,2024,218:108728.
[24]YANG SZ,WANGW,GAO S,etal. Strawberry ripeness detectionbasedonYOLOv8algorithmfusedwithLW-Swin Transformer [J].Computers and Electronicsin Agriculture,2O23,215: 108360.
[25]PANP,GUOWL,ZHENGXM,etal.Xoo-YOLO:adetection method forwild ricebacterialblightinthe field from theperspectiveofunmanned aerial vehicles[J].FrontiersinPlant Science, 2023,14:1256545.
(責(zé)任編輯:成紓寒)