• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于改進(jìn)YOLOv5 模型的茄科植物葉片實(shí)例分割方法

    2024-01-01 00:00:00李佳航董巒尹書林尤永鵬杜周
    農(nóng)業(yè)工程 2024年6期
    關(guān)鍵詞:注意力機(jī)制溫室葉片

    摘 要: 觀測葉片是了解植物生長情況的重要措施,為實(shí)現(xiàn)溫室系統(tǒng)智能化管理,確保茄科植物健康生長,使用實(shí)例分割技術(shù)可以獲取到茄科植物在植物苗期的葉片生長信息。提出一種基于YOLOv5 模型的茄科植物葉片實(shí)例分割模型YOLOv5-Biformer,該模型針對茄科植物葉片的小目標(biāo)特征,在主干網(wǎng)絡(luò)中加入稀疏注意力網(wǎng)絡(luò),可以有效提高茄科植物葉片實(shí)例分割效率。試驗(yàn)結(jié)果表明,YOLOv5-Biformer 模型在茄科植物葉片數(shù)據(jù)集上與基準(zhǔn)模型相比,在精確度、召回率和平均精度指標(biāo)上分別提高0.5、1.9 和1.0 個(gè)百分點(diǎn)。該模型在智能溫室環(huán)境下對于苗期茄科植物葉片的實(shí)例分割有顯著效果,為實(shí)現(xiàn)溫室系統(tǒng)智能化管理提供新思路。

    關(guān)鍵詞:茄科植物;葉片;實(shí)例分割;YOLOv5;注意力機(jī)制;溫室

    中圖分類號:S126 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號:2095-1795(2024)06-0026-08

    DOI:10.19998/j.cnki.2095-1795.2024.06.005

    0 引言

    新疆維吾爾自治區(qū)(簡稱新疆)的蔬菜作物豐富多樣,2022 年種植面積超過2 萬hm2, 總產(chǎn)量達(dá)到290 萬t,其中以番茄、辣椒等茄科植物為主[1]。在苗期觀測植物葉片形態(tài)特征對于種類鑒定和生長狀態(tài)評估具有重要意義。然而,在自動(dòng)化農(nóng)業(yè)和植物學(xué)研究中,準(zhǔn)確分割茄科植物葉片仍然是一個(gè)具有挑戰(zhàn)性的任務(wù)。葉片實(shí)例分割是計(jì)算機(jī)視覺應(yīng)用于數(shù)字農(nóng)業(yè)上的一項(xiàng)關(guān)鍵技術(shù),將植物葉片逐個(gè)從復(fù)雜的背景中精確地分離出來,為后續(xù)的葉片分析和測量提供可靠的基礎(chǔ)[2]。

    近年來,深度學(xué)習(xí)方法在圖像分割領(lǐng)域取得了顯著的突破。卷積神經(jīng)網(wǎng)絡(luò)(CNN)被廣泛應(yīng)用于植物葉片實(shí)例分割任務(wù),這些方法通過端到端的訓(xùn)練,能夠?qū)W習(xí)到圖像的高級特征和語義信息,從而在不同場景下實(shí)現(xiàn)準(zhǔn)確的葉片分割[3]。HARIHARAN B 等[4] 提出的實(shí)例分割算法涉及生成掩碼建議(masksuggestion),然后對生成的建議進(jìn)行分類。HE K 等[5]在Faster R-CNN 的基礎(chǔ)上提出了Mask R-CNN 模型,為了提高分割效果引入了掩碼分支,用于預(yù)測分割掩膜;設(shè)計(jì)了RoIAlign 層,通過采用雙線性插值的方法,計(jì)算每個(gè)感興趣區(qū)域采樣點(diǎn)的輸入特征值,以確保特征提取與輸入的一致性。這一創(chuàng)新顯著提升了分割效果, 為未來的圖像分割研究奠定了可靠的基礎(chǔ)。HUANG Z 等[6] 提出了Mask Scoring R-CNN 模型,對于Mask R-CNN 模型中過于仰賴分類分支置信度作為掩膜質(zhì)量評價(jià)的問題。模型通過使用預(yù)測掩膜與標(biāo)注掩膜的交并比(MaskIoU)來描述掩膜的分割質(zhì)量;引入了全新的MaskIoU Head 分支,將MaskIoU 與分類得分相乘,從而計(jì)算掩膜的分?jǐn)?shù),以更準(zhǔn)確地評估掩膜的質(zhì)量。這項(xiàng)研究為改進(jìn)Mask R-CNN 模型的性能提供了有效的解決方案,從而計(jì)算出掩膜的分?jǐn)?shù);這一算法調(diào)整有助于校正掩碼質(zhì)量與得分之間的偏差,顯著提升了分割性能。XIE E 等[7] 提出的Polar Mask 則借鑒了FCOS 算法[8],運(yùn)用極坐標(biāo)系對物體輪廓進(jìn)行了建模,從而實(shí)現(xiàn)了在無需檢測框的情況下進(jìn)行實(shí)例分割。ZHANG G 等[9] 提出了名為“Refine Mask”的方法,該方法利用邊緣信息和語義分割信息來進(jìn)一步優(yōu)化Mask R-CNN 生成的粗糙掩碼邊緣。WANG Y 等[10]也提出了一種名為“ISTR”的方法,這是首個(gè)基于Transformer 的端到端實(shí)例分割框架;該方法通過預(yù)測低維掩碼嵌入和循環(huán)細(xì)化策略,實(shí)現(xiàn)了對實(shí)例的同時(shí)檢測和分割。

    在植物葉片實(shí)例分割領(lǐng)域,王琢等[11] 以Caffe 深度學(xué)習(xí)框架為基礎(chǔ),構(gòu)建全卷積神經(jīng)網(wǎng)絡(luò)(FCN),采用有監(jiān)督的學(xué)習(xí)方法,實(shí)現(xiàn)葉片圖像的分割。YANGX 等[12] 提出了一種創(chuàng)新性的植物葉片圖像分割方法,方法基于Sc-MRCNN 架構(gòu),旨在提高植物葉片圖像分割的精確性和穩(wěn)定性;通過引入空間和通道信息的融合,將植物葉片的準(zhǔn)確分割推向了一個(gè)新的高度。PRAVEEN K J 等[13] 提出了一項(xiàng)基于深度卷積神經(jīng)網(wǎng)絡(luò)(Deep-CNN,DCNN)的方法,用于植物葉片分割,通過使用DCNN 從目標(biāo)區(qū)域中提取葉片信息,并應(yīng)用正交變換技術(shù),實(shí)現(xiàn)對CVPPP 蓮座植物數(shù)據(jù)集上葉片的精準(zhǔn)分割,分割準(zhǔn)確率達(dá)到了96%;在分割過程中,采用了CMYK 顏色空間進(jìn)行噪聲去除處理,進(jìn)一步提高了對葉片邊緣的檢測能力。GUO R 等[14] 提出了一種新的端到端模型Leaf Mask 神經(jīng)網(wǎng)絡(luò),用來劃分每個(gè)葉片區(qū)域并計(jì)算葉片數(shù)量,還為雙注意導(dǎo)向Mask 分支設(shè)計(jì)了新穎靈活的多尺度注意模塊。VAYSSADE J A 等[15]基于卷積神經(jīng)網(wǎng)絡(luò)機(jī)制,提出了一種像素級實(shí)例分割來檢測茂密樹葉環(huán)境中的樹葉,結(jié)合深輪廓感知、邊緣的葉片分割槽分類和Pyramid CNN for Dense Leaves;應(yīng)用分水嶺算法來細(xì)化分割結(jié)果,并結(jié)合計(jì)算優(yōu)化植被指數(shù)來更好地識(shí)別和區(qū)分不同的植物實(shí)例或樹葉,但是該方法在植物發(fā)育的高級階段并不有效。李婧雯[16]使用3 種光度立體表面重建算法對植物葉片表面進(jìn)行了三維重建,并獲取了植物葉片表面法向量圖,構(gòu)建了葉片法向圖數(shù)據(jù)集,再將其作為神經(jīng)網(wǎng)絡(luò)的輸入,完成對于同一植物不同葉片的分割。

    綜上所述,與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,基于卷積神經(jīng)網(wǎng)絡(luò)的植物葉片分割方法在識(shí)別率、準(zhǔn)確率及處理速度等方面均取得了顯著的提升并在廣泛的領(lǐng)域得到了應(yīng)用[17]。目前,在葉片分割領(lǐng)域內(nèi)主要包括葉邊緣檢測方法和對象檢測方法,多數(shù)研究人員使用對象而不是邊緣作為分類的特征,許多基于對象的方法在兩片葉片重疊的情況下效果不是特別理想。本研究旨在探索和改進(jìn)茄科植物葉片實(shí)例分割方法,增強(qiáng)分割算法的精確度和效能。通過綜合應(yīng)用深度學(xué)習(xí)技術(shù)、圖像增強(qiáng)方法和先進(jìn)的分割網(wǎng)絡(luò)架構(gòu),希望能夠有效地解決茄科植物葉片實(shí)例分割中的關(guān)鍵問題,為農(nóng)業(yè)生產(chǎn)和植物學(xué)研究提供有力的支持。

    1 YOLOv5 實(shí)例分割模型及改進(jìn)

    1.1 YOLOv5 模型結(jié)構(gòu)

    YOLOv5 是一種單階段目標(biāo)識(shí)別算法[18]。根據(jù)網(wǎng)絡(luò)深度和寬度的不同,YOLOv5 分為5 個(gè)不同的網(wǎng)絡(luò)模型版本,分別是YOLOv5s(?。?、YOLOv5m(中)、YOLOv5l(大)、YOLOv5n(均衡)和YOLOv5x(超大)。其中,YOLOv5s 網(wǎng)絡(luò)的計(jì)算速度最快,但平均精度低,而YOLOv5x 網(wǎng)絡(luò)則相反。YOLOv5 網(wǎng)絡(luò)的模型大小大約是YOLOv4 網(wǎng)絡(luò)的1/10,具有更快的識(shí)別和定位速度。YOLOv5 網(wǎng)絡(luò)結(jié)構(gòu)主要由主干網(wǎng)絡(luò)(Backbone)、頸部(Neck)和頭部(Head)3 個(gè)關(guān)鍵部分組成。一旦輸入圖像進(jìn)入網(wǎng)絡(luò),主干網(wǎng)絡(luò)會(huì)在不同的圖像尺度上聚合特征,形成圖像的多層次特征表達(dá)。接著,頸部負(fù)責(zé)將這些特征進(jìn)行融合,以實(shí)現(xiàn)不同尺度和語境的信息相互交織,為后續(xù)處理提供更加豐富的信息背景。頭部是網(wǎng)絡(luò)的頂部部分,負(fù)責(zé)最終的預(yù)測任務(wù)。該層根據(jù)任務(wù)要求進(jìn)行進(jìn)一步處理,以生成目標(biāo)掩膜區(qū)域和對應(yīng)的類別信息,這一步是網(wǎng)絡(luò)輸出預(yù)測結(jié)果的核心。其結(jié)構(gòu)如圖1 所示。

    1.2 YOLOv5 模型改進(jìn)

    Biformer 網(wǎng)絡(luò)是一種雙層路由注意力機(jī)制,以動(dòng)態(tài)、查詢感知的方式實(shí)現(xiàn)計(jì)算的有效分配,旨在將雙層路由注意力引入到視覺Transformer 中,以提高計(jì)算機(jī)視覺任務(wù)的性能[19-20]。本研究關(guān)注茄科植物葉片,一共涵蓋了4 個(gè)不同的類別。為了更好地適應(yīng)試驗(yàn)的實(shí)際應(yīng)用需求并提升茄科植物葉片的分割性能,并考慮到小目標(biāo)分割的挑戰(zhàn),尤其在實(shí)際應(yīng)用中具有更大的優(yōu)勢,研究借鑒了注意力機(jī)制的思想,以期達(dá)到更好的效果?;谶@個(gè)方法,本研究將Biformer 網(wǎng)絡(luò)替換YOLOv5 的主干網(wǎng)絡(luò),提出了一種改進(jìn)模型YOLOv5-Bifomer。

    1.2.1 雙層路由結(jié)構(gòu)

    雙層路由注意力(bi-level routing attention,BRA)是Biformer 網(wǎng)絡(luò)中最為關(guān)鍵的模塊,其目的在于增強(qiáng)注意力機(jī)制,使其能夠高效地捕捉輸入序列內(nèi)的局部及整體依賴關(guān)系。網(wǎng)絡(luò)Transformers 中的標(biāo)準(zhǔn)自注意力,通常需要在捕捉短范圍內(nèi)的局部依賴和建模長范圍內(nèi)的全局依賴之間存在權(quán)衡。Biformer 網(wǎng)絡(luò)則引入了一個(gè)雙層路由的過程,以解決這一問題。它將標(biāo)準(zhǔn)自注意力機(jī)制與全局級別的路由注意力機(jī)制結(jié)合,使得模型可以靈活地捕捉局部和全局的上下文信息。BRA 模塊結(jié)構(gòu)如圖2 所示。這一雙層路由注意機(jī)制的引入為模型的注意力機(jī)制賦予了更強(qiáng)的表達(dá)能力,通過同時(shí)考慮局部和全局的依賴關(guān)系,BRA 模塊使得模型能夠更全面地理解輸入序列中的關(guān)聯(lián)信息,從而提升了模型在處理復(fù)雜關(guān)系時(shí)的性能。這種創(chuàng)新性的設(shè)計(jì)在Biformer 網(wǎng)絡(luò)中發(fā)揮著關(guān)鍵作用,為模型在處理茄科植物葉片等情景下的分割問題提供了有效的解決方案。

    首先進(jìn)行區(qū)域劃分, 給定一個(gè)2D 輸入特征圖X∈RH×W×C,BRA 將其分割成S×S 個(gè)非重疊的區(qū)域,使得每個(gè)區(qū)域包含HW/S2個(gè)特征向量。這一步通過將X 重新整形為Xr∈RS2×(HW/S2)×C來完成。這種劃分可以幫助BRA同時(shí)考慮到全局和局部的信息。

    接下來使用標(biāo)準(zhǔn)的自注意力機(jī)制,類似于傳統(tǒng)的Transformer 模型。對于給定的輸入序列,每個(gè)位置都計(jì)算出一個(gè)查詢(query)向量、一組鍵(key)向量和一組值(value)向量。然后,通過點(diǎn)積計(jì)算查詢向量與鍵向量,再進(jìn)行Softmax 操作,得到注意力權(quán)重,最后將權(quán)重與對應(yīng)的值向量加權(quán)求和,得到當(dāng)前位置的輸出表示。經(jīng)過線性投影得到查詢(Q)、鍵(K)和值(V)張量,記為Q,K,V ∈RS 2×(HW/S 2)×C,其中Wq,Wk,Wv∈RC×C 分別是查詢、鍵、值的投影權(quán)重,給定輸入序列表示為X。模型如下

    Q=XrWq (1)

    K=XrWk (2)

    V=XrWv (3)

    分別對Q 和K 應(yīng)用每個(gè)區(qū)域的平均,推導(dǎo)出區(qū)域級別的查詢和鍵Qr,Kr∈RS 2×C。Qr 和轉(zhuǎn)置的Kr 之間的矩陣乘法,得到區(qū)域間親和性圖的鄰接矩陣Ar∈ RS 2×S2。模型如下

    Ar=Qr(Kr)T (4)

    鄰接矩陣Ar 中的元素衡量了兩個(gè)區(qū)域之間的語義關(guān)聯(lián)程度。執(zhí)行的核心步驟是通過僅保留每個(gè)區(qū)域的前k 個(gè)連接來修剪親和圖。具體來說,通過使用逐行的top-k 操作得到一個(gè)路由索引矩陣Ir∈NS2×K,Ir 的第i 行包含第i 區(qū)最相關(guān)區(qū)域的k 個(gè)指標(biāo)。模型如下

    Ir=ttopkIIndex(Ar) (5)

    然后,BRA 模塊引入了全局路由注意力(globalrouting vector),以捕捉更遠(yuǎn)處的全局依賴關(guān)系。這一步,每個(gè)位置的查詢向量將被用來與全局路由向量進(jìn)行點(diǎn)積運(yùn)算,得到一個(gè)路由權(quán)重。全局路由向量可以看作是全局信息的一個(gè)表示,它是在整個(gè)輸入序列中聚合而得。通過區(qū)域到區(qū)域的路由索引矩陣Ir,應(yīng)用細(xì)粒度的令牌對令牌的注意力。對于區(qū)域i 中的每個(gè)查詢令牌,它將關(guān)注索引為Ir(i,1),Ir(i,2),……,Ir(i,k)的k個(gè)路由后的區(qū)域中的所有鍵值對。通過與全局路由向量的點(diǎn)積運(yùn)算,每個(gè)位置都能獲得一個(gè)路由權(quán)重,該權(quán)重表示當(dāng)前位置對全局信息的重要性。其中g(shù)gather 操作用于從輸入張量中按照給定的索引集合收集元素,Kg,Vg2RS 2×(KHW/S 2)×C是收集到的鍵和值張量。模型如下

    Kg=ggather(K,Ir) (6)

    Vg=ggather(V,Ir) (7)

    最后,將局部自注意力的輸出表示與全局路由注意力的輸出表示進(jìn)行加權(quán)求和,得到最終的位置表示。這種加權(quán)的方式使得模型能夠在保留局部上下文信息的同時(shí),加入更遠(yuǎn)處的全局依賴關(guān)系,從而更好地理解輸入序列的雙向上下文。AAttention 表示注意力機(jī)制的計(jì)算。通常,注意力機(jī)制涉及計(jì)算查詢向量(Q)與鍵向量(Kg)之間的相似度,然后使用Softmax 函數(shù)得到權(quán)重,最后用這些權(quán)重對值向量(Vg)進(jìn)行加權(quán)求和,LCE(local context entropy)是局部上下文熵。用于引入一些局部的信息或復(fù)雜性。局部上下文熵的具體定義會(huì)涉及對值向量(V)的操作,以反映局部信息的復(fù)雜度。模型如下

    O=AAttention(Q,Kg,Vg)+LLCE(V) (8)

    1.2.2 BiFormer 網(wǎng)絡(luò)結(jié)構(gòu)

    BiFormer 網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,在設(shè)計(jì)上汲取了Transformer 網(wǎng)絡(luò)的啟發(fā)。具體而言,在架構(gòu)中的第1階段采用了重疊的塊嵌入,而在第2~4 階段則引入了塊合并模塊,以便降低輸入空間的分辨率,同時(shí)增加通道數(shù)[21-22]。接著,采用了N 個(gè)連續(xù)的BiFormer 塊來實(shí)現(xiàn)特征的轉(zhuǎn)換。通過將Bi-Level Routing Attention(BRA)融入到BiFormer 架構(gòu)中,這個(gè)模型能夠更加有效地處理雙向的上下文信息,從而提高性能,尤其是在需要同時(shí)考慮局部和全局依賴關(guān)系的情況下。BRA 作為雙層路由的注意力機(jī)制,為模型提供了更靈活的建模能力。

    BiFormer 網(wǎng)絡(luò)信息如圖4 所示。首先,采用3×3的深度卷積來隱式編碼相對位置信息。然后,分別引入BRA 模塊和由兩層多層感知機(jī)(MLP)組成的模塊,分別用于對交叉位置關(guān)系進(jìn)行建模和對每個(gè)位置的嵌入進(jìn)行處理。通過調(diào)整網(wǎng)絡(luò)的寬度(即基礎(chǔ)通道數(shù)C)和深度(即每個(gè)階段使用的BiFormer 塊數(shù),Ni,其中i=1,2,3,4),從而實(shí)例化了3 種不同規(guī)模的BiFormer模型。

    2 模型訓(xùn)練

    2.1 數(shù)據(jù)來源

    本研究使用茄科植物作為研究對象,包括番茄、茄子和辣椒3 種。為了對本研究方法進(jìn)行真實(shí)有效的評估,構(gòu)建了茄科植物葉片數(shù)據(jù)集,并分成用于訓(xùn)練和測試的樣本。這些樣本是在實(shí)際智能溫室環(huán)境中進(jìn)行拍攝獲取的,以保證數(shù)據(jù)與真實(shí)應(yīng)用場景一致,智能溫室環(huán)境如圖5 所示[23]。該智能溫室裝備了一套綜合環(huán)境控制系統(tǒng),可以直接調(diào)節(jié)室內(nèi)的溫度、光照、水分、營養(yǎng)和氣體等多種因素,為植物的生長創(chuàng)造了理想的環(huán)境條件。拍攝地點(diǎn)位于新疆烏魯木齊市經(jīng)濟(jì)技術(shù)開發(fā)區(qū)的新疆農(nóng)業(yè)大學(xué)陸港校區(qū)(三坪教學(xué)實(shí)踐基地)。使用手機(jī)在自然光照的條件下進(jìn)行植物圖像采集,拍攝的高度保持在植物正上方30 cm。共采集了1 500 張圖像數(shù)據(jù),這些圖像以JPEG 格式進(jìn)行保存。

    2.2 圖像數(shù)據(jù)預(yù)處理

    在網(wǎng)絡(luò)訓(xùn)練過程中,必須對圖像進(jìn)行篩選,并對其進(jìn)行調(diào)整以達(dá)到模型訓(xùn)練的需求。首先,需要丟棄不適合的圖像。其次,在調(diào)整植物大小時(shí)避免改變植物形態(tài),具體步驟:①采集的原始圖像大小4 096 像素×3 072 像素;②將圖像大小調(diào)整為640 像素×480 像素(與MS COCO 數(shù)據(jù)集相同);③在構(gòu)建數(shù)據(jù)集的過程中,會(huì)保留一部分模糊、遮擋和不完整的圖像作為負(fù)樣本[24]。最終,從原始的1 500 張圖像中,挑選出1 000張作為最終數(shù)據(jù)集。為了更好地豐富樣本圖像,使數(shù)據(jù)集更具代表性,并能更準(zhǔn)確地反映現(xiàn)場數(shù)據(jù)的真實(shí)情況,在數(shù)據(jù)集構(gòu)建的基礎(chǔ)上,采取了數(shù)據(jù)增強(qiáng)的方法,進(jìn)行了隨機(jī)裁剪、旋轉(zhuǎn)、翻轉(zhuǎn)和縮放的擴(kuò)充,進(jìn)一步提升數(shù)據(jù)集的多樣性[25]。這一策略可以有效地豐富數(shù)據(jù)集,提升模型的訓(xùn)練精度,并減少出現(xiàn)過擬合問題的可能性[26]。

    使用Labelme 軟件對數(shù)據(jù)集中的原始圖像進(jìn)行標(biāo)注,并對目標(biāo)物體的外邊緣進(jìn)行輪廓勾畫,以獲得用于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的標(biāo)記數(shù)據(jù)集,數(shù)據(jù)標(biāo)注的類別為番茄真葉(Tomato leaf)、番茄子葉(Cotyledon leaf)、辣椒葉片(Pepper leaf)、茄子葉片(Eggplant leaf),原始圖像和標(biāo)注圖像如圖6 所示[27]。將數(shù)據(jù)集中劃分為訓(xùn)練集和測試集,每個(gè)文件夾中包括images 和labels,分別存放圖像和標(biāo)簽,比例8∶2[28-29]。標(biāo)注完的坐標(biāo)信息保存在JSON 格式的文件中, 由于要訓(xùn)練YOLOv5 和MASK R-CNN 網(wǎng)絡(luò)模型,所以要將標(biāo)注完的JSON 文件轉(zhuǎn)換成txt 文件和符合MASK R-CNN 模型的JSON 文件。

    2.3 環(huán)境配置

    本研究在配置為Intel Core i7-12650H 處理器、主頻2.3 GHz、運(yùn)行內(nèi)存16 GB、顯卡Nvidia 4060、顯存8 GB 及Windows 10 系統(tǒng)的筆記本電腦上展開。編程語言使用Python 3.8,并以PyTorch 深度學(xué)習(xí)框架為基礎(chǔ)來構(gòu)建實(shí)例分割模型,均方誤差函數(shù)曲線收斂后對模型進(jìn)行分析。

    在模型訓(xùn)練時(shí)將圖像分辨率統(tǒng)一裁剪成640 像素×480 像素,選用隨機(jī)梯度下降法優(yōu)化器,訓(xùn)練100個(gè)Epoch,設(shè)置批次大小5、初始學(xué)習(xí)率0.01,動(dòng)量參數(shù)和權(quán)值衰減參數(shù)分別設(shè)置0.937 和0.000 5。

    2.4 評價(jià)指標(biāo)

    在圖像分割任務(wù)中,評估算法的準(zhǔn)確性需要采用一系列評價(jià)指標(biāo)[30]。對于實(shí)例分割技術(shù)而言,通常使用類別平均精度mAP(mean average precision)作為主要評價(jià)指標(biāo)。其中,精確度Pprecision (precision)、召回率Rrecall(recall)及查準(zhǔn)率?查全率PR(precision-recall)曲線下的面積AP 是構(gòu)成mAP 的關(guān)鍵要素,高AP 值表示模型性能較佳。在圖像分割任務(wù)中,通常需要對不同類別進(jìn)行分割,mAP 則是各類別AP 的平均值,綜合衡量了模型在多個(gè)類別上的表現(xiàn)。

    式中 TP——被正確判定為正例樣本數(shù)量

    FP——錯(cuò)誤判定為正例樣本數(shù)量

    FN——被錯(cuò)誤判定為負(fù)例樣本數(shù)量

    3 試驗(yàn)結(jié)果及分析

    3.1 模型分割結(jié)果對比

    將原YOLOv5 網(wǎng)絡(luò)模型和改進(jìn)后獲得的YOLOv5-BiFormer 模型在205 張測試集上進(jìn)行試驗(yàn)對比,選擇同一張茄科植物葉片圖片進(jìn)行對比,以驗(yàn)證改進(jìn)網(wǎng)絡(luò)的實(shí)際分割效果,如圖7 所示。

    由圖7 可知,由于茄科植物的嫩芽目標(biāo)比較小,原YOLOv5 模型對于多目標(biāo)場景下的茄科植物嫩芽等小目標(biāo)分割能力較弱,出現(xiàn)分割不完整和小目標(biāo)丟失等現(xiàn)象。然而,經(jīng)過改進(jìn)的YOLOv5-BiFormer 模型在同樣的多目標(biāo)范圍下表現(xiàn)出更高的分割準(zhǔn)確性。這表明在考慮茄科植物葉片等小目標(biāo)的分割任務(wù)時(shí),采用了BiFormer 架構(gòu)的模型能夠更好地捕捉目標(biāo)的細(xì)節(jié)信息,從而取得了更令人滿意的結(jié)果。這個(gè)改進(jìn)不僅提升了嫩芽目標(biāo)的定位精度,還在整體場景中展現(xiàn)出更好的目標(biāo)分割能力。

    3.2 不同算法比較

    將基于YOLOv5 的YOLOv5-Biformer 模型與主流的實(shí)例分割網(wǎng)絡(luò)模型MASK R-CNN、YOLOv5s 進(jìn)行試驗(yàn)對比, 結(jié)果如表1 所示。通過表格可以看出,YOLOv5-Biformer 模型的平均精度比其他模型分別高25.2、1.0 個(gè)百分點(diǎn),推理速度分別減少50.2、25.1 ms。改進(jìn)后的YOLOv5-Biformer 提升效果顯著,足以滿足茄科植物葉片的實(shí)例分割。

    將各模型訓(xùn)練中的精確度、召回率、平均精度進(jìn)行對比,如圖8 所示,橫坐標(biāo)均為訓(xùn)練次數(shù),縱坐標(biāo)分別為精確度、召回率、平均精度的數(shù)值。由圖8 可知,隨著訓(xùn)練次數(shù)的增加,準(zhǔn)確率、召回率、精度數(shù)值都有所提升。在訓(xùn)練次數(shù)≤15,平均精度快速提升;訓(xùn)練次數(shù)≥30,改進(jìn)后的YOLOv5-Biformer 模型的平均精度超過了原YOLOv5s 模型,并始終比其他模型平均精度高。

    4 結(jié)束語

    為了解決在分割茄科植物葉片時(shí)小葉片和葉片遮擋導(dǎo)致的YOLOv5 模型不準(zhǔn)確的問題,本研究進(jìn)行了改進(jìn), 提出了YOLOv5-Biformer 的模型。在原始的YOLOv5 模型基礎(chǔ)上,引入了雙層路由注意力模塊,以一種動(dòng)態(tài)、查詢感知的方式來分配計(jì)算資源。核心模塊BRA 通過在粗區(qū)域級別上濾除最不相關(guān)的鍵值對,使模型能夠更精準(zhǔn)地選擇相關(guān)信息,從而提升了模型的效率和性能。

    根據(jù)茄科植物葉片在智能溫室環(huán)境中的特點(diǎn),本研究對比了不同網(wǎng)絡(luò)模型, 分別為MASK R-CNN、YOLOv5s。研究結(jié)果表明,本研究提出的YOLOv5-Biformer 模型在精確度、召回率和平均精度等指標(biāo)上都取得了顯著提升。相對于原始模型,YOLOv5-Biformer 模型的精確度提高0.5 個(gè)百分點(diǎn),召回率提高1.9 個(gè)百分點(diǎn),平均精度提高1 個(gè)百分點(diǎn)。此外,該模型的推理速度也有顯著的改善,減少25.1 ms。在實(shí)際智能溫室環(huán)境中,YOLOv5-Biformer 模型表現(xiàn)出色,其分割效果良好,能夠滿足實(shí)際需求。本研究成果為植物葉片的實(shí)例分割及智能農(nóng)業(yè)等領(lǐng)域的研發(fā)提供了有價(jià)值的參考。

    參考文獻(xiàn)

    [1]曹華.四季果蔬香 種出好“錢”景[N].新疆日報(bào)(漢),2022-09-06(1).

    [2]史彩娟,陳厚儒,張衛(wèi)明,等.圖像實(shí)例分割綜述[C]//中國高科技產(chǎn)業(yè)化研究會(huì)智能信息處理產(chǎn)業(yè)化分會(huì).第十四屆全國信號和智能信息處理與應(yīng)用學(xué)術(shù)會(huì)議論文集,2021.

    [3]周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2017,40(6):1229-1251.

    ZHOU Feiyan, JIN Linpeng, DONG Jun. Review of convolutionalneural network[J]. Chinese Journal of Computers, 2017, 40( 6) :1229-1251.

    [4]HARIHARAN B, ARBELáEZ P, GIRSHICK R, et al. Simultaneousdetection and segmentation[C]//Computer Vision–ECCV 2014:13th European Conference, Zurich, Switzerland, Proceedings, PartVII 13.Springer International Publishing,2014:297-312.

    [5]HE K, GKIOXARI G, DOLLáR P, et al. Mask R-CNN[C]//Proceedingsof the IEEE International Conference on Computer Vision,2017:2961-2969.

    [6]HUANG Z, HUANG L, GONG Y, et al. Mask scoring RCNN[C]//Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition,2019:6409-6418.

    [7]XIE E, SUN P, SONG X, et al. Polarmask: Single shot instancesegmentation with polar representation[C]//Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition,2020:12193-12202.

    [8]TIAN Z,SHEN C,CHEN H,et al.FCOS:fully convolutional onestageobject detection[J].2019.a(chǎn)rxiv:1904.01355.

    [9]ZHANG G,LU X,TAN J,et al.Refinemask:towards high-qualityinstance segmentation with fine-grained features[C]//Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition,2021:6861-6869.

    [10]WANG Y, XU Z, WANG X, et al. End-to-end video instance segmentationwith transformers[C]//Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition,2021:8741-8750.

    [11]王琢,汪雅婷,宋文龍,等.基于深度學(xué)習(xí)的葉片圖像分割算法[J].森林工程,2019,35(1):42-46.

    WANG Zhuo, WANG Yating, SONG Wenlong, et al. The leaf imagesegmentation algorithm based on deep learning[J].Forest Engineering,2019,35(1):42-46.

    [12]YANG X, CHEN A, ZHOU G, et al. Instance segmentation andclassification method for plant leaf images based on ISC-MRCNN andAPS-DCCNN[J].IEEE Access,2020,8:151555-151573.

    [13]PRAVEEN K J, DOMNIC S. Rosette plant segmentation with leafcount using orthogonal transform and deep convolutional neuralnetwork[J].Machine Vision and Applications,2020,31(1):6.

    [14]GUO R, QU L, NIU D, et al. Leafmask: towards greater accuracyon leaf segmentation[C]//Proceedings of the IEEE/CVF InternationalConference on Computer Vision,2021:1249-1258.

    [15]VAYSSADE J A, JONES G, GéE C, et al. Pixelwise instance segmentationof leaves in dense foliage[J]. Computers and Electronics inAgriculture,2022,195:106797.

    [16]李婧雯.基于光度立體和神經(jīng)網(wǎng)絡(luò)的植物葉片重建與分割[D].西安:西安工業(yè)大學(xué),2023.

    LI Jingwen. Reconstruction and segmentation of plant leaves based onphotometric stereo and neural networks[D].Xi'an:Xi'an TechnologicalUniversity,2023.

    [17]樊東燕.基于CNN 的植物葉片病害智能檢測系統(tǒng)算法設(shè)計(jì)與仿真[J].農(nóng)業(yè)技術(shù)與裝備,2022(11):36-37,40.

    FAN Dongyan. Design and simulation of plant leaf disease intelligentdetection system algorithm based on CNN[J].Agricultural Technologyamp; Equipment,2022(11):36-37,40.

    [18]JOCHER G, STOKEN A, CHAURASIA A, et al. Ultralytics/YOLOv5: v7.0 - YOLOv5 SOTA realtime instance segmentation[J].Zenodo,2021.

    [19]ZHU L,WANG X,KE Z,et al.Biformer:vision transformer withbi-level routing attention[C]//Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition,2023:10323-10333.

    [20]VASWANI A, SHAZEER N, PARMAR N, et al. Attention is allyou need[J]. Advances in Neural Information Processing Systems,2017,30.

    [21]REN S,ZHOU D,HE S,et al.Shunted self-attention via multi-scaletoken aggregation[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2022:10853-10862.

    [22]LI K,WANG Y,GAO P,et al.Uniformer:unified transformer forefficient spatiotemporal representation learning[J]. 2022. arxiv:2201.04676.

    [23]龔琴. 基于物聯(lián)網(wǎng)的溫室大棚智能監(jiān)控系統(tǒng)在農(nóng)業(yè)中的應(yīng)用[J].電腦與信息技術(shù),2022,30(1):53-56.

    GONG Qin. Application of greenhouse intelligent monitoring systembased on internet of things in agriculture[J].Computer and InformationTechnology,2022,30(1):53-56.

    [24]LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft coco: commonobjects in context[C]//Computer Vision–ECCV 2014: 13thEuropean Conference, Zurich, Switzerland, Proceedings, Part V13.Springer International Publishing,2014:740-755.

    [25]高友文,周本君,胡曉飛.基于數(shù)據(jù)增強(qiáng)的卷積神經(jīng)網(wǎng)絡(luò)圖像識(shí)別研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2018,28(8):62-65.

    GAO Youwen, ZHOU Benjun, HU Xiaofei. Research on image recognitionof convolution neural network based on data enhancement[J]. Computer Technology and Development, 2018, 28( 8) : 62-65.

    [26]SHORTEN C,KHOSHGOFTAAR T M.A survey on image data augmentationfor deep learning[J].Journal of BIG DATA,2019,6:60.

    [27]RUSSELL B C,TORRALBA A,MURPHY K P,et al.LabelMe:adatabase and web-based tool for image annotation[J]. InternationalJournal of Computer Vision,2008,77:157-173.

    [28]YU Y, ZHANG K, YANG L, et al. Fruit detection for strawberryharvesting robot in non-structural environment based on Mask-RCNN[J]. Computers and Electronics in Agriculture, 2019, 163:104846.

    [29]GONZALEZ S,ARELLANO C,TAPIA J E.Deepblueberry:quantificationof blueberries in the wild using instance segmentation[J].IeeeAccess,2019,7:105776-105788.

    [30]劉春燕.圖像分割評價(jià)方法研究[D].西安:西安電子科技大學(xué),2011.

    LIU Chunyan.Survey on evaluation methods of image segmentation algorithms[D].Xi'an:Xidian University,2011.

    基金項(xiàng)目: 新疆維吾爾自治區(qū)重大科技專項(xiàng)(2022A02011)

    猜你喜歡
    注意力機(jī)制溫室葉片
    月季葉片“雕刻師”
    現(xiàn)代溫室羊肚菌栽培技術(shù)
    蒼松溫室 蒼松灌溉
    蒼松溫室 蒼松灌溉
    兩種噴涂方法在TRT葉片上的對比應(yīng)用及研究
    基于深度學(xué)習(xí)的問題回答技術(shù)研究
    可以避免一個(gè)溫室化的地球嗎?
    英語文摘(2019年2期)2019-03-30 01:48:28
    基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
    基于注意力機(jī)制的雙向LSTM模型在中文商品評論情感分類中的研究
    軟件工程(2017年11期)2018-01-05 08:06:09
    InsunKBQA:一個(gè)基于知識(shí)庫的問答系統(tǒng)
    永宁县| 佛冈县| 龙门县| 永济市| 洪湖市| 米林县| 明光市| 天全县| 延吉市| 密山市| 台前县| 南川市| 铜陵市| 南昌县| 随州市| 崇义县| 枝江市| 迭部县| 绥棱县| 抚远县| 临泽县| 昌都县| 保定市| 七台河市| 稷山县| 庄浪县| 镇康县| 大方县| 喀什市| 洛浦县| 留坝县| 巴塘县| 上林县| 淮北市| 修武县| 鄯善县| 嘉鱼县| 噶尔县| 西藏| 上饶县| 泸水县|