申華磊 張 潔 劉 棟,2 麻巧迎,2 鄭國(guó)清 臧賀藏
(1.河南師范大學(xué)計(jì)算機(jī)與信息工程學(xué)院, 新鄉(xiāng) 453007; 2.河南省教育人工智能與個(gè)性化學(xué)習(xí)重點(diǎn)實(shí)驗(yàn)室, 新鄉(xiāng) 453007;3.河南省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)經(jīng)濟(jì)與信息研究所, 鄭州 450002; 4.農(nóng)業(yè)農(nóng)村部黃淮海智慧農(nóng)業(yè)技術(shù)重點(diǎn)實(shí)驗(yàn)室, 鄭州 450002)
小麥?zhǔn)俏覈?guó)重要的糧食作物,保持小麥的持續(xù)高產(chǎn)對(duì)維護(hù)我國(guó)糧食安全具有重要意義[1]。在小麥生長(zhǎng)過(guò)程中,麥苗株數(shù)是制約產(chǎn)量的關(guān)鍵因素,麥苗過(guò)于稀疏或稠密極大地影響小麥產(chǎn)量。因此,及時(shí)準(zhǔn)確地統(tǒng)計(jì)麥苗株數(shù)將為后續(xù)的出苗率估算、產(chǎn)量預(yù)測(cè)和籽粒品質(zhì)評(píng)估等生產(chǎn)環(huán)節(jié)提供重要科學(xué)依據(jù)[2]。
傳統(tǒng)的麥苗計(jì)數(shù)工作主要依賴(lài)于人工在田間進(jìn)行數(shù)苗,存在經(jīng)濟(jì)成本高、勞動(dòng)力消耗大和計(jì)數(shù)效率低等問(wèn)題,并且計(jì)數(shù)結(jié)果易受主觀因素影響。隨著深度學(xué)習(xí)的發(fā)展,使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)對(duì)象自動(dòng)計(jì)數(shù)正成為新的研究熱點(diǎn)。與人工數(shù)苗方法相比,使用深度神經(jīng)網(wǎng)絡(luò)對(duì)采集到的麥苗圖像進(jìn)行分析,進(jìn)而自動(dòng)檢測(cè)麥苗株數(shù),可打破時(shí)空限制和對(duì)農(nóng)業(yè)專(zhuān)家的依賴(lài),提高勞動(dòng)效率。
已有學(xué)者使用深度學(xué)習(xí)技術(shù)對(duì)細(xì)胞[3]、人群[4-6]、豬只[7-9]和麥穗[10-12]等目標(biāo)對(duì)象進(jìn)行計(jì)數(shù)。這些方法可被分為兩類(lèi):基于目標(biāo)檢測(cè)的方法和基于密度圖回歸的方法?;谀繕?biāo)檢測(cè)的方法主要使用YOLO、SSD和Faster R-CNN等檢測(cè)器對(duì)圖像中的目標(biāo)對(duì)象進(jìn)行檢測(cè)[13-15],之后得到目標(biāo)對(duì)象的數(shù)目。這類(lèi)方法不僅可以提供目標(biāo)對(duì)象的計(jì)數(shù)結(jié)果,還可以通過(guò)邊框提供目標(biāo)對(duì)象的位置信息。然而,這類(lèi)方法在訓(xùn)練階段需要標(biāo)注大量的目標(biāo)對(duì)象邊框作為標(biāo)簽[16];麥苗細(xì)小且相互之間存在遮擋、重疊和扭曲等現(xiàn)象,使得麥苗邊框標(biāo)注費(fèi)時(shí)費(fèi)力。同時(shí),根據(jù)麥苗點(diǎn)標(biāo)注結(jié)果自動(dòng)生成偽框圖的方法容易出錯(cuò),并需要手動(dòng)進(jìn)行后處理?;诿芏葓D回歸的方法[17-21]對(duì)目標(biāo)對(duì)象使用點(diǎn)標(biāo)注生成密度圖,以作為模型的學(xué)習(xí)目標(biāo),之后對(duì)模型預(yù)測(cè)出的密度圖求積分得到目標(biāo)對(duì)象的計(jì)數(shù)值。目前,具有代表性的方法有CSRNet[22]、CANet[23]、SCAR[24]、BL[25]和DM-Count[26]等。CSRNet使用空洞卷積以提高擁擠場(chǎng)景下的計(jì)數(shù)精度。CANet組合多個(gè)不同大小感受野獲得的特征以自適應(yīng)地對(duì)不同尺度的上下文信息進(jìn)行編碼。SCAR引入注意力機(jī)制以獲取像素和人群上下文之間的關(guān)聯(lián)信息。BL使用貝葉斯損失函數(shù),從點(diǎn)標(biāo)注構(gòu)建密度貢獻(xiàn)概率模型以彌補(bǔ)密度圖的不足。DM-Count將分布匹配用于計(jì)數(shù)任務(wù),并設(shè)計(jì)了新的優(yōu)化策略以度量真實(shí)值與預(yù)測(cè)值之間的相似性??傮w而言,這類(lèi)方法的麥苗標(biāo)注成本不高,但不能標(biāo)識(shí)出麥苗的準(zhǔn)確位置。這不利于種植規(guī)劃和良田培育等下游任務(wù);且易受透視圖失真的影響,導(dǎo)致模型的魯棒性不強(qiáng)。
SONG等[27]提出的P2PNet為目標(biāo)對(duì)象計(jì)數(shù)提供了新的解決方案。P2PNet直接將點(diǎn)標(biāo)注結(jié)果作為學(xué)習(xí)目標(biāo),之后預(yù)測(cè)出所有目標(biāo)對(duì)象的點(diǎn)坐標(biāo),從而得到計(jì)數(shù)結(jié)果。與上述兩類(lèi)計(jì)數(shù)方法相比,P2PNet不需要對(duì)訓(xùn)練樣本中的目標(biāo)對(duì)象進(jìn)行框標(biāo)注,也不需要通過(guò)點(diǎn)標(biāo)注生成偽密度圖或偽框圖間接得到學(xué)習(xí)目標(biāo)。這不僅顯著降低了訓(xùn)練樣本的標(biāo)注成本,還減少了間接生成學(xué)習(xí)目標(biāo)導(dǎo)致的模型計(jì)數(shù)性能下降的風(fēng)險(xiǎn)。并且,P2PNet可明確標(biāo)識(shí)出目標(biāo)對(duì)象的位置,更能滿(mǎn)足下游任務(wù)的應(yīng)用需求。由以上分析可知,P2PNet更適于復(fù)雜場(chǎng)景下的麥苗計(jì)數(shù)。
但是,P2PNet直接用于麥苗計(jì)數(shù)的性能較差。一方面,麥田中的枯葉、不同光照角度導(dǎo)致麥苗圖像出現(xiàn)不同方向和尺寸的陰影,為計(jì)數(shù)模型帶來(lái)干擾噪聲,嚴(yán)重影響P2PNet的性能。另一方面,麥田中土塊對(duì)麥苗的遮擋以及麥苗生長(zhǎng)稠密時(shí)葉片間的重疊,導(dǎo)致P2PNet的誤判。
農(nóng)業(yè)專(zhuān)家對(duì)麥苗人工計(jì)數(shù)時(shí),對(duì)于不易判別的困難樣本,通常根據(jù)麥苗的局部根莖信息、葉片發(fā)育的全局信息判斷麥苗為一株還是多株。受此啟發(fā),本文對(duì)P2PNet進(jìn)行改進(jìn),提出增強(qiáng)局部上下文監(jiān)督信息的麥苗計(jì)數(shù)模型P2P_Seg。首先,引入局部分割分支改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),以增強(qiáng)麥苗的局部上下文監(jiān)督信息,引導(dǎo)網(wǎng)絡(luò)的注意力到麥苗根莖部區(qū)域,并減弱上述雜物、光照和土塊等帶來(lái)的噪聲。之后,設(shè)計(jì)逐元素點(diǎn)乘機(jī)制融合分割分支提取到的麥苗局部根莖信息與基礎(chǔ)網(wǎng)絡(luò)提取到的葉片發(fā)育全局信息,以模仿農(nóng)業(yè)專(zhuān)家結(jié)合麥苗的根莖信息和葉片發(fā)育的全局信息應(yīng)對(duì)遮擋和重疊造成的計(jì)數(shù)困難。最后,將融合后的特征信息通過(guò)點(diǎn)回歸分支和分類(lèi)分支以預(yù)測(cè)麥苗的位置與株數(shù)。
實(shí)驗(yàn)地位于河南省現(xiàn)代農(nóng)業(yè)研究開(kāi)發(fā)基地的小麥實(shí)驗(yàn)區(qū),地處北緯35°00′28″,東經(jīng)113°41′48″,海拔為97 m。實(shí)驗(yàn)采用完全隨機(jī)區(qū)組設(shè)計(jì),播種日期為2021年10月15日,共有400個(gè)小區(qū),每個(gè)小區(qū)面積為36 m2。
研究數(shù)據(jù)主要通過(guò)數(shù)據(jù)采集、預(yù)處理、圖像標(biāo)注和數(shù)據(jù)集劃分4個(gè)步驟獲取。研究數(shù)據(jù)的主要制作流程如圖1所示。
圖1 研究數(shù)據(jù)制作流程圖
1.2.1數(shù)據(jù)采集
使用型號(hào)為HONOR 20 PRO的智能手機(jī)采集數(shù)據(jù),相機(jī)分辨率為4 800萬(wàn)像素,傳感器類(lèi)型為BSI CMOS,光圈f/2.2。拍攝時(shí)間為2021年11月,小麥正處于苗期。主要對(duì)使用1 m×1 m紅色矩形框標(biāo)出的目標(biāo)計(jì)數(shù)區(qū)域進(jìn)行采樣,共采集到317幅麥苗圖像,分辨率為4 000像素×3 000像素。剔除畫(huà)質(zhì)模糊或存在嚴(yán)重遮擋的圖像,共篩選出295幅圖像作為最初實(shí)驗(yàn)圖像。
1.2.2數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理的目的是對(duì)紅色矩形框外的非目標(biāo)計(jì)數(shù)區(qū)域進(jìn)行黑色填充和冗余剔除,其流程如圖2所示。為避免非目標(biāo)區(qū)域麥苗對(duì)計(jì)數(shù)結(jié)果的影響,使用預(yù)處理工具對(duì)非目標(biāo)區(qū)域進(jìn)行黑色填充。為避免后續(xù)用于數(shù)據(jù)增強(qiáng)的隨機(jī)裁剪操作可能得到大面積的非目標(biāo)計(jì)數(shù)區(qū)域,從而干擾目標(biāo)區(qū)域的計(jì)數(shù)結(jié)果,對(duì)非目標(biāo)區(qū)域進(jìn)行最大程度的冗余剔除。經(jīng)過(guò)以上兩個(gè)步驟,得到本文的最終實(shí)驗(yàn)圖像。
圖2 麥苗圖像預(yù)處理步驟
1.2.3圖像標(biāo)注
麥苗形態(tài)細(xì)小且易出現(xiàn)遮擋、重疊等現(xiàn)象,這使得基于框標(biāo)注的方法非常困難,因此采用成本較低、方便快捷的點(diǎn)標(biāo)注方法。一個(gè)點(diǎn)標(biāo)注表示對(duì)應(yīng)麥苗在圖像中的點(diǎn)坐標(biāo)。采用WANG等[28]開(kāi)發(fā)的標(biāo)注工具進(jìn)行數(shù)據(jù)集標(biāo)注。該標(biāo)注工具不僅能夠?qū)D像進(jìn)行分塊標(biāo)記,而且可對(duì)分塊區(qū)域進(jìn)行隨機(jī)縮放。對(duì)于麥苗圖像中較為稠密、遮擋和重疊較為嚴(yán)重的區(qū)域,使用該工具對(duì)其放大再進(jìn)行標(biāo)注,有效地提高了標(biāo)注速度與質(zhì)量。標(biāo)注區(qū)域?yàn)樘卣飨鄬?duì)明顯的麥苗根莖部,便于后續(xù)網(wǎng)絡(luò)的訓(xùn)練。
使用上述方法對(duì)295幅圖像進(jìn)行點(diǎn)標(biāo)注,共標(biāo)注32 237株麥苗。其中,單幅圖像總標(biāo)記點(diǎn)的最大值為321,最小值為18;平均每幅麥苗圖像約標(biāo)記109株麥苗。不同密度等級(jí)的麥苗標(biāo)注圖像如圖3所示。
圖3 不同密度等級(jí)的麥苗標(biāo)注圖像
1.2.4數(shù)據(jù)集劃分
經(jīng)過(guò)標(biāo)注可得到295幅最終實(shí)驗(yàn)圖像及對(duì)應(yīng)的標(biāo)注點(diǎn),它們共同構(gòu)成麥苗數(shù)據(jù)集。接著,按照比例6∶1∶3將麥苗數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。其中訓(xùn)練集、驗(yàn)證集和測(cè)試集分別含有177、29、89幅麥苗圖像。麥苗數(shù)據(jù)集劃分結(jié)果如表1所示。
表1 麥苗數(shù)據(jù)集劃分結(jié)果
P2PNet為目標(biāo)計(jì)數(shù)提供了新的解決方案,是一個(gè)基于點(diǎn)標(biāo)注的計(jì)數(shù)模型,以點(diǎn)的形式標(biāo)注出目標(biāo)對(duì)象的位置坐標(biāo),然后直接把標(biāo)注結(jié)果作為模型的學(xué)習(xí)目標(biāo)。P2PNet以VGG16_bn[29]為骨干網(wǎng)絡(luò),提取目標(biāo)對(duì)象的全局特征;之后將全局特征同時(shí)送入點(diǎn)回歸分支和分類(lèi)分支以分別生成目標(biāo)對(duì)象的候選點(diǎn)和每個(gè)候選點(diǎn)對(duì)應(yīng)的置信度分?jǐn)?shù);最后根據(jù)分類(lèi)結(jié)果從候選點(diǎn)中篩選出目標(biāo)對(duì)象的位置坐標(biāo)。位置坐標(biāo)的總數(shù)即為目標(biāo)對(duì)象的計(jì)數(shù)結(jié)果。
為減少光照、遮擋和重疊等因素對(duì)麥苗計(jì)數(shù)的影響,本文對(duì)P2PNet進(jìn)行改進(jìn),引入麥苗局部分割分支以增強(qiáng)麥苗局部上下文監(jiān)督信息,提出增強(qiáng)局部上下文監(jiān)督信息的麥苗計(jì)數(shù)模型P2P_Seg。其網(wǎng)絡(luò)架構(gòu)如圖4所示。首先,基礎(chǔ)網(wǎng)絡(luò)提取麥苗圖像的全局特征,得到全局特征圖F0。其次,麥苗局部分割分支生成局部特征圖F1,以提取麥苗局部上下文監(jiān)督信息。然后,特征融合模塊的逐元素點(diǎn)乘機(jī)制融合麥苗的全局信息與局部上下文信息,生成融合后的特征圖F2。最后,通過(guò)點(diǎn)回歸分支與分類(lèi)分支分別預(yù)測(cè)出麥苗的候選點(diǎn)位置坐標(biāo)及其對(duì)應(yīng)的置信度分?jǐn)?shù)。
圖4 P2P_Seg模型整體框架
上述基礎(chǔ)網(wǎng)絡(luò)、點(diǎn)回歸分支與分類(lèi)分支繼承自P2PNet。與P2PNet不同,為融合麥苗的局部根莖信息和全局葉片發(fā)育信息,以對(duì)抗光照、遮擋和重疊等因素的干擾,P2P_Seg從基礎(chǔ)網(wǎng)絡(luò)得到全局特征圖F0后,并未將其直接送入點(diǎn)回歸分支和分類(lèi)分支,而是引入麥苗局部分割分支以提取麥苗局部特征圖F1。將F0與F1融合后得到的特征圖F2作為點(diǎn)回歸分支與分類(lèi)分支的輸入,預(yù)測(cè)候選點(diǎn)位置坐標(biāo)及其對(duì)應(yīng)的置信度分?jǐn)?shù)。
麥苗局部分割分支旨在提取麥苗根莖部的局部上下文監(jiān)督信息,具有2個(gè)用途:①集中模型的注意力到點(diǎn)標(biāo)注的麥苗根莖部目標(biāo)區(qū)域,忽略光照導(dǎo)致的陰影和田間枯葉等噪聲的干擾。②當(dāng)麥苗標(biāo)注點(diǎn)位置被土塊等雜物遮擋時(shí),可以提供更多的上下文參考信息,提高模型的計(jì)數(shù)精度。麥苗局部分割分支包含的關(guān)鍵技術(shù)有麥苗局部分割圖生成和麥苗局部特征提取模塊設(shè)計(jì)。
2.3.1麥苗局部分割圖
麥苗局部分割圖是由點(diǎn)標(biāo)注結(jié)果生成的體現(xiàn)麥苗局部上下文監(jiān)督信息的圖像。該分割圖是麥苗局部分割分支的學(xué)習(xí)目標(biāo)。麥苗局部分割分支使得計(jì)數(shù)網(wǎng)絡(luò)在將點(diǎn)標(biāo)注作為學(xué)習(xí)對(duì)象的基礎(chǔ)上,又同時(shí)利用麥苗局部分割圖提取出麥苗局部上下文信息。這對(duì)計(jì)數(shù)網(wǎng)絡(luò)起到更強(qiáng)的監(jiān)督作用。
麥苗局部分割圖是二值圖像,圖像上每個(gè)像素的值為0或1。值為0的區(qū)域?yàn)榉躯溍绺o部目標(biāo)區(qū)域;值為1的區(qū)域?yàn)楸疚乃P(guān)注的麥苗根莖部目標(biāo)區(qū)域,即局部上下文監(jiān)督信息區(qū)域。給定一幅帶有N個(gè)點(diǎn)標(biāo)注的麥苗圖像,點(diǎn)標(biāo)注的位置在麥苗的根莖處,用P={pi|i∈{1,2,…,N}}表示該圖像內(nèi)所有麥苗的點(diǎn)標(biāo)注坐標(biāo),其中pi=(xi,yi)表示第i株麥苗的坐標(biāo)。分別生成N個(gè)以pi為圓心、σ為半徑的圓域;圓域內(nèi)的像素值為1、圓域外的像素值為0,從而得到麥苗局部分割圖G。圓域半徑σ決定了每株麥苗的根莖部目標(biāo)區(qū)域的大小。SHI等[30]通過(guò)將圖像分割成局部區(qū)域塊,提出了核估計(jì)器σpi,以估計(jì)目標(biāo)對(duì)象的尺寸。原始的核估計(jì)器σpi未考慮麥苗在整體圖像上的分布,可能會(huì)得到過(guò)大或過(guò)小的麥苗根莖部目標(biāo)區(qū)域,如圖5a所示。過(guò)大的麥苗根莖部目標(biāo)區(qū)域會(huì)引入額外的噪聲,過(guò)小的麥苗根莖部目標(biāo)區(qū)域不能充分表示上下文信息。因此,本文在原始核估計(jì)器σpi的基礎(chǔ)上,考慮麥苗的整體分布,對(duì)所有點(diǎn)標(biāo)注對(duì)應(yīng)的核估計(jì)器σpi求平均,得到了更適合估計(jì)麥苗根莖部目標(biāo)區(qū)域大小的圓域半徑σ,從而得到如圖5b所示的麥苗分割圖。上述麥苗局部分割圖G和圓域半徑σ的生成過(guò)程為
圖5 不同方法生成麥苗的局部分割圖
(1)
(2)
式中p——麥苗局部分割圖中的像素位置
pi——第i株麥苗的坐標(biāo)
‖p-pi‖——p與pi間的歐氏距離
2.3.2麥苗局部特征提取模塊
麥苗局部特征提取模塊是麥苗局部分割分支的重要組成部分,旨在生成局部特征圖F1。本文設(shè)計(jì)的麥苗局部特征提取模塊如圖6所示,主要由降維卷積單元和卷積層組成。
圖6 局部特征提取模塊
降維卷積單元的作用是在不改變輸入特征圖尺寸的前提下將其通道數(shù)減半,由連續(xù)2個(gè)3×3卷積層與ReLU激活函數(shù)交替組成。其中,第1個(gè)3×3卷積層將輸入特征圖的通道數(shù)減半;第2個(gè)3×3卷積層繼續(xù)提取深層特征,不改變特征圖的尺寸。為了提高網(wǎng)絡(luò)模型的非線性表達(dá)能力,每層卷積之后采用ReLU函數(shù)進(jìn)行非線性激活。同時(shí),在兩個(gè)卷積層之間使用殘差連接以對(duì)抗梯度消失。
麥苗局部特征提取模塊的輸入為16×16×256的全局特征圖F0。首先,F0經(jīng)過(guò)連續(xù)3次的降維卷積單元,其尺寸依次變?yōu)?6×16×128、16×16×64、16×16×32。接著,保持F0的尺寸不變,使用3×3卷積層將其通道數(shù)變?yōu)?,分別對(duì)應(yīng)麥苗根莖部和非麥苗根莖部的特征圖。這兩個(gè)特征圖拼接在一起,得到尺寸為16×16×2的局部特征圖F1。F1表征麥苗根莖部的高層語(yǔ)義信息,也是本文強(qiáng)調(diào)的麥苗局部上下文監(jiān)督信息。
局部特征圖F1的生成過(guò)程為
F1=f1(f(F0))
(3)
式中f(·)——連續(xù)3次的降維卷積單元操作
f1(·)——卷積函數(shù)
預(yù)測(cè)分割圖FG的生成過(guò)程為
FG=f1(f2(F1))
(4)
式中f2(·)——上采樣函數(shù)
如圖4所示,局部特征圖F1的作用有兩個(gè):F1用來(lái)與全局特征圖F0進(jìn)行融合,進(jìn)而實(shí)現(xiàn)麥苗局部上下文監(jiān)督信息與全局信息的融合;F1依次經(jīng)過(guò)8倍最近鄰插值法上采樣、3×3卷積層生成預(yù)測(cè)分割圖FG,從而在網(wǎng)絡(luò)訓(xùn)練階段實(shí)現(xiàn)對(duì)麥苗局部分割分支的優(yōu)化。上采樣使得預(yù)測(cè)分割圖FG的尺寸與麥苗局部分割圖的尺寸保持一致;3×3卷積層平滑上采樣產(chǎn)生的噪聲,以得到數(shù)學(xué)性質(zhì)更穩(wěn)定的特征表達(dá)。
本文設(shè)計(jì)的特征融合模塊如圖7所示。首先,將尺寸為16×16×2的局部特征圖F1送入一個(gè)softmax層,得到兩個(gè)尺寸為16×16的張量。每個(gè)張量的元素值被歸一化到[0,1],表示對(duì)應(yīng)每個(gè)像素被網(wǎng)絡(luò)判定為麥苗根莖部和非根莖部?jī)蓚€(gè)類(lèi)別的概率。其次,對(duì)表征局部上下文監(jiān)督信息的麥苗根莖部特征張量執(zhí)行repeat操作、復(fù)制256次,得到尺寸為16×16×256的新特征圖。最后,將新特征圖與全局特征圖F0逐元素點(diǎn)乘,得到融合后的特征圖F2。F2融合了麥苗的局部根莖信息與全局特征信息,進(jìn)一步增強(qiáng)網(wǎng)絡(luò)對(duì)麥苗的識(shí)別能力,從而有效提高麥苗計(jì)數(shù)的準(zhǔn)確率。
圖7 特征融合模塊
如圖4所示,為了更充分地訓(xùn)練P2P_Seg,分別對(duì)點(diǎn)回歸分支、分類(lèi)分支和麥苗局部分割分支設(shè)計(jì)了LP、LCE、LG損失函數(shù)。
點(diǎn)回歸分支預(yù)測(cè)出M個(gè)候選點(diǎn)坐標(biāo),分類(lèi)分支生成M個(gè)對(duì)應(yīng)的置信度分?jǐn)?shù)。在訓(xùn)練階段,首先使用SONG等[27]提出的一對(duì)一匹配策略對(duì)網(wǎng)絡(luò)生成的候選點(diǎn)坐標(biāo)與標(biāo)注點(diǎn)坐標(biāo)進(jìn)行一對(duì)一匹配。與標(biāo)注點(diǎn)坐標(biāo)匹配成功的N個(gè)候選點(diǎn)坐標(biāo)即為預(yù)測(cè)的麥苗位置坐標(biāo)。它們對(duì)應(yīng)的置信度分?jǐn)?shù)標(biāo)簽為1;剩余候選點(diǎn)坐標(biāo)被分類(lèi)為背景點(diǎn),這些背景點(diǎn)對(duì)應(yīng)的置信度分?jǐn)?shù)標(biāo)簽為0。這N個(gè)麥苗預(yù)測(cè)坐標(biāo)與真實(shí)標(biāo)注點(diǎn)坐標(biāo)之間的距離越小越好,因此使用歐氏距離優(yōu)化點(diǎn)回歸分支。分類(lèi)分支則使用交叉熵?fù)p失函數(shù)(Cross entropy loss function,CE)進(jìn)行優(yōu)化。點(diǎn)回歸分支的損失函數(shù)LP和分類(lèi)分支的損失函數(shù)LCE分別表示為
(5)
(6)
y——類(lèi)別標(biāo)簽,取0或1
分割分支生成的預(yù)測(cè)分割圖FG是像素級(jí)二分類(lèi)結(jié)果。為緩解前景類(lèi)與背景類(lèi)之間存在的樣本不平衡問(wèn)題,減少對(duì)計(jì)數(shù)精度的影響,本文引入SHI等[30]提出的逐像素加權(quán)焦點(diǎn)損失LG,即
(7)
(8)
式中w——權(quán)重
l——通道對(duì)應(yīng)的索引值,取0或1
G(l)——標(biāo)簽分割圖中上標(biāo)為l的通道形成的張量
f3(·)——對(duì)張量的所有元素值求算術(shù)平均函數(shù)
γ——超參數(shù),根據(jù)焦點(diǎn)損失(focal loss)[31]的推薦設(shè)置為2
f4(·)——對(duì)張量的所有元素值求和函數(shù)
組合上述點(diǎn)回歸分支、分類(lèi)分支和麥苗局部分割分支的損失函數(shù),得到總損失函數(shù)L為
L=LCE+λ1LP+λ2LG
(9)
式中λ1——超參數(shù),取0.002
λ2——超參數(shù),取0.005
實(shí)驗(yàn)使用的計(jì)算機(jī)配置為Intel(R)Core(TM)i7-10600 CPU@2.90 GHz;GPU為NVIDIA GeForce RTX3090,顯存容量為24 GB。實(shí)驗(yàn)使用PyTorch作為深度學(xué)習(xí)框架,設(shè)置訓(xùn)練批次為8、訓(xùn)練輪數(shù)為1 000、學(xué)習(xí)率為0.000 1,采用Adam算法進(jìn)行優(yōu)化?;A(chǔ)網(wǎng)絡(luò)在ImageNet上進(jìn)行了預(yù)訓(xùn)練,其訓(xùn)練學(xué)習(xí)率設(shè)置為0.000 01。采用隨機(jī)裁剪和隨機(jī)旋轉(zhuǎn)對(duì)訓(xùn)練樣本進(jìn)行數(shù)據(jù)增強(qiáng),每幅圖像被隨機(jī)裁剪為4份,每份尺寸為128像素×128像素。隨后,對(duì)裁剪后的圖像進(jìn)行概率為0.5的隨機(jī)旋轉(zhuǎn)。
使用平均絕對(duì)誤差(Mean absolute error, MAE)和均方根誤差(Root mean square error, RMSE)評(píng)價(jià)模型的性能。MAE用來(lái)衡量網(wǎng)絡(luò)的計(jì)數(shù)準(zhǔn)確率;其值越小,表明麥苗株數(shù)的預(yù)測(cè)值越接近真實(shí)值。RMSE用來(lái)衡量網(wǎng)絡(luò)的穩(wěn)定性;其值越小,表示網(wǎng)絡(luò)的穩(wěn)定性越強(qiáng)、魯棒性越好。
為評(píng)估不同麥苗根莖部區(qū)域?qū)溍缬?jì)數(shù)結(jié)果的影響,對(duì)比本文提出的圓域半徑σ生成方法和SHI等[30]提出的核估計(jì)器σpi生成方法所得到的不同麥苗局部分割圖對(duì)P2P_Seg計(jì)數(shù)性能的影響。實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同麥苗局部分割圖對(duì)P2P_Seg的影響
由表2可知,使用本文的麥苗局部分割圖作為麥苗局部分割分支的學(xué)習(xí)目標(biāo)時(shí),可得到更準(zhǔn)確的計(jì)數(shù)效果。這說(shuō)明本文提出的圓域半徑σ生成方法能得到尺寸更為合理的麥苗根莖部目標(biāo)區(qū)域,從而使得P2P_Seg的計(jì)數(shù)性能更好。
為進(jìn)一步驗(yàn)證P2P_Seg的性能,在自建麥苗數(shù)據(jù)集上與CSRNet、CANet、SCAR、BL、DM-Count和P2PNet進(jìn)行對(duì)比實(shí)驗(yàn)。其中,前5種方法為基于密度圖的計(jì)數(shù)方法,P2PNet為基于點(diǎn)標(biāo)注的計(jì)數(shù)方法。如表3所示,P2P_Seg的MAE為5.86,RMSE為7.68,與P2PNet相比分別降低0.74、1.78。同時(shí),與其他計(jì)數(shù)方法相比,P2P_Seg的兩種計(jì)數(shù)誤差亦最小。這說(shuō)明增強(qiáng)局部上下文監(jiān)督信息可以提高P2P_Seg對(duì)麥苗的識(shí)別能力,從而顯著提高計(jì)數(shù)精度。
表3 在麥苗數(shù)據(jù)集上不同方法實(shí)驗(yàn)結(jié)果對(duì)比
圖8展示了上述網(wǎng)絡(luò)在部分測(cè)試樣例上的可視化結(jié)果。圖8a為點(diǎn)標(biāo)注的結(jié)果,直接作為P2PNet與P2P_Seg的真實(shí)值。圖8b為由點(diǎn)標(biāo)注生成的密度圖像,作為基于密度圖計(jì)數(shù)方法的真實(shí)值。圖8c~8i分別為CSRNet、CANet、SCAR、BL、DM-Count、P2PNet、P2P_Seg的計(jì)數(shù)結(jié)果,通過(guò)密度圖進(jìn)行可視化展示;密度圖的顏色越深,說(shuō)明麥苗密度越大。這些基于密度圖方法的計(jì)數(shù)準(zhǔn)確率不高,生成的密度圖不能直接標(biāo)識(shí)出麥苗的位置,無(wú)法為下游任務(wù)提供更多的支撐信息。最后兩列分別為P2PNet和P2P_Seg的預(yù)測(cè)結(jié)果,這些結(jié)果均為更加直觀的麥苗坐標(biāo)。由于P2P_Seg引入了局部分割分支以增強(qiáng)局部上下文監(jiān)督信息,在對(duì)受遮擋、重疊和光照等因素影響的麥苗圖像計(jì)數(shù)時(shí),其預(yù)測(cè)值更接近真實(shí)值,計(jì)數(shù)誤差更小。從頂部第1行到底部第6行,圖像中麥苗逐漸由稀疏變得稠密,并且圖像中存在枯葉、光照導(dǎo)致的陰影等噪聲,給現(xiàn)有的計(jì)數(shù)網(wǎng)絡(luò)識(shí)別帶來(lái)了不小的挑戰(zhàn)。但是,本文提出的P2P_Seg通過(guò)增強(qiáng)局部上下文監(jiān)督信息,將注意力集中在麥苗根莖部,使其盡可能忽略其他噪聲,從而顯著提高了麥苗計(jì)數(shù)的準(zhǔn)確率。同時(shí),在處理不同稠密程度的麥苗圖像時(shí),P2P_Seg皆取得最好的計(jì)數(shù)結(jié)果,表現(xiàn)出更好的泛化性能。
圖8 不同方法計(jì)數(shù)結(jié)果可視化圖
為測(cè)試本文提出的P2P_Seg在實(shí)際大田環(huán)境下開(kāi)展麥苗自動(dòng)計(jì)數(shù)的性能,將訓(xùn)練好的模型在實(shí)際獲取的89幅大田圖像上進(jìn)行麥苗計(jì)數(shù)。表 4列出了部分大田圖像上的計(jì)數(shù)結(jié)果。這些圖像按照麥苗密度等級(jí)分為3類(lèi):密度偏小、密度中等和密度偏大。其中,圖像1~5為密度偏小麥苗圖像,圖像6~10為密度中等麥苗圖像,圖像11~15為密度偏大麥苗圖像。從表4中可以看出,P2P_Seg在所有密度等級(jí)大田麥苗圖像上都取得了最好的計(jì)數(shù)結(jié)果。
表4 部分大田圖像上不同方法麥苗計(jì)數(shù)結(jié)果對(duì)比
表5 不同密度等級(jí)麥苗圖像計(jì)數(shù)結(jié)果對(duì)比
表 5使用MAE和RMSE對(duì)這些計(jì)數(shù)結(jié)果進(jìn)行統(tǒng)計(jì)對(duì)比。在密度偏小大田麥苗圖像上,P2P_Seg的MAE和RMSE分別為2.80和3.16,在所有方法中最好。在密度中等大田麥苗圖像上,P2P_Seg的MAE和RMSE分別為4.20和5.12,在所有方法中最好。在密度偏大大田麥苗圖像上,P2P_Seg的MAE和RMSE分別為6.60和7.71,在所有方法中最好。
受成像角度、麥苗密度和雜物遮擋等因素的影響,P2P_Seg的計(jì)數(shù)結(jié)果存在誤計(jì)數(shù)和漏計(jì)數(shù)的情況。圖9展示了這些情況,其中誤計(jì)數(shù)區(qū)域用矩形標(biāo)識(shí)、漏計(jì)數(shù)區(qū)域用橢圓標(biāo)識(shí)。
誤計(jì)數(shù)的主要原因包括成像角度不佳、麥苗相互遮擋和雜物遮擋等。如圖9a所示,因?yàn)槌上穹较蚺c麥苗所在行平行,出現(xiàn)較嚴(yán)重的麥苗相互遮擋,從而出現(xiàn)誤計(jì)數(shù)(圖9a的區(qū)域①、②),盡管該區(qū)域的麥苗密度偏小。隨著麥苗稠密程度增加,麥苗相互遮擋變得嚴(yán)重,這會(huì)導(dǎo)致誤計(jì)數(shù),如圖9b的區(qū)域⑤和圖9c的區(qū)域⑤所示。此外,雜物遮擋致使麥苗根莖部未完全展露也會(huì)出現(xiàn)誤計(jì)數(shù)(圖9d的區(qū)域④)。
漏計(jì)數(shù)的主要原因包括麥苗相互遮擋、雜物遮擋和苗株細(xì)弱等。麥苗相互遮擋導(dǎo)致的漏計(jì)數(shù)現(xiàn)象較為普遍,如圖9b的區(qū)域①、②、⑥、⑦、⑧和圖9c的區(qū)域①、②、③、④、⑥所示。同時(shí),雜物遮擋導(dǎo)致的麥苗根莖部未完全展現(xiàn)(圖9d的區(qū)域①)或發(fā)育遲緩導(dǎo)致的苗株細(xì)弱(圖9d的區(qū)域③)也會(huì)引起漏計(jì)數(shù)。
(1)針對(duì)光照、遮擋和重疊等因素導(dǎo)致的現(xiàn)有計(jì)數(shù)模型性能受限問(wèn)題,提出增強(qiáng)局部上下文監(jiān)督信息的麥苗計(jì)數(shù)模型P2P_Seg。該模型在P2PNet的基礎(chǔ)上引入麥苗局部分割分支以獲取更多的麥苗局部上下文監(jiān)督信息,并使用逐元素點(diǎn)乘機(jī)制融合局部上下文監(jiān)督信息與基礎(chǔ)網(wǎng)絡(luò)提取的全局信息。對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)和專(zhuān)門(mén)設(shè)計(jì)的特征融合策略提高了模型的特征提取能力,增強(qiáng)了模型對(duì)光照、遮擋和重疊等因素的對(duì)抗能力,提高了模型的魯棒性,顯著減少了模型對(duì)麥苗的誤計(jì)和漏計(jì)。
(2)在自建麥苗數(shù)據(jù)集上,與其他主流計(jì)數(shù)方法進(jìn)行了對(duì)比實(shí)驗(yàn)。結(jié)果表明,P2P_Seg的MAE為5.86,RMSE為7.68;與P2PNet相比,分別降低0.74和1.78。同時(shí),與其他計(jì)數(shù)方法相比,P2P_Seg的兩種計(jì)數(shù)誤差亦最小,計(jì)數(shù)性能最好。
(3)在實(shí)際大田環(huán)境下進(jìn)行的麥苗自動(dòng)計(jì)數(shù)測(cè)試表明,P2P_Seg在密度偏小、密度中等和密度偏大3種等級(jí)的大田麥苗圖像上都取得了最好的計(jì)數(shù)結(jié)果。P2P_Seg能夠更準(zhǔn)確地預(yù)測(cè)出麥苗的株數(shù),可有效緩解傳統(tǒng)人工數(shù)苗費(fèi)時(shí)費(fèi)力的問(wèn)題。同時(shí),P2P_Seg還能預(yù)測(cè)出麥苗的位置,為種植規(guī)劃和良田培育等下游任務(wù)提供有效支撐信息,更有助于實(shí)際農(nóng)業(yè)生產(chǎn)。
農(nóng)業(yè)機(jī)械學(xué)報(bào)2023年7期