廖 娟 陳民慧 張 鍇 鄒 禹 張 順 朱德泉
(1.安徽農業(yè)大學工學院, 合肥 230036; 2.安徽農業(yè)大學智慧農業(yè)研究院, 合肥 230036;3.安徽省農業(yè)科學院水稻研究所, 合肥 230031)
隨著農業(yè)自動化、智能化技術的不斷發(fā)展,機器視覺技術已廣泛應用于作物生長信息獲取、病蟲害識別、農藥精準噴施、田間智能除草以及農業(yè)機械視覺導航等領域[1]。而作物植株的準確分割是機器視覺技術的關鍵步驟,但不同作物的外觀(如形狀、尺寸、姿態(tài)等)存在較大差異,且田間自然光照環(huán)境復雜,這些因素給作物植株圖像分割帶來了一定困難。
傳統(tǒng)的植株分割方法多通過提取目標特定圖像中顏色[2]、紋理[3]及幾何形狀[4]等淺層特征來區(qū)分作物植株與背景,但淺層特征通常缺乏表達高層語義的能力,在表征作物植株的特定信息方面具有局限性,從而導致傳統(tǒng)分割方法性能下降。相比傳統(tǒng)方法,深度學習技術憑借其卓越的特征學習能力,可在圖像語義分割中取得更好的分割結果,現(xiàn)已廣泛應用于農業(yè)領域[5]。段凌鳳等[6]提出了基于全卷積神經(jīng)網(wǎng)絡SegNet的大田稻穗分割算法,通過網(wǎng)絡訓練自動學習和提取稻穗圖像中深度特征,實現(xiàn)稻穗分割。MILIOTO等[7]構建了14通道的輸入圖像,提出了一種深度編-解碼的語義分割網(wǎng)絡,能夠實時分割作物和雜草。韓振浩等[8]基于全卷積神經(jīng)網(wǎng)絡U-Net[9],實現(xiàn)了果園圖像中果樹與道路的像素級平穩(wěn)分割。
基于深度學習的語義分割方法在作物植株分割應用中優(yōu)勢明顯,但其分割效果取決于網(wǎng)絡在訓練過程中能否學習到豐富的有用特征,其中,高層的語義特征包含更多抽象的語義信息,低層的語義特征包含較多的邊界紋理等信息[10]。然而,當前作物植株語義分割研究多用高層特征實現(xiàn)像素分類,忽略了低層特征,導致分割結果缺乏精確的邊緣信息。而邊緣作為分割目標的一個重要特征,能有效表征不同區(qū)域間語義信息。為獲取精細邊緣,XIE等[11]提出整體嵌套邊緣檢測網(wǎng)絡(Holistically-nested edge detection,HED),通過構建多層邊緣深度監(jiān)督,實現(xiàn)了利用卷積神經(jīng)網(wǎng)絡提取邊緣。CHENG等[12]提出了一種融合邊緣與區(qū)域語義信息的遙感圖像分割模型,通過單層的邊緣監(jiān)督,增強主干網(wǎng)絡對邊緣信息的感知,有效提高了小尺寸物體的分割精度。TAKIKAWA等[13]構建了一種并行卷積神經(jīng)網(wǎng)絡的語義分割模型,明確將邊緣信息作為單獨的處理分支,采用邊緣標簽監(jiān)督支路的優(yōu)化,以并行的方式處理信息,能夠對目標邊界產(chǎn)生更清晰的預測。但現(xiàn)有的結合邊緣信息的語義分割網(wǎng)絡缺少針對作物苗期植株分割的研究,且邊緣信息對于作物生長信息獲取、生長檢測等是不可或缺的數(shù)據(jù)依據(jù)。
針對作物苗期植株語義分割中邊緣信息缺失問題,本文提出一種同時關注目標植株語義信息和邊緣信息的作物苗期植株分割網(wǎng)絡模型,聯(lián)合邊緣檢測與區(qū)域語義分割任務,實現(xiàn)作物苗期圖像中植株與背景的精確分割。以U-Net為主干框架,基于HED中側邊深度監(jiān)督的思想構建邊緣感知模塊(Edge awareness module,EAM),并弱化邊緣深度監(jiān)督帶來的監(jiān)督?jīng)_突,引導網(wǎng)絡在提取植株區(qū)域的語義分割特征時,能夠關注植株的邊緣信息;基于空間空洞特征金字塔(Atrous spatial pyramid pooling,ASPP)結構[14]設計特征融合模塊(Feature fusion module,F(xiàn)FM),融合主干網(wǎng)絡中作物植株區(qū)域的語義分割特征和邊緣感知模塊中邊緣特征,以充分利用邊緣感知模塊獲取的豐富的邊緣語義信息,并利用聯(lián)合損失優(yōu)化整體網(wǎng)絡,最終實現(xiàn)具有精細邊緣的作物植株分割。
采用3個作物植株數(shù)據(jù)集開展實驗,數(shù)據(jù)集1為自制的田間水稻秧苗圖像數(shù)據(jù)集,圖像于2018年6月、2019年5月及2020年6月采集自安徽農業(yè)大學郭河實驗基地和安徽省農業(yè)科學院全椒實驗基地,水稻品種為雙季早秈稻,采集設備為Canon EOS 850D型相機,拍攝高度為0.5~1.5 m,拍攝垂直角度為0°~60°,取多個拍攝點,在不同光照條件下共采集圖像樣本560幅,圖像分辨率為3 456像素×2 304像素。數(shù)據(jù)集2和數(shù)據(jù)集3分別為公開的Plant Phenotyping Dataset[15]和Crop/Weed Field Image Datase[16],其中,數(shù)據(jù)集2共有原始圖像350幅,圖像分辨率為2 448像素×2 048像素,主要包含3種不同形態(tài)的植株圖像:葉少的Y形擬南芥幼苗135幅、長葉柄蓮座形態(tài)的擬南芥植株145幅和緊密的蓮座形態(tài)的煙草植株70幅。數(shù)據(jù)集3共有原始圖像60幅,圖像分辨率為1 296像素×966像素。圖1為3個數(shù)據(jù)集中部分樣本示例。為減少后續(xù)網(wǎng)絡訓練所占的內存和顯存,對數(shù)據(jù)集圖像進行壓縮處理,處理后圖像分辨率為416像素×416像素。
為增加數(shù)據(jù)集的多樣性,增強模型的泛化能力和魯棒性,采用5種圖像增強技術:亮度隨機減弱或增強、圖像對比度隨機增強、色度動態(tài)變化30%、添加高斯噪聲和圖像隨機旋轉(0°、90°、180° 、270°)。對數(shù)據(jù)增強后的圖像進行篩選,剔除植株信息嚴重缺失的圖像,篩選后的數(shù)據(jù)集1擴充至1 400幅,數(shù)據(jù)集2增加到1 424幅,數(shù)據(jù)集3增加到549幅。
將數(shù)據(jù)增強后的3個數(shù)據(jù)樣本按照7∶2∶1分為訓練集、驗證集和測試集,對應的統(tǒng)計表如表1所示。使用Labelme工具對數(shù)據(jù)集1分別進行手動標注水稻秧苗區(qū)域像素和邊緣像素,標注標簽分別是背景和植株,標注后生成8位PNG灰度圖,黑色為背景,白色為植株。而數(shù)據(jù)集2、3已公開了相應的語義分割標注圖,僅使用Labelme標注其邊緣像素。原圖和可視化標注結果如圖2所示。
表1 數(shù)據(jù)分類統(tǒng)計表Tab.1 Data classification statistics
語義分割網(wǎng)絡U-Net整體呈“U”形,通過跳躍連接的方式將特征圖進行維度拼接,能夠保留更多的位置和特征信息,在小樣本數(shù)據(jù)集上分割性能優(yōu)于其他網(wǎng)絡結構,且適合處理小尺寸物體的語義分割任務[17]。為此,本文在U-Net網(wǎng)絡模型基礎上搭建一個能共同學習目標的區(qū)域語義和邊緣特征的作物苗期植株分割網(wǎng)絡,網(wǎng)絡整體結構如圖3所示,主要包括主干網(wǎng)絡、邊緣感知模塊和特征融合模塊3部分,其中,主干網(wǎng)絡主要用于提取作物植株區(qū)域的語義分割特征;邊緣感知模塊(EAM)通過引入側面輸出,并采用圖像的邊緣標簽對其進行深度監(jiān)督,以提取作物植株的邊緣特征;特征融合模塊(FFM)主要用于融合植株區(qū)域的語義分割特征和邊緣特征,提高網(wǎng)絡檢測精度。
U-Net采用了編-解碼結構,編碼器主要用于提取圖像特征,經(jīng)過4次池化,獲取的特征尺寸逐漸縮小為輸入圖像尺寸的1/16。但原始U-Net網(wǎng)絡的參數(shù)較多,直接添加其他模塊易造成網(wǎng)絡參數(shù)量過大,網(wǎng)絡訓練困難[18],運行時間長,為實現(xiàn)田間作物苗期植株特征提取的低延遲,本文將深度可分離卷積(Depthwise separable convolution)[19]與U-Net網(wǎng)絡結構相結合。
如圖4所示,深度可分離卷積將標準卷積操作分解為逐深度卷積和逐點1×1卷積,通過逐深度卷積對每一個輸入通道進行單個卷積核的卷積運算,以保持輸入特征圖與輸出特征圖的通道數(shù)一致,然后用1×1逐點卷積組合不同深度卷積的輸出,實現(xiàn)通道數(shù)改變。深度可分離卷積與標準卷積的計算量比例公式定義為
(1)
式中Dk——深度可分離卷積的卷積核尺寸
M——輸入特征通道數(shù)
O——輸出特征通道數(shù)
相比于標準卷積層將所有卷積核都與每一個輸入特征通道進行計算,深度可分離卷積可有效地減少計算量和模型訓練參數(shù)。使用計算量小的深度可分離卷積層代替編碼器的標準卷積層,可實現(xiàn)U-Net的輕量化[20]。引入深度可分離卷積主干網(wǎng)絡的編碼器結構如表2中Stage1~Stage5所示。
解碼器部分的結構與原始U-Net相同,由表2中4個階段(Stage6~Stage9)組成,每個階段包含1層上采樣層、特征融合層和2層3×3的卷積,其中特征融合層分別融合上采樣后的特征層和編碼器中具有相應尺寸的特征層。為防止過擬合和抑制梯度消失,解碼器中各激活層(Rectified linear unit,ReLU)[21]前引入批歸一化層(Batch normalization,BN)[22],最后輸出尺寸為416像素×416像素×32通道的語義分割特征,記作S1。
針對區(qū)域語義分割網(wǎng)絡易導致分割后植株邊緣粗糙及邊緣信息丟失的問題,本研究基于HED的深度監(jiān)督策略構造邊緣感知模塊(EAM),在語義分割的基礎上,聯(lián)合邊緣分割任務,并利用邊緣標簽同區(qū)域語義標簽共同監(jiān)督網(wǎng)絡優(yōu)化。但2種不同的標簽監(jiān)督同時作用到網(wǎng)絡中,會引起監(jiān)督?jīng)_突,即邊緣標簽的監(jiān)督引導主干網(wǎng)絡通過捕獲圖像區(qū)域間的不連續(xù)性來定位精細的邊緣,而植株的語義分割標簽對網(wǎng)絡的監(jiān)督將會引導網(wǎng)絡通過識別目標類別的外觀變化獲取抽象的高級語義信息,2種不同的引導信息將導致網(wǎng)絡提取有用特征時發(fā)生沖突。
為弱化監(jiān)督?jīng)_突,LIU等[23]提出通過構建卷積模塊延長每一階段的輔助監(jiān)督到邊緣分割網(wǎng)絡的反向傳播距離,可緩沖2種不同梯度信號對邊緣分割網(wǎng)絡的監(jiān)督?jīng)_突。但由本文的主干網(wǎng)絡結構可知,U-Net的編碼器主要用于特征提取,解碼器用于特征融合和恢復圖像尺寸,對于目標特征的提取,編碼器占主導地位[9]。若將邊緣感知模塊直接構建在編碼器部分,邊緣監(jiān)督會干擾編碼器提取語義特征。為此,本研究在主干網(wǎng)絡的解碼器部分構建邊緣感知模塊,利用解碼器作為緩沖部分,減弱邊緣監(jiān)督對編碼器特征提取的沖突。邊緣感知模塊(EAM)如圖3所示,EAM包含5個邊緣特征提取分支,每個分支由一個殘差卷積塊(Residual convolution,RC)[24]、上采樣層和1×1卷積層構成,其中RC結構如圖5所示。EAM對主干網(wǎng)絡解碼器的每個階段均引出側層輸出,通過每個邊緣特征提取分支獲取側層邊緣特征,并利用邊緣標簽對側層邊緣特征進行監(jiān)督,且每個分支的卷積層延長了邊緣監(jiān)督到解碼器的梯度信號反向傳播路徑,起到緩解邊緣監(jiān)督對解碼器網(wǎng)絡優(yōu)化的沖突作用。由反向傳播機制可知,每個分支的輸出層參數(shù)通過權值誤差傳播路徑的反向傳播來更新,每一階段的側層深度監(jiān)督使得每一級的側邊網(wǎng)絡層分別在不同的尺度上提取邊緣特征。因此,多層的深度監(jiān)督將獲取不同尺度的邊緣特征,將每個分支提取的側層邊緣特征經(jīng)過融合層堆疊融合,經(jīng)過1×1卷積恢復通道數(shù)獲得邊緣感知輸出特征,記作E1,同時采用邊緣標簽進行深度監(jiān)督,經(jīng)過Sigmoid層輸出尺寸為416像素×416像素×2通道的邊緣預測圖。
表2 主干網(wǎng)絡卷積層結構Tab.2 Convolutional layer structure of backbone network
邊緣感知模塊可提取豐富的邊緣特征,如只在訓練過程中依靠邊緣感知模塊來修正主干網(wǎng)絡提取的植株區(qū)域語義特征,會遺失邊緣感知模塊提取的邊緣特征信息。為充分利用邊緣感知模塊提取的邊緣特征,進一步獲取邊緣信息完整的植株區(qū)域分割特征,提高分割效果,本文構建空間特征金字塔結構(ASPP)的特征融合模塊(FFM),融合主干網(wǎng)絡輸出的植株語義區(qū)域特征和邊緣感知模塊輸出的邊緣特征,其結構見圖3。
在ASPP中使用擴張率為1、6、12和18的空洞卷積和平均池化操作,空洞卷積根據(jù)擴張率對卷積核的大小進行空洞填充擴張,增大卷積感受野的同時不引入額外的參數(shù)。例如,擴張率為2的3×3卷積可以達到與5×5卷積相同的感受野。不同擴張率的空洞卷積操作可以獲取不同分辨率下的特征,可實現(xiàn)在多個尺度上捕獲目標語義信息和上下文的語義信息,記獲取包含上下文的多尺度特征為F1。為彌補空洞卷積中丟失的語義信息,將獲取的多尺度特征與S1、E1進行堆疊融合,并通過2層3×3的卷積操作細化特征,使用1×1卷積恢復特征通道數(shù),獲取的特征尺寸為416像素×416像素×2通道,經(jīng)過Sigmoid函數(shù)輸出分割預測圖P,其融合過程表達式為
P=σ(Conv(S1⊕E1)⊕F1)
(2)
其中
F1=ASPP(S1)
式中 ASPP——空間空洞卷積函數(shù)
⊕——特征按通道堆疊
Conv(·)——卷積運算函數(shù)
σ(·)——Sigmoid函數(shù)
本文訓練過程中采用聯(lián)合損失函數(shù)完成網(wǎng)絡參數(shù)優(yōu)化,損失函數(shù)定義為特征融合模塊(FFM)損失與邊緣感知模塊(EAM)損失的聯(lián)合損失,表達式為
lLoss=lseg+ledg
(3)
式中l(wèi)seg——FFM預測結果的損失值
ledg——EAM預測結果的損失值
lLoss——聯(lián)合損失函數(shù)的損失值
lseg采用二分類交叉熵損失函數(shù)(Binary cross entropy,BCE)和MIOU損失函數(shù)的混合損失函數(shù)進行計算,定義為
lseg=lbce+lmiou
(4)
式中l(wèi)bce——二分類交叉熵損失函數(shù)的損失值
lmiou——MIOU損失函數(shù)的損失值
二分類交叉熵損失函數(shù)lbce是二分類分割中應用最廣泛的損失,計算式為
(5)
式中N——總樣本個數(shù)
yi,j——語義分割標簽圖(i,j)處的像素值
(i,j)——圖像位置坐標
其中(i,j)∈(W,H),W、H分別是圖像的寬度、高度;i,j∈(0,1),yi,j∈{0,1},語義分割標簽圖中背景像素值為0,作物像素值為1。
MIOU損失可以衡量2個集合的相似度,已有研究[25]證明,當分割前景與背景相差較大時,MIOU的損失函數(shù)可取得較好的效果。而作物苗期植株圖像中,背景所占區(qū)域較大,前景植株所占區(qū)域較少,導致前景像素與背景像素的占比失衡,無法獲取良好的分割結果。因此,采用MIOU的損失函數(shù)可有效改善背景與前景植株所占像素不平衡帶來的訓練困難。MIOU的損失函數(shù)定義為
(6)
邊緣感知模塊的損失函數(shù)定義為EAM的5個側層輸出和最終EAM輸出的平均值。
(7)
式中K——輸出層總數(shù)
l(k)——第k層側層輸出的損失值
由邊緣感知模塊結構知K=6,包括5個側層輸出和1個邊緣感知輸出的融合層輸出。
由于邊緣感知模塊源于HED邊緣檢測網(wǎng)絡,可采用HED網(wǎng)絡中加權交叉熵函數(shù)定義l(k)。但植株圖像中邊緣像素占比較小,加權交叉熵損失函數(shù)未考慮到邊緣像素的鄰域信息。文獻[26]表明結構相似性損失SSIM(Structural similarity,SSIM)可賦予邊緣更高的權重,在訓練初始時會使得沿著邊緣的損失值最大,以有助于網(wǎng)絡訓練時更多地集中于邊緣部分的優(yōu)化。因此,本文在構建邊緣感知模塊損失函數(shù)時引入結構相似性損失SSIM,采用7×7滑動窗口從邊緣預測圖和邊緣標簽中選取對應圖像塊,記作={r:r=1,2,…,M2}和x={xr:r=1,2,…,M2},則結構相似性損失函數(shù)定義為
(8)
μx、x——x、的平均值
σx、σ——x、的標準偏差
σx——x與的協(xié)方差
第k層側層輸出的損失值計算式為
(9)
其中
(10)
(11)
β——邊緣標簽圖中邊緣像素與非邊緣像素的比值
Y-——邊緣標簽圖的邊緣像素集合
Y+——邊緣標簽圖中的非邊緣像素集合
aj——邊緣預測圖在像素j處的像素值
bj——邊緣標簽圖在像素j處的像素值
實驗設備選用Intel(R)-Xeon(R) CPU E5-2699 v3,2.30 GHz,GPU選用NVIDIA Quadro P2000,顯存5 GB。軟件環(huán)境為Windows 64位操作系統(tǒng),使用Python作為編程語言,使用Tensorflow作為深度學習框架。
網(wǎng)絡訓練中采用分批次(batch)訓練方法,將訓練集和驗證集分成多個批次訓練,所有訓練集圖像在網(wǎng)絡模型中完成遍歷計算即為一次迭代(epoch)。網(wǎng)絡模型初始化采用加載預訓練的權重初始化主干網(wǎng)絡。初始學習率為0.001,采用Adam算法優(yōu)化,計算每個權重參數(shù)的自適應學習率。
本文采用的評價標準主要包括像素準確率(Pixel accuracy,PA)、平均交并比(Mean intersection over union,MIOU)、精準率(Precision,P)和F1值(F1)。其中,PA定義為預測類別正確的像素數(shù)占總像素數(shù)的比例,MIOU為預測的結果和真實值的交集和并集之比,P表示為預測分割目標類別正確的像素準確率,F(xiàn)1值(F1)為綜合考慮召回率和精準率的平衡指標,同時兼顧分割的精準程度和完整性,且召回率可以反映真實標簽為分割目標的像素被正確分割的比例,衡量分割區(qū)域的完整性。
3.3.1不同分割模型性能對比分析
基于測試集樣本數(shù)據(jù)分別對本文網(wǎng)絡與U-Net、SegNet、PSPNet、DeepLabV3進行性能測試,表3為5種網(wǎng)絡分割性能參數(shù)對比結果。由表3可知,本文設計的植株分割網(wǎng)絡分割性能最優(yōu),對數(shù)據(jù)集1,其各項指標較U-Net、SegNet、PSPNet、DeepLabV3均有提高,其中,MIOU較U-Net提高了0.019;對數(shù)據(jù)集2,本文網(wǎng)絡在MIOU評價指標上達到0.932,F(xiàn)1值為0.978,相較于目前最為先進的DeepLabV3網(wǎng)絡模型,分別提高了0.041、0.042;對數(shù)據(jù)集3,圖像中目標植株較多且細小,圖像的細節(jié)信息更復雜,本文網(wǎng)絡較U-Net網(wǎng)絡,MIOU提高了0.07,PA提高了0.123??梢姡疚木W(wǎng)絡中邊緣感知模塊和特征融合模塊的設計,能夠促使網(wǎng)絡在訓練過程中學習到更多的細節(jié)信息,獲取較好的植株分割性能。此外,本文基于深度可分離卷積對主干網(wǎng)絡進行了輕量化設計,本文網(wǎng)絡參數(shù)共9.6×106個,而原始U-Net的網(wǎng)絡參數(shù)為2.42×107個,且對單幀圖像的平均檢測速度比本文網(wǎng)絡低32%,表明本文網(wǎng)絡具有參數(shù)規(guī)模小、實時性高的特點,適合應用于硬件系統(tǒng)資源有限的智能農業(yè)設備。
表3 不同模型作物植株分割比較Tab.3 Performance comparison of different segmentation models
圖6為不同網(wǎng)絡模型的分割效果,前5幅測試圖來源于數(shù)據(jù)集1、2、3,后2幅玉米苗期圖不同于訓練集,用于驗證網(wǎng)絡的泛化性。由圖6可知,U-Net網(wǎng)絡雖可分割出較全的植株區(qū)域,但易將背景像素錯誤分類為植株像素,不利于后續(xù)的植株定位、生長檢測等。SegNet存在嚴重的邊緣信息缺失,且對于細小區(qū)域的像素如植株莖部位難以準確分割,尤其是對包含細節(jié)信息較多的數(shù)據(jù)集3的分割效果較差,無法分割出完整植株。DeepLabV3和PSPNet的分割結果存在明顯的邊緣粗糙和邊緣信息缺失問題。而本文網(wǎng)絡在3個數(shù)據(jù)集及玉米苗期圖像都可正確地分割出植株,且植株邊緣信息能較好地保留,表明網(wǎng)絡中邊緣標簽監(jiān)督能在網(wǎng)絡訓練過程中增加植株邊緣的約束條件,具有更好的高層語義和低層邊緣特征提取能力,避免背景誤分割為植株。
3.3.2EAM與FFM對網(wǎng)絡分割性能的影響
為了驗證本文設計的植株分割網(wǎng)絡中EAM、FFM的有效性,基于測試集樣本數(shù)據(jù)分別對主干網(wǎng)絡、主干網(wǎng)絡+EAM及主干網(wǎng)絡+EAM+FFM 3種結構進行性能測試,表4為3種結構性能參數(shù)對比結果。由表4可知,主干網(wǎng)絡+EAM和主干網(wǎng)絡+EAM+FFM在3個數(shù)據(jù)集上各項評價指標均優(yōu)于主干網(wǎng)絡,其中主干網(wǎng)絡+EAM+FFM結構在3個數(shù)據(jù)集上獲得的MIOU相對于主干網(wǎng)絡分別提升了0.024、0.029、0.047。表明將邊緣檢測任務與語義分割任務進行聯(lián)合訓練,邊緣感知模塊對語義分割網(wǎng)絡產(chǎn)生正向的效果,能夠增加分割網(wǎng)絡對邊緣信息的感知,有效改善語義分割的結果。
為了更直觀展示FFM模塊對邊緣信息與區(qū)域語義信息的融合作用,圖7給出了主干網(wǎng)絡+EAM和主干網(wǎng)絡+EAM+FFM的分割效果圖,其中,圖7e為邊緣疊加圖,右下角為圖中標記框的放大顯示,圖中綠色、藍色、紅色分別代表標簽邊緣、主干網(wǎng)絡+EAM分割結果邊緣及主干網(wǎng)絡+EAM+FFM分割結果邊緣。對比邊緣線可見,紅色邊緣線比藍色線更加逼近綠色邊緣線,結合表4中的數(shù)據(jù),主干網(wǎng)絡+EAM+FFM的分割性能較主干網(wǎng)絡+EAM有進一步提升,表明特征融合模塊FFM可充分利用邊緣感知模塊提取的邊緣特征信息來彌補主干網(wǎng)絡提取的特征中遺失的細節(jié)邊緣信息,獲取更完整的邊緣信息,從而得到具有精細邊緣的分割結果,提高分割精度。
表4 不同結構對測試圖像的分割性能比較Tab.4 Performance comparison of different modules on testing images
3.3.3損失函數(shù)對網(wǎng)絡分割性能的影響
網(wǎng)絡訓練過程中,損失函數(shù)通過對預測結果和標簽數(shù)據(jù)產(chǎn)生的誤差反向傳播指導網(wǎng)絡參數(shù)學習。為驗證本文設計的聯(lián)合損失函數(shù)的有效性,對網(wǎng)絡的損失函數(shù)進行相關的消融實驗。聯(lián)合損失函數(shù)分別定義為
lLoss1=lbce+lhed
(12)
lLoss2=lbce+lhed+lssim
(13)
lLoss3=lbce+lmiou+lhed+lssim
(14)
其中,lLoss3為本文設計的聯(lián)合損失函數(shù)。以3.2節(jié)中提及的評價指標,對比本文設計的分割網(wǎng)絡在3種損失函數(shù)下各數(shù)據(jù)集的分割性能如表5所示。由表5可見,在3個數(shù)據(jù)集上,lLoss2的MIOU比lLoss1高0.007~0.014,證實將SSIM損失函數(shù)項引入邊緣感知模塊,邊緣感知模塊可獲取更豐富的邊緣特征,引導主干網(wǎng)絡關注植株的邊緣信息,提高網(wǎng)絡整體的分割效果;進一步引入MIOU損失函數(shù)后,在數(shù)據(jù)集1上,F(xiàn)1值、P、PA雖因人工標注誤差存在而無提升,但MIOU提升0.004,且對于數(shù)據(jù)集2、3,在各評價指標上均有提升,最高提升0.021,表明在SSIM、MIOU損失函數(shù)項的共同作用下lLoss3能有效提升網(wǎng)絡分割性能。
表5 不同Loss函數(shù)對測試圖像的分割性能比較Tab.5 Performance comparison of different Loss functions on testing images
3.3.4不同算法的邊緣檢測性能對比
為衡量本文構建的網(wǎng)絡模型在提取苗期植株邊緣上的性能,將本文構建的網(wǎng)絡模型獲取的邊緣結果與HED邊緣檢測模型和Canny算子獲取的邊緣結果進行對比,其中,量化評價指標為F1值、P和平均絕對誤差(Mean absolute error,MAE)。MAE表示邊緣預測圖與邊緣標簽圖之間的絕對像素誤差,定義式為
(15)
式中EMAE——絕對像素誤差
S(i,j)——邊緣預測圖在像素坐標(i,j)處的像素值
G(i,j)——邊緣標簽圖在像素坐標(i,j)處的像素值
圖8為本文網(wǎng)絡及HED和Canny算子在測試集及玉米苗期植株的邊緣分割結果??梢?,對于僅有邊緣檢測任務的HED網(wǎng)絡,由于缺少區(qū)域語義信息的補充,檢測的植株邊緣斷裂,造成邊緣信息缺失。Canny算子基于淺層特征區(qū)分植株邊緣和非植株邊緣,易將非植株邊緣誤檢為植株邊緣,且邊緣細化效果差。而本文網(wǎng)絡對3個測試集均可獲取準確的植株邊緣,且邊緣細化效果較好,如表6所示,本文網(wǎng)絡對3個測試集的邊緣檢測精準率均在0.9以上,且MAE低于HED和Canny算子,表明邊緣檢測任務與語義分割任務的聯(lián)合訓練,能夠有效提高作物苗期植株邊緣細化效果,彌補區(qū)域語義分割中的邊緣缺失問題。此外,本文網(wǎng)絡對未經(jīng)訓練的玉米苗期植株也可獲取完整的邊緣,具有良好的泛化性。
(1)以U-Net構建主干網(wǎng)絡,通過側邊深度監(jiān)督策略構建具有緩沖單元的邊緣感知模塊,緩沖兩種監(jiān)督?jīng)_突,并增強網(wǎng)絡特征提取過程中對植株邊緣的感知能力;基于空間特征金字塔結構構建特征融合模塊,充分融合區(qū)域語義特征和邊緣特征,融合后的特征圖中具有更強的植株區(qū)域語義信息和淺層細節(jié)信息,有效提高了作物植株分割精度和邊緣細化效果。
表6 不同算法的邊緣分割性能比較Tab.6 Performance comparison of different methods on edge segmentation
(2)將邊緣感知模塊損失函數(shù)和特征融合模塊損失函數(shù)聯(lián)合,構建聯(lián)合損失函數(shù),用于整體網(wǎng)絡參數(shù)的學習優(yōu)化,進一步提高網(wǎng)絡分割精度。與當前主流的分割模型U-Net、SegNet、PSPNet、DeepLabV3對比,對不同數(shù)據(jù)集的作物植株的語義分割像素準確率高達0.962,平均交并比達到0.932,具有良好的植株分割效果和泛化能力。在后續(xù)的研究中將對緩沖邊緣感知模塊對主干網(wǎng)絡的監(jiān)督?jīng)_突做進一步研究,以及研究網(wǎng)絡的輕量化,在保證網(wǎng)絡模型分割精度基礎上提高其效率。