摘要: 【目的】針對監(jiān)控圖像中飼料區(qū)域結(jié)構(gòu)較長、邊界模糊,且形狀與尺寸復雜多變等特點,本研究旨在更準確地分割飼料殘余區(qū)域與消耗區(qū)域,以達到準確監(jiān)測飼料消耗狀態(tài)的目的?!痉椒ā勘狙芯刻岢隽嘶赟win-Unet 的語義分割模型,其在Swin Transformer 塊的開始階段應用ConvNeXt 塊,增強模型對特征信息的編碼能力,以提供更好的特征表示,并利用深度卷積替換線性注意力映射,以提供局部空間上下文信息。同時提出了新穎的寬范圍感受野模塊來代替多層感知機,以豐富多尺度空間上下文信息。此外在編碼器的開始階段,將線性嵌入層替換為卷積嵌入層,通過分階段壓縮特征,在塊之間和內(nèi)部引入更多的空間上下文信息。最后引入多尺度輸入策略、深度監(jiān)督策略,并提出了特征融合模塊,以加強特征融合?!窘Y(jié)果】所提出方法的平均交并比、準確率、F1 分數(shù)與運行速度分別為86.46%、98.60%、92.29% 和23 幀/s,相較于Swin-Unet,分別提高4.36、2.90、0.65 個百分點和15%。【結(jié)論】基于圖像語義分割的方法應用于飼料消耗狀態(tài)的自動監(jiān)測是可行的,該方法通過將卷積引入Swin-Unet,有效地提高了分割精度與計算效率,對提升生產(chǎn)管理效率具有重要意義。
關(guān)鍵詞: 飼料消耗;自動監(jiān)測;語義分割;Swin Transformer;奶牛;深度卷積
中圖分類號: S24;TP391 文獻標志碼: A 文章編號: 1001-411X(2024)05-0754-10
飼料作為奶牛重要的營養(yǎng)來源,監(jiān)測飼料消耗狀態(tài)對保障奶牛健康和提高生產(chǎn)管理效率具有重要意義。當前,主要以人工目測的方式來監(jiān)測飼料的消耗狀態(tài),存在工作量大、人力成本高和效率低等問題。同時,由于人工目測的局限性,巡視頻率和準確率難以保障。隨著畜牧業(yè)規(guī)模的不斷擴大,規(guī)?;?、集約化養(yǎng)殖日益成為趨勢[1],給傳統(tǒng)的依賴人工目測的巡視方式帶來了巨大的挑戰(zhàn)。該研究提出利用監(jiān)控攝像頭結(jié)合基于深度學習的圖像語義分割技術(shù)計算飼料消耗區(qū)域的占比,以達到自動監(jiān)測飼料消耗狀態(tài)的目的。在實際應用中,監(jiān)控圖像中飼料區(qū)域結(jié)構(gòu)較長、邊界模糊,且形狀與尺寸復雜多變,難以精確分割飼料消耗區(qū)域與殘余區(qū)域的邊界,導致出現(xiàn)過度分割和分割不足的現(xiàn)象,影響飼料消耗狀態(tài)的監(jiān)測值。
由于卷積算子固有的局部性,以卷積神經(jīng)網(wǎng)絡(Convolutional neural network,CNN) 為主干的Unet[2] 及其變體[3-7] 難以對圖像內(nèi)的遠距離語義依賴關(guān)系進行建模,因此無法有效分割具有挑戰(zhàn)性的器官邊界。為了更好地對全局上下文信息進行建模,研究人員提出引入注意力機制以及用來擴大卷積核感受野的空洞卷積核。然而,這些方法都會增加計算復雜度。此外,使用較大空洞率的卷積核可能會導致邊界信息的丟失或模糊。
鑒于視覺Transformer (Vision transformer,ViT)[8] 模型在全局上下文信息捕獲方面具有明顯的優(yōu)勢,創(chuàng)建Transformer-CNN 的混合語義分割模型成為主流。然而,用于語義分割的Transformer 都很龐大,并且依賴于經(jīng)典視覺任務的預訓練權(quán)重來適應分割任務,因此Transformer-CNN 的混合模型[9-12]又會使模型變得龐大且計算復雜。最近的研究[13-20]已轉(zhuǎn)向使用Transformer 作為構(gòu)建整個分割架構(gòu)的主干,以減輕計算負擔,但都未嘗試在Transformer的低級特征提取階段對局部空間上下文進行建模。Swin-Unet[15] 是基于純Transformer 的語義分割模型中最具有代表性的,其使用Swin Transformer[21]提出的移位窗口機制以分層提取特征,極大地降低了傳統(tǒng)自注意力的二次復雜度,同時實現(xiàn)了更好的性能,但由于其使用包含線性注意力映射和線性多層感知機(Multi-layer perceptron,MLP) 的標準Swin Transformer 塊來處理數(shù)據(jù),因此其創(chuàng)建的特征表示本質(zhì)上是線性的,缺乏對局部空間信息的有效處理,無法充分挖掘局部信息,難以精確分割飼料消耗區(qū)域與殘余區(qū)域的邊界。
鑒于現(xiàn)有方法的不足,為使Swin Transformer更好地對局部信息進行建模,更準確地分割飼料區(qū)域的邊界,本研究將卷積引入Transformer 塊,以更好地建模局部信息,從而加強對飼料邊界的精確分割。
1 基于Swin-Unet 的語義分割網(wǎng)絡
1.1 網(wǎng)絡整體框架
改進的Swin-Unet (Improved Swin-Unet,ISwin-Unet) 整體框架如圖1 所示,呈對稱的U 形結(jié)構(gòu)。
模型輸入輸出分辨率為H×W×3 的2D 圖像。H、W 和3 分別表示輸入輸出圖像的高度、寬度和通道數(shù)。首先,提出了卷積嵌入(Convolutionalembedding,CE) 層,進入編碼器的輸入圖像首先通過CE 層在圖像的重疊塊上創(chuàng)建W/4×H/4×C( C =96) 的序列嵌入,在壓縮圖像尺寸的同時,引入更多的局部空間上下文信息。然后應用編碼器內(nèi)的多級全卷積Swin Transformer (Fully convolutional SwinTransformer,F(xiàn)CST) 塊和Patch merging 層提取輸入圖像的特征。同時,引入多尺度輸入策略,進一步向編碼器注入金字塔式輸入,將上級FCST 塊和Patch merging 層提取的特征與縮小尺寸后的原圖像進行特征融合,以突出顯示不同類別和不同尺度下較小的感興趣區(qū)域(Region of interest,ROI) 特征。編碼器提取的特征由2 個FCST 塊組成的瓶頸層進行處理。
解碼器將瓶頸表示作為輸入,引入反卷積上采樣模塊,通過反卷積上采樣模塊執(zhí)行2 倍上采樣,并將通道數(shù)減半。具體來說,反卷積上采樣模塊對上采樣特征圖采用跨步反卷積,并將通道維度減半,具體實現(xiàn)為:LN,2d→Transposed convolution,2 × 2 , s = 2 , d → G E L U ; LN 為層歸一化( L a y e rnormalization),d 表示重構(gòu)后的特征圖的通道數(shù),Transposed convolution 為反卷積,s 為步長,GELU為GELU 激活函數(shù)。通過將Patch expanding 層替換為反卷積上采樣層,能更好地保留特征。
將通過上采樣創(chuàng)建的高分辨率特征圖與來自編碼器相同分辨率的特征圖一同傳遞給所提出的特征融合模塊(Feature fusion module,F(xiàn)FM),以補償因下采樣而丟失的信息。然后,將融合后的特征輸入FCST 塊,為融合后的特征提供空間上下文信息。重復上述過程3 次后,將特征輸入到Patch expanding層,該層執(zhí)行4 倍上采樣,然后進行線性映射以得到最終的分割類別。
此外,引入了深度監(jiān)督策略,在訓練過程中引入額外的監(jiān)督信號,幫助網(wǎng)絡更好地學習特征,以提高模型的預測能力。具體而言,在解碼器的不同階段輸出中間分割圖,有助于確保模型逐漸恢復空間細節(jié),同時充分利用多尺度信息,通過在多個尺度上監(jiān)督,更好地學習圖像的語義信息,提高模型的預測能力。本研究沒有在最低尺度上引入深度監(jiān)督,因為在最低尺度上引入深度監(jiān)督信號會增加計算的復雜性,而且對于小尺寸的ROI,最低尺度上的分辨率不足,難以準確地捕捉目標的細節(jié)。此外,在最低尺度上無法提供足夠的上下文信息,缺少關(guān)鍵的上下文信息。這些都會使模型無法有效地提取語義信息,從而降低模型性能。
1.2 全卷積Swin Transformer 塊
該研究基于Swin Transformer 塊提出了新穎的FCST 塊,F(xiàn)CST 塊在多頭自注意力(Multi-headself-attention,MHSA) 和MLP 中充分利用卷積的空間建模能力,將擅長提取局部空間上下文的卷積神經(jīng)網(wǎng)絡與能有效捕獲長距離依賴關(guān)系的S w i nTransformer 相結(jié)合,在多階段設(shè)計中引入卷積,以分層增強Swin Transformer 的空間和局部建模能力,F(xiàn)CST 塊結(jié)構(gòu)如圖2 所示。
在FCST 塊的開始階段,提出應用ConvNeXt[22]塊來增強模型對特征信息的編碼能力,以提供更好的特征表示。同時,提出了一種新穎的基于(移位) 窗口的卷積多頭自注意力[(Shifted)Windowbasedconvolutional multi-head self-attention,(S)WCMHSA],其利用深度卷積注意力映射替換線性注意力映射,將卷積與MHSA 結(jié)合構(gòu)成卷積注意力,并結(jié)合Swin Transformer 塊的(移位) 窗口機制,來提取分層語義信息及局部空間上下文信息,以加強對邊界的精確分割。此外,提出了寬范圍感受野(Wide receptive field,WRF) 模塊來代替MLP,以豐富多尺度空間上下文信息,從而應對尺寸和形狀復雜多變的飼料區(qū)域。
FCST 塊的計算公式為:
?zl = (S)W-CMHSA[LN(zl-1)]+zl-1; (1)
zl = WRF[LN(?zl)]+ ?zl; (2)
?zl+1 = (S)W-CMHSA[LN(zl)]+zl; (3)
zl+1 = WRF[LN(?zl+1)]+ ?zl+1; (4)
式中, ?zl和zl分別表示第l 個FCST 塊中(S)W-CMHSA模塊和WRF 模塊的輸出,?zl+1和zl+1分別表示第l+1 個FCST 塊中(S)W-CMHSA 模塊和WRF 模塊的輸出。
1.2.1 ConvNeXt 塊
傳統(tǒng)的特征提取網(wǎng)絡(例如Resnet) 采用兩頭大、中間小的瓶頸結(jié)構(gòu),在通道數(shù)減少的過程中,可能導致信息丟失。而ConvNeXt塊[ 2 2 ] 采用兩頭小、中間大的倒瓶頸( I n v e r t e dbottleneck) 結(jié)構(gòu),使得ConvNeXt 塊能夠有效捕獲輸入數(shù)據(jù)的特征,提高模型的表達能力。
ConvNeXt 塊的結(jié)構(gòu)如圖3 所示,ConvNeXt 塊實現(xiàn)為:7×7 Depth-wise Conv,d→LN,d→PointwiseConv,4×d→GELU→Point-wise Conv,d→RC;RC 表示殘差連接(Residual connection),Depth-wiseConv 表示深度卷積,Point-wise Conv 表示點卷積。其使用了7×7 的大卷積核,相較于傳統(tǒng)的3×3 卷積核,可提高模型性能。同時,為了解決梯度消失問題,使用了GELU 激活函數(shù)。此外,使用LN 代替?zhèn)鹘y(tǒng)的BN (Batch normalization),LN 層更適合小批量的訓練數(shù)據(jù),有助于網(wǎng)絡收斂。
1.2.2 (S)W-CMHSA
標準的Transformer 模型采用線性注意力映射進行多頭自注意力計算,缺乏充分的空間上下文信息。研究人員試圖通過卷積增強來緩解這一問題,然而這會增加額外的計算成本。Wu 等[23] 提出利用深度可分離卷積替換線性注意力映射,深度可分離卷積可實現(xiàn)為:Depth-wise Conv→BN→Point-wise Conv。本研究為了更好地適應數(shù)據(jù)量較小的任務,去除了深度可分離卷積中的逐點卷積,使模型更簡單,避免過擬合。此外,利用LN 替換BN,以提高性能。深度卷積提供的空間上下文進一步消除了對位置編碼的需要。深度卷積的卷積核大小為3×3,填充為1,步長為1,以確保:1) 提取的塊是重疊的;2) 卷積運算不會改變輸出尺寸。此外,在注意力輸出圖后,利用3×3 深度卷積替換線性層,以便微調(diào)獲得更多空間信息。
1.2.3 WRF 模塊
提出利用WRF 模塊替換MLP,以提取細粒度信息和多尺度上下文信息。現(xiàn)有的Transformer 將MLP 模塊實現(xiàn)為:LN,d→Linear,4×d→GELU→Linear,d→RC。Linear 表示線性映射。WRF 模塊如圖4 所示,WRF 模塊由LN 層、密集空洞卷積模塊( D e n s e a t r o u s c o n v o l u t i o n ,DAC)[24]、特征聚合層和RC 層構(gòu)成。
DAC 模塊通過使用不同空洞率的空洞卷積,可捕獲不同尺度的上下文信息,提供對圖像的多尺度表示,從而更好地捕獲語義信息。特征聚合層是通過1 個3×3 卷積算子和GELU 激活函數(shù)構(gòu)成的,以進一步提取空間上下文信息。
如圖5 所示,DAC 模塊由以級聯(lián)方式堆疊的空洞卷積組成,即4 個級聯(lián)分支,每個分支的感受野分別為3、7、9 和19。最后,直接將原始特征與其他分支特征相加,類似殘差連接機制。一般而言,具有較大感受野的卷積能夠捕獲更大區(qū)域的信息,從而提取和生成更加抽象的特征,適用于處理較大尺寸的物體。相反,具有較小感受野的卷積則更適合于處理小尺寸的物體,能夠更精確地捕獲局部細節(jié)信息。DAC 模塊通過結(jié)合不同空洞率的空洞卷積,實現(xiàn)對多尺寸特征的提取。
1.3 卷積嵌入層
現(xiàn)有模型使用線性層將圖像分割成不重疊的塊并大幅減小圖像的大小,將原分辨率為H×W 的圖像壓縮為H/4× W/4,同時將通道維度改變?yōu)镃。然而,使用線性層來壓縮特征不僅會損失高質(zhì)量的空間和局部信息,還會增加模型的大小。本研究提出了卷積嵌入層,以替換線性嵌入層。卷積嵌入層由具有重疊塊的4 個卷積構(gòu)成,通過分階段壓縮特征,以在塊之間和內(nèi)部引入更多的空間上下文信息。卷積嵌入層如圖6 所示,具體來說,該層的實現(xiàn)過程如下:Conv 3×3,s=1,C/2→GELU→Conv3×3, s=2, C/2→GELU+LN→Conv 3×3, s=1,C→GELU→Conv 3×3,s=2,C→GELU。其中s 為步長,輸入維度為3。最后,輸出分辨率為H/4×× W/4×C的特征圖。
1.4 特征融合模塊
將通過上采樣創(chuàng)建的高分辨率特征圖與來自編碼器同一分辨率的特征圖由FFM 模塊進行融合。FFM 模塊如圖7 所示,其進一步豐富了空間和細粒度信息,同時補償了下采樣造成的信息缺失,從而提高模型的分割性能。具體而言,將通過上采樣創(chuàng)建的高分辨率特征圖的輸出與來自編碼器的淺層特征表示在通道維度上進行拼接,隨后通過1 個3×3 的卷積層來調(diào)整通道數(shù)。然后依次通過GELU 激活函數(shù)、3×3 卷積、GELU 激活函數(shù),以進一步豐富空間上下文信息,最終通過殘差結(jié)構(gòu)得到融合后的特征圖。具體實現(xiàn)為:Conv 3×3,s=1,d/2→GELU→Conv 3×3,s=1,d/2→GELU。
1.5 損失函數(shù)
損失函數(shù)L 由dice 損失函數(shù)Ldice 和交叉熵損失函數(shù)Lce 組成,可表示如下:
式中,N 和K 分別表示樣本數(shù)和類別數(shù);yn和^yn分別表示真實語義標簽的o n e - h o t 編碼和網(wǎng)絡的softmax 輸出,n 2 [1,…,N];^ynk表示樣本n屬于類別k 的置信度。
2 試驗與結(jié)果分析
2.1 試驗環(huán)境及參數(shù)配置
本研究所使用的模型是基于Pytorch 深度學習框架和Python3.7 編程語言實現(xiàn)的,集成開發(fā)環(huán)境為P y C h a r m。試驗平臺的操作系統(tǒng)為U b u n t u20.04,顯卡為NVIDIA GeForce RTX 2 080 Ti GPU,處理器為Inter(R) Core(TM) i7-9700K,主頻3.6G H z ,內(nèi)存4 8 G B 。將輸入圖像的尺寸設(shè)定為512 像素×512 像素,設(shè)置批次大?。˙atch size) 為64,使用Adam 優(yōu)化器,初始學習率設(shè)置為0.000 1,總共訓練300 個周期。
2.2 數(shù)據(jù)集
數(shù)據(jù)集為自制數(shù)據(jù)集,來源于內(nèi)蒙古某牧場現(xiàn)場采集的監(jiān)控視頻。通過對部分視頻數(shù)據(jù)進行抽幀,獲取1 714 張圖片,訓練集、驗證集與測試集的比例為8∶1∶1。
圖8 為飼料消耗情況的分割結(jié)果圖,清晰地展示了飼料消耗區(qū)域與飼料殘余區(qū)域。飼料消耗狀態(tài)A 可由公式(8) 計算:
式中,B 為飼料消耗區(qū)域的像素點總數(shù),C 為飼料殘余區(qū)域的像素點總數(shù)。
2.3 評價指標
在圖像語義分割領(lǐng)域,常用的性能評價指標有準確率(Accuracy)、交并比(Intersection over union,IoU)、精度(Precision)、召回率(Recall) 和F1 分數(shù)(F1-score) 等。上述指標的計算公式可表示如下:
式中,TP (True positive) 表示實際為正例且被預測為正例的數(shù)量;TN (True negative) 表示實際為負例且被預測為負例的數(shù)量;FP (False positive) 表示實際為負例但被預測為正例的數(shù)量; F N ( F a l s enegative) 表示實際為正例但被預測為負例的數(shù)量。
2.4 對比試驗
為了驗證ISwin-Unet 算法的分割效果,將ISwin-Unet 與經(jīng)典的圖像分割算法在相同條件下進行了比較,包括Unet、Attention Unet、Swin-Unet、TransUnet、Transfuse 以及nnFormer。
為了直觀展示所提出模型的分割效果,隨機選取了4 張測試圖片,分割效果對比圖如圖9 所示。
通過對比各方法的分割效果圖,可以觀察到:ISwin-Unet 模型的分割效果最好,其分割出的飼料消耗區(qū)域與殘余區(qū)域與真實標簽最接近,且邊界更加細膩。當飼料消耗區(qū)域較小時,其他方法存在誤將飼料殘余區(qū)域歸類為飼料消耗區(qū)域或誤將飼料消耗區(qū)域歸類為飼料殘余區(qū)域的現(xiàn)象,但ISwin-Unet 模型比其他模型更具辨別力,分割更加細膩,能夠更準確地將其區(qū)分開。
不同算法的定量對比結(jié)果如表1 所示,ISwin-Unet 超越了經(jīng)典的基于卷積和基于Transformer 的方法,在平均交并比、準確率和F1 分數(shù)這幾個評價指標上都是最高的,分別達到了86.46%、98.60%、92.29%,相較于Swin-Unet,分別提高4.36、0.65 和2.90 個百分點??傮w而言,ISwin-Unet 在無需預訓練的情況下實現(xiàn)了最佳性能。
此外,表1 還列出了所有模型在相同運行條件下的運行速度,即模型每秒鐘能處理的圖像幀數(shù)。就計算速度(效率) 而言,基于Transformer 或SwinTransformer 塊的模型低于其他具有純卷積結(jié)構(gòu)的模型。所提出的ISwin-Unet 在自制數(shù)據(jù)集上的運行速度為23 幀/s,優(yōu)于Swin-Unet 的20 幀/s。表明所提出的ISwin-Unet 在提高分割精度的同時,在算法效率方面也有較大的提升。
2.5 消融試驗
ISwin-Unet 是基于Swin-Unet 改進的,通過消融試驗以進一步驗證每個改進的有效性。以平均交并比、準確率和F1 分數(shù)作為評價指標,將從頭開始訓練的Swin-Unet 視為基線模型(方法0)。本研究將Swin-Unet 編碼器中的線性嵌入層替換成卷積嵌入層,記作模塊1。在Swin Transformer 塊的開始階段(LN 層之后) 增加ConvNeXt 塊,記作模塊2。將Swin Transformer 塊中的線性注意力映射替換為深度卷積注意力映射,記作模塊3。將Swin Transformer 塊中的MLP 替換為WRF 模塊,記作模塊4。將傳統(tǒng)的融合方式替換成FFM,記作模塊5。在編碼器階段增加多尺度輸入策略,記作模塊6。在解碼器階段增加深度監(jiān)督策略,記作模塊7。將解碼器階段的上采樣層Patch expanding 替換為反卷積上采樣,記作模塊8。試驗結(jié)果如表2所示。
由方法0 與1 的對比結(jié)果可知,通過將線性嵌入層替換為卷積嵌入層,F(xiàn)1 分數(shù)、平均交并比和準確率分別提升了0.88、1.32 和0.12 個百分點,表明通過分階段壓縮特征,在塊之間和內(nèi)部引入更多的空間上下文信息,模型的性能有所提升。
對比方法1 和2 的數(shù)據(jù)可知,與直接創(chuàng)建圖像的逐塊映射相比,在創(chuàng)建圖像的逐塊映射之前增加ConvNeXt 塊后,3 個評價指標都有一定的提升,表明在創(chuàng)建圖像的逐塊映射之前,通過ConvNeXt 塊進行預處理能提高模型的性能。對比方法2 和3 的數(shù)據(jù)可知,將Swin Transformer 塊中的線性注意力映射替換為卷積注意力映射后,F(xiàn)1 分數(shù)、平均交并比和準確率分別提升了0.26、1.48 和0.13 個百分點,表明通過深度卷積創(chuàng)建重疊的塊,豐富局部空間上下文,模型的性能有所提升。對比方法3 和4 的數(shù)據(jù)可知,將WRF 模塊替換MLP 后,F(xiàn)1 分數(shù)、平均交并比和準確率分別提升了0.39、0.53 和0.06 個百分點,表明包含密集空洞卷積的WRF 模塊由于包含多個不同大小的感受野,具有多尺度特征提取能力,模型的性能進一步提升。對比方法1 和4 可知,通過改進Swin Transformer 塊,F(xiàn)1 分數(shù)、平均交并比和準確率分別提升了1.51、2.65 和0.25 個百分點。
對比方法4 和5 的數(shù)據(jù)可知,將傳統(tǒng)的融合方式替換成FFM 后,3 個指標稍有提升,表明以卷積的方式降低通道維度的FFM 能提高模型的性能。
對比方法5 和6 的數(shù)據(jù)可知,在編碼器階段增加多尺度輸入策略后,模型在3 個評價指標上都取得了一定的提升,表明多尺度輸入策略能提高模型的性能。
對比方法6 和7 的數(shù)據(jù)可知,在解碼器階段引入深度監(jiān)督策略后,F(xiàn)1 分數(shù)、平均交并比和準確率分別提升了0.14、0.10 和0.07 個百分點,表明在訓練階段引入深度監(jiān)督策略可提升模型的性能。
對比方法7 和8 的數(shù)據(jù)可知,將Patch expanding上采樣層替換為反卷積上采樣模塊后,F(xiàn)1 分數(shù)、平均交并比和準確率分別提升了0.13、0.13 和0.08 個百分點,表明以反卷積的方式進行上采樣可提高模型的性能。
3 結(jié)論
本研究提出了基于圖像語義分割的監(jiān)測方法。針對監(jiān)控圖像中飼料區(qū)域存在結(jié)構(gòu)較長、邊界模糊,且形狀與尺寸復雜多變等特點,為了更準確地分割飼料殘余區(qū)域與消耗區(qū)域,以達到準確監(jiān)測飼料消耗狀態(tài)的目的,本研究提出了基于Swin-Unet 的語義分割模型,主要得出以下結(jié)論。
1 ) 對于S w i n T r a n s f o r m e r 塊,在S w i nTransformer 塊的開始階段引入ConvNeXt 塊進行預處理以提供更好的特征表示,并利用深度卷積替換線性注意力映射,以增強對局部空間上下文信息的提取能力。同時利用包含密集空洞卷積的WRF 模塊替換MLP,以加強對形狀和尺寸復雜多變的飼料區(qū)域的分割能力。通過改進S w i nTransformer 塊,F(xiàn)1 分數(shù)、平均交并比和準確率分別提升1.51、2.65 和0.25 個百分點,表明將卷積引入Swin Transformer 塊,能提升圖像語義分割精度。
2) 在Swin-Unet 編碼器的初始階段,利用卷積嵌入層替換線性嵌入層,通過分階段壓縮特征,在塊之間和塊內(nèi)部引入更多的空間上下文信息,F(xiàn)1 分數(shù)、平均交并比和準確率指標分別提升0.88、1.32和0.12 個百分點,表明提出的卷積嵌入層對于提升分割效果是有效的。
3) 所提出模型的F1 分數(shù)、平均交并比和準確率分別為92.29%、86.46% 和98.60%,比改進前的Swin-Unet 模型,分別提高了2.90、4.36、0.65 個百分點。此外,在計算效率方面,幀率達到23 幀/s,優(yōu)于Swin-Unet 的20 幀/s。表明基于圖像語義分割的方法應用于飼料消耗狀態(tài)的自動監(jiān)測是可行的,該方法通過將卷積引入Swin-Unet,有效提高了分割精度,同時提升了計算效率,對提高生產(chǎn)管理效率具有重要意義。
參考文獻:
[1]張玉磊, 喬泓博. 畜牧業(yè)發(fā)展方式及其未來發(fā)展趨勢[J]. 科技風, 2023, 25: 161-163.
[2]RONNEBERGER O, FISCHER P, BROX T. U-net:Convolutional networks for biomedical image segmentation[M]//Lecture Notes in Computer Science. SpringerInternational Publishing, 2015: 234-241.
[3]ZHOU Z W, RAHMAN SIDDIQUEE M M, TAJBAKHSHN, et al. UNet++: A nested U-net architecture formedical image segmentation[M]//Deep Learning in MedicalImage Analysis and Multimodal Learning for ClinicalDecision Support. Springer International Publishing,2018: 3-11.
[4]HUANG H M, LIN L F, TONG R F, et al. UNet 3+: Afull-scale connected UNet for medical image segmentation[C]//2020 IEEE International Conference on Acoustics,Speech and Signal Processing. Barcelona, Spain:IEEE, 2020: 1055-1059.
[5]SCHLEMPER J, OKTAY O, SCHAAP M, et al. Attentiongated networks: Learning to leverage salient regionsin medical images[J]. Medical Image Analysis, 2019, 53:197-207.
[6]KAUL C, MANANDHAR S, PEARS N. Focusnet: Anattention-based fully convolutional network for medicalimage segmentation[C]//2019 IEEE 16th InternationalSymposium on Biomedical Imaging (ISBI 2019). Venice,Italy: IEEE, 2019: 455-458.
[7]KAUL C, PEARS N, DAI H, et al. Focusnet++: Attentiveaggregated transformations for efficient and accuratemedical image segmentation[C]//2021 IEEE 18th InternationalSymposium on Biomedical Imaging (ISBI 2021).Nice, France: IEEE, 2021: 1042-1046.
[8]DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al.An image is worth 16 × 16 words: Transformers for imagerecognition at scale[EB/OL]. arXiv: 2010.11929(2020-10-22) [2024-04-01]. https://doi.org/10.48550/arXiv.2010.11929.
[9]OKTAY O, SCHLEMPER J, FOLGOC L L, et al. AttentionU-Net: Learning where to look for the pancreas[EB/OL]. arXiv: 1804.03999 (2018-4-11) [2024-04-01].https://doi.org/10.48550/arXiv.1804.03999.
[10]PETIT O, THOME N, RAMBOUR C, et al. U-Net transformer:Self and cross attention for medical image segmentation[EB/OL]. arXiv: 2103.06104 (2021-03-10) [2024-04-01]. https://doi.org/10.48550/arXiv.2103.06104.
[11]CHEN J, LU Y, YU Q, et al. TransUNet: Transformersmake strong encoders for medical image segmentation[EB/OL]. arXiv: 2102.04306 (2021-02-08) [2024-04-01].https://doi.org/10.48550/arXiv.2102.04306.
[12]ZHANG Y D, LIU H Y, HU Q. TransFuse: Fusing transformersand CNNs for medical image segmentation[M]//Medical Image Computing and Computer AssistedIntervention-MICCAI 2021. Springer International Publishing,2021: 14-24.
[13]VALANARASU J M J, OZA P, HACIHALILOGLU I,et al. Medical transformer: Gated axial-attention for medicalimage segmentation[EB/OL]. arXiv: 2102.10662(2021-02-21) [2024-04-01]. https://doi.org/10.48550/arXiv.2102.10662.
[14]KARIMI D, VASYLECHKO S D, GHOLIPOUR A.Convolution-free medical image segmentation usingtransformers[M]//Medical Image Computing and ComputerAssisted Intervention-MICCAI 2021. Springer InternationalPublishing, 2021: 78-88.
[15]CAO H, WANG Y Y, CHEN J, et al. Swin-Unet: Unetlikepure transformer for medical image segmentation[EB/OL]. arXiv: 2105.05537 (2021-05-12) [2024-04-01].https://doi.org/10.48550/arXiv.2105.05537.
[16]LIN A L, CHEN B Z, XU J Y, et al. DS-TransUNet:Dual swin transformer U-net for medical image segmentation[J]. IEEE Transactions on Instrumentation andMeasurement, 2022, 71: 1-15.
[17]HUANG X, DENG Z, LI D, et al. MISSFormer: An effectivemedical image segmentation transformer[EB/OL].arXiv: 2109.07162 (2021-09-15) [2024-04-01]. https://doi.org/10.48550/arXiv.2109.07162.
[18]ZHOU H Y, GUO J, ZHANG Y, et al. nnformer: Interleavedtransformer for volumetric segmentation[EB/OL].arXiv: 2109.03201 (2021-09-07) [2024-04-01]. https://doi.org/10.48550/arXiv.2109.03201.
[19]WANG H Y, XIE S, LIN L F, et al. Mixed transformerU-Net for medical image segmentation[EB/OL]. arXiv:2111.04734 (2021-11-08) [2024-04-01]. https://doi.org/10.48550/arXiv.2111.04734.
[20]TRAGAKIS A, KAUL C, MURRAY-SMITH R, et al.The fully convolutional transformer for medical imagesegmentation[C]//2023 IEEE/CVF Winter Conference onApplications of Computer Vision (WACV). Waikoloa,HI, USA: IEEE, 2023: 3660-3669.
[21]LIU Z, LIN Y T, CAO Y, et al. Swin transformer: Hierarchicalvision transformer using shifted windows[C]//2021 IEEE/CVF International Conference on ComputerVision (ICCV). Montreal, QC, Canada: IEEE, 2021:10012-10022.
[22]LIU Z, MAO H Z, WU C Y, et al. A ConvNet for the2020s[C]//2022 IEEE/CVF Conference on ComputerVision and Pattern Recognition (CVPR). New Orleans,LA, USA: IEEE, 2022: 11976-11986.
[23]WU H P, XIAO B, CODELLA N, et al. Cvt: Introducingconvolutions to vision transformers[C]//2021 IEEE/CVFInternational Conference on Computer Vision (ICCV).Montreal, QC, Canada: IEEE, 2021: 22-31.
[24]GU Z W, CHENG J, FU H Z, et al. CE-net: Context encodernetwork for 2D medical image segmentation[J].IEEE Transactions on Medical Imaging, 2019, 38(10):2281-2292.
【責任編輯 李慶玲】
基金項目:國家自然科學基金(62103309);湖北省數(shù)字化紡織裝備重點實驗室開放課題(DTL2022001)