關鍵詞半監(jiān)督;視頻分割;豬只;SimAM注意力
利用計算機視覺、機器學習等技術逐步實現生豬養(yǎng)殖數字化、管理精細化是現代生豬產業(yè)高質量發(fā)展的必然趨勢[1-3]。近年來,基于深度學習的語義分割方法在豬只體尺測量、體溫測量、體質量估計等豬只表型測試任務中得以廣泛應用。耿艷利等[4]采用PointNet網絡結合注意力模塊,構建了豬只點云語義分割模型,實現了豬只體尺測量;Wang等[5]提出了一種基于RANSAC和歐幾里得聚類的點云語義分割算法,用于自動提取豬只體型尺寸;Xie等[6]提出基于紅外熱像儀(infraredthermography,ITG)的豬只溫度自動檢測方法并利用改進的YOLOv5s-BiFPN模型實現感興趣區(qū)域(regionofinterest,ROI)分割,從而實現豬只的自動溫度檢測;Zhang等[7]提出基于改進的凸性活動輪廓模型的方法,從紅外圖像中分割出豬只體溫區(qū)域,進行體溫測量與監(jiān)控;He等[8]通過SwinTransformer從RGB和深度圖像提取信息進行前景分割,并結合特征融合層對豬只體質量進行預測;Kwon等[9]基于快速重建網格模型,通過語義分割專注于豬只軀干部分,實現豬只體質量估計。然而,現代化養(yǎng)殖過程中,豬只存在動態(tài)移動、姿態(tài)變化等問題,上述語義分割方法依賴單幀圖像,無法充分捕捉豬只視頻序列的時序信息。這種局限性限制了語義分割技術在豬只養(yǎng)殖復雜環(huán)境中的應用。
視頻對象分割通過利用視頻序列中幀與幀之間的時序關聯,能夠更好地跟蹤和分割動態(tài)場景中的豬只,增強模型適應能力。Cho等[10]提出了一種運動選項網絡(treatingmotion-as-optionnetwork,TMO),在包含飛機、車輛等快速移動的DAVIS[11]數據集上測試,通過引入協(xié)作學習策略捕獲動態(tài)目標的時序特征,分割精度達到85.7;Lee等[12]提出了一種原型記憶網絡(prototypememorynetwork,PMN),利用超像素算法增強幀序列的連通性,在包含光照變化室內場景的YouTube-Objects[13-14]數據集上分割精度達到85.9;Cho等[15]提出了一種Fake?Flow方法,在包含動物遷移、城市交通等復雜背景的YouTube-VOS[16]數據集上進行測試,通過合成的光流圖生成圖像-光流對以捕捉動態(tài)時序特征,分割精度達到86.1。上述研究表明,視頻分割能夠對動態(tài)對象有較好的處理能力。
半監(jiān)督視頻分割方法僅需視頻第一幀像素級標注,后續(xù)幀通過學習到的時序特征自動完成分割,通過充分利用視頻序列中的時序關聯信息,具有對復雜場景中動態(tài)移動目標的高效識別和精準分割的優(yōu)點。近年來,視頻對象分割的半監(jiān)督方法取得了顯著進展。Yang等[17]將目標轉換器關聯(associatingobjectswithtransformers,AOT)方法引入Transform?er架構,通過單幀標注信息,利用強大的序列建模能力捕捉視頻幀之間的時序關聯信息。這種動態(tài)適應機制能提高對快速移動目標的跟蹤效果,能夠動態(tài)調整復雜背景下的特征提取能力。Yang等[18]將目標可擴展轉換器關聯(associatingobjectswithscal?abletransformers,AOST)方法引入注意力機制,通過對單幀標注進行時序特征的加權處理,有效建模幀與幀之間的時序動態(tài)關系,使得在復雜場景和快速運動的目標中表現更加穩(wěn)健,展示了其顯著的精度提升和適應能力。Cheng等[19]提出了XMem方法,通過高效利用內存機制和長距離建模從首幀標注信息提取時序特征,動態(tài)調整對視頻幀的關注點,確保對目標對象的持續(xù)追蹤和精確分割,其優(yōu)勢在于能夠有效處理長視頻序列,并在長時間的動態(tài)變化中保持較高的精確度。然而,針對豬只的視頻對象分割方法研究相對不足,限制了其在豬只表型測試領域的發(fā)展。
本研究以種豬性能測定過程中動態(tài)采食和生長過程的豬只為對象,構建豬只視頻數據集,引入無參注意力機制[20]和多尺度特征融合,優(yōu)化上采樣和特征融合策略,增強對動態(tài)特征的捕捉能力,提升對豬只關鍵區(qū)域的聚焦;設計基于XMem-SimAM的半監(jiān)督豬只視頻分割模型,并與STCN[21]、DEVA[22]、Mi?VOS[23]、XMem++[24]等視頻對象分割方法進行對比,提高模型分割精度,以期為豬場復雜環(huán)境下動態(tài)生長豬只視頻分割提供新方法。
1 材料與方法
1.1 豬只視頻數據獲取
研究豬只為測定站飼養(yǎng),數據采集于豬只在測定站區(qū)域采食階段,采集過程為全天候自動進行,為了從多視角增強模型對豬只全局和局部特征的學習能力,本研究將3臺REB-USB1080P01-LS43相機架設在豬只養(yǎng)殖測定站上方,從左視角、俯視角和右視角3個角度幀率同步采集豬只視頻數據(視頻分辨率為1920像素×1080像素),如圖1所示,數據采集過程中,所有相機均采用15幀/s的設置進行穩(wěn)定采集,以確保豬只動態(tài)移動的情況下,能夠捕捉到清晰的視頻幀,確保模型在處理動態(tài)特征時的準確性和有效性,為后續(xù)的時序特征提取和模型訓練提供數據支持。數據分別于2021年7月31日―2021年8月20日、2022年11月19日―2023年1月6日和2023年6月15日―2023年7月27日在廣西某豬場、湖北某豬場進行采集。3個批次共采集61頭豬只的數據,其中第一批次48頭豬只,第二批次6頭豬只,前2個批次數據用于模型的訓練和驗證,第三批次7頭豬只用于本研究的模型測試。
1.2 豬只視頻數據集構建
本研究構建了一個豬只視頻數據集,該數據集從3個視角捕捉豬只的動態(tài)生長過程,并依據豬只耳標信息分布進行組織,共包含234個視頻文件7103幀,分辨率為1920像素×1080像素,為了優(yōu)化計算資源和提高視頻對象分割模型的處理速度,每個視頻樣本分辨率被預處理至854像素×480像素,像素級別標注如圖2所示。數據集被劃分為三部分:訓練集包含第一和第二批次51頭豬只的148個視頻文件,驗證集包含第二批次3頭豬只的30個視頻文件,測試集包含第三批次7頭豬只的56個視頻文件,測試集視頻文件以每3d一個間隔,反映豬只動態(tài)生長過程。數據集結構如表1所示,其中204~514代表豬只耳標范圍,表1中數據代表視頻文件數量。
1.3 數據增強
為提高模型對數據不同變化的適應性和泛化能力,本研究對序列幀和掩碼圖像進行數據增強操作,進一步增強模型的魯棒性,包括對視頻序列幀進行歸一化操作,將數據的值范圍調整到標準化范圍內,加快模型的收斂速度;對數據的亮度、對比度和飽和度進行輕微的隨機抖動;進行隨機仿射變換,包括旋轉、平移和縮放等;進行概率轉換灰度圖;進行隨機大小裁剪,裁剪尺寸為384像素×384像素的切片(patches)。數據增強如圖3所示。
1.4 半監(jiān)督視頻對象分割網絡設計及其改進
1)半監(jiān)督視頻對象分割模型設計。本研究引入豬只視頻數據集到半監(jiān)督視頻對象分割領域,構建XMem-SimAM網絡進行實驗分析。該網絡包括3個深度集成的卷積神經網絡模塊和1個多尺度計算相似度的模塊:查詢編碼器、值編碼器、解碼器和記憶讀取模塊。查詢編碼器從輸入的序列幀中提取多尺度時序語義特征,將特征輸出到解碼器,同時通過卷積映射的操作輸出鍵值k(key)、收縮項s(shrink)和選擇項e(selection)到記憶讀取模塊,以便進行像素相似度計算;值編碼器從預測分割的歷史幀序列及其掩碼圖像序列中提取并融合多尺度時序特征,將這些特征傳遞到記憶讀取模塊,以進行更深層次的時序語義特征提??;記憶讀取模塊利用時空序列信息,并行接收查詢編碼器和值編碼器的輸出,計算視頻序列幀與歷史幀之間的相似度權重,為解碼器生成高質量的掩碼圖像提供支持;解碼器用于將查詢編碼器和值編碼器的特征輸出和記憶讀取模塊的特征輸出并行融合,通過上采樣轉換成掩碼圖像。模型總體框架如圖4所示。
2)查詢編碼器。查詢編碼器以ResNet-50[25]為骨干網絡,首先將輸入的查詢幀(待分割的豬只視頻序列幀)切分成384像素×384像素的patches,有助于在復雜環(huán)境中更好捕捉局部細節(jié)特征。為了捕捉視頻序列中豬只動態(tài)變化和生長過程中的時序特征,XMem-SimAM基于4層殘差組(layer1、layer2、layer3、layer4)結構進行了優(yōu)化調整,重構前3組的殘差組(layer1、layer2、layer3),同時為減少計算量、提高運算速度,丟棄了最后一組(layer4)的殘差塊、平均池化(averagepooling)和全連接層(fully-connec?tionlayer)。
SimAM注意力模塊通過對每個層級的特征圖進行空間重加權,使編碼器更關注豬只序列幀像素間的差異性,更精細捕捉豬只在光照變化、復雜環(huán)境中的周期性生長特征。田甜等[26]通過在骨干網絡引入SimAM模塊顯著增強復雜環(huán)境下特征的提取能力,并驗證了該注意力處理機制的有效性?;诖?,本研究在每個殘差組(layer1、layer2、layer3)后集成SimAM無參注意力機制(圖5),旨在優(yōu)化豬只特征的空間分布并增強模型對豬只關鍵區(qū)域(耳朵、鼻子)的關注。通過精確定位識別耳朵和鼻子的位置,可以利用包絡算法有效定位到頸部中點等關鍵體尺測點進行下游任務。SimAM注意力計算公式如下所示:
式(1)~(2)中,xi、n、μ、λ分別表示輸入特征圖、特征圖像素數、特征圖均值、穩(wěn)定歸一化的常數,yi、xatt表示特征圖歸一化、注意力加權后的輸出特征圖,⊙、σ()分別表示逐元素乘法、Sigmoid激活函數。
前3組殘差塊輸出多尺度時序語義特征(1/4、1/8、1/16)輸出到解碼器用于豬只序列幀掩碼圖像預測,第三組殘差塊提取的1/16尺度特征送入到值編碼器,進行深層次特征提取,查詢編碼器通過一個3×3卷積的特征映射(keyprojection)模塊,保證提取的豬只局部特征分布不變,提取視頻序列幀的收縮項s、選擇項e和鍵值k,為計算視頻序列幀與歷史幀特征的相似度提供特征時序信息,具體公式如下:
3)值編碼器。值編碼器采用ResNet-18作為骨干網絡處理已經分割的視頻序列幀及其掩碼圖像。值編碼器通過將視頻序列幀和掩碼融合特征進行拼接輸出值v(value),用于在記憶讀取模塊進行相似度計算。值編碼器采用3層的殘差組,為更精確融合豬只動態(tài)變化的時序特征,值編碼器在每個殘差組(layer1、layer2、layer3)后集成了SimAM無參注意力機制。
此外,值編碼器包含特征融合模塊,將來自查詢編碼器的多尺度時序特征與值編碼器最后一組殘差組提取的1/16高尺度特征進行融合,提升時序特征表示。同時,特征融合模塊引入了通道-空間注意力模塊(convolutionalblockattentionmodule,CBAM)[27],通過全局平均池化(globalaveragepool?ing,GAP)和全局最大池化(globalmaxpooling,GMP)獲取通道描述,通過1×1卷積和Sigmoid函數生成通道注意力權重??臻g注意力通過GAP和GMP捕獲特征響應,經7×7卷積和Sigmoid處理后生成空間注意力權重,專注于豬只邊緣和細小部位的處理。值編碼器結構如圖6所示。
4)記憶讀取模塊。為充分利用豬只視頻序列中的時空信息,增強模型在豬只的識別和分割方面的能力,引入記憶讀取單元。該單元接受5個主要輸入,包括:查詢編碼器輸出的鍵值k、收縮項s、選擇項e以及值編碼器輸出的值v,這些特征分別對應視頻序列幀和歷史幀的特征信息。記憶讀取模塊采用相似度動態(tài)權重計算機制,有效捕捉視頻序列中豬只移動和外觀變化的依賴關系。通過計算視頻序列幀和歷史幀特征的相似度權重,可以識別出哪些視頻序列幀像素特征需要重點關注,提高模型對豬只動態(tài)生長變化的響應能力,從而更準確生成預測掩碼圖像。相似度計算公式如下:
式(6)~(8)中,s、e、i、j分別表示查詢編碼器的收縮項、選擇項、第i個內存幀元素、第j個查詢幀元素,v、k、CK、exp()分別表示值編碼器鍵、查詢編碼器鍵、鍵通道數、指數函數。
5)解碼器模塊。為進一步提升豬只視頻序列分割的精度和效率,本研究構建解碼器模塊。解碼器整合查詢編碼器輸出的多尺度(1/4、1/8、1/16)特征圖、記憶讀取模塊的相似度權值以及值編碼器的融合特征(1/16)。特征融合模塊對其進行融合,以豐富豬只時序特征的表達。隨后,通過2級上采樣模塊,融合后的特征逐步上采樣至豬只視頻幀相同的分辨率。在這一過程中,每一級上采樣結合查詢編碼器的特征(1/4、1/8),通過遠眺連接(skip-connec?tion)增強局部區(qū)域細節(jié)信息;上采樣到原始分辨率后,特征圖經3×3卷積處理,生成豬只視頻序列掩碼圖像。為實現解碼器輕量化并優(yōu)化性能,本研究借鑒Cutie網絡[28]解碼器策略,通過減半上采樣通道數,用轉置卷積替代雙線性插值的方法生成預測的掩碼圖像,適應豬只動態(tài)移動的數據處理需求。
1.5 損失函數
本研究采用Dice損失函數和Bootstrapped交叉熵損失函數相結合的方法,以優(yōu)化模型在豬只視頻數據集中的分割性能。
1)Dice損失函數。DiceLoss用于衡量2個樣本相似度。在視頻對象分割任務中,Dice損失彌補了像素級損失函數(如交叉熵損失)在處理小對象或者邊界區(qū)域的不足,計算公式如下:
式(9)中,yi為真實標簽,第i個像素的真實值;y?i為預測標簽,第i個像素的預測值。
2)Bootstrapped損失函數。在豬只視頻對象分割任務中,采用Bootstrapped交叉熵損失函數,重點處理難以分割的樣本,從而提高模型在復雜視頻序列中對豬只的分割準確度,基礎交叉熵損失和Boot?strapped交叉熵損失計算公式分別如式(10)~(11)所示:
式(10)~(11)中,yi為真實標簽,第i個像素的真實值;y?i為預測標簽,第i個像素的預測值;N為樣本總數;k為選取樣本數量。
1.6 操作環(huán)境
本研究在Windows11操作系統(tǒng)下,使用Pytorch框架進行,核心硬件為2塊24GB顯存的GeForceGTX3090Ti顯卡,CUDA版本為11.5,Python版本為3.10.12,Pytorch版本為1.11.0,開發(fā)環(huán)境為Pycharm2022.3.3。
1.7 參數設置
實驗過程中模型訓練輪數為10000輪,初始學習率為1×10-5,在8000輪次,學習率衰減為原來的1/10;優(yōu)化器采用AdamW,權重衰減系數為0.05,參考幀(reference-frames)為3,訓練批次(batch-size)為8,1個訓練批次視頻序列幀為8。
1.8 評估指標
本研究使用區(qū)域相似度J(regionsimilarityJacca?rd)、輪廓準確度F(contouraccuracy,F)、Dice系數以及平均度量值Jamp;F,對模型效果進行評估。
其中區(qū)域相似度J(也稱為交并比,intersectionoverunion,IoU)用于評估預測分割區(qū)域與真實區(qū)域的相似性。J值越接近100,反映模型對豬只分割性能越好;輪廓準確度F是基于精確度(precision)和召回率(recall)的調和平均,用于評估預測分割輪廓與真實輪廓的吻合程度。F值越接近100,表明模型在捕捉豬只邊緣細節(jié)方面表現出色;平均度量值Jamp;F是J和F的平均值,值越接近100,表示模型在整體分割和邊緣細節(jié)上均表現良好;Dice系數則評估真實標簽與預測掩碼圖像的重疊程度,采用百分比的形式省略百分號。值越接近100,表明模型的分割精確度越高。
2 結果與分析
2.1 XMem網絡分割效果的對比分析
XMem網絡和XMem-SimAM網絡在豬只視頻數據集上的分割結果如表2所示,XMem-SimAM網絡在各項評估指標均優(yōu)于XMem網絡。驗證集上的J、F和Jamp;F評估指標分別達到了97.0、96.1和97.8,Dice系數為98.0;測試集上,J、F和Jamp;F評估指標分別達到了96.9、95.8和98.0,Dice系數為98.0。XMem-SimAM在驗證集上的性能平均提升了0.3、0.2、0.3和0.1,在測試集上則分別提升了0.6、0.6、0.7和0.5。在處理速度(framespersecond,FPS)方面,XMem-SimAM網絡在驗證集和測試集上的幀率分別達到了54.85幀/s和58.50幀/s,相比之下,XMem網絡的幀率為51.43幀/s和56.59幀/s,顯示出更快的處理速度。這些結果證明了XMem-SimAM網絡在處理豬只視頻數據集時的高效性和優(yōu)異的分割效果。
豬只視頻數據集501耳標豬只視頻序列的分割對比結果如圖7所示,XMem-SimAM網絡在豬只視頻對象分割任務中具有更強的泛化能力和更高的魯棒性。XMem-SimAM網絡在豬只耳朵等部位的分割效果優(yōu)于原始網絡,掩碼圖像的輪廓和細節(jié)更清晰、更準確,與真實標簽吻合度更高。XMem-Si?mAM網絡能夠更好地捕捉豬只的邊界輪廓,特別是在動態(tài)變化和復雜環(huán)境中,提高了分割精度。
2.2 視頻對象分割模型對比分析
為全面評估XMem-SimAM網絡在豬只視頻數據集上的泛化能力,本研究將其與幾種先進視頻對象分割模型進行對比。為了確保評估的公平性,Mi?VOS、STCN、DEVA以及XMem++模型均采用相同的超參數設置和固定的訓練模式。
不同半監(jiān)督視頻對象分割模型在豬只視頻數據集上的評估指標得分、處理速度、最大內存分配(maxallocatedmemory)、模型復雜度和計算復雜度如表3、表4所示,XMem-SimAM的評估指標優(yōu)于其他對比模型。XMem-SimAM在驗證集和測試集上的Jamp;F、J、F和Dice系數比STCN網絡分別高1.5、1.3、1.6、0.7和1.3、1.6、1.0、1.0;比DEVA網絡分別高1.1、1.3、0.7、0.7和0.9、1.4、0.3、0.9;比MiVOS網絡分別高1.7、1.5、1.8、0.8和1.5、1.6、1.4、1.0;比XMem++網絡分別高2.0、2.3、1.7、1.2和2.6、3.1、2.1、1.8,表明XMem-SimAM在處理具有動態(tài)變化和復雜背景的豬只數據時,能夠保持高度的分割準確性和穩(wěn)定性,展示出明顯的優(yōu)勢。
在模型的運行效率與資源占用方面,XMem-Si?mAM網絡雖然在處理速度和內存分配方面并非最優(yōu),但其整體評估指標仍十分突出。在處理速度方面,XMem-SimAM在驗證集上的達到了54.85幀/s,測試集為58.5幀/s,雖然略低于XMem++,但顯著高于DEVA和MiVOS,表明XMem-SimAM在保持較高分割準確度的同時也具備較高的處理速度,能夠滿足實時處理的需求。最大內存分配方面XMem-SimAM在驗證集上為836MB,測試集為795MB,這一數據低于STCN和MiVOS,略高于DEVA,與XMem++相當,表明XMem-SimAM在處理效率和資源利用具有良好的平衡性既能確保較高的分割精度,又能有效控制資源的占用。
XMem-SimAM在模型復雜度和計算復雜度的對比中展現出良好的平衡。盡管該方法的計算復雜度和參數量并非最低,但在所有評估指標上依然表現最佳,有效平衡了性能與資源消耗,實現了性能與資源消耗的雙重優(yōu)化。
通過對比分析XMem-SimAM與STCN、DE?VA、MiVOS以及XMem++半監(jiān)督視頻對象分割模型的預測掩碼圖像,進一步驗證了XMem-SimAM在豬只視頻序列幀分割任務中的優(yōu)勢。272耳標豬只視頻序列幀分割結果如圖8所示,XMem-SimAM在耳朵、鼻子等關鍵細節(jié)部位分割效果展現了卓越的性能。相較之下,其他視頻對象分割對比模型在處理這些細節(jié)時出現漏分割的現象,這些區(qū)域的高精度分割為后續(xù)豬只體尺測量等下游任務奠定了基礎。
為了深入分析模型在小目標(如耳朵、鼻子、尾巴等關鍵部位)上的分割性能,研究對比了XMem-SimAM與其他對比模型在這些區(qū)域的表現。圖9展示了各模型在豬只頭部和尾部關鍵部位的分割結果。結果顯示,XMem-SimAM在耳朵和鼻子等小目標區(qū)域的分割效果顯著優(yōu)于其他模型,能夠更準確地捕捉這些關鍵部位的細節(jié)。這種高精度的分割對于后續(xù)的豬只體尺測量至關重要,確保了測量的準確性和可靠性。相較之下,其他模型在這些細節(jié)處理上表現出漏分割或邊界模糊的現象,進一步證明了XMem-SimAM在細節(jié)處理上的優(yōu)勢。
如表5所示,XMem-SimAM在小目標區(qū)域分割任務上取得了最優(yōu)性能,平均指標達到97.18。相比于XMem方法提升了0.6,相比DEVA、STCN、MiVOS和XMem++等方法分別提升了0.88、1.23、1.38和2.40。這些量化結果進一步驗證了XMem-SimAM在處理小目標區(qū)域分割時的卓越表現,特別是在需要精細分割的關鍵部位上具有明顯優(yōu)勢。
2.3 消融實驗
在XMem模型的基礎上,本研究通過引入Si?mAM無參注意力和多尺度注意力特征融合模塊,進行消融實驗,以評估其對分割性能的提升效果。結果如表6所示,SimAM無參注意力模塊在幾乎不增加模型參數量和僅略微增加FLOPs的情況下,使測試集上的Jamp;F、J、F和Dice系數均提升了0.2。此外,通過多尺度注意力特征融合模塊的引入,測試集上的Jamp;F、J、F和Dice系數分別較原始模型提升了0.4、0.4、0.4和0.3。綜合來看,XMem-SimAM模型在顯著提升分割精度的同時,保持了參數量的合理控制,以較低的計算代價實現了性能的優(yōu)化,充分證明了本研究所集成的模塊在提升模型性能方面發(fā)揮了關鍵作用。
2.4 特征圖可視化分析
為了深入理解XMem-SimAM在豬只視頻對象分割任務中的性能表現,本研究采用Grad-CAM[29](gradient-weightedclassactivationmapping,Grad-CAM)進行模型特征圖可視化。Grad-CAM作為一種可視化解釋工具,能夠揭示網絡在作出決策時關注的關鍵區(qū)域。
由圖10可知,XMem-SimAM在豬只輪廓的邊緣區(qū)域展現出更加明顯的激活區(qū)域,尤其是在耳朵和輪廓區(qū)域,顏色越接近深紅,表示該區(qū)域對模型預測的貢獻越大,表明模型能夠有效地捕捉動態(tài)變化的細節(jié)特征。通過進一步的熱力圖對比分析,Si?mAM注意力機制在耳朵和輪廓區(qū)域的關注程度更深,反映了SimAM在細節(jié)處理上的顯著提升,結果驗證了改進策略在豬只視頻對象分割任務中的有效性,也表明SimAM注意力機制在捕捉動態(tài)變化特征和細節(jié)處理中的關鍵作用。
3 討論
本研究基于測定站內動態(tài)生長的豬只視頻,構建了一個豬只視頻數據集,提出了一種基于半監(jiān)督學習的豬只視頻分割模型XMem-SimAM,該模型通過引入無參注意力機制和多尺度特征融合方法改進編碼器-解碼器架構,有效捕獲豬只視頻序列的時序特征。結果表明:XMem-SimAM模型在J、F、Jamp;F和Dice系數上分別達到96.9、95.8、98.0和98.0,推理階段處理速度達到58.5幀/s,內存消耗為795MB,展現了其在處理動態(tài)移動和生長的豬只視頻數據的卓越性能。此外,熱力圖特征可視化和消融實驗進一步驗證了所提出的改進策略在提升豬只視頻分割任務性能方面的顯著效果。綜上所述,XMem-Si?mAM能夠有效捕獲豬只細粒度特征,并實現局部關鍵區(qū)域的高精度分割,使其成為豬只表型測試下游任務的有力工具。
然而本研究仍存在一些不足。首先,模型的復雜度和浮點運算量相對較高,可通過模型剪枝、知識蒸餾和量化等輕量化方式進一步優(yōu)化,以擴展適應資源受限的邊緣設備。其次,當前數據集主要來自測定站內的受控環(huán)境,后續(xù)研究將擴大數據集規(guī)模,增加不同品種和環(huán)境下的樣本,探索模型輕量化方法,并將模型應用于更復雜的實際養(yǎng)殖場景,進一步驗證其在變化光照、高密度群養(yǎng)等條件下的性能。