劉 斌,王凱歌,李曉蒙,胡春海
(燕山大學(xué)河北省測(cè)試測(cè)量技術(shù)重點(diǎn)實(shí)驗(yàn)室,秦皇島 066004)
條紋斑竹鯊(Chiloscyllium plagiosum,以下簡(jiǎn)稱(chēng)條斑鯊),屬于淺海底棲板鰓類(lèi)軟骨魚(yú)。在中國(guó),主要分布于東海和南海海域[1]。條斑鯊蛋白質(zhì)含量高,無(wú)機(jī)質(zhì)豐富均衡,可食用也可供觀賞[2-3]。由于鯊魚(yú)具有較強(qiáng)的免疫力和抗腫瘤特性,條斑鯊也被用于生物學(xué)和藥理研究[4-5]。因此,人工馴養(yǎng)條斑鯊具有較高的經(jīng)濟(jì)價(jià)值和醫(yī)用研究?jī)r(jià)值。但是,海生魚(yú)類(lèi)對(duì)水質(zhì)、溫度等養(yǎng)殖環(huán)境因素要求較高[6],養(yǎng)殖過(guò)程中,時(shí)常導(dǎo)致魚(yú)群出現(xiàn)大規(guī)模病死現(xiàn)象,極易造成經(jīng)濟(jì)損失。如能對(duì)魚(yú)體異常行為進(jìn)行自動(dòng)識(shí)別和早期預(yù)警,將有效提高養(yǎng)殖養(yǎng)護(hù)水平。
智能監(jiān)控和視頻行為分析已成為動(dòng)物行為學(xué)研究中觀測(cè)、記錄和量化行為模式的重要技術(shù)手段。勞鳳丹等[7]早在2012年已經(jīng)提出了利用計(jì)算機(jī)視覺(jué)技術(shù)對(duì)單幅蛋雞圖像進(jìn)行圖像識(shí)別的方法,可識(shí)別蛋雞的日常行為活動(dòng)。高云等[8]提出了基于深度學(xué)習(xí)的方法識(shí)別群養(yǎng)豬侵略性行為。范良忠等[9]基于計(jì)算機(jī)視覺(jué)技術(shù)研究了運(yùn)動(dòng)魚(yú)體的檢測(cè)算法。宋懷波等[10-12]研究了基于視頻分析的奶牛行為監(jiān)測(cè)技術(shù)。薛月菊等[13]研究了深度學(xué)習(xí)的哺乳母豬姿態(tài)識(shí)別算法,可以全天監(jiān)測(cè)豬舍中母豬姿態(tài)并進(jìn)行識(shí)別。視頻分析技術(shù)對(duì)于鼠、果蠅、斑馬魚(yú)等典型模式生物的行為學(xué)研究起到了重要的推動(dòng)作用[14]。
當(dāng)前研究大多針對(duì)動(dòng)物對(duì)象整體繪制質(zhì)心運(yùn)動(dòng)軌跡,或依據(jù)可視外觀輪廓?jiǎng)澐稚眢w區(qū)域進(jìn)行視頻圖像處理和行為分析。這些方法無(wú)法對(duì)不同的身體組成部位進(jìn)行有選擇性的細(xì)致觀察,也無(wú)法利用動(dòng)物身體各構(gòu)成部位在時(shí)間序列圖像中呈現(xiàn)出具有統(tǒng)計(jì)性的空間變化規(guī)律進(jìn)行運(yùn)動(dòng)姿態(tài)的解析。所謂語(yǔ)義部位分割,是將單幀圖像中同一目標(biāo)對(duì)象按照其身體部位的不同,分割成不同的圖像區(qū)域。語(yǔ)義部位分割結(jié)果可用于表示和描述視頻觀測(cè)對(duì)象姿態(tài)和行為,還可用于細(xì)致觀測(cè)和量化區(qū)分對(duì)象的某個(gè)局部構(gòu)件[15-16]、完成遮擋等復(fù)雜條件下的檢測(cè)定位[17]、跟蹤[18]和姿態(tài)估計(jì)[19-20],以及研究各部位在動(dòng)作行為表現(xiàn)中的時(shí)空關(guān)系[21],具有重要的應(yīng)用價(jià)值。
本文通過(guò)對(duì)視頻觀測(cè)對(duì)象的魚(yú)體可視部位的語(yǔ)義劃分,在自建數(shù)據(jù)集基礎(chǔ)上,利用編解碼深度網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)魚(yú)體各組成部位的語(yǔ)義部位分割,應(yīng)用分割結(jié)果的語(yǔ)義標(biāo)簽和空間信息表征魚(yú)體姿態(tài),通過(guò)建立隨體坐標(biāo)判明魚(yú)體動(dòng)作。研究結(jié)果可為人工養(yǎng)殖條斑鯊的異常行為識(shí)別和開(kāi)展面向鯊魚(yú)的行為學(xué)試驗(yàn)提供參考。
當(dāng)前,國(guó)內(nèi)外視頻分析相關(guān)研究大多針對(duì)具備海量公共數(shù)據(jù)樣本集的人體目標(biāo),調(diào)試各種深度網(wǎng)絡(luò)模型。尚未見(jiàn)有針對(duì)鯊魚(yú)的公共數(shù)據(jù)樣本。本文首先建立了條斑鯊魚(yú)體語(yǔ)義部位圖像樣本數(shù)據(jù)集。
1.1.1 條斑鯊魚(yú)體語(yǔ)義部位劃分
語(yǔ)義部位分割任務(wù)與傳統(tǒng)語(yǔ)義分割任務(wù)具有顯著的不同。傳統(tǒng)語(yǔ)義分割是按照?qǐng)D像中不同的目標(biāo)類(lèi)別進(jìn)行區(qū)域劃分。魚(yú)體語(yǔ)義部位分割的目標(biāo)是將單體目標(biāo)按照身體部位劃分為不同的組成部分。這些部位的選擇不僅要考慮監(jiān)控對(duì)象實(shí)際的身體構(gòu)成,而且還要考慮監(jiān)控視頻的視點(diǎn),即監(jiān)控對(duì)象在監(jiān)控相機(jī)成像面上的投影影像。此外,魚(yú)體部位的劃分應(yīng)有助于表示目標(biāo)姿態(tài)和行為。
按照視頻中魚(yú)體可視部位的形態(tài)結(jié)構(gòu),魚(yú)體劃分為:頭、軀干、左胸鰭、右胸鰭、左腹鰭、右腹鰭、尾共計(jì)7個(gè)互不重疊的組成部分,并分別標(biāo)注語(yǔ)義標(biāo)簽,如圖1所示,圖中利用顏色分別標(biāo)記。給定一幅子圖圖像,語(yǔ)義部位分割方法將自動(dòng)計(jì)算出身體組成部位的語(yǔ)義分割預(yù)測(cè)結(jié)果,在后續(xù)的試驗(yàn)結(jié)果輸出中,采用圖1b所示顏色作為各個(gè)組成部位的標(biāo)簽顏色,它們分別對(duì)應(yīng)各自的部位名稱(chēng),即為各部位的“語(yǔ)義”。
1.1.2 圖像樣本數(shù)據(jù)集的建立
全景養(yǎng)殖監(jiān)控視頻采用彩色GigE相機(jī)MV-E800C拍攝,分辨率為2 048×2 048像素,幀頻為10幀/s,人工馴養(yǎng)條斑鯊視頻監(jiān)控系統(tǒng)示意圖如圖2所示,其中,攝像機(jī)固定且垂直于水池拍攝全景視頻。在全景視頻序列圖像中,抽取單體的運(yùn)動(dòng)子圖用于研究魚(yú)體部位分割和姿態(tài)解析問(wèn)題。利用高斯混合背景模型算法獲取魚(yú)體運(yùn)動(dòng)子圖,共抽取近900張魚(yú)體子圖圖像數(shù)據(jù),每幅圖像尺寸為256像素×256像素,其中也有一些不相關(guān)內(nèi)容摻雜在內(nèi),例如多條魚(yú)影響,養(yǎng)殖池邊緣,白色管道和雜物等。為了能夠獲得較清晰的魚(yú)體圖像,選擇了干擾較少,噪聲影響小,水波幅度小且魚(yú)體完整的476幅圖像作為訓(xùn)練網(wǎng)絡(luò)模型的候選圖樣。
使用labelme開(kāi)源標(biāo)注工具[22]進(jìn)行手工標(biāo)記,建立標(biāo)準(zhǔn)像素級(jí)標(biāo)簽數(shù)據(jù)集,形成了與原始圖像對(duì)應(yīng)的地面真實(shí)值圖像(Ground Truth,GT)作為標(biāo)準(zhǔn)標(biāo)簽圖像與原始圖像一一對(duì)應(yīng),為下一步研究提供可靠的數(shù)據(jù)依據(jù)。通過(guò)平面旋轉(zhuǎn)方式將原始數(shù)據(jù)集擴(kuò)增到1 944幅圖像樣本,降低模型的過(guò)擬合。將圖像樣本數(shù)據(jù)集按照6:4的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集為1 166幅圖像,測(cè)試集為778幅圖像,有效類(lèi)別數(shù)為7(背景類(lèi)別除外)。
本試驗(yàn)環(huán)境為PC機(jī)(Windows 10操作系統(tǒng),硬件環(huán)境為Intel(R)HD Graphics 630,GPU為NVIDIA GeForce GTX 1070,軟件平臺(tái)為MATLAB R2019a)。在前文所述自建數(shù)據(jù)集基礎(chǔ)上,利用編解碼深度網(wǎng)絡(luò)進(jìn)行條斑鯊魚(yú)體語(yǔ)義部位分割的流程,如圖3所示。
主要過(guò)程描述如下:1)在室內(nèi)養(yǎng)殖環(huán)境下的魚(yú)養(yǎng)監(jiān)控視頻中進(jìn)行魚(yú)圖像原始樣本采集;2)得到的樣本數(shù)據(jù)使用labelme工具進(jìn)行手工標(biāo)記制作數(shù)據(jù)集;3)將原始樣本數(shù)據(jù)和標(biāo)簽樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)擴(kuò)增,防止在訓(xùn)練過(guò)程中模型發(fā)生過(guò)擬合現(xiàn)象;4)模型訓(xùn)練前,將樣本數(shù)據(jù)集和標(biāo)簽數(shù)據(jù)集分為訓(xùn)練樣本和測(cè)試樣本,對(duì)模型的訓(xùn)練參數(shù)進(jìn)行優(yōu)化調(diào)整;5)在搭建好的網(wǎng)絡(luò)模型上利用訓(xùn)練樣本進(jìn)行訓(xùn)練,得到魚(yú)體部位分割模型;6)利用具有最優(yōu)參數(shù)的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)所有測(cè)試圖像樣本進(jìn)行分割,得到最終分割結(jié)果;7)對(duì)分割結(jié)果進(jìn)行后處理,首先采用數(shù)學(xué)形態(tài)學(xué)閉運(yùn)算填充空洞,再通過(guò)計(jì)算連通區(qū)域面積,剔除小面積雜散區(qū)域,獲取最終魚(yú)體部位完整區(qū)域;8)對(duì)分類(lèi)結(jié)果與對(duì)應(yīng)的標(biāo)簽進(jìn)行逐像素匹配計(jì)算,得出混淆矩陣,對(duì)分割結(jié)果進(jìn)行評(píng)價(jià)。
1.2.1 基于編解碼深度網(wǎng)絡(luò)的條斑鯊魚(yú)體語(yǔ)義部位分割方法
編解碼深度學(xué)習(xí)網(wǎng)絡(luò)常被用于進(jìn)行圖像語(yǔ)義分割,多用于區(qū)分場(chǎng)景中不同類(lèi)別目標(biāo)個(gè)體。這里則嘗試采用編解碼深度學(xué)習(xí)網(wǎng)絡(luò)模型自動(dòng)區(qū)分圖像中同一目標(biāo)的不同身體部位,并對(duì)FCN和SegNet編解碼深度網(wǎng)絡(luò)模型進(jìn)行試驗(yàn)對(duì)比研究。
基于FCN網(wǎng)絡(luò)的條斑鯊魚(yú)體部位分割流程如圖4所示。傳統(tǒng)FCN網(wǎng)絡(luò)[23]通過(guò)反卷積層對(duì)最后一個(gè)卷積層的魚(yú)體部位特征圖進(jìn)行上采樣得到對(duì)每個(gè)像素的預(yù)測(cè),然后在與輸入圖像尺寸相同的256×256像素的特征圖上進(jìn)行像素分類(lèi),基于此過(guò)程的語(yǔ)義分割的最終預(yù)測(cè)層的輸出步長(zhǎng)為32的像素限制了上采樣輸出的細(xì)節(jié)尺度導(dǎo)致分割結(jié)果粗糙。該架構(gòu)定義了一個(gè)跳躍結(jié)構(gòu)FCN-8s,以具有13層卷積層、5個(gè)池化層和3層全連接層的VGG16網(wǎng)絡(luò)[24]作為主干網(wǎng)絡(luò),并將3層全連接層替換為全連接卷積層,具體操作為:將分別對(duì)應(yīng)1 000個(gè)類(lèi)別的概率并且長(zhǎng)度為4 096、4 096、1 000的一維向量的3層全連接層表示為卷積核大小(通道數(shù),寬,高)分別為(4 096,7,7),(4 096,1,1),(1 000,1,1)的全連接卷積層。對(duì)于輸入的魚(yú)體圖像,經(jīng)歷了5次卷積和池化操作后的部位特征圖縮小為原圖的1/32,而跳躍層結(jié)構(gòu)保留了第3、4次的結(jié)果,首先,第3次的結(jié)果與經(jīng)過(guò)第5次的特征圖進(jìn)行上采樣的結(jié)果進(jìn)行結(jié)合為原圖1/16,然后與第三次卷積池化結(jié)果結(jié)合為原圖1/8,經(jīng)過(guò)8倍上采樣后輸入到softmax層以恢復(fù)到保留了空間信息的原始圖像中魚(yú)體各個(gè)部位像素大小,從而輸出最大概率魚(yú)體部位類(lèi)別的結(jié)果?;趥鹘y(tǒng)的FCN網(wǎng)絡(luò)架構(gòu)雖然網(wǎng)絡(luò)結(jié)構(gòu)較為簡(jiǎn)單,但在推理過(guò)程中占用了大量?jī)?nèi)存,同時(shí)需要進(jìn)行上采樣學(xué)習(xí),存在分割效果粗糙等問(wèn)題。
本文采用一種高效的像素級(jí)語(yǔ)義分割框架-SegNet網(wǎng)絡(luò)[25],結(jié)合了全卷積網(wǎng)絡(luò)和編碼器-解碼器架構(gòu)[26-27],可以避免由于FCN的池化層導(dǎo)致的空間分辨率損失,起初應(yīng)用在道路場(chǎng)景理解中[28-31]?;赟egnet網(wǎng)絡(luò)的條斑鯊魚(yú)體部位分割流程如圖5所示。Segnet網(wǎng)絡(luò)的一個(gè)關(guān)鍵學(xué)習(xí)模塊就是編碼器-解碼器網(wǎng)絡(luò)。編碼器采取了VGG16網(wǎng)絡(luò)的前13層sam卷積層來(lái)提取特征,對(duì)單魚(yú)圖像中的每一個(gè)像素點(diǎn)進(jìn)行提取,具體操作是網(wǎng)絡(luò)中的每一個(gè)編碼器與濾波器組進(jìn)行卷積產(chǎn)生一組與尺寸為256×256像素的單魚(yú)圖像的特征映射。然后執(zhí)行帶有2×2濾波器和步長(zhǎng)為2的最大池化索引并將其在魚(yú)體部位特征中的最大區(qū)域的位置保存,目的是便于解碼器利用其來(lái)進(jìn)行非線(xiàn)性上采樣。解碼器在結(jié)構(gòu)上與編碼器為對(duì)稱(chēng)關(guān)系,使用一個(gè)可訓(xùn)練的濾波器組對(duì)上采樣后恢復(fù)到原圖尺寸的稀疏映射進(jìn)行卷積,以重建輸入圖像生成密集的魚(yú)體部位特征圖。由于編碼器在每次池化后濾波器都會(huì)丟失3個(gè)權(quán)重,將這些在池化過(guò)程中的所在2×2濾波器中最大權(quán)重的位置保存下來(lái),在解碼過(guò)程中上采樣就可以根據(jù)位置放入輸入特征圖找回丟失的信息。最后的解碼器輸出被提供給一個(gè)分類(lèi)器softmax,以產(chǎn)生每個(gè)像素獨(dú)立的類(lèi)概率,從而實(shí)現(xiàn)語(yǔ)義分割。
Segnet網(wǎng)絡(luò)和FCN網(wǎng)絡(luò)的思路十分相似,在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,Segnet網(wǎng)絡(luò)對(duì)每次卷積后的結(jié)果添加規(guī)范化(Batch Normalization)處理[32]和激活函數(shù)ReLu,F(xiàn)CN網(wǎng)絡(luò)對(duì)每次卷積后的結(jié)果添加激活函數(shù)ReLu。它們的編碼和解碼技術(shù)有所不同。在FCN網(wǎng)絡(luò)的解碼器中,上采樣使用一個(gè)固定的或可訓(xùn)練的多通道上采樣核通過(guò)反卷積來(lái)執(zhí)行。Segnet網(wǎng)絡(luò)使用的解碼技術(shù)沒(méi)有涉及到任何學(xué)習(xí),上采樣映射與可訓(xùn)練的多通道解碼器濾波器進(jìn)行卷積,以增強(qiáng)其稀疏輸入的密度。設(shè)計(jì)Segnet網(wǎng)絡(luò)的目的旨在產(chǎn)生平滑的分割,并將目標(biāo)根據(jù)其形態(tài)描繪出來(lái)。這兩種深度網(wǎng)絡(luò)結(jié)構(gòu)多用于進(jìn)行語(yǔ)義分割,且建立在海量大數(shù)據(jù)和強(qiáng)標(biāo)注基礎(chǔ)上,能否針對(duì)實(shí)際應(yīng)用總的小樣本數(shù)據(jù)實(shí)現(xiàn)有效語(yǔ)義部位分割尚待研究。
1.2.2 基于語(yǔ)義部位分割的魚(yú)體姿態(tài)解析
基于語(yǔ)義部位分割的魚(yú)體姿態(tài)解析利用上述語(yǔ)義部位分割結(jié)果,利用不同顏色標(biāo)記的魚(yú)體部位可以定位魚(yú)體不同的身體部件,解析計(jì)算單幀圖像中目標(biāo)的姿態(tài),進(jìn)而判明幀序列中魚(yú)體游動(dòng)的動(dòng)作變化。主要步驟分為:1)繪制隨體坐標(biāo);2)解析計(jì)算魚(yú)體朝向;3)判明運(yùn)動(dòng)方向。
1)繪制隨體坐標(biāo)。不同于常見(jiàn)的人體監(jiān)控視頻圖像,魚(yú)體在全局監(jiān)控視頻俯視視點(diǎn)下呈四周朝向,并非如人體呈直立朝向,因此,建立隨魚(yú)體變動(dòng)的局部坐標(biāo)系,對(duì)于計(jì)算魚(yú)體姿態(tài)朝向,進(jìn)而判明魚(yú)體動(dòng)作變化是必要的。顯然,前文所述魚(yú)體目標(biāo)的語(yǔ)義部位分割結(jié)果有助于定量描述各個(gè)部位的位置關(guān)系。具體而言,就是根據(jù)分割網(wǎng)絡(luò)得到魚(yú)頭、左右胸鰭、左右腹鰭、軀干、魚(yú)尾7個(gè)語(yǔ)義部位來(lái)判定各自區(qū)域質(zhì)心位置,作為魚(yú)體部位關(guān)鍵點(diǎn)。以軀干和頭部質(zhì)心的連接線(xiàn)作為魚(yú)體坐標(biāo)系的縱軸,并且箭頭方向指向頭部,橫軸穿過(guò)軀干質(zhì)心并垂直于縱軸,至此,完成魚(yú)體隨體坐標(biāo)系的繪制。
2)計(jì)算魚(yú)體朝向。由于監(jiān)控相機(jī)和水池是相對(duì)固定的,通過(guò)計(jì)算魚(yú)體隨體坐標(biāo)系與視頻幀圖像坐標(biāo)的相對(duì)方向,即可計(jì)算單幀圖像中魚(yú)體的朝向角(方向角)α,如圖7所示。首先根據(jù)語(yǔ)義部位分割方法和局部區(qū)域中心計(jì)算方法得到魚(yú)體頭部中心點(diǎn)C(x1,y1)和魚(yú)體旋轉(zhuǎn)中心點(diǎn)Cr(x2,y2)和,連接兩點(diǎn)得到方向向量α,方向由Cr指向C,代表魚(yú)體頭部朝向。已知豎直向下且以Cr為起點(diǎn)并且平行于圖像直角坐標(biāo)系x軸的單位向量n,利用余弦定理,魚(yú)體朝向角α(°)的計(jì)算公式如下:
式中y1和y2分別代表C和Cr的縱坐標(biāo)位置。y1≥y2表示頭部中心點(diǎn)位于旋轉(zhuǎn)中心的右側(cè),此時(shí)計(jì)算方向角的范圍在[0,180°];y1<y2表示頭部中心點(diǎn)位于旋轉(zhuǎn)中心左側(cè),將單位向量n進(jìn)行反向處理(豎直向上),且計(jì)算的方向角需加上180°,使朝向角的范圍在[180°, 360°],最后α的取值范圍在[0, 360°]。
3)判明運(yùn)動(dòng)方向。在條紋鯊運(yùn)動(dòng)過(guò)程中,尾鰭左右擺動(dòng)推進(jìn)魚(yú)體前進(jìn),使魚(yú)體保持穩(wěn)定,而胸鰭擺動(dòng)時(shí)魚(yú)體向不動(dòng)的一側(cè)轉(zhuǎn)彎,運(yùn)動(dòng)完成。根據(jù)魚(yú)體的隨體坐標(biāo)系縱軸方向與全景圖像坐標(biāo)系橫軸方向的夾角α變化可以判斷出魚(yú)體的運(yùn)動(dòng)方向的變化。在α取值范圍內(nèi),當(dāng)α持續(xù)增加時(shí),判斷魚(yú)體在逆時(shí)針轉(zhuǎn)向,即左轉(zhuǎn),反之,當(dāng)α減小時(shí),則在順時(shí)轉(zhuǎn)向,即右轉(zhuǎn)。
采集存儲(chǔ)的全景監(jiān)控?cái)?shù)據(jù)利用前文所述方法建立條斑鯊魚(yú)體語(yǔ)義部位圖像樣本數(shù)據(jù)集。在模型訓(xùn)練前,對(duì)語(yǔ)義分割網(wǎng)絡(luò)模型主要參數(shù)進(jìn)行設(shè)置,動(dòng)量參數(shù)(Momentum)的作用是加速模型收斂,設(shè)為0.9的隨機(jī)梯度下降算法進(jìn)行優(yōu)化;學(xué)習(xí)率是模型訓(xùn)練中最為重要的一個(gè)參數(shù),不僅可以控制模型的學(xué)習(xí)進(jìn)度,還會(huì)直接影響訓(xùn)練結(jié)果,初始學(xué)習(xí)率(Learning rate)設(shè)置為0.001,使得模型在一定范圍內(nèi)快速收斂;訓(xùn)練批尺寸(Batchsize)表示一個(gè)批次輸入到模型中進(jìn)行訓(xùn)練的圖像數(shù)量,本文設(shè)為4;迭代次數(shù)(EpochNum)設(shè)為100次;使用交叉熵?fù)p失函數(shù)作為訓(xùn)練網(wǎng)絡(luò)的損失函數(shù),直到結(jié)果達(dá)到收斂為止。對(duì)使用的兩種語(yǔ)義分割模型設(shè)置為完全一樣的上述訓(xùn)練參數(shù),并對(duì)其分割結(jié)果進(jìn)行對(duì)比分析。
為了合理客觀地評(píng)價(jià)網(wǎng)絡(luò)模型在魚(yú)體部位語(yǔ)義分割任務(wù)上的性能以及對(duì)比不同方法的分割性能,使用區(qū)域重合度(Intersection over Union,IoU),準(zhǔn)確率(Accuracy),邊界輪廓匹配分?jǐn)?shù)(MeanBFscore)進(jìn)行評(píng)價(jià)。
1)區(qū)域重合度IoU分?jǐn)?shù)(Jaccard相似系數(shù))表示真實(shí)值集合和預(yù)測(cè)值集合中相交的像素與總像素的比值,計(jì)算式為2)準(zhǔn)確率Accuracy表示正確分類(lèi)的魚(yú)體部位像素與該類(lèi)像素總數(shù)的比值,計(jì)算式為
3)邊界輪廓匹配分?jǐn)?shù)MeanBFscore表示各類(lèi)預(yù)測(cè)邊界與真實(shí)邊界的匹配程度,計(jì)算式為
式中本文中使用的A為網(wǎng)絡(luò)分割后的帶有像素標(biāo)簽的分割圖,B為手動(dòng)標(biāo)記標(biāo)有類(lèi)別標(biāo)簽的真值圖。以評(píng)估魚(yú)頭部位為例,TP為預(yù)測(cè)為魚(yú)頭區(qū)域的像素,實(shí)際也為魚(yú)頭區(qū)域像素;FP為預(yù)測(cè)為魚(yú)頭區(qū)域的像素,實(shí)際不為魚(yú)頭像素區(qū)域;FN為預(yù)測(cè)為不屬于魚(yú)頭區(qū)域的像素,實(shí)際為魚(yú)頭區(qū)域;TN為預(yù)測(cè)為不屬于魚(yú)頭區(qū)域的像素,實(shí)際不為魚(yú)頭區(qū)域,單位均為像素Pixels。
語(yǔ)義部位分割試驗(yàn)選取運(yùn)動(dòng)子圖數(shù)據(jù)集,共有1 944張魚(yú)體圖像,其中按照比例6∶4劃分為訓(xùn)練集和測(cè)試集。兩種方法訓(xùn)練后的部分預(yù)測(cè)結(jié)果如圖6的第一行所示,可以看出基于FCN-8s和SegNet網(wǎng)絡(luò)的語(yǔ)義分割方法能夠準(zhǔn)確地分割出魚(yú)體的各個(gè)部位,但是也存在一些不足之處,比如邊界位置信息的描述不是很平滑。在訓(xùn)練過(guò)程中,訓(xùn)練集圖像共計(jì)1 166張,迭代29 100次,基于FCN-8s網(wǎng)絡(luò)的訓(xùn)練歷時(shí)24 151 s,Segnet網(wǎng)絡(luò)訓(xùn)練過(guò)程歷時(shí)18 292 s;在測(cè)試過(guò)程中,測(cè)試集圖像共計(jì)778張,基于FCN-8s網(wǎng)絡(luò)處理每幅圖像的平均時(shí)間為0.46 s,Segnet網(wǎng)絡(luò)處理每幅圖像的平均時(shí)間為0.31 s。
圖7為2種網(wǎng)絡(luò)模型對(duì)測(cè)試集條斑鯊中每類(lèi)對(duì)象的分割結(jié)果。首先,在測(cè)試集里的魚(yú)體單圖圖像進(jìn)行了IoU評(píng)價(jià),對(duì)于給定的一張輸入圖像,測(cè)試其在網(wǎng)絡(luò)分割方法分割后的性能,第一,由于標(biāo)準(zhǔn)數(shù)據(jù)集下的魚(yú)體受到的干擾較小,分割后的魚(yú)體語(yǔ)義部位圖無(wú)需進(jìn)行后處理就可以達(dá)到較好的分割效果,各類(lèi)魚(yú)體部位類(lèi)別準(zhǔn)確率很高,如圖7a所示?;赟egNet網(wǎng)絡(luò)分割結(jié)果相比于FCN-8s網(wǎng)絡(luò)的各個(gè)部位的邊界更平滑,與真值圖的各類(lèi)目標(biāo)的吻合程度更高,這是由于SegNet網(wǎng)絡(luò)融合了更低層的卷積網(wǎng)絡(luò)特征,保留了更多細(xì)節(jié)信息。第二,由于魚(yú)體大小和動(dòng)作行為均不相同,分割結(jié)果幾乎未受到尺度影響,具有尺度不變性,很好解決了魚(yú)體顏色不均勻,又與背景顏色相近的問(wèn)題。第三,通過(guò)分割結(jié)果評(píng)估和視覺(jué)檢查,可以得出靠近魚(yú)鰭或魚(yú)的邊界像素更容易被錯(cuò)誤地分類(lèi)為魚(yú)鰭,導(dǎo)致4個(gè)魚(yú)鰭的分割精度較低。
由于訓(xùn)練好的深度網(wǎng)絡(luò)模型對(duì)于復(fù)雜背景下或者在有干擾的環(huán)境下分割結(jié)果不理想,添加如方法流程圖所述的后處理步驟來(lái)提高魚(yú)體部位語(yǔ)義分割的精度。在保證分割后的魚(yú)體部位完整的情況下去除不連通區(qū)域,例如水中雜質(zhì),障礙物的干擾等等。選取在測(cè)試集中帶有干擾的魚(yú)體圖像,如多魚(yú)干擾,障礙物遮擋和水光波照影響等各30張圖像并經(jīng)過(guò)后處理進(jìn)行評(píng)價(jià)對(duì)比,如圖8所示。Segnet網(wǎng)絡(luò)在頭部,右胸鰭,左胸鰭,右腹鰭,左腹鰭,軀干,尾巴部位的準(zhǔn)確度分別高出基于FCN-8s深度網(wǎng)絡(luò)的分割方法1.50,4.70,6.95,6.56,6.01,0.85,0.84個(gè)百分點(diǎn)。
從圖8可以看出,在多魚(yú)干擾的情況下,F(xiàn)CN-8s分割方法出現(xiàn)較明顯的錯(cuò)誤分割現(xiàn)象,魚(yú)體部位的邊界較為模糊,在有障礙物干擾的情況下,SegNet能較好地分割出魚(yú)體的各個(gè)部位,而FCN-8s存在一定的錯(cuò)誤分割現(xiàn)象,有的區(qū)域被混淆且邊界模糊。當(dāng)水中魚(yú)體受到光照影響的情況下,導(dǎo)致條斑鯊所在的環(huán)境曝光過(guò)度,但是FCN-8s網(wǎng)絡(luò)和SegNet網(wǎng)絡(luò)大體上都能將魚(yú)體部位分割出來(lái),無(wú)明顯的錯(cuò)誤分割現(xiàn)象,說(shuō)明網(wǎng)絡(luò)對(duì)關(guān)照影響有較好的魯棒性。FCN-8s對(duì)圖像中的低亮像素分割性能較差。
將運(yùn)動(dòng)子圖數(shù)據(jù)集劃分為左轉(zhuǎn)、直行和右轉(zhuǎn)三類(lèi)不同的運(yùn)動(dòng)子圖序列,共計(jì)35組。在三類(lèi)中隨機(jī)抽取任一序列,按照前述方法,采用基于SegNet網(wǎng)絡(luò)的語(yǔ)義部位分割方法進(jìn)行魚(yú)體部位劃分,建立隨體坐標(biāo),計(jì)算單幀朝向,各運(yùn)動(dòng)序列中魚(yú)體朝向角α在圖像上標(biāo)記,如圖9所示。
依據(jù)本文算法擬定的坐標(biāo)方向規(guī)則,針對(duì)不同運(yùn)動(dòng)序列子圖進(jìn)行多組試驗(yàn),統(tǒng)計(jì)得出魚(yú)體不同運(yùn)動(dòng)姿態(tài)下方向角變化規(guī)律:在[0°,360°]范圍內(nèi),左轉(zhuǎn)序列圖中,方向角α?xí)饾u增大;右轉(zhuǎn)序列中,α逐漸減?。恢毙行蛄兄?,方向角α小范圍內(nèi)波動(dòng)。魚(yú)體目標(biāo)如持續(xù)左轉(zhuǎn)(或右轉(zhuǎn)),則方向角α增加至360°(減小至0°)臨界值后,跳變至0°(360°)重新開(kāi)始計(jì)算,將呈現(xiàn)鋸齒圖樣。所以,從α的波動(dòng)圖可以判明魚(yú)體目標(biāo)定向/非定向、直行/靜止的運(yùn)動(dòng)姿態(tài)變化。在某時(shí)段內(nèi),目標(biāo)定向左/右轉(zhuǎn)時(shí),α呈鋸齒形變化;目標(biāo)非定向左/右轉(zhuǎn)時(shí),α呈拱形變化;當(dāng)目標(biāo)直行時(shí),α呈小幅度范圍內(nèi)波動(dòng)變化;目標(biāo)靜止時(shí),α基本保持恒定。
在此基礎(chǔ)上,針對(duì)一段包含多種運(yùn)動(dòng)方向變化的魚(yú)游序列姿態(tài)解析計(jì)算結(jié)果如圖10所示。幀中,角度變化幅度較小,表示魚(yú)體為直行狀態(tài)。對(duì)于試驗(yàn)中所用包含35幀圖像的運(yùn)動(dòng)序列子圖,語(yǔ)義部位分割計(jì)算和姿態(tài)解析的運(yùn)算時(shí)間不超過(guò)11 s。所以,視頻序列中魚(yú)體隨體坐標(biāo)系縱軸方向與單位矢量坐標(biāo)軸橫軸的夾角方向變化可以判斷出魚(yú)體的運(yùn)動(dòng)方向??梢?jiàn),在語(yǔ)義部位分割基礎(chǔ)上,可根據(jù)魚(yú)體方向角α變化規(guī)律判明魚(yú)體運(yùn)動(dòng)方向,為進(jìn)一步開(kāi)展魚(yú)體行為學(xué)觀測(cè)提供考慮。
隨著魚(yú)體的不斷運(yùn)動(dòng)和位置變化,魚(yú)體朝向角α也會(huì)呈現(xiàn)出規(guī)律性變化。在第1幀到第6幀圖像中角度明顯增大,表示魚(yú)體在向左轉(zhuǎn);而第7幀到16幀中角度明顯減小,表示魚(yú)體再向右轉(zhuǎn);在第17幀到23幀圖像中,角度趨近于不變,表示魚(yú)體為靜止?fàn)顟B(tài);第24幀到35
1)本文利用人工馴養(yǎng)條斑鯊養(yǎng)殖監(jiān)控視頻,建立了條斑鯊語(yǔ)義部位樣本數(shù)據(jù)集,選用FCN-8s網(wǎng)絡(luò)和segnet網(wǎng)絡(luò)作為訓(xùn)練模型,開(kāi)展了針對(duì)人工馴養(yǎng)鯊魚(yú)的語(yǔ)義部位分割工作,并將其結(jié)果應(yīng)用到魚(yú)體姿態(tài)解析中。
2)將深度網(wǎng)絡(luò)語(yǔ)義分割模型運(yùn)用于條斑鯊的小樣本魚(yú)體語(yǔ)義部位分割的實(shí)際應(yīng)用中,得到了較好的分割結(jié)果。然后對(duì)兩種網(wǎng)絡(luò)的分割結(jié)果進(jìn)行對(duì)比分析證明,Segnet網(wǎng)絡(luò)在頭部,右胸鰭,左胸鰭,右腹鰭,左腹鰭,軀干,尾巴部位的準(zhǔn)確度分別高出基于FCN-8s深度網(wǎng)絡(luò)的分割方法1.50、4.70、6.95、6.56、6.01、0.85、0.84個(gè)百分點(diǎn)。
3)利用魚(yú)體語(yǔ)義部位分割結(jié)果,建立了魚(yú)體坐標(biāo)系,從而完成在局部坐標(biāo)系下朝向不同的魚(yú)體進(jìn)行各部位空間關(guān)系的解析,可以直接用于判別魚(yú)體動(dòng)作,為進(jìn)一步開(kāi)展人工馴養(yǎng)條斑鯊的行為識(shí)別工作提供考慮。
4)養(yǎng)殖監(jiān)控視頻中,不同條斑鯊魚(yú)體外觀高度近似,水面雜波、反光等復(fù)雜因素也會(huì)對(duì)魚(yú)體跟蹤和部位分割結(jié)果產(chǎn)生嚴(yán)重的負(fù)面影響,導(dǎo)致目標(biāo)興趣區(qū)域偏離和魚(yú)體部位缺失或異位,這些問(wèn)題將在后續(xù)研究中重點(diǎn)加以解決。
本文工作建立在手工標(biāo)注的有限樣本數(shù)據(jù)集基礎(chǔ)上,下一步將研究借助海量的人體部位分割公開(kāi)數(shù)據(jù)集,利用遷移學(xué)習(xí)方法,重新設(shè)計(jì)網(wǎng)絡(luò)訓(xùn)練結(jié)構(gòu),以期克服實(shí)際應(yīng)用中各種復(fù)雜條件干擾,進(jìn)一步提高語(yǔ)義部位分割效果。