胥婧雯,于紅*,張鵬,谷立帥,李海清,鄭國(guó)偉,程思奇,殷雷明
(1.大連海洋大學(xué) 信息工程學(xué)院,遼寧省海洋信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,遼寧 大連 116023;2.設(shè)施漁業(yè)教育部重點(diǎn)實(shí)驗(yàn)室(大連海洋大學(xué)),遼寧 大連 116023;3.大連海洋大學(xué) 水產(chǎn)與生命學(xué)院,遼寧 大連 116023)
魚(yú)類行為是魚(yú)類對(duì)環(huán)境變化的外在反應(yīng),反映魚(yú)類的日常狀態(tài)和生長(zhǎng)情況[1],是養(yǎng)殖技術(shù)人員判斷魚(yú)類健康狀況的重要依據(jù)。魚(yú)類游泳和攝食等行為的自動(dòng)識(shí)別是魚(yú)類活動(dòng)規(guī)律和生活習(xí)性研究的基礎(chǔ),也是精準(zhǔn)投喂和智慧養(yǎng)殖等研究的支撐[2]。
目前,對(duì)魚(yú)類行為識(shí)別研究大多采用基于計(jì)算機(jī)視覺(jué)的方法。張重陽(yáng)等[3]利用多特征融合與機(jī)器學(xué)習(xí)相結(jié)合的方法識(shí)別魚(yú)類攝食行為,有效增強(qiáng)了識(shí)別網(wǎng)絡(luò)的魯棒性;黃志濤等[4]利用魚(yú)體運(yùn)動(dòng)和圖像紋理特征識(shí)別大西洋鮭的攝食活動(dòng),有效提高了識(shí)別精確度。但在真實(shí)生產(chǎn)條件下,光線昏暗導(dǎo)致計(jì)算機(jī)視覺(jué)方法無(wú)法準(zhǔn)確識(shí)別魚(yú)類行為,進(jìn)而影響了識(shí)別準(zhǔn)確率和召回率[5]??紤]到聲音信號(hào)不受光線的影響,研究者對(duì)基于被動(dòng)水聲信號(hào)的魚(yú)類分類和行為進(jìn)行了研究。黃漢英等[6]通過(guò)建立基于主成分分析的支持向量機(jī),實(shí)現(xiàn)對(duì)淡水魚(yú)混合比例識(shí)別,提升了混合比例識(shí)別準(zhǔn)確率;Kim等[7]采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)實(shí)現(xiàn)了胡須海豹的快速識(shí)別,將深度學(xué)習(xí)引進(jìn)被動(dòng)聲學(xué)的檢測(cè)技術(shù)中,能自動(dòng)識(shí)別胡須海豹的出入。魚(yú)類攝食和游泳行為擁有不同聲音特征,但真實(shí)養(yǎng)殖環(huán)境下各種噪聲的存在,會(huì)干擾對(duì)魚(yú)類聲音特征的提取,致使基于被動(dòng)聲學(xué)方法識(shí)別魚(yú)類行為的準(zhǔn)確率和召回率也難以滿足需求[8-9]。人類在復(fù)雜條件下進(jìn)行目標(biāo)識(shí)別時(shí),大腦會(huì)利用聽(tīng)覺(jué)和視覺(jué)的互補(bǔ)性,同理,綜合兩個(gè)模態(tài)的信息識(shí)別魚(yú)類行為,可彌補(bǔ)單一模態(tài)識(shí)別的不足,提升目標(biāo)識(shí)別的準(zhǔn)確性。因此,研究基于聲音與視覺(jué)融合的魚(yú)類行為識(shí)別方法,對(duì)于解決噪聲干擾等復(fù)雜條件下的魚(yú)類行為識(shí)別具有重要意義。
在多模態(tài)融合研究中,已證明多個(gè)模態(tài)信息的共同協(xié)作可以得到關(guān)聯(lián)信息,為各領(lǐng)域的信息服務(wù)提供支撐[10]。多模態(tài)融合是將多種模態(tài)的信息集成在一起,通過(guò)分類方法來(lái)預(yù)測(cè)一個(gè)類。范習(xí)健等[11]提出一種融合聽(tīng)覺(jué)模態(tài)和視覺(jué)模態(tài)信息的雙模態(tài)情感識(shí)別方法,利用CNN網(wǎng)絡(luò)和長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)融合后的聽(tīng)覺(jué)和視覺(jué)雙模態(tài)特征進(jìn)行情感識(shí)別。Venugopalan等[12]利用深度學(xué)習(xí),結(jié)合成像、電子健康記錄和基因組數(shù)據(jù)判斷是否有潛在的阿爾茲海默病,使用不同的策略融合數(shù)據(jù),證明深度融合策略優(yōu)于淺層融合策略。Nagrani等[13]提出一種基于Transformer模型的方法,使用“融合瓶頸”進(jìn)行多層模態(tài)融合,提高了視聽(tīng)融合性能,降低了計(jì)算成本。上述研究表明,多模態(tài)融合在各領(lǐng)域得到了廣泛應(yīng)用,并取得了豐碩研究成果。但在魚(yú)類行為識(shí)別領(lǐng)域中,考慮到魚(yú)類在攝食和游泳時(shí)聲音信號(hào)特征差異小、特征難學(xué)習(xí)的特點(diǎn),不能直接使用上述方法進(jìn)行識(shí)別。本研究中,開(kāi)展了聲音與視覺(jué)融合的多模態(tài)識(shí)別方法研究,在此基礎(chǔ)上充分挖掘模態(tài)關(guān)聯(lián)信息,使各模態(tài)潛在信息交互最大化,提出多級(jí)融合的U-FusionNet-ResNet50+SENet網(wǎng)絡(luò),并設(shè)計(jì)了不同試驗(yàn),驗(yàn)證該方法的有效性,從而實(shí)現(xiàn)復(fù)雜條件下的魚(yú)類行為識(shí)別,為智慧漁業(yè)提供新的技術(shù)支撐。
聲音與視覺(jué)多級(jí)融合的魚(yú)類行為識(shí)別模型,本質(zhì)上是利用魚(yú)類在游泳和攝食等行為時(shí)發(fā)出的聲音信號(hào)和視覺(jué)信息,綜合兩者實(shí)現(xiàn)魚(yú)類行為的分類。為精準(zhǔn)區(qū)分魚(yú)類攝食和游泳行為,需要對(duì)不同模態(tài)的特征提取方法進(jìn)行研究,獲取其在高維空間上的共性。
基于聲音和視覺(jué)多級(jí)融合的魚(yú)類行為識(shí)別模型U-FusionNet-ResNet50+SENet網(wǎng)絡(luò)框架如圖1所示。其中,U-FusionNet網(wǎng)絡(luò)由特征提取模塊、融合模塊和通道注意力網(wǎng)絡(luò)SENet組成,分別訓(xùn)練兩個(gè)不同的ResNet50網(wǎng)絡(luò)作為視覺(jué)模態(tài)與聲音模態(tài)的特征提取器,提取模態(tài)全局特征。將每一個(gè)特征提取階段的輸出經(jīng)過(guò)跳躍連接融合(Skip-Concat)模塊進(jìn)行融合,得到不同維度的融合特征;然后綜合各個(gè)階段的融合信息,將不同階段特征進(jìn)行像素級(jí)疊加,融合成一組復(fù)合特征向量;最后引入通道注意力機(jī)制SENet,通過(guò)全連接層整合特征圖,用Softmax函數(shù)完成魚(yú)類行為識(shí)別分類操作。
Stage 1~5為ResNet50的5個(gè)特征提取階段;Skip-Concat為跳躍連接模塊,實(shí)現(xiàn)不同階段的模態(tài)融合;SENet為通道注意力模塊;Fc為全連接層;Softmax函數(shù)為分類函數(shù)。Stages from 1 to 5 are the five feature extraction stages of ResNet50;Skip-Concat is a skip connection module to achieve mode fusion in different stages;SENet is the channel attention module;Fc is the full connection layer;Softmax function is the classification function.圖1 多級(jí)融合的U-FusionNet-ResNet50+SENet網(wǎng)絡(luò)Fig.1 Multilevel Fusion U-FusionNet-ResNet50+SENet network
采用ResNet50[14](residual neural network,殘差網(wǎng)絡(luò))模型分別提取魚(yú)類行為的視覺(jué)特征和聲音特征,ResNet50模型的殘差連接可以將原始輸入信息傳送到后層中,從而更好地保證特征的完整性??紤]到聲音信號(hào)具有特征差異小、特征學(xué)習(xí)難等特點(diǎn),先使用具有較強(qiáng)特征表達(dá)能力的MFCC(mel frequency cepstrum coefficient)特征系數(shù)[15]表示魚(yú)類行為聲音特征,再將其送入特征提取器中獲取高維特征;然后分別固定其卷積部分作為圖像與聲音的特征提取器,完成特征提取。
ResNet50有5個(gè)不同感受野的特征提取階段,隨著網(wǎng)絡(luò)層數(shù)加深,其潛在基礎(chǔ)網(wǎng)絡(luò)的組合數(shù)目和特征組合次數(shù)增加,但在多次特征組合中,會(huì)出現(xiàn)信息損失,遺漏掉模態(tài)的某些潛在信息;為使模態(tài)交互充分,改進(jìn)U型對(duì)稱架構(gòu)[16],將不同階段的模態(tài)特征通過(guò)跳躍連接融合(Skip-Concat)模塊進(jìn)行融合(圖2)。
up sample為上采樣操作;Concat為通道融合操作;1×1 CONV為1×1卷積;down sample為下采樣操作;element-wise add為元素相加操作。up sample is an up sampling operation;Concat is a fusion operation by channel;1×1 CONV is a 1×1 convolution;down sample is a down sampling operation;element-wise add is an element addition operation.圖2 Skip-Concat模塊Fig.2 Skip-Concat module
為得到尺度相同的聲音與視覺(jué)特征圖,通過(guò)雙線性插值法的上采樣方式,統(tǒng)一不同模態(tài)特征圖尺度。采用Concat對(duì)不同維度特征進(jìn)行融合,用增加通道的方式實(shí)現(xiàn)融合效果,保證融合特征完整性。Concat的詳細(xì)過(guò)程[17]:設(shè)有N維視覺(jué)特征,M維聲音特征,將N維視覺(jué)特征與M維聲音特征進(jìn)行拼接操作,融合成N+M維特征。將融合得到N+M維特征進(jìn)行1×1卷積,進(jìn)一步實(shí)現(xiàn)跨通道交互和信息整合,以提升融合效率;綜合各階段融合信息,將不同階段特征進(jìn)行像素級(jí)疊加,融合成一組復(fù)合特征向量,不僅在不同維度上挖掘到更多潛在互補(bǔ)特征,還一定程度減少了計(jì)算量。N+M維特征表達(dá)式為
N=[x1,x2,x3,…,xn],
(1)
M=[y1,y2,y3,…,yn],
(2)
N+M=[x1,x2,x3,…,xn,y1,
y2,y3,…,yn]。
(3)
為在凝練融合信息的同時(shí)最大程度地保留局部信息,引入通道注意力機(jī)制SENet。SENet由Hu等[18]提出,通過(guò)學(xué)習(xí)特征權(quán)重,獲取到每個(gè)feature map的重要程度,根據(jù)重要程度去為每一個(gè)特征通道賦予一個(gè)權(quán)重值,增強(qiáng)有效信息,抑制無(wú)關(guān)信息,使模型達(dá)到更好效果。計(jì)算公式為
(4)
S=Fex(z,W)=σ[W2δ(W1,z)],
(5)
xc=Fsacle(uc,s)=siuc。
(6)
其中:H為圖像特征的高度;W為寬度;zn為全局特征信息;Fsq為通道擠壓操作;Fex為激勵(lì)操作;S為激勵(lì)操作后得到的權(quán)值;xc為每一個(gè)特征得到的通道乘積權(quán)重;Fsacle為輸入通道與各自權(quán)值的乘積操作;uc代表每一個(gè)特征通道;W1和W2為全連接操作的權(quán)重;δ為激活函數(shù)ReLU;σ為歸一化函數(shù)(Sigmoid)。首先,對(duì)特征圖進(jìn)行擠壓操作,壓縮特征獲得全局特征信息;其次,對(duì)特征信息進(jìn)行激勵(lì)操作,構(gòu)建特征通道間的相關(guān)性,用激活函數(shù)對(duì)權(quán)重進(jìn)行非線性處理,輸出的權(quán)重為每個(gè)特征通道賦予一個(gè)權(quán)值,與原始特征相乘;最后,將得到權(quán)重信息的feature map進(jìn)行平均池化、送入全連接層整合特征圖,通過(guò)Softmax函數(shù)進(jìn)行魚(yú)類行為的識(shí)別分類操作。損失函數(shù)(L)定義為交叉熵函數(shù),計(jì)算公式為
(7)
為實(shí)現(xiàn)聲音與視覺(jué)融合的魚(yú)類行為分析,構(gòu)建了多模態(tài)魚(yú)類行為數(shù)據(jù)集,包括視覺(jué)數(shù)據(jù)集和聲音數(shù)據(jù)集。攝食和游泳是魚(yú)類的基礎(chǔ)行為,也是養(yǎng)殖生產(chǎn)中重點(diǎn)監(jiān)控的魚(yú)類行為,養(yǎng)殖技術(shù)人員可以通過(guò)觀察魚(yú)類的攝食和游泳狀態(tài)判斷魚(yú)類的健康水平。本試驗(yàn)中,數(shù)據(jù)采集以攝食和游泳行為為主,選用許氏平鲉作為試驗(yàn)對(duì)象。許氏平鲉習(xí)慣生活在網(wǎng)箱底部,因光照度弱,單一視覺(jué)方法很難采集到理想的視覺(jué)數(shù)據(jù),用多模態(tài)融合方法可以提高行為識(shí)別的準(zhǔn)確率。為消除不同生長(zhǎng)階段許氏平鲉對(duì)試驗(yàn)造成的誤差,分別選取平均體質(zhì)量為50、100、200 g 3種規(guī)格的許氏平鲉各30 尾進(jìn)行試驗(yàn)。
2.1.1 數(shù)據(jù)采集 試驗(yàn)在大連海洋大學(xué)魚(yú)類行為學(xué)實(shí)驗(yàn)室進(jìn)行,采集時(shí)間同步。因視覺(jué)模態(tài)和聲音模態(tài)采集方式不同,故使用兩套數(shù)據(jù)采集系統(tǒng)(水下聲學(xué)測(cè)量系統(tǒng)和視覺(jué)行為測(cè)量系統(tǒng))采集數(shù)據(jù)(圖3)。使用水下聲學(xué)測(cè)量系統(tǒng)對(duì)信號(hào)進(jìn)行采集時(shí),利用水聽(tīng)器(AQH20k-1062)連接功率放大器將聲音信號(hào)放大并進(jìn)行AD轉(zhuǎn)換,通過(guò)專業(yè)數(shù)字式錄音機(jī)(roland quad-capture UA-55)將信號(hào)存儲(chǔ)為WAV聲音文件;使用視覺(jué)行為測(cè)量系統(tǒng)對(duì)魚(yú)類行為的視覺(jué)數(shù)據(jù)進(jìn)行采集時(shí),利用攝像頭(??低暰W(wǎng)絡(luò)攝像機(jī))實(shí)時(shí)監(jiān)控魚(yú)類行為的視覺(jué)數(shù)據(jù)。試驗(yàn)中仿照養(yǎng)殖企業(yè)攝像頭安裝位置,將數(shù)據(jù)采集攝像頭架設(shè)在高于水面1 m的養(yǎng)殖池旁,攝像頭的另一端連接計(jì)算機(jī)以存儲(chǔ)數(shù)據(jù),數(shù)據(jù)格式為MP4視頻文件。許氏平鲉養(yǎng)殖在直徑為1 m、高為1.2 m的玻璃鋼水槽中,為模擬真實(shí)環(huán)境下的養(yǎng)殖條件,水溫保持在15~20 ℃,pH為8.0~8.5,水聽(tīng)器置于水面下20 cm處,此位置既不會(huì)干擾魚(yú)類正常生活,也能采集到效果較好的聲音信號(hào),水聽(tīng)器采樣頻率設(shè)為20~20 000 Hz,覆蓋魚(yú)類發(fā)聲的頻率范圍。
圖3 魚(yú)類行為數(shù)據(jù)采集系統(tǒng)Fig.3 Fish behavior data collection system
在收集攝食行為過(guò)程中發(fā)現(xiàn),存在激烈攝食、平穩(wěn)攝食和消極攝食3個(gè)不同階段,為了確保收集到不同階段下魚(yú)類攝食行為的視覺(jué)和聲音特征,在采集過(guò)程中,先將整個(gè)攝食過(guò)程全部錄制,后期進(jìn)行人為分割處理。采集到許氏平鲉攝食聲音信號(hào)樣本321 個(gè)、游泳聲音信號(hào)樣本491個(gè),采集數(shù)據(jù)如圖4所示,共計(jì)聲音樣本812個(gè)。對(duì)視頻數(shù)據(jù)進(jìn)行抽幀處理,抽幀的time rate設(shè)為0.4,得到許氏平鲉攝食圖片4 967張,游泳圖片7 317 張,共計(jì)視頻樣本12 284張圖片,訓(xùn)練、驗(yàn)證和測(cè)試集按照正負(fù)樣本比例隨機(jī)劃分,比例為7∶2∶1。
圖4 采集的數(shù)據(jù)Fig.4 Collected data
通過(guò)觀察魚(yú)群的攝食和游泳行為發(fā)現(xiàn),許氏平鲉在攝食階段會(huì)快速且無(wú)序地游動(dòng),在水面爭(zhēng)搶餌料,激起水花(圖4(a)),魚(yú)群較為散亂且圖像紋理也較為復(fù)雜;而在游泳階段,許氏平鲉會(huì)群浮于水底,游動(dòng)速度較慢,魚(yú)群分散在養(yǎng)殖池中,紋理相對(duì)簡(jiǎn)單(圖4(b))。在觀察記錄魚(yú)類攝食行為的聲音信號(hào)時(shí)發(fā)現(xiàn),在喂食前期,魚(yú)群無(wú)序游動(dòng)尋找餌料,產(chǎn)生較大聲音波動(dòng),其中還包括許氏平鲉為搶食躍出水面的聲音;喂食中期,可以記錄到魚(yú)群咀嚼餌料的聲音,但這種聲音較小,聲音波動(dòng)不大;喂食后期,魚(yú)群攝食逐漸結(jié)束,聲音信號(hào)趨于平穩(wěn)(圖4(c))。在觀察記錄魚(yú)類游泳行為的聲音信號(hào)時(shí)發(fā)現(xiàn),許氏平鲉有時(shí)會(huì)加速游動(dòng)或撞擊前一條魚(yú),造成聲音的波動(dòng)(圖4(d))。
2.1.2 數(shù)據(jù)合成 由于多模態(tài)魚(yú)類行為數(shù)據(jù)集是在可控實(shí)驗(yàn)室條件下采集得到,采集視覺(jué)數(shù)據(jù)和聲音數(shù)據(jù)過(guò)程中并未受到過(guò)多噪聲干擾,但在真實(shí)生產(chǎn)環(huán)境中,會(huì)出現(xiàn)光線昏暗、雜聲過(guò)多的情況,為模擬真實(shí)場(chǎng)景下魚(yú)類行為,對(duì)數(shù)據(jù)添加噪聲。觀察發(fā)現(xiàn),昏暗條件下會(huì)導(dǎo)致亮度變暗,且拍攝數(shù)據(jù)會(huì)出現(xiàn)模糊不清等情況,故通過(guò)調(diào)節(jié)亮度模擬昏暗條件下采集到的圖像。其次,可以采用因場(chǎng)景不明亮、亮度不均勻引起的傳感器噪聲——高斯噪聲來(lái)模擬拍攝數(shù)據(jù)模糊不清的情況。鑒于以上分析,將視覺(jué)數(shù)據(jù)進(jìn)行亮度調(diào)節(jié)和添加高斯噪聲操作(圖5)。
圖5 視覺(jué)數(shù)據(jù)合成處理Fig.5 Visual data synthesis processing
通過(guò)實(shí)地調(diào)研發(fā)現(xiàn),真實(shí)生產(chǎn)場(chǎng)景下氧泵和循環(huán)水系統(tǒng)會(huì)有較大噪聲,可以覆蓋魚(yú)類行為發(fā)出的聲音,且當(dāng)氧泵和循環(huán)水關(guān)閉時(shí),也會(huì)有環(huán)境噪聲與聲音信號(hào)混合在一起,造成信號(hào)干擾(圖6(a)、(b))。高斯白噪聲是通信中的主要噪聲源,將原始聲音信號(hào)加上高斯白噪聲,可以模擬真實(shí)場(chǎng)景下普遍存在的環(huán)境噪聲(圖6(c)、(d))。隨機(jī)白噪聲能覆蓋魚(yú)類攝食和游泳時(shí)發(fā)出的聲音,在原始聲音信號(hào)中加入隨機(jī)白噪聲,可以模擬真實(shí)生產(chǎn)環(huán)境下氧泵和循環(huán)水系統(tǒng)帶來(lái)的噪聲干擾(圖6(e)、(f))。
圖6 聲音數(shù)據(jù)合成處理Fig.6 Voice data synthesis processing
試驗(yàn)環(huán)境為Intel Core i7-9700,CPU 3.00 GHz處理器,RTX3090顯卡,32 GB內(nèi)存,Windows 10 操作系統(tǒng),運(yùn)行環(huán)境Python 3.7,開(kāi)源深度學(xué)習(xí)框架Pytorch(版本1.7.1+cu110)。訓(xùn)練參數(shù)設(shè)置如下:學(xué)習(xí)率為0.001,batch_size為32,epoch為50。
為驗(yàn)證所提出方法對(duì)魚(yú)類行為的識(shí)別結(jié)果,使用多模態(tài)魚(yú)類行為的加噪合成試驗(yàn)數(shù)據(jù)集進(jìn)行試驗(yàn),并利用召回率、F1值、準(zhǔn)確率作為試驗(yàn)評(píng)價(jià)指標(biāo)[15]。
1)視覺(jué)方法對(duì)比試驗(yàn)。在圖像算法中,不同特征提取網(wǎng)絡(luò)對(duì)整體網(wǎng)絡(luò)性能有較大影響,為驗(yàn)證ResNet50提取魚(yú)類行為視覺(jué)特征的有效性,與張重陽(yáng)等[3]提出的Multi-feature BP network和黃志濤等[4]提出的Motion feature-image texture的方法進(jìn)行比較。
2)聲音方法對(duì)比試驗(yàn)。不同的聲音特征提取網(wǎng)絡(luò)對(duì)后續(xù)融合網(wǎng)絡(luò)性能有較大影響,本研究中使用基于MFCC+ResNet50的魚(yú)類聲音特征提取方法,對(duì)聲音數(shù)據(jù)集進(jìn)行特征提取,為驗(yàn)證此方法的有效性,與其他的聲音特征提取網(wǎng)絡(luò)進(jìn)行比較,包括黃漢英等[6]提出的PCA-SVM方法和Kim等[7]提出的CNN的方法。
3)單模態(tài)識(shí)別與多模態(tài)識(shí)別對(duì)比試驗(yàn)。為驗(yàn)證多模態(tài)魚(yú)類行為識(shí)別效果,設(shè)計(jì)了單模態(tài)與多模態(tài)識(shí)別效果對(duì)比試驗(yàn)。
4)消融試驗(yàn)。為驗(yàn)證通道注意力機(jī)制SENet在網(wǎng)絡(luò)中的作用,分別在有注意力機(jī)制和無(wú)注意力機(jī)制下進(jìn)行了多模態(tài)魚(yú)類行為識(shí)別對(duì)比試驗(yàn)。
5)模型試驗(yàn)。為驗(yàn)證本研究中所提出網(wǎng)絡(luò)模型的有效性,與其他多模態(tài)融合方法(Architecture of image-voice joint model[11]、Intermediate-feature-level deep model[12]和MBT[13]等)進(jìn)行對(duì)比。
6)驗(yàn)證試驗(yàn)。為驗(yàn)證本研究中所提出方法在無(wú)噪聲干擾條件下也能取得較好的識(shí)別效果,使用無(wú)合成噪聲的數(shù)據(jù)集對(duì)模型進(jìn)行驗(yàn)證試驗(yàn),并與其他融合模型(Architecture of image-voice joint model[11]、Intermediate-feature-level deep model[12]和MBT[13]等)進(jìn)行對(duì)比。
2.4.1 單模態(tài)下視覺(jué)方法的對(duì)比試驗(yàn) 本研究中,使用ResNet50對(duì)多模態(tài)魚(yú)類行為數(shù)據(jù)集中的視覺(jué)數(shù)據(jù)集進(jìn)行特征提取,與其他方法對(duì)比發(fā)現(xiàn),ResNet50的平均準(zhǔn)確率、F1值和召回率相較于Multi-feature BP network[3]分別提升了6.43%、13.38%、7.45%,相較于Motion feature-image texture[4]的平均準(zhǔn)確率、F1值和召回率分別提升了6.04%、12.68%、3.48%(表1)。
表1 視覺(jué)方法的對(duì)比Tab.1 Contrast of visual methods %
2.4.2 單模態(tài)下聲音方法的對(duì)比試驗(yàn) 本研究中使用基于MFCC+ResNet50的魚(yú)類聲音特征提取方法對(duì)聲音數(shù)據(jù)集進(jìn)行特征提取,與其他方法對(duì)比發(fā)現(xiàn),MFCC+ResNet50的平均準(zhǔn)確率、F1值和召回率相較于PCA-SVM[6]方法分別提升了9.11%、10.1%、11.31%,相較于CNN[7]分別提升了3.27%、7.09%、4.98%(表2)。
表2 聲音方法的對(duì)比Tab.2 Contrast of sound methods %
2.4.3 單模態(tài)識(shí)別與多模態(tài)識(shí)別的對(duì)比試驗(yàn) 將單模態(tài)下ResNet50模型和MFCC+ResNet50模型與多模態(tài)U-FusionNet-ResNet50+SENet的識(shí)別效果進(jìn)行對(duì)比。由圖7的準(zhǔn)確率曲線可以看出,多模態(tài)融合的平均識(shí)別準(zhǔn)確率相較于視覺(jué)和聲音單模態(tài)識(shí)別的準(zhǔn)確率分別提升了8.62%和13.01%。
圖7 單模態(tài)識(shí)別與多模態(tài)識(shí)別的對(duì)比Fig.7 Comparison of single mode recognition with multi-mode recognition
2.4.4 消融試驗(yàn) 本研究中,使用SENet注意力機(jī)制提升模型的準(zhǔn)確率,對(duì)比發(fā)現(xiàn),SENet的加入為網(wǎng)絡(luò)提升了4.64%的平均準(zhǔn)確率,3.91%的召回率,3.53%的F1值。這是因?yàn)镾ENet在凝練融合信息的同時(shí)保留了局部信息,增強(qiáng)了有效信息,并且抑制了不相關(guān)信息。說(shuō)明通道注意力機(jī)制能有效地提升魚(yú)類行為識(shí)別的整體效果(表3)。
表3 消融試驗(yàn)Tab.3 Ablation experiments %
2.4.5 模型試驗(yàn) 針對(duì)多模態(tài)魚(yú)類行為的加噪合成試驗(yàn)數(shù)據(jù),U-FusionNet-ResNet50+SENet的準(zhǔn)確率、F1值和召回率分別為93.71%、93.43%、92.56%,與效果較好的Intermediate-feature-level deep model[12]相比,召回率、F1值和平均準(zhǔn)確率分別提升了2.35%、3.45%、3.48%(表4)。由圖8可見(jiàn),在第40次迭代之后準(zhǔn)確率基本保持不變,說(shuō)明所提出的方法能夠快速收斂(圖8)。
表4 模型對(duì)比試驗(yàn)Tab.4 Noise model experiment %
圖8 準(zhǔn)確率和loss值變化曲線Fig.8 Curve of accuracy and loss value
2.4.6 驗(yàn)證試驗(yàn) 針對(duì)不添加噪聲的魚(yú)類行為數(shù)據(jù),與其他方法對(duì)比發(fā)現(xiàn),U-FusionNet-ResNet50+SENet的準(zhǔn)確率、F1值和召回率分別為98.21%、97.79%、98.05%(表5),而針對(duì)添加噪聲的魚(yú)類行為數(shù)據(jù),U-FusionNet-ResNet50+SENet的準(zhǔn)確率、F1值和召回率分別為93.71%、93.43%、92.56%(表4)。說(shuō)明本研究中提出的模型,不僅在無(wú)噪聲干擾條件下能保持較高準(zhǔn)確率和召回率,而且也能解決噪聲干擾問(wèn)題。
表5 驗(yàn)證試驗(yàn)(不加噪聲)Tab.5 Confirmatory experiment(without noise) %
本研究中,為解決在光線昏暗、聲音和視覺(jué)噪聲干擾等復(fù)雜條件下,對(duì)單模態(tài)魚(yú)類行為識(shí)別的準(zhǔn)確率和召回率不高的問(wèn)題,提出利用魚(yú)類行為產(chǎn)生的聲音特征和視覺(jué)特征的互補(bǔ)性,彌補(bǔ)單一模態(tài)預(yù)測(cè)的不足,提高魚(yú)類行為識(shí)別的準(zhǔn)確性和魯棒性。
相較于單一的視覺(jué)識(shí)別模型或聲音識(shí)別模型,多模態(tài)識(shí)別模型在視覺(jué)或聲音數(shù)據(jù)質(zhì)量不高時(shí),能通過(guò)另一種模態(tài)特征彌補(bǔ)單一模態(tài)識(shí)別的誤差,在模態(tài)信息交互過(guò)程中,除了能利用聲音和視覺(jué)的互補(bǔ)性減少誤差,還能強(qiáng)化有用的魚(yú)類特征信息,提高魚(yú)類行為識(shí)別的準(zhǔn)確率。但因魚(yú)類行為具有聲音信號(hào)特征差異小、特征難學(xué)習(xí)的特點(diǎn),不能直接使用現(xiàn)有的多模態(tài)融合模型。
本研究中,采用MFFC+ResNet50的聲音信號(hào)識(shí)別網(wǎng)絡(luò),解決特征難學(xué)習(xí)的問(wèn)題,為使各模態(tài)潛在信息交互最大化,最大程度地發(fā)揮多模態(tài)識(shí)別的優(yōu)勢(shì),提出多級(jí)融合的U-FusionNet-ResNet50+SENet網(wǎng)絡(luò),通過(guò)U型融合架構(gòu)使不同維度的魚(yú)類視覺(jué)特征和聲音特征充分交互,采用Skip-Concat模塊將不同階段的模態(tài)特征進(jìn)行融合,同時(shí)引入SENet構(gòu)成關(guān)注通道信息的特征融合網(wǎng)絡(luò)。多模態(tài)融合模型U-FusionNet-ResNet50+SENet對(duì)魚(yú)類行為的識(shí)別效果有較大的提升,較傳統(tǒng)的單模態(tài)方法識(shí)別效果更加精準(zhǔn)。
魚(yú)類行為識(shí)別可以通過(guò)識(shí)別魚(yú)類個(gè)體或者魚(yú)群的行為變化,幫助養(yǎng)殖人員判斷魚(yú)的健康狀態(tài)及養(yǎng)殖環(huán)境的安全性。智能化識(shí)別魚(yú)類行為是智慧漁業(yè)和精準(zhǔn)養(yǎng)殖的重要內(nèi)容,為養(yǎng)殖人員帶來(lái)了極大的便利。攝食和游泳是魚(yú)類的基礎(chǔ)行為,通過(guò)觀察魚(yú)類攝食和游泳行為,可以直接判斷養(yǎng)殖魚(yú)類的活躍度和生長(zhǎng)情況。目前,識(shí)別魚(yú)類行為的主要方法是單模態(tài)識(shí)別,如基于計(jì)算機(jī)視覺(jué)的行為識(shí)別及基于被動(dòng)聲學(xué)的行為識(shí)別,這兩種方法均是單純利用成像數(shù)據(jù)和聲音信號(hào)對(duì)魚(yú)類行為進(jìn)行識(shí)別。但在真實(shí)的養(yǎng)殖條件下,會(huì)出現(xiàn)很多復(fù)雜情況,如光線昏暗、模糊、噪聲干擾等,這些因素會(huì)使得模型的識(shí)別效果較差。然而,隨著多模態(tài)技術(shù)的發(fā)展,通過(guò)視覺(jué)和聲音兩個(gè)模態(tài)的融合,可以互相補(bǔ)充互相強(qiáng)化,很好地解決復(fù)雜條件下的識(shí)別問(wèn)題,提高模型的魯棒性。因此,本研究中提出了一種基于視覺(jué)特征與聲音融合互補(bǔ)的魚(yú)類行為識(shí)別方法,相較于單模態(tài)的視覺(jué)方法或聲音方法,聲音和視覺(jué)兩個(gè)模態(tài)相融合較好地提高了魚(yú)類行為的識(shí)別準(zhǔn)確率。
目前,已有的多模態(tài)融合方法,其策略大多使用前期融合、中期融合和晚期融合,這3種融合方式均是在網(wǎng)絡(luò)的某一階段進(jìn)行融合。但隨著網(wǎng)絡(luò)層數(shù)的增加,提取到的特征也在不斷地進(jìn)行組合,在多次組合中會(huì)遺漏掉模態(tài)某些潛在信息。為了獲得更多的模態(tài)潛在信息,本研究中提出了多級(jí)融合的策略,在特征提取的每一階段都進(jìn)行融合,最大程度地減少遺漏的特征信息,提升識(shí)別的準(zhǔn)確率。綜上,本研究中提出的U-FusionNet-ResNet50+SENet網(wǎng)絡(luò),在添加噪聲和不添加噪聲的多模態(tài)魚(yú)類行為數(shù)據(jù)集中,對(duì)魚(yú)類行為的識(shí)別準(zhǔn)確率分別可達(dá)93.71%、98.21%,與已報(bào)道的Intermediate-feature-level deep model[12]相比,召回率、F1值和平均準(zhǔn)確率分別提升了2.35%、3.45%、3.48%。說(shuō)明本模型能有效提升魚(yú)類行為識(shí)別的準(zhǔn)確率,可應(yīng)用于復(fù)雜條件下的魚(yú)類行為識(shí)別。
1)本研究中提出的基于聲音和視覺(jué)特征多級(jí)融合的魚(yú)類行為識(shí)別模型U-FusionNet-ResNet50+SENet,解決了光線昏暗、噪聲干擾等復(fù)雜條件下魚(yú)類行為識(shí)別的準(zhǔn)確率、召回率不高的問(wèn)題。
2)使用U-FusionNet-ResNet50+SENet模型對(duì)試驗(yàn)用許氏平鲉游泳和攝食行為的識(shí)別準(zhǔn)確率可達(dá)93.71%,表明該識(shí)別方法是一種自動(dòng)化、高準(zhǔn)確度的魚(yú)類行為識(shí)別方法。但由于實(shí)驗(yàn)室采集數(shù)據(jù)量不夠大,未能包含真實(shí)水產(chǎn)養(yǎng)殖環(huán)境下所有的樣本信息,故今后需進(jìn)一步擴(kuò)大樣本數(shù)量及樣本多樣性,使其能在未來(lái)應(yīng)用于真實(shí)水產(chǎn)養(yǎng)殖環(huán)境下的魚(yú)類行為識(shí)別。
大連海洋大學(xué)學(xué)報(bào)2023年2期