胡學(xué)龍 ,朱文韜 ,,楊信廷 ,王丁弘 ,潘 良 ,曾昱皓 ,周 超 ※
(1.揚(yáng)州大學(xué)信息工程學(xué)院, 揚(yáng)州 225127;2.北京市農(nóng)林科學(xué)院信息技術(shù)研究中心, 北京 100097;3.國家農(nóng)業(yè)信息化工程技術(shù)研究中心, 北京 100097;4.農(nóng)產(chǎn)品質(zhì)量安全追溯技術(shù)及應(yīng)用國家工程研究中心, 北京 100097)
飼料是工廠化循環(huán)水產(chǎn)養(yǎng)殖中重要的可變成本之一,可占總成本的50%以上[1]。實(shí)際生產(chǎn)中的投喂主要是以人工判斷和機(jī)械投喂為主,無法根據(jù)魚類的實(shí)際需要進(jìn)行投喂,易造成投喂過量或不足。過量投喂不僅會導(dǎo)致飼料浪費(fèi),還會污染水體環(huán)境,增加魚類患病風(fēng)險(xiǎn)[2-3]。而攝食強(qiáng)度可直接反映魚類食欲[4],并用于指導(dǎo)投喂,有助于解決上述問題。因此,對魚類攝食強(qiáng)度進(jìn)行實(shí)時(shí)準(zhǔn)確識別成為實(shí)現(xiàn)精準(zhǔn)投喂的關(guān)鍵。
近年來,基于視覺、聲音和水質(zhì)傳感器的方法被應(yīng)用于魚類攝食強(qiáng)度識別[5]。例如,DUARTE等[6]通過幀差法,得到魚類攝食引起的圖像區(qū)域面積變化,并以此作為魚類活動(dòng)的評價(jià)指標(biāo)。ZHOU等[7]利用圖像紋理和光流評估攝食強(qiáng)度,并建立自適應(yīng)網(wǎng)絡(luò)模糊推理系統(tǒng)(adaptive network-based fuzzy inference system,ANFIS),實(shí)現(xiàn)了自動(dòng)按需投喂。陳彩文等[8]基于魚群背景圖片提取目標(biāo)魚群,并使用灰度共生矩陣對逆差矩、相關(guān)性、能量和對比度4個(gè)紋理特征分析魚群的攝食活動(dòng)。ZHOU等[4]提出一種基于LeNet5框架的攝食強(qiáng)度評價(jià)系統(tǒng),避免了人工特征提取帶來的誤差,并將攝食強(qiáng)度分為“無”、“弱”、“中”、“強(qiáng)”4個(gè)等級。陳雨琦等[9]將工廠化循環(huán)水養(yǎng)殖池中魚群攝食視頻作為前景提取并獲取傅里葉頻譜特征,使用得到的特征訓(xùn)練支持向量機(jī)(support vector machines, SVM)以判斷攝食狀態(tài)。UBINA等[10]將光流和RGB特征融合到3D CNN網(wǎng)絡(luò)中,以此對魚類攝食強(qiáng)度進(jìn)行預(yù)測,準(zhǔn)確率大于90%。YANG等[11]提出了一種基于Efficient EntNet-B2的雙注意力網(wǎng)絡(luò),通過研究攝食圖像中興趣區(qū)域之間的空間關(guān)系分析魚群短時(shí)攝食行為??傮w而言,基于深度學(xué)習(xí)的視覺分析方法精度較高[4]。
雖然基于視覺的方法方便有效,但在水體渾濁、環(huán)境變化等情況下,此時(shí)攝食時(shí)的聲音成為另一個(gè)重要指標(biāo)[5]。LAGARDèRE等[12-13]通過監(jiān)測大菱鲆(Scophthalmus maximus)攝食聲音頻譜,發(fā)現(xiàn)攝食過程中產(chǎn)生在7~10 kHz頻率范圍內(nèi)的聲音強(qiáng)度為15~20 dB,其反映了攝食強(qiáng)度波動(dòng)。聲學(xué)傳感器也被用于判斷魚類攝食強(qiáng)度,在昏暗和不均勻光照條件下能夠進(jìn)行有效識別[14-15]。曹曉慧等[16]采用被動(dòng)聲學(xué)技術(shù)獲取單體大口黑鱸(Micropterus salmoides)攝食聲音信號,從混合信號中提取完整的攝食信號,成功篩選出衡量大口黑鱸攝食活躍度的聲學(xué)特征參數(shù)。NODA等[17]對音頻信號進(jìn)行預(yù)處理,并使用梅爾倒譜系數(shù)(mel-scale frequency cepstral coefficients,MFCC)對其進(jìn)行參數(shù)化,以獲得分類相位信息,最終通過支持向量機(jī)識別了102種魚類聲音。此外,一些聲學(xué)特征尚雖未被運(yùn)用到魚類研究,但也在其領(lǐng)域取得了顯著成果。例如,LIU[18]在研究語音情感識別時(shí)發(fā)現(xiàn)伽馬通頻率倒譜系數(shù)(gammatone frequency cepstral coefficients,GFCC)相對于MFCC具有更強(qiáng)的抗噪聲表達(dá)能力,在情緒識別時(shí)性能更優(yōu)。RAMASHINI等[19]比較了MFCC、LPCC(linear prediction cepstral coefficients)和GFCC,發(fā)現(xiàn)GFCC特征在鳥類鳴叫分類方面準(zhǔn)確率較高。然而,聲學(xué)技術(shù)容易受到環(huán)境噪聲干擾,限制了其在實(shí)際生產(chǎn)實(shí)踐中的應(yīng)用[20]。
水質(zhì)等環(huán)境參數(shù)也已用于攝食強(qiáng)度評估。水質(zhì)(如水溫、溶解氧濃度、pH值、氨氮化合物等)變化會直接影響魚類食欲[21-23]。溫度可影響魚類新陳代謝率,從而影響其獲取食物的能力和欲望[24]。WU等[25]通過檢測投喂時(shí)魚群聚集和斗爭對溶解氧濃度的影響,開發(fā)了一種自適應(yīng)的模糊推理系統(tǒng),用于魚類投喂決策。SK?IEN等[26]研究發(fā)現(xiàn)魚的攝食行為也會隨著溶解氧濃度的變化而發(fā)生變化。例如,投喂時(shí),局部溶解氧濃度會降低,未攝食的顆粒沉積在水底也會引起溶解氧和氨氮化合物濃度變化。因此,水質(zhì)數(shù)據(jù)在一定程度上能夠反映魚類攝食狀態(tài)。
多模態(tài)相比單模態(tài)蘊(yùn)含更豐富的信息,在檢測和分類方面展現(xiàn)出超越單模態(tài)的性能,并已在多方面得到應(yīng)用。例如,LIU等[27]提出了低秩多模態(tài)融合(Low-rank Multimodal Fusion)方法,其使用低秩張量融合大大提升了模型運(yùn)算效率。TSAI等[28]提出了一種多模態(tài)Transformer(multimodal transformer,MulT),該算法通過融合視覺、聲音和文本信息進(jìn)行情感分類,相比傳統(tǒng)方法,精度至少提升5%。在農(nóng)業(yè)中,KERKECH[29]等將可見光和紅外圖像融合繪制葡萄園的患病區(qū)域。車熒璞等[30]通過融合圖片和光譜等信息檢測玉米表型性狀,克服了冠層飽和問題,驗(yàn)證了多模態(tài)在生物量估測精度方面的性能。WAKAMORI[31]提出了一種基于聚束雨滴的多模態(tài)神經(jīng)網(wǎng)絡(luò)(C-Drop),通過整合生理和氣象數(shù)據(jù)準(zhǔn)確估計(jì)植物水分壓力。SHEN[32]基于隨機(jī)森林(RF-RFE)和CNN提取聲學(xué)和視覺特征,并將這2種特征通過早期融合輸入支持向量機(jī),實(shí)現(xiàn)了豬咳嗽聲的識別。
為將多模態(tài)融合引入魚類攝食強(qiáng)度識別并提升其識別精度,本文針對以上問題,以實(shí)現(xiàn)水產(chǎn)養(yǎng)殖中的水質(zhì)-聲音-視覺融合為目標(biāo),提出一種基于MulT算法[28]改進(jìn)的Fish-MulT攝食強(qiáng)度量化算法,首先引入多模態(tài)轉(zhuǎn)移模塊(multimodal transfer module,MMTM)對輸入3種模態(tài)的特征向量進(jìn)行特征級融合,保留重要特征,并抑制非重要特征,得到各模態(tài)融合后的向量;其次,對融合后的3種模態(tài)添加自適應(yīng)權(quán)重(adaptive weight)后得到融合模態(tài)F;最后,通過融合模態(tài)F將MulT算法優(yōu)化為Fused MulT算法,以克服單一模態(tài)難以完全反映攝食狀態(tài)的片面性,提高攝食強(qiáng)度量化的準(zhǔn)確率。為開發(fā)精準(zhǔn)投喂系統(tǒng)提供技術(shù)支持。
試驗(yàn)在北京市農(nóng)林科學(xué)院信息技術(shù)研究中心的工廠化循環(huán)水養(yǎng)殖實(shí)驗(yàn)室進(jìn)行。數(shù)據(jù)采集平臺如圖1所示。該平臺由6個(gè)高1.2 m、直徑和水深為1 m的養(yǎng)殖池組成。并配備制氧機(jī)、循環(huán)水處理裝置、水質(zhì)傳感器等設(shè)備。試驗(yàn)用魚為金鱒魚(Oncorhynchus aguabonita),單體質(zhì)量為(500±10)g,養(yǎng)殖密度為(8±1)kg/m3,溶解氧為(9~12)mg/L,水溫為(14~16)℃。投喂頻率為每日一次,時(shí)間為下午5:00,每個(gè)養(yǎng)殖池投喂量為(100±10)g。為消除環(huán)境變化的影響,試驗(yàn)前對所有魚進(jìn)行為期一個(gè)月的適應(yīng)性養(yǎng)殖。此外,為模擬真實(shí)養(yǎng)殖環(huán)境,試驗(yàn)燈光在白天保持常亮,以消除魚類趨光性對試驗(yàn)的影響。
圖1 試驗(yàn)裝置與數(shù)據(jù)采集系統(tǒng)Fig.1 Experiment equipment and data collecting system
為避免水面反光影響圖像采集的質(zhì)量,本研究使用GoPro運(yùn)動(dòng)相機(jī)在水下10 cm處采集數(shù)據(jù),其不僅可以捕捉整個(gè)養(yǎng)殖池區(qū)域,還可消除投餌機(jī)與相機(jī)相對位置的影響。音頻數(shù)據(jù)采樣頻率為44.1 kHz。視頻幀率為60幀/s,像素分辨率為1 920×1 080。采用電化學(xué)水質(zhì)傳感器采集水質(zhì)數(shù)據(jù),包括溫度、pH值和溶解氧3種參數(shù)。
根據(jù)?VERLI提出的魚類攝食強(qiáng)度分類標(biāo)準(zhǔn)[33],本文將攝食強(qiáng)度分為“強(qiáng)”、“中”、“弱”、“無”4類,如表1所示。
表1 魚類攝食強(qiáng)度分級Table 1 Grading of fish feeding intensity
將采集的視頻和音頻統(tǒng)一剪輯為4 s片段。從水質(zhì)傳感器中記錄的文件中提取水質(zhì)數(shù)據(jù)。共得到1 293組3模態(tài)數(shù)據(jù),其中70%的數(shù)據(jù)隨機(jī)作為訓(xùn)練集,15%作為驗(yàn)證集,15%作為測試集。
多模態(tài)數(shù)據(jù)量較大,為更高效合理利用數(shù)據(jù),減少計(jì)算量,首先需對3種模態(tài)數(shù)據(jù)進(jìn)行特征提取,具體流程如圖2所示。
圖2 特征提取流程Fig.2 Flow chart of feature extraction
視頻特征提取過程如圖2a所示?;贙enetics-400[34]的SlowFast[35]預(yù)訓(xùn)練模型用于視覺特征提取,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。SlowFast網(wǎng)絡(luò)以64幀作為特征提取的基本單元,輸入路徑分為Slow和Fast。Slow路徑捕獲空間信息,F(xiàn)ast路徑捕獲運(yùn)動(dòng)信息。該算法利用不同速率下的差異捕捉幀的動(dòng)態(tài)變化,并將每幀圖像縮放到256 × 340。為了最大限度地利用每一幀的變化,將視頻分為4個(gè)基本單元,最后通過線性層得到1 × 2 304維的視頻特征向量。
圖3 SlowFast網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 SlowFast network structure
魚類攝食時(shí),頜骨或咽部牙齒咬合時(shí)會發(fā)出摩擦聲。聲音頻率組成范圍較廣,低頻小于100 Hz,高頻超過8 000 Hz,但主頻在1 000~4 000 Hz之間[36]。音頻特征提取過程如圖2b。對采集的44.1 kHz音頻信號進(jìn)行下采樣到16 kHz,并從音頻中提取能量譜圖,將能量譜圖轉(zhuǎn)換為GFCC譜圖。最后,利用ResNet50[37]網(wǎng)絡(luò)提取GFCC譜圖信息,得到1×2 048維的音頻特征向量。
水質(zhì)數(shù)據(jù)處理如圖2c所示。水質(zhì)數(shù)據(jù)的采集間隔為12 s,本文將整個(gè)攝食階段的水質(zhì)數(shù)據(jù)進(jìn)行3次函數(shù)擬合。以0.01 s為間隔,沿?cái)M合曲線對相應(yīng)視頻時(shí)間段進(jìn)行采樣,得到401維數(shù)據(jù),并進(jìn)行歸一化處理。最后將pH值、溶解氧、溫度等水質(zhì)特征連接,得到1×1 203維的水質(zhì)特征向量。
本文提出的改進(jìn)Fish-MulT算法,如圖4所示。具體改進(jìn)如下:首先,引入多模態(tài)轉(zhuǎn)移模塊(multimodal transfer module,MMTM)對輸入的3種模態(tài)的特征向量進(jìn)行融合;然后,針對融合后的3種模態(tài)添加自適應(yīng)權(quán)重(adaptive weight)后得到融合模態(tài)F;最后,通過融合模態(tài)F將MulT算法優(yōu)化為Fused MulT算法。
圖4 Fish-MulT算法結(jié)構(gòu)圖Fig.4 Structure diagram of Fish-MulT algorithm
MulT算法[28]由一維卷積(Conv1D),位置編碼(position embedding),跨模態(tài)Transformer(cross-modal transformer),自注意力Transformer(self-attention transformer)和線性層構(gòu)成。其中一維卷積可以增強(qiáng)一維特征向量相鄰信息交互。位置編碼為向量添加顯式位置信息。
跨模態(tài)Transformer作用為表征一個(gè)模態(tài)對于另一模態(tài)潛在適應(yīng)性。而自注意力Transformer可收集時(shí)間維度上的信息。最后經(jīng)過線性層映射得到輸出結(jié)果。對于3種模態(tài)(視覺V,聲音A和水質(zhì)W),MulT算法中的跨模態(tài)Transformer用于表征其中2種模態(tài)分別對于第3模態(tài)的適應(yīng)性(如水質(zhì)對于視覺的潛在適應(yīng)性以及聲音對于視覺的潛在適應(yīng)性,記作W→V和A→V),無法表征3種模態(tài)之間的適應(yīng)。因此本文考慮使用融合模態(tài)F表征3種模態(tài)之間的適應(yīng)性(即使用F→V代替W→V和A→V)。
為了得到融合模態(tài)F,需要對3種模態(tài)進(jìn)行特征間的融合。本文引入多模態(tài)轉(zhuǎn)移模塊(multimodal transformer module,MMTM)實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)特征間的融合[38]。并在原始模型雙模態(tài)融合的基礎(chǔ)上擴(kuò)展為3模態(tài),如圖5所示。
圖5 多模態(tài)轉(zhuǎn)移模塊結(jié)構(gòu)Fig.5 MMTM(multimodal transfer module) structure diagram
MMTM主要由壓縮單元、激勵(lì)單元和激活函數(shù)Sigmoid構(gòu)成。壓縮單元使用全局平均池化,獲得各模態(tài)壓縮向量,對壓縮向量進(jìn)行連接并通過線性層映射得到融合向量。激勵(lì)單元通過線性層獲得各模態(tài)的激勵(lì)向量。最后通過Sigmoid函數(shù)和初始向量進(jìn)行點(diǎn)積運(yùn)算,強(qiáng)調(diào)重要特征,并抑制非重要特征。
MMTM具體實(shí)現(xiàn)過程如下,設(shè)輸入特征向量分別為XV、XA和XW,經(jīng)過全局平均池化,得到壓縮向量SV、SA和SW,分別為
式中K、L、H和Ni、Mi、Oi分別為XV、XA、XW的維度數(shù)和第i個(gè)維度大小。
將SV、SA和SW連接后送入線性層,映射得到融合向量Z:
式中W為映射矩陣,b為偏置。激勵(lì)向量EV、EA和EW通過獨(dú)立的線性層映射得到:
式中σ代表Sigmoid函數(shù),⊙為點(diǎn)積操作,以此對每個(gè)通道進(jìn)行抑制或激活。
由于MMTM輸出結(jié)果為融合后的3種模態(tài)特征向量,為得到融合模態(tài)F,需要對3種模態(tài)向量進(jìn)行求和運(yùn)算,然而不同模態(tài)對準(zhǔn)確率的貢獻(xiàn)不同,因此需要在求和之前為每個(gè)模態(tài)添加權(quán)重w。本文采用自適應(yīng)權(quán)重(adaptive weight)的方式為各模態(tài)添加權(quán)重,具體如下:
wi定義為
式中αi為對應(yīng)模態(tài)輸入節(jié)點(diǎn)的訓(xùn)練權(quán)重,隨優(yōu)化器的梯度下降而改變,k為放大系數(shù),能夠加快wi的收斂。
本文使用融合模態(tài)F對MulT算法中的跨模態(tài)Transformer的數(shù)量進(jìn)行優(yōu)化,得到Fused MulT算法,如圖6所示。MulT算法中跨模態(tài)Transformer只能表征一種模態(tài)到另一模態(tài)的潛在適應(yīng)性,由于存在視覺V、聲音A和水質(zhì)W3個(gè)模態(tài),故每路分支使用2個(gè)跨模態(tài)Transformer(例如W→V和A→V),表征其中2個(gè)模態(tài)分別對于第3模態(tài)的潛在適應(yīng)。通過引入融合模態(tài),并使用融合模態(tài)F對各模態(tài)的潛在適應(yīng)代替各支路的跨模態(tài)Transformer(例如使用F→V代替W→V和A→V),得到Fused MulT算法。故Fused MulT相比MulT,只使用50%的跨模態(tài)Transformer。
圖6 Fused MulT與MulT的算法結(jié)構(gòu)Fig.6 Algorithm structure of Fused MulT and MulT
本文中,模型輸入為視頻、音頻和水質(zhì)向量,為了使輸入序列的每個(gè)元素與相鄰的元素充分交互,將該序列通過一維卷積(Conv1D)進(jìn)行變換。Conv1D的輸入序列長度Lin,則輸出序列長度Lout為
式中k為卷積核大小;p為填充大小;d為卷積核內(nèi)同一維度上相鄰元素之間差異;s為卷積核步長。
對于位置編碼PE(position embedding),本文遵循了Vaswani和Tsai的方法[28,39]。序列X∈RT×d(其中T為長度,d為經(jīng)過卷積輸出的維度)的PE定義為
跨模態(tài)Transformer的核心為跨模態(tài)注意力(crossmodal attention,CMA)[28],本文的跨模態(tài)注意力結(jié)構(gòu)如下:輸入為模態(tài)α和融合模態(tài)F,模態(tài)α記為Xα∈RTα×dα,融合模態(tài)F記為XF∈RTF×dF,Tα和TF表示序列長度,dα和dF表示特征維度。在跨模態(tài)注意力中,模態(tài)α的注意力矩陣Qα和融合模態(tài)F的注意力矩陣KF和VF定義為
跨模態(tài)Transformer結(jié)構(gòu)[28]由D個(gè)如圖7所示的跨模態(tài)注意力塊疊加構(gòu)成。
圖7 跨模態(tài)注意力塊結(jié)構(gòu)Fig.7 The structure of cross-modal attention block
設(shè)第0層模態(tài)α的輸入為,融合模態(tài)F的輸入為,則跨模態(tài)Transformer的融合模態(tài)F關(guān)于模態(tài)α的D層前饋運(yùn)算為
式中fθ為由θ參數(shù)化的位置前饋?zhàn)訉覽28],為CMAF→α在第i層的多頭注意力[39]。LN為層歸一化[40]。則融合模態(tài)F到模態(tài)α的跨模態(tài)Transformer記作(F→α)。本文使用的3個(gè)跨模態(tài)Transformer分別記作(F→V,F(xiàn)→A和F→W)。
然后,將跨模態(tài)Transformer的輸出輸入到自注意力Transformer(self-attention transformer)[39]以收集時(shí)間信息。最后將3種模態(tài)經(jīng)過自注意力Transformer后得到的輸出向量進(jìn)行連接,并通過線性層映射得到預(yù)測結(jié)果。結(jié)果被限制在1到4之間并向上取整,得到4類標(biāo)簽,為1,2,3,4,分別代表“無”、“弱”、“中”和“強(qiáng)”。
本研究基于準(zhǔn)確率(Ac)、精度(Pr)和召回率(Re),準(zhǔn)確率為正確識別各種攝食強(qiáng)度的概率,為正確分類的樣本數(shù)量與樣本總數(shù)的比例。精度是在特定攝食強(qiáng)度下,正確分類樣本在所有預(yù)測為該特定攝食強(qiáng)度樣本中所占的比例。召回率是正確分類的攝食強(qiáng)度占所有該強(qiáng)度總樣本的比例。
為驗(yàn)證本文算法的性能,在相同試驗(yàn)環(huán)境下,將該算法和MulT等多模態(tài)算法進(jìn)行比較。試驗(yàn)環(huán)境如下:GPU 為Nvidia GTX1650,CPU為 AMD Ryzen 5 3500X,CUDA版本為10.0。
訓(xùn)練參數(shù)Batch size設(shè)置為24,初始學(xué)習(xí)率設(shè)置為0.001,訓(xùn)練180個(gè)Epoch。使用Adam優(yōu)化器優(yōu)化網(wǎng)絡(luò)參數(shù)。經(jīng)過20個(gè)Epoch訓(xùn)練,若訓(xùn)練集損失函數(shù)(loss function)大小并未減少,則將學(xué)習(xí)率降低為上一階段的0.1倍。
試驗(yàn)結(jié)果如表2所示。對于單模態(tài)模型,采用視覺的SlowFast算法確率達(dá)到91.75%,遠(yuǎn)高于采用聲音的GFCC頻譜和ResNet50組合。水質(zhì)準(zhǔn)確率較低,可能由于投喂時(shí)間短,水質(zhì)參數(shù)變化較小。經(jīng)過多模態(tài)融合后的模型準(zhǔn)確率明顯高于單模態(tài)。使用3種模態(tài)融合的MulT算法準(zhǔn)確率為93.30%。而本文模型在3種模態(tài)融合情況下,準(zhǔn)確率達(dá)95.36%,比MulT高2.06個(gè)百分點(diǎn),相對視覺、聲音和水質(zhì)等單一模態(tài)方法分別提高3.61、21.65和68.56個(gè)百分點(diǎn)。此外通過抑制MulT和本文模型某一模態(tài)的輸入,發(fā)現(xiàn)雙模態(tài)的準(zhǔn)確率基本優(yōu)于單一模態(tài)。
表2 各模型魚類攝食強(qiáng)度識別準(zhǔn)確率對比表Table 2 Comparison table of fish feeding intensity identification accuracy of each model
MluT和本文模型的準(zhǔn)確率和損失函數(shù)曲線如圖8所示,本文模型的準(zhǔn)確率曲線在80個(gè)訓(xùn)練周期之后始終保持在MulT算法準(zhǔn)確率曲線的上方。由損失函數(shù)曲線可知,本文模型在第80個(gè)周期左右開始收斂,而MulT算法在第100個(gè)周期左右開始收斂,本文算法的損失函數(shù)收斂速度優(yōu)于MulT算法。
圖8 MulT和Fish-MulT性能對比Fig.8 Performance comparison between MulT and Fish-MulT
表3對比了3種多模態(tài)模型參數(shù)和每個(gè)Epoch平均訓(xùn)練時(shí)間,結(jié)果顯示,與MulT相比,本文模型參數(shù)減少38%,訓(xùn)練時(shí)間減少29%。與Fusion-Based-CM-Attn-MulT[41]相比,參數(shù)量下降了28%,訓(xùn)練速度也有所提升。其原因?yàn)镸ulT模型每個(gè)模態(tài)分支使用2個(gè)跨模態(tài)Transformer,而本文模型每個(gè)分支只使用1個(gè),可減少參數(shù),并加快訓(xùn)練速度。
表3 多模態(tài)模型參數(shù)量和訓(xùn)練時(shí)間比較Table 3 Comparison of parameters and training time between multimodal models
圖9比較了5種模型精度和召回率,結(jié)果表明本文模型(Fish-MulT)對“強(qiáng)”、“中”、“弱”和“無”4種攝食強(qiáng)度的識別精度達(dá)到最高,分別為93.62%、94.74%、95.12%和97.06%。并且在“弱”和“中”這2個(gè)標(biāo)簽上的召回率明顯優(yōu)于其他模型,達(dá)到95.12%和92.31%,在“無”標(biāo)簽方面略微落后Fused MulT模型1.42個(gè)百分點(diǎn)。
圖9 不同模型的精度和召回率對比Fig.9 Comparison of Precision and Recall of different models
本文對多模態(tài)轉(zhuǎn)移模塊MMTM和自適應(yīng)權(quán)重進(jìn)行消融試驗(yàn),如表4所示。選擇Fused MulT作為基線模型?;€模型準(zhǔn)確率為93.81%。分別單獨(dú)加入MMTM和自適應(yīng)權(quán)重后,準(zhǔn)確率提高了1.04個(gè)百分點(diǎn)。在二者均加入的情況下,模型準(zhǔn)確率達(dá)到95.36%。結(jié)果表明,二者都對準(zhǔn)確率的提升起到一定作用。
表4 Fish-MulT消融試驗(yàn)Table 4 Ablation experiment of Fish-MulT
本文模型識別結(jié)果和歸一化混淆矩陣如表5和圖10所示,歸一化混淆矩陣的左上到右下的對角線表示每個(gè)分類的識別準(zhǔn)確率,對角線外區(qū)域表示錯(cuò)誤分類區(qū)域?!盁o”、“弱”、“中”、“強(qiáng)”4個(gè)攝食強(qiáng)度類別識別精度和召回率均在90%以上,整體識別準(zhǔn)確率為95.36%。值得注意的是,只存在相鄰類別的誤判,而不存在跨越一個(gè)及以上等級的誤判。混淆矩陣的結(jié)果表明本文模型識別準(zhǔn)確率高,穩(wěn)定性好。
表5 Fish-MulT算法識別結(jié)果Table 5 Identification results of Fish-MulT algorithm
圖10 Fish-MulT算法識別準(zhǔn)確率歸一化混淆矩陣Fig.10 Normalized confusion matrix of identified accuracy by Fish-MulT
本文針對不同模型推理攝食強(qiáng)度的速度進(jìn)行了對比實(shí)驗(yàn),推理速度為每個(gè)片段的識別時(shí)間,結(jié)果如表6所示。
表6 模型推理速度對比Table 6 Comparison of different models with inference speed
表6為不同模型對于每個(gè)4 s 攝食片段的平均推理用時(shí)對比。MulT算法對于每個(gè)片段的推理用時(shí)最久,為0.093 5 s,本文模型在MulT的基礎(chǔ)上改進(jìn),減少了參數(shù)量,推理速度優(yōu)于MulT。相比MulT,推理速度提升15.72%。此外,由表6可見,本文模型雙模態(tài)的推理速度優(yōu)于3模態(tài)。而單模態(tài)的SlowFast模型推理速度最快,達(dá)到0.022 3 s。雖然多模態(tài)模型的推理速度相比單模態(tài)不占優(yōu)勢,但是整體的推理速度均較快,推理用時(shí)占片段用時(shí)的占比小于2.5%,精度優(yōu)勢的重要性遠(yuǎn)大于時(shí)間優(yōu)勢。
為驗(yàn)證本文模型預(yù)測能力,測試其在一段完整的未經(jīng)訓(xùn)練的攝食視頻上的性能。視頻長度為180 s,使用滑動(dòng)窗口覆蓋4 s作為視覺模態(tài)輸入。每次滑動(dòng)距離為1 s。直接從視頻中提取音頻數(shù)據(jù),水質(zhì)數(shù)據(jù)通過3次函數(shù)擬合獲得。最后得到177個(gè)預(yù)測結(jié)果。
圖11為預(yù)測結(jié)果與真實(shí)值對比,4種狀態(tài)變化預(yù)測時(shí)間點(diǎn)接近真實(shí)變化點(diǎn)。對于完整攝食過程預(yù)測,“弱”和“無”的預(yù)測準(zhǔn)確率略低于試驗(yàn)結(jié)果??赡茉蚴钦麄€(gè)攝食視頻中“弱”和“無”的時(shí)間相對較長,投喂后養(yǎng)殖池內(nèi)漂浮物增加,也在一定程度上影響了視覺模態(tài)的識別效果。此外,魚群不規(guī)則游動(dòng)也會給識別帶來一定挑戰(zhàn)??傮w上,177個(gè)片段的平均準(zhǔn)確率為87%,能夠較準(zhǔn)確識別4種攝食狀態(tài)變化和把握攝食強(qiáng)度變化的時(shí)間點(diǎn),可為工廠化循環(huán)水養(yǎng)殖系統(tǒng)實(shí)現(xiàn)精準(zhǔn)投喂提供算法支持。
圖11 攝食過程預(yù)測結(jié)果Fig.11 Predicted results of feeding process
本文算法正確識別示例如圖12所示。然而本試驗(yàn)對于攝食強(qiáng)度識別仍存在一定誤差,對于攝食強(qiáng)度狀態(tài)切換時(shí),仍有誤判,錯(cuò)誤識別實(shí)例如圖13所示。
圖12 魚群攝食強(qiáng)度正確識別示例Fig.12 Correct identification samples of fish feeding intensity
圖13 魚群攝食強(qiáng)度誤判示例Fig.13 Wrong identification samples of fish feeding intensity
當(dāng)“強(qiáng)”即將轉(zhuǎn)變?yōu)椤爸小睍r(shí),本文算法可能提前將“強(qiáng)”識別為“中”,對于“無”和“弱”狀態(tài)的切換同樣如此。在實(shí)際應(yīng)用中,可以通過加入上下文信息,或者研究邊界點(diǎn)檢測的高精度算法,避免或減少上述誤判的出現(xiàn)。此外,本研究僅針對金鱒魚進(jìn)行了試驗(yàn),模型的泛化能力有待考證。下一步將結(jié)合目標(biāo)檢測算法對殘余餌料進(jìn)行識別,并擴(kuò)充試驗(yàn)魚的種類數(shù)量,從而綜合評價(jià)本文模型識別魚類攝食強(qiáng)度的效果。
為準(zhǔn)確識別魚類攝食強(qiáng)度,本文提出一種融合圖像-聲音和水質(zhì)信息的Fish-MulT算法。該算法在MulT算法基礎(chǔ)上進(jìn)行改進(jìn),加入MMTM和自適應(yīng)權(quán)重,并減少了跨模態(tài)Transformer數(shù)量。試驗(yàn)結(jié)果表明,該算法對攝食強(qiáng)度識別準(zhǔn)確率達(dá)到95.36%,相比MulT算法提高2.06個(gè)百分點(diǎn),且參數(shù)量減少38%,訓(xùn)練時(shí)間減少29%。因此,該模型可運(yùn)用于工廠化循環(huán)水養(yǎng)殖系統(tǒng),為實(shí)現(xiàn)精準(zhǔn)投喂提供可靠的算法參考。