葛 艷 張亞婷 李海濤
(青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院 山東 青島 266061)
魚類識(shí)別是了解海洋生態(tài)系統(tǒng)和生物多樣性的一項(xiàng)重要任務(wù)。可以通過(guò)自動(dòng)魚類識(shí)別,監(jiān)測(cè)和評(píng)估魚類種群以及分析海洋環(huán)境的變化來(lái)幫助科學(xué)家獲得某些特定魚類的分布。由于在復(fù)雜的海洋環(huán)境中很多魚類的水下圖像不清晰,并且存在訓(xùn)練圖像的數(shù)量不平衡的問題,因此正確識(shí)別魚類通常具有挑戰(zhàn)性。
已有很多學(xué)者開展了對(duì)魚類識(shí)別算法的研究工作。張志強(qiáng)等[1]提取魚類圖像中的各個(gè)顏色分量及長(zhǎng)短軸之比作為分類特征。姚潤(rùn)璐等[2]則從圖像中分割出魚背、魚尾等部位的圖像塊,以此為基礎(chǔ)提取相關(guān)性更強(qiáng)的特征。隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,一些具有數(shù)據(jù)學(xué)習(xí)能力的網(wǎng)絡(luò)模型被引入到海洋魚類識(shí)別研究中。Fabic等[3]將圖像劃分為小塊,對(duì)每塊計(jì)算顏色直方圖,通過(guò)各塊的直方圖分布特征來(lái)區(qū)分背景和目標(biāo)。相比上述傳統(tǒng)的魚類識(shí)別方法,近年來(lái)興起的深度學(xué)習(xí)方法在人體行為識(shí)別以及海洋魚類識(shí)別等方面取得了較好的效果。Sun等[4]采用深度學(xué)習(xí)方法和超分辨率方法明確學(xué)習(xí)相對(duì)低分辨率圖像的區(qū)別性特征。Chuang等[5]提出一個(gè)水下魚類識(shí)別框架,由完全無(wú)監(jiān)督的特征學(xué)習(xí)技術(shù)和錯(cuò)誤彈性分類器組成。張俊龍等[6]對(duì)魚類圖片的預(yù)處理進(jìn)行了改進(jìn),并提出了權(quán)重化特征的卷積。以上研究的開展為卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于海洋魚類識(shí)別提供了參考性和可行性依據(jù)。
目前采用深度學(xué)習(xí)方法進(jìn)行海洋魚類識(shí)別仍然面臨一些問題。例如,魚類圖像訓(xùn)練數(shù)據(jù)的樣本量不均勻以及樣本質(zhì)量較差問題,會(huì)影響海洋魚類識(shí)別模型的訓(xùn)練和識(shí)別的準(zhǔn)確率。此外,很多魚類存在類內(nèi)差異大、類間差異小的問題,使魚類識(shí)別任務(wù)更具有挑戰(zhàn)性。這也正是細(xì)粒度圖像識(shí)別存在的問題。魚類圖像因?yàn)榕臄z時(shí)的姿態(tài)、角度和光線等因素的影響,往往會(huì)造成同一種魚的圖像差異較大。而有些魚類從外觀和形態(tài)上看起來(lái)也非常相似,難以區(qū)分,因此,魚類識(shí)別也屬于細(xì)粒度圖像分類識(shí)別的一種特例。細(xì)粒度圖像的識(shí)別需要尋找有高度區(qū)分性的區(qū)域,并從這些局部區(qū)域中提取圖像特征用于進(jìn)行細(xì)粒度特征學(xué)習(xí)[7]。目前,常見的細(xì)粒度圖像識(shí)別算法有基于強(qiáng)監(jiān)督的Part-based R-CNN[8]和基于弱監(jiān)督的Bilinear CNN?;趶?qiáng)監(jiān)督的識(shí)別算法需要進(jìn)行人工標(biāo)注,其標(biāo)注代價(jià)過(guò)高。
基于以上分析,本文采用基于弱監(jiān)督的Bilinear CNN作為深度學(xué)習(xí)的框架,提出一種基于特征融合的FL-BCNN魚類識(shí)別算法。為了解決特征不明顯的問題,該方法通過(guò)融合不同卷積層的特征,提高細(xì)粒度特征的表達(dá)能力。利用焦點(diǎn)損失函數(shù)解決樣本數(shù)據(jù)不平衡的問題,提高水下魚類圖像的識(shí)別能力。實(shí)驗(yàn)結(jié)果表明,本文算法在公開的F4K(15)數(shù)據(jù)集上有較好的識(shí)別準(zhǔn)確率。
雙線性神經(jīng)網(wǎng)絡(luò)Bilinear CNN(B-CNN)是2015年由Lin等學(xué)者提出的一種針對(duì)細(xì)粒度圖像識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)。B-CNN由兩個(gè)基于CNN的特征提取器組成[9]。B-CNN可以模仿人類大腦在進(jìn)行視覺處理時(shí)的兩個(gè)過(guò)程,一個(gè)CNN根據(jù)物體特征識(shí)別物體又稱為局部特征提取器,另一個(gè)CNN發(fā)現(xiàn)物體的位置,又稱為局部位置檢測(cè)器。因此,在魚類識(shí)別中,一個(gè)CNN可以提取特定位置如魚體或尾巴的特征,另一個(gè)可以識(shí)別該位置,通過(guò)兩個(gè)CNN的組合就可以提高魚類細(xì)粒度圖像的識(shí)別率。
本文把B-CNN作為魚類識(shí)別的基礎(chǔ)網(wǎng)絡(luò)模型,并在此基礎(chǔ)上進(jìn)一步改進(jìn)以提升魚類識(shí)別的效果。B-CNN的主要結(jié)構(gòu)如圖1所示。
圖1 Bilinear CNN結(jié)構(gòu)
一個(gè)B-CNN模型由四元組構(gòu)成,B=(fA,fB,P,C),其中:fA、fB是分別經(jīng)過(guò)StreamA和StreamB得到的特征;P為Pooling操作;C為分類器。雙線性卷積網(wǎng)絡(luò)對(duì)特征的每一個(gè)位置l進(jìn)行如下計(jì)算:
bilinear(l,I,fA,fB)=fA(l,I)TfB(l,I)=XXT=
(1)
式中:X表示一幅圖像的特征圖經(jīng)展開后的特征矩陣,X∈Rd×N,其中N表示圖像特征圖中包含的特征數(shù)目,d表示圖像特征圖的通道數(shù)目;xi則表示X中的第i行即特征圖中第i個(gè)通道,xi∈R1×N。從fA(l,I)TfB(l,I)可以看出,B-CNN通過(guò)外積運(yùn)算可以得到矩陣中的每個(gè)元素,而且矩陣中每個(gè)元素均為通道之間的內(nèi)積,從而可以捕獲特征通道之間的成對(duì)相關(guān)性,并且可以對(duì)某些特征之間的相互作用進(jìn)行建模。
為了解決魚類圖像訓(xùn)練數(shù)據(jù)的樣本量不均勻、樣本質(zhì)量較差、魚類間差異小等問題,本文提出基于特征融合的FL-BCNN魚類識(shí)別算法。
本文算法將海洋魚類圖像的數(shù)據(jù)集通過(guò)改進(jìn)后的B-CNN模型進(jìn)行特征融合,接著將融合后的特征向量傳遞給全連接層,再通過(guò)Softmax層對(duì)全連接層的輸出結(jié)果進(jìn)行歸一化,最后將歸一化后的分類結(jié)果通過(guò)損失函數(shù)來(lái)判斷預(yù)測(cè)值與真實(shí)值的偏差。圖2為基于特征融合的FL-BCNN魚類識(shí)別算法的流程。
圖2 基于特征融合的FL-BCNN魚類識(shí)別算法流程
FL-BCNN模型對(duì)不同卷積層特征進(jìn)行融合,增強(qiáng)特征提取網(wǎng)絡(luò)之間的空間聯(lián)系,提高特征表達(dá)能力。此外,該模型采用焦點(diǎn)損失(Focal loss)函數(shù),使其聚焦于難訓(xùn)練的樣本,對(duì)于簡(jiǎn)單的、容易分類的樣本,給予的損失權(quán)重較低,這樣可以解決數(shù)據(jù)樣本不平衡的問題,從而提高模型的準(zhǔn)確度。圖3為本文提出的基于特征融合的FL-BCNN模型的網(wǎng)絡(luò)結(jié)構(gòu)。
圖3 FL-BCNN網(wǎng)絡(luò)結(jié)構(gòu)
在該模型中,Stream A和Stream B分別使用VGG-16作為特征提取網(wǎng)絡(luò),通過(guò)13個(gè)卷積層和4個(gè)池化層執(zhí)行位置檢測(cè)和特征提取。其中13個(gè)卷積層均使用3×3尺寸的卷積核,相同的卷積核尺寸可以使得前一層卷積核的張量與后一層的卷積核張量保持相同的寬和高,4個(gè)池化層均使用2×2的池化核進(jìn)行池化。
本文在B-CNN的基礎(chǔ)上基于特征融合的思想對(duì)特征提取網(wǎng)絡(luò)Stream B進(jìn)行了改進(jìn),再使用焦點(diǎn)損失函數(shù)(Focal loss)來(lái)判斷模型的優(yōu)劣。
在卷積神經(jīng)網(wǎng)絡(luò)中,淺層網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)到了圖像的輪廓、紋理等特征,而深層網(wǎng)絡(luò)結(jié)構(gòu)則可以學(xué)習(xí)一些較為抽象的語(yǔ)義信息。但是隨著網(wǎng)絡(luò)的加深,每一層都會(huì)丟失一些信息,那么到最后一層丟失的信息就會(huì)過(guò)多,導(dǎo)致識(shí)別的結(jié)果不準(zhǔn)確。為了解決多層卷積神經(jīng)網(wǎng)絡(luò)語(yǔ)義丟失的問題,就產(chǎn)生了多尺度特征融合的方案。Densenet[10]借鑒了殘差網(wǎng)絡(luò)[11]的融合思想,不同層次間的融合跨度更大,它與之前所有的網(wǎng)絡(luò)層都有連接,對(duì)于一些已經(jīng)學(xué)習(xí)到的特征,它不需要進(jìn)行重復(fù)學(xué)習(xí),因此網(wǎng)絡(luò)中得到的參數(shù)較少。
受Densenet與殘差網(wǎng)絡(luò)的啟發(fā),在本文的網(wǎng)絡(luò)結(jié)構(gòu)中,對(duì)B-CNN中負(fù)責(zé)特征提取的子網(wǎng)絡(luò)Stream B,即VGG-16進(jìn)行了改進(jìn),將最后一層卷積的輸出與前面conv4卷積塊的輸出、conv5_1的輸出做外積,以此達(dá)到融合不同層次的特征的目的。詳細(xì)的改進(jìn)步驟如下:
步驟1將conv4和conv5_1的輸出分別與最后一層的輸出進(jìn)行外積相乘,得到B2和B3。
步驟2將B2、B3與兩個(gè)特征提取網(wǎng)絡(luò)外積相乘得到的B1進(jìn)行相加融合得到Bilinear vector(BV)。
步驟4對(duì)第三步中獲得的向量執(zhí)行L2歸一化,并將其發(fā)送到全連接的層。
在實(shí)驗(yàn)中,將conv5_3輸出的三維向量分別與其他卷積層上的輸出做外積。由于不同卷積層上輸出的特征大小并不一致,因此經(jīng)過(guò)通道位置變換(Transpose)和重新調(diào)整大小(Reshape)進(jìn)行尺寸的調(diào)節(jié),并最終連接(Contact)在一起得到特征融合后的向量。特征融合的過(guò)程如圖4所示。
圖4 特征融合過(guò)程示意圖
在B-CNN基礎(chǔ)模型中采用標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù),該損失函數(shù)使用經(jīng)過(guò)歸一化指數(shù)函數(shù)Softmax激活后的概率分布作為輸入,刻畫預(yù)測(cè)分類和真實(shí)結(jié)果之間的相似度。Softmax的公式如下:
(2)
式中:exi為第i個(gè)類別的得分。Softmax激活函數(shù)可以得到0-1范圍內(nèi)的分類概率。
交叉熵?fù)p失函數(shù)的公式為:
(3)
式中:Pi是經(jīng)過(guò)Softmax得到的預(yù)測(cè)結(jié)果;yi代表真實(shí)值。交叉熵?fù)p失函數(shù)刻畫的是實(shí)際輸出的概率與期望輸出的概率的距離,即交叉熵的值越小,兩個(gè)概率分布就越接近。交叉熵?fù)p失函數(shù)適用于圖像多分類的場(chǎng)景,在圖像多分類任務(wù)中取得很好的效果。
但是,在魚類樣本數(shù)據(jù)集的類別比例不均衡時(shí),如果采用標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù),在訓(xùn)練過(guò)程中極易出現(xiàn)過(guò)擬合現(xiàn)象,影響模型的準(zhǔn)確率和收斂速度。Lin等[12]提出了應(yīng)用于密集物體檢測(cè)任務(wù)的焦點(diǎn)損失函數(shù)(Focal loss),并提出在基于二值分類的交叉熵中引入Focal loss,降低了容易分類的樣本的權(quán)重,解決了樣本數(shù)據(jù)集類別不均衡產(chǎn)生的一系列問題。在本文的研究中利用焦點(diǎn)損失函數(shù)在給定的數(shù)據(jù)集高度不平衡的情況下訓(xùn)練FL-BCNN魚類識(shí)別模型。Focal loss的函數(shù)形式為:
FL(Pi)=-αi(1-Pi)γlog(Pi)
(4)
式中:Pi為經(jīng)過(guò)Softmax的輸出的模型估計(jì)概率,Pi越大代表越容易分類;γ是一個(gè)指數(shù),經(jīng)過(guò)指數(shù)化后1-Pi變得更小;αi為平衡因子;-log(Pi)為交叉熵函數(shù)。這樣越簡(jiǎn)單越容易分類的樣本,FL(Pi)的值就越小,那么loss的權(quán)重就越小,這樣就可以使模型更好地聚焦于難訓(xùn)練的樣本進(jìn)行訓(xùn)練。
根據(jù)式(4)可以得到Focal Loss的反向傳播公式為:
(5)
在本文提出的FL-BCNN魚類識(shí)別模型中,對(duì)超參數(shù)γ的選取做了如下研究:當(dāng)γ=0時(shí),FL函數(shù)等于標(biāo)準(zhǔn)的交叉熵函數(shù),即FL函數(shù)無(wú)意義;當(dāng)γ=5時(shí),簡(jiǎn)單易分的樣本權(quán)重過(guò)小,對(duì)簡(jiǎn)單樣本的學(xué)習(xí)產(chǎn)生影響,不利于模型的學(xué)習(xí)。因此,我們?cè)赱0,5]之間折中γ=2,并通過(guò)實(shí)驗(yàn)驗(yàn)證了當(dāng)γ=2時(shí),對(duì)容易分類的樣本進(jìn)行指數(shù)化最適合本實(shí)驗(yàn)中的魚類識(shí)別模型。
2.4.1遷移學(xué)習(xí)
遷移學(xué)習(xí)是一種機(jī)器學(xué)習(xí)技術(shù),可在特定數(shù)據(jù)集上使用經(jīng)過(guò)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò),并將其遷移到其他數(shù)據(jù)集。遷移學(xué)習(xí)的目的是在不能在短時(shí)間內(nèi)獲得大量有效數(shù)據(jù)的前提下,獲得泛化能力強(qiáng)、準(zhǔn)確性高的模型。在本文的實(shí)驗(yàn)中,由于所采用的數(shù)據(jù)集中水下魚類視頻和圖像數(shù)據(jù)仍然較少,因此在本文中使用了遷移學(xué)習(xí)的思想,把在其他領(lǐng)域已經(jīng)訓(xùn)練好的模型,再用魚類的圖片數(shù)據(jù)集進(jìn)行學(xué)習(xí)訓(xùn)練,可以有效地提高模型的準(zhǔn)確性。本文使用在Imagenet數(shù)據(jù)集上已經(jīng)預(yù)訓(xùn)練好的模型進(jìn)行遷移學(xué)習(xí)。
2.4.2Dropout方法
訓(xùn)練一個(gè)更復(fù)雜的神經(jīng)網(wǎng)絡(luò),當(dāng)參數(shù)過(guò)多且訓(xùn)練數(shù)據(jù)較少時(shí),很容易產(chǎn)生過(guò)度擬合。文獻(xiàn)[13-14]中提出了Dropout方法。 該方法是在神經(jīng)網(wǎng)絡(luò)執(zhí)行前向傳播時(shí)讓某個(gè)神經(jīng)元以一定的概率停止工作,相當(dāng)于讓一部分的特征檢測(cè)器停止工作。該方法可以提高網(wǎng)絡(luò)的泛化能力,從而有效地抑制過(guò)度擬合的發(fā)生。
在本文提出的細(xì)粒度魚類圖像識(shí)別模型中,由于B-CNN的特征提取器選擇了VGG-16網(wǎng)絡(luò),盡管其網(wǎng)絡(luò)結(jié)構(gòu)并不復(fù)雜,但是包含的權(quán)重?cái)?shù)目很大,包括卷積核權(quán)重和全連接層的權(quán)重,容易產(chǎn)生較多的參數(shù)。因此,本文在全連接層之前使用Dropout方法來(lái)拋棄一些參數(shù),可以在一定程度上避免該魚類識(shí)別模型出現(xiàn)過(guò)擬合的現(xiàn)象。
F4k數(shù)據(jù)集是由Fish for knowledge項(xiàng)目組制作的一個(gè)公開數(shù)據(jù)集,該數(shù)據(jù)集建立的樣本均從真實(shí)海洋環(huán)境中采集,以臺(tái)灣南灣、藍(lán)嶼等觀測(cè)臺(tái)收集的魚類圖像作為研究對(duì)象。F4k數(shù)據(jù)集包含23種魚類,共27 370幅圖像。其中數(shù)量最多的一類包含12 112幅圖像,數(shù)量最少的一類只有16幅圖像。由于該數(shù)據(jù)集是從實(shí)況視頻中截取的魚類畫面,因此有大量重復(fù)的圖像。采用人工的方式將大多數(shù)重復(fù)的圖像篩選出去,同時(shí)采用水平翻轉(zhuǎn)、旋轉(zhuǎn)平移等數(shù)據(jù)增強(qiáng)的手段擴(kuò)充數(shù)據(jù)集,最終選取15類魚類,9 345幅圖片按照7∶2∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集進(jìn)行魚類識(shí)別模型的訓(xùn)練與驗(yàn)證。其中最多的一類圖片數(shù)量為1 000幅,最少的一類為145幅。數(shù)據(jù)集示例如圖5所示。
圖5 數(shù)據(jù)集樣本示例
本文利用TensorFlow在Ubuntu16.04系統(tǒng)下使用GPU進(jìn)行訓(xùn)練。實(shí)驗(yàn)所用機(jī)器的硬件配置為:處理器為Intel Core i7-7700,內(nèi)存8 GB,顯卡為NVIDIA GEFORCE GTX 1050Ti。軟件環(huán)境為:Ubuntu 16.04,Python3.6,TensorFlow,scikit-learn,keras等。
在實(shí)驗(yàn)中,使用本文提出的FL-BCNN模型對(duì)F4k數(shù)據(jù)集中選取的15類魚類、9 345幅圖片進(jìn)行訓(xùn)練與驗(yàn)證。其中,batch size為32,學(xué)習(xí)率使用0.01,動(dòng)量因子為0.9,迭代次數(shù)最大為5 000,當(dāng)損失達(dá)到收斂后,在驗(yàn)證集上驗(yàn)證最終的模型性能。本實(shí)驗(yàn)用準(zhǔn)確率(accuracy)和混淆矩陣(Confusion Matrix)作為評(píng)價(jià)指標(biāo)。最終通過(guò)測(cè)試集的驗(yàn)證,得出模型的準(zhǔn)確率為97.68%。圖6是特征提取的conv5_3卷積層激活圖的可視化結(jié)果,可以看出該模型在conv5_3學(xué)習(xí)到的特征已經(jīng)具有很強(qiáng)的辨識(shí)性。例如背景部分完全沒有激活度,而在魚尾或是魚鰭等比較關(guān)鍵的、細(xì)節(jié)性的位置則激活度較強(qiáng),因此該模型可以有效地對(duì)關(guān)鍵特征進(jìn)行識(shí)別。
圖6 conv5_3的可視化結(jié)果
圖7是實(shí)驗(yàn)中四種魚的最終的識(shí)別結(jié)果,由圖片和圖片上方預(yù)測(cè)的魚類名稱組成。
圖7 模型的識(shí)別結(jié)果
可以看出該模型對(duì)水下魚類的識(shí)別效果表現(xiàn)較好,可以快速準(zhǔn)確地識(shí)別出某種魚類。該模型對(duì)15種魚類在驗(yàn)證集上的識(shí)別準(zhǔn)確率如圖8所示。
圖8 在F4k(15)上得到的混淆矩陣
圖8中橫坐標(biāo)為預(yù)測(cè)值,縱坐標(biāo)為真實(shí)值,根據(jù)在數(shù)據(jù)集上得到的混淆矩陣可以看到對(duì)于不同種類的分類效果,對(duì)角線上的單元格顏色越深說(shuō)明準(zhǔn)確率越高,識(shí)別效果越好。可以看到除了編號(hào)為2的Chromis chrysura類外,其他類別的準(zhǔn)確率都較高。在圖5給出的數(shù)據(jù)集樣本示例中可以發(fā)現(xiàn),2號(hào)Chromis chrysura類與5號(hào)Acanthurus nigrofuscus類相似度極高,并且?guī)缀鯖]有紋理特征,因此,Chromis chrysura類有時(shí)會(huì)被錯(cuò)分為Acanthurus nigrofuscus類。
在相同數(shù)據(jù)集上對(duì)原始的B-CNN和本文提出的引入了特征融合與Focal loss的FL-BCNN上進(jìn)行了魚類識(shí)別對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表1和圖9所示。
表1 B-CNN和FL-BCNN的實(shí)驗(yàn)結(jié)果
(a) B-CNN訓(xùn)練損失曲線
從表1中我們可以看出,在原始的B-CNN模型中添加特征融合并將損失函數(shù)替換為Focal loss時(shí),準(zhǔn)確率高出4.71百分點(diǎn),并且在GPU上運(yùn)行時(shí),每迭代一次運(yùn)行時(shí)間減少了0.02s。
從圖9中可以發(fā)現(xiàn),增加了特征融合與Focal loss之后,訓(xùn)練的損失曲線的收斂速度明顯加快,并且相比較原始的B-CNN,可以達(dá)到更小的收斂值,從而驗(yàn)證了基于特征融合的FL-BCNN模型的有效性。
為了進(jìn)一步驗(yàn)證本文算法的有效性,本文選取了基于分類回歸樹的方法CART[15],基于使用拒絕選項(xiàng)的強(qiáng)制平衡優(yōu)化樹的方法BEDTR[16]、卷積神經(jīng)網(wǎng)絡(luò)VGG-16[17]、雙線性卷積神經(jīng)網(wǎng)絡(luò)B-CNN、基于特征融合的FL-BCNN算法在數(shù)據(jù)集F4K(15)上進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2所示。
表2 實(shí)驗(yàn)結(jié)果對(duì)比
可以看出,在相同的數(shù)據(jù)集上,FL-BCNN方法取得了最好的性能,與其他算法相比分別高出10.68百分點(diǎn)、0.18百分點(diǎn)、5.96百分點(diǎn)、4.71百分點(diǎn)。同時(shí)從結(jié)果來(lái)看,B-CNN方法優(yōu)于VGG-16,說(shuō)明相比于傳統(tǒng)的深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò),B-CNN更適應(yīng)于細(xì)粒度圖像識(shí)別。FL-BCNN方法要優(yōu)于VGG-16和B-CNN,使得識(shí)別的準(zhǔn)確率和模型的收斂速度進(jìn)一步提升,說(shuō)明利用特征融合和Focal loss解決細(xì)粒度特征不明顯和樣本數(shù)據(jù)類別不均衡的問題有助于提升模型的識(shí)別準(zhǔn)確率。
本文提出一個(gè)基于特征融合和雙線性卷積神經(jīng)網(wǎng)絡(luò)的魚類細(xì)粒度識(shí)別算法。該方法將神經(jīng)網(wǎng)絡(luò)中不同通道上的特征進(jìn)行融合,解決了由于水下圖像質(zhì)量差而造成的細(xì)粒度特征不明顯的問題。同時(shí)利用焦點(diǎn)損失函數(shù)來(lái)解決樣本數(shù)據(jù)集中數(shù)據(jù)不均衡的問題。該算法與已有的魚類細(xì)粒度識(shí)別算法相比,提高了識(shí)別的準(zhǔn)確率和模型的收斂速度,驗(yàn)證了本文算法的高效性。
魚類細(xì)粒度圖像仍面臨著由于水下拍攝造成的分辨率低的特點(diǎn),今后將嘗試與超分辨率算法相結(jié)合,提高水下魚類圖像的分辨率,增強(qiáng)魚類圖像的細(xì)節(jié)特征,進(jìn)一步提升識(shí)別的準(zhǔn)確率。