摘 要:針對(duì)自然環(huán)境中采集的鳥(niǎo)鳴聲數(shù)據(jù)存在的長(zhǎng)度不對(duì)齊性、冗余性、噪聲、類(lèi)內(nèi)差異大的問(wèn)題,提出一種由基于多級(jí)注意力的兩階段哈希算法和由融合對(duì)比損失輕量級(jí)分類(lèi)器構(gòu)成的自動(dòng)化鳥(niǎo)鳴聲識(shí)別模型。哈希算法一階段解決冗余性和噪聲的問(wèn)題,首先將對(duì)數(shù)梅爾頻譜圖分塊并計(jì)算每個(gè)片段之間的自注意力,提取計(jì)算得到的多級(jí)自注意力權(quán)重矩陣,然后利用自定義抑噪系數(shù)加權(quán)后的權(quán)值矩陣裁切輸入中的冗余和噪聲片段;哈希算法二階段解決輸入維度不對(duì)齊的問(wèn)題,利用多級(jí)注意力構(gòu)建的關(guān)聯(lián)式權(quán)重矩陣篩選輸入片段,實(shí)現(xiàn)維度歸一化。針對(duì)類(lèi)內(nèi)差異大的問(wèn)題,提出一種融合對(duì)比損失的綜合損失函數(shù),從而提升模型泛化性特征提取能力。實(shí)驗(yàn)結(jié)果表明:本文所提模型在自建的14種鳥(niǎo)類(lèi)鳴叫聲數(shù)據(jù)集上取得了92.49%的最佳性能,在公共數(shù)據(jù)集BirdsData、BIRDS上識(shí)別準(zhǔn)確率分別為94.38%和 97.74%,均超過(guò)現(xiàn)有方法。
關(guān)鍵詞:鳥(niǎo)鳴聲識(shí)別;多級(jí)注意力;哈希壓縮;對(duì)比損失 ;自建數(shù)據(jù)集
DOI:10.15938/j.jhust.2024.06.006
中圖分類(lèi)號(hào): TP391.4
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1007-2683(2024)06-0061-13
Birdsong Recognition Based on Attention Hash
Algorithm Combined with Contrastive Loss
WANG Yuwei1, CHEN Aibin1, ZHOU Guoxiong1, ZHANG Zhiqiang2
(1.Institute of Applied Artificial Intelligence, Central South University of Forestry and Technology, Changsha 410004,China;2.Wildlife Conservation and Utilization Laboratory, Central South University of Forestry and Technology, Changsha 410004,China)
Abstract:Aiming at the problems of length misalignment, redundancy, noise and large intra-class differences in birdsong data collected in the natural environment, an automatic birdsong recognition model composed of a two-stage hash algorithm based on multi-level attention and a lightweight classifier based on fusion contrastive loss is proposed. The first stage of the hash algorithm solves the problem of redundancy and noise by firstly dividing the logarithmic Mel spectrogram and calculating the self-attention between each fragment, extracting the calculated multi-level self-attention weight matrix, and then using the weight matrix weighted by the custom noise suppression coefficient to trim the redundancy and noise fragments in the input. The second stage of the hash algorithm solves the problem of misalignment of input dimensions, specifically by using a correlation weight matrix constructed by multi-level attention to screen input fragment to achieve dimension normalization. Aiming at the problem of large intra-class differences, a comprehensive loss function of fusion contrastive loss is proposed, which improve the ability to extract generalized features. The proposed model achieves the best performance of 92.49% on the self-built dataset of 14 kinds of bird songs, and the recognition accuracy of 94.38% and 97.74% on the public datasets BirdsData and BIRDS, respectively, surpassing the existing methods.
Keywords:birdsong recognition; multi-level attention; hash compression; contrastive loss; self-built dataset
收稿日期: 2023-06-30
基金項(xiàng)目: 國(guó)家自然科學(xué)基金(62276276);中南林業(yè)科技大學(xué)研究生科技創(chuàng)新基金(cx202202083).
作者簡(jiǎn)介:
王玉偉(1999—),男,碩士研究生;
周?chē)?guó)雄(1980—),男,博士,教授.
通信作者:
陳愛(ài)斌(1971—),男,博士,教授,E-mail:hotaibin@163.com.
0 引 言
鳥(niǎo)類(lèi)物種多樣性是評(píng)估和監(jiān)測(cè)森林生態(tài)環(huán)境質(zhì)量重要的生物指標(biāo)之一[1-2],也是衡量生態(tài)系統(tǒng)總體健康程度的重要指標(biāo)[3]。鳥(niǎo)類(lèi)數(shù)量急劇下降是備受關(guān)注的全球問(wèn)題,保護(hù)鳥(niǎo)類(lèi)至關(guān)重要[4]。識(shí)別和監(jiān)測(cè)鳥(niǎo)類(lèi)物種多樣性是保護(hù)鳥(niǎo)類(lèi)的前提和關(guān)鍵[5]。傳統(tǒng)鳥(niǎo)類(lèi)監(jiān)測(cè)方法需要生物學(xué)專(zhuān)家赴野外對(duì)鳥(niǎo)類(lèi)物種多樣性進(jìn)行調(diào)查和記錄[6],這種方法費(fèi)時(shí)且低效。野外聲音傳感器技術(shù)的發(fā)展也使得在更大的時(shí)間和空間尺度上連續(xù)記錄鳥(niǎo)類(lèi)的發(fā)聲成為可能[8]。因此,通過(guò)聲學(xué)傳感器采集鳥(niǎo)類(lèi)鳴叫聲來(lái)識(shí)別鳥(niǎo)類(lèi)是監(jiān)測(cè)野外鳥(niǎo)類(lèi)物種多樣性的首選方法。
鳥(niǎo)鳴聲識(shí)別任務(wù)屬于聲學(xué)事件分類(lèi)[9],近些年來(lái),深度學(xué)習(xí)的快速發(fā)展已經(jīng)證明了其在聲學(xué)事件分類(lèi)中的能力[10-11]。結(jié)合深度學(xué)習(xí)與鳥(niǎo)類(lèi)獨(dú)特的發(fā)聲特征對(duì)鳥(niǎo)類(lèi)進(jìn)行識(shí)別是一種高效的做法。Zhang等[12]提出了一種具有修正殘差塊的加權(quán)交叉熵函數(shù)的單特征識(shí)別模型,建立了兩種多通道融合方法:特征融合模式、結(jié)果融合模式,增強(qiáng)了模型提取不平衡數(shù)據(jù)集中鳥(niǎo)鳴聲特征的能力。Liu等[13]使用三維和二維卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)分別作為對(duì)數(shù)梅爾頻譜圖和波形圖像的特征提取器,將提取出的高級(jí)特征在中間階段融合生成高級(jí)特征,提出多通道特征融合方法顯著提高了模型性能。為了豐富鳥(niǎo)鳴聲特征,一些新的表征方式被提出。Xie等[14]研究了鳥(niǎo)鳴聲三種不同的時(shí)頻特征表示:梅爾頻譜圖、基于諧波的頻譜圖、基于打擊樂(lè)的頻譜圖,用于捕捉同一音頻文件的不同聲學(xué)模式。Jancovic等[15]將聲學(xué)場(chǎng)景分解為正弦分量,使用隱馬爾可夫模型對(duì)鳥(niǎo)類(lèi)發(fā)聲特征進(jìn)行時(shí)序建模,提出一種無(wú)監(jiān)督表征鳥(niǎo)類(lèi)發(fā)聲的新方法。Yan等[16]將用于音樂(lè)分析的聲學(xué)特征色度與鳥(niǎo)鳴聲特征對(duì)數(shù)梅爾(Log-Mel)譜圖和梅爾頻率倒譜系數(shù)(mel frequency cepstral coefficents,MFCC)拼接融合,豐富了單個(gè)特征的表達(dá)能力。
對(duì)鳥(niǎo)鳴聲特征建模屬于時(shí)間序列任務(wù)。研究表明,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)有著比CNN更加強(qiáng)大的時(shí)間序列建模能力[17],但是RNN提取精細(xì)局部特征能力較差。因此,出現(xiàn)一些利用CNN提取局部特征,利用RNN建模全局特征的方法[18-19]。Himawan等[20]提出了一種用于同時(shí)提取鳥(niǎo)鳴聲時(shí)頻譜中的長(zhǎng)期和短期信息的三維卷積,使用單獨(dú)的RNN作為卷積層的濾波器,分類(lèi)效果優(yōu)于二維結(jié)構(gòu)的卷積網(wǎng)絡(luò)。由于鳥(niǎo)鳴聲頻率具有時(shí)間是連續(xù)變化的特點(diǎn),Zhang等[21]在文[20]的基礎(chǔ)上提出一種鳥(niǎo)鳴聲的連續(xù)幀序列化方法和時(shí)頻幀線性網(wǎng)絡(luò),采用短幀長(zhǎng)的滑動(dòng)窗口算法微分鳥(niǎo)鳴聲的梅爾時(shí)頻譜作為輸入,使用垂直3D卷積覆蓋連續(xù)幀整個(gè)頻帶,從而提取鳥(niǎo)鳴聲的長(zhǎng)短期信息。
此前研究多集中在拓展鳥(niǎo)鳴聲表征方式和優(yōu)化用于鳥(niǎo)鳴聲識(shí)別的深度神經(jīng)網(wǎng)絡(luò)模型,使用的是人工構(gòu)建的時(shí)長(zhǎng)歸一化數(shù)據(jù)集。文[20]使用經(jīng)過(guò)精細(xì)剪輯的單個(gè)音頻長(zhǎng)度為10s的鳥(niǎo)鳴聲音頻數(shù)據(jù)集BirdVox和Poland。文[22]使用鳥(niǎo)鳴聲占主導(dǎo)的單個(gè)音頻時(shí)長(zhǎng)5s的數(shù)據(jù)集BIRDS,其中空白片段已經(jīng)被人為刪除。
區(qū)別于經(jīng)過(guò)人工處理的精細(xì)鳥(niǎo)鳴聲數(shù)據(jù),真實(shí)自然環(huán)境中采集的鳥(niǎo)鳴聲音頻的復(fù)雜情況決定了先前的工作難以實(shí)現(xiàn)一個(gè)真正的自動(dòng)化鳥(niǎo)鳴聲識(shí)別系統(tǒng)。傳感器在野外收集到的鳥(niǎo)鳴聲數(shù)據(jù)通常有以下問(wèn)題:
1)錄制的鳥(niǎo)鳴聲音頻長(zhǎng)度通常是無(wú)規(guī)律的,從幾秒鐘到幾分鐘不等。造成這種情況有兩個(gè)原因:首先不同鳥(niǎo)類(lèi)單次發(fā)聲的持續(xù)時(shí)間是不相同的,其次傳感器在不同工作時(shí)間和工作環(huán)境中收集到的包含鳥(niǎo)鳴聲片段的音頻長(zhǎng)度不相同的。
2)鳥(niǎo)鳴聲音頻數(shù)據(jù)存在冗余性。即部分錄制的音頻數(shù)據(jù)中有效鳥(niǎo)鳴聲片段占比少[23],噪聲和空白片段占比超過(guò)鳥(niǎo)鳴聲片段。
3)鳥(niǎo)鳴聲音頻數(shù)據(jù)中存在大量背景噪聲[24],這些噪聲大體可以分為兩類(lèi):第一類(lèi)是自然環(huán)境的噪聲,包括但不限于:風(fēng)聲,流水聲,其他鳥(niǎo)類(lèi)鳴叫聲,其他動(dòng)物的鳴叫聲;第二類(lèi)是人類(lèi)導(dǎo)致的噪聲,例如人類(lèi)錄制鳥(niǎo)鳴聲器材的背景聲,汽車(chē)的喇叭聲,人類(lèi)的說(shuō)話聲等[20]。
4)同一種鳥(niǎo)類(lèi)通常存在兩種及以上的鳴叫聲[25]。同種鳥(niǎo)類(lèi)在求偶、守護(hù)領(lǐng)地、躲避天敵、發(fā)現(xiàn)食物等不同時(shí)期鳥(niǎo)鳴聲是不同的,可以分為鳴叫和吟唱兩種基本類(lèi)型[22],其在頻率和音色上是不同的。鳴叫指鳥(niǎo)類(lèi)發(fā)出的各種各樣較短促、較簡(jiǎn)單的鳴聲,而鳴唱?jiǎng)t是一般由雄鳥(niǎo)在繁殖期內(nèi)發(fā)出的持續(xù)時(shí)間較長(zhǎng)的、相對(duì)較復(fù)雜的鳴聲。
目前,針對(duì)問(wèn)題1)解決辦法是將時(shí)長(zhǎng)不等的鳥(niǎo)鳴聲音頻分割為固定時(shí)長(zhǎng)的音頻片段,實(shí)現(xiàn)音頻樣本歸一化[26];問(wèn)題2)問(wèn)題3)的解決辦法是人工篩選分割后的音頻片段,刪除其中的負(fù)樣本,如空白樣本、僅噪聲樣本和無(wú)關(guān)鳥(niǎo)類(lèi)的聲音樣本[16, 21]。問(wèn)題4)似乎沒(méi)有引起大家的重視,有不少研究注意到這個(gè)問(wèn)題但是幾乎沒(méi)有提出一些特別的方法去解決它。研究的局限性在于依賴(lài)手動(dòng)分割鳥(niǎo)鳴聲數(shù)據(jù)集的算法不可以用來(lái)構(gòu)建一個(gè)自動(dòng)化的鳥(niǎo)鳴聲識(shí)別模型。
為自動(dòng)化鳥(niǎo)鳴聲識(shí)別系統(tǒng)開(kāi)發(fā)核心算法,實(shí)現(xiàn)一個(gè)端到端的鳥(niǎo)鳴聲識(shí)別模型,這要求深度神經(jīng)網(wǎng)絡(luò)具有從復(fù)雜鳥(niǎo)鳴聲數(shù)據(jù)中提取有效鳥(niǎo)鳴聲特征的能力。鑒于自注意力機(jī)制強(qiáng)大的特征提取能力,本文設(shè)計(jì)了一種利用注意力定位輸入中有效鳥(niǎo)鳴聲片段并將冗余片段直接丟棄的特征提取方法和一個(gè)輕量級(jí)的分類(lèi)器。針對(duì)問(wèn)題1),受哈希(Hash)算法輸入不固定性和輸出固定性的啟發(fā),設(shè)計(jì)了基于多級(jí)注意力(multi-level attention,MLA)的兩階段哈希壓縮算法,將長(zhǎng)度不固定的輸入壓縮到固定的輸出表示,實(shí)現(xiàn)鳥(niǎo)鳴聲音頻數(shù)據(jù)歸一化。針對(duì)問(wèn)題2)和問(wèn)題3)提出抑噪系數(shù)(noise suppression factor,NFS),利用經(jīng)過(guò)抑噪系數(shù)加權(quán)的多級(jí)注意力權(quán)重矩陣過(guò)濾輸入片段,將注意力權(quán)值較低的片段直接丟棄,降低輸入圖像的冗余度,同時(shí)抑制噪聲對(duì)鳥(niǎo)鳴聲特征提取的影響。這樣做的另一個(gè)好處是大大降低了模型的計(jì)算量,減少訓(xùn)練時(shí)間。針對(duì)問(wèn)題4),將對(duì)比學(xué)習(xí)(contrastive learning)思想引入聲學(xué)事件分類(lèi)中,對(duì)比學(xué)習(xí)在圖像細(xì)粒度分類(lèi)中有著較為廣泛的應(yīng)用[27-28],以解決細(xì)粒度圖像類(lèi)內(nèi)差異大,類(lèi)間差異小的問(wèn)題[29]。同種鳥(niǎo)類(lèi)不同類(lèi)型的鳴叫聲可視為較大的類(lèi)內(nèi)差異,因此在預(yù)測(cè)網(wǎng)絡(luò)中引入對(duì)比損失(contrastive loss),拓展模型提取同種鳥(niǎo)類(lèi)不同類(lèi)型發(fā)聲特征的能力以增強(qiáng)模型泛化性。
1 數(shù)據(jù)集及可視化表示
本文中的鳥(niǎo)鳴音頻數(shù)據(jù)來(lái)自Xeno-canto網(wǎng)站(https://www.xeno-canto.org),該網(wǎng)站的所有音頻數(shù)據(jù)都由世界各地的志愿者在自然環(huán)境下錄制并上傳,被廣泛地用作評(píng)價(jià)鳥(niǎo)鳴聲分類(lèi)模型的數(shù)據(jù)集來(lái)源[4, 13, 16, 21, 22, 26, 30, 31]。本研究的目的是為自動(dòng)鳥(niǎo)鳴聲監(jiān)測(cè)系統(tǒng)構(gòu)建算法模型。實(shí)時(shí)分類(lèi)自然狀態(tài)下錄制的鳥(niǎo)鳴聲音頻數(shù)據(jù)是一個(gè)自動(dòng)化的鳥(niǎo)鳴聲監(jiān)測(cè)系統(tǒng)的基本要求。因此,本文直接收集未經(jīng)人工處理的原始鳥(niǎo)鳴聲音頻作為數(shù)據(jù)集使用。
由于計(jì)算機(jī)處理音頻長(zhǎng)度受到硬件規(guī)格的限制,自建數(shù)據(jù)集BirdSong14的鳥(niǎo)鳴聲音頻時(shí)長(zhǎng)被限制在20s,共有14種鳥(niǎo)類(lèi),每種鳥(niǎo)類(lèi)音頻數(shù)量統(tǒng)計(jì)如表1所示,不同時(shí)長(zhǎng)的鳥(niǎo)鳴聲音頻數(shù)量統(tǒng)計(jì)如圖1所示。
鳥(niǎo)鳴聲特征可視化已經(jīng)被證明是有效的[32]。為了獲取隨時(shí)間變化鳥(niǎo)鳴聲特征,本文使用短時(shí)傅里葉變換(short time fourier transform,STFT)分析非平穩(wěn)的鳥(niǎo)鳴聲音頻信號(hào)。對(duì)鳥(niǎo)鳴聲的原始音頻進(jìn)行STFT獲得時(shí)頻譜,如式(1)所示:
s(ω,τ)=∫+∞-∞x(t)w(t-τ)e-j2πωtdt(1)
式中:x(t)為原始時(shí)域信號(hào);w(t-τ)為中心位置位于τ的分割窗口;s(ω,τ)為變換后得到二維時(shí)頻譜矩陣,行ω代表頻率,列τ代表了結(jié)果序列的數(shù)量。由于自建數(shù)據(jù)集中鳥(niǎo)鳴聲音頻時(shí)長(zhǎng)T不等,τ的值由時(shí)間T計(jì)算得到,與T成正比,如式(2)所示:
τ=TSrhlength(2)
式中:其中Sr為采樣率;hlength窗口移動(dòng)長(zhǎng)度。將s(ω,τ)通過(guò)梅爾標(biāo)度濾波器組得到梅爾時(shí)頻譜[33],如式(3)所示:
fmel=2595lg(1+ω700)(3)
其中fmel為計(jì)算出的梅爾標(biāo)度頻率,設(shè)置濾波器組個(gè)數(shù)為128,即fmel∈[0,128),最后對(duì)幅度值取對(duì)數(shù),使那些振幅較低成分相對(duì)高振幅成分得以拉高,以便觀察掩蓋在低幅噪聲中的周期信號(hào)[34]。經(jīng)過(guò)上述預(yù)處理過(guò)程后,鳥(niǎo)鳴聲音頻表示為大小為128×τ的單通道圖像。
收集的14種鳥(niǎo)類(lèi)音頻數(shù)據(jù)集對(duì)數(shù)梅爾頻譜圖可視化如表2所示,其中可以觀察到清晰的鳥(niǎo)類(lèi)鳴叫聲可視化特征,同時(shí)也能觀察到未經(jīng)預(yù)處理的原始鳥(niǎo)鳴聲對(duì)數(shù)梅爾頻譜圖的復(fù)雜情況,具體如下:
1)維度不對(duì)齊性。由式(2)可知,鳥(niǎo)鳴聲可視化之后的對(duì)數(shù)梅爾頻譜圖長(zhǎng)度與鳥(niǎo)鳴聲音頻時(shí)長(zhǎng)T成正比。在所有14種鳥(niǎo)類(lèi)鳴叫聲頻譜圖中都可以觀察到不等長(zhǎng)的音頻轉(zhuǎn)換為不等長(zhǎng)頻譜圖。
2)冗余性。云雀的第一張頻譜圖中鳥(niǎo)類(lèi)只鳴叫了兩次,剩余為空白片段和低頻噪聲;旋木雀的第一張頻譜圖中鳥(niǎo)鳴聲只出現(xiàn)在開(kāi)始和結(jié)束部分,其余為空白;灰頭綠啄木鳥(niǎo)的鳴叫聲對(duì)數(shù)梅爾頻譜圖中也觀察到相同的現(xiàn)象;綠頭鴨的第一張頻譜圖中鳥(niǎo)鳴聲只占開(kāi)始的一小部分,其余為低頻噪聲和空白。
3)噪聲。復(fù)雜的音頻錄制環(huán)境導(dǎo)致大量背景噪聲被錄制進(jìn)入鳥(niǎo)鳴聲音頻,可以在對(duì)數(shù)梅爾頻譜圖中觀察到普遍的中低噪聲,鳥(niǎo)類(lèi)鳴叫聲多為中高頻,自然環(huán)境噪聲多為中低頻。綠翅鴨、太平鳥(niǎo)、角百靈、沼澤山雀的鳴聲對(duì)數(shù)梅爾頻譜圖中觀察到持續(xù)整個(gè)鳴聲周期的中低頻噪聲;紅交嘴雀的鳴叫聲對(duì)數(shù)梅爾頻譜圖中觀察到覆蓋鳴聲特征的中高頻噪聲。
4)類(lèi)內(nèi)差異大。同種鳥(niǎo)類(lèi)存在不同種鳴叫聲,最基本可以分為鳴叫和吟唱。旋木雀的兩張對(duì)數(shù)梅爾頻譜圖分別為吟唱和鳴叫,可以觀察到其可視化特征存在較大差異。鳴叫聲簡(jiǎn)單、短促、有規(guī)律,吟唱單次聲持續(xù)時(shí)間長(zhǎng)且復(fù)雜。在銀喉長(zhǎng)尾山雀、云雀 、太平鳥(niǎo)、黑啄木鳥(niǎo)、梅山雀等的鳴聲對(duì)數(shù)梅爾頻譜圖中觀察到相似的情況。
2 本文算法
為了實(shí)現(xiàn)一個(gè)自動(dòng)鳥(niǎo)鳴聲監(jiān)測(cè)系統(tǒng),本研究提出了一個(gè)輕量級(jí)的鳥(niǎo)鳴聲識(shí)別模型,用來(lái)自動(dòng)識(shí)別自然環(huán)境中采集鳥(niǎo)鳴聲,本文方法的整體框架如圖2所示。本文所提模型由基于哈希壓縮的維度變換模塊(a)和融合對(duì)比損失的輕量級(jí)分類(lèi)器(b)組成,其中維度變換模塊利用基于多級(jí)自注意力的兩階段哈希壓縮算法(c)將維度不對(duì)齊的三維對(duì)數(shù)梅爾頻譜圖壓縮到維度對(duì)齊的二維輸出,然后堆疊擴(kuò)展維度至三維;輕量級(jí)分類(lèi)器負(fù)責(zé)提取深層特征并計(jì)算同標(biāo)簽輸入的對(duì)比損失,預(yù)測(cè)類(lèi)別輸出。
將計(jì)算得到的注意力權(quán)重矩陣經(jīng)過(guò)抑噪系數(shù)加權(quán)得到注意力裁切矩陣,其權(quán)重與輸入線性向量建立了一一映射關(guān)系,也唯一映射著輸入的鳥(niǎo)鳴聲片段。
將注意力裁切矩陣中的權(quán)重按降序排列,然后將權(quán)值較低的線性向量按照預(yù)設(shè)的壓縮比例θ將權(quán)值較低的向量丟棄掉,得到特征圖為H∈瘙綆hwp2(1-θ)+1×P2。其中h、w為原始輸入對(duì)數(shù)梅爾頻譜圖的寬和高,p為分割成片段的尺寸,p2 表示單個(gè)片段被編碼為線性向量的維度。
哈希算法一階段低可視化結(jié)果如圖4所示。當(dāng)θ=0.5時(shí),一半的輸入片段被裁切,但依然剩余較多冗余片段;當(dāng)θ=0.75時(shí),較多的冗余片段被丟棄,但是依然存在一些無(wú)語(yǔ)義信息的片段和低頻噪聲;當(dāng)θ=0.9時(shí),輸入的對(duì)數(shù)梅爾頻譜圖中90%的片段都被丟棄,可以從剩余的片段中觀察到清晰的鳥(niǎo)鳴聲可視化特征。
2.1.2 二階段基于關(guān)聯(lián)式權(quán)重的維度歸一化方法
輸入對(duì)數(shù)梅爾頻譜圖經(jīng)過(guò)一階段計(jì)算,在保留小比例足以分辨出當(dāng)前實(shí)例種類(lèi)的有效鳥(niǎo)鳴聲片段基礎(chǔ)上最大限度地裁切了低權(quán)值冗余片段。然而,一階段的輸出維度仍然不對(duì)齊。二階段基于關(guān)聯(lián)式權(quán)重的維度歸一化方法實(shí)現(xiàn)維度對(duì)齊以及高辨識(shí)度鳥(niǎo)鳴聲片段定位,其工作流程如圖5所示。
由表3可得出兩個(gè)結(jié)論:結(jié)論一,在壓縮率θ不變的情況下,模型性能并沒(méi)有隨著層數(shù)n的增多而提升;結(jié)論二,模型在層數(shù)相同的情況下,壓縮率θ越高,識(shí)別結(jié)果的準(zhǔn)確率和F1分?jǐn)?shù)都在提高。
結(jié)論一與其他研究得出的結(jié)論類(lèi)似。文[18, 22]表明淺層CNN的鳥(niǎo)鳴聲分類(lèi)效果優(yōu)于深層CNN;文[38-39]表明增加Transformer網(wǎng)絡(luò)深度并不能帶來(lái)性能的提升。
為了探究結(jié)論二,即模型性能隨著壓縮率θ提高而提升的原因,可視化了不同壓縮率θ時(shí)一階段的輸出,如圖6所示。模型對(duì)噪聲的抑制效果隨著壓縮率θ的提高而增強(qiáng),當(dāng)θ=0.9時(shí),噪聲片段幾乎被全部裁切,同時(shí)保留了有效鳥(niǎo)鳴聲片,沒(méi)有損失鳥(niǎo)鳴聲特征。
為了探索了二階段不同網(wǎng)絡(luò)層數(shù)L和輸出片段數(shù)s對(duì)識(shí)別結(jié)果的影響。由于多頭自注意力的特點(diǎn),輸出片段數(shù)量和Transformer模型多頭自注意力的頭數(shù)相等或近似效果最好,而多頭數(shù)量一般設(shè)置為偶數(shù),因此輸出片段數(shù)量s為偶數(shù)。使用自建數(shù)據(jù)集測(cè)試所提模型,評(píng)價(jià)指標(biāo)選擇準(zhǔn)確率和F1分?jǐn)?shù)。實(shí)驗(yàn)結(jié)果如表4所示。
與一階段取得的結(jié)論相似,模型并沒(méi)有隨著層數(shù)增加而提升性能。另外,輸出更多的片段不利于正確分類(lèi),其原因是當(dāng)輸出片段數(shù)較多時(shí),一階段輸出中殘留的噪聲片段可能會(huì)被錯(cuò)誤的選擇為鳥(niǎo)鳴聲片段,造成識(shí)別準(zhǔn)確率降低。
本文所提模型在一階段在壓縮率θ=0.9,層數(shù)n=4;二階段層數(shù)L=3,輸出片段數(shù)s=6時(shí)取得最優(yōu)性能。
3.3 自建數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果
本文所提模型在自建數(shù)據(jù)集BirdSong14上詳細(xì)的實(shí)驗(yàn)結(jié)果如表5所示。由于數(shù)據(jù)集的復(fù)雜情況,每種鳥(niǎo)類(lèi)的識(shí)別結(jié)果不同,其中對(duì)蒼鷹的分類(lèi)效果優(yōu)秀,精確率達(dá)到98.41%,召回率達(dá)到96.88%,F(xiàn)1分?jǐn)?shù)97.64%,對(duì)綠翅鴨、綠頭鴨、旋木鳥(niǎo)、黑啄木鳥(niǎo)、白鷺、紅交嘴雀、灰頭綠啄木鳥(niǎo)的分類(lèi)效果較好,精確率和召回率均達(dá)到90%以上;部分鳥(niǎo)類(lèi)如太平鳥(niǎo)、角百靈、煤山雀、沼澤山雀的精確率較好,但是召回率略低,原因是這些鳥(niǎo)類(lèi)音頻數(shù)量較少,且類(lèi)內(nèi)差異大;對(duì)銀喉長(zhǎng)尾山雀、云雀的分類(lèi)精確率略低于90%,召回率較好,原因是這些鳥(niǎo)類(lèi)音頻中噪聲的情況比較復(fù)雜,覆蓋了鳥(niǎo)類(lèi)發(fā)聲,干擾了識(shí)別精確率。
實(shí)驗(yàn)結(jié)果平均精確率92.56%、平均召回率92.01%、平均F1分?jǐn)?shù)91.84%,均達(dá)到了90%以上,說(shuō)明本文算法具有精確識(shí)別鳥(niǎo)鳴聲的能力,適合復(fù)雜鳥(niǎo)鳴聲數(shù)據(jù)的識(shí)別任務(wù)。
3.4 消融實(shí)驗(yàn)
基于本文提出的基于多級(jí)注意力的兩階段哈希壓縮算法、融合對(duì)比損失的綜合損失函數(shù)進(jìn)行消融實(shí)驗(yàn)驗(yàn)證所提算法的有效性。實(shí)驗(yàn)結(jié)果如表6所示。
添加非鳥(niǎo)鳴聲片段裁切方法后,模型實(shí)驗(yàn)效果分別提升3.18%、2.85%、3.45%、2.76%,此時(shí),模型裁切了大比例的輸入冗余片段和部分噪聲片段,但并沒(méi)有對(duì)噪聲做特別的處理。利用抑噪系數(shù)過(guò)濾輸入片段后,識(shí)別結(jié)果分別提高3.25%、3.71%、3.51%、4.28%,模型對(duì)噪聲的抑制作用增強(qiáng),如圖7所示,輸出片段中噪聲片段占比減少。
關(guān)聯(lián)式權(quán)重矩陣增強(qiáng)了模型定位關(guān)鍵辨識(shí)度區(qū)域的能力進(jìn)而提高識(shí)別準(zhǔn)確率。對(duì)比損失提升性能的主要途徑是縮小類(lèi)內(nèi)差距,增強(qiáng)泛化性。
一階段非鳥(niǎo)鳴聲片段裁切的另一個(gè)作用是降低計(jì)算量,在保留少量足以分辨出當(dāng)前實(shí)例種類(lèi)的有效鳥(niǎo)鳴聲片段基礎(chǔ)上最大限度地丟棄了輸入冗余片段。由于自注意力機(jī)制的計(jì)算量與線性序列維度的平方成正比[34],經(jīng)過(guò)一階段后,輸入序列減少了90%,后續(xù)所需計(jì)算量大幅度降低。如表7所示,總體計(jì)算量下降了95.37%,因?yàn)橐浑A段主要利用自注意力計(jì)算過(guò)程中自身的權(quán)重矩陣,沒(méi)有引入任何額外的參數(shù),所以參數(shù)量沒(méi)有任何增加。
3.5 對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文所提算法在處理復(fù)雜鳥(niǎo)鳴聲數(shù)據(jù)時(shí)的優(yōu)勢(shì),在自建數(shù)據(jù)集上與其他先進(jìn)(state of the art,SOTA)模型作對(duì)比實(shí)驗(yàn)。由于本文自建數(shù)據(jù)集是維度不對(duì)齊的對(duì)數(shù)梅爾頻譜圖,先前的深度學(xué)習(xí)模型無(wú)法接受維度不對(duì)齊的輸入,因此將所有對(duì)數(shù)梅爾頻譜圖補(bǔ)充到維度對(duì)齊的狀態(tài),進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表8所示。
由于缺乏復(fù)雜噪聲處理機(jī)制,以及受限于卷積全局感受野小,ResNet、VGG、DesNet、MobileNet、Inception、Xception、EfficientNet等主流CNN的識(shí)別效果都低于86%,其中MobileNet-V2是一個(gè)輕量級(jí)的CNN,其參數(shù)量和計(jì)算量接近本文所提方法,但是由于沒(méi)有對(duì)噪聲進(jìn)行特別的處理,其識(shí)別效果止步84.57%。Vit_B_16模型的識(shí)別效果僅為81.43%,表明原始Vit模型并不適合鳥(niǎo)鳴聲識(shí)別。
專(zhuān)注于音頻頻譜圖識(shí)別的算法AST、ERANNS、PaSST、SFLN實(shí)驗(yàn)結(jié)果均未超過(guò)90%,原因是,雖然這些方法都有很強(qiáng)的音頻特征提取能力,但其主要為干擾較小的實(shí)驗(yàn)室環(huán)境下音頻而設(shè)計(jì),在自建的包含噪聲以及冗余性較大的鳥(niǎo)鳴聲數(shù)據(jù)集上不能發(fā)揮較好的效果。
本文方法取得了實(shí)驗(yàn)最佳準(zhǔn)確率92.49%,同時(shí)參數(shù)量和計(jì)算量也是也是所有方法中最小的。計(jì)算量的減少,減小了訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的代價(jià),加快了模型訓(xùn)練和預(yù)測(cè)速度,更重要的是,降低了模型實(shí)際部署對(duì)硬件平臺(tái)的要求,這對(duì)自動(dòng)化識(shí)別鳥(niǎo)鳴聲系統(tǒng)至關(guān)重要。
3.6 泛化性實(shí)驗(yàn)
本文所提算法是為自然狀態(tài)下錄制的含有復(fù)雜噪聲的數(shù)據(jù)集而設(shè)計(jì),能夠處理維度不對(duì)齊的鳥(niǎo)鳴聲輸入。為了驗(yàn)證所提模型的泛化性能力,在兩個(gè)公共鳥(niǎo)鳴聲數(shù)據(jù)集和一個(gè)環(huán)境聲數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。
公共數(shù)據(jù)集分別是:BIRDS[22],主要由分布在澳大利亞的18種鳥(niǎo)類(lèi)組成,一共有781條音頻,平均每條音頻時(shí)長(zhǎng)為5s;BirdsData,由北京智源人工智能研究院和百鳥(niǎo)數(shù)據(jù),聯(lián)合發(fā)布的自然聲音檢測(cè)數(shù)據(jù)集,包含中國(guó)本土常見(jiàn)的20種鳥(niǎo)類(lèi),共有鳥(niǎo)鳴聲音頻14311個(gè),每條音頻時(shí)長(zhǎng)為標(biāo)準(zhǔn)的2s。環(huán)境聲數(shù)據(jù)集為:Urbansound8k,該數(shù)據(jù)集包含來(lái)自10個(gè)類(lèi)別的8732個(gè)標(biāo)記的城市聲音數(shù)據(jù):空調(diào)、汽車(chē)?yán)?、兒童演奏、狗吠、鉆孔、引擎聲、槍聲、擊打、警笛和街頭音樂(lè)。
公共數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果如表9所示。由于兩個(gè)公共數(shù)據(jù)集經(jīng)人工標(biāo)準(zhǔn)化處理,每條音頻被劃分到標(biāo)準(zhǔn)的時(shí)長(zhǎng),每條音頻中鳥(niǎo)鳴聲包含較為干凈的鳥(niǎo)鳴聲,在這樣的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)難度不大。本文方法在BirdsData上識(shí)別準(zhǔn)確率為94.38%,優(yōu)于先進(jìn)模型;在BIRDS上識(shí)別準(zhǔn)確率為97.74%,與最近工作差別不大。
環(huán)境聲數(shù)據(jù)集Urbansound8k上實(shí)驗(yàn)結(jié)果如表10所示。本文所提方法在環(huán)境聲數(shù)據(jù)集上實(shí)驗(yàn)效果一般,準(zhǔn)確僅達(dá)到82.75%,原因是本文算法為發(fā)聲頻率更高的鳥(niǎo)類(lèi)設(shè)計(jì)。鳥(niǎo)類(lèi)發(fā)聲頻率通常高于4000Hz,而環(huán)境聲中音頻數(shù)據(jù)頻率普遍較低,其統(tǒng)計(jì)結(jié)果如表11所示。環(huán)境聲中絕大部分類(lèi)別發(fā)聲頻率都低于鳥(niǎo)類(lèi)發(fā)聲頻率,其中狗吠、槍聲、兒童演奏、警笛發(fā)聲頻率低于1000Hz。當(dāng)從模型中剔除抑噪系數(shù),模型性能反而大幅度提升了,原因是抑噪系數(shù)對(duì)輸入低頻部分的抑制作用阻礙了模型提取環(huán)境聲中低頻區(qū)域的特征。
泛化實(shí)驗(yàn)結(jié)果證明了本文所提方法在鳥(niǎo)鳴聲識(shí)別任務(wù)中的有效性,同時(shí)也表明所提方法并不適合環(huán)境聲這類(lèi)以中低頻為主的音頻數(shù)據(jù)集上的識(shí)別任務(wù)。
4 結(jié) 論
本文利用自注意力機(jī)制強(qiáng)大的特征提取能力,設(shè)計(jì)了一種輕量級(jí)的自動(dòng)化鳥(niǎo)鳴聲識(shí)別算法,解決了現(xiàn)有深度學(xué)習(xí)方法無(wú)法直接處理復(fù)雜鳥(niǎo)鳴聲數(shù)據(jù)的問(wèn)題。利用哈希算法的輸出固定性結(jié)合多級(jí)注意力信息自動(dòng)地將維度不對(duì)齊鳥(niǎo)鳴聲對(duì)數(shù)梅爾頻譜圖壓縮到相同維度的特征輸出,實(shí)現(xiàn)長(zhǎng)度差異幾十倍輸入的并行訓(xùn)練。這個(gè)過(guò)程實(shí)際上代替了先前工作中需要人工預(yù)處理數(shù)據(jù)集的部分。另外還解決了被先前工作忽視的鳥(niǎo)鳴聲類(lèi)內(nèi)差異大的問(wèn)題,利用對(duì)比損失迫使模型參數(shù)更新時(shí)考慮同種鳥(niǎo)類(lèi)的不同發(fā)聲特征,提升模型提取泛化性特征的能力。本文所提模型在3個(gè)鳥(niǎo)鳴聲數(shù)據(jù)集上取得了最佳性能,證明該模型適合自然環(huán)境中采集的鳥(niǎo)鳴聲數(shù)據(jù)集的識(shí)別,可以用作構(gòu)建一個(gè)真正自動(dòng)化的鳥(niǎo)鳴聲識(shí)別系統(tǒng)。后續(xù)工作將專(zhuān)注于兩個(gè)方面:細(xì)化抑噪系數(shù)等級(jí),增強(qiáng)模型區(qū)分噪聲和有效鳥(niǎo)鳴聲片段的能力;彌補(bǔ)所提模型在低頻數(shù)據(jù)集上效果不佳的缺陷,考慮采用多特征融合的方式豐富表征方式,擴(kuò)展模型的頻率接受范圍。
參 考 文 獻(xiàn):
[1] ACEVEDO M A, CORRADA-BRAVO C J, CORRADA-BRAVO H, et al. Automated Classification of Bird and Amphibian Calls Using Machine Learning: A Comparison of Methods[J]. Ecological Informatics, 2009, 4(4): 206.
[2] GIL-TENA A, SAURA S, BROTONS L J F e, et al. Effects of Forest Composition and Structure on Bird Species Richness in a Mediterranean Context: Implications for Forest Ecosystem Management[J]. Forest Ecology amp; Management, 2007, 242(2/3): 470.
[3] GREGORY R D, VANSTRIEN A J O S. Wild Bird Indicators: Using Composite Population Trends of Birds as Measures of Environmental Health[J]. Ornithological Science, 2010, 9(1): 3.
[4] XIE J, ZHU M. Handcrafted Features and Late Fusion with Deep Learning for Bird Sound Classification[J]. Ecological Informatics, 2019, 52: 74.
[5] HSU S B, LEE C H, CHANG P C, et al. Local Wavelet Acoustic Pattern: A Novel Time-Frequency Descriptor for Birdsong Recognition[J]. IEEE Transactions on Multimedia, 2018, 20(12): 3187.
[6] BARDELI R, WOLFF D, KURTH F, et al. Detecting Bird Sounds in a Complex Acoustic Environment and Application to Bioacoustic Monitoring [J]. Pattern Recognition Letters, 2010, 31(12): 1524.
[8] COSTA Y M, OLIVEIRA L, KOERICH A L, et al. Music Genre Classification Using LBP Textural Features[J]. Signal Processing, 2012, 92(11) :2723.
[9] LENG Y R, TRAN H D. Multi-label Bird Classification Using an Ensemble Classifier with Simple Features[C]//Signal and Information Processing Association Annual Summit and Conference (APSIPA), 2014 Asia-Pacific. IEEE, 2014: 1.
[10]INCZE A, JANCSO H B, SZILAGYI Z, et al. Bird Sound Recognition Using a Convolutional Neural Network[C]//2018 IEEE 16th International Symposium on Intelligent Systems and Informatics (SISY). IEEE, 2018: 000295.
[11]XIE J, HU K, ZHU M, et al. Investigation of Different CNN-Based Models for Improved Bird Sound Classification[J]. IEEE Access, 2019, 7: 175353.
[12]ZHANG F, ZHANG L, CHEN H, et al. Bird Species Identification Using Spectrogram Based on Multi-Channel Fusion of DCNNs[J]. Entropy (Basel), 2021, 23(11):23.
[13]LIU Z, CHEN W, CHEN A, et al. Birdsong Classification Based on Multi Feature Channel Fusion[J]. Multimedia Tools and Applications, 2022, 81(11): 15469.
[14]XIE J, HU K, ZHU M, et al. Investigation of Different CNN-Based Models for Improved Bird Sound Classification[J]. IEEE Access, 2019, 7: 175353.
[15]JANCOVIC P, KOKUER M. Bird Species Recognition Using Unsupervised Modeling of Individual Vocalization Elements[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2019, 27(5): 932.
[16]YAN N, CHEN A, ZHOU G, et al. Birdsong Classification Based on Multi-feature Fusion[J]. Multimedia Tools and Applications, 2021, 80(30): 36529.
[17]GRAVES A, MOHAMED A, HINTON G. Speech Recognition with Deep Recurrent Neural Networks[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Processing, 2013: 6645.
[18]BAI S, KOLTER J Z, KOLTUN V. An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling[J]. arXiv Preprint arXiv:1803.01271, 2018.
[19]SAINATH T N, VINYALS O, SENIOR A, et al. Convolutional, Long Short-term Memory, Fully Connected Deep Neural Networks[C]//2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015: 4580.
[20]HIMAWAN I, TOWSEY M, ROE P. 3D Convolutional Recurrent Neural Networks for Bird Sound Detection[C]//DCASE, 2018: 108.
[21]ZHANG X, CHEN A, ZHOU G, et al. Spectrogram-frame Linear Network and Continuous Frame Sequence for Bird Sound Classification[J]. Ecological Informatics, 2019, 54: 101009.
[22]TUNCER T, AKBAL E, DOGAN S. Multileveled Ternary Pattern and Iterative ReliefF Based Bird Sound Classification[J]. Applied Acoustics, 2021, 176: 107866.
[23]KAHL S, WILHELM T, HUSSEIN H, et al. Large-Scale Bird Sound Classification Using Convolutional Neural Networks[J]. CLEF, 2017, 1866.
[24]蘭朝鳳,陳英淇,林小佳,等.面向語(yǔ)音分離的GA_FastICA算法[J].哈爾濱理工大學(xué)學(xué)報(bào),2022,27(6):80.
LAN Chaofeng, CHEN Yingqi, LIN Xiaojia, et al.GA_FastICA Algorithmfor Speech Separation[J].Journal of Harbin University of Science and Technology,2022,27(6):80.
[25]LAVANYA S P V, LAVANYA D G, NELATURI N. Random Forest Algorithm for Recognition of Bird Species using Audio Recordings[J]. Int J Manage, Tech And Engr, 2018, 8(11): 90.
[26]XIE J, ZHAO S, LI X, et al. KD-CLDNN: Lightweight Automatic Recognition Model Based on Bird Vocalization[J]. Applied Acoustics, 2022, 188: 108550.
[27]KUMAR Y, GUPTA S, SINGH W. A Novel Deep Transfer Learning Models for Recognition of Birds Sounds in Different Environment[J]. Soft Computing, 2022, 26(3): 1003.
[28]HE J, CHEN J, LIU S. A Transformer Architecture for Fine-grained Recognition[J]. arXiv Preprint arXiv:2103.07976, 2021.
[29]BEHERA A, WHARTON Z, HEWAGE P R P G, et al. Context-aware Attentional Pooling (cap) for Fine-grained Visual Classification[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(2): 929.
[30]LIU J, ZHANG Y, LV D, et al. Birdsong Classification Based on Ensemble Multi-scale Convolutional Neural Network[J]. Sci Rep, 2022, 12(1): 8636.
[31]XIE J, ZHU M. Sliding-window Based Scale-frequency Map for Bird Sound Classification Using 2D- and 3D-CNN[J]. Expert Systems with Applications, 2022, 207: 118054.
[32]NEAL L, BRIGGS F, RAICH R, et al. Time-frequency Segmentation of Bird Song in Noisy Acoustic Environments[C]//2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2011: 2012.
[33]戴天虹,李野,孫鵬.基于MATLAB鳥(niǎo)叫聲特征提取方法的研究[J].森林工程,2013,29(2):130.
DAI Tianhong,LI Ye,SUN Peng.Study on the Method of Feature Extraction of Birds Singing Based on MATLAB[J].Forest Engineering,2013,29(2):130.
[34]KOUTINI K, SCHLUTER J, EGHBAL H, et al. Efficient Training of Audio Transformers with Patchout[J]. arXiv Preprint arXiv:2110.05069, 2021.
[35]DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale[J]. arXiv Preprint arXiv:2010.11929, 2020.
[36]ABNAR S, ZUIDEMA W. Quantifying Attention Flow in Transformers[J]. arXiv Preprint arXiv:2005.00928, 2020.
[37]GONG Y, CHUNG Y A, Glass J. Ast: Audio Spectrogram Transformer[J]. arXiv Preprint arXiv:2104.01778, 2021.
[38]WANG Y, CHEN A, LI H, et al. A Hierarchical Birdsong Feature Extraction Architecture Combining Static and Dynamic Modeling[J]. Ecological Indicators, 2023, 150: 110258.
[39]梁麗麗,劉昕雨,孫廣路,等.MSAM:針對(duì)視頻問(wèn)答的多階段注意力模型[J].哈爾濱理工大學(xué)學(xué)報(bào),2022,27(4):107.
LIANG Lili,LIU Xinyu,SUN Guanglu, et al.MSAM:Video Question Answering Based on Multi-Stage Attention Model[J].Journal of Harbin University of Science and Technology,2022,27(4):107.
[40]VERBITSKIY S, BERIKOV V, VYSHEGORODTSEV V. Eranns: Efficient Residual Audio Neural Networks for Audio Pattern Recognition[J]. Pattern Recognition Letters, 2022, 161: 38.
(編輯:溫澤宇)