劉志華,陳文潔,陳愛斌*
(1.中南林業(yè)科技大學(xué)計算機與信息工程學(xué)院,長沙 410004;2.中南林業(yè)科技大學(xué)人工智能應(yīng)用研究所,長沙 410004)
近年來,全球工業(yè)化快速發(fā)展,但同時對環(huán)境造成了嚴(yán)重的破壞。許多鳥類失去了原本的棲息地,瀕臨滅絕,鳥類多樣性銳減。各國采取了一系列的舉措來保護瀕臨滅絕的鳥類。保護瀕危鳥類的關(guān)鍵一步是先識別出該鳥類,早期識別特定鳥類需要耗費大量的人力資源,如長時間的專家現(xiàn)場觀測或根據(jù)收集到的錄像辨別。
隨著人工智能學(xué)科的興起,將人工智能的方法運用到鳥類物種識別,有效減少了人力物力資源的浪費,同時能有效對特定鳥類物種進行識別。鳥類一般生活在茂密的森林,這對于鳥類圖像數(shù)據(jù)的收集造成了一定的困難。雖然使用鳥類圖像進行識別的方法取得了一定的成績,但此類方法有識別范圍窄的局限性。而基于音頻的鳥鳴聲分類在原始數(shù)據(jù)收集上并沒有這一局限性。在真實世界中根據(jù)鳥類鳴聲錄音建立準(zhǔn)確的鳥類鳴聲分類器是較難的,因為環(huán)境噪聲的不確定性,鳥類鳴聲可能因地理位置而異,音頻內(nèi)容本身也不總是清晰地識別出來。在開放環(huán)境中記錄的鳥類鳴聲往往是嘈雜的,可能有環(huán)境噪聲、多種鳥類或其他物種的聲音同時出現(xiàn)。這些不可避免的復(fù)雜問題使得基于音頻的鳥類分類富于挑戰(zhàn)性。
基于音頻的鳥類分類是聲學(xué)事件分類的一種形式。受益于聲學(xué)分類,人們對鳥類聲音進行了大量的研究。早期的鳥鳴聲分類主要以機器學(xué)習(xí)方法為主,如Qian 等將大規(guī)模的鳥類聲音特征作為一個極端學(xué)習(xí)機的輸入,證明了人類手工制作的特征用于鳥類識別的高效性。Tan 等采用動態(tài)時間規(guī)整的算法,將計算得到的鳥鳴聲參數(shù)與一組參考鳥類鳴聲確定的存儲模板進行匹配。闕鑫華等改進傳統(tǒng)的動態(tài)時間規(guī)整算法用于鳥鳴聲分類,在效果上取得了一定的提升。這種基于模式匹配的方法取得了較好的分類效果;但是由于模式匹配參數(shù)獲得的局限性,因而限制了該方法的泛化性。隱馬爾可夫模型、支持向量機、高斯混合模型等基于鳥類特征的方法被用于鳥鳴聲分類。與基于模板匹配的技術(shù)相比,此類利用特征進行分類的方法能夠更好地推廣;但是該類方法對提取鳥鳴聲特征在時間和頻率上的變化能力有限,難以應(yīng)對具有嘈雜背景噪聲的鳥鳴聲分類識別。
最近深度學(xué)習(xí)被證明比傳統(tǒng)的機器學(xué)習(xí)方法更適合復(fù)雜的分類問題。深度學(xué)習(xí)模型最常用的架構(gòu)是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),它通過濾波器在特征圖的時間和頻率維度上同時移位計算來克服機器學(xué)習(xí)方法特征提取能力不足的局限性。借助短時距傅里葉變換(Short Time Fourier Transform,STFT)等方法將鳥鳴聲音頻轉(zhuǎn)換為時頻譜(Spectrogram),從而CNN 能有效應(yīng)用于鳥類聲音分類。Sprengel 等將鳥鳴聲時頻譜歸一化處理后的結(jié)果作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,在復(fù)雜背景下分類的平均精確率(Mean Average Precision,MAP)為0.686。Koops 等在STFT 的基礎(chǔ)上對鳥鳴聲進一步處理得到更為有效的梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)作為深度神經(jīng)網(wǎng)絡(luò)的輸入,該深度神經(jīng)網(wǎng)絡(luò)模型用于鳥鳴聲分類,MAP 達到了0.73 的分類效果。與使用簡單CNN 提取時頻特征不同,Sankupellay等使用50層的殘差神經(jīng)網(wǎng)絡(luò)(Residual Neural Network 50,ResNet50)對鳥鳴聲的時頻譜進行分類,Huang 等使用稠密連接網(wǎng)絡(luò)(Densely connected Network,DenseNet)提取時頻譜特征并進行分類,提升了分類效果。以上方法均只利用了卷積神經(jīng)網(wǎng)絡(luò)的強大特征提取能力對鳥鳴聲的時頻譜進行特征提取,而大多數(shù)的時頻譜只包含很少的有價值信息,很多像素是空白的,因此該類方法難以提取到足夠的有用信息,在復(fù)雜背景噪聲情況下表現(xiàn)不佳。
為提取鳥鳴聲音頻的更多有用信息,出現(xiàn)了一些利用多特征融合的方法。Naranchimeg 等使用視覺特征和聲學(xué)特征的融合方法在鳥鳴聲分類任務(wù)上取得了準(zhǔn)確率為78.9%的成績,其結(jié)果比使用單一特征分類效果要好。Xie 等選用三種表征鳥鳴聲的不同成分:梅爾譜圖、基于諧波成分的譜圖和基于打擊樂成分的譜圖,然后選擇基于CNN 的模型融合這三類特征得到最終分類結(jié)果,達到了86.31%的平均準(zhǔn)確率。謝將劍等采用三個獨立模型分別提取通過STFT、梅爾倒譜變換和線性調(diào)頻小波變換得到的鳴聲信號特征,然后進行自適應(yīng)加權(quán)融合的結(jié)果比任一單通道要好。這些方法的結(jié)果證明多特征融合方法的有效性;但與此同時增加了實驗樣本的數(shù)量,而且這種方法忽略了鳥鳴聲具有時域連續(xù)性特點。
考慮到鳥鳴聲具有時域連續(xù)性特點。由于循環(huán)神經(jīng)網(wǎng)絡(luò)擅長捕捉音頻的時序特性,Graves 等使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)對語音進行分類。Qiao等基于RNN 提出了一種序列到序列的深度學(xué)習(xí)方法,該方法從鳥類聲音中提取更高級的特征用于分類。這一特點也被用于近年的鳥類跨語言評估論壇(Bird Conference and Labs of the Evaluation Forum,BirdCLEF)挑戰(zhàn)賽,2018 年BirdCLEF 挑戰(zhàn)賽采用基于RNN 的模型用于鳥鳴聲分類,雙向長短時記憶(Bidirectional Long Short-Term Memory,BLSTM)結(jié)構(gòu)被應(yīng)用于文獻[29]中。但是RNN 特征提取能力不足,因此刑照亮等采用CNN 加LSTM 方式進行建模,該方法能提取到鳥鳴聲的幀間時序信息,有助于提升分類效果。由于3 維卷積神經(jīng)網(wǎng)絡(luò)(3 Dimensional CNN,3DCNN)擅長處理時序數(shù)據(jù),所以Himawan 等使用3DCNN 提取鳥鳴聲時頻特征用于分類。Zhang 等在3DCNN 的基礎(chǔ)上提出了時頻幀線性網(wǎng)絡(luò)(Spectrogram-frame Linear Network,SPFN)用于分類,在網(wǎng)絡(luò)前端使用線性3DCNN 提取具有強時域連續(xù)性特點的特征,然后在后端采用雙重門控循環(huán)單元(Gate Recurrent Unit,GRU)作為分類器,該網(wǎng)絡(luò)能捕捉到鳥鳴聲長時間的時域連續(xù)性特點。這些利用鳥鳴聲的時域連續(xù)性特點,提取單一時頻譜特征的方法達到了較好的分類效果。但是實時環(huán)境下的鳥鳴聲特征會存在高頻或低頻噪聲,會和鳥鳴聲前景特征混雜在一起。因此僅利用這一特性是不夠的,模型的魯棒性不強。
鳥鳴聲本身具有頻率高低性特點,且其時頻譜是一種描述各個頻率成分隨時間變化的圖像。因此同時關(guān)注其時域特性、頻域特性以及時頻域特性是很有意義的。本文在上述研究的基礎(chǔ)上,充分利用鳥鳴聲時頻譜中所蘊涵的時域特性、頻域特性和時頻域特性,提出了一種將鳥鳴聲時頻譜蘊含的三類同源特征進行融合的模型。由于時頻譜每一幀的信息在短期內(nèi)可以認(rèn)為不變,那么連續(xù)的多幀信息就能反映出鳥鳴聲長時間內(nèi)的特點,如其聲音的頻率范圍、時域連續(xù)性長度等。本文利用卷積神經(jīng)網(wǎng)絡(luò),采用基于單一向量的卷積濾波器分別在鳥鳴聲時頻譜的時域維度和頻域維度上進行線性移動,同時進行下采樣以提取相應(yīng)維度上的特征信息。最終得到只保留頻域或時域維度的兩類譜圖特征,本文將之分別稱為p、t 譜圖特征。其中p 譜圖特征只擁有鳥鳴聲的頻域特性,t 譜圖特征只擁有鳥鳴聲的時域特性。與使用基于單一向量的卷積濾波器不同。本文使用基于多維向量的濾波器在時頻譜的時域和頻域維度上同時進行移動,得到同時保留時域和頻域特性的鳥鳴聲特征,本文將之稱為pt 譜圖特征。自注意力機制能降低其他噪聲在特征中的重要性,同時重點關(guān)注到鳥鳴聲有價值的特征信息。本文提出使用自注意力機制對這三類同源特征進一步處理以加強其各自擁有的特性。最后將t、p、pt 三類同源譜圖特征進行決策融合以利用鳥鳴聲蘊藏的多種特點,并根據(jù)融合后的特征得出最終分類結(jié)果。
本文構(gòu)建模型用于鳥鳴聲分類的工作主要包括以下幾個步驟:1)鳥鳴聲特征可視化。使用短時距傅里葉變換將鳥鳴聲音頻信號轉(zhuǎn)化為時頻譜圖像,再通過梅爾標(biāo)度濾波器組(Mel-scale filter banks)將時頻譜圖像轉(zhuǎn)化為梅爾時頻譜圖像。為增強數(shù)據(jù)的有效性,本文在該過程中還采取了預(yù)加重和對數(shù)處理。2)同源譜圖特征提取。利用卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力,根據(jù)三類同源特征的不同特性,設(shè)置不同大小的卷積核,在同一時頻譜圖上進行線性滑動操作得到同源特征。3)特征加強。將自注意力機制和特征融合操作用于三類同源譜圖特征,以加強鳥鳴聲特征的有效性。4)對提出的模型進行訓(xùn)練和測試。
本文分類模型的具體框架結(jié)構(gòu)如圖1 所示。
圖1 本文分類模型的具體框架結(jié)構(gòu)Fig.1 Specific framework structure of proposed classification model
Neal 等已經(jīng)證實在鳥鳴聲分類任務(wù)中,將鳥鳴聲音頻特征可視化是較為有效的。由于信號的傅里葉變換得到的信號頻譜不能反映信號瞬時頻率隨時間的變換情況,僅僅適用于分析平穩(wěn)的信號。對于非平穩(wěn)的鳥鳴聲音頻信號,傅里葉變換只能給出其總體效果,不能完整把握信號在某一時刻的本質(zhì)特征。因此本文選擇短時傅里葉變換來分析鳥鳴聲音頻信號,它使信號達到局部平穩(wěn)的同時,能提供時域和頻域的局部化信息。為減少音頻信號中低頻噪聲的影響,本文在進行變換之前對原始音頻信號進行預(yù)加重操作,然后將預(yù)加重后的信號再進行短時傅里葉變換得到時頻譜。上述兩步操作如式(1)~(2)所示:
x
(n
)是第n
時刻的信號采樣值;a
是預(yù)加重系數(shù),一般為0.95;y
(n
)是預(yù)加重后的信號采樣值;w
(n
-s
)是漢明窗(Hamming window),其中心位置在s
處。參考文獻[36]的設(shè)置,文中的漢明窗長度為1 024 即一窗內(nèi)包含1 024 個采樣點值,步長為512 即幀移率為50%。x
()f
,s
是經(jīng)過短時傅里葉變換后得到的二維時頻譜矩陣;f
是矩陣的行數(shù),表示頻率;s
是在每個窗口內(nèi)變換得到的幀。本文參照文獻[19]將原始音頻標(biāo)準(zhǔn)化為約7 s,可得幀數(shù)s
取值屬于[0,600),濾波器個數(shù)設(shè)置為80,可得f
取值屬于[0,80)。最終可以將鳥鳴聲特征可視化為80×600 的圖像。將時頻譜矩陣x
()f
,s
通過梅爾標(biāo)度濾波器組(Mel-scale filter banks)便能得到梅爾時頻譜x
(fmel
,s
),具體實現(xiàn)如式(3)所示:而將幅度值進行對數(shù)操作可以進一步加大高低振幅的區(qū)別,有助于提取鳥鳴聲有用信息。因此最后將幅度值取對數(shù)操作,將其轉(zhuǎn)換成對數(shù)幅度。經(jīng)過上述處理后,可以得到鳥鳴聲音頻特征的可視化圖,如圖2 所示。
圖2 大小為80×600的鳥鳴聲特征可視化Fig.2 Visualization of bird sound features with size of 80×600
為利用鳥鳴聲時域連續(xù)性特點,文獻[2,31]使用循環(huán)神經(jīng)網(wǎng)絡(luò)直接從時頻譜中提取特征用于分類。研究表明循環(huán)神經(jīng)網(wǎng)絡(luò)在特征提取上有一定的局限性,如對時頻譜圖特征的擴充和預(yù)處理難以實現(xiàn)。而卷積神經(jīng)網(wǎng)絡(luò)擁有強大的特征提取能力,將其作為循環(huán)神經(jīng)網(wǎng)絡(luò)的前置特征提取器能提升分類效果。
基于此,本文采用2 維卷積神經(jīng)網(wǎng)絡(luò)(2 Dimensional CNN,2DCNN)來提取鳥鳴聲時頻譜中蘊藏的t、p、pt 三類同源特征信息。根據(jù)三類同源譜圖特征信息的特點,分別使用基于單維向量和多維向量的卷積核用于三類同源譜圖特征的提取。t 譜圖特征具有鳥鳴聲完整的時域連續(xù)性特點。因此采用大小為[N
,1]的單向量卷積核在譜圖上不斷上下滑動,并使用[N
,1]的池化核進行下采樣操作,直到其頻域維度降為1 為止。最終將當(dāng)前時間步上所有高頻至低頻的信息融合到一起,并按時間順序排序堆疊。與提取t 譜圖特征的操作不同。對于只表現(xiàn)鳥鳴聲頻域特點的p 譜圖特征,本文使用大小為[1,M
]的單向量卷積核在時頻譜圖上不斷左右滑動,使用大小為[1,M
]的池化核在時頻譜的時間維度上進行下采樣操作。最終原始時頻譜圖的時域維度降至一維。時頻譜連續(xù)幀的所有信息均融合到對應(yīng)的頻率維度,只保留完整的頻域特性。上述操作的優(yōu)點是不會破壞鳥鳴聲時域連續(xù)性或頻域高低特點,且能提取到鳥鳴聲特征在時域上或頻域上細(xì)微的變化。對于pt 譜圖特征,考慮到其同時擁有鳥鳴聲時域和頻域特點,本文綜合提取p、t 譜圖特征的設(shè)置,采取大小為[M
,N
]的多維向量卷積核,在時頻譜的時域和頻域維度上同步滑動以保留其原本具備的時頻特性;同時使用大小為[M
,N
]的池化核進行下采樣操作,最終得到具有時頻特性的pt 譜圖特征。提取t、p、pt 特征的網(wǎng)絡(luò)各層參數(shù)設(shè)置分別如表1~3 所示,其中濾波器個數(shù)為8 的層是卷積層,其余為池化層。經(jīng)過上述操作后得到t、p、pt 譜圖特征,其大小分別為1×600、80×1、9×25。表1 提取t特征的網(wǎng)絡(luò)參數(shù)設(shè)置Tab 1 Parameter settings of the network to extract t feature
表2 提取p特征的網(wǎng)絡(luò)參數(shù)設(shè)置Tab 2 Parameter settings of the network to extract p feature
表3 提取pt特征的網(wǎng)絡(luò)參數(shù)設(shè)置Tab 3 Parameter settings of the network to extract pt feature
由于卷積神經(jīng)網(wǎng)絡(luò)在提取t、p、pt 譜圖特征時候,有些噪聲如高頻或者低頻噪聲可能會被過多地關(guān)注。這會降低鳥鳴聲特征的有效性。
自注意力機制能加強想關(guān)注的部分特征。在文獻[43]中提出了一種具有時間關(guān)注的CNN-BLSTM 模型來加強對音頻特征的關(guān)注,其注意力根據(jù)每一層卷積神經(jīng)網(wǎng)絡(luò)提取的特征計算而來,且不影響特征本身的提取。因此本文模型采用自注意力機制來加強對鳥鳴聲特征的關(guān)注,同時降低噪聲的重要性,進而提高鳥鳴聲音頻特征的有效性。為不增加網(wǎng)絡(luò)的復(fù)雜度,本文僅對每一個通道最后一層池化后得到的譜圖特征采取自注意操作。由于三類同源譜圖特征的維度不一致,因此使用自注意力機制分別關(guān)注t、p、pt 譜圖特征,而不是使用同一注意力機制參數(shù)關(guān)注不同的特征。自注意力機制的具體實現(xiàn)方法如式(4)~(6)所示:
query
、key
、value
是當(dāng)前的譜圖特征經(jīng)過1×1 卷積后得到的特征矩陣,與原始譜圖特征形狀一致;Score
是query
和key
特征矩陣點乘后得到的結(jié)果;n
是特征矩陣中數(shù)值點的個數(shù);S
是根據(jù)當(dāng)前Score
元素經(jīng)過計算得到的注意力權(quán)重值;S
是S
按照在原特征矩陣中的位置組合得到注意力權(quán)重矩陣;output
是譜圖特征和注意力權(quán)值相乘后得到的結(jié)果。經(jīng)過上述操作,可以得到加強的p、t、pt 同源譜圖特征。本文將這三類譜圖特征分別作為分類器的輸入,然后將三個分類器的輸出得分進行決策融合,對特征進一步地加強。在具體操作上,將這三個分類器的輸出類別得分進行一個簡單的相加,然后取平均值操作。因為分類器輸出結(jié)果是對當(dāng)前鳥鳴聲預(yù)測為某一類別的概率值,所以對相加后的結(jié)果取平均值操作,以防止對每個類別的預(yù)測概率得分超過上限值1。決策融合具體實現(xiàn)如式(7)所示:
logits
1、logits
2、logits
3 是三個通道根據(jù)三類同源特征的預(yù)測得分;logoits
是所有預(yù)測得分融合后的結(jié)果。將決策融合后的結(jié)果通過Argmax()函數(shù),可以得到鳥鳴聲分類的結(jié)果。本文選用不同的分類器用于三類同源譜圖特征的分類:對于p、pt 譜圖特征,選用全連接層(Fully Connected layers,F(xiàn)C)作為分類器;對于t 譜圖特征,考慮到其具有完整的時間連續(xù)性特點,因此并沒有使用全連接層作為分類器,而是使用擅長處理時序信號的循環(huán)神經(jīng)網(wǎng)絡(luò)用于分類。在具體的循環(huán)神經(jīng)網(wǎng)絡(luò)選擇上,本文選用GRU 網(wǎng)絡(luò),這是因為GRU 網(wǎng)絡(luò)比長短時記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)更易于訓(xùn)練,且分類效果相差無幾。本文使用自動腳本程序從鳥類公共數(shù)據(jù)集Xeno-canto網(wǎng)站獲取所需要的鳥類音頻數(shù)據(jù),這些音頻采樣率為48 kHz且均以MP3 格式保存。生物等級分類依次是界、門、綱、目、科、屬、種。本文從該網(wǎng)站中選取灰雁、普通鵟、金黃鸝、喜鵲、烏鶇、嘰喳柳鶯、歐柳鶯、大山雀這八種鳥類(其學(xué)名分別為Anser anser、Buteo buteo、Oriolus oriolus、Pica pica、Turdus merula、Phylloscopus collybita、Phylloscopus trochilus、Parus major),其中歐柳鶯、嘰喳柳鶯是同一屬下的不同種類,其他六種鳥類均為分屬于不同科下的鳥類?;已銓儆邙喛?,喜鵲屬于鴉科,普通鵟屬于鷹科,金黃鸝屬于黃鸝科,大山雀屬于山雀科,歐柳鶯和嘰喳柳鶯屬于柳鶯科,烏鶇屬于鶇科。這八種鳥類的音頻均由世界各地的人們自愿上傳到該網(wǎng)站,本文選用的這八種鳥類是經(jīng)過科學(xué)考慮的,首先這八種鳥類在該網(wǎng)站中的音頻數(shù)據(jù)是相對較多的;其次這八種鳥類中有些鳥類生活在茂密的森林中,其棲息地物種繁多,對生物多樣性的鑒別也有一定的意義;此外這些鳥鳴聲包含與鳥鳴聲相互混雜的復(fù)雜背景噪聲,且同一屬下的鳥類鳴聲比較相似,不同科下的鳥鳴聲相似性不大。因此本文隨機選取自然情況下錄制的這八種鳥類音頻進行實驗,以驗證本文提出的模型的泛化性以及魯棒性。由于原始音頻錄制時間長短不一,為了將輸送進網(wǎng)絡(luò)的數(shù)據(jù)標(biāo)準(zhǔn)化,本文將原始音頻切分為多個互不重疊的片段(約7 s)。這樣每個原始音頻可以得到多個實驗樣本,并能較好地擴充數(shù)據(jù)集。本文所采用的八種鳥類的鳴叫聲特征圖如圖3 所示。
圖3 八種鳥類的鳥鳴聲特征圖Fig.3 Bird sound feature pictures of the eight bird species
在長時間的音頻段中鳥鳴聲片段較短,標(biāo)準(zhǔn)化后得到的實驗樣本并不都包含鳥鳴聲特征,有些樣本可能只包含一些純粹的背景噪聲或包含其他鳥類的聲音,這些情況導(dǎo)致有些實驗樣本的標(biāo)簽與實際標(biāo)簽不符合,對分類效果會造成不好的影響。因此需要重新標(biāo)記,去掉只有噪聲或者空白的樣本。與完全利用人工的操作方式不同。本文先利用基于能量比對的算法進行一個初步篩選,以減少后期人工操作的工作量。本文從每一類的實驗樣本中挑選一個基本沒有噪聲的數(shù)據(jù)作為該類實驗樣本的基線,計算該樣本中所包含的能量總和。然后遍歷該類中所有的實驗樣本,如果當(dāng)前實驗樣本能量低于基線樣本能量總,則將當(dāng)前實驗樣本刪除。
經(jīng)過上述操作,本文選用的這八種鳥類的原始音頻數(shù)量以及最終的實驗樣本數(shù)量如表4 所示。
表4 每種鳥類的實驗樣本數(shù)量Tab 4 Number of experimental samples per bird species
在每一次的實驗中,訓(xùn)練集和測試集不是固定的。而是按照7∶3 的比例將所有實驗樣本隨機劃分為訓(xùn)練集和測試集,隨機得到的訓(xùn)練集樣本16 493 個,測試集樣為7 068 個。本文實驗代碼建立在Tensorflow1.14.0 框架基礎(chǔ)上,Python環(huán)境為3.6.8,硬件環(huán)境為Intel i9,Nvidia Titan XP。根據(jù)實驗環(huán)境的硬件條件,本文一次選取16 個實驗樣本進行實驗。綜合考慮文獻[44-46]的做法,本文使用均方根傳遞(Root Mean Square Prop,RMSProp)梯度下降優(yōu)化算法作為網(wǎng)絡(luò)的梯度優(yōu)化方法,將動量參數(shù)設(shè)置為0.7。本文采用MAP 作為分類預(yù)測效果指標(biāo),交叉熵(cross entropy)損失函數(shù)作為網(wǎng)絡(luò)的損失衡量函數(shù),損失函數(shù)具體如式(8)所示:
loss
是當(dāng)前的損失值;y
是當(dāng)前預(yù)測結(jié)果為假或真的情況,對應(yīng)值為0 或1;h
(x
)是當(dāng)前樣本x
為真或假的概率值。為防止網(wǎng)絡(luò)的過擬合,在每一個卷積層采取正則化操作。訓(xùn)練時在卷積層和分類器之間采取隨即失活策略,且隨機失活率drop_rate
=0.3,而測試時drop_rate
=0。最終采用可變學(xué)習(xí)率函數(shù)來進行訓(xùn)練,模型的初始學(xué)習(xí)率設(shè)置為0.001。根據(jù)多次實驗結(jié)果,可以認(rèn)定該學(xué)習(xí)率函數(shù)適合于本文的模型和數(shù)據(jù)集。學(xué)習(xí)率函數(shù)具體如式(9)所示:lr
是第t
次迭代后得到的學(xué)習(xí)率,lr
是其初值,具體值為0.001;epoch
_index
是數(shù)據(jù)訓(xùn)練的次數(shù),根據(jù)多次實驗,本文將其訓(xùn)練次數(shù)設(shè)置為30;step
代表當(dāng)前是第幾次迭代,每次迭代就會更新一次參數(shù)。本文提出的模型在訓(xùn)練數(shù)據(jù)集上表現(xiàn)良好。經(jīng)過30 個epoch 訓(xùn)練后接近過擬合,此時停止訓(xùn)練并保存模型參數(shù),隨后將訓(xùn)練得到的模型參數(shù)用于測試集數(shù)據(jù),得到最終預(yù)測結(jié)果。在實驗中,本文將模型訓(xùn)練和測試的相關(guān)數(shù)據(jù)保存以供分析。將訓(xùn)練的預(yù)測準(zhǔn)確率值和損失值相關(guān)數(shù)據(jù)可視化,如圖4 所示。對圖4 進行分析,可以知道本文模型在訓(xùn)練初始,其準(zhǔn)確率曲線先快速上升,而后緩慢上升,最后趨于不變。同樣分析可以得到本文模型的損失在訓(xùn)練初始快速下降,而后緩慢下降,最后趨于不變,穩(wěn)定在0.127 附近。在訓(xùn)練初始,本文模型的損失和準(zhǔn)確率曲線波動幅度較大,但是隨著訓(xùn)練的增加而快速趨于穩(wěn)定。由此可以確信提出的這個模型能夠快速學(xué)習(xí)到鳥鳴聲三種同源譜圖特征具有的特點,所以能很好地應(yīng)對復(fù)雜背景噪聲干擾。
圖4 訓(xùn)練數(shù)據(jù)可視化Fig.4 Visualization of train data
將測試的預(yù)測準(zhǔn)確率值和損失值相關(guān)數(shù)據(jù)可視化,如圖5 所示。對圖5 所示結(jié)果進行分析可知,本文模型的鳥鳴聲識別準(zhǔn)確率穩(wěn)定在0.939,損失穩(wěn)定在0.127 左右,且波動均在合理范圍內(nèi)。測試準(zhǔn)確率和訓(xùn)練準(zhǔn)確率穩(wěn)定后的差值在0.024~0.030,相應(yīng)的損失差值在0.001~0.004。在實驗樣本包含各種復(fù)雜背景噪聲的情況下,本文模型也能達到較好的效果,可以證明從同一鳥鳴聲時頻譜中提取p、t、pt 三類同源譜圖特征進行融合的有效性。本文模型能夠有效學(xué)習(xí)到鳥鳴聲在時域、頻域和時頻域上的一些抽象規(guī)律。
圖5 測試數(shù)據(jù)可視化Fig.5 Visualization of test data
為了更好驗證所提模型的有效性,進行了一系列的自對比實驗。實驗結(jié)果如表5 所示。
在表5 的實驗1~3 中,分別以鳥鳴聲所具有的不同特性作為分類依據(jù)。實驗1 將鳥鳴聲的頻域高低性特點用于分類,分類準(zhǔn)確率為0.896,在這三個實驗中效果最佳。實驗2利用鳥鳴聲時域連續(xù)性特點用于分類,識別效果僅只有0.804。實驗3 利用結(jié)合鳥鳴聲的時頻特性用于分類,效果僅次于利用其頻域特性用于分類的模型,其分類效果為0.872。綜合實驗1~3 的結(jié)果,本文認(rèn)為在具有復(fù)雜背景噪聲的情況下,鳥鳴聲頻域特點能較好反映出鳥鳴聲的抽象規(guī)律;而當(dāng)背景噪聲在整個時域上都存在的時候,噪聲會和鳥鳴聲真實特征混合,造成偽連續(xù)性現(xiàn)象,導(dǎo)致模型學(xué)習(xí)鳥鳴聲連續(xù)性特點較難,因此實驗2 的分類效果較差。
表5 自對比實驗結(jié)果Tab 5 Self-comparison experiment results
表5 中的實驗4,利用了鳥鳴聲具有的時域、頻域、時頻域特性,提取t、p、pt 同源譜圖特征進行決策融合(Decisionfusion)的結(jié)果用于分類,達到了較好的效果。本文認(rèn)為三類同源特征能夠互補,所以決策融合能加強特征的有效性,在復(fù)雜背景噪聲下表現(xiàn)出較好的魯棒性,其分類效果為0.923。實驗4 比實驗1 的分類效果提升了2.7 個百分點,這也證明了本文提出利用鳥鳴聲蘊藏的三類固有特性用于分類的有效性。實驗5 在實驗4 的基礎(chǔ)上,引入了自注意力(Self-attention)機制。在同樣的情況下,取得了平均準(zhǔn)確率為0.939 的分類效果。實驗5 較實驗4 的分類準(zhǔn)確率提升了1.6 個百分點,較實驗1 利用鳥鳴聲頻域特性用于分類的準(zhǔn)確率提升了4.3 個百分點。這證明了注意力機制可以加強提取到的t、p、pt 同源譜圖特征,能夠讓本文的模型學(xué)習(xí)到鳥鳴聲更多細(xì)膩的抽象規(guī)律,也證明了引入自注意力機制的正確性。
本文對模型的性能進行了更加細(xì)膩的分析。根據(jù)測試集每一個樣本的預(yù)測和真實標(biāo)簽,繪制出8 分類的混淆矩陣如圖6 所示。其中矩陣的行代表真實的標(biāo)簽,列代表本文模型預(yù)測的分類標(biāo)簽。
圖6 測試集的混淆矩陣Fig.6 Confusion matrix of test set
對混淆矩陣進行分析,可以得到模型對每一種鳥類更確切的數(shù)據(jù),如精確率(Precision)、召回率(Recall)、F
1 值(F1-score)等。將這些數(shù)據(jù)統(tǒng)一展現(xiàn)在表格中,如表6 所示。其中精確率(Precision)和召回率(Recall)是廣泛應(yīng)用于信息檢索和統(tǒng)計學(xué)分類領(lǐng)域的兩個度量值,用來評價結(jié)果的質(zhì)量。精確率體現(xiàn)了預(yù)測為正的樣本中有多少是真正的正樣本。MAP 是8 種類別精確率的平均值,本文的MAP 為0.939。召回率體現(xiàn)的是樣本中的正例有多少被正確預(yù)測了。F1-score 是綜合精確率和召回率的評價指標(biāo),用于反映模型整體效果的指標(biāo),且其分?jǐn)?shù)值越接近1,說明模型的分類效果越好。表6 混淆矩陣分析結(jié)果Tab 6 Confusion matrix analysis results
回顧圖4 可以看到,灰雁的實驗數(shù)據(jù)混雜了大量的高頻噪聲。本文模型對灰雁的分類準(zhǔn)確率達到了0.962,且其F1-score 也較高為0.941,證明了本文模型抗噪性較強;然而對金黃鸝的分類精確率僅為0.885,觀察實驗數(shù)據(jù)發(fā)現(xiàn)該類實驗樣本不僅包含大量的背景噪聲,同時還夾雜著其他鳥類的鳴叫聲。本文認(rèn)為共生鳥的鳴叫聲,在頻率上和金黃鸝鳴叫聲較為相近,困擾了本文模型對特征的提取。但是與表5中實驗1 利用p 譜圖特征進行分類的結(jié)果相比。本文的模型對金黃鸝的分類精確率依然提升了3.3 個百分點(限于篇幅,并未在此處將表5 實驗1 的混雜矩陣展示),且其F1-score仍然較高為0.914,證明了本文模型還能應(yīng)對非目標(biāo)鳥鳴聲噪聲的影響。從圖4 中可以看到,灰雁和喜鵲、嘰喳柳鶯和歐柳鶯的叫聲比較相似,但這四種鳥類的分類精確率均在0.91 以上,F(xiàn)1-score 在0.93 以上,這說明本文模型對細(xì)膩度下的鳥鳴聲分類依然有效?;已愫蜌W柳鶯的F1-score 較低,這并不能說明本文模型對于細(xì)膩度下得分類存在缺陷。本文認(rèn)為這是該兩類訓(xùn)練數(shù)據(jù)集比其他兩類較少造成的。綜合上述分析,本文認(rèn)為提出的模型方法能夠應(yīng)對復(fù)雜背景噪聲下的鳥鳴聲分類問題。
在同一數(shù)據(jù)集上,本文還與其他模型進行對比實驗,評價指標(biāo)使用MAP。實驗結(jié)果如表7 所示。從表7 中可以看到,實驗1 的MAP 只有0.872,效果較差。這說明了前文的猜想即簡單提取鳥鳴聲特征,難以應(yīng)對復(fù)雜的背景噪聲。實驗2 和實驗3 均利用了鳥鳴聲時域連續(xù)性特點,實驗3 分類效果的MAP 為0.932,這驗證了利用鳥鳴聲時域連續(xù)性特點的有效性。但是實驗3 的MAP 僅為0.868,本文認(rèn)為這是因為循環(huán)神經(jīng)網(wǎng)絡(luò)在特征提取上有一定的局限性,驗證了文獻[39-40]的結(jié)論。本文模型在對比實驗中取得了較好的成績,MAP 為0.939。這驗證了本文利用鳥鳴聲固有的特性用于分類的有效性,能夠應(yīng)對復(fù)雜背景噪聲下的鳥鳴聲分類,模型具有較強的抗噪性以及泛化性。
表7 與其他模型對比實驗結(jié)果Tab 7 Comparison of experimental results with other models
本文利用鳥鳴聲的時域連續(xù)性和頻域高低性,以及時頻域既連續(xù)又有高低性特點,提出了從同一張時頻譜中分別提取鳥鳴聲的t、p、pt 譜圖特征。采取自注意力機制和特征融合操作加強鳥鳴聲特征的有效性,然后將融合后的結(jié)果用于分類。經(jīng)過科學(xué)考慮,本文從Xeno-canto 網(wǎng)站上選取了具有代表性的8 種鳥類。這些鳥鳴聲音頻大都包含了復(fù)雜背景噪聲如混雜的非目標(biāo)鳥鳴聲、風(fēng)聲等,且有些鳥類鳴叫聲較為相似。本文模型取得了MAP 為0.939 的較好分類效果。實驗結(jié)果驗證了本文模型的優(yōu)越性,在復(fù)雜背景噪聲下仍然能較好地學(xué)習(xí)到鳥鳴聲抽象規(guī)律。未來的研究將致力于提升鳥鳴聲分類效果,同時增強模型的抗噪性:繼續(xù)研究鳥鳴聲本身所具有的一些特性,并探究其利用模型;研發(fā)較好的噪聲去除模型以減少噪聲對分類效果的影響,如充斥在整個時間域上的噪聲或者和鳥鳴聲混雜在一起的高低頻噪聲等。