熊梓奧,蒼巖
哈爾濱工程大學(xué) 信息與通信工程學(xué)院,黑龍江 哈爾濱 150001
2019 年,由于非洲豬瘟的影響,我國(guó)生豬市場(chǎng)遭受沖擊,各地養(yǎng)豬場(chǎng)大量生豬病死。在養(yǎng)殖戶經(jīng)濟(jì)損失巨大的同時(shí),也造成了豬肉價(jià)格飆升的情況[1]。豬在患上非洲豬瘟后,最顯著的病狀就是咳嗽[2]。為預(yù)防相關(guān)呼吸道傳染疾病,提高人工診斷效率,可通過(guò)監(jiān)測(cè)豬舍中豬的咳嗽情況,報(bào)告給飼養(yǎng)員進(jìn)行預(yù)警。豬咳嗽聲監(jiān)測(cè)系統(tǒng)是一個(gè)端對(duì)端系統(tǒng),需要對(duì)豬舍的聲音長(zhǎng)時(shí)間采集,再來(lái)識(shí)別其中的豬咳嗽聲。由于長(zhǎng)時(shí)間采集的聲音數(shù)據(jù)量大,包含沒(méi)有豬叫聲的部分,所以在對(duì)豬咳嗽聲識(shí)別之前,需要對(duì)采集得到的音頻數(shù)據(jù)進(jìn)行端點(diǎn)檢測(cè)。在冗長(zhǎng)的音頻中確定豬叫聲的起點(diǎn)與終點(diǎn),提取出豬叫聲,從而提高系統(tǒng)的檢測(cè)效率。同時(shí),端點(diǎn)檢測(cè)算法的檢測(cè)效果也會(huì)直接影響監(jiān)測(cè)系統(tǒng)后續(xù)咳嗽聲識(shí)別的準(zhǔn)確率。因此,一個(gè)有效且魯棒的端點(diǎn)檢測(cè)算法是整個(gè)豬咳嗽聲監(jiān)測(cè)系統(tǒng)的關(guān)鍵之一。
現(xiàn)階段端點(diǎn)檢測(cè)算法大致可分為2 類:第一類是基于閾值比較的方法。這類方法提取樣本每幀的特征參數(shù),將其與人為設(shè)定的閾值進(jìn)行比較,然后判定得到語(yǔ)音幀,其最為經(jīng)典的是基于短時(shí)能量和短時(shí)過(guò)零率的雙閾值端點(diǎn)檢測(cè)算法[3]。它使用短時(shí)能量與短時(shí)過(guò)零率作為特征參數(shù),具有計(jì)算量小,檢測(cè)速度快的特點(diǎn),但在低信噪比條件下算法的性能急劇下降。由于語(yǔ)音的特征參數(shù)易受背景噪聲影響,有些研究者便嘗試找到更抗噪的特征,文獻(xiàn)[4]將子帶能量與子帶譜熵相結(jié)合,提出一種新型語(yǔ)音特征參數(shù)——子帶能量熵比。除此之外,文獻(xiàn)[5]引入了特征組合的方法,以改善單一特征易受噪聲影響的問(wèn)題。第二類是基于模型匹配的方法。這類方法通過(guò)樣本構(gòu)建語(yǔ)音模型,再與測(cè)試樣本進(jìn)行匹配。在低信噪比情況下,第二類方法比第一類方法的檢測(cè)結(jié)果更準(zhǔn)確,但是它需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,而且算法相對(duì)復(fù)雜,計(jì)算量大。早期有研究者使用隱馬爾可夫模型(hidden Markov model, HMM)算法[6]、支持向量機(jī)算法(SVM)[7]以及單一的神經(jīng)網(wǎng)絡(luò)作為端點(diǎn)檢測(cè)的模型。文獻(xiàn)[8]對(duì)單一神經(jīng)網(wǎng)絡(luò)的檢測(cè)效果做了比較。隨著深度學(xué)習(xí)研究的快速發(fā)展,對(duì)于端點(diǎn)檢測(cè)算法的探究從單一神經(jīng)網(wǎng)絡(luò),轉(zhuǎn)向多算法融合。文獻(xiàn)[9]將深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)與維特比算法結(jié)合,進(jìn)一步提高檢測(cè)的準(zhǔn)確率。文獻(xiàn)[10]提出了一種增強(qiáng)統(tǒng)計(jì)噪聲抑制算法,并將其作為一個(gè)模塊,應(yīng)用于在卷積神經(jīng)網(wǎng)絡(luò)前。除此之外,文獻(xiàn)[11]搭建了復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)與循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)結(jié)合,進(jìn)行特征學(xué)習(xí)。模型輸入語(yǔ)音樣本原始波形,實(shí)現(xiàn)了端到端的端點(diǎn)檢測(cè)系統(tǒng)。
綜上,本文以生豬養(yǎng)殖場(chǎng)育肥舍的應(yīng)用場(chǎng)景為背景,提出一種基于長(zhǎng)短時(shí)記憶(LSTM)網(wǎng)絡(luò)單元的端點(diǎn)檢測(cè)算法。算法首先通過(guò)分析豬舍中的豬叫聲信號(hào),提取其梅爾頻率倒譜系數(shù)(MFCC)與對(duì)數(shù)能量特征作為模型的輸入,再搭建以LSTM為主體的神經(jīng)網(wǎng)絡(luò)對(duì)豬叫聲信號(hào)進(jìn)行端點(diǎn)檢測(cè),探究了算法在豬舍風(fēng)扇噪聲下的魯棒性。
本文端點(diǎn)檢測(cè)方案本質(zhì)上是對(duì)豬叫聲音頻樣本進(jìn)行逐幀判斷,確定每一幀是豬叫聲還是非豬叫聲,從而得到豬叫聲的起點(diǎn)和終點(diǎn)。相比于人類,豬叫聲種類較少,主要有正常的哼叫聲、打架的嚎叫聲、患病的咳嗽聲,而育肥豬舍的背景噪聲也相對(duì)單一,大部分情況為風(fēng)扇聲、水聲以及豬撞擊豬欄的金屬聲。因此,可以針對(duì)豬舍的特點(diǎn)設(shè)計(jì)整個(gè)檢測(cè)方案。由圖1 所示,豬叫聲端點(diǎn)檢測(cè)方案由預(yù)處理、特征提取、模型訓(xùn)練、模型檢測(cè)4 部分組成。
圖1 豬叫聲端點(diǎn)檢測(cè)方案
預(yù)處理階段:將樣本按比例分為訓(xùn)練集、驗(yàn)證集、測(cè)試集,并對(duì)每個(gè)樣本進(jìn)行預(yù)加重、分幀、加窗處理。
特征提取階段:對(duì)預(yù)處理后的訓(xùn)練集、驗(yàn)證集中的樣本提取可以表征樣本的特征參數(shù),即MFCC 和對(duì)數(shù)能量的組合,減少原始樣本的冗余信息,提高訓(xùn)練效率。
模型訓(xùn)練階段:根據(jù)LSTM 可以對(duì)樣本時(shí)間信息學(xué)習(xí)的特點(diǎn),搭建以LSTM 為主的神經(jīng)網(wǎng)絡(luò),將提取的特征參數(shù)輸入網(wǎng)絡(luò)中訓(xùn)練,并保存訓(xùn)練完成的網(wǎng)絡(luò)。
模型檢測(cè)階段:對(duì)測(cè)試集樣本進(jìn)行特征提取,輸入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中,輸出結(jié)果,最后判定得到豬叫聲的起點(diǎn)和終點(diǎn)。
語(yǔ)音信號(hào)有著低頻信噪比大、高頻信噪比小的特點(diǎn)。為了改善高頻信噪比,需要對(duì)豬叫聲樣本進(jìn)行預(yù)加重處理,提升其高頻部分,從而增加高頻分辨率。將樣本信號(hào)通過(guò)一個(gè)高通濾波器即可實(shí)現(xiàn)預(yù)加重,高通濾波器的傳遞函數(shù)如下
假設(shè)第n時(shí)刻的語(yǔ)音采樣值為x(n),經(jīng)過(guò)預(yù)加重處理后的信號(hào)如下
式中α為預(yù)加重系數(shù),通常取0.97。
語(yǔ)音信號(hào)是一種時(shí)變信號(hào),但它具有短時(shí)平穩(wěn)特性。在一個(gè)較短的時(shí)間內(nèi),語(yǔ)音信號(hào)特性基本保持不變即相對(duì)穩(wěn)定,可以將其視為一個(gè)準(zhǔn)穩(wěn)態(tài)過(guò)程。MFCC 特征參數(shù)提取采用短時(shí)譜分析,因此對(duì)豬叫聲信號(hào)進(jìn)行分幀。分幀時(shí)相鄰幀之間應(yīng)有部分交疊,以保證幀與幀之間的連貫性。由于分幀后語(yǔ)音幀的兩端急劇變化,會(huì)導(dǎo)致頻域中幀與幀之間過(guò)渡時(shí)信號(hào)發(fā)生丟失。將每個(gè)語(yǔ)音幀乘以Hamming 窗,使兩端平滑過(guò)渡到零,從而減小語(yǔ)音幀的截?cái)嘈?yīng)。Hamming 窗函數(shù)如下
式中N為窗的長(zhǎng)度。
MFCC 是 由Davis 和Mermelstein[12]在1980 年提出。研究表明,人耳對(duì)低頻信號(hào)更加敏感。當(dāng)頻率小于1 kHz 時(shí),頻率與人耳感知能力呈線性關(guān)系;當(dāng)頻率大于1 kHz 時(shí),其呈對(duì)數(shù)關(guān)系。梅爾(Mel)頻率就是將實(shí)際頻率由線性轉(zhuǎn)換為非線性的方法,轉(zhuǎn)換公式如下
式中f為實(shí)際頻率。
作為語(yǔ)音信號(hào)常見(jiàn)的特征之一,MFCC 模擬了人的聽(tīng)覺(jué)特性,適合于語(yǔ)音信號(hào)處理的相關(guān)工作中。此外,能量也是有效衡量語(yǔ)音和非語(yǔ)音的有效特征。因此,本文選擇MFCC 加對(duì)數(shù)能量作為表征豬叫聲樣本的特征參數(shù),特征提取步驟如圖2 所示。
圖2 MFCC 加對(duì)數(shù)能量特征提取步驟
1)將之前預(yù)加重、分幀加窗后的豬叫聲信號(hào),按幀進(jìn)行離散傅里葉變換(discrete Fourier transform,DFT)得到樣本的頻譜
計(jì)算功率譜為
式中:yi(n)為預(yù)加重、分幀后的信號(hào);k為傅里葉變換的點(diǎn)數(shù);n表示第i幀中的第n個(gè)采樣點(diǎn)。
2)將上面的功率譜通過(guò)Mel 濾波器組,得到Mel 頻譜,公式如下
式中:M為濾波器組中三角濾波器的個(gè)數(shù);Hm(k)為Mel 濾波器的頻率響應(yīng)。
3)計(jì)算每個(gè)濾波器組輸出的對(duì)數(shù)能量,再通過(guò)離散余弦變換(discrete Cosine transform,DCT)得到MFCC 系數(shù)C,公式如下
式中:M為濾波器組中三角濾波器的個(gè)數(shù);I為MFCC 維數(shù)。
4)取DCT 后的第2 個(gè)到第13 個(gè)系數(shù),組成12 維MFCC,再與這一幀的對(duì)數(shù)能量組合,最終得到這幀語(yǔ)音的13 維特征。
5)通常情況,由于MFCC 與對(duì)數(shù)能量的組合只能反映豬叫聲的靜態(tài)特征,為了提高模型的檢測(cè)效果,在13 維特征的基礎(chǔ)上計(jì)算得到其一階和二階導(dǎo)數(shù),組成39 維特征陣。
圖3(a)、(b)分別為豬叫聲與風(fēng)扇噪聲MFCC加對(duì)數(shù)能量前13 維特征矩陣的三維特征圖,圖3(c)、(d)分別為對(duì)應(yīng)的三維特征圖的正視圖。由于風(fēng)扇噪聲波形幅值隨時(shí)間變化較小,相對(duì)豬叫聲更平穩(wěn)。從圖3(c)、(d)中可以看出,每幀的風(fēng)扇噪聲相比于豬叫聲,特征值方差更小,特征曲線重合度更高。
圖3 豬叫聲與風(fēng)扇噪聲特征對(duì)比
長(zhǎng)短時(shí)記憶(LSTM)網(wǎng)絡(luò)單元在1997 年由Hochreiter 等[13]提出,它是一種特殊的RNN 結(jié)構(gòu)。它能夠?qū)斎氲拈L(zhǎng)時(shí)依賴關(guān)系進(jìn)行建模,同時(shí)在一定程度上解決了RNN 在較長(zhǎng)的時(shí)間序列上反向傳播時(shí)帶來(lái)的梯度消失問(wèn)題。
在LSTM 的模塊中,包含一個(gè)輸入門,一個(gè)輸出門和一個(gè)遺忘門,通過(guò)3 個(gè)門的協(xié)作來(lái)學(xué)習(xí)權(quán)重,達(dá)到能夠存儲(chǔ)長(zhǎng)期信息的效果。LSTM 網(wǎng)絡(luò)單元的結(jié)構(gòu)圖如圖4 所示。
圖4 LSTM 網(wǎng)絡(luò)單元結(jié)構(gòu)
LSTM 內(nèi)部相關(guān)計(jì)算公式為
式中:ht是隱藏狀態(tài);ct是單元狀態(tài);W、U、b為訓(xùn)練中需要學(xué)習(xí)的參數(shù);ft為遺忘門、it為輸入門、ot為輸出門,三者的輸入均為ht-1和xt,經(jīng)過(guò)激活函數(shù),將值縮放至0 和1 之間。當(dāng)遺忘門的值取0 時(shí),單元狀態(tài)ct的值也變?yōu)?,相當(dāng)于遺忘掉上一時(shí)刻的狀態(tài),只關(guān)注此時(shí)刻的輸入。輸入門決定是否接收此時(shí)刻的輸入,輸出門決定是否輸出單元狀態(tài)。
圖5 為L(zhǎng)STM 檢測(cè)模型的網(wǎng)絡(luò)結(jié)構(gòu)。其中,Linear 表示線性層,ReLU 和Sigmoid 為激活函數(shù)。
圖5 LSTM 檢測(cè)模型結(jié)構(gòu)
1)對(duì)訓(xùn)練集樣本進(jìn)行預(yù)加重、分幀和加窗處理。其中,預(yù)加重系數(shù)α為0.97,幀長(zhǎng)為25 ms,幀移為10 ms,窗函數(shù)為Hamming 窗。將時(shí)長(zhǎng)為7 s的音頻樣本轉(zhuǎn)換成699 個(gè)語(yǔ)音幀,得到(1,699)的一維幀矩陣。
2)將人工標(biāo)記的豬叫聲起止時(shí)間點(diǎn),轉(zhuǎn)換為(1,699)的幀標(biāo)簽,語(yǔ)音幀的值為1,非語(yǔ)音幀的值為0。
3)計(jì)算訓(xùn)練集樣本的39 維MFCC 加對(duì)數(shù)能量特征。得到尺寸為(39,699)的特征矩陣。
4)將每個(gè)特征矩陣轉(zhuǎn)換為(1,699,39)的張量,送入LSTM 模型中訓(xùn)練,模型的輸出為(1,699,1)的張量。
5)對(duì)模型的輸出進(jìn)行判定,大于閾值判定為語(yǔ)音幀,小于閾值判定為非語(yǔ)音幀,得到檢測(cè)結(jié)果。
3.1.1 實(shí)驗(yàn)數(shù)據(jù)
本文實(shí)驗(yàn)采用的豬叫聲數(shù)據(jù)來(lái)自吉林省某生豬養(yǎng)殖場(chǎng)育肥舍,由工作人員使用手機(jī)錄制。豬舍內(nèi)有用于控制溫度的風(fēng)扇,當(dāng)室內(nèi)溫度達(dá)到一定程度便自動(dòng)開(kāi)啟。樣本的采集時(shí)間是冬季,風(fēng)扇轉(zhuǎn)動(dòng)的頻率較低。相比于夏季,采集數(shù)據(jù)沒(méi)有被風(fēng)扇噪聲干擾的情況更多。數(shù)據(jù)經(jīng)過(guò)截取處理,去除被風(fēng)扇聲干擾的數(shù)據(jù),組成由200 個(gè)時(shí)長(zhǎng)為7 s 的樣本構(gòu)成的數(shù)據(jù)集。樣本的采樣頻率為16 kHz,采樣精度為16 bit。使用Audacity 軟件標(biāo)記樣本中豬叫聲的起止點(diǎn),并保存為json 文件,作為語(yǔ)音標(biāo)簽。最后把實(shí)驗(yàn)數(shù)據(jù)按8∶1∶1 的比例分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。此外,還額外錄制了不含豬叫聲的風(fēng)扇噪聲,用于算法的魯棒性驗(yàn)證。
3.1.2 實(shí)驗(yàn)內(nèi)容
實(shí)驗(yàn)1對(duì)于端點(diǎn)檢測(cè)算法,根本目標(biāo)是要完整檢測(cè)出豬叫聲。模型在輸出時(shí)由Sigmoid 函數(shù)將輸出值映射到(0,1),因此需要進(jìn)行判別,使其值轉(zhuǎn)換為代表語(yǔ)音幀的1,非語(yǔ)音幀的0。如大于閾值0.5 的概率值,則判別為語(yǔ)音幀,反之則判別為非語(yǔ)音幀。這里閾值可以視為一種容忍度,即在保證準(zhǔn)確率的前提下,接受一定的誤檢,而避免漏檢,保證檢測(cè)豬叫聲的完整性。為探究判別閾值大小對(duì)模型準(zhǔn)確率的影響,本實(shí)驗(yàn)多次改變閾值的大小,將閾值設(shè)置在0.3~0.7,步長(zhǎng)為0.1。先使用訓(xùn)練集和驗(yàn)證集訓(xùn)練模型,再使用測(cè)試集對(duì)訓(xùn)練完成的模型進(jìn)行評(píng)估。
實(shí)驗(yàn)2使用基于短時(shí)能量和短時(shí)過(guò)零率的雙閾值端點(diǎn)檢測(cè)算法、基于SVM 的端點(diǎn)檢測(cè)算法作為對(duì)照實(shí)驗(yàn)。雙閾值算法先提取樣本的短時(shí)能量和短時(shí)過(guò)零率,分別設(shè)置2 個(gè)特征閾值,再沿著時(shí)間方向?qū)? 種特征和閾值做比較,得到檢測(cè)結(jié)果。閾值的計(jì)算采用自適應(yīng)方法,對(duì)不同的樣本選取不同的閾值,以確保算法的檢測(cè)效果。SVM 算法通過(guò)提取樣本的多種時(shí)頻特征構(gòu)成組合特征,來(lái)訓(xùn)練SVM 模型,再使用訓(xùn)練好的模型對(duì)測(cè)試樣本的每一幀進(jìn)行語(yǔ)音、非語(yǔ)音的二分類,最終得到整個(gè)樣本的檢測(cè)結(jié)果。SVM 的核函數(shù)采用線性核,經(jīng)過(guò)多次實(shí)驗(yàn)測(cè)試,懲罰因子C選取最優(yōu)值1,實(shí)驗(yàn)結(jié)果見(jiàn)圖6。
圖6 SVM 在不同C 情況下的檢測(cè)結(jié)果
為驗(yàn)證本文算法的魯棒性,本實(shí)驗(yàn)對(duì)比3 種算法在加入不同信噪比噪聲的數(shù)據(jù)集下的檢測(cè)效果。將風(fēng)扇噪聲分別以10、5、0、-5、-10 dB 的信噪比,加入到數(shù)據(jù)集中,再使用加噪的數(shù)據(jù)集訓(xùn)練模型。圖7 顯示了一個(gè)樣本的原始波形圖及其加噪后的波形圖。
圖7 樣本的原始波形圖及其加噪后的波形
為客觀評(píng)價(jià)算法的性能,實(shí)驗(yàn)需要比較算法的檢測(cè)結(jié)果與人工標(biāo)記的起止點(diǎn),并從以下3 個(gè)方面對(duì)算法進(jìn)行評(píng)估,
式中:Ns為總幀數(shù);NT為檢測(cè)正確的幀數(shù);NFR為檢測(cè)為非語(yǔ)音幀的語(yǔ)音幀數(shù)量;NFA為檢測(cè)為語(yǔ)音幀的非語(yǔ)音幀的數(shù)量。
3.3.1 實(shí)驗(yàn)1
表1 顯示了LSTM 模型在不同閾值下,在各個(gè)數(shù)據(jù)集上的表現(xiàn)。
表1 LSTM 模型在不同判定閾值情況下的準(zhǔn)確率 %
可以看出,未加噪時(shí),閾值對(duì)準(zhǔn)確率的影響相對(duì)較??;在信噪比較大(10、5 dB)的情況下,最佳閾值等于0.6;信噪比較小(0,-5,-10 dB)時(shí),最佳閾值等于0.4。在測(cè)試樣本未加噪的情況下,樣本中的豬叫聲容易被模型檢測(cè)出來(lái),因此語(yǔ)音幀對(duì)應(yīng)的輸出更接近標(biāo)簽值1,準(zhǔn)確率沒(méi)有因?yàn)殚撝档淖兓蠓淖儭.?dāng)測(cè)試樣本加噪后,在信噪比較大的情況下,豬叫聲的幅值遠(yuǎn)大于風(fēng)扇噪聲的幅值,噪聲對(duì)檢測(cè)結(jié)果有一定干擾,但干擾相對(duì)較小,漏檢情況較少。此時(shí),非語(yǔ)音幀對(duì)應(yīng)的輸出值會(huì)大于0,但又不會(huì)大很多,因此較大的閾值會(huì)將這類輸出值判定為非語(yǔ)音幀,降低了誤檢率,使得準(zhǔn)確率提高。在信噪比較小的情況下,風(fēng)扇噪聲會(huì)淹沒(méi)部分豬叫聲,檢測(cè)結(jié)果會(huì)受到噪聲的嚴(yán)重干擾,語(yǔ)音幀的輸出值會(huì)更接近非語(yǔ)音幀輸出值。此時(shí),較小的閾值會(huì)降低檢測(cè)標(biāo)準(zhǔn),增加誤檢率,但保證了更多的豬叫聲不被噪聲影響而漏檢,反而增加了整體的準(zhǔn)確率。
3.3.2 實(shí)驗(yàn)2
表2 顯示了3 種算法在添加了不同信噪比風(fēng)扇噪聲的數(shù)據(jù)集上的表現(xiàn),圖8 顯示了3 種算法在不同信噪比風(fēng)扇噪聲下的準(zhǔn)確率。由圖8 可以看出,3 種算法的準(zhǔn)確率會(huì)隨著信噪比的減小而降低。
表2 3 種算法在不同信噪比的風(fēng)扇噪聲下的檢測(cè)結(jié)果 %
圖8 3 種算法在不同信噪比的風(fēng)扇噪聲下的準(zhǔn)確率
雙閾值檢測(cè)算法在高信噪比(10、5 dB)的情況下檢測(cè)效果較理想。但當(dāng)風(fēng)扇噪聲強(qiáng)度增加,信噪比小于0 時(shí),部分豬叫聲被風(fēng)扇噪聲所淹沒(méi),豬叫聲的短時(shí)能量與短時(shí)過(guò)零率便沒(méi)有了區(qū)分度。這使得算法幾乎將整個(gè)樣本都判定為豬叫聲,更少的豬叫聲被漏檢,更多的風(fēng)扇噪聲被判定為豬叫聲,造成了漏檢率RFR大幅降低與誤檢率RFA的激增。圖9 為圖7(d)樣本的雙閾值檢測(cè)結(jié)果,從圖中可以看出,由于噪聲影響,雙閾值檢測(cè)算法將部分噪聲誤判為豬叫聲。
圖9 SNR=0 dB 時(shí)雙閾值檢測(cè)結(jié)果
SVM 算法在信噪比降低的過(guò)程中,整體的檢測(cè)效果變差,A的變化幾乎是呈線性降低,RFR和RFA一直增加。這說(shuō)明了隨著噪聲強(qiáng)度的增加,豬叫聲的時(shí)頻特征與風(fēng)扇噪聲的時(shí)頻特征區(qū)分度越來(lái)越低,SVM 模型很難對(duì)豬叫聲和風(fēng)扇噪聲進(jìn)行正確分類。圖10 為圖7(d)樣本的SVM 檢測(cè)結(jié)果,在信噪比為0 dB 的情況下,SVM 模型已無(wú)法對(duì)樣本正確檢測(cè)。
圖10 SNR=0 dB 時(shí)SVM 檢測(cè)結(jié)果
LSTM 算法相比于其他2 種算法,A、RFR、RFA三者的變化幅度更小,檢測(cè)結(jié)果更加穩(wěn)定。在信噪比高的情況下,算法檢測(cè)結(jié)果優(yōu)于其他,即便在較低的信噪比(-5、-10 dB)下也仍有一個(gè)理想的檢測(cè)效果。這說(shuō)明LSTM 模型通過(guò)訓(xùn)練樣本學(xué)習(xí)到了豬叫聲的特征,即使在低信噪比時(shí),也能從含噪樣本中判定得到豬叫聲。因此也證明了LSTM 算法在豬舍的風(fēng)扇噪聲下有著更好的抗噪魯棒性。圖11 為圖7(d)樣本的LSTM 檢測(cè)結(jié)果,由圖可以看出LSTM 模型在較低信噪比時(shí)仍然能檢測(cè)出豬叫聲。
圖11 SNR=0 dB 時(shí)LSTM 檢測(cè)結(jié)果
1) 傳統(tǒng)端點(diǎn)檢測(cè)算法在高信噪比情況下,檢測(cè)效果良好,但隨著噪聲強(qiáng)度的增加,算法的準(zhǔn)確率也隨之大幅降低。本文提出了一種基于LSTM網(wǎng)絡(luò)單元的端點(diǎn)檢測(cè)算法,針對(duì)風(fēng)扇噪聲的環(huán)境,通過(guò)大量豬叫聲數(shù)據(jù)訓(xùn)練得到更精準(zhǔn)的端點(diǎn)檢測(cè)模型。
2) 本文進(jìn)行了2 組實(shí)驗(yàn),實(shí)驗(yàn)1 為測(cè)試得到LSTM 端點(diǎn)檢測(cè)模型的最佳判決閾值;實(shí)驗(yàn)2 在這個(gè)閾值的基礎(chǔ)上與雙閾值端點(diǎn)檢測(cè)和SVM 端點(diǎn)檢測(cè)進(jìn)行比較。仿真實(shí)驗(yàn)結(jié)果表明,在豬舍中不同信噪比的風(fēng)扇噪聲下,相比于傳統(tǒng)端點(diǎn)檢測(cè)算法,提出算法的檢測(cè)效果穩(wěn)定、魯棒性好。
本文所提出的LSTM 模型較小,可以通過(guò)搭建較復(fù)雜的模型,進(jìn)一步提高檢測(cè)的效果。未來(lái)也可以在數(shù)據(jù)集中增加其他豬場(chǎng)的豬叫聲,以提高模型的泛化能力。