中圖分類號:S831.4;TP391.4 文獻標(biāo)識碼:A 文章編號:2095-5553(2025)08-0066-10
Abstract:Chicken dysentery,causedby Salmonella pulorum,isacontagious disease that poses asignificant threattothe poultryindustry.Given the importance of early monitoring in preventing the spreadof the disease,this study proposes a deeplearning-basedaudiorecognitionmodelnamedFlockVigil—Net,aimedatachievingeficientdetectionofchicken dysentery.This paper first employs the Smooth—HF denoising method,which combines a smoothing mechanism spectral subtractionandahigh-passfiltertoextractclearchickencrowing fromcomplexsounddatathat includeschicken vocalizations,behavioral noises,and environmental noises.Subsequently,an endpoint detectionalgorithm based on time-limitedconditionssegments thechickenvocal segments,and calculates three featuresofthe chickencrowing:the spectrogram,F(xiàn)BANK,andMel-frequencycepstral coeficients(MFCC),further forming a feature merge graph, providingrichacousticinformationfordiseaseidentification.TheFlockVigil—Netmodel integratesconvolutionalneural networks,bidirectional long short-term memory networks (BILSTM),andmulti-head attention mechanisms,achieving high-accuracyidentificationofchickensinfectedwithchickendysentery.Experimentalresultsshowthatfromthesecondto the eighth day after confirmation of chicken dysentery,the model's recognition rate increased from 86.53% to 90.26% : Compared with other speech recognition models,F(xiàn)lockVigil—Net demonstrates superiorperformance.Thisstudy provides an eficient and accurate audio detection method for the early diagnosis of chicken dysentery.
Keywords:chicken disease detection;bidirectional longshort-term memory network;atentionmechanism;spectral subtraction
0 引言
1材料和預(yù)處理
伴隨著養(yǎng)雞業(yè)向規(guī)模化、集約化飼養(yǎng)方向發(fā)展,養(yǎng)殖密度不斷增加,傳染病問題日益嚴重,給農(nóng)民造成巨大損失。隨著計算機技術(shù)和生物特征技術(shù)的發(fā)展,除通過視頻監(jiān)控方法觀察動物行為外\",還可以通過聲音判別動物的狀態(tài)[2。與其他檢測技術(shù)相比,聲音檢測具有無接觸、無應(yīng)激、不受視線和光線的限制等優(yōu)勢。
國內(nèi)外科研人員在家禽語音識別方面主要分為兩類:一是通過機器學(xué)習(xí)方式進行分類。Rizwan等3利用極限學(xué)習(xí)機(ELM)和支持向量機(SVM分類器檢測雞呼吸道疾病產(chǎn)生的異常聲音。Liu等4采用最小均方誤差(MMSE)的譜減法對音頻進行降噪處理,利用隱馬爾可夫模型(HMM)開發(fā)出的識別算法,對肉雞呼吸系統(tǒng)疾病的異常聲音進行識別。Huang等5利用高通濾波器實現(xiàn)降噪,通過梅爾頻率倒譜系數(shù)(MFCC)和二分類支持向量機對雞禽流感進行訓(xùn)練和識別,準(zhǔn)確率為 84%~90% 。Mahdavian等利用支持小波熵(WET)梅爾倒譜系數(shù)、向量機對傳染性支氣管炎和紐卡斯?fàn)栆哌M行研究,在接種后第3天識別率達到 83% 二是基于深度學(xué)習(xí)方法進行識別。趙建等提出一種多窗譜維納降噪算法,并通過DNN一HMM模型實現(xiàn)對豬只咳嗽聲的識別。孫浩楠等8利用FIR低通濾波器進行降噪,提取梅爾倒譜系數(shù)進行歸一化處理,進行BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,得到5組豬只咳嗽聲音識別率和豬非咳嗽聲音識別率,平均識別率達到 85% 。Yin等[9]基于AlexNet模型和譜圖特征的分類算法,將MFCC與多層CNN融合得到MFCC一CNN特征,總體識別準(zhǔn)確率為 96.6% 。綜上所述,在先前的研究中存在降噪效果不夠明顯情況,同時識別模型存在識別率較低、復(fù)雜度較高等問題。
此外,國內(nèi)外研究更多關(guān)注是呼吸系統(tǒng)疾病的檢測[10],而針對雞白痢病這種消化道疾病識別研究較少。雞白痢病是由白痢沙門氏菌引起的細菌性傳染病,不同日齡的雞群都可以感染發(fā)病,尤其對雛雞影響最大。調(diào)查發(fā)現(xiàn),養(yǎng)雞場雞白痢病造成的損失遠高于新城疫和禽流感[11]。對雞白痢病的早期檢測,可以幫助養(yǎng)殖戶及時發(fā)現(xiàn)并控制疾病的傳播,減少疫情的發(fā)生和擴散,降低經(jīng)濟損失,提高畜禽的生產(chǎn)性能和養(yǎng)殖效益。
針對上述問題,本文提出一種非接觸式自動檢測雞白痢病的方法?;谄交瑱C制的譜減法與高通濾波器相結(jié)合(Smooth—HF)的降噪算法去除噪聲的影響,運用基于時間條件的雙閾值端點檢測切割音頻,從處理后的音頻信號中提取出雞叫聲的特征合并圖,并使用FlockVigil—Net神經(jīng)網(wǎng)絡(luò)作為分類器。
1.1 試驗設(shè)置
試驗中選取體重均一、健康的1日齡快大型嶺南黃羽肉雞25只。試驗地點為廣東省農(nóng)業(yè)科學(xué)院的實驗雞舍。將25只1日齡肉雞提前5天放人籠中以適應(yīng)環(huán)境。為確保肉雞同時患有雞白痢病,在飼養(yǎng)第5天開始對試驗組的肉雞進行沙門氏菌灌胃攻毒( 10° CFU/只)并在第6天和第7天繼續(xù)對肉雞進行攻毒,所有操作均按照動物生物安全二級(ABSL一2)標(biāo)準(zhǔn)進行。對每只雞進行標(biāo)記以觀察每只雞的臨床癥狀。如圖1所示,將LogitechC1000e攝像頭與計算機連接,用于收集籠中的聲音和視頻。單聲道聲音(單通道)記錄的16位采樣頻率為 44.1kHz ,視頻數(shù)據(jù)主要用于幫助識別聲源和類別。
圖1音頻采集環(huán)境 Fig.1 Audio capture environment
攻毒流程結(jié)束第2天,廣東省農(nóng)科院專業(yè)實驗人員隨機挑選攻毒肉雞解剖,確認雞群已患有雞白痢病后,開始對雞群進行音頻錄制。解剖確認患病后第2天出現(xiàn)呼吸困難現(xiàn)象,肉雞張口伸脖呼吸,如圖2(a)所示。第4天肉雞出現(xiàn)縮頭、翅下垂以及嗜睡現(xiàn)象,并且排出白色石灰樣糞便,如圖2(b)圖2(c)所示。在第6天肉雞活力下降,精神萎靡,羽毛逆立。在第8天肉雞肛門附近羽毛被硅黃灰樣糞便所沾污,甚至出現(xiàn)便血現(xiàn)象,如圖2(d)所示。
圖2病雞行為Fig.2Sickchicken behavior
圖3是雞叫聲音頻的時域圖。在病雞患病的第4天,雞叫聲音頻開始出現(xiàn)連續(xù)且尖銳的異常雞叫聲,如圖3(b)所示,紅色區(qū)域為一段尖叫聲音頻,與圖3(a)紅色區(qū)域的正常雞叫聲相比,振幅在短時間內(nèi)快速變化。在第6天,除尖銳的異常雞叫聲外,還產(chǎn)生了變化速率快的異常聲音,如圖3(c)紅色區(qū)域所示。在第8天時,連續(xù)且尖銳的異常雞叫聲和雞叫聲總量大大減少,但仍有變化速率快的異常聲音產(chǎn)生,如圖3(d)紅色區(qū)域。
圖3雞叫聲音頻 Fig. 3 Audio sound of chicken crowing
1.2 降噪
試驗采集的音頻包含家禽發(fā)出的聲音,同時也包括其他聲音(環(huán)境噪聲),諸如風(fēng)扇聲音、家禽拍打翅膀聲音和雞行走聲音。為準(zhǔn)確地檢測和分析家禽的叫聲,有必要對聲音數(shù)據(jù)進行降噪處理,以減少噪聲的影響,提出一種新的降噪方法Smooth一HF(平滑機制譜減法amp;高通濾波)。
1.2.1音頻信號預(yù)處理
對整個音頻信號的直接分析不僅需要大量的計算,而且可能出現(xiàn)不精確現(xiàn)象。對整個音頻信號進行分幀、加窗處理,然后根據(jù)每一幀的有效特征進行分析和計算。雞的聲音是一個復(fù)雜的時變信號,但一般認為聲音信號在短時間內(nèi)( 10~30ms 是穩(wěn)定的。音頻信號預(yù)處理利用漢明窗對整個音頻信號進行分幀,將其分解為多個短時音頻信號。在采樣率為 44100Hz 的音頻信號中,幀長為 11.6ms ,幀移為 5.8ms ,包括512個采樣點。
1.2.2傳統(tǒng)的譜減法
譜減法[12是一種去除加性噪聲的降噪算法。在假設(shè)干凈語音與噪聲不相關(guān)的情況下,在頻域中將估計噪聲消除,得到干凈的語音。譜減法計算如式(1)所示。
式中: ω 角頻率變量;
|Y(ω)|2 —帶噪語音信號功率譜;
|S(ω)|2 —干凈語音信號的功率譜;
|D(ω)|2 ——估計噪聲的功率譜。
真實情況下,干凈語音信號的功率譜不能為負,當(dāng)遇到負數(shù)情況時,令干凈語音信號的功率譜為0。
1.2.3平滑機制譜減法
為減小噪聲影響,使用引入平滑機制(Smoothmechanism)的譜減法,該方法設(shè)置一個譜值下限。
1)通常認為語音信號的前30幀為無語音片段,這段語音段沒有雞叫聲音頻的干擾,將音頻的前30幀作為前導(dǎo)無語音幀,計算每一個前導(dǎo)無語音幀的能量譜,并取平均值得到平均噪聲譜。最大噪聲殘差是前導(dǎo)無語音幀的能量譜和平均噪聲譜差值的最大值。
2)當(dāng)干凈語音信號功率譜 lt; 最大噪聲殘差時,選擇相鄰幀中干凈語音信號功率譜最小值進行替代,當(dāng)干凈語音信號功率譜 ? 最大噪聲殘差時,干凈語音信號功率譜保持不變。
式中: t- —第 t 幀語音信號;k —相鄰 k 幀語音信號;max(ω) ——最大噪聲殘差。
1.2.4 Smooth-HF降噪
改進的譜減法可以很好地去除規(guī)則噪聲,但對于雞群行走、拍打翅膀等行為產(chǎn)生的不規(guī)則噪聲降噪效果不夠理想。聲譜圖廣泛應(yīng)用于聲音分析中,從聲譜圖中可以直接觀察到聲音在時域和頻域的能量。如圖4所示,由AdobeAudition2021繪制的經(jīng)過平滑機制譜減法降噪后音頻的聲譜圖片段,橫軸代表時間,縱軸代表頻率,顏色深淺代表能量大小。綠色橢圓區(qū)域是雞的聲音,藍色矩形區(qū)域是不規(guī)則噪聲。很明顯,大多數(shù)雞叫聲在 2000Hz 以上且具有較高的能量,大量不規(guī)則的噪聲主要集中在 0~2000Hz ,且在該范圍內(nèi)具有較高能量。
圖4聲譜圖Fig.4 Spectrogram
巴特沃斯高通濾波器(ButterworthHigh-passFilter)是一種電子濾波器,用于將低頻信號從高頻信號中分離出來。通過使用頻率變換技術(shù),可以將低通濾波器的頻率響應(yīng)映射到高通濾波器的頻率響應(yīng),計算如式(3)所示。
式中: s 復(fù)頻率變量;d 濾波器階數(shù);j一 虛數(shù)單位;ωc 截止角頻率,rad/s。
其中, ωc=2πfc 。設(shè)定音頻的采樣頻率為44100Hz ,截止頻率 為 2000Hz ,高通濾波器的階數(shù) d 為10。平滑機制譜減法結(jié)合高通濾波器的降噪算法是一種新的降噪算法,即先通過改進的譜減法去除音頻信號中的加性噪聲,再通過高通濾波器去除殘留在2000Hz 以下的噪聲信號,實現(xiàn)對雞叫聲音頻的降噪處理。
圖5是原始音頻和3種降噪算法降噪后音頻的時域圖,在非雞叫聲音頻區(qū)域,譜減法和平滑機制譜減法雖然有效地去除噪聲的影響但仍有部分殘留,在經(jīng)過高通濾波器的處理后,聲音片段變得更加平滑,噪聲的波形被大大削弱。
在雞叫聲音頻區(qū)域,通過Smooth—HF降噪,有效去除雞叫聲音頻之間的噪聲,每小段雞叫聲音頻波形的邊緣更加清晰明確,雞叫聲之間的過渡也更加流暢。此外,雞叫聲的幅度也沒有發(fā)生太大變化,有效避免了信號的失真與削弱。
在音頻錄制過程中,存在“掩蔽效應(yīng)”,即能量較高的雞叫聲在錄音中主導(dǎo)并覆蓋能量較低的雞叫聲。利用“掩蔽效應(yīng)”的特點,保留較強能量雞叫聲,以此作為主要分析對象;并且經(jīng)過降噪算法的處理音頻后,有效地降低較低能量雞叫聲的干擾,同時顯著提高高能量雞叫聲的音頻質(zhì)量,有效降低音頻覆蓋帶來的影響,如圖5(d)所示,每一段雞叫聲的波形都得到清晰的呈現(xiàn)。
圖5降噪效果Fig.5Noisereductioneffect
1.3基于時間條件的端點檢測
通過上述方法,有效降低原始音頻信號中的大部分噪聲。為準(zhǔn)確地分析雞叫聲,減少計算量,有必要檢測音頻的發(fā)聲端點。雙閾值方法是一種常見的音頻事件端點檢測方法,廣泛應(yīng)用于語音處理和音頻檢測任務(wù)[13]。
短期能量 (STE) 是時域信號關(guān)鍵的特征之一,反映聲音信號在短時間內(nèi)的能量。
一幀音頻信號的短時能量 En 的計算如式(4)所示。
式中: xn(m)? 第 n 幀音頻信號;
N. —該幀的信號長度。
短時過零率( ZCRμ 是語音信號處理和音頻分析中的一個特征,用于描述信號波形的變化率,其計算如式(5)所示。
式中: i′ ——信號的采樣點數(shù)。
當(dāng) xn(m)gt;0 時, sgn(Σ) 為 1;xn(m)?0 時, sgn(Σ) 為-1。
為防止瞬時噪聲未被降噪處理,在雙閾值端點檢測中添加音頻時間的限制條件。通過從雙閾值端點檢測處理后的音頻中發(fā)現(xiàn),大多數(shù)殘留的瞬時噪聲時間都不會超過4幀,雞叫聲一般不會超過60幀,所以保留 4~60 幀的聲音片段用于制作雞叫音頻數(shù)據(jù)集,流程如圖6所示。計算前30幀的短時能量和短時過零率的平均值作為T1和T2的值,T3和T4分別設(shè)置為4幀和60幀。
圖6端點檢測 Fig.6Endpoint detection
2 雞叫聲特征
2.1 特征提取
特征提取是聲音處理中的一個重要環(huán)節(jié)。當(dāng)涉及音頻信號處理與音頻特征提取時,語譜圖、FBANK特征以及MFCC是不可或缺的工具[14]。語譜圖提供頻譜在時間和頻率上的變化信息,F(xiàn)BANK和MFCC都是通過模擬人耳的方式對音頻進行處理,且MFCC在FBANK基礎(chǔ)上進行DCT變換,特征維度相對較低,且具有良好的判別能力。語譜圖的計算如下。
1)對音頻信號進行分幀和加窗處理。
2)快速傅里葉變換(FFT):對每個窗口內(nèi)的信號進行傅里葉變換,將時域信號轉(zhuǎn)換為頻域信號。
式中: x ——預(yù)處理后的聲音信號;xi(m) 第 i 幀中第 ?m 個值;X(i,k) 第 k 個頻率和第 i 幀處的值。
3)對頻域信號進行絕對值操作,得到語譜圖。
FBANK在分幀、加窗以及短時傅里葉變換后,采用梅爾濾波器進行處理,得到每個濾波器的能量值 Si[m]
式中: —譜線能量;Hm[k]- ——梅爾濾波器的頻率響應(yīng)函數(shù);N——離散傅里葉變換點數(shù);∣m 1 第 ∣m 個梅爾濾波器。
MFCC特征類似于FBANK,前面步驟相同,在使用Mel濾波器組獲得能量值后取對數(shù)并進行DCT變換。
式中:t時間幀索引(第 χt 幀語音信號);c 中 -MFCC系數(shù)索引;μ 一 梅爾濾波器索引;M ——梅爾濾波器總數(shù);St[μ] 一第 Ψt 幀信號在第 μ 個梅爾濾波器的能量。
如圖7所示,對相同音頻進行特征提取,得到語譜圖、FBNAK和MFCC三種特征的圖像,橫坐標(biāo)均代表時間。
語譜圖中,縱軸表示頻率,展示了語音信號在不同時間點和頻率上的詳細信息。FBANK圖像中,縱軸表示濾波器通道編號,反映了語音信號頻域上的能量分布情況。MFCC圖像縱軸代表MFCC系數(shù)的索引,每個系數(shù)反映了語音信號在倒譜域上的一個特征。將這3種特征進行組合可以獲得更加豐富和全面的聲音特征表示,有助于提高聲音識別系統(tǒng)的性能和魯棒性。
3種特征提取方法對聲音信號的噪聲、變化和干擾具有不同的敏感性。將多種特征進行組合可以增強聲音識別系統(tǒng)的性能,提高系統(tǒng)的穩(wěn)定性和可靠性。
2.2 特征合并圖
3種聲音特征由上述方法產(chǎn)生。然而,特征的評估標(biāo)準(zhǔn)和范圍不同,因此,在分析之前有必要對每個特征進行歸一化。對檢測同一天的所有雞叫聲進行特征提取,并將聲音的每個特征歸一化,如式(9)所示。
式中: FK ——3個不同特征;
Fκ ——歸一化之后的值。
特征軸由3個特征(spectrogram、FBANK、MFCC)組成,并且每個特征的形狀為 40×20 。圖8是特征合并圖的可視化圖像,在歸一化之前,3種特征具有不同的數(shù)值范圍和分布,存在數(shù)值差異現(xiàn)象,且三者之間的關(guān)聯(lián)性不強。歸一化后,特征的數(shù)值范圍被調(diào)整到 0~1 ,圖像中的數(shù)值差異會減小,特征之間的關(guān)系更加平衡,有利于模型的訓(xùn)練和表現(xiàn)。3種特征進行提取時,F(xiàn)FT窗口大小為512。
3 模型構(gòu)建
3.1 BiLSTM
遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是處理時變信號的時間序列方法,但傳統(tǒng)RNN存在對長期依賴信息捕捉不足的問題。為解決這一問題,長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)[15]引人了遺忘門和記憶門來增強模型對時間序列數(shù)據(jù)的學(xué)習(xí)能力,如圖9(a)所示。然而,LSTM僅單向考慮當(dāng)前和以前的信息,沒有考慮歷史信息。針對這一局限性,雙向長短時記憶網(wǎng)絡(luò)(BiLSTM)通過添加正向和反向2個LSTM層,不僅處理當(dāng)前和以前的信息,同時考慮發(fā)聲之前和之后的歷史信息,從而更全面地理解序列上下文。BiLSTM的這種結(jié)構(gòu)設(shè)計特別適合處理像雞叫聲這樣短而有規(guī)律的信號,因為其能夠同時捕捉到發(fā)聲前后的相關(guān)性。BiLSTM的結(jié)構(gòu)如圖9(b)所示。
圖9模型結(jié)構(gòu)Fig.9Networkarchitecture
3.2FlockVigil—Net
注意力機制的核心思想就是根據(jù)輸入的特征,自動地賦予不同的特征分配權(quán),以突出重要的特征并忽略不重要的特征[16]。多頭注意力機制為一種注意力機制的擴展,將輸入序列在多個表示子空間中同時進行處理,每個子空間稱為一個“頭”。這種機制能夠幫助模型在處理復(fù)雜數(shù)據(jù)時更加有效地關(guān)注關(guān)鍵信息,提高模型的性能和泛化能力。其計算過程如式 (10)~ 式(12)所示。
O=Concat(head1,…,headh)Wo
式中: Q,K,V 一 一查詢、鍵和值;
X 輸入序列矩陣;
WQ 查詢向量變換權(quán)重;
(204號 WK 鍵向量變換權(quán)重;
(204號 Wv 向量變換權(quán)重;
o 多頭注意力最終輸出;
dk. 每個頭的維度;
h T 頭的數(shù)量;
Wo 輸出變換的權(quán)重矩陣。
現(xiàn)有的研究通常是將BiLTM用于文本理解[1],而針對家禽聲音識別的BiLSTM研究卻很少,但是BiLTM確實可以提升對聲音這種上下文關(guān)系的數(shù)據(jù)的理解能力[18]。然而在聲音識別這類任務(wù)中,僅僅使用BiLSTM的分類效果并不佳。卷積神經(jīng)網(wǎng)絡(luò)(CNN)在分類和識別上具有良好的性能[19],通過CNN進行特征提取,再將特征放人BiLSTM模塊中,會增加模塊對特征的理解能力,從而達到更好的聲音識別分類效果。將注意力機制模塊放置在BiLSTM模塊之后,這樣可以在雙向循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到序列特征之后,對序列的不同部分進行加權(quán),以提高模型對關(guān)鍵特征的關(guān)注程度,從而提升家禽語音識別的性能。
FlockVigil—Net網(wǎng)絡(luò)結(jié)構(gòu)如圖1O所示,其結(jié)構(gòu)可分為3個部分,分別為CNN、BiLSTM、注意力機制。
圖10FlockVigil—Net模型結(jié)構(gòu)Fig.10FlockVigil—Netmodel structure
特征數(shù)據(jù)量較小,為了提取最多的特征和較少的參數(shù),CNN層中有2個卷積層,核大小為 3×3,2 個最大池化層,池大小相同,步長stride大小為 2×2 。內(nèi)核大小是常用的,可以確保從短時間的雞叫聲中提取足夠的數(shù)據(jù)[20]。第一層有32個通道,第二層有32個通道。第二個最大池化層將節(jié)點展開,數(shù)據(jù)轉(zhuǎn)變?yōu)橐痪S數(shù)據(jù),為數(shù)據(jù)輸人BiLSTM部分做好準(zhǔn)備。
BiLSTM層有64個神經(jīng)元,每個神經(jīng)元有2個輸出,總共有128個輸出,以捕捉聲音信號的長期和短期上下文信息。引入隨機失活(Dropout)技術(shù)來防止過擬合現(xiàn)象,即在BiLSTM層后面附加一個Dropout層,在防止過擬合現(xiàn)象的同時,還可以提升模型的泛化性,并且減少模型的訓(xùn)練時間。Attention層采用自注意力頭數(shù)為4,輸入特征將被分割成4個不同的表示子空間,每個頭專注于捕捉輸入序列中的不同關(guān)系和模式,嵌入維度為128,在該層末尾設(shè)置具有S型激活功能的全連接層有3層,分別含128個、64個、32個神經(jīng)元,由Softmax層作為模型的輸出。
4 結(jié)果與分析
4.1試驗數(shù)據(jù)
將注射病毒前的一天標(biāo)記為DayO,即為雞群健康狀態(tài)。確定雞群感染雞白痢病后的第2天、4天、6天、8天分別稱為Dayl、Day2、Day3、Day4。對這些日期的雞叫聲與DayO的雞叫聲進行比較。經(jīng)過Smooth一HF降噪算法、基于時間條件的改進雙閾值端點檢測以及特征提取處理,記錄音頻文件并將DayO~Day4的數(shù)據(jù)合并制作成數(shù)據(jù)集,分別命名為Dayl、Day2、Day3、Day4。DayO包含2O647個數(shù)據(jù),Dayl有22204個數(shù)據(jù),Day2有21850個數(shù)據(jù),Day3有21703個數(shù)據(jù),Day4有22859個數(shù)據(jù)。
將DayO與Dayl ~ Day4合并,制作成數(shù)據(jù)集Dayl~Day4,并將DayO數(shù)據(jù)標(biāo)記為O,Dayl~Day4數(shù)據(jù)標(biāo)記為1。為進行模型訓(xùn)練和測試,按照訓(xùn)練集和測試集8:2的比例進行劃分,具體數(shù)據(jù)量如表1所示。
表1訓(xùn)練集和測試集的數(shù)據(jù)數(shù)量Tab.1Number of data for trainingand testingsets
4.2分類結(jié)果與分析
4.2.1模型性能分析
用表2所示4種不同方法:CNN、LSTM、BiLSTM和FLOCKVIGIL一NET進行試驗。
表2各模型識別率Tab.2Accuracy of each model %
4個模型訓(xùn)練中使用的學(xué)習(xí)率為0.0001,批量大小為64。4種方法全部經(jīng)過100個訓(xùn)練周期。從表2可以看出,4種模型的識別率隨時間的推移而增加,說明疾病影響了家禽的鳴叫。在4天的數(shù)據(jù)集中,CNN的識別準(zhǔn)確率均達到 82% 以上,證明CNN在聲音分類識別上的優(yōu)越性能。LSTM和BiLSTM是為了解決RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))存在的長期依賴問題而設(shè)計出來的,在此數(shù)據(jù)集中的識別準(zhǔn)確率也均達到 83% 以上,說明二者對這種帶有序列上下文信息的雞聲音有優(yōu)秀的識別能力。而FlockVigil—Net模型結(jié)合兩種模型的優(yōu)勢,通過注意力機制模塊對關(guān)鍵特征進行加權(quán)后,在4天內(nèi)的數(shù)據(jù)集中識別準(zhǔn)確均是最好的,這說明在CNN模型中加入BiLSTM層與注意力機制層,可以有效增加模型對病雞聲音特征的提取能力。在第1天內(nèi),病雞在行為上并沒有明顯的癥狀,但是FlockVigil—Net的識別準(zhǔn)確率達到 86.53% ,說明所提出的模型在發(fā)病早期就可以通過聲音識別出病雞。
如表3所示,隨著時間推移,識別精確率隨之上升,更加驗證了隨著時間的推移,雞白痢病對嶺南黃羽肉雞叫聲的影響逐漸加大。識別精確率越高,說明對患病雞群叫聲識別為患病雞群叫聲的預(yù)測準(zhǔn)確程度更高。FlockVigil—Net模型的精確率最高,分別為86.51%.87.86%.89.50%.91.07% 0
表3各模型精確率Tab.3Precision of each model
如圖11所示,所有方法的召回率均隨感染后時間的延長而增加,再次證明該病毒影響家禽的發(fā)聲。在所有模型中,F(xiàn)lockVigil—Net仍然具有最高的召回率,表明該方法檢測到的更多病態(tài)發(fā)聲是真正的病態(tài)發(fā)聲,檢測結(jié)果更準(zhǔn)確。
如圖12所示,所有方法中FlockVigil—Net的F1 值最高。綜合各方法的識別率、精確率、召回率和F1 值,所用的FlockVigil—Net模型在雞白痢發(fā)聲檢測中具有最好的性能,識別率、精確率、召回率和F1 值分別為 90.26%.91.07%.88.52%.90.29% 。
4.2.2 特征合并圖效果分析
為驗證特征合并圖的識別效果優(yōu)于其他特征提取方式。將DayO和Day4數(shù)據(jù)集經(jīng)Smooth—HF降噪算法、基于時間條件的改進雙閾值端點檢測后分別進行特征提取,得到語譜圖、FBANK、MFCC以及特征合并圖4個數(shù)據(jù)集,并將DayO數(shù)據(jù)標(biāo)記為O,Day4數(shù)據(jù)標(biāo)記為1,4種特征的形狀均為 120×20. 。對這4種特征圖數(shù)據(jù)集進行模型訓(xùn)練,并計算識別率,結(jié)果如表4所示。CNN對特征合并圖的識別率達到 86.04% ,識別效果優(yōu)于語譜圖、FBANK和MFCC。在LSTM和BiLSTM模型中,對特征合并圖的識別率達到86.64%.87.44% 。FlockVigil—Net對特征合并圖的識別率達到 90.26% ,其他3個模型都達 85% 以上。
表44種特征在各模型中識別率
Tab.4 Accuracy of four featuresin each model
4種模型對特征結(jié)合圖的識別效果最佳,并且FlockVigil—Net模型對特征結(jié)合圖的識別率最高。說明該特征圖相比于其他特征可以提供更加豐富和全面的信息,有利于提高模型的性能和泛化能力。
4.2.3FlockVigil—Net與其他語音模型性能比較
除表2中提到的CNN、LSTM、BiLSTM之外,GRU、ESNET和Transformer也是經(jīng)常使用的語音識別模型。在確認患病后的第8天,GRU、ESNET、Transformer以及FlockVigil—Net的識別率、精確率、召回率 ??F1 值如圖13所示。FlockVigil—Net模型的識別率相比于GRU、ESPNET、Transformer分別提升12.20%.6.18%.7.86% 。此外,F(xiàn)lockVigil—Net模型的精確率、召回率和 F1 值也都是最高的,該模型相比于其他語音識別模型,對雞白痢病叫聲的識別效果最佳。
5 結(jié)論
1)通過Smooth—HF算法處理原始音頻,利用基于時間條件的端點檢測去除靜音段和殘留瞬時噪聲,提取特征合并圖,輸人CNN、LSTM、BiLSTM和FlockVigil—Net四種模型中,對比確認患病后4天的識別效果。隨著時間的推移,4種模型的識別率、準(zhǔn)確率、召回率和 F1 值上漲,說明感染雞白痢病后家禽鳴叫發(fā)生變化。4天中FlockVigil—Net模型的識別率均為最高,分別達到 86.53%.87.62%.88.37%.90.26% 2)相同數(shù)據(jù)集、相同模型下,對相同尺寸的語譜圖、FBANK、MFCC和特征合并圖進行對比。CNN、LSTM、BiLSTM和FlockVigil—Net模型對特征合并圖的識別率均達到最高,分別為 86.04%.86.64% 87.75%.90.26% 。3)在相同數(shù)據(jù)集下,將FlockVigil—Net模型與其他語音識別模型進行對比,F(xiàn)lockVigil—Net模型識別率、精確率、召回率和 F1 值均為最高。
參考文獻
[1]吳瀟,楊穎,劉剛,等.基于遷移學(xué)習(xí)和改進ResNet34的 豬個體識別方法[J].中國農(nóng)機化學(xué)報,2023,44(9): 214—221. WuXiao,YangYing,LiuGang,etal.Pigindividual recognition method based on transfer learning and improved ResNet34 for real environment [J].Journal of Chinese Agricultural Mechanization,2023,44(9):214-221.
[2]宗超,曹晏飛,曹孟冰,等.籠養(yǎng)和棲架養(yǎng)殖模式下蛋雞 的發(fā)聲特征[J].農(nóng)業(yè)工程學(xué)報,2021,37(6):135—141. ZongChao,Cao Yanfei,CaoMengbing,etal. Vocalization characteristics of laying hens under cage and perch systems[J].Transactions of the Chinese Society of AgriculturalEngineering,2021,37(6):135-141.
[3]Rizwan M,Carroll B T,Anderson D V,et al. Identifying rale sounds in chickens using audio signals for early disease detection in poultry[C].2O16 IEEE Global Conference on Signal and Information Processing(GlobalSIP).IEEE, 2016:55-59. abnormal sound detection using WMFCC and HMM[J]. Journal of Sensors,2020(1):2985478.
[5]Huang J,Wang W, Zhang T,et al. Method for detecting avian influenza disease of chickens based on sound analysis[J].BiosystemsEngineering,2O19,180: 16—24.
[6]Mahdavian A,Minaei S,Marchetto P M,et al. Acoustic featuresofvocalizationsignalinpoultryhealth monitoring[J].Applied Acoustics,2021,175:107756.
[7]趙建,黎煊,劉望宏,等.基于DNN—HMM聲學(xué)模型的連 續(xù)豬咳嗽聲識別[J].農(nóng)業(yè)工程技術(shù),2020,40(30):93.
[8]孫浩楠,仝志民,謝秋菊,等.基于BP神經(jīng)網(wǎng)絡(luò)豬咳嗽 聲識別[J].中國農(nóng)機化學(xué)報,2022,43(2):148—154. Sun Haonan,Tong Zhimin, Xie Qiuju,et al. Recognition of pig cough sound based on BP neural network [J]. Journal of Chinese Agricultural Mechanization,2022, 43(2):148-154.
[9]Yin Y,Tu D,Shen W,et al. Recognition of sick pig cough sounds based’on convolutional network in field situations [J]. Information Processing in Agriculture, 2020,8(3): 369-379.
[10]張鐵民,黃俊端.基于音頻特征和模糊神經(jīng)網(wǎng)絡(luò)的禽流感 病雞檢測[J].農(nóng)業(yè)工程學(xué)報,2019,35(2):168—174. Zhang Tiemin,Huang Junduan. Detection of chicken infected with avian influenza based on audio features and fuzzyneural network [J] Transactions of the Chinese Society of Agricultural Engineering,20l9,35(2): 168—174.
[11]張勝國,楊禮,張元,等.雞白痢的傳播途徑與防控措 施[J].現(xiàn)代農(nóng)村科技,2023(6):67,88.
[12]Carpentier L, Vranken E,Berckmans D,etal. Development of sound-based poultry health monitoring tool for automated sneeze detection [J].Computers and Electronics in Agriculture,2019,162: 573—581.
[13] Zaydn S. Examination of energy based voice activity detection algorithms for noisy speech signals [J]. European Journal of Science and Technology,2019:157-163.
[14]袁超,沈明霞,姚文,等.基于發(fā)聲特征和深度學(xué)習(xí)的白 羽肉雞全生命周期咳嗽檢測方法[J].南京農(nóng)業(yè)大學(xué)學(xué) 報,2023,46(5):975-985.
[15]孫博瑞,孫三民,蔣敏,等.基于LSTM神經(jīng)網(wǎng)絡(luò)的智能 灌溉系統(tǒng)設(shè)計與試驗[J].中國農(nóng)機化學(xué)報,2022, 43(4):116—123. Sun Borui, Sun Sanmin, Jiang Min,et al. Design and test of intelligent irrigation system based on LSTM neural network[J].JournalofChinese Agricultural Mechanization,2022,43(4):116—123.
[16]余勝,謝莉.基于遷移學(xué)習(xí)和卷積視覺轉(zhuǎn)換器的農(nóng)作物病害識別研究[J].中國農(nóng)機化學(xué)報,2023,44(8):191—197.YuSheng,XieLi.Research on plant disease identificationbased on transfer learningandconvolutional visiontransformer[J].JournalofChineseAgriculturalMechanization,2023,44(8):191—197.
[17]劉志超,王曉敏,吳華瑞,等.基于BiLSTM—CNN的水稻問句相似度匹配方法研究[J].中國農(nóng)機化學(xué)報,2022,43(12):125—132.LiuZhichao,WangXiaomin,WuHuarui,etal.Researchon rice question and sentence similarity matching methodbased on BiLSTM—CNN[J].Journal of ChineseAgriculturalMechanization,2022,43(12):125—132.
[18]Cuan K,Zhang T,Li Z,et al.Automatic Newcastledisease detection using sound technology and deep learningmethod [J]. Computers and Electronics in Agriculture,2022,194:106740.
[19]耿艷利,宋朋首,林彥伯,等.采用改進CNN對生豬異常狀態(tài)聲音識別[J].農(nóng)業(yè)工程學(xué)報,2021,37(20):187—193.Geng Yanli,Song Pengshou,Lin Yanbo,et al.Voicerecognition of abnormal state of pigs based on improvedCNN[J]. Transactions of the Chinese Society ofAgricultural Engineering,2021,37(20):187—193.
[20]Cuan K,Zhang T,Huang J,et al.Detection of avianinfluenza-infected chickens based on a chicken soundconvolutionalneuralnetwork[J].ComputersandElectronics in Agriculture,2020,178:105688.