中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1671-5489(2025)04-1143-07
Sound Event Detection Method Combining Channel and Spatial Attention Mechanism
FENG Yuxuan,LIU Lingwen,F(xiàn)U Haitao,ZHU LiCollege of Information Technology, Jilin Agricultural University, Changchun 13Ol18, Chin
Abstract:Aiming at the problems of insufficient acoustic feature extraction under sample scarcity conditions,we proposed a small sample sound event detection method based on channel and spatial compression. The method constructed a dual compression attention mechanism to screen features in channel dimension and achieved feature focusing in the spatial dimension,effectively improving the feature discrimination ability of the prototype network in small sample scenarios. The experimental results show that F1 -score of the method on the dataset DCASE (detection and classification of acoustic scenes and events) reaches 66.84% ,an improvement of 4.1l percentage points compared to the prototypical network, providing more reliable technical support for practical applications such as wildlife monitoring and ecological environment assessment.
Keywords: sound event detection; prototype network; channel attention; spatial attention
聲音是人類理解世界的重要途經(jīng)之一.雖然生活環(huán)境中充斥著各種聲音,但特定的聲音事件依然是稀疏的,如特定智能設(shè)備的喚醒詞.與常見的計算機視覺問題相比,稀疏聲音事件檢測是一個獨特且有挑戰(zhàn)性的問題.用智能方法更好地解決稀疏聲音事件檢測問題可為人們提供更好的服務(wù),且對大范圍監(jiān)測生態(tài)系統(tǒng)有獨特意義[1-4].目前,在聲音事件檢測任務(wù)[5-6]中常用的方法有模板匹配法[7]、多實例學(xué)習(xí)法[8-9]和原型網(wǎng)絡(luò)[10]等方法.其中模板匹配法是一種使用高斯混合模型或隱 Markov模型類的數(shù)學(xué)模型算法,在聲音事件檢測任務(wù)中可使用快速歸一化的交叉相關(guān)性匹配模板,然后用模板匹配方法計算出數(shù)據(jù)中每個事件與剩余音頻數(shù)據(jù)的交叉相關(guān)性,再根據(jù)交叉相關(guān)結(jié)果的最大值為每個文件設(shè)置不同的閾值.模板匹配法是最早用于聲音事件檢測的方法,但由于它在匹配時只能用平移匹配方法,導(dǎo)致模板匹配方法在進(jìn)行特征匹配時不夠完整.多實例學(xué)習(xí)法是先將一段音頻數(shù)據(jù)打成一個包,然后整體考慮包中出現(xiàn)多個事件的性質(zhì),將一段音頻中的每個事件視為一個實例且這些實例沒有標(biāo)簽,包是有標(biāo)簽的,通過對這些包的標(biāo)簽進(jìn)行學(xué)習(xí)預(yù)測包中事件的正負(fù),若某個包被標(biāo)記為正包,則該包中至少有一個正實例,反之,若某個包被標(biāo)記為負(fù)包,則該包中的所有實例為負(fù)實例.多實例學(xué)習(xí)的目的是通過對包的學(xué)習(xí),盡可能準(zhǔn)確地對未知包進(jìn)行預(yù)測,因此多實例學(xué)習(xí)適用于弱標(biāo)簽數(shù)據(jù)集,但這類方法需對訓(xùn)練集進(jìn)行大量訓(xùn)練才能得到好的結(jié)果.而聲音事件數(shù)據(jù)集由于受自然條件和采集數(shù)據(jù)技術(shù)的影響,導(dǎo)致數(shù)據(jù)集較少,所以用多實例學(xué)習(xí)方法做聲音事件檢測任務(wù)時并不能得到很好的結(jié)果.因此,使用小樣本學(xué)習(xí)[11]方法,其中原型網(wǎng)絡(luò)[10]是一種簡單高效的小樣本神經(jīng)網(wǎng)絡(luò),它的處理過程源于知識嵌人的思想,先通過深度神經(jīng)網(wǎng)絡(luò)的非線性映射把每個類映射到一個嵌入空間,然后為每個分類計算一個原型表示,最后通過計算查詢點與原型表示的距離進(jìn)行分類預(yù)測.距離計算可采用度量學(xué)習(xí)方法[12-13],該方法將不同的數(shù)據(jù)點映射到一個特征空間中,這些數(shù)據(jù)點之間的距離或相似性則由度量函數(shù)定義.常見的度量方法包括歐氏距離、余弦相似度和馬氏距離等.度量學(xué)習(xí)在圖像、自然語言處理和推薦系統(tǒng)等領(lǐng)域應(yīng)用廣泛.
為有效地檢測數(shù)據(jù)集中的聲音事件,AILab 智能語音團隊使用殘差RNN(recurrent neuralnetwork)構(gòu)建了原型網(wǎng)絡(luò)模型[1o],獲得了 62.73% 的 F1 度量和 57.52% 的和弦聲音檢測得分,但AI Lab 模型忽略了對通道和空間角度的關(guān)注,因此本文通過用注意力機制[14]增加模型對通道和空間角度的關(guān)注設(shè)計了ACS-Net(attention channel-spatial network)模型,并將 ACS-Net 模型在公開數(shù)據(jù)集 DCASE(detection and classification of acoustic scenes and events)2022 Take5 上運行,ACS-Net 模型取得了 66.84% 的 F1 度量和 58.98% 的和弦聲音檢測得分,實驗結(jié)果證明ACS-Net模型在改進(jìn)聲音事件檢測性能方面有效.
1方法設(shè)計
1. 1 系統(tǒng)輸入數(shù)據(jù)及處理
為公平考慮,ACS-Net使用數(shù)據(jù)集DCASE 2O22Take5的音頻數(shù)據(jù)進(jìn)行聲音事件檢測.由于這些音頻文件的長度不同,因此需先將其裁剪為固定長度,然后使用短時Fourier變換(short-time Fouriertransform,STFT)將音頻從時域信號轉(zhuǎn)換為頻域信號,最后將頻域信號轉(zhuǎn)換為Mel頻率倒譜系數(shù)(Mel frequency cepstral coefficients,MFCC)[15-16].MFCC 是一種廣泛應(yīng)用于語音和音頻處理領(lǐng)域的常用特征,其更符合人耳聽覺特征的頻譜圖,它與頻率成非線性對應(yīng)關(guān)系.為抑制輸入信號幅度變化對識別結(jié)果的影響,本文進(jìn)一步使用 PCEN(per-channel energy normalization)[17]處理數(shù)據(jù).先將輸人分別進(jìn)行 MFCC 處理 ?FMFCC(x)? 和PCEN FPCEN(x) )處理,然后拼接在一起,可表示為
FALL(x)=FMFCC(x)+FPCEN(x),
其中 FALL(x) 表示經(jīng)過MFCC和PCEN處理后的總特征圖, FMFCC(x) 表示輸人音頻數(shù)據(jù) x 經(jīng)過MFCC處理后的特征圖, FPCEN(x) 表示輸人音頻數(shù)據(jù) x 經(jīng)過PCEN處理后的特征圖.
在下面鳥類聲音的檢測和分類中將 FALL(x) 作為模型的輸入,其中 x 表示要檢測的音頻數(shù)據(jù),F(xiàn)ALL(x) 是經(jīng)過MFCC和PCEN 處理后得到的頻譜圖,將其作為瓶頸層的輸人.該層是基于循環(huán)殘差卷積的特征提取塊,經(jīng)過3個瓶頸層對 FALL(x) 進(jìn)行處理后,可得到每個音頻片段的初始特征圖O=(O1,O2,…,Ok) ,其中 Ok∈Rh×w .為進(jìn)一步強化特征圖中的有效信息,本文對特征圖從通道和空間角度進(jìn)行壓縮和激勵.為能準(zhǔn)確地進(jìn)行壓縮和激勵,需先給定一個位置信息,因此用以下公式為每個通道的空間維度計算一個位置值:
其中: GK 表示每個通道上通過全局池化層輸出的空間信息; H 表示特征圖的高度; W 表示特征圖的寬度; OK(i,j) 表示第 K 個通道上位置 (i.j) 的特征值; 表示第 i 個通道的加權(quán)計算結(jié)果; P 表示參數(shù)率; C 表示通道; W1 和 W2 為兩個全連接層的權(quán)重,大小為 C×(C/P) ; σ 表示激活函數(shù),通常為ReLU或LeakyReLU; G 表示全局池化層輸出的空間信息.獲得
后,通過LeakyReLU激活函數(shù)對其進(jìn)行處理,以增強各通道的非線性表達(dá)能力,然后通過Sigmoid層將其值進(jìn)行歸一化處理,計算過程如下:
其中 表示經(jīng)過通道SE模塊處理后的特征圖, FCsg(O) 表示通道SE模塊的函數(shù), σo 表示初始特征圖,
表示第 i 個通道的加權(quán)計算結(jié)果, Oi 表示第 i 個通道的初始特征圖.空間壓縮激勵是通道的變種,通過卷積核大小實現(xiàn).本文首先使用一個 1×1×1 的卷積核降低維度,然后使用Sigmoid函數(shù)進(jìn)行非線性操作,以獲得在[0,1]內(nèi)的輸出,將輸出與初始特征圖
相乘得到
,計算公式如下:
其中 q 為通道的特征張量, σ 為 Sigmoid 函數(shù), 表示經(jīng)過空間SE模塊處理后的特征圖, FSsE 0 (o) (2號表示空間SE模塊的函數(shù), δo 表示初始特征圖.
經(jīng)過上述處理后將通道和空間處理的結(jié)果相加作為最終輸出結(jié)果,計算公式如下:
其中 為空間處理的結(jié)果,
為通道處理的結(jié)果,
為最終輸出結(jié)果.
本文使用原型網(wǎng)絡(luò)和度量學(xué)習(xí)方法對模型進(jìn)行優(yōu)化.先通過深度神經(jīng)網(wǎng)絡(luò)的非線性映射將樣本嵌人到潛在空間中,并為每個類計算一個原型表示.然后使用歐氏距離計算查詢點與原型表示之間的距離,以確定其屬于哪個類別.距離方程如下:
其中 d2j(i) 為查詢點與正面原型表示的距離, d2j+1(i) 為查詢點與負(fù)面原型表示的距離, x 為正面的原型表示, 為負(fù)面的原型表示, q 為查詢點, s 為原型點, i,j 分別為查詢點和原型表示的數(shù)量遍歷.
1. 2 學(xué)習(xí)目標(biāo)
由于本文是基于CNN(convolutional neural networks)構(gòu)建的,傳統(tǒng)的CNN在學(xué)習(xí)時通常會通過卷積或池化降低維度,而降低維度后的特征忽略了通道和空間角度特征,所以本文希望網(wǎng)絡(luò)增加對通道和空間角度特征的關(guān)注.在ACS-Net模型中先通過對特征圖的壓縮得到每個通道或空間的特征表示,然后再通過激勵模塊學(xué)習(xí)每個通道和空間的權(quán)重,以增加重要特征表示的學(xué)習(xí).本文將這種思想應(yīng)用在空間和通道兩個角度,以增加特征的表示能力,同時增加了對空間維度和通道維度的依賴性,提高卷積神經(jīng)網(wǎng)絡(luò)性能.
1.3 模型結(jié)構(gòu)
圖1為ACS-Net模型的架構(gòu).該模型由3個瓶頸層模塊、1個殘差模塊及2個通道空間模塊構(gòu)成.瓶頸層模塊是ACS-Net的核心組件之一,由一個二維卷積層、批量歸一化層及一個殘差塊組成.在殘差塊中,采用了LeakyReLU激活函數(shù),該激活函數(shù)允許一部分負(fù)值通過,避免了傳統(tǒng)ReLU激活函數(shù)在負(fù)值區(qū)域完全為零的缺陷,從而增強了模型的非線性表達(dá)能力.殘差模塊由一個一維卷積層、批量歸一化層、LeakyReLU激活函數(shù)及一個平均池化層構(gòu)成.一維卷積層能有效提取輸人數(shù)據(jù)的時間特征,捕捉序列數(shù)據(jù)中的局部時間相關(guān)性.平均池化層則通過對特征圖進(jìn)行下采樣,減少特征圖的空間維度,同時保留重要的特征信息.通道空間模塊是ACS-Net中用于增強特征表示的關(guān)鍵部分,由兩個分支組成:一個針對通道維度,另一個針對空間維度.這兩個分支具有相同的結(jié)構(gòu).首先,利用1×1 卷積核將特征表示“擠壓”為一個數(shù)字的特征表示,該過程可視為是對特征的壓縮.然后,對通道和空間特征分別進(jìn)行加權(quán)處理,以突出重要的特征信息.最后,將兩個分支的特征圖相加,得到最終的輸出.這種設(shè)計使模型能同時從通道和空間兩個角度對特征進(jìn)行增強,從而更全面地捕捉特征信息.
通過對ACS-Net模型的運行以及與其他模型性能的對比,驗證了通道和空間維度對特征的重要性.在增強對通道和空間維度的依賴性后,模型在進(jìn)行檢測時的準(zhǔn)確性得到了顯著提升。ACS-Net模型通過在學(xué)習(xí)過程中重新校準(zhǔn)特征圖在通道和空間維度的關(guān)注度,有效提高了模型的準(zhǔn)確性.
2實驗
2.1 實驗數(shù)據(jù)
本文實驗使用DCASE 2022任務(wù)5的公開數(shù)據(jù)集,該數(shù)據(jù)集已經(jīng)預(yù)先劃分為訓(xùn)練集和驗證集.訓(xùn)練集包含5個子文件夾(BV,HV,JD,MT,WMW),每個子文件夾都來自不同數(shù)據(jù)源的鳥類.訓(xùn)練集中的音頻記錄數(shù)量為174個,對應(yīng)于 21h 的錄音,除音頻文件外,還為每個文件提供了多類別注釋.驗證集包含4個子文件夾 (HV,PB,ME,ML) ,每個子文件夾也來自不同的數(shù)據(jù)源,每個音頻文件都提供了單一類別(感興趣類別)的注釋文件.驗證集中的音頻記錄數(shù)量為18個,對應(yīng)約 6h 的錄音.訓(xùn)練集數(shù)據(jù)表示為 T=(SI,YI)∣i=1Ntrain ,包含 和 Yi∈{yi∣yi∈{0,1}} ,其中 {Si} 和
分別為 i 類的正面片段和負(fù)面片段的集合,Ntrain是訓(xùn)練片段的總數(shù)目.評估集E=(SI',YI') |Neγal包含 Si′∈{Si′} 和標(biāo)簽集 Yi′∈{Yi′} ,其中Neval是評估中類的數(shù)量.訓(xùn)練集和驗證集類別之間不存在重疊,使數(shù)據(jù)集更具挑戰(zhàn)性.
2.2 實驗方法
所有音頻的采樣率為 22.5kHz ,首先使用窗長為1024、跳躍長度為256的STFT以及128個Mel濾波器得到一個128維的Mel頻譜圖,然后繼續(xù)基于Mel頻譜圖進(jìn)行PCEN處理,最后得到PCEN和MFCC特征的堆疊.在訓(xùn)練過程中,如果長度小于 0.2s ,則用零填充,初始學(xué)習(xí)率為0.001,每10個epochs衰減參數(shù)為0.65.由于驗證集中只有3種鳥類聲音,因此使用3-way 5-shot方法進(jìn)行驗證.如果連續(xù)1O個epochs驗證準(zhǔn)確率沒有提高,則模型將停止訓(xùn)練,選擇驗證準(zhǔn)確率最好的模型進(jìn)行評估.為更好地利用訓(xùn)練數(shù)據(jù),本文添加了一個動態(tài)數(shù)據(jù)加載器,以生成具有隨機起始時間的訓(xùn)練數(shù)據(jù).此外,本文還設(shè)計了基于正面事件最大長度 tmax=max{t1,t2…,tk} 的聲音類別后處理策略.如果檢測到的正面事件長度小于 αtmax 或大于 βtmax ,則將其刪除.在評估過程中,使用 β=2.0 ,α=(0.1,0.2,…,0.9) 和閾值 h=(0.0,0.05,…,0.95) .本文使用不同組合的 β,α,h 計算PSD-ROC曲線與和弦聲音檢測得分,選擇在所有 β,α,h 的組合中的最佳 F 度量作為最終的 F 度量.
2.3 評估標(biāo)準(zhǔn)
本文使用兩個評估指標(biāo):一個是 F1 度量,它是精確率和召回率的平衡值,本文將 F1 度量作為主要的評估指標(biāo);另一個是和弦聲音檢測得分[18-19],它是一種基于聲學(xué)事件的多分類檢測評估指標(biāo).和弦聲音檢測得分指標(biāo)的計算需使用事件出現(xiàn)、持續(xù)時間和標(biāo)簽等信息,因此需使用強制對齊技術(shù),將算法檢測到的事件與真實事件進(jìn)行對齊.
使用和弦聲音檢測得分評估指標(biāo)的步驟如下:首先進(jìn)行預(yù)處理數(shù)據(jù),其包括數(shù)據(jù)預(yù)處理和特征提??;其次,對數(shù)據(jù)進(jìn)行分段,獲取每個聲學(xué)事件的起始時間和持續(xù)時間信息;最后,評估算法的檢測性能,包括事件檢測、事件持續(xù)時間檢測和事件標(biāo)簽檢測[20-22],對于每個事件,如果算法檢測到該事件,則設(shè)置為1,否則為0.評估算法是否正確檢測每個聲學(xué)事件的持續(xù)時間,對于每個事件,根據(jù)算法檢測到的持續(xù)時間和真實持續(xù)時間,計算持續(xù)時間得分,評估算法是否正確預(yù)測標(biāo)簽,對于每個事件,根據(jù)算法預(yù)測的標(biāo)簽和真實標(biāo)簽,計算標(biāo)簽得分.對于每個聲學(xué)事件,計算其出現(xiàn)得分、持續(xù)時間得分和標(biāo)簽得分的加權(quán)平均值,得到其和弦聲音檢測得分.將所有聲學(xué)事件的和弦聲音檢測得分取平均,得到算法的平均和弦聲音檢測得分.使用和弦聲音檢測得分評估指標(biāo)可以客觀地評估聲學(xué)事件檢測算法的性能,并針對不同類型的聲學(xué)事件調(diào)整評估,以提高評估的準(zhǔn)確性和可靠性.在和弦聲音檢測得分中,檢測容差(DTC)設(shè)置為0.5,GTC(ground true)設(shè)置為0.5,最大有效誤報率為100.由于本文未做多聲道檢測,因此未使用交叉觸發(fā)容限標(biāo)準(zhǔn)(CTTC).
2.4 實驗結(jié)果
表1列出了本文ACS-Net模型在驗證集上的性能,并與3個具有代表性的模型進(jìn)行了對比分析.由表1可見:模板匹配模型 F1 度量得分為 4.28% ,該模型主要依賴于模板匹配技術(shù),雖然在某些特定任務(wù)中性能優(yōu)異,但在和弦聲音檢測方面并未進(jìn)行專門的評估;基線模型——原型網(wǎng)絡(luò)的 F1 度量得分為 29.59% ,盡管原型網(wǎng)絡(luò)為后續(xù)研究提供了基礎(chǔ)框架,但也未進(jìn)行專門的和弦聲音檢測.因此,模板匹配和原型網(wǎng)絡(luò)在 F1 度量、準(zhǔn)確率和召回率等性能上均低于改進(jìn)模型.AILab模型的 F1 度量得分為 62.73% ,和弦聲音檢測得分為 57.52% .其在原型網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行了多項改進(jìn),顯著提升了模型的性能.但該模型在和弦聲音檢測任務(wù)中仍有進(jìn)一步優(yōu)化的空間.本文ACS-Net模型在性能上較AILab模型實現(xiàn)了顯著提升.ACS-Net模型的 F1 度量得分達(dá) 66.84% ,和弦聲音檢測得分達(dá)58.98% .實驗結(jié)果表明,ACS-Net模型在處理和弦聲音檢測任務(wù)時,不僅在 F1 度量上表現(xiàn)出色,還在和弦聲音檢測得分上取得了優(yōu)異的成績,相較于AILab 模型,ACS-Net模型在多個關(guān)鍵性能指標(biāo)上均展現(xiàn)出更優(yōu)的性能.
圖2為不同模型的訓(xùn)練準(zhǔn)確率對比.由圖2可見,ACS-Net模型在更少的步驟前提下獲得了 97% 的準(zhǔn)確率,比AILab模型提升了3個百分點.圖3為AILab和ACS-Net模型的和弦聲音檢測得分評估結(jié)果對比,其中虛線為AILab模型和弦聲音檢測得分評估結(jié)果,實線為ACS-Net模型和弦聲音檢測得分評估結(jié)果,不同顏色表示不同類別.由圖3可見,ACS-Net模型相比于AILab 模型的檢測結(jié)果有顯著提升,且更穩(wěn)定.
綜上所述,針對樣本稀缺條件下聲學(xué)特征提取不充分的問題,本文提出了一種基于通道和空間壓縮的小樣本聲音事件檢測方法.該方法在有限數(shù)據(jù)樣本的情況下,基于原型網(wǎng)絡(luò)和度量學(xué)習(xí)方法通過將殘差塊和通道空間CS塊融入原型網(wǎng)絡(luò)構(gòu)建了ACS-Net模型,ACS-Net模型用原型網(wǎng)絡(luò)的思想增加了對特征圖的通道和空間維度的關(guān)注,從而提高了特征表示能力.即使在小樣本數(shù)據(jù)情況下,ACSNet模型也展現(xiàn)出強大的學(xué)習(xí)和泛化能力.在公開數(shù)據(jù)集DCASE2022-TAKE5-Take5上,ACS-Net模型實現(xiàn)了 F1 度量得分為 66.84% ,和弦聲音檢測得分為 58.98% ,與其他模型相比, F1 度量和和弦聲音檢測得分分別提高了4.11個百分點和1.46個百分點,展示了ACS-Net模型在增強鳥類聲音分類和檢測性能方面的有效性.
參考文獻(xiàn)
[1]BATEMAN J,UZAL A. The Relationship betwee the Acoustic Complexity Index and Avian Species Richness and Diversity:A Review[J]. Bioacoustics,2022,31(5):6l4-627.
[2]STOWELL D,WOOD M, STYLIANOU Y,et al. Bird Detection in Audio:A Survey and a Challenge [C]// International Workshop on Machine Learning for Signal Processng.Piscataway,NJ: IEEE,2016:1-6.
[3]張璐璐,陳耀武,蔣榮欣.智能監(jiān)控前端系統(tǒng)中異常聲音檢測的實現(xiàn)[J].計算機工程,2014,40(1):218-221. (ZHANG L L,CHEN Y W,JIANG R X. Implementation of Abnormal Sound Detection in Inteligent Surveillance Front-End System [J]. Computer Engineering,2014,40(1): 218-221.)
[4]欒少文,龔衛(wèi)國.公共場所典型異常聲音的特征提?。跩].計算機工程,2010,36(7):208-210.(LUAN SW, GONG W G. Feature Extraction of Typical Abnormal Sounds in Public Places [J]. Computer Engineering,2010, 36(7):208-210.)
[5]MESAROS A,HEITTOLA T, VIRTANEN T,et al. Sound Event Detection: A Tutorial [J]. IEEE Signal Processing Magazine,2021,38(5) : 67-83.
[6]YANG DC,WANG H L, ZOU Y X,et al. A Mutual Learning Framework for Few-Shot Sound Event Detection [C]//IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE,2022: 811-815.
[7]MARON O,LOZANO-PEREZ T. A Framework for Multiple-instance Learning [C]//Neural Information Processing Systems. Cambridge: MIT,1997: 4077-4087.
[8]BRIGGS F, FERN X Z, RAICH R. Rank-Loss Support Instance Machines for MIML Instance Annotation [C]// Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York:ACM,2012:534-542.
[9] CARBONNEAU M A,CHEPLYGINA V,GRANGER E, et al. Multiple Instance Learning:A Survey of Problem Characteristics and Applications [J]. Pattern Recognition,2O18,77: 329-353.
[10]SNELL J, SWERSKY K,ZEMEL R. Prototypical Networks for Few-Shot Learning [C]/Neural Information Processing Systems. New York:ACM,2017: 4080-4090.
[11]WANG Y Q, YAO Q M, KWOK JT,et al. Generalizing from a Few Examples: A Survey on Few-Shot Learning [J]. ACM Comput Surv,2020,53(3):63-1-63-34.
[12] KAYA M, BILGE H S. Deep Metric Learning:A Survey [J]. Symmetry,2019,11(9): 1066-1-1066-26.
[13] KULIS B. Metric Learning: A Survey[J].Foundations and Trends。 in Machine Learning,2013,5(4): 287-364.
[14]LAN C F, ZHANG L,ZHANG Y Y,et al. Atention Mechanism Combined with Residual Recurrent Neural Network for Sound Event Detection and Localization [J]. EURASIP Journal on Audio, Speech,and Music Processing,2022,2022(1):29-1-29-14.
[15] HOSSAN M A,MEMON S, GREGORY M A. A Novel Approach for MFCC Feature Extraction [C]//2010 4th International Conference on Signal Processing and Communication Systems. Piscataway,NJ: IEEE,2010:1-5.
[16]加米拉,烏旭,汪大偉,等.朱雀鳴聲聲譜與語圖的初步分析[J].東北師大學(xué)報(自然科學(xué)版),2000,32(1): 71-73.(JIA M L,WU X,WANG D W,et al. Preliminary Analysis of Sound Spectrogram and Speech Chart of Zhu Que Ming[J]. Journal of Northeast Normal University(Natural Science Edition),2000,32(1):71-73.)
[17]WANG Y X,GETREUER P,HUGHES T,et al. Trainable Frontend for Robust and Far-Field Keyword Spoting [C]//2Ol7 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway,NJ:IEEE,2017:5670-5674.
[18]BILENC,F(xiàn)ERRONIG,TUVERI F,et al. A Framework for the Robust Evaluation of Sound Event Detection [C]/2020 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). Piscataway, NJ:IEEE,2020:61-65.
[19]嚴(yán)海寧,余正濤,黃于欣,等.融合詞性語義擴展信息的事件檢測模型[J].計算機工程,2024,50(3):89-97. (YAN H N,YU Z T,HUANG Y X,et al. Event Detection Model Integrating Semantic Extension Information [J].Computer Engineering,2024,50(3):89-97.)
[20]雷潔,饒文碧,楊焱超,等.基于分類不確定性的偽標(biāo)簽?zāi)繕?biāo)檢測算法[J].計算機工程,2023,49(1):49-56. (LEI J,RAO W B,YANG Y C,et al. Object Detection Algorithm Based on Classification Uncertainty Pseudo Labeling [J]. Computer Engineering,2023,49(1):49-56.)
[21]劉杭,殷歆,陳杰,等.基于混合網(wǎng)絡(luò)模型的多維時間序列預(yù)測[J].計算機工程,2023,49(1):121-129. (LIU H,YIN X,CHEN J,et al. Multivariate Time Series Forecasting Based on Hybrid Network Model[J]. Computer Engineering,2023,49(1):121-129.)
[22]沈夢強,于文年,易黎,等.基于GAN的全時間尺度語音增強方法[J].計算機工程,2023,49(6):115-122. (SHEN M Q,YU W N,YI L,et al. Speech Enhancement Method Based on Gan for Full Time Scales [J]. Computer Engineering,2023,49(6):115-122.)