靳韡赟,詹 毅*,樊曉華,3
(1. 中國(guó)科學(xué)院微電子研究所 北京 朝陽(yáng)區(qū) 100029;2. 中國(guó)科學(xué)院大學(xué)集成電路學(xué)院 北京 石景山區(qū) 100049;3. 江蘇集萃智能集成電路設(shè)計(jì)技術(shù)研究所有限公司 江蘇 無(wú)錫 214115)
助聽(tīng)器使用者的使用環(huán)境通常不是單一固定的環(huán)境,環(huán)境的變換會(huì)導(dǎo)致聲音場(chǎng)景的變化,不同的聲音場(chǎng)景會(huì)給助聽(tīng)器帶來(lái)不同影響從而導(dǎo)致助聽(tīng)器性能偏差,通過(guò)調(diào)整和改變不同環(huán)境下助聽(tīng)器的參數(shù)可以改善助聽(tīng)器的性能。因此在使用助聽(tīng)器的過(guò)程中,助聽(tīng)器需要持續(xù)檢測(cè)使用者當(dāng)前所屬的環(huán)境,通過(guò)對(duì)環(huán)境中的背景噪聲進(jìn)行分類(lèi)和識(shí)別,來(lái)調(diào)整和選取合適的參數(shù)及算法,以提高助聽(tīng)器產(chǎn)品的整體性能[1]。噪聲場(chǎng)景分類(lèi)問(wèn)題的本質(zhì)是模式識(shí)別,主要由特征提取和分類(lèi)兩個(gè)過(guò)程組成,噪聲場(chǎng)景分類(lèi)采用的特征主要包括時(shí)域特征、頻域特征以及倒譜域特征等,分類(lèi)過(guò)程中使用的模型主要包括K 近鄰(K-nearest neighbor, KNN)模型[2],高斯混合模型(Gaussian mixed model, GMM)[3-5]、隱馬爾科夫模型[6](hidden Markov model, HMM)、人工神經(jīng)網(wǎng)絡(luò)模型[7-8](artificial neural network, ANN)、支持向量機(jī)[9-11](support vector machine, SVM)等。文獻(xiàn)[12]基于隨機(jī)森林集成學(xué)習(xí)算法和子帶特征進(jìn)行背景噪聲場(chǎng)景識(shí)別,在滿(mǎn)足系統(tǒng)實(shí)時(shí)性要求的同時(shí)實(shí)現(xiàn)了高分類(lèi)準(zhǔn)確率。目前的噪聲場(chǎng)景分類(lèi)過(guò)程中使用的音頻信號(hào)特征大部分是單通道音頻信號(hào)特征,而文獻(xiàn)[13-14]使用雙通道音頻信號(hào)特征可以有效地進(jìn)行音頻場(chǎng)景分類(lèi),其中包含從雙通道差分信號(hào)中提取出的特征。2020 年,德國(guó)聽(tīng)力系統(tǒng)能力中心提出了一個(gè)雙耳助聽(tīng)器聲學(xué)環(huán)境識(shí)別數(shù)據(jù)集,適用于助聽(tīng)器的環(huán)境分類(lèi)與識(shí)別需求,并且基于深度神經(jīng)網(wǎng)絡(luò)驗(yàn)證了所提供數(shù)據(jù)集的有效性和可分離性[15]。
針對(duì)雙耳佩戴數(shù)字助聽(tīng)器接收到的雙通道環(huán)境聲音信號(hào)相對(duì)于單通道聲音信號(hào)包含更多的環(huán)境聲音信息,同時(shí),助聽(tīng)器場(chǎng)景分類(lèi)算法需具備實(shí)時(shí)性和高分類(lèi)準(zhǔn)確率,提出基于LightGBM 集成學(xué)習(xí)算法實(shí)現(xiàn)助聽(tīng)器的背景噪聲場(chǎng)景分類(lèi),并使用基于雙耳差分信號(hào)的子帶譜聯(lián)合特征進(jìn)行信號(hào)表征,充分利用不同環(huán)境中雙耳信號(hào)差異信息完成背景噪聲場(chǎng)景的識(shí)別。
不同種類(lèi)的噪聲場(chǎng)景信號(hào)在頻域中不同的頻帶范圍內(nèi)具有不同的分布特性,如白噪聲是功率譜密度在整個(gè)頻域內(nèi)均勻分布的噪聲,所有頻率具有相同的能量密度,而粉紅噪聲的功率譜密度則與頻率成反比。因此,使用信號(hào)子帶譜特征可以更全面地表達(dá)信號(hào)在各個(gè)頻帶上所具有的特性,信號(hào)子帶譜特征提取過(guò)程如圖1 所示。其中,N表示頻帶劃分?jǐn)?shù)目;m表示子帶特征種類(lèi)數(shù)目。在提取過(guò)程中,首先對(duì)輸入音頻信號(hào)進(jìn)行分幀加窗等預(yù)處理,然后對(duì)信號(hào)進(jìn)行傅里葉變換得到相應(yīng)的頻譜信號(hào),將頻譜信號(hào)劃分為N個(gè)互不重疊的等帶寬子帶后,分別對(duì)每個(gè)子帶進(jìn)行m種類(lèi)的特征提取,最后將不同子帶提取出的子帶譜特征進(jìn)行特征融合,得到用于場(chǎng)景分類(lèi)的信號(hào)特征。
圖1 信號(hào)子帶特征提取過(guò)程
采用LightGBM (light gradient boosting machine,LightGBM)集成學(xué)習(xí)算法模型進(jìn)行場(chǎng)景分類(lèi)與識(shí)別,LightGBM 是一種基于決策樹(shù)算法的梯度提升集成學(xué)習(xí)框架,由于LightGBM 基于梯度的單側(cè)采樣(gradient based one side sampling, GOSS)移除了梯度較小的數(shù)據(jù)實(shí)例,保留了在信息增益的計(jì)算中起著更重要作用的梯度較大的數(shù)據(jù)實(shí)例,同時(shí)利用特征捆綁方法(exclusive feature bundling, EFB)捆綁互斥的特征,所以模型可以在較小的數(shù)據(jù)量下獲得準(zhǔn)確的信息增益估計(jì)并且降低模型分裂過(guò)程中的復(fù)雜度,減少樣本和特征數(shù)量,具有訓(xùn)練速度快和內(nèi)存占用率低的特點(diǎn)[16]。圖2 為基于LightGBM 的背景噪聲分類(lèi)框架,對(duì)于多種背景噪聲的場(chǎng)景識(shí)別系統(tǒng),分為模型訓(xùn)練和場(chǎng)景識(shí)別兩個(gè)過(guò)程,在模型訓(xùn)練階段,首先對(duì)背景噪聲音頻信號(hào)進(jìn)行特征提取,構(gòu)建特征數(shù)據(jù)集。然后使用數(shù)據(jù)集中的數(shù)據(jù)對(duì)LightGBM 模型進(jìn)行訓(xùn)練。在場(chǎng)景識(shí)別階段,對(duì)需要分類(lèi)與識(shí)別的音頻信號(hào)提取相應(yīng)的特征,并且使用訓(xùn)練好的LightGBM 模型進(jìn)行場(chǎng)景分類(lèi)與識(shí)別。
圖2 基于LightGBM 的背景噪聲分類(lèi)框架
子帶特征能較好地描述音頻信號(hào)頻域的局部特性,由于不同種類(lèi)噪聲的音頻信號(hào)頻譜特性具有差異性,因此提取噪聲信號(hào)子帶特征可以反映信號(hào)在不同頻域范圍內(nèi)的細(xì)節(jié)特性。圖3 給出了Noisex-92 噪音數(shù)據(jù)集中3 種噪聲信號(hào)babble 噪聲、volvo噪聲和white 噪聲的語(yǔ)譜圖,由圖中可以看出不同種類(lèi)噪聲在不同頻率范圍內(nèi)的頻譜分布具有明顯差異。
圖3 噪聲信號(hào)語(yǔ)譜圖
文獻(xiàn)[12]已證明使用信號(hào)子帶周期特征和信號(hào)子帶熵特征可以有效地對(duì)背景噪聲場(chǎng)景進(jìn)行分類(lèi)。信號(hào)子帶周期特征可以根據(jù)信號(hào)每個(gè)子帶中的周期性特征來(lái)區(qū)分不同場(chǎng)景的背景噪聲,這個(gè)特征可以反映信號(hào)中平穩(wěn)的音頻特性,能夠有效識(shí)別音樂(lè)信號(hào)。信號(hào)子帶熵特征由不同子帶的能量熵構(gòu)成,可以反映信號(hào)中非平穩(wěn)的音頻特性,二者結(jié)合可以有效地對(duì)不同場(chǎng)景的音頻信號(hào)進(jìn)行表征從而實(shí)現(xiàn)場(chǎng)景分類(lèi)。
為了充分利用音頻信號(hào)頻譜信息,本文給出一種基于頻譜子帶信號(hào)的子帶譜相關(guān)性特征,并且結(jié)合子帶譜熵特征形成聯(lián)合特征來(lái)進(jìn)行助聽(tīng)器的場(chǎng)景識(shí)別過(guò)程。其中,子帶譜相關(guān)性特征可以反映信號(hào)不同頻率分量之間的相關(guān)程度,而子帶譜熵特征可以反映信號(hào)在頻域內(nèi)不同頻率范圍內(nèi)的波動(dòng)特性。
信號(hào)頻譜相鄰子帶的相關(guān)性(spectral correlation, SC)使用歸一化相關(guān)函數(shù)來(lái)計(jì)算。一幀音頻信號(hào)頻譜兩個(gè)相鄰頻帶之間的歸一化相關(guān)函數(shù)為:
式中, Corrfr(b)表示一幀信號(hào)兩個(gè)相鄰子帶譜之間的歸一化相關(guān)函數(shù);b表示頻帶索引;fr 表示幀索引;F(·)為 輸 入 信 號(hào) 的 離 散 傅 里 葉 變 換;Fb(·)和Fb+1(·)表示傅里葉變換后兩個(gè)連續(xù)頻帶對(duì)應(yīng)的子帶信號(hào); |·|表示對(duì)應(yīng)幅值;L表示每個(gè)頻帶內(nèi)所包含的頻點(diǎn)數(shù)目;l表示每個(gè)頻帶內(nèi)的頻點(diǎn)索引。噪聲信號(hào)的子帶譜相關(guān)性特征計(jì)算如下:
式中,Nf表示音頻信號(hào)中包含的總幀數(shù)。信號(hào)子帶譜相關(guān)性特征與信號(hào)子帶周期特征的計(jì)算過(guò)程雖然都是基于歸一化自相關(guān)函數(shù),但計(jì)算子帶譜相關(guān)性特征不需要遍歷所有延時(shí)點(diǎn)數(shù)并求取最大值。因此,可以有效減少特征計(jì)算過(guò)程中的運(yùn)算量,降低計(jì)算時(shí)間,對(duì)于幀長(zhǎng)為FL,均勻劃分為N個(gè)子帶的音頻信號(hào),假設(shè)傅里葉變換為FL 點(diǎn),則每個(gè)頻譜子帶包含的頻點(diǎn)數(shù)目為L(zhǎng)= FL/N,計(jì)算一幀信號(hào)兩個(gè)相鄰頻帶間的相關(guān)性特征只需要計(jì)算一次L點(diǎn)的歸一化自相關(guān)函數(shù),N個(gè)子帶需要計(jì)算N?1個(gè)譜相關(guān)性特征,所以對(duì)于幀長(zhǎng)FL 的一幀信號(hào)只需要計(jì)算N?1次L點(diǎn)的自相關(guān)函數(shù)。而對(duì)于信號(hào)子帶周期性特征,每個(gè)子帶信號(hào)需要計(jì)算FL 次FL 點(diǎn)的歸一化自相關(guān)函數(shù)并尋找最大值,因此對(duì)于幀長(zhǎng)FL 的一幀信號(hào),N個(gè)子帶信號(hào)需要計(jì)算N×FL次FL 點(diǎn)的歸一化自相關(guān)函數(shù),并且每個(gè)子帶信號(hào)都需要找到歸一化自相關(guān)函數(shù)的最大值。因此,相對(duì)于子帶周期特征,子帶譜相關(guān)性特征可以有效地減少特征提取時(shí)間,提高計(jì)算效率。
譜熵(spectral entropy, SE)特征可以分析信號(hào)的功率譜和熵率之間的關(guān)系。熵特征是對(duì)隨機(jī)進(jìn)行試驗(yàn)不確定性的一種度量,事件概率分布的熵越大,試驗(yàn)可能出現(xiàn)的結(jié)果確定性越小。子帶譜熵特征提供了噪聲信號(hào)每個(gè)子帶譜的熵度量,即:
音頻信號(hào)的子帶譜熵特征可以反映出信號(hào)在頻域子帶內(nèi)的穩(wěn)定特性。在頻域均勻劃分為8 個(gè)子帶時(shí),Noisex-92 噪音數(shù)據(jù)集中babble、volvo、white這3 類(lèi)噪聲頻域子帶間譜相關(guān)性特征和子帶譜熵特征的概率密度差異如圖4 所示。不同場(chǎng)景中的聲信號(hào)特征概率密度曲線分布具有明顯的差別,因此可以通過(guò)子帶譜相關(guān)性特征和子帶譜熵特征對(duì)聲音場(chǎng)景信號(hào)進(jìn)行分類(lèi)。
圖4 3 類(lèi)噪聲頻域子帶間譜相關(guān)性特征和子帶譜熵特征的概率密度曲線
在雙耳佩戴助聽(tīng)器時(shí),雙耳信號(hào)往往包含更多的環(huán)境聲音信息,因此,對(duì)雙耳接收到的聲音信息進(jìn)行整合與利用也是非常重要的一個(gè)環(huán)節(jié)。假設(shè)助聽(tīng)器左耳通道接收到的聲音信號(hào)是SL,右耳通道接收到的聲音信號(hào)是SR,對(duì)左右耳接收到的聲音信號(hào)分別進(jìn)行子帶特征提取,假設(shè)提取出的子帶特征維數(shù)為d,共包含d1 維子帶譜相關(guān)性特征和d2 維子帶譜熵特征。提取出的左耳接收信號(hào)子帶特征表示為:
右耳接收信號(hào)子帶特征為:
1)雙耳信號(hào)聯(lián)合子帶特征
文獻(xiàn)[17]通過(guò)雙耳信號(hào)特征互聯(lián)的方式構(gòu)成場(chǎng)景分類(lèi)特征,基于雙耳信號(hào)的聯(lián)合子帶特征同時(shí)保留左右耳接收信號(hào)子帶特征的完整信息,并且對(duì)BFleft和 B Fright按順序依次進(jìn)行拼接,聯(lián)合特征的長(zhǎng)度為單聲道子帶特征長(zhǎng)度的2 倍,因此2d維雙耳信號(hào)聯(lián)合子帶特征表示為:
2)雙耳信號(hào)均值子帶特征
文獻(xiàn)[15]分別對(duì)雙耳信號(hào)提取特征后,采用取算數(shù)平均值的方法構(gòu)成助聽(tīng)器的場(chǎng)景分類(lèi)特征,均值特征可以消除單個(gè)信號(hào)特征的誤差給信號(hào)特征表示所帶來(lái)的影響,表示為:
兩者只存在相位差異,幅值相同,文中統(tǒng)一使用式(11)的差分信號(hào)形式作為左右耳通道時(shí)域差分信號(hào)。對(duì)左右耳差分信號(hào)進(jìn)行子帶特征提取,時(shí)域差分信號(hào)子帶特征表示為:
雙耳差分信號(hào)子帶特征主要通過(guò)左右耳聲道接收到的信號(hào)之間的差異來(lái)對(duì)場(chǎng)景特征進(jìn)行表征,不需要分別提取左右耳接收到的信號(hào)特征。表1 給出了使用不同層面雙耳助聽(tīng)器信息在內(nèi)存效率、計(jì)算效率和離線訓(xùn)練工作量方面的對(duì)比。其中決策層面信息結(jié)合表示左右耳助聽(tīng)器進(jìn)行場(chǎng)景識(shí)別后,對(duì)雙耳場(chǎng)景識(shí)別結(jié)果進(jìn)行判斷與決策。對(duì)比結(jié)果顯示差分信號(hào)特征在內(nèi)存占用率、計(jì)算效率以及離線工作量方面均表現(xiàn)優(yōu)異。助聽(tīng)器設(shè)備對(duì)存儲(chǔ)以及計(jì)算資源有一定限制,因此減少資源消耗有利于助聽(tīng)器信號(hào)處理過(guò)程中的算法與模型部署。
表1 內(nèi)存效率、計(jì)算效率、離線訓(xùn)練工作量對(duì)比
1) 雙耳助聽(tīng)器聲學(xué)環(huán)境識(shí)別數(shù)據(jù)集
實(shí)驗(yàn)數(shù)據(jù)來(lái)自德國(guó)聽(tīng)力系統(tǒng)能力中心給出的雙耳助聽(tīng)器聲學(xué)環(huán)境識(shí)別數(shù)據(jù)集,選取常見(jiàn)的安靜室內(nèi)、交通環(huán)境、風(fēng)噪聲、音樂(lè)、雞尾酒會(huì)、汽車(chē)噪聲場(chǎng)景中的背景聲音信號(hào),每一組背景聲音信號(hào)分別包含左右耳兩個(gè)通道的音頻數(shù)據(jù)信號(hào),信號(hào)采樣率為16 000 Hz,每個(gè)信號(hào)片段持續(xù)時(shí)間為10 s,總計(jì)4 241 組雙耳接收音頻信號(hào),共8 482 個(gè)音頻數(shù)據(jù)片段。對(duì)單個(gè)音頻信號(hào)片段進(jìn)行預(yù)加重、分幀和加窗的預(yù)處理,幀長(zhǎng)25 ms,幀重疊為0,對(duì)信號(hào)進(jìn)行傅里葉變換,并且劃分為8 個(gè)子帶信號(hào),取8 個(gè)子帶中相鄰子帶的譜相關(guān)性特征和前 4 個(gè)子帶的頻帶譜熵特征構(gòu)成子帶信號(hào)特征。分別對(duì)左耳接收信號(hào)、右耳所接收信號(hào)以及雙耳差分信號(hào)進(jìn)行子帶特征提取,并且構(gòu)成基于單聲道的信號(hào)子帶特征數(shù)據(jù)集和基于雙耳信號(hào)的均值特征數(shù)據(jù)集、聯(lián)合子帶特征數(shù)據(jù)集以及差分信號(hào)子帶特征數(shù)據(jù)集。數(shù)據(jù)集中80%的數(shù)據(jù)用來(lái)訓(xùn)練LightGBM模型,剩下20%的數(shù)據(jù)用于對(duì)訓(xùn)練好的模型進(jìn)行測(cè)試。
2)模型設(shè)置
實(shí)驗(yàn)仿真過(guò)程中基于隨機(jī)森林的分類(lèi)模型與基于LightGBM 的分類(lèi)模型均使用50 個(gè)子估計(jì)器進(jìn)行實(shí)驗(yàn)。并且,在進(jìn)行模型訓(xùn)練與測(cè)試前先對(duì)數(shù)據(jù)集進(jìn)行缺失值與異常值過(guò)濾預(yù)處理去掉數(shù)據(jù)集中的異常特征向量。
基于LightGBM 模型進(jìn)行單聲道信號(hào)子帶特征場(chǎng)景分類(lèi),并與文獻(xiàn)[12]中使用的子帶特征與分類(lèi)模型實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,特征提取過(guò)程使用一組濾波器對(duì)輸入音頻信號(hào)進(jìn)行濾波,分別得到不同頻率范圍內(nèi)的子帶信號(hào),提取子帶信號(hào)的周期性特征與熵特征,選取前6 個(gè)子帶的周期性特征和前4 個(gè)子帶的熵特征構(gòu)成場(chǎng)景分類(lèi)特征。表2 給出了使用子帶周期性特征和子帶熵特征時(shí),基于隨機(jī)森林模型和基于LightGBM 模型在整個(gè)單聲道信號(hào)特征數(shù)據(jù)集上進(jìn)行場(chǎng)景分類(lèi)得到的測(cè)試集分類(lèi)準(zhǔn)確率與運(yùn)行時(shí)間(包括訓(xùn)練和預(yù)測(cè)過(guò)程)對(duì)比。LightGBM 模型相對(duì)于RF 準(zhǔn)確率可以提高約0.53%,模型訓(xùn)練和預(yù)測(cè)時(shí)間可以減少約40%。因此,基于LightGBM模型進(jìn)行助聽(tīng)器的背景噪聲分類(lèi)在維持場(chǎng)景分類(lèi)準(zhǔn)確率的情況下可以提高信號(hào)處理的實(shí)時(shí)性。
表2 背景噪聲場(chǎng)景分類(lèi)結(jié)果對(duì)比
表3 給出了基于LightGBM 算法對(duì)雙耳信號(hào)子帶特征進(jìn)行場(chǎng)景分類(lèi),對(duì)比子帶周期與子帶熵聯(lián)合特征和在單聲道特征提取數(shù)據(jù)集上使用信號(hào)子帶譜聯(lián)合特征在安靜室內(nèi)、交通環(huán)境、風(fēng)噪聲、音樂(lè)、雞尾酒會(huì)、汽車(chē)噪聲場(chǎng)景下以及整個(gè)測(cè)試集上的分類(lèi)準(zhǔn)確率。表4 給出了基于子帶譜聯(lián)合特征使用雙耳信號(hào)聯(lián)合特征、雙耳信號(hào)均值特征以及雙耳差分信號(hào)子帶特征進(jìn)行分類(lèi)的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果表明,相對(duì)于采用子帶周期與子帶熵特征,使用信號(hào)子帶譜聯(lián)合特征可以有效提高助聽(tīng)器的場(chǎng)景分類(lèi)準(zhǔn)確率,測(cè)試集上的分類(lèi)準(zhǔn)確率可以提升約9%。此外,使用信號(hào)子帶譜聯(lián)合特征進(jìn)行場(chǎng)景分類(lèi)在6 種背景噪聲環(huán)境中分類(lèi)準(zhǔn)確率均有顯著提升。使用雙耳差分信號(hào)子帶特征進(jìn)行場(chǎng)景分類(lèi)與聯(lián)合特征和均值特征相比,在部分場(chǎng)景中分類(lèi)準(zhǔn)確率有所下降,如風(fēng)噪聲和汽車(chē)噪聲場(chǎng)景,而在部分場(chǎng)景中有所提升,如音樂(lè)和雞尾酒會(huì)場(chǎng)景,但是,在整個(gè)測(cè)試數(shù)據(jù)集上基本保持不變。
表3 信號(hào)特征分類(lèi)準(zhǔn)確率對(duì)比 %
表4 雙耳信號(hào)特征分類(lèi)準(zhǔn)確率對(duì)比 %
為了驗(yàn)證基于LightGBM 與子帶譜聯(lián)合特征聲場(chǎng)景分類(lèi)算法的有效性和普適性,根據(jù)日常聽(tīng)覺(jué)場(chǎng)景調(diào)查[2]給出的20 種人們?nèi)粘=佑|的環(huán)境聲(分別是車(chē)站內(nèi)、公交車(chē)內(nèi)、汽車(chē)內(nèi)、馬路上、臥室、辦公室、會(huì)議室、教室、酒店內(nèi)、酒吧、餐廳、電影院、超市、集市、公園內(nèi)、體育場(chǎng)館、工地、田野、山林和車(chē)間)以及助聽(tīng)器常見(jiàn)噪聲風(fēng)聲,構(gòu)建了一個(gè)包含8 種聲音類(lèi)別的環(huán)境聲數(shù)據(jù)集,音頻數(shù)據(jù)來(lái)自NOISEX-92 噪聲數(shù)據(jù)集、NOIZEUS 語(yǔ)音增強(qiáng)數(shù)據(jù)庫(kù)[18]、ESC-50 環(huán)境聲數(shù)據(jù)集[19]、UrbanSound8K城市環(huán)境聲分類(lèi)公共數(shù)據(jù)集、AISHELL-2 中文語(yǔ)音數(shù)據(jù)庫(kù)[20],除NOISEX-92 中數(shù)據(jù)進(jìn)行了數(shù)據(jù)切分,其余數(shù)據(jù)均保持原時(shí)間長(zhǎng)度和原始采樣率。數(shù)據(jù)集中的數(shù)據(jù)保留了原始數(shù)據(jù)的多樣性,具有不同的采樣率和數(shù)據(jù)長(zhǎng)度。在驗(yàn)證過(guò)程中,數(shù)據(jù)集中80%的數(shù)據(jù)特征用來(lái)訓(xùn)練模型,剩下20%的數(shù)據(jù)特征用于對(duì)訓(xùn)練好的模型進(jìn)行測(cè)試。對(duì)8 種常見(jiàn)環(huán)境聲音的分類(lèi)結(jié)果如表5 所示。實(shí)驗(yàn)結(jié)果顯示基于LightGBM 與子帶譜聯(lián)合特征聲場(chǎng)景分類(lèi)算法在日常生活環(huán)境聲音分類(lèi)中也表現(xiàn)良好。
表5 8 種常見(jiàn)環(huán)境聲音的分類(lèi)結(jié)果 %
針對(duì)助聽(tīng)器應(yīng)用中背景噪聲場(chǎng)景分類(lèi)算法需同時(shí)具備低延時(shí)性和高分類(lèi)準(zhǔn)確率的問(wèn)題,提出一種基于LightGBM 集成學(xué)習(xí)模型的助聽(tīng)器場(chǎng)景分類(lèi)算法以減少分類(lèi)過(guò)程中的計(jì)算時(shí)間,給出一種新的子帶譜相關(guān)性特征并且聯(lián)合子帶譜熵特征構(gòu)成分類(lèi)特征來(lái)提高助聽(tīng)器場(chǎng)景分類(lèi)的準(zhǔn)確率,使用雙耳差分信號(hào)提取子帶譜特征減少計(jì)算過(guò)程中的內(nèi)存占用率以及模型離線訓(xùn)練工作量,提高計(jì)算效率。實(shí)驗(yàn)結(jié)果表明,與隨機(jī)森林模型相比,基于LightGBM 算法的場(chǎng)景分類(lèi)可以在維持算法準(zhǔn)確率的情況下減少約40%的程序運(yùn)行時(shí)間,使用子帶譜相關(guān)性特征聯(lián)合子帶譜熵特征進(jìn)行場(chǎng)景分類(lèi)可以進(jìn)一步提高場(chǎng)景分類(lèi)的準(zhǔn)確率,與子帶周期和子帶熵特征相比,場(chǎng)景分類(lèi)準(zhǔn)確率在整個(gè)測(cè)試集上可以提高約9%。通過(guò)對(duì)8 種常見(jiàn)環(huán)境聲分類(lèi),結(jié)果顯示了算法具有一定的魯棒性。與雙耳信號(hào)均值子帶特征以及雙耳信號(hào)聯(lián)合子帶特征相比,采用雙耳差分信號(hào)子帶特征進(jìn)行場(chǎng)景分類(lèi)可以在維持高分類(lèi)準(zhǔn)確率的條件下減少內(nèi)存與計(jì)算資源的占用。因此,基于LightGBM和雙耳差分信號(hào)子帶譜聯(lián)合特征的場(chǎng)景分類(lèi)算法更適用于對(duì)實(shí)時(shí)性、準(zhǔn)確率要求高的應(yīng)用場(chǎng)景。本文工作對(duì)助聽(tīng)器場(chǎng)景分類(lèi)等相關(guān)研究具有意義,但研究工作還缺少實(shí)際數(shù)據(jù)的驗(yàn)證,未來(lái)將在此基礎(chǔ)上做進(jìn)一步的研究和開(kāi)發(fā),考慮基于FPGA 平臺(tái)通過(guò)硬件測(cè)試算法的有效性和實(shí)時(shí)性。