劉 彥
(青島市技師學(xué)院 山東 青島 266229)
在科學(xué)技術(shù)不斷發(fā)展的時(shí)代背景下,音頻信號(hào)識(shí)別技術(shù)的應(yīng)用范圍逐漸擴(kuò)大,無(wú)論是聲音信息檢索領(lǐng)域,還是在計(jì)算機(jī)應(yīng)用領(lǐng)域,其都發(fā)揮著重要價(jià)值[1]。針對(duì)音頻信號(hào)識(shí)別技術(shù)的研究,鄭偉哲等[2]提出了一種多尺度注意力融合機(jī)制,利用卷積循環(huán)神經(jīng)網(wǎng)絡(luò)降低聲音時(shí)頻噪聲,實(shí)現(xiàn)了對(duì)聲音信號(hào)的有效識(shí)別,但是其識(shí)別精度受時(shí)頻影響較高,在適用性方面表現(xiàn)出了一定的局限性;孫夢(mèng)青[3]以數(shù)字音頻為研究對(duì)象,通過(guò)音頻的時(shí)頻域信息實(shí)現(xiàn)了對(duì)樂(lè)音的有效識(shí)別,但是同樣地,其也存在識(shí)別效果穩(wěn)定性較低的問(wèn)題,當(dāng)音頻中的噪聲含量較高時(shí),其識(shí)別精度會(huì)大大降低;傅靖等[4]建立了基于PRA接口的錄音自動(dòng)識(shí)別調(diào)度下令系統(tǒng),通過(guò)AVSR雙模態(tài)語(yǔ)音識(shí)別模型去噪原始音頻信號(hào),有效提取音頻特征,音頻識(shí)別結(jié)果具有較高的精度,但是對(duì)于精度要求在50 ms以內(nèi)的識(shí)別要求,難以實(shí)現(xiàn)有效滿足。通過(guò)對(duì)上述研究成果進(jìn)行分析不難看出,受客觀環(huán)境的影響,聲波中的噪聲是影響音頻識(shí)別結(jié)果的關(guān)鍵因素[5]。
稀疏分解作為一種在圖像和信號(hào)處理中得到廣泛應(yīng)用的算法,將其應(yīng)用到音頻信號(hào)智能識(shí)別,具有巨大的開(kāi)發(fā)空間[6]。稀疏分解可以使信號(hào)處理更加簡(jiǎn)潔化,通過(guò)自適應(yīng)的線性組合行為對(duì)信號(hào)的特征進(jìn)行有效提取,使信號(hào)剔除噪聲干擾影響因素。將稀疏分解的表示形式作為音頻信號(hào)的表征,通過(guò)迭代匹配信號(hào)的方式獲取最終信號(hào)結(jié)果,提升音頻信號(hào)去噪性能。為此,本文提出基于稀疏分解的音頻信號(hào)智能識(shí)別方法研究,并在對(duì)比實(shí)驗(yàn)測(cè)試中分析驗(yàn)證了識(shí)別效果的可靠性。借助本文的研究,希望可以為音頻信號(hào)識(shí)別相關(guān)領(lǐng)域的研究和應(yīng)用提供有價(jià)值的參考。
考慮到影響音頻片段識(shí)別精度的主要因素為音頻中噪聲信號(hào)的干擾[7],為此,本文首先對(duì)音頻進(jìn)行去噪處理。假設(shè)含有噪聲的音頻信號(hào)數(shù)學(xué)模型為
其中,f表示含有噪聲的音頻信號(hào),fr表示原始無(wú)噪聲的音頻信號(hào),fz表示噪聲信號(hào)。
由于原始無(wú)噪聲音頻信號(hào)本身是具有特定的結(jié)構(gòu)特征的[8],因此,本文構(gòu)建了能夠與之匹配的過(guò)完備原子庫(kù),其可以表示為
其中,E(f)表示原始無(wú)噪聲音頻信號(hào)的短時(shí)平均過(guò)零率,sgn 表示符號(hào)函數(shù),g表示聲壓波在聲道中共振函數(shù),xi和xi-1分別表示相鄰的音頻信號(hào)序列。
利用式(2)構(gòu)建的過(guò)完備原子庫(kù)對(duì)含有噪聲的音頻信號(hào)進(jìn)行稀疏分解時(shí),本文主要利用了fr結(jié)構(gòu)特性與E(f)中原子特性的相關(guān)性。由于噪聲信號(hào)結(jié)構(gòu)與E(f)中任一原子不存在相關(guān)性,本文對(duì)f進(jìn)行稀疏分解時(shí),E(f)與fr的內(nèi)積將遠(yuǎn)遠(yuǎn)大于E(f)與fz的內(nèi)積,以此為基礎(chǔ),分解出的原始無(wú)噪聲音頻信號(hào)可以表示為
其中,fr1表示在初代系數(shù)分解中得到的原始無(wú)噪聲音頻信號(hào),p表示音頻信號(hào)的脈沖頻率,a表示信號(hào)的幅度值,sim擬合函數(shù)。
在經(jīng)過(guò)一次稀疏分解后,音頻信號(hào)中仍存在未被分解的原始無(wú)噪聲音頻信號(hào)[9]。為了確保稀疏分解結(jié)束時(shí)能夠?qū)崿F(xiàn)對(duì)噪聲的完全過(guò)濾,本文引入了殘差閾值參數(shù)作為稀疏分解算法的匹配原子依據(jù)。利用殘差閾值參數(shù)完善過(guò)完備原子庫(kù)的匹配效果,將殘差閾值參數(shù)作為稀疏分解的終止條件,以此減少選擇匹配原子的工作量,提高稀疏分解的效果。過(guò)完備原子庫(kù)最后分解得到的原始無(wú)噪聲音頻信號(hào)存在
其中,frn和frn-1分別表示稀疏分解的終止時(shí)與終止前一次分解的原始無(wú)噪聲音頻信號(hào),k表示殘差閾值參數(shù),該值的大小根據(jù)音頻信號(hào)的識(shí)別精度要求設(shè)置。通過(guò)這樣的方式,有效分解音頻信號(hào)固有的稀疏結(jié)構(gòu)特征,提升多通道的信號(hào)去噪效果。在對(duì)過(guò)完備原子庫(kù)匹配完成對(duì)音頻信號(hào)的去噪處理,獲取音頻信號(hào)之間的相關(guān)性,為后續(xù)音頻信號(hào)起止時(shí)刻識(shí)別提供數(shù)據(jù)計(jì)算依據(jù)。
在得到無(wú)噪聲的音頻信號(hào)后,本文結(jié)合高頻內(nèi)容(high frequency content,HFC)實(shí)現(xiàn)對(duì)音頻片段信號(hào)起止時(shí)刻的識(shí)別,根據(jù)信號(hào)不同頻帶能量的差異,對(duì)其進(jìn)行差異化賦權(quán)。以此為基礎(chǔ),權(quán)重值越大,對(duì)應(yīng)的高頻分量越多,識(shí)別幀為音頻片段起始點(diǎn)的可能性就越大。其中,對(duì)高頻部分進(jìn)行加權(quán)處理的計(jì)算方式可以表示為
其中,H(fr)表示加權(quán)處理后的高頻信號(hào),y(fr)表示音頻信號(hào)的振幅,wm表示高頻信號(hào)的權(quán)重,d表示頻帶寬度,m表示高頻分量在頻帶上的分布。
按照這樣的方式,以每個(gè)高頻信號(hào)的峰值作為音頻片段的起始時(shí)刻,當(dāng)高頻信號(hào)回落攜帶能量與其他時(shí)刻相同時(shí),則認(rèn)為此時(shí)為音頻信號(hào)的終止時(shí)刻??赡軙?huì)出現(xiàn)單個(gè)的頻帶攜帶的能量遠(yuǎn)遠(yuǎn)大于其他時(shí)刻的情況,此時(shí)則表明該時(shí)刻為音頻信號(hào)的起始時(shí)刻,對(duì)應(yīng)的,終止時(shí)刻的判斷與單個(gè)高頻信號(hào)的判斷方式一致,由此實(shí)現(xiàn)對(duì)音頻信號(hào)起止時(shí)刻的準(zhǔn)確識(shí)別。
本文將鄭偉哲等、孫夢(mèng)青和傅靖等提出的方法作為測(cè)試的對(duì)照組,開(kāi)展了實(shí)驗(yàn)分析測(cè)試。通過(guò)對(duì)比4種方法的識(shí)別效果,對(duì)本文設(shè)計(jì)音頻信號(hào)智能識(shí)別方法的準(zhǔn)確性做出客觀評(píng)價(jià)。
為了確保測(cè)試數(shù)據(jù)對(duì)于不同識(shí)別方法的公平性,本文測(cè)試的音頻數(shù)據(jù)為自主錄制,按照采樣率為40.0 kHz的通過(guò)標(biāo)準(zhǔn),共采集了30組共88個(gè)音頻信號(hào),形成的數(shù)據(jù)組分別編號(hào)為CSYF001、CSYF002、…CSYF030。在此基礎(chǔ)上,采用隨機(jī)選擇的方式取其中一組數(shù)據(jù)構(gòu)建多樣本字典。在具體實(shí)施過(guò)程中,分別取88個(gè)音頻信號(hào)的第i幀,所有數(shù)據(jù)集共同構(gòu)成樣本字典,圖1為對(duì)音頻信號(hào)中各幀信號(hào)的提取方法。
在上述基礎(chǔ)上,本文隨機(jī)選擇了200個(gè)音頻片段進(jìn)行實(shí)驗(yàn)測(cè)試,音頻的平均時(shí)長(zhǎng)為320.0 ms,最長(zhǎng)時(shí)長(zhǎng)為396.0 ms,最短時(shí)長(zhǎng)為265.0 ms,對(duì)應(yīng)的平均信號(hào)幀數(shù)數(shù)目為722個(gè),最多信號(hào)幀數(shù)數(shù)目為1 006個(gè),最少信號(hào)幀數(shù)數(shù)目為521個(gè)。隨機(jī)選擇其中180個(gè)音頻片段作為訓(xùn)練數(shù)據(jù),20個(gè)音頻片段作為測(cè)試數(shù)據(jù)。在此基礎(chǔ)上,統(tǒng)計(jì)4種方法對(duì)音頻片段的測(cè)試識(shí)別結(jié)果。
在上述基礎(chǔ)上,測(cè)試的20個(gè)音頻片段中包含信號(hào)數(shù)量14 400個(gè),其中,中文音頻信號(hào)數(shù)量為9 250個(gè),英文音頻信號(hào)數(shù)量為5 150個(gè)。本文對(duì)識(shí)別結(jié)果的分析分別對(duì)中文音頻信號(hào)和英文音頻信號(hào)的起始終止時(shí)刻識(shí)別情況3個(gè)角度進(jìn)行,其中,具體的時(shí)刻識(shí)別情況見(jiàn)表1和表2。
表2 英文音頻信號(hào)起始終止時(shí)刻識(shí)別情況統(tǒng)計(jì)表
從表1中可以看出,在測(cè)試的4種方法中,鄭偉哲等方法對(duì)中文音頻信號(hào)起始終止時(shí)刻的識(shí)別結(jié)果誤差主要分布在±50~±100 ms之間,其中,誤差低于±50 ms的占比為40.75%,但是識(shí)別結(jié)果誤差在±100.0 ms以上的占比達(dá)到了13.98%,處于較高水平,表明其識(shí)別準(zhǔn)確性仍存在一定的提升空間;孫夢(mèng)青方法的識(shí)別結(jié)果與之相比有所提升,但是也表現(xiàn)出了同樣的問(wèn)題,識(shí)別結(jié)果誤差在±100.0 ms以上的占比達(dá)到了12.30%。傅靖等方法的識(shí)別結(jié)果中,誤差在±100.0 ms以上的占比明顯下降,僅為8.99%,對(duì)其識(shí)別誤差的主要分布情況進(jìn)行分析,誤差低于±50 ms的占比與鄭偉哲等和孫夢(mèng)青方法相近,為40.71%,主要誤差分布在±50~±100 ms之間,占比達(dá)到了50.30%,對(duì)本文方法的識(shí)別結(jié)果進(jìn)行分析,其中誤差在±100.0 ms以上的占比僅為5.72%,誤差低于±50 ms的占比達(dá)到了51.30%,明顯高于3種對(duì)比方法。測(cè)試結(jié)果表明,本文設(shè)計(jì)的音頻信號(hào)識(shí)別方法可以實(shí)現(xiàn)對(duì)中文音頻信號(hào)片段起始時(shí)刻的高精度識(shí)別。
表1 中文音頻信號(hào)起始終止時(shí)刻識(shí)別情況統(tǒng)計(jì)表
從表2 的數(shù)據(jù)結(jié)果中可以看出,在4種測(cè)試方法中,準(zhǔn)確性均出現(xiàn)了不同程度的下降,其中鄭偉哲等、孫夢(mèng)青和傅靖等提出識(shí)別方法中,誤差在±100.0 ms以上的占比分別達(dá)到了18.44%,16.76%和13.35%,均處于較高水平,誤差低于±50 ms的占比分別為36.99%,38.25%和36.95%,相比之下,本文方法識(shí)別結(jié)果的波動(dòng)性相對(duì)較低,其中,誤差在±100.0 ms以上的占比為6.94%,仍然在10%以內(nèi),誤差低于±50 ms的占比為50.15%,同樣為測(cè)試結(jié)果的主要構(gòu)成。表明本文提出的方法也可以實(shí)現(xiàn)對(duì)英文音頻信號(hào)起始和終止時(shí)刻的準(zhǔn)確識(shí)別。
傳統(tǒng)情況下以人耳為基礎(chǔ)的音頻信號(hào)起始時(shí)刻識(shí)別方法主觀性較強(qiáng),且識(shí)別結(jié)果缺乏一定說(shuō)服力。本文設(shè)計(jì)了一種基于稀疏分解的音頻信號(hào)智能識(shí)別方法,借助稀疏分解的方式實(shí)現(xiàn)對(duì)音頻中噪聲信號(hào)過(guò)濾,為音頻信號(hào)的準(zhǔn)確識(shí)別提供了可靠基礎(chǔ),大大提高了對(duì)音頻信號(hào)起始和終止時(shí)刻識(shí)別的精度。通過(guò)本文的研究,希望可以為音頻信號(hào)識(shí)別或聲音識(shí)別等相關(guān)工作的開(kāi)展提供有價(jià)值的幫助。