劉 鑫,鮑長春
(北京工業(yè)大學(xué)電子信息與控制工程學(xué)院,北京 100124)
?
基于回聲狀態(tài)網(wǎng)絡(luò)的音頻頻帶擴(kuò)展方法
劉 鑫,鮑長春
(北京工業(yè)大學(xué)電子信息與控制工程學(xué)院,北京 100124)
寬帶音頻通信系統(tǒng)對傳輸信號有效帶寬的限制會降低重建音頻的主觀質(zhì)量和自然程度.本文提出了一種基于回聲狀態(tài)網(wǎng)絡(luò)的寬帶向超寬帶音頻盲目式頻帶擴(kuò)展方法.該方法借助回聲狀態(tài)網(wǎng)絡(luò)來模擬音頻信號高低頻頻譜參數(shù)間的映射關(guān)系,并依據(jù)網(wǎng)絡(luò)模型中的時(shí)延遞歸結(jié)構(gòu)連續(xù)更新系統(tǒng)狀態(tài)來近似描述音頻特征的時(shí)域演變過程,有效地估計(jì)了高頻成分的頻譜包絡(luò).同時(shí),結(jié)合頻譜復(fù)制方法得到的高頻頻譜細(xì)節(jié),該方法實(shí)現(xiàn)了寬帶向超寬帶音頻的有效擴(kuò)展.測試結(jié)果表明,本文所提方法提升了寬帶音頻的聽覺質(zhì)量;對于多數(shù)測試數(shù)據(jù),該方法在靜態(tài)和動態(tài)失真方面獲得了優(yōu)于高斯混合模型擴(kuò)展方法的擴(kuò)展性能.
音頻編碼;音頻頻帶擴(kuò)展;回聲狀態(tài)網(wǎng)絡(luò);頻譜復(fù)制
受到通信網(wǎng)絡(luò)傳輸速率的限制,感知音頻編碼方法通常限制音頻有效帶寬,優(yōu)先編碼其低頻成分,以提升編碼效率[1].然而,人們并不滿足于現(xiàn)有的寬帶音頻通信質(zhì)量,并期望獲得更加明亮而富有表現(xiàn)力的音頻服務(wù).為此,如何使寬帶音頻系統(tǒng)獲得或接近超寬帶音頻的主觀聽感成為了音頻通信領(lǐng)域亟待解決的問題.
作為有效的音頻增強(qiáng)方法,頻帶擴(kuò)展在不改變信源編碼和網(wǎng)絡(luò)傳輸?shù)那疤嵯?,在解碼器重建信號中人為地增添高頻成分,以實(shí)現(xiàn)信號帶寬的擴(kuò)展[2].近十幾年來,相關(guān)學(xué)者從頻譜包絡(luò)和頻譜細(xì)節(jié)兩個(gè)方面提出了眾多頻帶擴(kuò)展解決方案.非正式聽力測試結(jié)果表明,高頻頻譜包絡(luò)估計(jì)的準(zhǔn)確性對重建音頻聽覺質(zhì)量的提升十分重要[3].因此,可借助統(tǒng)計(jì)學(xué)習(xí)方法擬合高低頻頻譜間的映射關(guān)系.1994年,Y M Cheng等學(xué)者提出利用統(tǒng)計(jì)恢復(fù)函數(shù)來預(yù)測高頻頻譜,初步改善了重建音頻的質(zhì)量[4].同年,H Carl借助低頻特征和高頻頻譜包絡(luò)的聯(lián)合碼本模擬兩者的一對一映射,提出了基于碼本映射的頻譜包絡(luò)估計(jì)方法[5].該方法降低了擴(kuò)展后音頻頻譜失真.在其基礎(chǔ)上,有學(xué)者相繼提出了內(nèi)插、軟判決和分裂碼本映射等方法,以降低單一碼本造成的頻譜失真[6~8].2000年,K Park和H S Kim提出了基于高斯混合模型(Gaussian mixture model,GMM)的頻譜包絡(luò)估計(jì)方法[9],該類方法利用GMM來近似高低頻特征聯(lián)合概率密度,并在均方誤差最小準(zhǔn)則下實(shí)現(xiàn)了高頻頻譜包絡(luò)的估計(jì).該方法基于軟聚類的連續(xù)統(tǒng)計(jì)模型,抑制了碼本映射等離散映射方法重建音頻頻譜的非自然間斷.此外,有學(xué)者利用前向神經(jīng)網(wǎng)絡(luò)來估計(jì)高頻頻譜包絡(luò)[10,11].B Iser等學(xué)者則將前向神經(jīng)網(wǎng)絡(luò)方法和碼本映射方法進(jìn)行了對比,結(jié)果表明兩者擴(kuò)展后音頻的聽覺質(zhì)量沒有顯著差異,而前向神經(jīng)網(wǎng)絡(luò)方法計(jì)算復(fù)雜度明顯降低[12].
上述方法均著重去發(fā)掘當(dāng)前音頻幀內(nèi)部高低頻的相關(guān)性,更側(cè)重于頻譜靜態(tài)特性的展現(xiàn).而P Jax等利用隱馬爾科夫模型來模擬音頻頻譜包絡(luò)時(shí)域動態(tài)演變[13,14],將幀間相關(guān)性引入到頻譜包絡(luò)估計(jì)中[15,16].但是,該方法僅利用離散的狀態(tài)來分段模擬實(shí)際音頻頻譜的時(shí)間演變,其重建音頻仍然存在動態(tài)失真.為此,有必要在頻譜包絡(luò)估計(jì)中引入連續(xù)動態(tài)模型.本文提出了一種基于回聲狀態(tài)神經(jīng)網(wǎng)絡(luò)(echo state network,ESN)的頻譜包絡(luò)估計(jì)方法,借助遞歸結(jié)構(gòu)的非線性特性連續(xù)更新系統(tǒng)狀態(tài),進(jìn)而描述音頻特征的動態(tài)演變,并依據(jù)高維空間的線性映射來擬合高低頻特征參數(shù)間的非線性關(guān)系.結(jié)合基于頻帶復(fù)制的頻譜細(xì)節(jié)擴(kuò)展方法,實(shí)現(xiàn)了寬帶音頻向超寬帶音頻的有效擴(kuò)展.
本文所提方法的基本原理如圖1所示.輸入信號為16kHz采樣7kHz帶寬的寬帶音頻信號.該信號首先經(jīng)過上二采樣和低通濾波,獲得32kHz采樣7kHz帶寬的音頻信號,并按照32ms幀長、16ms幀移分幀,加漢明窗.然后,加窗后信號swb(i),i=0,…,1023經(jīng)過離散傅里葉變換(Discrete Fourier transform,DFT)轉(zhuǎn)換到頻域,并在梅爾頻率尺度上利用三角濾波器組將64~7000Hz頻率范圍內(nèi)的音頻頻譜A(k)均勻地劃分為20個(gè)通道,進(jìn)而提取20維梅爾頻率倒譜參數(shù)(Mel Frequency Cepstral Coefficient,MFCC)FMFCC(i),i=0,…,19.接下來,對提取得到的FMFCC進(jìn)行區(qū)間歸一化處理,并輸入到預(yù)先訓(xùn)練好的ESN中實(shí)現(xiàn)高頻頻譜包絡(luò)的估計(jì).此處,高頻頻譜包絡(luò)采用7~14kHz范圍內(nèi)4個(gè)不交疊非均勻子帶的均方根值FRMS(i),i=0,…,3表示,如下式所示.
(1)
式中,A(k)為音頻頻譜幅度值,h(i)和l(i)分別為第i個(gè)子帶上下限頻率對應(yīng)的頻點(diǎn)序號.各子帶的中心頻率分別位于8470Hz、9338Hz、11653Hz以及13657Hz.
高頻頻譜細(xì)節(jié)則采用頻譜復(fù)制方法,將低頻頻譜直接復(fù)制到高頻頻譜,并根據(jù)估計(jì)得到的FRMS來調(diào)整擴(kuò)展后高頻頻譜包絡(luò).最終,利用離散傅里葉逆變換和疊接相加技術(shù)將重建高頻轉(zhuǎn)換到時(shí)域中,并結(jié)合適當(dāng)延遲后的寬帶音頻信號,重建出超寬帶音頻.
2.1 基于ESN的頻譜包絡(luò)估計(jì)
令FX(m)表示第m幀寬帶音頻的MFCC,其維數(shù)為dX=20,F(xiàn)Y(m)表示第m幀高頻子帶均方根值,其維數(shù)為dY=4.通過FX估計(jì)FY的過程可用某個(gè)映射函數(shù)F(·)表示,
FY=F(FX)
(2)
為了逼近高低頻參數(shù)間的真實(shí)映射,本文引入了ESN[17~20],其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.首先利用隱含層中預(yù)生成的大規(guī)模遞歸結(jié)構(gòu)將FX轉(zhuǎn)換到高維空間中,進(jìn)而借助高維隱含狀態(tài)Shidden的連續(xù)更新來描述FX的動態(tài)演變.在此基礎(chǔ)上,ESN分別從FX與Shidden中獲取音頻低頻成分的靜態(tài)和動態(tài)特性,進(jìn)一步借助高維空間中的線性映射逼近FX與FY間的非線性映射.
2.1.1 ESN的數(shù)據(jù)模型
ESN可分為隱含狀態(tài)更新和高維空間映射兩個(gè)部分.
隱含狀態(tài)更新中,ESN采用leaky-integrated函數(shù)作為隱含層的非線性激活單元.該函數(shù)結(jié)合非線性變換和時(shí)間遞歸結(jié)構(gòu),實(shí)現(xiàn)對隱含狀態(tài)Shidden的動態(tài)更新,具體過程[19]如下式所示,
(3)
(4)
輸入權(quán)值矩陣Win表征了FX與Shidden間的關(guān)聯(lián)性,其維數(shù)為dS×(dX+1).通常,Win中元素的取值范圍限制在[-ain,ain]之間.若ain趨近于0,leaky integrated函數(shù)呈現(xiàn)近似線性特性.隨著ain增大,F(xiàn)X在驅(qū)動Shidden的更新過程中則呈現(xiàn)出更多的非線性特性,進(jìn)而提升ESN對高低頻頻譜真實(shí)映射的擬合能力.
遞歸權(quán)值矩陣Wres則表征了前后幀Shidden的關(guān)聯(lián)性,其維數(shù)為dS×dS,實(shí)際應(yīng)用中可通過人為調(diào)節(jié)Wres譜半徑ares的大小來控制ESM遞歸結(jié)構(gòu)的穩(wěn)定性.此外,ain和ares共同決定了Shidden更新過程中FX和Shidden(m-1)的相對重要性.若ares較大,Shidden(m-1)在狀態(tài)更新過程的作用中更為顯著,網(wǎng)絡(luò)結(jié)構(gòu)會保留FX中更多的長時(shí)相關(guān)性,有助于改善重建高頻頻譜包絡(luò)的時(shí)間連續(xù)性.
隱含層內(nèi)部神經(jīng)元間通常采用稀疏遞歸鏈接的方式.Wres中元素的稀疏程度fsparsity表示了Shidden內(nèi)相互之間存在連接的神經(jīng)元占所有神經(jīng)元總數(shù)目的百分比.理論上講,ESN采用稀疏的Wres能夠改善網(wǎng)絡(luò)泛化能力,提升高頻頻譜包絡(luò)估計(jì)的準(zhǔn)確性,并進(jìn)一步減低ESN對模型參數(shù)存儲的需求.
參數(shù)α為泄漏速率,它表征了Shidden的動態(tài)更新速率.當(dāng)α=1時(shí),leaky-integrated非線性函數(shù)退化為tanh函數(shù);隨著α逐漸減小,ESN中Shidden的更新會明顯減慢,增加了遞歸網(wǎng)絡(luò)的短時(shí)記憶長度.
經(jīng)過leaky-integrated非線性單元的逐幀更新,Shidden獲取了FX的動態(tài)特性.在此基礎(chǔ)上,ESN網(wǎng)絡(luò)將FX和Shidden相結(jié)合構(gòu)成高維特征矢量,進(jìn)一步借助高維空間中的線性映射來逼近FX與FY間的非線性映射[17],如下式所示,
2.1.2 ESN的訓(xùn)練方法
根據(jù)上述模型,可采用適當(dāng)?shù)挠?xùn)練方法來求取ESN中的模型參數(shù)(Win、Wres和Wout).傳統(tǒng)基于梯度下降的訓(xùn)練方法并不能保證ESN的穩(wěn)定性,并且計(jì)算復(fù)雜,收斂慢.鑒于此,有學(xué)者針對ESN網(wǎng)絡(luò)結(jié)構(gòu)提出了一種啟發(fā)式參數(shù)訓(xùn)練方法[17].
該方法首先在初始化階段隨機(jī)生成Win和Wres.由于Wres的矩陣譜半徑ares直接影響了ESN的穩(wěn)定性,因此需要根據(jù)實(shí)際應(yīng)用條件對其人為調(diào)整[17].令W為一個(gè)隨機(jī)生成的稀疏矩陣,λmax為W的譜半徑,則Wres可以表示為,
(6)
相關(guān)研究結(jié)論[21]表明,遞歸神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中輸出權(quán)值矩陣會根據(jù)梯度變化而迅速改變,隱層內(nèi)部連接的權(quán)值則呈現(xiàn)出高度耦合,其變化較為緩慢.ESN隱含層中遞歸節(jié)點(diǎn)數(shù)目龐大,網(wǎng)絡(luò)復(fù)雜,因此在參數(shù)訓(xùn)練中Win和Wres呈現(xiàn)出顯著的強(qiáng)耦合性,不隨梯度劇烈改變[17].鑒于此,啟發(fā)式訓(xùn)練方法可令Win和Wres在其后參數(shù)訓(xùn)練中保持固定不變,而通過修正Wout的方式調(diào)整ESN模型對FX和FY間非線性映射的擬合能力,簡化遞歸神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程.
假定FX(m)和FY(m)分別是訓(xùn)練數(shù)據(jù)集中的寬帶音頻特征和高頻頻譜包絡(luò)參數(shù),m=0,1,…,Ntrain-1為音頻幀序號,Ntrain為數(shù)據(jù)總幀數(shù).參數(shù)訓(xùn)練方法可以依據(jù)式(3)、式(4)來驅(qū)動ESN實(shí)現(xiàn)對Shidden(m)的逐幀更新.在實(shí)際應(yīng)用中,通常會隨機(jī)設(shè)置Shidden(-1),這樣必然會影響網(wǎng)絡(luò)的穩(wěn)定性.為此本文設(shè)定了網(wǎng)絡(luò)穩(wěn)定時(shí)間T0=200ms,并假設(shè)當(dāng)ESN超過該時(shí)刻后達(dá)到漸進(jìn)穩(wěn)定.從T0開始,逐幀收集FX(m)、Shidden(m)以及FY(m),并分別構(gòu)成狀態(tài)收集矩陣B和期望輸出矩陣Q.其中,B的維數(shù)為(1+dX+dS)×(Ntrain-T0),其每列元素為[1,FX(m)T,Shidden(m)T]T,包含了每一幀的寬帶音頻特征的靜態(tài)和動態(tài)特性;而Q的維數(shù)為(dY)×(Ntrain-T0),其每列元素為該幀音頻的FY(m).
(7)
對上式求解,可以得到最終的Wout,
Wout=QBT(BBT+βI)-1
(8)
式中,I為單位矩陣.
根據(jù)所獲得的Wres、Win和Wout,可構(gòu)建出一個(gè)完整的ESN.在實(shí)際擴(kuò)展中,利用每一幀提取的FMFCC連續(xù)更新Shidden,進(jìn)而借助高維線性映射有效估計(jì)高頻頻譜包絡(luò).
2.2 高頻成分的重建
本文采用頻譜復(fù)制來擴(kuò)展高頻頻譜細(xì)節(jié),即將0~7kHz范圍內(nèi)的頻譜細(xì)節(jié)直接復(fù)制到7~14kHz的高頻中.而低頻頻譜細(xì)節(jié)可采用歸一化幅度譜參數(shù)Anorm(k),k=0,…,223,來表示,
(9)
式中,A(k)為音頻幅度譜;FRMS-WB(i)為低頻子帶均方根值,其計(jì)算方式與式(1)相近,可初步描述音頻低頻頻譜包絡(luò).此處,為了保證Anorm(k)的頻譜平坦度,低頻頻譜子帶采用均勻劃分方式.0~7kHz的頻率范圍分為為14個(gè)子帶,每個(gè)子帶包含Nsubband=16個(gè)頻點(diǎn).那么,經(jīng)過頻帶復(fù)制,擴(kuò)展后高頻頻譜細(xì)節(jié)可表示為,
Anorm(k)=Anorm(k-224),k=224,…,447
(10)
(11)
式中,Subband(k)表示第k個(gè)頻點(diǎn)所在高頻子帶的序號.
高頻頻譜相位θ(k),k=224,…,447,同樣采用頻譜復(fù)制方法獲得,如下式所示,
θ(k)=θ(k-224),k=224,…,447
(12)
最終,根據(jù)IDFT,高頻頻譜轉(zhuǎn)換到時(shí)域.而上采樣后的寬帶音頻經(jīng)過適當(dāng)?shù)难訒r(shí)后,與人為生成的高頻信號相結(jié)合,重建出超寬帶音頻.
本文針對2.1.1節(jié)中涉及到的網(wǎng)絡(luò)參數(shù)(Win縮放因子ain、Wres譜半徑ares、Wres稀疏度fsparsity、leaky-integrated函數(shù)泄漏率α、嶺回歸正則因子β、儲備池規(guī)模dS等)對ESN方法性能的影響進(jìn)行了初步測評.ESN訓(xùn)練數(shù)據(jù)源自于4小時(shí)時(shí)長現(xiàn)場音樂會轉(zhuǎn)錄的無損音頻,其中包括對話、音樂、人聲演唱、實(shí)況背景音效等類型.聲音采樣率為32kHz,有效帶寬為14kHz,采用16比特PCM進(jìn)行存儲.該超寬帶數(shù)據(jù)庫經(jīng)過低通濾波、下采樣和時(shí)間延遲進(jìn)一步獲得平行寬帶數(shù)據(jù)庫.分別從平行寬帶和超寬帶音頻數(shù)據(jù)中提取20維MFCC和4維高頻子帶均方根參數(shù)作為ESN的輸入特征矢量FX和期望輸出矢量FY.所獲得的50%樣本數(shù)據(jù)用于模型訓(xùn)練,而另50%數(shù)據(jù)用于性能測試.
此外,本文選擇了7~14kHz頻率范圍內(nèi)頻帶擴(kuò)展方法處理后音頻信號與原始超寬帶音頻信號的對數(shù)譜失真(log spectral distortion,LSD)作為客觀測度對ESN的預(yù)測準(zhǔn)確度進(jìn)行評價(jià).LSD可以直接利用DFT功率譜計(jì)算得到[22],如下式所示,
(13)
(1)Win縮放因子ain
縮放因子ain決定了leaky-integrated激勵(lì)函數(shù)的非線性特性.本文利用實(shí)驗(yàn)測試的手段來經(jīng)驗(yàn)性地確定ain.分別設(shè)定ares=1、fsparsity=1、α=1、β=1、dS=4×dX=80,并在LSD測度下針對不同的ain值進(jìn)行測試,如表1所示.當(dāng)ain=1/8時(shí),ESN獲得最小的LSD.而當(dāng)非線性函數(shù)趨近于線性或二值函數(shù)時(shí),LSD值均會增加.由此可見,F(xiàn)X與FY之間確實(shí)存在一定的非線性關(guān)系.
表1 不同的ain下ESN模型的LSD值
(2)Wres譜半徑ares
ares是Wres的譜半徑,它決定了ESN的穩(wěn)定性.本文借助LSD測度經(jīng)驗(yàn)性地確定Wres譜半徑ares,如表2所示.本文將其他參數(shù)分別設(shè)定如下,ain=1/8、fsparsity=1、α=1、β=1、dS=4×dX=80.當(dāng)ares=0.6時(shí),模型的LSD值最??;而當(dāng)ares>1時(shí),ESN的LSD值逐漸增大,部分幀估計(jì)的高頻頻譜包絡(luò)和原始音頻具有較大的差異;而當(dāng)ares較小時(shí),儲備池中內(nèi)部神經(jīng)元的遞歸作用減弱,也會導(dǎo)致模型的LSD有所增加.由此可見,在保證ESN網(wǎng)絡(luò)穩(wěn)定的條件下,適當(dāng)引入遞歸特性有助于提升ESN對寬帶音頻特征時(shí)間動態(tài)特性的描述能力.
表2 不同的ares下ESN模型的LSD值
(3)Wres稀疏度fsparsity
令其他參數(shù)分別設(shè)定為,ain=1/8、ares=0.6、α=1、β=1、dS=4×dX=80,本文進(jìn)一步針對稀疏度fsparsity進(jìn)行評價(jià),如表3所示.當(dāng)隱藏狀態(tài)神經(jīng)元之間采用全遞歸連接的方式,網(wǎng)絡(luò)模型獲得最小的LSD值;而在fsparsity較低的情況下,LSD會有所增加;而當(dāng)fsparsity低于10%左右時(shí),LSD值將降低到6.28dB附近.由此可見,增加Wres的稀疏程度不能改善ESN重建音頻的客觀質(zhì)量.然而,采用較小的fsparsity(如0.025)可以在不過多加重LSD的前提下提升ESN的訓(xùn)練效率,并降低模型的存儲需求.
表3 不同的fsparsity下ESN模型的LSD
(4)leaky-integrated函數(shù)泄漏率α
泄漏率α表征了Shidden(m)的動態(tài)更新速度.本文分別設(shè)定ain=1/8、ares=0.6、fsparsity=1、β=1、dS=4×dX=80,并測試了不同α對模型性能的影響,如表4所示.結(jié)果表明,α對LSD值的影響不大,即Shidden更新過程中涉及的FX長時(shí)記憶性對ESN的性能沒有明顯的改進(jìn)作用.
(5)嶺回歸正則因子β
Wout可采用嶺回歸計(jì)算,以防止過度擬合.設(shè)置ain=1/8、ares=0.6、fsparsity=1、α=1、dS=4×dX=80,則β與LSD間的關(guān)系如表5所示.基于嶺回歸方法訓(xùn)練模型的LSD值明顯低于線性回歸方法(β=0);當(dāng)β=3.5時(shí),ESN獲得最優(yōu)的性能.
表4 不同的α下ESN模型的LSD值
表5 不同的β下ESN模型的LSD值
(6)隱含層規(guī)模dS
一般來說,如果采用適當(dāng)?shù)恼齽t化方法來抑制過度擬合,那么dS越大可獲得更好的性能.ESN的參數(shù)訓(xùn)練方法計(jì)算簡單,因此dS通常在數(shù)百左右.然而考慮到實(shí)際存儲需求,仍需適當(dāng)控制其規(guī)模.令ain=1/8、ares=0.6、fsparsity=1、α=1、β=3.5,本文針對網(wǎng)絡(luò)隱含層規(guī)模進(jìn)行了探討,如表6所示.LSD測試結(jié)果表明,隨著dS逐漸增大,ESN方法所重建高頻頻譜失真逐漸降低,而其最小值出現(xiàn)在dS=24×dX=480處.
表6 不同的dS下ESN模型的LSD
綜合上述評測結(jié)果,本文最終確定網(wǎng)絡(luò)參數(shù)為ain=1/8、ares=0.6、fsparsity=1、α=1、β=3.5、dS=24×dX=480.
本文首先根據(jù)擴(kuò)展后超寬帶音頻與原始超寬帶音頻高頻子帶均方根值之間的均方誤差來初步評價(jià)高頻頻譜包絡(luò)估計(jì)方法的準(zhǔn)確性.在此基礎(chǔ)上,進(jìn)一步從對數(shù)譜失真(log spectral distortion,LSD)、雙曲余弦測度(COSH)和差分對數(shù)譜失真(differential log spectral distortion,DLSD)三個(gè)方面對所提方法和基于GMM的頻帶擴(kuò)展參考方法重建音頻的客觀質(zhì)量進(jìn)行對比.此外,本文依據(jù)主觀偏愛測試和計(jì)算復(fù)雜度對頻帶擴(kuò)展方法進(jìn)行評價(jià).
4.1 參考算法與音頻數(shù)據(jù)
除了頻譜包絡(luò)估計(jì)模塊,GMM參考方法和圖1所示的擴(kuò)展原理基本一致.在GMM方法中,每幀提取的MFCC輸入到基于GMM的最小均方誤差估計(jì)器.其中GMM包含128個(gè)高斯分量,并采用對角方差矩陣.而高頻頻譜細(xì)節(jié)同樣采用頻譜復(fù)制方法.
參考方法與本文方法所需訓(xùn)練數(shù)據(jù)均源自4小時(shí)現(xiàn)場音樂會轉(zhuǎn)錄的無損音頻,其中包括對話、不同類型的音樂、人聲演唱以及現(xiàn)場背景等.相關(guān)測試結(jié)果表明,進(jìn)一步增加訓(xùn)練數(shù)據(jù)的長度對頻帶擴(kuò)展方法主客觀性能的提升并不明顯.對該音頻數(shù)據(jù)進(jìn)行重采樣和時(shí)間對齊,可分別獲得寬帶和超寬帶音頻的平行數(shù)據(jù)庫.所有數(shù)據(jù)在進(jìn)行處理前,其聲音水平需歸一化至-26dBov.此外,本文從MPEG音頻質(zhì)量主觀聽覺測試數(shù)據(jù)庫中選擇了15段音頻作為測試數(shù)據(jù),包含了流行音樂、器樂獨(dú)奏、交響樂片段以及語音等不同類型.這些數(shù)據(jù)長度限制在10~20s范圍內(nèi),采樣率為32kHz,有效帶寬為14kHz.該數(shù)據(jù)通過截止頻率為7kHz的低通濾波和下采樣轉(zhuǎn)換為寬帶信號,并將其聲音水平歸一化到-26dBov后作為頻帶擴(kuò)展方法的輸入.下面本文分別根據(jù)頻譜包絡(luò)估計(jì)誤差、擴(kuò)展后音頻主客觀質(zhì)量以及計(jì)算復(fù)雜度對算法性能進(jìn)行詳細(xì)分析.
4.2 頻譜包絡(luò)估計(jì)誤差
為了驗(yàn)證高頻頻譜包絡(luò)估計(jì)的準(zhǔn)確性,本文首先依據(jù)重建音頻與原始音頻高頻頻譜包絡(luò)間的均方誤差對本文所提方法和GMM參考方法進(jìn)行了對比.此處,頻譜包絡(luò)估計(jì)的均方誤差可以定義如下,
(14)
表7給出兩種方法對于不同類型音頻信號高頻頻譜包絡(luò)估計(jì)誤差的結(jié)果.其中,鄉(xiāng)村、爵士和搖滾音樂高頻頻譜能量明顯高于其他類型音頻,因此不同估計(jì)方法重建高頻頻譜包絡(luò)的平均誤差較高.小提琴獨(dú)奏和交響樂音頻頻譜成分則多集中在低頻,隨著頻率增加其高頻逐漸暗淡,因此這兩種音頻頻譜包絡(luò)估計(jì)的誤差相對較低.而語音中部分清音高頻能量較強(qiáng),其頻譜包絡(luò)的估計(jì)值和原始包絡(luò)間同樣存在較大的誤差.
表7 不同擴(kuò)展方法高頻頻譜包絡(luò)估計(jì)的誤差
總體上講,本文方法能夠有效地估計(jì)出高頻成分的頻譜包絡(luò),其頻譜包絡(luò)估計(jì)誤差的平均值較參考算法降低了3.15左右.對于爵士音樂,ESN方法重建音頻高頻能量豐富,其頻譜包絡(luò)更接近于原始音頻,而GMM方法重建高頻頻譜則相對暗淡,進(jìn)而造成了較為明顯的估計(jì)誤差.而對于鄉(xiāng)村音樂和交響樂,ESN方法重建高頻頻譜整體能量偏高,其頻譜包絡(luò)估計(jì)誤差高于參考算法.
4.3 客觀質(zhì)量測試
此外,本文進(jìn)一步利用LSD、COSH以及DLSD三種測度對不同方法進(jìn)行客觀評價(jià),結(jié)果如表8所示.
4.3.1 對數(shù)譜失真
本文分別對所提方法和參考方法重建音頻進(jìn)行了LSD比較,如表8所示.與頻譜包絡(luò)估計(jì)誤差分析結(jié)果相近,ESN方法LSD的平均性能略優(yōu)于GMM方法.對于搖滾音樂、小提琴獨(dú)奏、語音信號,兩種方法LSD值的差異均在±0.5dB范圍內(nèi).而兩者LSD差異較大的是爵士音樂,這種類型音頻信號高頻能量比較豐富,并且在時(shí)域上低音貝斯伴奏使得該音頻存在明顯的暫態(tài)成分.GMM重建高頻頻譜比較平坦,而ESN方法重建頻譜包絡(luò)更接近于原始音頻,因而獲得了較低的LSD.而對于交響樂和鄉(xiāng)村音樂,ESN重建高頻的整體能量略高,盡管主觀聽感上音頻更為明亮,但是其LSD高于GMM方法重建音頻.
表8 不同擴(kuò)展方法重建音頻的客觀失真測試結(jié)果
4.3.2 雙曲余弦測度
(15)
作為距離測度,dIS并不具有對稱性,因此本文選擇了COSH測度作為修正失真測度來描述重建音頻的感知失真.COSH測度dCOSH定義如下[23],
(16)
COSH測度只針對7~14kHz頻率范圍進(jìn)行計(jì)算,且每段測試數(shù)據(jù)上所有幀測度的平均值作為最終的COSH測度.兩種頻帶擴(kuò)展方法重建音頻的COSH值比較結(jié)果如表8所示.在整體上,ESN重建音頻的COSH值與GMM方法比較接近.ESN方法在爵士音樂和語音信號上重建音頻的客觀質(zhì)量要優(yōu)于GMM方法,而在鄉(xiāng)村音樂上則略低于參考方法.綜合以上兩項(xiàng)性能對比結(jié)果,可以獲得結(jié)論:ESN靜態(tài)客觀失真相比GMM方法略有提升.
4.3.3 差分對數(shù)譜失真
音頻頻譜幀間的連續(xù)性與其頻譜重建的準(zhǔn)確性具有同樣的感知重要性.本文選擇DLSD作為動態(tài)失真測度來評價(jià)擴(kuò)展后音頻信號頻譜包絡(luò)的時(shí)間演變平滑程度.如果DLSD值較小,則可認(rèn)為音頻頻譜在時(shí)間上變化相對緩慢,有益于重建音頻的整體主觀聽覺質(zhì)量.DLSD測度[24]可定義如下,
dDLSD(i)=
(17)
表8同樣給出了兩種方法重建音頻DLSD的結(jié)果.其中,小提琴獨(dú)奏、交響樂音頻高頻成分能量較低,同時(shí)高頻頻譜的時(shí)間平滑性較好,因此兩種擴(kuò)展方法重建音頻的動態(tài)失真差異并不大.而ESN方法對爵士、搖滾、鄉(xiāng)村音樂中暫態(tài)成分的刻畫更接近于原始音頻,其DLSD數(shù)值明顯優(yōu)于GMM方法.對于語音,ESN方法DLSD分?jǐn)?shù)在3.40dB左右,較GMM提升了0.7dB左右.
綜上所述,在靜態(tài)失真方面本文所提出的ESN方法平均性能相比GMM參考算法略有提升;而除交響樂音頻外,ESN方法所重建大部分音頻的動態(tài)失真均優(yōu)于參考算法.
4.4 主觀偏愛測試
本文采用主觀偏愛測試的方法來評價(jià)不同擴(kuò)展方法的主觀質(zhì)量.測試過程中邀請了20名年齡在22~28歲的被測者來選擇兩種被測項(xiàng)中較為偏愛的一種,或者選擇無偏愛.主觀測試安排在靜音室中,并選擇了MPEG音頻數(shù)據(jù)庫中的五句作為測試數(shù)據(jù)(其中包括鄉(xiāng)村音樂、爵士音樂、搖滾音樂、小提琴獨(dú)奏、交響樂各一句).測試音頻的順序采用隨機(jī)排列的方式.被測者在做出判斷之前可隨意重復(fù)監(jiān)聽測試數(shù)據(jù).
本次主觀測試分為三組:ESN方法與GMM方法比較、ESN方法與原始超寬帶音頻比較、原始超寬帶音頻與GMM方法比較.最終的主觀測試結(jié)果如表9所示.結(jié)果可以看出,本文所提ESN方法擴(kuò)展后的音頻主觀質(zhì)量比GMM方法更接近于原始超寬帶音頻質(zhì)量.盡管ESN方法重建交響樂音頻的客觀質(zhì)量不及參考算法重建音頻,但是由于交響樂音頻高頻能量較為暗淡,兩種擴(kuò)展方法重建音頻的主觀質(zhì)量差異并不明顯.
表9 主觀偏愛測試結(jié)果
4.5 計(jì)算復(fù)雜度
此外,本文分別對所提方法和參考方法每幀內(nèi)需要乘法計(jì)算的次數(shù)進(jìn)行了統(tǒng)計(jì).兩種方法在特征提取、時(shí)頻變換、頻帶復(fù)制以及高頻成分重建等模塊的計(jì)算過程完全一致,因此可只針對頻譜包絡(luò)估計(jì)模塊進(jìn)行復(fù)雜度計(jì)算.對于ESN方法,其每幀需要進(jìn)行245364次乘法運(yùn)算;而GMM方法則需要進(jìn)行256512次乘法運(yùn)算.由此可見,ESN方法計(jì)算復(fù)雜度略低于參考算法.
4.6 討論
本文所提出的ESN方法利用儲備池中的遞歸結(jié)構(gòu),將音頻特征空間的動態(tài)演變過程引入到高頻頻譜包絡(luò)估計(jì)方法中,在不增加計(jì)算復(fù)雜度的前提下降低了擴(kuò)展后音頻的靜態(tài)和動態(tài)失真.然而,神經(jīng)網(wǎng)絡(luò)的參數(shù)訓(xùn)練與樣本數(shù)據(jù)的分布特性直接相關(guān).如果輸入寬帶音頻包含噪聲和混響成分,本文所提方法擴(kuò)展后音頻的主客觀質(zhì)量也會出現(xiàn)一定的降低.在未來工作中,可以考慮將音頻增強(qiáng)和頻帶擴(kuò)展相結(jié)合,改善ESN網(wǎng)絡(luò)在含噪情況下的魯棒性,進(jìn)而提升整體算法的實(shí)用性.
本文提出了一種基于ESN的音頻頻帶擴(kuò)展方法.該方法借助ESN儲備池中的遞歸結(jié)構(gòu)描述了特征空間狀態(tài)的動態(tài)更新,并依據(jù)線性觀測方程對高低頻特征參數(shù)間的映射關(guān)系進(jìn)行擬合,實(shí)現(xiàn)了高頻頻譜包絡(luò)的有效估計(jì).主客觀測試結(jié)果表明,對于多數(shù)測試數(shù)據(jù),ESN方法相比于GMM參考方法在靜態(tài)和動態(tài)失真方面均獲得了提升,其重建音頻更接近于原始超寬帶音頻的聽覺質(zhì)量.
[1]VARY P,MARTIN R.DigitalSpeech Transmission-Enhancement,Coding and Error Concealment[M].UK:John Wiley & Sons Ltd,2006.
[2]LARSEN E,AARTS R M.AudioBandwidth Extension-Application of Psychoacoustics,Signal Processing and Loudspeaker Design[M].UK:John Wiley & Sons Ltd,2004.
[4]CHENG Y M,O'SHAUGHNESSY D,MERMELSTEIN P.Statistical recovery of wideband speech from narrowband speech[J].IEEE Transactions on Speech and Audio Processing,1994,2(4):544-548.
[5]CARL H,HEUTE U.Bandwidth enhancement of narrow-band speech signals[A].7th European Signal Processing Conference (EUSIPCO)[C].Edinburgh,Scotland:EURASIP,1994.1178-1181.
[6]EPPS J,HOLMES W H.A new technique for wideband enhancement of coded narrowband speech[A].IEEE Workshop on Speech Coding Proceedings[C].Porvoo:IEEE,1999.174-176.
[7]SOON I Y,CHAI K Y.Bandwidth extension of narrowband speech using soft-decision vector quantization[A].Fifth International Conference on Information,Communications and Signal Processing[C].Bangkok:IEEE,2005.734-738.
[8]KORNAGEL U.Techniques for artificial bandwidth extension of telephone speech[J].Signal Processing,2006,86(6):1296-1306.
[9]PARK KY,KIM HS.Narrowband to wideband conversion of speech using GMM based transformation[A].IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP)[C].ISTANBUL:IEEE,TURKEY,2000.1843-1846.
[10]BOTINHAO CV,CARLOS BS,CALOBA LP,PETRAGLIA MR.Frequency extension of telephone narrowband speech signal using neural networks[A].IMACS Multiconference on Computational Engineering in Systems Applications (CESA)[C].Beijing:IEEE,2006.1576-1579.
[11]TUAN V P,SCHAEFER F,KUBIN G.A novel implementation of the spectral shaping approach for artificial bandwidth extension[A].3rd International Conference on Communications and Electronic[C].Nha Trang,VIETNAM:IEEE,2010.262-267.
[12]ISER B,SCHMIDT G.Neural networks versus codebooks in an application for bandwidth extension of speech signals[A].European Conference on Speech and Language Processing (EUROSPEECH)[C].Geneva,Switzerland:ISCA,2003.565-568.
[13]JAX P,VARY P.Wideband extension of telephone speech using a hidden Markov model[A].7th IEEE Workshop on Speech Coding[C].DELAVAN,WI:IEEE,2000.133-135.
[14]JAX P,VARY P.On artificial bandwidth extension of telephone speech[J].Signal Processing,2003,83(8):1707-1719.
[15]SONG G B,MARTYNOVICH P.A study of HMM-based bandwidth extension of speech signals[J].Signal Processing,2009,89(10):2036-2044.
[16]YAGLI C,TURAN M A T,ERZIN E.Artificial bandwidth extension of spectral envelope along a Viterbi path[J].Speech Communication,2013,55(1):111-118.
[17]LUKOEVIIUS M.APractical Guide to Applying Echo State Networks[M].MONTAVON G,ORR G B,MLLER K R.Neural Networks:Tricks of the Trade,Heidelberg:Springer,2012.659-686.
[18]LUKOSEVICIUS M,JAEGER H.Reservoir computing approaches to recurrent neural network training[J].Computer Science Review,2009,3(3):127-149.
[19]JAEGER H,LUKOSEVICIUS M,POPOVICI D,SIEWERT U.Optimization and applications of echo state networks with leaky-integrator neurons[J].Neural Networks,2007,20(3):335-352.
[20]JAEGER H,HAAS H.Harnessing nonlinearity:predicting chaotic systems and saving energy in wireless communication[J].Science,2004,304(5667):78-80.
[21]SCHILLER U D,STEIL JJ.Analyzing the weight dynamics of recurrent learning algorithm[J].Neucomputing,2005,(63):757-779.
[22]PULAKKA H,LAAKSONEN L,VAINIO M,POHJALAINEN J,ALKU P.Evaluation of an artificial speech bandwidth extension method in three languages[J].IEEE Transactions on Audio,Speech,and Language Processing,2008,16(6):1124-1137.
[23]GRAY A H,MARKEL J D.Distance measures for speech processing[J].IEEE Transactions on Audio,Speech,and Language Processing,1976,24(5):380-391.
[24]NORDEN F,ERIKSSON T.Time evolution in LPC spectrum coding[J].IEEE Transactions on Speech and Audio Processing,2004,12(3):290-301.
[25]NILSSON M,GUSTAFSSON H,ANDERSEN SV,KLEIJN W B.Gaussian mixture model based mutual information estimation between frequency bands in speech[A].IEEE International Conference on Acoustics,Speech,and Signal Processing (ICASSP)[C].Orlando,Florida:IEEE,2002.I-525-528
劉 鑫 男,1986年生于北京.北京工業(yè)大學(xué)博士研究生.研究方向?yàn)檎Z音與音頻信號處理.
鮑長春(通信作者) 男,1965年生于內(nèi)蒙古赤峰.北京工業(yè)大學(xué)電子信息與控制工程學(xué)院教授,博士生導(dǎo)師.研究方向?yàn)檎Z音與音頻信號處理.
E-mail:chchbao@bjut.edu.cn
Audio Bandwidth Extension Method Based on Echo State Network
LIU Xin,BAO Chang-chun
(SchoolofElectronicInformationandControlEngineering,BeijingUniversityofTechnology.Beijing100124,China)
The bandwidth limitation in wideband audio communication systems degrades the subjective quality and naturalness of the reproduced signals.In this paper,a wideband to super-wideband audio bandwidth extension method was proposed by using echo state network.The echo state network is adopted to model the mapping function between the low-and high-frequency spectral coefficients of audio signals,and the temporal evolution of audio features is represented by continuously state updating on the basis of the recursive structure in the network,for effectively estimating the high-frequency spectral envelope.By combining the high-frequency fine spectrum extended by spectral translation,the proposed method can effectively extend the bandwidth of wideband audio to super-wideband.Evaluation results show that the proposed method upgrades the auditory quality of wideband audio,and gains better extension performance than the Gaussian mixture model-based bandwidth extension method in terms of both static and dynamic distortions for most test data.
audio coding;audio bandwidth extension;echo state network;spectral translation
2015-06-15;
2015-11-15;責(zé)任編輯:藍(lán)紅杰
國家自然科學(xué)基金(No.61072089,No.61471014)
TN912.3
A
0372-2112 (2016)11-2758-09
??學(xué)報(bào)URL:http://www.ejournal.org.cn
10.3969/j.issn.0372-2112.2016.11.027