白海釧,鮑長(zhǎng)春,劉 鑫
(北京工業(yè)大學(xué)電子信息與控制工程學(xué)院,北京100124)
?
基于局部最小二乘支持向量機(jī)的音頻頻帶擴(kuò)展方法
白海釧,鮑長(zhǎng)春,劉 鑫
(北京工業(yè)大學(xué)電子信息與控制工程學(xué)院,北京100124)
在網(wǎng)絡(luò)傳輸過程中寬帶音頻會(huì)由于高頻信息的缺失導(dǎo)致音頻質(zhì)量下降,因此,本文提出了一種基于局部最小二乘支持向量機(jī)的寬帶向超寬帶音頻頻帶擴(kuò)展方法.根據(jù)音頻頻域序列的非線性特性,本文采用相空間重構(gòu)和局部最小二乘支持向量機(jī)對(duì)音頻信號(hào)的高頻頻譜細(xì)節(jié)進(jìn)行預(yù)測(cè),并結(jié)合高斯混合模型對(duì)高頻子帶能量進(jìn)行估計(jì),最后經(jīng)過高頻頻譜包絡(luò)調(diào)整,所提方法能夠有效地恢復(fù)7kHz~14kHz頻率范圍內(nèi)的高頻成分.主客觀測(cè)試結(jié)果表明,該方法改善了寬帶音頻的聽覺質(zhì)量,其性能優(yōu)于參考音頻頻帶擴(kuò)展方法.
音頻編碼;頻帶擴(kuò)展;高斯混合模型;局部最小二乘支持向量機(jī)
在現(xiàn)階段音頻通信傳輸系統(tǒng)中,為了在保證音頻主觀質(zhì)量的前提下同時(shí)提高信號(hào)傳輸效率,感知音頻編碼方法通常優(yōu)先對(duì)音頻信號(hào)的低頻信息進(jìn)行恢復(fù).現(xiàn)有音頻通信網(wǎng)絡(luò)將傳輸寬帶音頻信號(hào)的有效帶寬限制在50Hz~7kHz范圍內(nèi),其采樣率為16kHz.與32kHz采樣、頻帶范圍在50Hz~14kHz的超寬帶音頻相比,寬帶音頻在傳輸和存儲(chǔ)過程中丟失了7kHz以上的高頻部分,因此其重建音頻的自然度和表現(xiàn)力有所欠缺[1].但是超寬帶音頻信號(hào)的傳輸會(huì)導(dǎo)致處理數(shù)據(jù)量的增加,并需要更為先進(jìn)的網(wǎng)絡(luò)設(shè)備.所以在不改變現(xiàn)有通信設(shè)備且不增加網(wǎng)絡(luò)負(fù)擔(dān)的前提下,本文采用頻帶擴(kuò)展方法在接收端對(duì)重建的寬帶音頻人為地恢復(fù)所截去的高頻成分,從而達(dá)到增強(qiáng)聽覺質(zhì)量,重現(xiàn)超寬帶音頻的目的[2].
目前音頻編碼標(biāo)準(zhǔn)中通常適當(dāng)增加丟失頻帶的邊信息,對(duì)寬帶音頻進(jìn)行非盲目式頻帶擴(kuò)展.這類方法需要在編碼端計(jì)算音頻時(shí)頻能量,并根據(jù)高低頻頻譜之間的相關(guān)性來確定適當(dāng)?shù)念l譜修補(bǔ)方法,最后將這兩部分信息一并量化傳輸?shù)浇獯a端,從而近似重建高頻成分,獲得具有更強(qiáng)層次感和更加自然透明的主觀音頻質(zhì)量.該方法的重建音質(zhì)較好,然而卻需要提供大量先驗(yàn)信息,會(huì)增加編解碼端和網(wǎng)絡(luò)設(shè)備的數(shù)據(jù)處理負(fù)擔(dān),實(shí)用性不佳.鑒于此,本文采用盲目式頻帶擴(kuò)展方法,在不傳輸額外信息的前提下,實(shí)現(xiàn)超寬帶音頻信號(hào)的重現(xiàn).
傳統(tǒng)盲目式方法主要針對(duì)頻譜包絡(luò)和頻譜細(xì)節(jié)兩部分進(jìn)行頻帶擴(kuò)展.頻譜包絡(luò)估計(jì)的準(zhǔn)確性直接影響重建音頻的主觀質(zhì)量,目前頻譜包絡(luò)估計(jì)算法主要包括碼書映射、高斯混合模型(Gaussian Mixture Model,GMM)[3,4]、隱馬爾科夫模型[5]以及神經(jīng)網(wǎng)絡(luò)[6]等方法.而頻譜細(xì)節(jié)擴(kuò)展則源自音頻信號(hào)“諧波+噪聲”模型.其中,頻譜翻折和頻譜搬移方法將低頻頻譜細(xì)節(jié)直接翻折或搬移到高頻成分[7],G.722.1C音頻編碼器采用噪聲填充來恢復(fù)高頻子帶中丟失的精細(xì)結(jié)構(gòu),而諧波頻帶擴(kuò)展方法利用頻譜拉伸將低頻頻譜擴(kuò)展到高八度音來重建部分高頻諧波[8],上述方法均未考慮高頻頻譜特征以及高低頻頻譜之間的相關(guān)性,因而會(huì)影響音頻信號(hào)的層次感和自然度,尤其是重建音頻在高低頻銜接處發(fā)生的頻譜偏移,會(huì)導(dǎo)致聽覺感受不平滑或產(chǎn)生頻譜失真現(xiàn)象.
以上頻譜細(xì)節(jié)重建方法主要針對(duì)音調(diào)的高頻諧波部分進(jìn)行修復(fù),而對(duì)于噪聲信息的高頻部分則保持其隨機(jī)結(jié)構(gòu).但實(shí)際音樂信號(hào)的頻譜特征比較復(fù)雜,在共振腔中聲音發(fā)生的共振輻射會(huì)改變其高頻諧波結(jié)構(gòu),因此上述頻帶擴(kuò)展方法勢(shì)必會(huì)有一定程度的預(yù)測(cè)偏差.而本課題組前期工作中驗(yàn)證了音頻頻譜具有一定的非線性特性,并將非線性預(yù)測(cè)引入了頻譜細(xì)節(jié)擴(kuò)展中,如文獻(xiàn)[9]首先利用相空間重構(gòu)將一維頻域序列轉(zhuǎn)換到多維相空間中,然后在此相空間中建立最近鄰映射(Nearest Neighbor Mapping,NNM)模型來描述高低頻頻譜之間聯(lián)系,最后根據(jù)低頻相點(diǎn)的演變規(guī)律來對(duì)高頻相點(diǎn)的運(yùn)動(dòng)軌跡進(jìn)行預(yù)測(cè),從而完成高頻頻譜細(xì)節(jié)的恢復(fù).然而,實(shí)際音頻頻譜夾雜著某些類噪聲成分,會(huì)影響NNM預(yù)測(cè)準(zhǔn)確性,導(dǎo)致重建音頻的主觀聽覺質(zhì)量降低.據(jù)此,本文提出了一種基于局部最小二乘支持向量機(jī)(Least Squares Support Vector Machine,LS-SVM)的音頻頻帶擴(kuò)展方法,在對(duì)頻域序列進(jìn)行相空間重構(gòu)的基礎(chǔ)上,根據(jù)低頻相矢量集合采用局部LS-SVM實(shí)現(xiàn)對(duì)高頻相軌跡的非線性預(yù)測(cè),從而完成高頻頻譜細(xì)節(jié)的逐點(diǎn)恢復(fù).同時(shí),該方法采用GMM來對(duì)高頻子帶能量和寬帶音頻時(shí)頻特征之間的聯(lián)合概率密度進(jìn)行擬合,在最小均方誤差準(zhǔn)則下實(shí)現(xiàn)了對(duì)高頻頻譜包絡(luò)信息的有效估計(jì).最終,重建的高頻成分和原始的寬帶音頻相結(jié)合,實(shí)現(xiàn)了寬帶音頻向超寬帶音頻的盲目式頻帶擴(kuò)展.
本文所提頻帶擴(kuò)展方法原理如圖1所示.該方法采用有效帶寬7kHz采樣率16kHz的寬帶音頻信號(hào)作為其輸入信號(hào),它通過上采樣和低通濾波器后,可獲得同樣7kHz有效帶寬而采樣率為32kHz的濾波信號(hào)x(n).首先,將x(n)按照20ms分幀,并選取調(diào)制重疊變換(Modulated Lapped Transform,MLT)方法對(duì)音頻信號(hào)進(jìn)行時(shí)頻分析,得到音頻信號(hào)的頻域序列.MLT的時(shí)間疊接窗長(zhǎng)為40ms,所以在時(shí)頻分析時(shí)需將上一幀和本幀數(shù)據(jù)共1280個(gè)采樣點(diǎn)一起進(jìn)行MLT變換,得到640個(gè)頻譜參數(shù)Cmlt(i),i=0,1,…,639來表示0~16kHz的頻譜信息.MLT變換公式如下:
(1)
由于輸入的時(shí)域信號(hào)和濾波信號(hào)有效帶寬均為7kHz,因此得到的640個(gè)Cmlt(i)頻譜參數(shù)中僅有前280點(diǎn)有實(shí)際幅度值,其他參數(shù)幅度值為0.然后,將這280個(gè)Cmlt(i)參數(shù)進(jìn)行子帶劃分,每個(gè)子帶由20個(gè)頻點(diǎn)構(gòu)成,可得到14個(gè)子帶.接下來,分別計(jì)算每個(gè)子帶均方根能量erms(n),n=0,1,…,13來表示音頻低頻頻譜包絡(luò)信息,如下式所示
(2)
在頻譜包絡(luò)估計(jì)模塊中,本文將采用傳統(tǒng)GMM方法根據(jù)7kHz以下的低頻能量信息來估計(jì)7kHz~14kHz的高頻子帶均方根能量,從而實(shí)現(xiàn)高頻頻譜包絡(luò)估計(jì).
根據(jù)上面得到的子帶均方根能量,本文采用歸一化的MLT頻譜參數(shù)Cnorm(i)來表示頻譜細(xì)節(jié)信息,即
(3)
根據(jù)音頻頻譜序列的非線性特性,本文采用相空間重構(gòu)將一維頻譜細(xì)節(jié)序列轉(zhuǎn)換到高維相空間中,并利用局部LS-SVM方法恢復(fù)高頻頻譜細(xì)節(jié).最后,通過譜包絡(luò)調(diào)整,恢復(fù)高頻頻譜信息,并結(jié)合原始低頻成分,借助MLT反變換(Inverse Modulated Lapped Transform,IMLT)得到有效帶寬為14kHz采樣率為32kHz的超寬帶音頻信號(hào),實(shí)現(xiàn)完整的頻帶擴(kuò)展.具體步驟將在下文中進(jìn)行詳細(xì)闡述.
2.1 相空間重構(gòu)
本課題組在前期工作中對(duì)音頻信號(hào)的非線性特性進(jìn)行了研究,借助相空間重構(gòu)描述了音頻信號(hào)頻域相點(diǎn)的運(yùn)動(dòng)軌跡,并進(jìn)一步利用基于最大李雅普諾夫指數(shù)的非線性分析方法驗(yàn)證了音頻信號(hào)的頻域序列具有非線性特性[10].在實(shí)際的音頻頻帶擴(kuò)展過程中,實(shí)驗(yàn)得到的一維音頻頻域序列無法直接反映音頻頻譜的非線性關(guān)系.根據(jù)非線性動(dòng)力學(xué)理論[11~14],本文將該一維序列通過延遲重建方法重構(gòu)出與原始音頻動(dòng)力學(xué)系統(tǒng)拓?fù)涞葍r(jià)的多維相空間,充分展示出音頻頻域系統(tǒng)所蘊(yùn)含的非線性特性,并在重構(gòu)的相空間中建立非線性數(shù)學(xué)模型,實(shí)現(xiàn)對(duì)高頻頻譜細(xì)節(jié)信息的非線性預(yù)測(cè).
將一維音頻頻域序列表示為{Cnorm(i)},i=0,1,…,279,通過相空間重構(gòu)可以得到m維相點(diǎn)S(i):
S(i)={Cnorm(i),Cnorm(i+τ),Cnorm(i+2τ),
…,Cnorm(i+(m-1)τ)},i=0,…,279-(m-1)τ
(4)
其中,τ和m是相空間重構(gòu)方法中兩個(gè)重要參數(shù),分別代表延遲時(shí)間和嵌入維數(shù).根據(jù)所得到的相點(diǎn),可以進(jìn)一步得到音頻頻域序列重構(gòu)的相空間,它可以看成是由279-(m-1)τ個(gè)相點(diǎn)所構(gòu)成的相點(diǎn)集合,即:
(5)
在音頻頻域序列的相空間重構(gòu)中,延遲時(shí)間和嵌入維數(shù)的確定至關(guān)重要,這兩個(gè)參數(shù)的大小直接決定了所重構(gòu)的相空間是否與原始非線性音頻系統(tǒng)拓?fù)涞葍r(jià).下面將對(duì)這兩個(gè)參數(shù)的選取方法進(jìn)行詳細(xì)介紹.
2.1.1 延遲時(shí)間的選擇
對(duì)于無限長(zhǎng)、無噪聲、無誤差的理想觀測(cè)序列,延遲時(shí)間可以任意選取.然而,在實(shí)際應(yīng)用中,所選取的序列不可避免地會(huì)受到背景噪聲和計(jì)算誤差的影響,且長(zhǎng)度也有一定限制,因而需要人為選取延遲時(shí)間.選取參數(shù)τ的基本原則是音頻頻域序列重構(gòu)相空間中每個(gè)相點(diǎn)的任意兩個(gè)相鄰元素之間具有獨(dú)立性但又不完全不相關(guān).該原則不僅保證了相點(diǎn)中每個(gè)元素可以作為構(gòu)成相空間的獨(dú)立坐標(biāo),同時(shí)保證了重構(gòu)相空間能夠呈現(xiàn)出原始音頻系統(tǒng)的非線性頻譜特征.如果延遲時(shí)間過大,相點(diǎn)元素之間接近完全獨(dú)立,過低的相關(guān)性不能充分描述音頻頻譜細(xì)節(jié)信息;反之,相點(diǎn)元素之間相關(guān)性過強(qiáng),相軌跡過于集中,同樣無法呈現(xiàn)出音頻信號(hào)的頻譜特性,反而在一定程度上增加了計(jì)算復(fù)雜度.鑒于此,為了有效地反映音頻頻域序列相軌跡的真實(shí)演變規(guī)律,本文采用自相關(guān)方法對(duì)音頻頻域序列重構(gòu)相空間的延遲時(shí)間進(jìn)行適當(dāng)選取[12].
自相關(guān)法在保證原始音頻系統(tǒng)信息不會(huì)過多丟失的基礎(chǔ)上,適當(dāng)去除相點(diǎn)中相鄰元素之間的線性相關(guān)性,它采用頻域序列{Cnorm(i)}在時(shí)間間隔τ下的歸一化自相關(guān)函數(shù)來進(jìn)行計(jì)算,如式(6)所示.
(6)
一般情況下,Cnorm(i)和Cnorm(i+τ)之間的相關(guān)性會(huì)隨著時(shí)間間隔的增大而逐漸降低.而實(shí)際經(jīng)驗(yàn)表明,當(dāng)自相關(guān)函數(shù)下降為初始值R(0)的(1-1/e)倍,或第一次降低為零值,或下降到第一個(gè)極小值處時(shí),可以得到最佳的延遲時(shí)間τ.
2.1.2 嵌入維數(shù)的選擇
根據(jù)Takens嵌入定理[14],當(dāng)嵌入維數(shù)m≥2D+1(其中D表示真實(shí)的空間維數(shù))時(shí),可以在重構(gòu)的相空間內(nèi)將原始動(dòng)力學(xué)系統(tǒng)相軌跡的幾何結(jié)構(gòu)完全恢復(fù)出來.該條件是保證非線性音頻系統(tǒng)能夠在重構(gòu)相空間中完全展開的必要不充分條件,當(dāng)選取嵌入維數(shù)過大時(shí),能夠保證相點(diǎn)軌跡完全打開,但是會(huì)增加軌跡預(yù)測(cè)和控制的計(jì)算量并且會(huì)放大噪聲對(duì)系統(tǒng)性能的影響.然而,當(dāng)選取的嵌入維數(shù)過小時(shí),相空間中相點(diǎn)的運(yùn)動(dòng)軌跡可能會(huì)發(fā)生交疊,無法借助該重構(gòu)相空間分析原始音頻系統(tǒng)的非線性特性.因此,本文采用虛假近鄰點(diǎn)法來適當(dāng)選取嵌入維數(shù),在保證相軌跡完全展開的基礎(chǔ)上,進(jìn)一步降低計(jì)算量和噪聲的影響[10].
對(duì)于d維空間,每個(gè)音頻頻域序列的相點(diǎn)S(i)都有其對(duì)應(yīng)的最近鄰點(diǎn)S(i′),使兩點(diǎn)間距離Rd(i)最小:
(7)
其中,N代表相空間中相點(diǎn)的個(gè)數(shù),i′代表S(i)最近鄰點(diǎn)所對(duì)應(yīng)的序號(hào).
在適當(dāng)?shù)那度肟臻g中,原本相鄰的近鄰點(diǎn)在高維空間中可能不再是近鄰點(diǎn).這類近鄰點(diǎn)可以定義為虛假最近鄰點(diǎn).隨著嵌入維數(shù)的增加,相空間中的虛假最近鄰點(diǎn)會(huì)逐漸消失,當(dāng)它的比例不再隨嵌入維數(shù)的增加而變化時(shí),則可以確定最優(yōu)的嵌入維數(shù).
虛假近鄰點(diǎn)法的步驟如下:
步驟1 據(jù)式(7),確定每個(gè)相點(diǎn)S(i)所對(duì)應(yīng)的初始最近鄰點(diǎn)S′(i);
步驟2 空間維數(shù)由d增加到d+1,重新計(jì)算相點(diǎn)S(i)與其最近鄰點(diǎn)S′(i)的距離,記為Rd+1(i);
步驟3 滿足下式中的條件,可以認(rèn)為相點(diǎn)S(i)對(duì)應(yīng)的最近鄰點(diǎn)S′(i)為其虛假近鄰點(diǎn);
(8)
根據(jù)實(shí)際經(jīng)驗(yàn),閾值RT選擇10%[12].
步驟4 計(jì)算虛假近鄰點(diǎn)占全部相點(diǎn)的比例;
步驟5 判斷上述比例是否小于一定的閾值或不再隨著維數(shù)d的增加而減小,則認(rèn)定相點(diǎn)軌跡已完全展開,結(jié)束循環(huán)并確定嵌入維數(shù)m=d,否則重新從步驟2開始進(jìn)行循環(huán)計(jì)算,直到滿足截止條件.
本文通過上述方法,可以確定延遲時(shí)間和嵌入維數(shù),并根據(jù)由這兩個(gè)參數(shù)所構(gòu)成的每個(gè)相點(diǎn),根據(jù)式(5)對(duì)音頻信號(hào)的頻域序列進(jìn)行相空間重構(gòu).
2.2 基于局部LS-SVM的高頻頻譜細(xì)節(jié)恢復(fù)
經(jīng)過音頻頻域序列的相空間重構(gòu)后,本文將采用局部LS-SVM方法來對(duì)高頻相點(diǎn)的軌跡進(jìn)行預(yù)測(cè).
歸一化MLT系數(shù)間的非線性函數(shù)關(guān)系可表示為,
Cnorm(i+1)=F[S(i)]
=F[Cnorm(i),Cnorm(i+τ),Cnorm(i+2τ),
…,Cnorm(i+(m-1)τ)]
(9)
其中,i代表歸一化MLT系數(shù)的頻譜序號(hào).
F[·]是一個(gè)非線性函數(shù),它表示音頻頻域序列前一個(gè)相點(diǎn)與當(dāng)前相點(diǎn)中最后一維MLT頻域參數(shù)值之間的非線性關(guān)系,下面將采用支持向量回歸機(jī)的方法對(duì)該非線性函數(shù)進(jìn)行求取.
2.2.1 基于LS-SVM的非線性預(yù)測(cè)
根據(jù)支持向量回歸機(jī)理論,相點(diǎn)S(i)={Cnorm(i)},
i=0,1,…,279-(m-1)τ的估計(jì)函數(shù)可設(shè)為:
F(S(i))=(wsTφ(S(i)))+bs
(10)
其中,φ(S(i))代表進(jìn)行非線性映射的核函數(shù),它可以將輸入相點(diǎn)S(i)由低維空間映射到高維空間,ws和bs分別代表權(quán)值和偏置量.
SVM源于線性可分情況下的最優(yōu)分類面,算法中要求該分類面能夠?qū)深悩颖军c(diǎn)無錯(cuò)誤的分開,而且要使其分類空隙最大.當(dāng)樣本滿足線性可分時(shí),其最優(yōu)分類面為函數(shù)φ(ws)=‖ws‖2/2中最小的分類面,當(dāng)樣本線性不可分時(shí),SVM通過引入非負(fù)松弛變量,以求在錯(cuò)誤最小的情況下將樣本分離.類似分類問題,用于回歸的SVM算法綜合考慮函數(shù)復(fù)雜度和擬合誤差,引入了非負(fù)松弛變量ξi*和ξi,并通過對(duì)目標(biāo)函數(shù)進(jìn)行最小化可以得到其最優(yōu)化問題[15],如下式所示:
(11)
約束條件為:
F(S(i))-wsTφ(S(i))≤ξi*+ε,i=1,…,Tn
(12)
wsTφ(S(i))-F(S(i))≤ξi+ε,i=1,…,Tn
(13)
ξi*,ξi≥0,i=1,…,Tn
(14)
其中,ε代表不敏感損失參數(shù),用于控制擬合精度,C代表懲罰因子,用于控制對(duì)錯(cuò)分?jǐn)?shù)據(jù)點(diǎn)的懲罰程度,Tn= 279-(m-1)τ代表訓(xùn)練樣本的個(gè)數(shù),即相點(diǎn)的個(gè)數(shù).
以上的最優(yōu)化問題可以通過標(biāo)準(zhǔn)的二次規(guī)劃算法得到,并可以通過其對(duì)偶問題來進(jìn)行求解.然而,標(biāo)準(zhǔn)支持向量回歸機(jī)的訓(xùn)練復(fù)雜度高,且樣本數(shù)據(jù)越大,求解二次規(guī)劃問題越復(fù)雜,所以本文考慮采用LS-SVM來對(duì)該非線性函數(shù)進(jìn)行估計(jì).
LS-SVM與標(biāo)準(zhǔn)SVM不同之處在于它用訓(xùn)練誤差的平方代替了松弛變量,并用等式約束代替了不等式約束[13],回歸型LS-SVM同樣利用高維特征空間里的線性函數(shù)來對(duì)樣本集合進(jìn)行擬合,其優(yōu)化問題為:
(15)
約束條件為:
F(S(i))=wsTφ(S(i))+bs+ei,i=1,2,…,Tn
(16)
其中γ代表正則化參數(shù),bs為偏置,e=[e1,e2,…,eTn]T.
為了求解上述最優(yōu)化問題,建立Lagrange函數(shù)為
-F(S(i)))
(17)
式(17)中,αi代表Lagrange乘子.函數(shù)對(duì)ws、bs、e、α求偏微分,得到上式的最優(yōu)條件:
(18)
(19)
(20)
(21)
消去式中的ws和e,得到線性方程組:
(22)
其中,F(S(i))=[F(S(1)),…,F(S(Tn))]T,1=[1,1,…,1]T,α=[α1,α2,…,αl]T,Ω是一個(gè)n×n的對(duì)稱矩陣,Ωij=φ(S(i))Tφ(S(j))=K(S(i),S(j)),i,j=1,2,…,Tn.令A(yù)=Ω+γ-1I,可得
(23)
對(duì)上述方程組進(jìn)行求解,可得到估計(jì)函數(shù),進(jìn)而可以基于LS-SVM獲得高頻頻譜細(xì)節(jié)的估計(jì)值,如式(24)所示.
Cnorm(i+1)=F(S(i)) =wsTφ(S(i))+bs
(24)
在式(24)中,本文采用徑向基核函數(shù)K(S(i),S(j))替代內(nèi)積計(jì)算φ(S(i))Tφ(S(j)),靈活處理了高維運(yùn)算的問題:
(25)
根據(jù)上述回歸LS-SVM的求解過程可知,該算法將標(biāo)準(zhǔn)支持向量機(jī)的二次規(guī)劃的求解問題轉(zhuǎn)化為運(yùn)用最小二乘法解線性方程組的問題,所以LS-SVM的最大優(yōu)勢(shì)在于計(jì)算簡(jiǎn)便、明顯提升了訓(xùn)練速率.
2.2.2 高頻頻譜細(xì)節(jié)恢復(fù)
根據(jù)上文推導(dǎo)得到的高頻頻譜細(xì)節(jié)預(yù)測(cè)公式,本文將對(duì)基于相空間重構(gòu)和LS-SVM的高頻頻譜細(xì)節(jié)恢復(fù)方法進(jìn)行詳細(xì)介紹,其原理如圖2所示.所提方法輸入信號(hào)為寬帶音頻的頻譜細(xì)節(jié)信息,采用歸一化的MLT系數(shù)來表示.
首先,對(duì)音頻頻域序列進(jìn)行相空間重構(gòu),得到由歸一化MLT頻譜參數(shù)所構(gòu)成的相點(diǎn)集合{S(i),i=0,…,279-(m-1)τ},作為L(zhǎng)S-SVM預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù).
然后,依據(jù)所得低頻相矢量集合,本文采用最小二乘法來訓(xùn)練模型參數(shù),并構(gòu)建基于LS-SVM的預(yù)測(cè)模型.這里采用徑向基核函數(shù)將輸入相矢量通過非線性變換映射到高維空間,并在該空間內(nèi)求取最優(yōu)線性擬合函數(shù),從而得到能夠表示未知MLT系數(shù)與已知相矢量之間非線性函數(shù)關(guān)系的預(yù)測(cè)公式.
接下來,由當(dāng)前已預(yù)測(cè)的高頻相點(diǎn)來確定下一個(gè)估計(jì)點(diǎn),并在低頻相矢量集合中對(duì)該點(diǎn)的最近鄰點(diǎn)進(jìn)行搜索.根據(jù)NNM原則,在相空間中近鄰點(diǎn)之間通常遵循相近的演變軌跡,因此可以利用最近鄰點(diǎn)附近的演變規(guī)律對(duì)待預(yù)測(cè)點(diǎn)進(jìn)行近似估計(jì).
最后,將搜索到的最近鄰點(diǎn)作為基于LS-SVM非線性預(yù)測(cè)模型的輸入,并利用其預(yù)測(cè)值作為高頻相點(diǎn)歸一化MLT頻譜參數(shù)的估計(jì).更新相點(diǎn)并重復(fù)執(zhí)行近鄰點(diǎn)搜索和非線性預(yù)測(cè),直到最終逐點(diǎn)恢復(fù)出7kHz~14kHz頻帶范圍內(nèi)的高頻頻譜細(xì)節(jié)信息.
由于上述方法借助NNM原則僅在局部相空間中采用LS-SVM對(duì)相點(diǎn)進(jìn)行了預(yù)測(cè),因而本文稱其為基于局部LS-SVM的高頻頻譜細(xì)節(jié)恢復(fù)方法.
2.3 基于GMM的高頻頻譜包絡(luò)估計(jì)
本文選取傳統(tǒng)GMM方法來估計(jì)高頻子帶能量,從而恢復(fù)高頻頻譜包絡(luò)信息.該方法可分為線下訓(xùn)練和參數(shù)估計(jì)兩個(gè)階段.在線下訓(xùn)練階段,利用具有M個(gè)高斯分量的GMM來近似擬合寬帶時(shí)頻特征Fx(包括過零率、梯度指數(shù)、子帶均方根能量、子帶通量、音頻譜重心、音頻擴(kuò)展度以及音頻譜平坦度)和高頻子帶能量Fy的聯(lián)合概率密度,并以其作為高低頻特征間的先驗(yàn)知識(shí)來指導(dǎo)高頻頻譜包絡(luò)的貝葉斯估計(jì)[4].
高低頻特征的聯(lián)合概率密度p(Fx,Fy|λ)可表示為:
(26)
其中,M=64為高斯分量的個(gè)數(shù),pg(Fx,Fy,mi,Ci)為第i個(gè)高斯分量的聯(lián)合概率密度,wi、mi和Ci分別是第i個(gè)高斯分量的權(quán)值、均值矢量和方差矩陣,這三個(gè)參數(shù)聯(lián)合起來稱作高斯混合模型參數(shù)λ,可以采用期望最大算法(Expectation Maximization,EM)來計(jì)算.
在實(shí)際應(yīng)用中,可以根據(jù)寬帶音頻中提取的時(shí)頻特征Fx實(shí)現(xiàn)對(duì)高頻子帶能量Fy的最小均方誤差估計(jì),估計(jì)函數(shù)如下式所示
最后,本文算法將GMM和局部LS-SVM方法相結(jié)合,能夠?qū)崿F(xiàn)對(duì)高頻成分的有效重建.另外,結(jié)合原始的低頻頻譜信息,通過MLT逆變換將擴(kuò)展后的頻譜由頻域轉(zhuǎn)換到時(shí)域,最終完成完整的超寬帶音頻信號(hào)的頻帶擴(kuò)展方法.
為了驗(yàn)證所提頻帶擴(kuò)展方法的有效性,本文在對(duì)語譜圖進(jìn)行分析的基礎(chǔ)上,從主客觀質(zhì)量評(píng)測(cè)角度對(duì)所提方法與頻譜搬移(Spectral Translation,ST)[7]和NNM[9]兩種頻譜細(xì)節(jié)恢復(fù)參考算法進(jìn)行了評(píng)測(cè)比較,其中參考算法同樣采用GMM重建高頻頻譜包絡(luò).
本文選用Moving Picture Experts Group(MPEG)編碼質(zhì)量測(cè)試音頻數(shù)據(jù)庫中的音頻信號(hào)作為測(cè)試數(shù)據(jù),包括小提琴、交響樂、流行音樂等10段音頻片段,每段音頻的長(zhǎng)度為10~20s.原始音頻數(shù)據(jù)為32kHz采樣的16位PCM超寬帶音頻,并將其下采樣到16kHz,作為頻帶擴(kuò)展方法的輸入信號(hào).其中,GMM所需寬帶和超寬帶訓(xùn)練數(shù)據(jù)源自全美音樂頒獎(jiǎng)典禮轉(zhuǎn)錄的無損音頻,其長(zhǎng)度約為2小時(shí),包含流行音樂、人聲演唱和背景音效等.在進(jìn)行測(cè)試前,所有音頻數(shù)據(jù)的信號(hào)能量均被調(diào)整為-26dB.
3.1 高頻頻譜細(xì)節(jié)恢復(fù)參考算法
本文選擇ST和NNM作為頻譜細(xì)節(jié)重建的參考算法來進(jìn)行性能測(cè)試.其中,ST為盲目式頻帶擴(kuò)展中常用的頻譜細(xì)節(jié)重建方法,它直接將低頻頻譜細(xì)節(jié)成分復(fù)制到高頻頻帶中,進(jìn)而實(shí)現(xiàn)對(duì)高頻頻帶的有效擴(kuò)展.而NNM則同樣采用相空間重構(gòu)方法,根據(jù)低頻相點(diǎn)的變化軌跡采用NNM方法對(duì)高頻相點(diǎn)進(jìn)行預(yù)測(cè),從而逐點(diǎn)恢復(fù)高頻頻譜細(xì)節(jié)信息[9],具體步驟如下:
步驟1 低頻相點(diǎn)集合S={S(k)},k=0,…,279-(m-1)τ進(jìn)行逐幀更新;
步驟2 逐一計(jì)算新相點(diǎn)SN(i),i=280-(m-1)τ與低頻相點(diǎn)集合中各相點(diǎn)的內(nèi)積〈SN(i),S(k)〉;
步驟3 選擇其中內(nèi)積模最大的相點(diǎn)S(kmax),作為SN(i)的最近鄰點(diǎn),kmax可表示為
(28)
步驟4 S(kmax)的最高位元素作為新相點(diǎn)中最后一維Cnorm(i+(m-1)τ)的預(yù)測(cè)值.
通過上述過程,音頻頻譜細(xì)節(jié)序列被不斷更新,直到達(dá)到14kHz的截止頻率,從而完成對(duì)高頻頻譜細(xì)節(jié)部分的逐點(diǎn)恢復(fù).
3.2 語譜圖分析
以交響樂信號(hào)為例,用不同頻帶擴(kuò)展方法重建音頻信號(hào)的語譜圖和原始音頻信號(hào)的語譜圖如圖3所示.
由語譜圖表明所提方法有效地恢復(fù)了音頻信號(hào)的高頻頻譜細(xì)節(jié),高低頻成分過渡自然.而ST方法的重建音頻在高低頻結(jié)合處存在明顯的頻譜偏移,同時(shí)低頻的強(qiáng)諧波成分復(fù)制到高頻后,也會(huì)影響其主觀聽覺質(zhì)量.與原始超寬帶音頻對(duì)比,NNM擴(kuò)展的超寬帶音頻高頻能量過于平滑,且高低頻銜接處連續(xù)性較差,因而會(huì)不可避免地造成重建音頻信號(hào)聽覺質(zhì)量的下降.而本文所提方法克服了上述缺點(diǎn),由LS-SVM擴(kuò)展的頻譜細(xì)節(jié)信息與原始音頻更為接近,且進(jìn)一步提高了重建信號(hào)的音頻質(zhì)量.
3.3 客觀質(zhì)量測(cè)試
在客觀音頻質(zhì)量測(cè)試階段,本文采用對(duì)數(shù)譜失真(Logarithmic Spectral Distortion,LSD)測(cè)度[16]以及音頻質(zhì)量感知評(píng)價(jià)法(Perceptual Evaluation of Audio Quality,PEAQ)[17],對(duì)所提方法進(jìn)行評(píng)測(cè).
3.3.1 對(duì)數(shù)域譜失真測(cè)度
對(duì)數(shù)譜失真測(cè)度dLSD被廣泛應(yīng)用在客觀質(zhì)量評(píng)測(cè)中,其定義為:
(29)
應(yīng)用LSD方法進(jìn)行客觀測(cè)試時(shí),音頻幀長(zhǎng)為20ms并采用漢明窗進(jìn)行處理,相鄰幀間進(jìn)行50%疊接.圖4是兩種方法之間的譜失真比較.譜失真測(cè)試結(jié)果表明,所提頻帶擴(kuò)展方法重建音頻頻譜失真測(cè)度的平均值為7.287dB,NNM參考方法重建音頻譜失真為9.503dB,而ST方法重建音頻譜失真為11.73dB.所提頻帶擴(kuò)展方法重建音頻譜失真較參考方法有了明顯降低,客觀質(zhì)量有明顯改進(jìn).此外,根據(jù)測(cè)試結(jié)果可以發(fā)現(xiàn),小提琴、吉他等音頻信號(hào)中高頻成分相對(duì)暗淡,采用所提方法重建的超寬帶音頻與NNM算法效果基本相當(dāng).而弦樂、搖滾、大提琴、貝斯和電子樂等樂曲高頻能量較高,采用所提方法重建的高頻成分更接近原始音頻,重建效果明顯優(yōu)于NNM方法.對(duì)于鼓樂信號(hào),其原始音頻高低頻成分頻譜細(xì)節(jié)差異較大,采用本文提出的盲目式擴(kuò)展方法重建高頻頻譜的頻譜細(xì)節(jié)仍存在一定的失真.3.3.2 音頻質(zhì)量感知評(píng)價(jià)
本文采用PEAQ進(jìn)一步對(duì)所提方法與參考方法重建的超寬帶音頻信號(hào)進(jìn)行客觀測(cè)試.PEAQ和主觀測(cè)試統(tǒng)計(jì)結(jié)果具有良好的相似性,是一種重要的音頻客觀質(zhì)量評(píng)價(jià)方法,其得分稱作客觀差異等級(jí)(Object Difference Grade,ODG).ODG得分的范圍是-4(無法忍受)~0(無失真).當(dāng)ODG增加0.1時(shí),表明合成音頻產(chǎn)生了顯著改善.測(cè)試前,需要將所有音頻數(shù)據(jù)上采樣到48kHz.ODG得分情況如圖5所示.
通過圖5中的客觀音頻質(zhì)量測(cè)試結(jié)果表明:所提方法重建音頻ODG得分為-2.951,較NNM方法有0.162的提高,較ST方法有0.38以上的提升.在測(cè)試數(shù)據(jù)中,本文方法對(duì)交響樂、鼓樂、貝斯、弦樂等信號(hào)進(jìn)行擴(kuò)展后,其ODG得分較參考方法有較為明顯地提高.而對(duì)于鼓樂信號(hào),其高頻成分與低頻成分的頻譜細(xì)節(jié)差異明顯,采用本文方法和參考方法重建鼓樂信號(hào)的ODG得分均低于-3.4.總體而言,本文所提方法的客觀聽覺質(zhì)量?jī)?yōu)于參考音頻頻帶擴(kuò)展方法.
3.4 主觀質(zhì)量測(cè)試
在主觀音頻質(zhì)量測(cè)試階段,本文采用A/B測(cè)試對(duì)所提方法和NNM方法所得到的音頻信號(hào)進(jìn)行質(zhì)量評(píng)測(cè),測(cè)試中邀請(qǐng)12名測(cè)試者來進(jìn)行主觀測(cè)試.為了保證公平性,測(cè)試數(shù)據(jù)以隨機(jī)順序進(jìn)行排列,要求測(cè)試者從兩組測(cè)試數(shù)據(jù)中選擇較偏愛的一組,或者選擇兩者幾乎無差異.測(cè)試結(jié)果如表1所示:可知本文所提頻帶擴(kuò)展方法得到的超寬帶音頻信號(hào)主觀聽覺質(zhì)量同樣要優(yōu)于參考方法重建的音頻質(zhì)量.
表1 兩種方法的主觀A/B測(cè)試結(jié)果比較
3.5 算法復(fù)雜度分析
本文借助WMOPS(Weighted Million Operations Per Second)來統(tǒng)計(jì)所提方法的算法復(fù)雜度.測(cè)試數(shù)據(jù)同樣源自于MPEG音頻數(shù)據(jù)庫.表2中分別給出了MLT變換、頻譜包絡(luò)估計(jì)、相空間重構(gòu)以及基于最小二乘支持向量機(jī)的頻譜細(xì)節(jié)恢復(fù)四個(gè)模塊的復(fù)雜度數(shù)值.總體上,整體算法的復(fù)雜度在18WMOPS左右.
表2 所提算法各個(gè)模塊復(fù)雜度統(tǒng)計(jì)結(jié)果
本文提出了一種基于局部LS-SVM的寬帶音頻向超寬帶音頻的盲目式頻帶擴(kuò)展方法.該方法根據(jù)音頻信號(hào)的非線性特性,在相空間重構(gòu)的基礎(chǔ)上,采用局部LS-SVM對(duì)高頻部分頻譜細(xì)節(jié)信息進(jìn)行預(yù)測(cè);同時(shí)采用GMM來對(duì)高頻頻譜包絡(luò)進(jìn)行估計(jì);最后將上述擴(kuò)展后的兩部分進(jìn)行整合,并結(jié)合原始低頻信息,有效實(shí)現(xiàn)了超寬帶音頻信號(hào)的重現(xiàn).語譜圖分析和主客觀評(píng)測(cè)結(jié)果表明:本文所提方法能夠有效擴(kuò)展寬帶音頻的帶寬,其主客觀性能優(yōu)于傳統(tǒng)的基于NNM的音頻頻帶擴(kuò)展方法.
[1]ITU-T G.722.1 Annex C,Low Complexity Coding at 24 and 32 kb/s for Hands-free Operation in Systems with Low Frame Loss Annex C 14kHz Mode at 24,32 and 48 kb/s[S].2005.
[2]Peter Vary,Rainer Martin.Digital Speech Transmission-Enhancement.Coding and Error Concealment[M].UK:John Wiley & Sons Ltd,2006.
[3]張勇,胡瑞敏.基于高斯混合模型的語音帶寬擴(kuò)展算法的研究[J].聲學(xué)學(xué)報(bào),2009,35(5):471-480.
Zhang Yong,Hu Ruimin.Speech wideband extension based on Gaussian mixture model[J].Acta Acustica,2009,35(5):471-480.(in Chinese)
[4]Liu Xin,Bao Chang-chun.A harmonic bandwidth extension based on Gaussian mixture model[A].10th International Conference on Signal Processing[C].Beijing:IEEE,2010.474-477.
[5]Liu Xin,Bao Chang-chun.Nonlinear bandwidth extension of audio signals based on hidden Markov model[A].IEEE International Symposium on Signal Processing and Information Technology[C].Bilbao,Spain:IEEE,2011.144-149.
[6]Liu Hao-jie,Bao Chang-chun.Audio bandwidth extension based on RBF neural network[A].IEEE International Symposium on Signal Processing and Information Technology[C].Bilbao,Spain:IEEE,2011.150-154.
[7]Erik Larsen,Ronald M Aarts.Audio Bandwidth Extension-application of Psychoacoustics.Signal Processing and Loudspeaker Design[M].UK:John Wiley & Sons Ltd,2004.
[8]Frederik Nagel,Sascha Disch.A harmonic bandwidth extension method for audio codecs[A].IEEE International Conference on Acoustics,Speech and Signal Processing[C].Taiwan:IEEE,2009.145-148.
[9]Liu Xin,Bao Chang-chun.Nonlinear bandwidth extension based on nearest-neighbor matching[A].Asia-Pacific Signal and Information Processing Association[C].Singapore:APSIPA,2010.169-172.
[10]劉鑫.寬帶音頻的非線性頻帶展寬技術(shù)[D].北京:北京工業(yè)大學(xué)電控學(xué)院,2011.
Liu Xin.Nonlinear Bandwidth Extending for Wideband Audio[D].Beijing:Beijing University of Technology,2011.(in Chinese)
[11]王海燕,盧山.非線性時(shí)間序列分析及其應(yīng)用[M].北京:科技出版社,2006.10-11,12-16,102-103.
[12]劉秉正,彭建華.非線性動(dòng)力學(xué)[M].北京:高等教育出版社,2004.396-398,400-414,441-449.
[13]韓敏.混沌時(shí)間序列預(yù)測(cè)理論與方法[M].北京:中國水利水電出版社,2007.155-172.
[14]Holger Kantz,Thomas Schreiber.Nonlinear Time Series Analysis[M].Britain:Cambridge University Press,2004.42-51.
[15]張燕平,張鈴.機(jī)器學(xué)習(xí)理論與算法[M].北京:科學(xué)出版社,2012.
[16]Pulakka H,Laaksonen L.Evaluation of an artificial speech bandwidth extension method in three languages[J].IEEE Transactions on Audio,Speech and Language Processing,2008,16(6):1124-1137.
[17]ITU-R BS.1387-1,Method for Objective Measurements of Perceived Audio Quality[S].2001.
白海釧 女,1986年出生,河北邯鄲人,北京工業(yè)大學(xué)碩士研究生.主要研究方向?yàn)橐纛l信號(hào)處理.
E-mail:baihaichuan@emails.bjut.edu.cn
鮑長(zhǎng)春 男,1965年出生,內(nèi)蒙古赤峰人,博士,北京工業(yè)大學(xué)教授、博士生導(dǎo)師,IEEE 高級(jí)會(huì)員,國際語音通信學(xué)會(huì)(ISCA)會(huì)員,亞太信號(hào)與信息處理學(xué)會(huì)(APSIPA)會(huì)員,中國電子學(xué)會(huì)理事,中國聲學(xué)學(xué)會(huì)理事,信號(hào)處理專業(yè)委員會(huì)委員.主要研究方向?yàn)檎Z音與音頻信號(hào)處理.
E-mail:chchbao@bjut.edu.cn
劉 鑫(通信作者) 男,1986年出生,北京人,北京工業(yè)大學(xué)博士研究生.主要研究方向?yàn)檎Z音與音頻信號(hào)處理.
E-mail:liuxin0930@emails.bjut.edu.cn
Audio Bandwidth Extension Method Based on Local Least Square Support Vector Machine
BAI Hai-chuan,BAO Chang-chun,LIU Xin
(SchoolofElectronicInformationandControlEngineering,BeijingUniversityofTechnology,Beijing100124,China)
The auditory quality of wideband audio is generally degraded due to the lack of the high-frequency in network transmission,so this paper presents a kind of audio bandwidth extension method from wideband to super wideband based on local least square support vector machine.In the light of the nonlinearity of audio spectrum,the high-frequency fine spectrum of audio signals is predicted by using phase space reconstruction and local least square support vector machine.Combining with the estimation of high-frequency sub-band energy based on Gaussian mixture model,the proposed method can effectively recover the high-frequency components in the frequency range 7kHz~14kHz through the envelope adjustment of high-frequency spectrum at last.Subjective and objective testing results indicate that the proposed method improves the auditory quality of wideband audio and outperforms the reference methods of audio bandwidth extension.
audio coding;bandwidth extension;Gaussian mixture model;local least square support vector machine
2014-10-10;
2014-11-05;責(zé)任編輯:梅志強(qiáng)
國家自然科學(xué)基金項(xiàng)目(No.61072089,No.61471014)
TN912.3
A
0372-2112 (2016)09-2203-08
??學(xué)報(bào)URL:http://www.ejournal.org.cn
10.3969/j.issn.0372-2112.2016.09.027