呂亞平,高 戈,陳 怡,張 康
(1.武漢大學(xué)計算機學(xué)院國家多媒體軟件工程技術(shù)研究中心,武漢 430072;2.華中師范大學(xué)計算機學(xué)院,武漢 430072)
基于高斯混合模型的感知域音頻編碼方法
呂亞平1,高 戈1,陳 怡2,張 康1
(1.武漢大學(xué)計算機學(xué)院國家多媒體軟件工程技術(shù)研究中心,武漢 430072;2.華中師范大學(xué)計算機學(xué)院,武漢 430072)
傳統(tǒng)感知音頻編碼方案采用心理聲學(xué)掩蔽降低編碼碼率,其聲道模型+信號激勵的方式難以同時實現(xiàn)高質(zhì)量的中低碼率語音和音頻信號編碼。為此,提出一種基于高斯混合模型的感知域音頻編碼方法,利用Gammatone濾波器組模擬人耳聽覺系統(tǒng),采用多路復(fù)用掩蔽模型替換降低包絡(luò)脈沖的數(shù)量,對結(jié)構(gòu)化模型進行擬合,使用高斯-牛頓算法對聽覺包絡(luò)進行高斯混合模型參數(shù)的擬合,將高斯混合模型參數(shù)替代音頻信號特征。實驗結(jié)果表明,與基于稀疏包絡(luò)表示重構(gòu)的音頻編碼方法相比,該方法的主觀測試高0.5分 ~0.8分,客觀測試高5分~10分,解碼得到的語音和大部分音樂信號都能還原到原始音頻信號,可用于實現(xiàn)高質(zhì)量的中低碼率語音和音頻編碼。
人耳聽覺系統(tǒng);感知域音頻編碼;高斯混合模型;Gammatone濾波器組;高斯-牛頓算法
DO I:10.3969/j.issn.1000-3428.2015.10.050
隨著移動網(wǎng)絡(luò)從第三代移動通信發(fā)展到長期演進,移動網(wǎng)絡(luò)帶寬越來越大。盡管如此,伴隨著移動視頻增值業(yè)務(wù)應(yīng)用的普及,要求盡可能實現(xiàn)高效的中低碼率語音和音頻編解碼器。
傳統(tǒng)音頻編碼方案不是專為中低碼率語音和音樂信號高效編碼而設(shè)計的[1]。一方面,通用音頻信號編碼方案,如MPEG4HE-AAC(High Efficiency Advanced Audio Coding)[2],能夠?qū)崿F(xiàn)高質(zhì)量的中低
碼率音樂編碼。然而,在該類編碼方案中使用的基于子帶或基于變換的模型無法有效地適用于語音信號。另一方面,線性預(yù)測編碼方案,尤其是 CELP(Code Excited Linear Predictive)編碼方案,特別適用于語音信號編碼。當(dāng)前最好的語音編碼器之一,如3GPP AMR-WB[3],能夠在中低碼率非常有效地重建語音信號,但無法很好地重建一般音頻信號。
文獻[4]提出的基于仿真人聽覺系統(tǒng)的聽覺濾波器的音頻編碼方案[5](即感知域音頻編碼)被認為是用于替代傳統(tǒng)音頻編碼方案的一種很好的選擇,使得中低碼率下的感知域語音和音頻編碼框架成為可能。
本文提出一種基于高斯混合模型[6-7](Gaussian Mixture Model,GMM)的感知域音頻編碼技術(shù)。該編碼技術(shù)利用GMM對經(jīng)過Gammatone濾波器組[8]的音頻信號的每個子帶譜包絡(luò)進行擬合后,使用GMM參數(shù)來表示每個子帶譜包絡(luò),可以使用較少參數(shù)表示很長一段譜包絡(luò)。
2.1 Gammatone濾波器組
Gammatone濾波器是一個標(biāo)準(zhǔn)的耳蝸聽覺濾波器,其在時域的表達式如下:
gi(t)=AtN-1exp(-2πbit)cos(2πfit+fi)(1)其中,t≥0,1≤i≤N;A為濾波器的增益;N為濾波器的階數(shù);fi是濾波器的中心頻率;φi是相位。為了簡化模型,取φi=0,bi是濾波器的衰減因子,它決定了脈沖響應(yīng)的衰減速度,并與相應(yīng)的濾波器的帶寬有關(guān),bi=1.019ERB(fi),ERB(fi)是等效矩形帶寬,可用式(2)進行度量:
ERB(fi)=24.7(4.37 fi/1 000+1) (2)
各濾波器的中心頻率在ERB域上等間距分布,整個濾波器組的頻率范圍為0~8 000 Hz。圖1給出了其頻率響應(yīng)示意圖。
圖1 Gammatone濾波器組的沖激響應(yīng)
2.2 高斯混合模型
使用高斯概率密度函數(shù)來表征事物的狀態(tài)變化過程,將這個事物的狀態(tài)變化過程分解為若干個由高斯概率密度函數(shù)組成的模型,這個模型稱為高斯混合模型,其原理如圖2所示。
圖2 高斯混合模型
假設(shè)現(xiàn)有一個N階,維度為 M的高斯混合模型,則觀察矢量χ在這個模型中的似然度可以寫作:
其中,ρi表示每個M維高斯模型的權(quán)重;gi(χ)表示M維的高斯函數(shù);gi(χ)的表達式如下:
其中,ui是均值矢量;Σ是協(xié)方差矩陣。因此,整個混合高斯模型GMM可以由權(quán)重ρi、均值矢量ui,以及協(xié)方差矩陣Σ來表示,如式(5)所示:
高斯模型作為一個概率密度的分布函數(shù),其函數(shù)的圖形表示主要由均值u和方差Σ來決定。如果將多個高斯模型按照一定的比例(權(quán)重)相加之后,就可以生成一個新的概率密度的分布函數(shù),也就是高斯混合模型。這個新生成的分布函數(shù)在每一點上的概率密度大小由GMM的階數(shù)N、混合模型中每個高斯的權(quán)重 ρ、均值u和方差 Σ決定。對于每個子帶中的幅度譜,在理想情況下,只要使用足夠多的高斯模型進行混合,就能得到與歸一化后的幅度譜包絡(luò)相吻合的GMM函數(shù)。每個子帶中的幅度譜包絡(luò)可以使用混合高斯模型的權(quán)重ρ、均值u和方差Σ來表示。在編碼端,只需要傳遞這些GMM函數(shù)中的參數(shù)即可。
圖3給出了基于GMM的感知域音頻編碼系統(tǒng)示意圖。首先,音頻信號通過Gammatone濾波器,采用包絡(luò)檢測提取希爾伯特包絡(luò),然后通過零相移數(shù)字濾波器進行平滑濾波,再使用多路復(fù)用掩蔽模型替換模塊,一方面通過掩蔽減少脈沖的數(shù)量,另一方
面進行模型的替換,得到幅度譜包絡(luò)。為了參數(shù)化這些包絡(luò),采用高斯-牛頓算法計算得到GMM參數(shù)來表示這些包絡(luò),然后利用量化編碼[9]來傳遞GMM參數(shù)。
圖3 基于GMM的感知域音頻編解碼系統(tǒng)
3.1 多路復(fù)用掩蔽模型替換
3.1.1 多路復(fù)用掩蔽模型
如圖4所示,首先基于稀疏脈沖表示重建了音頻信號,然后使用聽覺系統(tǒng)模型分析這個信號。整個多路復(fù)用模型工作流程如下:將多聲道的信號(稀疏脈沖聽覺表示)通過單信道的載波處理(得到的重構(gòu)的音頻信號)發(fā)送到接收端,接收端再將這一重構(gòu)的音頻信號進行分析,又轉(zhuǎn)換成多聲道的脈沖表示(聽覺內(nèi)部神經(jīng)產(chǎn)生的變化)。
圖4 稀疏脈沖編碼的多路復(fù)用模型
假如現(xiàn)在已經(jīng)有了一個原始的音頻脈沖信號,而在這個信號相鄰的頻帶也有一個脈沖信號,而這個脈沖信號的幅度小于這個脈沖信號在相鄰頻帶的幅度影響。此時這2個脈沖在最終的音頻包絡(luò)中的影響如圖5所示,圖中顯示了一個脈沖的包絡(luò),這個包絡(luò)基本上是一個經(jīng)過脈沖峰值的平滑曲線。
圖5 掩蔽過程示意圖
這個掩蔽模型一般運用于短時脈沖。在這個較短的時間內(nèi),所有的脈沖都將和幅度最大的脈沖相比較并進行評估。幅度最大的脈沖被視為掩蔽脈沖,周圍的其他脈沖與它的包絡(luò)比較,如果小于掩蔽脈沖的包絡(luò),則被掩蔽掉,并從整個脈沖序列中刪去。
在剩余的脈沖中,再找出最大的脈沖,并且重復(fù)上面的過程,直到所有的脈沖都計算完畢。之后,為了保持并還原原有的音頻信號,需要將被掩蔽掉的能量補償回去,所以會使用一個增益因子,保證在解碼端能夠生成較好的語音質(zhì)量。
在實驗中,還在掩蔽模型中使用了一個經(jīng)驗因子,主要用于控制稀疏化的程度。這個因子 rI可以放大或者衰減多路復(fù)用模型中的脈沖。通過設(shè)置這個因子的大小,控制通過復(fù)用模型后保留的脈沖個數(shù),可以允許使用者在最終原始音頻的脈沖表示的數(shù)量和在解碼端得到的語音質(zhì)量之間進行權(quán)衡。將復(fù)用模型的門限設(shè)高,就會減少原始音頻的脈沖表示的數(shù)量,但也會影響到解碼端還原的音頻質(zhì)量,反之亦然。
由于包絡(luò)樣本的一般間隔比使用聽覺脈沖表示時的間隔要更大,因此在使用多路復(fù)用的掩蔽模型時,時域掩蔽效果帶來的影響被大大減少了。
3.1.2 掩蔽模型替換
音頻信號通過Gammatone濾波器,包絡(luò)檢測和平滑濾波后,仍然存在大量的剩余脈沖,不利于編碼。因此,想到使用數(shù)學(xué)模型對包絡(luò)進行擬合,而后使用數(shù)學(xué)參數(shù)來表示子帶包絡(luò)的方法,這個方法可以有效減少需要編碼的數(shù)據(jù)量。但是由于經(jīng)過多路復(fù)用掩蔽之后的子帶脈沖是一系列離散的脈沖序列,并不能找到與之相適應(yīng)的數(shù)學(xué)模型進行擬合。為此,我們提出使用掩蔽模型替換子帶包絡(luò)。
其中,fmask是掩蔽模型在子帶中的幅值;fori是子帶中原始的譜包絡(luò)大??;fevp為通過掩蔽處理替換后的譜包絡(luò)大小。在提出這一方法時,進行了大量仿真實驗,分別使用了男聲、女聲以及不同種類的音樂信號進行掩蔽模型的替換實驗。實驗結(jié)果表明,使用這
一方法得到的子帶包絡(luò)通過合成濾波器后可以重構(gòu)出高質(zhì)量的音頻信號,因此,使用該方法是可行的。
下面將詳細說明這一計算過程:
(1)找出混合譜包絡(luò) Eνe的最大值,計算其產(chǎn)生的復(fù)用掩蔽矩陣p,p矩陣為n×m,n為子帶數(shù)目,m為參與掩蔽計算的樣點數(shù)目。
(2)運用式(6),將Gammatone濾波后幅度包絡(luò)與復(fù)用掩蔽矩陣作比較,如果濾波后的樣本點幅度值更大,則保留幅度值;如果濾波后的幅度點值較小,則將幅度值替換為復(fù)用掩蔽矩陣中相應(yīng)點的值。
(3)將每個子帶的包絡(luò)信號都使用多路復(fù)用掩蔽模型進行處理,得到替換后的子帶包絡(luò)信號。
3.2 GMM參數(shù)的計算
為了較好地還原原始的語音信號,要求使用的模型能盡可能擬合每個子帶通道的幅度譜包絡(luò)。本文使用高斯-牛頓算法進行實現(xiàn)。
將擬合問題寫成下面這個算式:
其中,F(xiàn)(i)為要擬合的原始數(shù)據(jù)在點 i處的大小;f(i)為GMM中點i處的大小。將擬合問題變成求取▽f(X)的極小值問題,這也正好符合高斯-牛頓算法用于解決多變量函數(shù)局部極小值的用途。下面將詳細闡述這一算法的實現(xiàn)過程。
設(shè)z=f(X)是X的函數(shù),對于k=1,2,…,N,?f(X)/?χk存在。f的梯度,記為▽f(X),可以用下面的向量表示:其中,梯度向量可以表示在局部指向f(X)增加得最快的方向。因此,-▽f(X)就可以表示局部下降最快的方向。從點 P0開始,沿著過 P0,方向為 S0= -▽f(P0)/-▽f(P0)的直線方向搜索,到達點P1。當(dāng)點X滿足約束X=P0+γS0時,在該點處取得局部極小值。由于偏導(dǎo)數(shù)可得,因此,極小值求取可以通過二次近似方法算得。
計算-▽f(P1),并沿著方向S1=-▽f(P1)/‖-▽f(P1)‖搜索,到達點P2。當(dāng)X滿足約束X= P1+γS1時,該點處取得局部極小值。迭代此計算過程,可以得到點序列{Pk}∞k=0,滿足f(P0)>f(P1)>…>f(PN)>…。如果limk→∞Pk=P,則f(P)是f(X)的局部極小值。
通過以上步驟,可以求出單變量情況下的局部極值點。下面將這一方法推廣到多個變量情況下以適應(yīng)實驗的要求。使用二次逼近方法生成了一個二階拉格朗日多項式序列。它的隱含假設(shè)是,在極小值附近,二次多項式與目標(biāo)函數(shù)y=f(X)的形狀相似,使得所得到的二次多項式的極小值序列收斂到目標(biāo)函數(shù)f的極小值。從初始點P0開始,遞歸地構(gòu)造一個多變量的二階多項式序列。如果目標(biāo)函數(shù)是良態(tài)的,并且初始點在實際的極值點附近,則該二次多項式的極小值序列將收斂到目標(biāo)函數(shù)的極小值。
在計算二階多項式的問題中,使用到了黑森矩陣和二階泰勒多項式的概念,設(shè)y=f(X)是X的函數(shù),對于存在。f在X處的黑森矩陣記為H f(X):其中,i,j=1,2,…,N??梢詫⒑瘮?shù)的黑森矩陣看成是函數(shù)的二階導(dǎo)數(shù)的函數(shù),而且函數(shù)的黑森矩陣與函數(shù)梯度的雅克比矩陣相同:
設(shè)f(X)在中心A處的二階泰勒多項式存在,則可以寫為:
設(shè) y=f(χ1,χ2,…,χN)的一階和二階偏導(dǎo)數(shù)存在,并在包含P0的一個區(qū)間內(nèi)連續(xù),并在點 P處有極小值。用P0替換式(11)中的A,得:
它是一個多變量的二階多項式,其中 X=[χ1,χ2,…,χN]。Q(X)的一個極小值在▽Q(X)=0或▽f(P0)+(X-P0)(H f(P0))′處取得。這樣可以解得X的值:
使用P1替代式(13)中的P0,得到:
使用Pk-1替代式(14)中的P0,就可以得到一般規(guī)律:
綜上所示,可以得到高斯-牛頓算法的基本方法,在Pk已知的情況下,使用遞推的方式:
(1)計算搜索方向:
(2)在區(qū)間[0,b]上對Φ(γ)=f(Pk+γSk)進行單變量極小化。得到 γ=hmin,它是 Φ(γ)的極小值點。關(guān)系式Φ(hmin)=f(Pk+hminSk)表明,它是f(X)沿著搜索方向X=Pk+hminSk的一個極小值。
(3)通過同樣的方法,構(gòu)造下一個極小值點Pk+1=Pk+hminSk。最后在每次迭代之后,進行終止條件的判別,判斷函數(shù)f(Pk)與函數(shù)f(Pk+1)是否足夠相近。如果到達預(yù)設(shè)值大小,則表示函數(shù)的更新已經(jīng)對擬合模型幾乎沒有影響,此時結(jié)束更新過程,即可得到最終的擬合模型中的各個未知參數(shù)值的大小。
本文對提出的基于GMM的感知域音頻編碼器以及文獻[10]提出的基于稀疏包絡(luò)表示的感知域音頻編碼器進行了系統(tǒng)仿真實驗。以M atlab7.0為實驗平臺,采用TIM IT語音數(shù)據(jù)庫以及AVS國家標(biāo)準(zhǔn)所定義的語音音頻測試序列進行編解碼運算。實驗中共使用了12組測試序列,這12組測試序列包含語音3條、單樂器6條、復(fù)雜信號3條,采樣率都為16 kHz,量化格式為16 bit PCM。先后對12組測試序列使用2種算法進行編解碼實驗,然后分別通過客觀測試和主觀測試,分別得出了這12組序列在使用2種編解碼算法時的客觀測試結(jié)果和主觀測試得分。
4.1 客觀測試
在進行客觀測試時,將使用基于GMM方法重構(gòu)的音頻信號和相對應(yīng)的原始信號編為A組,將使用稀疏包絡(luò)表示方法重構(gòu)的音頻信號和相對應(yīng)的原始信號編為B組,將2組信號分別進行PESQ測試。測試的結(jié)果如表1所示。
表1 客觀測試結(jié)果
從表1可以看出,使用基于GMM的感知音頻編碼方法得到的客觀測試結(jié)果PESQ值比使用稀疏感知音頻編碼方法得到的結(jié)果要高0.5~0.8,客觀質(zhì)量有較大提升。
4.2 主觀測試
測試設(shè)備:一臺PC,一副高品質(zhì)耳機(森海塞爾HD-615)。
在主觀測試方面,采用MUSHRA測試方法。進行主觀測試時,將本文所使用的編碼方案重構(gòu)的音頻信號定為A組,將使用稀疏包絡(luò)表示的感知域音頻編碼方法得到的重構(gòu)音頻信號定為B組,主觀測試結(jié)果如表2所示。從表2可以看出,使用本文中的編碼方法,得到的主觀測試結(jié)果比使用稀疏包絡(luò)表示的感知域音頻編碼方法得到的結(jié)果普遍要高5分~10分,主觀音質(zhì)有一定提升。
表2 主觀測試結(jié)果
本文提出一種基于高斯混合模型的感知域音頻編碼方法,使用高斯混合模型參數(shù)表征感知掩蔽后的音頻信號特征,借助Matlab平臺實現(xiàn)了整個編解碼系統(tǒng),得到了高質(zhì)量的中低碼率語音和音頻編碼。仿真結(jié)果表明,在傳輸碼率為40.213 Kb/s時,解碼得到的語音使用PESQ進行客觀評價評分在3.8以上,高于使用Joachim Thiemann提出的稀疏包絡(luò)表示的方法,通過主觀測試使用本文方法得到的重構(gòu)音頻信號得分同樣也高于Joachim Thiemann提出的使用稀疏方包絡(luò)表示的方法。然而,本文編碼方案的碼率仍然較高,需要在未來的研究中找出更加適合的模型擬合音頻譜包絡(luò),在提高解碼語音質(zhì)量的同時進一步降低編碼碼率。
[1] Spanias A,Painter T.Audio Signal Processing and Coding[M].New York,USA:John Wiley and Sons,2012.
[2] ISO.ISO/IEC 14496-3-2009 Coding of Audio-Visual Objects,Part 3:Audio[S].2009.
[3] 3GPP.3GPP TS 26.171-2002 Adaptive Multi-Rate-Wide-band(AMR-WB)Speech Codec,General Description[S].2002.
[4] Smith E C,Lewicki M S.Efficient Auditory Coding[J]. Nature,2006,439(7079):978-982.
[5] Holters M.Automatic Parameter Optimization for a Perceptual Audio Codec[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing.Washington D.C.,USA:IEEE Press,2009:13-16.
[6] 王 鑫.基于高斯混合模型的聚類算法及其在圖像分割中的應(yīng)用[D].太原:中北大學(xué),2013:24-31.
[7] 顏建平.廣義Gamma混合模型的參數(shù)估計研究[D].成都:西南交通大學(xué),2011.
[8] Strahl S.Sparse Gammatone Signal Model Optimized for English Speech Does not Match the Human Auditory Filters[J].Brain Research,2008,1220(2):224-233.
[9] Mathews JH,F(xiàn)ink K K.數(shù)值方法(Matlab版)[M]. 4版.北京:電子工業(yè)出版社,2010.
[10] Thiemann J.A Sparse Auditory Envelope Representation with Iterative Reconstruction for Audio Coding[D]. Montreal,Canada:McGill University,2011.
編輯 顧逸斐
Perceptual Domain Audio Coding Method Based on Gaussian Mixture Model
LV Yaping1,GAO Ge1,CHEN Yi2,ZHANG Kang1
(1.National Engineering Research Center for Multimedia Software,Computer College,Wuhan University,Wuhan 430072,China;2.Computer College,Central China Normal University,Wuhan 430072,China)
For the traditional perceptual audio encoding scheme using the psychoacoustic mask effect to reduce coding rate,the channel model+signal incentive way is difficult to simultaneously realize high quality in low bit rate speech and audio signal coding.It proposes a perceptual domain audio coding algorithm based on Gaussian Mixture Model(GMM).The algorithm uses Gammatone filter groups to simulate the human auditory system,using multiplexer masking model and replace to reduce the number of pulse envelope and facilitate the use of structural model fitting,using the Gauss-New ton algorithm for the fitting of Gaussian mixture model parameters,using Gaussian mixture model parameter replace audio signal characteristics.The results prove that compared with the audio coding method based on the envelope with sparse reconstruction,subjective test is higher than 0.5 point to 0.8 point,and the objective test is higher than 5 point to 10 point,most of the speech and music signal can be restored to the effect of the original audio signal by decoding,and can be used to achieve high quality speech and audio encoding at low bit rate.
human auditory system;perceptual domain audio coding;Gaussian Mixture Model(GMM);Gammatone filter bank;Gauss-Newton algorithm
呂亞平,高 戈,陳 怡,等.基于高斯混合模型的感知域音頻編碼方法[J].計算機工程,2015,41(10):265-269.
英文引用格式:Lv Yaping,Gao Ge,Chen Yi,et al.Perceptual Domain Audio Coding Method Based on Gaussian Mixture Model[J].Computer Engineering,2015,41(10):265-269.
1000-3428(2015)10-0265-05
A
TN912
國家自然科學(xué)基金資助項目(614712710)。
呂亞平(1990-),女,碩士研究生,主研方向:音頻編碼與處理;高 戈、陳 怡,副教授、博士;張 康,碩士研究生。
2014-09-16
2014-10-27E-mail:lvyaping514@sohu.com