(武漢工業(yè)學(xué)院 計(jì)算機(jī)與信息工程系,武漢 430023)
3G網(wǎng)絡(luò)在國(guó)內(nèi)正式運(yùn)行以及各種新的多媒體移動(dòng)接入技術(shù)的相繼涌現(xiàn),為移動(dòng)多媒體應(yīng)用帶來了廣闊的空間和新的機(jī)遇。但是,由于移動(dòng)通信環(huán)境的復(fù)雜性、無線傳輸頻帶資源的有限性以及傳輸信道的多變性,使得傳統(tǒng)音頻編解碼技術(shù)遇到了新的困難,因此,面向3G網(wǎng)絡(luò)的移動(dòng)音頻編解碼技術(shù)就成為了移動(dòng)多媒體應(yīng)用領(lǐng)域一個(gè)新的重點(diǎn)研究方向。為了適應(yīng)移動(dòng)環(huán)境苛刻的應(yīng)用需求,本文力爭(zhēng)在提高編碼效率、降低運(yùn)算量?jī)煞矫婵朔碚撊毕?,突破技術(shù)瓶頸,深入研究移動(dòng)音頻編解碼中的一些核心關(guān)鍵技術(shù),尤其是帶寬擴(kuò)展技術(shù)。
語音帶寬擴(kuò)展技術(shù)的飛速發(fā)展是在20世紀(jì)80年代末、90年代初,為了提高話音效果,人們開始研究能否利用300 Hz~3.4 kHz窄帶語音信號(hào)合成3.4~8 kHz高頻成分以重建8 kHz的寬帶信號(hào)。主要方法是基于語音生成的源濾波器模型算法,利用窄帶語音信號(hào)估計(jì)高頻帶激勵(lì)信號(hào),然后將其通過一個(gè)模擬寬帶信號(hào)頻譜包絡(luò)的合成濾波器濾波得到重建的高頻語音信號(hào)。其關(guān)鍵是如何產(chǎn)生高頻帶激勵(lì)信號(hào)以及模擬寬帶信號(hào)頻譜包絡(luò)的合成濾波器[1]。
AMR-WB+標(biāo)準(zhǔn)是3GPP組織推薦的移動(dòng)語音壓縮編碼算法,其關(guān)鍵算法是對(duì)來自同一激勵(lì)源的低頻信號(hào)分量與高頻信號(hào)分量分別采用ACELP/TCX混合編碼模式和帶寬擴(kuò)展編碼方式。實(shí)現(xiàn)原理是從語音的低頻信號(hào)分量中提取時(shí)域空間的激勵(lì)源特征,再將該激勵(lì)源特征與高頻信號(hào)分量在時(shí)域空間合成,得到重建的高頻信號(hào)。AMR-WB+標(biāo)準(zhǔn)的缺點(diǎn)是對(duì)高頻信號(hào)所使用的帶寬擴(kuò)展算法中編碼比特?cái)?shù)保持固定,不能根據(jù)信號(hào)的類型與特征進(jìn)行自適應(yīng)調(diào)整,且整個(gè)計(jì)算復(fù)雜度較高[2]。
目前,感知音頻編碼算法的帶寬擴(kuò)展技術(shù)大都采用BWE算法,其原理大致是:在解碼端利用信號(hào)的低頻成分以及預(yù)估參數(shù)(有些技術(shù)未使用)通過相關(guān)算法重構(gòu)信號(hào)的高頻成分。此類擴(kuò)展技術(shù)可以分為盲目式和非盲目式兩類:著名的盲目式帶寬擴(kuò)展技術(shù)有對(duì)數(shù)頻域線性外推法及八度音截取等方法,非盲目式帶寬擴(kuò)展技術(shù)有PlusV法及BBSM法等。
20世紀(jì)90年代末出現(xiàn)的頻譜帶寬復(fù)制 (Spectral Bandwidth Replication,SBR)技術(shù)[3],通過在頻域上精確重建解碼后的信號(hào)高頻成分實(shí)現(xiàn)帶寬擴(kuò)展,既增加了音頻信號(hào)和語音信號(hào)的帶寬,也改善了低比特率下信號(hào)的編碼質(zhì)量,已經(jīng)被3GPP標(biāo)準(zhǔn)化組織提出的EAAC+標(biāo)準(zhǔn)所采納,是一種在移動(dòng)環(huán)境下同時(shí)具有較高壓縮效率和較高音質(zhì)的成功的帶寬擴(kuò)展方案,其原理如圖1所示[4]。
本文提出的音頻帶寬擴(kuò)展技術(shù)是結(jié)合現(xiàn)有非盲目式帶寬擴(kuò)展技術(shù)BBSM(Bark Band Spectral Model)法,對(duì)EAAC+標(biāo)準(zhǔn)中的SBR技術(shù)進(jìn)行改進(jìn)。
本算法的基本思想是利用音頻信號(hào)的低頻成分與高頻成分之間的相關(guān)性作為帶寬擴(kuò)展的依據(jù)。相關(guān)性的衡量通過下述公式計(jì)算相關(guān)系數(shù)來判定:
(1)
式中,x[i]是低頻頻帶信號(hào),y[i]是高頻頻帶信號(hào),N是計(jì)算相關(guān)性的樣值序列的區(qū)間長(zhǎng)度。
其實(shí)施步驟如下:在編碼時(shí),通過相關(guān)性檢測(cè)模塊分析高頻信號(hào)與低頻信號(hào)的關(guān)聯(lián)性。假如相關(guān)性較低,則高頻成分被看成是白噪聲,解碼時(shí)就不用低頻信號(hào),只使用白噪聲以達(dá)到重建高頻成分。如果高頻信號(hào)與低頻信號(hào)的相關(guān)性較高,則在編碼時(shí)先將信號(hào)的低頻成分頻譜映射到Bark帶頻譜,并提取每個(gè)Bark帶的能量,同時(shí),信號(hào)的高頻成分頻譜與低頻成分頻譜相對(duì)應(yīng),也提取Bark帶的能量,然后計(jì)算低頻成分與對(duì)應(yīng)高頻成分的Bark頻譜頻帶的能量比系數(shù),再將該能量比系數(shù)作為參數(shù)傳到解碼器端。在解碼時(shí),根據(jù)編碼器端傳送過來的能量比系數(shù),將低頻成分的Bark頻譜頻帶的能量復(fù)制到高頻成分所對(duì)應(yīng)的Bark頻譜頻帶,并進(jìn)行能量調(diào)整,實(shí)現(xiàn)信號(hào)高頻成分的重建工作。
EAAC+標(biāo)準(zhǔn)中SBR算法利用語音信號(hào)和音頻信號(hào)高頻成分與低頻成分之間的關(guān)聯(lián)性,用信號(hào)的低頻成分來復(fù)制高頻成分。其具體步驟如下:首先,重采樣后的輸入信號(hào)送入64子帶QMF濾波器組,由其對(duì)輸入信號(hào)的子帶進(jìn)行濾波。輸入信號(hào)經(jīng)過QMF濾波后輸出32個(gè)QMF子帶,每個(gè)子帶具有64個(gè)頻率通道,它們被存儲(chǔ)在矩陣X中,矩陣X定義為
X(k,l+qmfWriteOffset),0≤k<64; (2) 然后,選擇合適的時(shí)間解析度,實(shí)現(xiàn)包絡(luò)分割。通過瞬態(tài)檢測(cè)和幀結(jié)構(gòu)的判斷就可以完成包絡(luò)分割。瞬態(tài)檢測(cè)器從矩陣X的子帶樣點(diǎn)0開始執(zhí)行;接著,幀分離器檢測(cè)當(dāng)前幀的時(shí)隙包絡(luò),從矩陣X的子帶樣點(diǎn)0開始執(zhí)行;音調(diào)檢測(cè)器從矩陣X的子帶樣點(diǎn)qmfWriteOffset開始執(zhí)行,其得到的控制數(shù)據(jù)和當(dāng)前時(shí)頻網(wǎng)格被作為附加控制參數(shù)單元。在這個(gè)模塊中,自適應(yīng)噪聲級(jí)、逆濾波估計(jì)和附加正弦估計(jì)被確定;最后,形成的包絡(luò)數(shù)據(jù)被量化和哈夫曼編碼,并打包為一個(gè)SBR幀送到比特流復(fù)用器中。 可以看出,SBR方法存在較多弊病:低頻信號(hào)子帶波形與高頻信號(hào)子帶波形差距較大,僅僅簡(jiǎn)單的復(fù)制并不能替換高頻信號(hào),反而會(huì)導(dǎo)致復(fù)制過程中信號(hào)嚴(yán)重失真;由于復(fù)制時(shí)只是簡(jiǎn)單地按照子帶序號(hào)依次提取進(jìn)行復(fù)制,會(huì)出現(xiàn)重建的高頻子帶正弦峰值與原始信號(hào)的高頻子帶正弦峰值差異較大;從復(fù)制的過程來看,實(shí)際上在高頻區(qū)低頻子帶被連續(xù)復(fù)制了若干次,這樣無疑大大增加了算法的計(jì)算復(fù)雜度。 針對(duì)上述問題,本文結(jié)合BBSM音頻帶寬擴(kuò)展算法,提出了一種基于EAAC+的改進(jìn)帶寬擴(kuò)展算法,其實(shí)施步驟如下: (1)按照BBSM算法對(duì)信號(hào)進(jìn)行變換 將輸入的原始音頻信號(hào)分成低頻和高頻兩部分,對(duì)于低頻部分,仍然按照SBR算法執(zhí)行;對(duì)于高頻部分,按照BBSM算法,將整個(gè)高頻頻帶再分為高頻區(qū)的低頻子帶和高頻子帶,減少后續(xù)傳輸?shù)拇a率。 (2)檢測(cè)并去除正弦分量 SBR算法中提取的參數(shù)較多,包括包絡(luò)估計(jì)、時(shí)頻分辨率的重建、分析濾波器系數(shù)、正弦分量、頻譜平滑因子等,其特點(diǎn)是重建信號(hào)的效果較好,但是缺點(diǎn)很明顯,就是運(yùn)算復(fù)雜度較高。實(shí)際上,高頻信號(hào)中除了諧波以外,還包含較多的正弦信號(hào),但是正弦信號(hào)對(duì)重建的高頻信號(hào)音質(zhì)影響較小,編碼卻不小。因此,為了降低算法的編碼復(fù)雜度,本文在改進(jìn)算法中將其檢測(cè)并去除。具體做法如下:求出輸入信號(hào)頻譜能量的大小,然后找到高頻子帶中能量最大的位置,并且計(jì)算這個(gè)子帶與左右其它子帶能量的平均值,公式如下: (3) 式中,i=-RANGE,-(RANGE-1),…,-3,-2,+2,+3,…,(RANGE-1),RANGE,是所取子帶的范圍,j是子帶中能量最大者的位置。 根據(jù)式(3)判斷正弦分量并去除。首先經(jīng)過大量試驗(yàn)將正弦閾值設(shè)定為15,然后判斷子帶j的能量值是否大于j左右其它子帶能量的平均值乘上正弦閾值,如果大于,則存在正弦分量;否則就不存在。找到正弦分量j的位置后將其序號(hào)記錄下來,同時(shí)將j附近位置子帶信號(hào)的頻譜幅度也記錄下來,同時(shí)經(jīng)過大量試驗(yàn)將正弦分量能量值定為小于0.25,只有這些條件全部滿足,才確定為正弦分量;否則就不是。 (3)確定音調(diào)噪聲比 為了完成高頻重建,需要確定使用低頻信號(hào)來復(fù)制還是使用白噪聲來重建。設(shè)定條件是: high-sin-num>low-sin-num+TTN-Ratio|| high-sin-num=0 (4) 式中,high-sin-num和low-sin-num分別表示在高頻頻帶和低頻頻帶中找到的正弦分量數(shù)量;TTN-Ratio是判斷兩個(gè)相鄰頻帶之間音調(diào)噪聲比是否一致,一般取常數(shù)。如果信號(hào)中沒有正弦分量或者信號(hào)高頻成分中正弦分量數(shù)量為零,在解碼器端重建高頻信號(hào)時(shí)只使用白噪聲;否則,將低頻信號(hào)復(fù)制到高頻頻帶。 (4)能量計(jì)算 計(jì)算高頻中每一子帶與低頻子帶的能量比作為解碼時(shí)調(diào)整高頻參數(shù)的依據(jù)。按照下式進(jìn)行計(jì)算: (5) (6) 如果只有白噪聲,不需要計(jì)算式(5),將其設(shè)為1,只計(jì)算原始高頻頻帶的平均能量值。在解碼時(shí),通過白噪聲與式(5)相乘調(diào)整參數(shù)大小。如果不是白噪聲,則在低頻信號(hào)復(fù)制到高頻頻帶時(shí),以式(6)的值與式(5)相乘來調(diào)整參數(shù)大小。 在解碼器端,將每個(gè)高頻子帶中記錄的正弦分量位置、大小、白噪聲的設(shè)定值以及子帶能量比等參數(shù)做為重建高頻頻帶的依據(jù),再結(jié)合經(jīng)過核心編解碼器的低頻頻帶,合成全頻帶的信號(hào)頻譜,恢復(fù)出完整的語音或音頻信號(hào)。 為了驗(yàn)證提出的改進(jìn)的EAAC+帶寬擴(kuò)展算法,本文通過一系列的主客觀測(cè)試來全面評(píng)價(jià)算法的編碼質(zhì)量。在主客觀聽力實(shí)驗(yàn)中選取了MPEG音頻標(biāo)準(zhǔn)中12個(gè)標(biāo)準(zhǔn)音頻測(cè)試,包含了不同類型的、具有代表性的諧波和非諧波語音信號(hào)和音頻信號(hào)。 為了進(jìn)一步測(cè)試新算法的性能,本算法與AMR-WB+的帶寬擴(kuò)展算法進(jìn)行了實(shí)驗(yàn)比較。為了保證實(shí)驗(yàn)的一致性,選擇ITU-T P.862[7]建議中的語音編碼客觀軟件評(píng)測(cè)工具——PESQ對(duì)兩者的算法性能進(jìn)行了比較(PESQ值為客觀評(píng)測(cè)得到的MOS分)。由于PESQ主要用于評(píng)測(cè)語音信號(hào),因而測(cè)試選取的序列為MPEG標(biāo)準(zhǔn)和AMR-WB+標(biāo)準(zhǔn)推薦的標(biāo)準(zhǔn)測(cè)試序列中的語音信號(hào)。由于PESQ軟件只適合對(duì)16 kHz語音信號(hào)進(jìn)行客觀評(píng)分,原始測(cè)試信號(hào)的采樣率為48 kHz。選擇序列后,我們使用在專業(yè)音頻軟件Audition 3.0將信號(hào)的采樣率全部下采樣到16 kHz后再用PESQ軟件進(jìn)行評(píng)測(cè)。根據(jù)測(cè)試結(jié)果來看,文中設(shè)計(jì)的帶寬擴(kuò)展算法的PESQ值與AMR-WB+標(biāo)準(zhǔn)中帶寬擴(kuò)展算法的PESQ值近似,說明兩者的性能基本相當(dāng)。 根據(jù)國(guó)內(nèi)AVS組織的音頻小組提出的主觀聽力測(cè)試規(guī)范[8],每次主觀聽力測(cè)試的材料由Ref/A/B組成,其中Ref是原始未編碼的信號(hào),A/B均是編解碼后的信號(hào)。在測(cè)試中,如果A是本論文所實(shí)現(xiàn)的解碼結(jié)果,那么B就是參考解碼器的解碼結(jié)果,反之亦然。在測(cè)試中,對(duì)比的參考編碼器為AMR-WB+編解碼器。 如圖2所示,根據(jù)12個(gè)測(cè)試序列總的平均值來看,本文提出的改進(jìn)的帶寬擴(kuò)展算法與AMR-WB+帶寬擴(kuò)展算法的性能基本相當(dāng),主觀評(píng)測(cè)結(jié)果與客觀PESQ評(píng)測(cè)結(jié)果基本相一致。 圖2 主觀聽力測(cè)試結(jié)果 本文針對(duì)EAAC+編碼標(biāo)準(zhǔn)的帶寬擴(kuò)展算法提出的改進(jìn)方案,根據(jù)測(cè)試結(jié)果判斷,達(dá)到了與AMR-WB+編碼標(biāo)準(zhǔn)基本上相當(dāng)?shù)囊糍|(zhì)。對(duì)于研究中出現(xiàn)的一些特殊情況,例如:有些原始信號(hào)中的低頻成分和高頻成分具有峰值,而這些峰值在信號(hào)重建的過程中會(huì)丟失,因此,如何更精確地重建原始信號(hào)是后續(xù)研究值得關(guān)注的方向。 參考文獻(xiàn): [1] Julien Epps. Wideband Extension of Narrowband Speech for Enhancement and Coding[D].New South Wales,Australia:The University of New South Wales, 2000. [2] 3GPP Specification Series TS26.290, Audio codec processing functions, Extended Adaptive Multi-Rate Wideband AMR-WB+ codec, Transcoding functions[S]. [3] Martin Diets, Lars Liljeryd, Kristofer Kj?rling,et al. Spectral Band Replication, a novel approach in audio coding[C]//Proceedings of the 112th AES Convention.Munich,Germany:AES,2002:1-8. [4] Arttu Laaksonen.Bandwidth extension in high-quality audio coding[D].Helsinki:Helsinki University of Technology,2005. [5] Seo J, Jang D,Kang K. A Simple Method for Reproducing High Frequency Components at Low-Bit Rate Audio Coding[C]//Proceedings of the 113th AES Convention.LOS Angeles,2002:1-8. [6] 3GPP TS 26.404,Enhanced aacPlus general audio codec; Enhanced aacPlus encoder SBR part[S]. [7] ITU-T P.862,Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs[S]. [8] 閻建新,金尚煜.AVS音頻內(nèi)部主觀聽力測(cè)試參考規(guī)范[M].[S.l.]:AVS音頻工作組,2005. YAN Jian-xin,JIN Shang-yu.AVS Audio Inner Subjective Listening Test Reference Criterion[M].[S.l.]:AVS Audio Workgroup,2005.(in Chinese)
0≤l3.3 改進(jìn)方案
4 性能評(píng)價(jià)
4.1 客觀測(cè)試
4.2 主觀測(cè)試
5 結(jié)束語