李思源 姜林
摘要:音頻帶寬擴(kuò)展技術(shù)是音頻編解碼技術(shù)的重要組成部分,研究高頻信號(hào)的編碼方法,目的是大幅減少編碼碼率。針對(duì)傳統(tǒng)頻域率帶寬擴(kuò)展框架中直接高頻信號(hào)在頻率域編碼導(dǎo)致高碼率和高復(fù)雜度的問(wèn)題,本文提出基于MDCT變換的帶寬擴(kuò)展編碼方法,該方法基于源濾波器模型對(duì)高頻信號(hào)進(jìn)行分析合成。編碼中對(duì)高頻信號(hào)進(jìn)行LPC參數(shù)提取,并將高頻激勵(lì)信號(hào)進(jìn)行MDCT變換,提取MDCT子帶能量系數(shù),然后對(duì)LPC和MDCT子帶能量進(jìn)行矢量編碼并傳送至解碼端。解碼時(shí)將低頻激勵(lì)作為高頻激勵(lì)信號(hào)的精細(xì)結(jié)構(gòu),采用MDCT子帶能量對(duì)精細(xì)結(jié)構(gòu)進(jìn)行調(diào)整,最后采用LPC合成得到高頻重建信號(hào)。實(shí)驗(yàn)結(jié)果表明,本文方法相比經(jīng)典的SBR方法,主觀音質(zhì)相當(dāng),編碼碼率下降了56.36%,整體時(shí)間復(fù)雜度下降明顯。
關(guān)鍵詞: 帶寬擴(kuò)展; 音頻壓縮; 線性預(yù)測(cè); MDCT變換
【Abstract】 The audio bandwidth extension technology is an important part of the audio codec technology. It studies the encoding method of audio compression, which can greatly reduce the coding rate. For the traditional frequency domain rate bandwidth extension framework, the time-frequency transform of the original audio signal after passing the filter directly leads to the problem of coding bit rate higher. The linear encoder based on the linear prediction is used in the traditional source filter bandwidth method. In combination with the MDCT transform, the residual signal obtained by the LPC ?analysis is firstly used as the fine structure of the high-frequency signal, and the fine structure is subjected to MDCT transform to obtain the fine-domain frequency domain signal, and then the frequency domain of the fine structure is achieved. The signal is encoded to obtain the final reconstructed high frequency signal. The experimental results show that the encoded sound quality is equivalent to the SBR algorithm, the coding rate is reduced by 56.36%, and the complexity is also reduced.
【Key words】 ?bandwidth extension; audio compression; linear prediction; MDCT transform
0 引 言
音頻帶寬擴(kuò)展(Bandwidth Extension,BWE)技術(shù)是現(xiàn)代音頻編解碼技術(shù)的重要組成部分,主要研究的是音頻壓縮編碼的方法,可以僅使用極低的碼率實(shí)現(xiàn)高質(zhì)量的高頻信號(hào)重建[1]。音頻帶寬擴(kuò)展利用了高低頻間具有相關(guān)性這一物理特性,可以利用低頻信號(hào)實(shí)現(xiàn)高頻信號(hào)的重建。根據(jù)重建高頻信號(hào)時(shí)是否使用了高頻參數(shù)音頻帶寬擴(kuò)展可為分盲式和非盲式兩種[2],本文僅針對(duì)非盲式帶寬擴(kuò)展(傳輸少量高頻參數(shù))進(jìn)行討論。
現(xiàn)有的音頻帶寬擴(kuò)展算法根據(jù)針對(duì)的音頻種類(lèi)不同分為2類(lèi),即:時(shí)域帶寬擴(kuò)展和頻率域帶寬擴(kuò)展。本文的研究是針對(duì)類(lèi)音樂(lè)信號(hào),因此主要探討頻率域帶寬擴(kuò)展技術(shù)。頻率域帶寬擴(kuò)展技術(shù)以2002年瑞典 Dietz 等人[3]首次提出的頻帶復(fù)制技術(shù)(Spectral Band Replication,SBR)為代表。SBR技術(shù)被應(yīng)用于MPEG ACC[4]編碼標(biāo)準(zhǔn)中,其原理是將低頻信號(hào)從時(shí)域轉(zhuǎn)換到頻率域后,再將其復(fù)制到高頻得到用于重建高頻信號(hào)的信號(hào)源。使用低頻信號(hào)得到高頻信號(hào)的重建信號(hào)是利用了高低頻間具有相關(guān)性來(lái)實(shí)現(xiàn)的,此方法在高低頻間相關(guān)性強(qiáng)的時(shí)候效果較好,當(dāng)相關(guān)性變?nèi)鯐r(shí),高頻重建信號(hào)的諧波將會(huì)產(chǎn)生嚴(yán)重失真。為了解決這一問(wèn)題,2009 年,Nagel等人[5]提出采用頻譜拉伸的方法進(jìn)行諧波調(diào)制方法,用以恢復(fù)高頻諧波。此后,又提出了諧波連續(xù)調(diào)制的方法,進(jìn)一步提高了諧波恢復(fù)的效果[6]。目前,重建音質(zhì)最好的BWE方法是2013年MPEG USAC標(biāo)準(zhǔn)提出的增強(qiáng)型的SBR(簡(jiǎn)稱eSBR)技術(shù)[7],但是其使用的偽正交鏡像濾波器導(dǎo)致編碼復(fù)雜度較高。本文使用了更加穩(wěn)定的離散余弦變換(Modified Discrete Cosine Transform , MDCT)作為時(shí)頻變換方法。
1 基于MDCT的音頻帶寬擴(kuò)展框架
傳統(tǒng)的頻域率帶寬擴(kuò)展技術(shù)針對(duì)類(lèi)音樂(lè)信號(hào)的高頻重建效果較好,一般輸入信號(hào)后通過(guò)濾波器直接獲取原始音頻信號(hào)進(jìn)行時(shí)頻變換得到高頻信號(hào)的邊信息,本文使用基于線性預(yù)測(cè)(Linear Prediction,LP)的核心編碼器與頻域率核心編碼器相結(jié)合的方法進(jìn)行音頻信號(hào)的帶寬擴(kuò)展降低了編碼碼率。