楊立東 王 晶 謝 湘 趙 毅 匡鏡明(北京理工大學(xué)信息與電子學(xué)院 北京 100081)(內(nèi)蒙古科技大學(xué)信息工程學(xué)院 包頭 014010)
?
基于低秩張量補(bǔ)全的多聲道音頻信號(hào)恢復(fù)方法
楊立東①②王晶*①謝湘①趙毅①匡鏡明①
①(北京理工大學(xué)信息與電子學(xué)院北京100081)
②(內(nèi)蒙古科技大學(xué)信息工程學(xué)院包頭014010)
摘要:多聲道音頻信號(hào)在r采集、壓縮、傳輸過程中可能造成音頻數(shù)據(jù)丟失,為了確保給聽眾帶來(lái)更真實(shí)的聽覺感受,該文提出一種基于低秩張量補(bǔ)全的音頻丟失數(shù)據(jù)恢復(fù)方法。首先,把多聲道音頻信號(hào)表示為一個(gè)張量;其次,把張量補(bǔ)全作為一個(gè)凸優(yōu)化問題建模,利用松弛技術(shù)和變量分離技術(shù)得到閉合的增強(qiáng)拉格朗日函數(shù);最后,通過交替迭代方法求解得到恢復(fù)的音頻張量。在不同數(shù)據(jù)丟失率的實(shí)驗(yàn)中,通過與線性預(yù)測(cè)、加權(quán)優(yōu)化的CANDECOMP /PARAFAC分解方法進(jìn)行對(duì)比分析,表明利用張量補(bǔ)全方法具有更高的音頻信號(hào)恢復(fù)精度,隱藏參考和基準(zhǔn)的多激勵(lì)測(cè)試結(jié)果也顯示低秩張量補(bǔ)全方法能夠有效地恢復(fù)多聲道音頻的丟失數(shù)據(jù),從而獲得更好的聽覺效果。
關(guān)鍵詞:音頻信號(hào)恢復(fù);張量補(bǔ)全;跡范數(shù);凸優(yōu)化
隨著壓縮技術(shù)和網(wǎng)絡(luò)存儲(chǔ)技術(shù)的發(fā)展,人們可以享受到高清多媒體數(shù)據(jù)帶來(lái)的視聽快感,而以多聲道音頻為代表的高質(zhì)量音頻也正逐步得到廣泛的應(yīng)用。例如5.1聲道、7.1聲道、9.1聲道音頻等,近期日本廣播公司NHK還開發(fā)出一個(gè)多達(dá) 22.2聲道的音頻系統(tǒng),分為3個(gè)空間層,分別是9個(gè)聲道的上層、10個(gè)聲道的中層、3個(gè)聲道的下層,此外還有2個(gè)與下層聲道放在一起的低音聲道。這些多聲道音頻主要為了追求更加逼真的3維音頻效果。
然而多聲道音頻數(shù)據(jù)在獲取或傳輸過程中的某些時(shí)刻,可能會(huì)出現(xiàn)一個(gè)或幾個(gè)聲道采集設(shè)備故障或者傳輸中出現(xiàn)異常情況,導(dǎo)致最終獲得的音頻信號(hào)質(zhì)量下降的現(xiàn)象。另外,因?yàn)槎嗦暤酪纛l占用空間大、數(shù)據(jù)量多,在進(jìn)行數(shù)據(jù)的存儲(chǔ)及傳輸時(shí)可能主動(dòng)丟失一些數(shù)據(jù),例如多聲道編解碼中通過舍棄部分聲道來(lái)降低碼率,而當(dāng)使用時(shí)再對(duì)其進(jìn)行恢復(fù)。
音頻信號(hào)恢復(fù)的核心問題是如何在丟失數(shù)據(jù)與已知數(shù)據(jù)之間建立聯(lián)系。傳統(tǒng)的信號(hào)恢復(fù)技術(shù)主要包括:基于貪婪迭代的匹配追蹤(Matching Pursuit,MP)算法,但該算法每次迭代逼近的結(jié)果可能是次優(yōu)的,因而算法收斂需要較多的迭代次數(shù)[1];線性預(yù)測(cè)(Linear Prediction,LP)算法[2,3]主要對(duì)丟失數(shù)據(jù)通過前后向預(yù)測(cè)進(jìn)行預(yù)測(cè)恢復(fù),但是隨著丟失數(shù)據(jù)的增加,該算法模型階數(shù)會(huì)快速增長(zhǎng);基于神經(jīng)網(wǎng)絡(luò)的非線性預(yù)測(cè)方法[4]在時(shí)域恢復(fù)信號(hào)的時(shí)候,針對(duì)連續(xù)丟失采樣值現(xiàn)象恢復(fù)效果較差,在頻域插值過程中會(huì)帶來(lái)復(fù)數(shù)運(yùn)算和相位不連續(xù)的現(xiàn)象。另外,一些恢復(fù)算法都是針對(duì)某些特定應(yīng)用對(duì)象,例如文獻(xiàn)[5]中用盲解卷積方法進(jìn)行水聲信號(hào)的恢復(fù)。
目前,專門針對(duì)多聲道音頻信號(hào)恢復(fù)的算法較少,大部分都是采用一些通用信號(hào)恢復(fù)算法,沒有充分利用多聲道音頻信號(hào)在幀結(jié)構(gòu)、空間位置的相關(guān)性。文獻(xiàn)[6 ]中提出了利用加權(quán)優(yōu)化CANDECOMP/PARAFAC(CP-WOPT)張量分解方法恢復(fù)數(shù)據(jù),但在分解過程中選擇不合適的秩,將導(dǎo)致過擬合現(xiàn)象,造成恢復(fù)性能嚴(yán)重惡化[7]。本文采用低秩張量補(bǔ)全(Low Rank Tensor Completion,LRTC)方法對(duì)有數(shù)據(jù)丟失的多聲道音頻信號(hào)進(jìn)行恢復(fù),充分利用張量模型可以很好體現(xiàn)多因素信號(hào)內(nèi)在關(guān)系的特性[8],對(duì)多聲道音頻信號(hào)進(jìn)行建模,針對(duì)音頻張量各階之間的相互關(guān)系,在保留多階音頻信號(hào)本質(zhì)屬性的基礎(chǔ)上,挖掘丟失數(shù)據(jù)與已知數(shù)據(jù)之間的聯(lián)系,充分利用低秩張量補(bǔ)全能從部分缺失的高維觀測(cè)數(shù)據(jù)中發(fā)現(xiàn)它的本征低維空間的特性,有效地恢復(fù)觀測(cè)樣本的低維子空間并恢復(fù)受損的數(shù)據(jù)[9]。
張量是由多個(gè)矢量空間乘積構(gòu)造而成的多階陣列,最近開始在信號(hào)處理領(lǐng)域得到廣泛應(yīng)用,尤其是圖像和視頻處理領(lǐng)域。在實(shí)際的信號(hào)獲取過程中,觀測(cè)的高階信號(hào)的某些數(shù)據(jù)可能丟失,如何利用已知的數(shù)據(jù)信息,恢復(fù)那些未知的數(shù)據(jù),這個(gè)任務(wù)被稱為張量補(bǔ)全[10]。張量補(bǔ)全與張量分解都可用于數(shù)據(jù)恢復(fù),但是前者追求的是所補(bǔ)全的丟失數(shù)據(jù)的精度,而后者的目的是得到合適的因子矩陣[11],即追求的是分解后因子矩陣的精度。
2.1 相關(guān)運(yùn)算
(1)χ與у的內(nèi)積定義為兩個(gè)張量元素乘積的和:
(2)張量χ的Frobenius范數(shù)定義為
(4)奇異值收縮(Singular Value Shrinkage,SVT):設(shè)矩陣的秩為r,其奇異值分解為,其中,對(duì)于任意τ>0,收縮操作定義為
2.2 低秩近似
很多實(shí)際的高維觀測(cè)信號(hào)可近似為多個(gè)低維的線性獨(dú)立子空間,并且這些子空間類別數(shù)以及每個(gè)樣本隸屬于哪個(gè)空間均是未知的[13]。正確劃分這些樣本到各自的子空間并且得到這些低維子空間成為了研究熱點(diǎn),一些常用的解決方法,例如主成分分析(Principal Component Analysis,PCA)、奇異值(Singular Value Decomposition,SVD)等已經(jīng)被應(yīng)用于音頻分類、人臉聚類等。然而,這些實(shí)際的信號(hào)常常被強(qiáng)噪聲污染或者丟失,針對(duì)這樣的問題,秩函數(shù)最小化正則的方法被提出,其目的是通過求解一個(gè)非凸的優(yōu)化問題能夠同時(shí)得到原始信號(hào)及相應(yīng)的子空間結(jié)構(gòu)。
以低秩矩陣近似為例,給定一個(gè)矩陣M∈Rp×q,低秩矩陣近似是要解決式(4)所描述的優(yōu)化問題。
式(4)也可以表示成拉格朗日形式:
但是,因?yàn)橹群瘮?shù)是離散的,且非凸的,不能保證得到全局最優(yōu),因此秩最小化其實(shí)是一個(gè)NP-hard問題[14]。文獻(xiàn)[15]中指出,秩函數(shù)的凸包可以用矩陣的跡范數(shù)表示,這樣可以利用凸松弛方法把式(5)表述為
2.3 張量補(bǔ)全算法
利用2.2小節(jié)的凸松弛方法,上述模型可以表示為
把此模型泛化到張量,可得
從式(9)和式(10)中可以看出,張量矩陣化后每階矩陣之間共享變量,而不是獨(dú)立的,從而導(dǎo)致不能簡(jiǎn)單對(duì)每個(gè)跡范數(shù)進(jìn)行求解。因此,本文使用變量分離的技術(shù)來(lái)求解式(9)對(duì)應(yīng)的優(yōu)化問題。為此,引入N個(gè)輔助張量Pi,把式(9)描述的模型表示為
其中ρ>0,該模型的增強(qiáng)拉格朗日函數(shù)為
使用文獻(xiàn)[17]中的交替迭代方法,分別求解式(14)和式(15)描述的子問題:
式(16)可通過式(3)定義的奇異值收縮求解得到閉合形式:
拉格朗日算子用式(18)完成更新:
本文采用的低秩張量補(bǔ)全算法流程如表1所示。
表1 低秩張量補(bǔ)全算法流程
對(duì)一些可觀測(cè)的高階信號(hào),使用張量表示更能體現(xiàn)信號(hào)的原始結(jié)構(gòu),而且張量補(bǔ)全能夠充分利用數(shù)據(jù)所有維的信息,而矩陣補(bǔ)全僅僅利用數(shù)據(jù)的某兩維信息,所以本文對(duì)多聲道音頻信號(hào)采用張量建模。
例如,一個(gè)時(shí)長(zhǎng)10 s的5.1聲道音頻,采樣率為48 kHz,采樣精度為16 bit,幀長(zhǎng)為20 ms,幀與幀之間有50%的重疊,此段音頻共分為999幀,每幀得到480個(gè)MDCT系數(shù),即可構(gòu)造一個(gè)多聲道音頻信號(hào)張量。
實(shí)驗(yàn)采用的多聲道音頻信號(hào)是通過實(shí)際多個(gè)不同位置音頻采集設(shè)備生成,并且各聲道音頻之間具有較強(qiáng)的相關(guān)性。測(cè)試音頻包括5條5.1聲道音頻,每條音頻截取出20 s,采樣率為48 kHz,采樣精度為16 bit,使用漢明窗分幀后的幀長(zhǎng)為20 ms,即每幀包含960個(gè)采樣值,并且?guī)c幀之間有50%的重疊(10 ms的幀移)。5.1聲道音頻由左聲道(left)、右聲道(right)、中置(center),低頻增強(qiáng)(low frequency effects),左環(huán)繞(left surround),右環(huán)繞(right surround)6個(gè)聲道構(gòu)成。實(shí)驗(yàn)都是在Intel core i3 2.3 G,2 G RAM的計(jì)算機(jī)上進(jìn)行,仿真軟件為MATLAB(R2010a)。
音頻數(shù)據(jù)丟失采用隨機(jī)丟失方式,定義一個(gè)有數(shù)據(jù)丟失的音頻張量M,目標(biāo)就是通過LRTC從M中恢復(fù)原始音頻χ。
4.1 音頻恢復(fù)及客觀評(píng)價(jià)
實(shí)驗(yàn)使用張量工具箱[18](tensor_toolbox2.6)構(gòu)建多聲道音頻張量,張量中元素進(jìn)行歸一化處理,即元素值除以張量的Frobenius范數(shù),分別采用LRTC方法、文獻(xiàn)[3]中的LP方法和文獻(xiàn)[6]中提出的CP-WOPT方法進(jìn)行音頻恢復(fù)。在LRTC實(shí)驗(yàn)中設(shè)置正則參數(shù),容許誤差,最大迭代次數(shù)為400次,初始化時(shí)丟失數(shù)據(jù)部分的值用可觀測(cè)到數(shù)據(jù)的均值代替。在LP實(shí)驗(yàn)中,預(yù)測(cè)階數(shù)設(shè)置為16。在CP-WOPT實(shí)驗(yàn)中,秩選取R=2,4兩種情況,初始化時(shí)丟失數(shù)據(jù)部分的值設(shè)置為0,并且使用SVD初始化CP分解的因子矩陣。
實(shí)驗(yàn)分別設(shè)置25%,50%,75%的數(shù)據(jù)丟失率,采取隨機(jī)丟失方式,音頻的客觀恢復(fù)質(zhì)量評(píng)價(jià)采用相對(duì)標(biāo)準(zhǔn)差(Relative Standard Error,RSE)或者信噪比(Signal-Noise Ratio,SNR)進(jìn)行評(píng)價(jià),RSE定義為
從式(19)容易得出恢復(fù)音頻的SNR為
表2和圖1分別顯示了幾種不同方法恢復(fù)音頻的SNR和恢復(fù)所用時(shí)間(5條多聲道音頻測(cè)試結(jié)果的平均值)??梢钥闯觯琇P方法雖然在音頻恢復(fù)過程中用時(shí)相對(duì)較少,但是SNR較低;LRTC方法恢復(fù)音頻的SNR最高,但恢復(fù)用時(shí)比LP略多,也就是說LRTC以提高算法復(fù)雜度為代價(jià)換來(lái)了較好的音頻恢復(fù)效果;CP-WOPT方法恢復(fù)音頻的性能居中。整體來(lái)看,在3種方法的恢復(fù)時(shí)間相當(dāng)?shù)那闆r下,LRTC具有更好的恢復(fù)精度。
表2 音頻恢復(fù)的SNR(dB)
4.2 MUSHRA測(cè)試
多聲道音頻恢復(fù)的主要目的是為了讓聽眾獲得更好的聽覺效果,下面采用隱藏參考和基準(zhǔn)的多激勵(lì)(MUSHRA)方法測(cè)試其主觀聽覺上的恢復(fù)質(zhì)量。
測(cè)試中,5個(gè)聽音人通過對(duì)比已知的參考音頻和待測(cè)的恢復(fù)的音頻,用0~100評(píng)分尺度進(jìn)行打分,分級(jí)是連續(xù)的,從“非常好”到“差”,0分對(duì)應(yīng)的是最低的“差”,100分對(duì)應(yīng)的是最高的“非常好”,打分時(shí)給出評(píng)分值為0~100的整數(shù)值。測(cè)試結(jié)果如圖2所示。圖2顯示了在不同數(shù)據(jù)丟失率的情況下,LRTC方法、LP方法和CP-WOPT方法的MUSHRA分?jǐn)?shù)。從測(cè)試結(jié)果中可以看出,LRTC方法恢復(fù)音頻的MUSHRA測(cè)試分?jǐn)?shù)均在80分以上,都高于另外兩種方法所恢復(fù)音頻的MUSHRA測(cè)試分?jǐn)?shù)。隨著數(shù)據(jù)丟失率的上升,3種方法恢復(fù)的音頻質(zhì)量都有所下降。
多聲道音頻信號(hào)的丟失數(shù)據(jù)恢復(fù)方法優(yōu)劣直接影響到重構(gòu)后3維音頻的展示效果。本文針對(duì)音頻數(shù)據(jù)丟失采用低秩張量補(bǔ)全方法,首先將多聲道音頻信號(hào)進(jìn)行張量建模,然后把一個(gè)低秩近似問題通過凸松弛和變量分離技術(shù)轉(zhuǎn)化為張量跡范數(shù)的凸優(yōu)化問題,并且通過交替迭代算法求解原始音頻的近似張量,進(jìn)而恢復(fù)音頻數(shù)據(jù)。通過主客觀測(cè)試實(shí)驗(yàn)表明該方法具有較高的數(shù)據(jù)恢復(fù)能力,用于多聲道音頻信號(hào)的恢復(fù)是有效的,對(duì)于空間音頻數(shù)據(jù)恢復(fù)以及多聲道音頻壓縮重構(gòu)場(chǎng)合都有很好的應(yīng)用前景。
圖1 音頻恢復(fù)所用時(shí)間比較
圖2 MUSHRA測(cè)試平均分?jǐn)?shù)
參考文獻(xiàn)
[1]王磊,周樂囡,姬紅兵,等.一種面向信號(hào)分類的匹配追蹤新方法[J].電子與信息學(xué)報(bào),2014,36(6):1299-1306.doi:10.3724/SP.J.1146.2013.00942.WANG Lei,ZHOU Lenan,JI Hongbing,et al.A new matching pursuit algorithm for signal classification[J].Journal of Electronics & Information Technology,2014,36(6):1299-1306.doi:10.3724/SP.J.1146.2013.00942.
[2]VASEGHI S and FRANYLING C.Restoration of old gramophone recordings[J].AES Journal of the Audio Engineering Society,1992,40(10):791-801.
[3]高悅,陳硯圃,閔剛,等.基于線性預(yù)測(cè)分析和差分變換的語(yǔ)音信號(hào)壓縮感知[J].電子與信息學(xué)報(bào),2012,34(6):1408-1413.doi:10.3724/SP.J.1146.2011.01001.GAO Yue,CHEN Yanpu,MIN Gang,et al.Compressed sensing of speech signals based on linear prediction coefficients and difference transformation[J].Journal of Electronics & Information Technology,2012,34(6):1408-1413.doi:10.3724/SP.J.1146.2011.01001.
[4]COCCHI G and UNCINI A.Subbands audio signal recovering using neural nonlinear prediction[C].Proceedings of the 2001 International Conference on Acoustics,Speech and Signal Processing(ICASSP),Salt Lake City,UT,USA,2001:1289-1292.
[5]朱墨,吳國(guó)清,郭新毅.基于盲解卷積的水聲信號(hào)恢復(fù)技術(shù)[J].應(yīng)用聲學(xué),2011,30(3):177-186.doi:10.3969/j.issn.1000-310X.2011.03.003.ZHU Mo,WU Guoqing,and GUO Xinyi.An underwater signal recovery technique based on blind deconvolution[J].Journal of Applied Acoustics,2011,30(3):177-186.doi:10.3969/j.issn.1000-310X.2011.03.003.
[6]ACAR E,DUNLAVY D M,KOLDA T G,et al.Scalable tensor factorizations with missing data[C].Proceedings of the 10th SIAM International Conference on Data Mining,Columbus,OH,United States,2010:701-712.
[7]ZHAO Qibin,ZHANG Liqing,and CICHOCKI A.Bayesian CP factorization of incomplete tensors with automatic rank determination[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,37(9):1751-1763.doi:10.1109/TPAMI.2015.2392756.
[8]TAN Huachun,WU Yuankai,F(xiàn)ENG Guangdong,et al.A new traffic prediction method based on dynamic tensor completion[J].Procedia-Social and Behavioral Sciences,2013,96(8):2431-2442.doi:10.1016/j.sbspro.2013.08.272.
[9]LIU Yuanyuan and SHANG Fanhua.An efficient matrix factorization method for tensor completion[J].IEEE Signal Processing Letters,2013,20(4):307-310.doi:10.1109/LSP.2013.2245416.
[10]劉園園.快速低秩矩陣與張量恢復(fù)的算法研究[D].[博士論文],西安電子科技大學(xué),2013.doi:10.7666/d.D363665.LIU Yuanyuan.Algorithm research of fast low-rank matrix and tensor recovery[D].[Ph.D.dissertation],Xidian University,2013.doi:10.7666/d.D363665.
[11]樊勁宇,顧紅,蘇衛(wèi)民,等.基于張量分解的互質(zhì)陣MIMO雷達(dá)目標(biāo)多參數(shù)估計(jì)方法[J].電子與信息學(xué)報(bào),2015,37(4):933-938.doi:10.11999/JEIT140826.FAN Jinyu,GU Hong,SU Weimin,et al.Co-prime MIMO radar multi-parameter estimation based on tensor decomposition[J].Journal of Electronics & Information Technology,2015,37(4):933-938.doi:10.11999/JEIT140826.
[12]CICHOCKI A,ZDUNEK R,PHAN A H,et al.Nonnegative matrix and tensor factorizations[M].Chichester,WS:John Wiley & Sons,2009:28-31.
[13]LERMAN G and ZHANG T.Robust recovery of multiple subspaces by geometric lpminimization[J].Annals ofStatistics,2011,39(5):2686-2715.doi:10.1214/11-AOS914.
[14]CHEN Y,HSU C,and LIAO H M.Simultaneous tensor decomposition and completion using factor priors[J].IEEE Transactions on Software Engineering,2014,36(3):577-591.doi:10.1109/TPAMI.2013.164.
[15]RECHT B,F(xiàn)AZEL M,and PARRILO P.Guaranteed minimum-rank solutions of linear matrix equations via nuclear norm minimization[J].SIAM Review,2010,52(3):471-501.
[16]LIU Ji,MUSIALSKI P,WONKA P,et al.Tensor completion for estimating missing values in visual data[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):208-2121.doi:10.1109/TPAMI.20125.39.
[17]GANDY S,RECHT B,and YAMADA I.Tensor completion and low-n-rank tensor recovery via convex optimization[J].Inverse Problems,2011,27(2):25010-25028.
[18]KOLDA T G,BADER B,SUN Jimneg,et al.MATLAB tensor toolbox version 2.6[OL].http://www.sandia.gov/~tgkolda/ Tensor Toolbox/index-2.6.html,2015.2.
楊立東:男,1978年生,副教授,主要從事模式識(shí)別、音頻信號(hào)處理方面的研究.
王晶:女,1980年生,副教授,主要從事音頻信號(hào)處理、音頻壓縮方面的研究.
謝湘:男,1976年生,副教授,主要從事模式識(shí)別、語(yǔ)音信號(hào)處理方面的研究.
Low Rank Tensor Completion for Recovering Missing Data in Multi-channel Audio Signal
YANG Lidong①②WANG Jing①XIE Xiang①ZHAO Yi①KUANG Jingming①
①(School of Information and Electronics,Beijing Institute of Technology,Beijing 100081,China)
②(School of Information Engineering,Inner Mongolia University of Science and Technology,Baotou 014010,China)
Abstract:The data maybe miss due to problems in the acquisition,compression or transmission process of multichannel audio signal.In order to take audiences real auditory sense,an approach of signal recovery based on low rank tensor completion is proposed.First,multi-channel audio signal is represented as a signal tensor.Second,tensor completion is formulated as a convex optimization problem.A closed form for augmented Lagrangian function is obtained via relaxation technique and separation of variables technique.At last,the audio tensor is recovered by alternating iteration.In experiments of varying number of missing entries,the comparisons show that the proposed method is more accurate than linear prediction and CANDECOMP/PARAFAC weighted optimization.The results of multiple stimuli with hidden reference and anchor indicate that low rank tensor completion method is validated for multi-channel audio signal recovery.The better auditory effects are obtained by recovered audio.
Key words:Audio signal recovery; Tensor completion; Trace norm; Convex optimization
基金項(xiàng)目:國(guó)家自然科學(xué)基金(61473041),內(nèi)蒙古高校科研項(xiàng)目(NJZY13139)
*通信作者:王晶wangjing@bit.edu.cn
收稿日期:2015-05-18;改回日期:2015-11-02;網(wǎng)絡(luò)出版:2015-12-04
DOI:10.11999/JEIT150589
中圖分類號(hào):TN912.3
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-5896(2016)02-0394-06
Foundation Items:The National Natural Science Foundation of China(61473041),Scientific Research Project in Colleges and Universities of Inner Mongolia(NJZY13139)