薛海雙,孫林慧,歐國振
(南京郵電大學 通信與信息工程學院,江蘇 南京 210003)
平滑L0算法在語音壓縮重構(gòu)中的應用
薛海雙,孫林慧,歐國振
(南京郵電大學 通信與信息工程學院,江蘇 南京 210003)
語音信號在頻域和離散余弦變換域等都具有良好的稀疏特性,滿足壓縮感知的先驗條件,因此可以基于壓縮感知對語音信號進行處理。語音壓縮感知主要包括三個方面:稀疏基、觀測矩陣和重構(gòu)算法。其中,重構(gòu)算法直接影響著重構(gòu)信號的質(zhì)量,是最重要的一部分。傳統(tǒng)的語音壓縮感知?;谡黄ヅ渥粉櫵惴ㄟM行重構(gòu)。正交匹配追蹤算法要求已知信號稀疏度,增加了實現(xiàn)的難度。為了提高語音信號的重構(gòu)質(zhì)量、簡化實現(xiàn)過程,提出了一種基于平滑L0算法的語音壓縮重構(gòu)模型。平滑L0算法是用平滑函數(shù)逼近L0范數(shù),它不需要提前知道信號的稀疏度,具有計算量低、重構(gòu)質(zhì)量高等優(yōu)點。此外,提出了一種新的平滑函數(shù),并基于高斯函數(shù)和新的平滑函數(shù)來驗證平滑L0算法在語音壓縮重構(gòu)中的優(yōu)越性。實驗結(jié)果表明,在相同的條件下,相比于正交匹配追蹤算法,使用平滑L0算法對語音進行重構(gòu),不僅縮短了重構(gòu)時間,而且大大提高了重構(gòu)質(zhì)量。
壓縮感知;語音重構(gòu);重構(gòu)算法;平滑L0算法;平滑函數(shù);L0范數(shù)
傳統(tǒng)上對語音信號進行處理都是基于奈奎斯特采樣定理[1]:在發(fā)送端對信號進行采樣,然后經(jīng)過壓縮、傳輸?shù)竭_接收端后,再利用內(nèi)插、平滑等方法恢復出原始信號。奈奎斯特采樣定理要求采樣頻率必須大于信號最高頻率的兩倍,否則在接收端將不能很好地恢復原信號。近年來,壓縮感知[2](Compressed Sensing,CS)理論在語音信號處理的各領域應用廣泛,比如語音增強[3]和聲源分離[4]等。不同于傳統(tǒng)的奈奎斯特采樣定理,CS理論跳出了傳統(tǒng)采樣的思維模式,不再要求采樣率必須高于信號最高頻率的兩倍。壓縮采樣就是通過觀測將滿足稀疏特性的信號從高階矩陣線性投影為低階。在此過程中,采樣和壓縮同時進行,大大減少了采樣的復雜度。最后,壓縮感知理論還可以通過重構(gòu)算法高質(zhì)量地重構(gòu)出原信號。
語音壓縮感知理論主要包括三部分:選取稀疏基、設計觀測矩陣和選擇重構(gòu)算法。其中,重構(gòu)算法是壓縮感知最重要的一部分,因為它直接影響著重構(gòu)信號的質(zhì)量。目前,重構(gòu)算法[5-6]主要分為三類:基于0范數(shù)最小化的貪婪類算法,比如正交匹配追蹤[7-8](Orthogonal Matching Pursuit,OMP)算法;基于1范數(shù)最小化的凸優(yōu)化算法,比如基追蹤[9](Basis Pursuit,BP)法;以及它們的組合算法。貪婪算法的主要思想是每次迭代時得到的不是精確解,而是選擇迭代點的局部最優(yōu)解逼近原始信號。貪婪算法計算簡單、重構(gòu)效果好,但大部分貪婪算法要求已知信號的稀疏度,在實際中難以滿足。凸優(yōu)化算法是把0范數(shù)的求解問題轉(zhuǎn)換成1范數(shù),從而解決0范數(shù)的NP難題。凸優(yōu)化算法信號重構(gòu)率高,所需的觀測點少,但是,計算復雜度高,計算速度比較慢。
平滑L0[10-11](Smoothed L0,SL0)算法主要采用最速下降法和梯度投影原理。選取合適的平滑函數(shù)逼近0范數(shù)是SL0算法的關鍵問題。SL0算法的優(yōu)勢在于:重構(gòu)前不需要提前知道信號的稀疏度,具有計算量小、匹配度高以及重構(gòu)時間少[12]等優(yōu)點。為此,提出了一種基于SL0的語音信號重構(gòu)算法。該算法將0范數(shù)的問題直接轉(zhuǎn)換為平滑函數(shù)的極值問題,降低了計算復雜度。此外,在平滑函數(shù)的選取上,采用了高斯函數(shù),并提出了一種新的平滑函數(shù)。使用基于這兩種平滑函數(shù)的SL0算法對語音信號進行重構(gòu)。實驗結(jié)果表明:基于兩種平滑函數(shù)的SL0重構(gòu)算法重構(gòu)出的語音信號平均幀信噪比(Average Frame Signal-to-Noise Ratio,AFSNR)和平均意見得分(Mean Opinion Score,MOS)都要高于傳統(tǒng)OMP算法。這說明了只要選取合適的平滑函數(shù),基于SL0算法的語音信號重構(gòu)質(zhì)量要高于傳統(tǒng)OMP算法。
壓縮感知實現(xiàn)了采樣與壓縮的同時進行。語音壓縮感知的具體過程為:輸入信號經(jīng)過稀疏變換得到稀疏信號,稀疏信號乘以一個觀測矩陣得到觀測值,這樣就完成了壓縮的過程;壓縮后的信號更有利于存儲傳輸,并且基于重構(gòu)算法,能夠根據(jù)觀測值不失真地重構(gòu)出原信號。
假設一個長度為N的信號x∈RN。如果它可以表示成式(1)的形式,則稱x在D域是K-稀疏的。
x=Dα
(1)
其中,D=[d1,d2,…,dN]∈RN×N是一個正交矩陣;α是一個只有K個非零值的稀疏向量。
選擇一個M×N維的觀測矩陣Ψ。如式(2),對x進行降維處理,得到觀測值y。
y=Ψx
(2)
將式(1)代入式(2),得到:
y=Ψx=ΨDα=Φα
(3)
其中,Φ=Ψ×D∈RM×N為壓縮矩陣。
由于M min‖α‖0s.t.y=Φα (4) 壓縮感知理論指出,只要信號在某個變換域內(nèi)具有稀疏性,則可以通過一個觀測矩陣將信號線性投影到低維空間,從而實現(xiàn)對信號的壓縮?;跀?shù)學上最優(yōu)化問題的求解方法,便可以根據(jù)觀測值高質(zhì)量地重構(gòu)出原始信號。語音信號滿足CS理論這個先驗條件,所以可以使用CS理論壓縮處理語音信號。使用壓縮感知對語音信號進行無失真低速率的采樣,對信號的采樣、存儲、傳輸和處理都帶來了很大方便。將CS理論用到語音信號中來探求語音處理的新方法意義非凡,語音信號的CS重構(gòu)方法將是其實現(xiàn)的基礎[13-14]。 在壓縮感知模型中,重構(gòu)算法是恢復原始信號必不可少的一個環(huán)節(jié),直接影響重構(gòu)信號的質(zhì)量。重構(gòu)算法應該遵循如下原則:算法能夠在觀測值較少的情況下,快速精確地恢復出原信號。目前,重構(gòu)算法主要分為三類:基于0范數(shù)最小化的貪婪算法,比如匹配追蹤法、正交匹配追蹤算法以及基于此算法的正則正交匹配追蹤算法和壓縮感知匹配追蹤算法等;基于1范數(shù)最小化的凸優(yōu)化算法,包括內(nèi)點法、基追蹤算法、閾值迭代法、梯度投影算法等;以及以上重構(gòu)算法的組合算法。其中,OMP算法最具代表性,也是語音信號重構(gòu)時最常用的算法。所以將基于SL0算法的重構(gòu)模型和基于OMP算法的重構(gòu)模型進行比較,證明所提出的重構(gòu)模型的優(yōu)越性。 3.1 正交匹配追蹤(OMP)算法 OMP算法首先根據(jù)匹配追蹤算法(Matching Pursuit,MP)中選擇原子的原則,從壓縮矩陣中選取和迭代余量(觀測值的殘差)乘積最大的原子,然后將選擇后的原子進行格萊姆-施密特正交化(Gram-Schmidt Orthogonalization),得到由這些正交原子構(gòu)成的空間,再將信號投影到此空間上,進而得到信號在正交空間上的分量和迭代余量,最后用同樣的方法分解余量,使用最小二乘法找到最匹配的原子,循環(huán)直至逼近原始信號。 OMP算法實現(xiàn)的具體過程如下: 輸入:壓縮矩陣Φ,觀測值y,稀疏度k; 輸出:信號x的k稀疏信號α的逼近αr,重構(gòu)誤差e; 初始化:余量r0=y,重建信號α0=0;索引集Γn=Γn-1∪{k},迭代次數(shù)n=0。 步驟1:計算余量和壓縮矩陣Φ每一列的內(nèi)積gn=ΦTrn-1; 步驟3:更新索引集Γn=Γn-1∪{m}和原子集合ΦΓn=ΦΓn-1∪{?m}; 步驟5:更新余量rn=y-Φαn; 步驟6:判斷是否滿足收斂條件,滿足則截止,αr=αn,e=rn,輸出αr,αn,不滿足則轉(zhuǎn)步驟1循環(huán)。 3.2 平滑L0算法 (5) 那么,稀疏向量α的0范數(shù)可以表示成: (6) 由式(6)可以看出,稀疏向量α的0范數(shù)的不連續(xù)性是由不連續(xù)函數(shù)g引起的。如果用一個近似函數(shù)g的平滑連續(xù)函數(shù)來代替函數(shù)g,那么就可以得到0范數(shù)的平滑估計。 SL0算法的關鍵問題是平滑連續(xù)函數(shù)的選取。如果一個連續(xù)函數(shù)滿足式(7)的形式: (7) (8) (9) 所以,稀疏向量α的0范數(shù)可以表示為: (10) 此時式(4)的求解模型可以轉(zhuǎn)化為: (11) 其中,參數(shù)σ決定了逼近的程度。當σ=0時,‖α‖0=n-Fσ(α),此時式(11)的解就是求解模型式(4)的解。然而,實際中無法使得σ取值到0,因此只能選擇一個遞減的序列σ1,σ2,σ3…,求解每一個σi值對應的目標函數(shù)的最優(yōu)解,直到σ足夠小為止。 3.2.1 標準高斯函數(shù)作為平滑函數(shù) 標準的高斯函數(shù)形式如下: fσ(α)=e-α2/2σ2 (12) 它是一個均值為0、方差為σ的高斯分布,顯然滿足式(7),所以SL0重構(gòu)算法中通常使用此函數(shù)作為平滑函數(shù)。 基于標準高斯函數(shù)的SL0重構(gòu)算法已經(jīng)應用到很多領域并取得了不錯的成果。將基于高斯函數(shù)的SL0重構(gòu)算法應用到語音信號的壓縮感知中,發(fā)現(xiàn)基于此方法重構(gòu)出的語音信號更接近原始信號。 3.2.2 提出的新的平滑函數(shù) 為了進一步證明SL0算法對語音信號的重構(gòu)性能,又提出了類似式(13)形式的平滑函數(shù),來近似0范數(shù)。 fσ(α)=2/(1+e5α2/σ2) (13) 為了看出兩種平滑函數(shù)的差異,在方差σ=0.1時畫出了兩種函數(shù)的曲線,如圖1所示。 由圖1可以看出,提出的新的平滑函數(shù)比標準高斯函數(shù)更“陡峭”,因此理論上新的平滑函數(shù)逼近0范數(shù)的效果應該更好。 語音壓縮感知理論主要包括三部分:選取稀疏基、設計觀測矩陣和重構(gòu)算法。其中,信號稀疏基主要分為三類:正交基變換、多尺度幾何變換和冗余字典。語音信號作為低維信號,一般不用多尺度幾何變換。為此,研究重點在重構(gòu)算法,因此在稀疏基的選取上使用常用的離散余弦(Discrete Cosine Transformation,DCT)稀疏基,觀測矩陣選擇高斯觀測矩陣。 圖1 函數(shù)曲線 將SL0算法用在語音壓縮感知重構(gòu)上,并與傳統(tǒng)的OMP算法作比較。其中,SL0算法使用了兩種不同的平滑函數(shù),分別是標準的高斯函數(shù)和所提出的平滑函數(shù)。通過比較發(fā)現(xiàn),基于兩種平滑函數(shù)的SL0算法對語音信號進行重構(gòu)時,效果都比傳統(tǒng)的OMP算法好;另一方面,基于新的平滑函數(shù)的SL0算法重構(gòu)出的語音信號的平均幀信噪比,要高于基于標準高斯函數(shù)的語凌晨信號的平均幀信噪比。 采用SL0算法的具體步驟如下: 步驟1:設置初始值,重構(gòu)信號α=ΦTy,余量初始值r0=0,平滑函數(shù)初始參數(shù)σ=1; 步驟2:求-Fσ的搜索方向d; 步驟3:使用修正的牛頓算法更新重構(gòu)信號α=α+μd; 步驟4:使用梯度投影算法得到α=α-ΦT(ΦΦT)-1(Φα-y),計算余量r=y-Φα; 為了驗證算法的重構(gòu)性能,應用MATLAB平臺對算法進行測試仿真。從中國科學院自動化研究所漢語語音庫中,選取一段時長為1 s的男性語音“大規(guī)模集成電路”。此信號的采樣頻率為16 kHz?;谡Z音信號的短時平穩(wěn)性[15],對該語音進行分幀處理。其中每幀信號取256個采樣點。 在MATLAB中,使用了tic、toc語句對重構(gòu)的時間進行計算。經(jīng)計算:在相同環(huán)境下,基于所提出的平滑函數(shù)的SL0算法重構(gòu)時間為3.269 0 s,基于標準高斯函數(shù)的SL0算法重構(gòu)時間為3.512 8 s,傳統(tǒng)的OMP算法的重構(gòu)時間為11.654 3 s。所以,SL0算法大大降低了語音重構(gòu)的時間。 在評估語音重構(gòu)質(zhì)量方面,從客觀和主觀兩個方面入手。在客觀方面,首先選取該語音信號的一幀濁音,在壓縮比(M/N)為0.5的情況下,畫出該幀信號在DCT稀疏域的波形,計算出該幀信號的重構(gòu)相對誤差。其次,將壓縮比分別設置為0.1,0.2,…,0.9,并求出不同壓縮比下的平均幀信噪比(AFSNR)。在主觀方面,對在不同壓縮比情況下重構(gòu)的語音信號,進行平均意見得分(MOS)評估。為了描述方便,把使用標準高斯函數(shù)的SL0算法稱為GSL0(Gaussian Smoothed L0),把使用所提出的連續(xù)函數(shù)作為平滑函數(shù)的SL0算法稱為NSL0(New Smoothed L0)。 5.1 客觀方面 該幀信號在DCT域的波形及基于不同重構(gòu)方法重構(gòu)的幀信號波形見圖2。 圖2 語音信號幀重構(gòu)前后波形對比 從圖2中可以看出,相比傳統(tǒng)的OMP重構(gòu)模型,GSL0重構(gòu)模型和NSL0重構(gòu)模型重構(gòu)的語音幀波形更接近原語音幀的波形。再使用式(14)計算此幀信號的相對誤差: (14) 經(jīng)計算:基于NSL0的相對誤差為0.080 2,基于GSL0算法的相對誤差為0.086 4,而基于OMP算法的相對誤差為0.119 0。可以看出,基于SL0算法得到的相對誤差明顯小于基于OMP算法的值。 接下來,在不同壓縮比下,根據(jù)式(15)求解AFSNR: (15) 其中,P為語音幀數(shù)。 實驗數(shù)據(jù)記錄在表1和圖3中。 從表1和圖3中可以看出,隨著壓縮比的增加,不論使用哪種重構(gòu)方法,語音的AFSNR都會隨著增加。但是,在相同的壓縮比下,基于NSL0算法重構(gòu)的語音信號的AFSNR要高于基于GSL0算法的,但相差并不大。但是,不論是基于NSL0算法還是基于GSL0算法,重構(gòu)后的語音信號的AFSNR都要明顯高于傳統(tǒng)的OMP重構(gòu)模型。因此可以說明,所提出的基于SL0的語音壓縮重構(gòu)算法可以明顯提高語音重構(gòu)的質(zhì)量。此外,基于新提出的平滑函數(shù)的SL0算法也實現(xiàn)了比基于高斯函數(shù)的SL0算法較好的效果。 5.2 主觀方面 在主觀方面,采用PESQ(Perceptual Evaluation of Speech Quality)測試語音的質(zhì)量,得到的PESQ MOS如表2和圖4。PESQ MOS是最直觀反映語音質(zhì)量的技術(shù)指標,根據(jù)ITU P.862規(guī)范,取值范圍為0(最差)~5(最好)。 表1 采用不同算法重構(gòu)后的平均幀信噪比 dB 表2 采用不同算法后的MOS 圖3 平均幀信噪比隨壓縮比的變化曲線 圖4 MOS隨壓縮比的變化曲線 從表2和圖4可以看出,隨著壓縮比的增加,MOS也會隨著增加。但是,在相同的壓縮比下,基于NSL0算法的語音重構(gòu)信號的MOS和基于GSL0算法的相差無幾,但是都要高于基于傳統(tǒng)OMP算法的。因此,所提出的基于SL0重構(gòu)模型的MOS要高于傳統(tǒng)的OMP重構(gòu)模型,在主觀方面,基于SL0算法重構(gòu)的語音具有較好的聽覺感受。 實驗結(jié)果表明,對于語音信號來說,與傳統(tǒng)的OMP重構(gòu)算法進行比較,所采用的基于兩種平滑函數(shù)的SL0重構(gòu)方法都可以提高語音信號的重構(gòu)質(zhì)量、減少重構(gòu)時間。并且,在某些特定的環(huán)境下,基于新的平滑函數(shù)的SL0重構(gòu)模型的平均幀信噪比要高于使用標準高斯函數(shù)的SL0重構(gòu)模型。 為了提高語音信號的重構(gòu)質(zhì)量、縮短重構(gòu)時間,提出了一種基于SL0算法的語音信號重構(gòu)算法。實驗結(jié)果證明,基于兩種平滑函數(shù)的SL0算法,對語音信號進行重構(gòu)時,性能均優(yōu)于傳統(tǒng)的OMP算法。并且,在某些特定的環(huán)境下,基于新的平滑函數(shù)的SL0重構(gòu)模型的語音重構(gòu)質(zhì)量要高于使用標準高斯函數(shù)的SL0重構(gòu)模型。 [1] Vaidyanathan P P. Generalizations of the sampling theorem:seven decades after Nyquist[J].IEEE Transactions on Circuits and Systems I:Fundamental Theory and Applications,2001,48(9):1094-1109. [2] Donoho D L.Compressed sensing[J].IEEE Transactions onInformation Theory,2006,52(4):1289-1306. [3] Sigg C D,Dikk T,Buhmann J M.Speech enhancement using generative dictionary learning[J].IEEE Transactions on Audio,Speech,and Language Processing,2012,20(6):1698-1712. [4] Jafari M G,Plumbley M D,Davies M E.Speech separation using an adaptive sparse dictionary algorithm[C]//Hands-free speech communication and microphone arrays.Trento:[s.n.],2008:25-28. [5] 李 珅,馬彩文,李 艷,等.壓縮感知重構(gòu)算法綜述[J].紅外與激光工程,2013,42(S1):225-232. [6] 李 博.壓縮感知理論的重構(gòu)算法研究[D].長春:吉林大學,2013. [7] Yang M,de Hoog F.Orthogonal matching pursuit with thresholding and its application in compressive sensing[J].IEEE Transactions on Signal Processing,2015,63(20):5479-5486. [8] 楊真真,楊 震,孫林慧.信號壓縮重構(gòu)的正交匹配追蹤類算法綜述[J].信號處理,2013,29(4):486-496. [9] Ekanadham C, Tranchina D, Simoncelli E P. Recovery of sparse translation-invariant signals with continuous basis pursuit[J].IEEE Transactions on Signal Processing,2011,59(10):4735-4744. [10] Mohimani H,Babaie-Zadeh M,Jutten C.A fast approach for overcomplete sparse decomposition based on smoothed l0 norm[J].IEEE Transactions on Signal Processing,2009,57(1):289-301. [11] 王軍華,黃知濤,周一宇.稀疏信號重構(gòu)的迭代平滑l0范數(shù)最小化算法[J].宇航學報,2012,33(5):642-647. [12] Quan X,Jing X,Sun S,et al.Sparse channel estimation in OFDM systems using improved smooth L0 algorithm[C]//14th international symposium on communications and information technologies.[s.l.]:[s.n.],2014:346-350. [13] 孫林慧.語音壓縮感知關鍵技術(shù)研究[D].南京:南京郵電大學,2012. [14] 趙瑞珍,林婉娟,李 浩,等.基于光滑l0范數(shù)和修正牛頓法的壓縮感知重建算法[J].計算機輔助設計與圖形學學報,2012,24(4):478-484. [15] 孫林慧,楊 震.基于壓縮感知的分布式語音壓縮與重構(gòu)[J].信號處理,2010,26(6):824-829. Application of Smoothed L0 Algorithm in Compressed Sensing Reconstruction of Speech Signal XUE Hai-shuang,SUN Lin-hui,OU Guo-zhen (Institute of Telecommunications & Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China) At present,speech signals have good sparsities in domains like frequency and Discrete Cosine Transformation (DCT) and so on,which satisfies the prerequisite for Compressed Sensing (CS).Therefore,it can be treated by CS theory,which consists of sparse representation of the signal,design of the measurement matrix and the algorithms of reconstruction.Among them,the most important part is reconstruction algorithms which can influence the quality of reconstructed signals directly.The traditional compressed sensing reconstruction of speech is usually based on Orthogonal Matching Pursuit (OMP) method.The orthogonal matching pursuit method needs to obtain sparse priors of the speech signal in advance,which makes the realization difficult.In order to improve the reconstruction quality of speech signal and simplify the implementation process,a compressed speech’s reconstruction method based on Smoothed L0 (SL0) algorithm has been proposed,in which the SL0 uses smooth function to approximate L0 norm without acquisition of sparse priors of the speech signal in advance and with advantages of lower calculation capacity and higher quality of reconstruction.In addition,a new smooth function has been proposed.Gaussian function and the new smooth function are used to confirm the performance of the SL0.Simulation results demonstrate that the SL0 algorithm has not only obtained a higher quality of reconstruction than the traditional OMP method,but also shorten the implementation time. compressed sensing;speech reconstruction;algorithms of reconstruction;smoothed L0 algorithm;smooth function;L0 norm 2016-08-04 2016-11-10 網(wǎng)絡出版時間:2017-04-28 國家自然科學基金資助項目(61271335);江蘇省自然科學基金項目(BK20140891);南京郵電大學??蒲谢痦椖?NY214038) 薛海雙(1990-),女,碩士,研究方向為語音處理及人機交互;孫林慧,副教授,研究方向為語音處理與現(xiàn)代語音通信技術(shù)。 http://kns.cnki.net/kcms/detail/61.1450.TP.20170428.1704.088.html TP39 A 1673-629X(2017)06-0160--05 10.3969/j.issn.1673-629X.2017.06.0333 語音信號壓縮感知重構(gòu)算法描述
4 基于SL0算法的語音壓縮重構(gòu)模型
5 實驗結(jié)果及分析
6 結(jié)束語