羅武駿 陶文鳳 左加闊 趙 力
(東南大學水聲信號處理教育部重點實驗室,南京 210096)
自適應語音壓縮感知方法
羅武駿 陶文鳳 左加闊 趙 力
(東南大學水聲信號處理教育部重點實驗室,南京 210096)
針對固定正交基下語音信號稀疏化程度低、適應性差的問題,提出了一種自適應的語音稀疏化方法,并將其應用到語音壓縮感知理論中.該方法首先采用線性預測系數(shù)的加權線性組合對語音信號進行線性預測,并以線性預測殘差基作為信號基.然后,按照稀疏約束條件訓練出稀疏表示的過完備字典,并交替應用1-范數(shù)稀疏約束的追蹤和奇異值分解算法,達到字典與稀疏系數(shù)同步更新.該方法從信號特征入手,學習并提取特征或紋理信息,能較好地實現(xiàn)語音信號的稀疏化,提高語音壓縮感知的重構性能.實驗結果顯示,與其他正交基方法相比,該方法的語音稀疏化程度高.語音質量的主客觀評價結果顯示,該方法具有良好的重構性能.
壓縮感知;稀疏性;語音;線性預測
2006年,Candes等[1-2]提出了壓縮感知(compressed sensing,CS)理論,在某種程度上突破了奈奎斯特采樣定律的限制.壓縮感知理論在信息采樣上的特性使其具有巨大的吸引力和應用前景,其應用研究已經(jīng)涉及眾多領域[3],如CS雷達、分布壓縮感知理論、無線傳感網(wǎng)絡、圖像采集設備的開發(fā)、醫(yī)學圖像處理、生物傳感、光譜分析、超譜圖像處理及遙感圖像處理等.在CS理論中,找到信號的最佳稀疏表示,是應用的基礎和前提.
信號的稀疏性研究是信號與信息處理中的一個重要課題.稀疏變換是信號稀疏表示的關鍵技術,常用的稀疏變換方法有傅里葉變換、小波變換、KL變換以及最近發(fā)展的稀疏字典等.傅里葉變換、離散余弦變換(DCT)以及其他一些域[4-5]的變換中都包含固定的正交基,變換比較簡單.然而,對于具有復雜結構和特征的信號,例如語音信號(短時平穩(wěn),長時間則不具有穩(wěn)定性),固定的正交基難以捕獲完整信息以使信號在變換域中足夠稀疏,因此在稀疏表示方面顯現(xiàn)出不足,或者無法很稀疏地表示信號.為了更好地表示變化信號的稀疏性,部分學者提出采用自適應冗余字典的構造方法[6-8],從信號本身的特征出發(fā),學習并提取特征或者紋理信息.
本文針對固定正交基下語音稀疏化效果差的問題,首先在殘差域稀疏的約束條件下對語音信號做線性預測,并求殘差,從而得到稀疏變換基;然后,采用自適應訓練字典的方法對語音信號進行壓縮;最后,采用范數(shù)約束算法對語音信號進行重構,并對重構語音進行主客觀評價.
壓縮感知的前提條件是信號必須是稀疏的.已知一維離散信號 x={x(1),x(2),…,x(N)}T,變換矩陣Ψ=[φ1,φ2,…,φN]的列向量互相正交,其中φi(i=1,2,…,N)為 N×1的向量,則信號 x可以表示為
式中,α={α1,α2,…,αN}T為原始信號在變換域中的系數(shù).若對于0<p<2且R>0,α滿足,則說明信號x在某種意義下是稀疏的.
如果信號x是L稀疏的,則可以用一個與正交基Ψ不相關的觀測矩陣A(A是一個M×N的矩陣,M?N)對信號x進行線性變換,得到觀測向量y(y是一個M維的列向量),即
將式(1)代入式(2),得
令AΨ=Θ,則y=Θα.由于y的維數(shù)M 遠遠小于x的維數(shù)N,故認為觀測信號y已被壓縮.
已知y和A求解x,是一個病態(tài)問題,即無法直接從測量值y中解出信號x.然而,當式(3)中的α是L稀疏的,即僅有L個非零系數(shù),且L<M?N時,根據(jù)信號稀疏分解理論中已有的稀疏分解算法,可以通過求解式(3)的逆問題得到系數(shù)α,再代入式(1)便可進一步得到信號x.最直接的重構方法是通過l0-范數(shù)求解式(3)的最優(yōu)化問題,即
從而得到稀疏系數(shù)α的估計.由于式(4)的求解是個病態(tài)問題,而該最優(yōu)化問題與信號的稀疏分解中求解稀疏的問題十分類似,因此有學者從信號稀疏分解的相關理論中尋找到更有效的求解途徑.常用的求解方法有基追蹤法(basic pursuit,BP)[9]、匹配追蹤法(matching pursuit,MP)[10]和正交匹配追蹤法(orthogonal pursuit,OP)等[8].
傳統(tǒng)的線性預測是基于AR模型的,用x中前P個值的加權線性組合來預測x[7],即
式中,a(k)為預測系數(shù);e(n)為預測誤差.通過最小化預測誤差e(n)的均方值來估計a(k).考慮到利用預測誤差的稀疏性,本文采用1-范數(shù)約束預測誤差.因此,優(yōu)化問題可以描述為
令N1=P+1,N2=N,并且假設當n<1或n>N時x(n)=0,即相當于對每幀信號加矩形窗.式(6)可根據(jù)線性規(guī)劃進行求解,求出的預測系數(shù)a使得預測誤差e(n)具有稀疏性質.在預測系數(shù)已知的情況下,預測誤差可以表示為
式中,B為N×N的矩陣,且由預測系數(shù)a構成.因此,式(7)可以改寫為
式中,H為B的逆矩陣,也被稱之為合成矩陣.矩陣H是將殘差域映射到原始時域的基.實際上,H是全極點濾波器的單位脈沖響應矩陣[11],此處不需要計算B矩陣的逆矩陣,可直接利用H代替.
基于稀疏表示的過完備字典訓練方法(KSVD)[8]能夠自適應地按照稀疏約束條件訓練出稀疏表示的過完備字典.與傳統(tǒng)的完備字典相比,自適應的完備字典具有更強的稀疏表示能力.該方法交替應用1-范數(shù)稀疏約束的追蹤和奇異值分解算法,實現(xiàn)字典與稀疏系數(shù)同步更新.
假設訓練信號為矩陣 W=[w1,w2,…,wl],待訓練的字典D=[d1,d2,…,dk],稀疏系數(shù) Z=[z1,z2,…,zl],其中 wi表示一幀訓練信號.則 K-SVD算法模型可描述為
式中,T0表示稀疏度.
具體的算法步驟如下:
①字典初始化.即將矩陣D賦予初始值,一般情況下,直接將訓練信號按照列排列組成比值.
②稀疏編碼.當D固定時,式(9)是一個優(yōu)化問題,即已知W和D求解稀疏系數(shù)Z,代價函數(shù)可以改寫成,因此式(9)等價于
利用基追蹤算法即可計算稀疏系數(shù)zi.
③字典更新.逐列更新訓練字典D,相應的稀疏表示矩陣也同步地逐行更新.記字典D的第K列為dK,在Z中相對應的稀疏表示系數(shù)即為第K行的zTK,則式(8)中的代價函數(shù)可以改寫為
式中表示抽取字典的第K列之后的誤差.
在代價函數(shù)中,將 DZ抽離成2個部分,即dKzTK以及去掉第K列與第K行相乘的部分.由式(11)可知,EK代表抽取字典中第K列之后的誤差.然后,用奇異值分解的方法分解EK來近似表示dK和 zTK.為保證zTK的稀疏性,定義一個矩陣ΩK,其大小為且在位置(wK(i),i)處的元素值為1,其余位置元素值為0.當矩陣ΩK作用于zTK和W時,會剔除稀疏系數(shù)已經(jīng)為0的信號.
可以利用奇異值分解的方法直接更新字典,本算法中采用字典逐列更新的方式.當所有列都已經(jīng)更新一遍后,重復步驟②,直至迭代結束[12].
迭代停止的條件有2種:①限制迭代次數(shù).如在實驗過程中得出的經(jīng)驗值是10,則當?shù)螖?shù)達到10時訓練的字典效果已非常明顯.②設置一個固定值,當稀疏表示誤差達到該值時停止迭代.
在語音信號稀疏域的分析實驗中,安靜環(huán)境下錄制中文男生語音,并對信號進行采樣,采樣率為8 kHz,每幀包含256個采樣點.自適應訓練字典在訓練時采用同一個人的不同語音語料,時間大約是2 min,即9.6×105個采樣點.稀疏度S0的表達式為
式中,Q為幀長;x'i為稀疏化后的預測系數(shù).
為了說明不同稀疏基對語音信號稀疏表示的影響,比較了語音信號在稀疏基DCT,KL和自適應訓練字典基下的平均稀疏度,實驗結果見表1.由表可知,DCT變換壓縮性能較好,因此具有較好的稀疏性表示.但是,DCT變換缺乏時間/空間分辨率,不能有效地提取具有時頻局部化特性的信號的特征.由于DCT變換中基是固定的,因此DCT變換無法自適應地根據(jù)當前信號的特點靈活、簡潔地表示稀疏信號.KL變換充分運用了當前信號的特征,因而相對于DCT變換在稀疏表示方面表現(xiàn)出了較大的優(yōu)勢.KL變換的缺點是,對每一幀信號都需要重新計算KL變換矩陣,計算量明顯增加,影響了壓縮感知的實用性.另外,值得注意的是,語音信號分為濁音和清音,濁音具有明顯的周期性,清音則類似于白噪聲,KL變換對于濁音具有可觀的稀疏性,但在清音段卻沒有稀疏性;語音信號中大部分能量是集中在濁音段的,因此,KL變換對信號恢復的影響不是很大.本文方法與前2種方法最明顯的區(qū)別在于,前者在稀疏化后絕大部分稀疏值都為0,只有少數(shù)幾個點有較大值,因而滿足絕對稀疏的條件.本文方法最大的優(yōu)點是信號重構時誤差較小,與其他稀疏基相比,訓練字典的稀疏性表示效果最好,但付出的代價是訓練時間較長.
表1 不同稀疏基下一幀語音的平均稀疏度比較
綜上所述,對比各種不同稀疏域的效果,計算復雜度與稀疏性似乎總存在矛盾.采用固定的正交基對信號進行稀疏表示是快速簡單的方法,但在稀疏表示方面不夠靈活,自適應的殘差域和訓練的字典能夠靈活地捕捉到信號的變化情況,因此能夠較好地表示變化的稀疏信號,但同時也導致計算量明顯增加.因此,在實際應用中,還需根據(jù)具體需求選擇稀疏基.例如,實時系統(tǒng)對計算復雜度有嚴格的要求,合適的固定正交基是首選;后期處理系統(tǒng)對計算精度要求較高,應將自適應的字典作為首選.
實驗環(huán)境是安靜的.對2個說話人的語音進行采樣,采樣頻率為8 kHz.每個說話人各錄音5 min普通話,而后進行分幀處理(速率為30 ms/幀).稀疏基選取的是線性殘差域,重構算法是1-范數(shù)約束算法.實驗中對男聲和女聲的語音信號分別進行壓縮和重構.為了評估重構算法的性能,采用語音質量評價中常用的客觀評價方法和主觀評價方法,分別定義如下:
1)主觀評價方法.分值算法用于對語音通信系統(tǒng)質量和語音整體滿意度進行評價.語音質量的感性評價(PESQ)方法可以根據(jù)一些感知標準來客觀地評價語音信號的質量,從而提供可以完全量化的語音質量衡量準則[13].
2)客觀評價方法.信噪比(SNR)是一種簡單的時域客觀評價失真測度.實驗中采用幀平均信噪比來衡量重構誤差,其定義如下[14]:
式中,Nf表示總幀數(shù);qm表示語音信號;m表示重構的語音信號.顯然,幀平均信噪比越高,重構的效果越好.
表2給出了不同壓縮比下男聲和女聲語音信號的MOS值和信噪比.由表可知,壓縮感知的重構性能與壓縮比成正比.因此,可以通過適當?shù)靥岣邏嚎s比來增強語音的重構效果.
表2 不同壓縮比下MOS值和信噪比比較
壓縮感知理論通常涉及觀測矩陣選取、稀疏基構造以及重構算法構建3個問題.本文對稀疏基的構建進行了分析和改進,通過實驗說明了壓縮感知算法在不同稀疏基下對信號稀疏表示的影響.針對固定正交基下語音信號稀疏化程度低、適應性差的問題,提出了一種自適應的語音稀疏化方法,并將其應用到語音壓縮感知理論中.該方法從信號特征入手,學習并提取特征或紋理信息,能較好地實現(xiàn)語音信號的稀疏化,提高語音壓縮感知的重構性能.實驗結果證明該方法具有良好的重構性能.
[1] Candes E J,Tao T.Near-optimal signal recovery from random projections:universal encoding strategies?[J].IEEE Transactions on Information Theory,2006,52(12):5406-5425.
[2] Donoho D L.Compressed sensing[J].IEEE Transactions on Information Theory,2006,52(4):1289-1306.
[3]石光明,劉丹華,高大化,等.壓縮感知理論及其研究進展[J].電子學報,2009,37(5):1070-1081.
Shi Guangming,Liu Danhua,Gao Dahua,et al.Advances in theory and application of compressed sensing[J].Acta Electronica Sinica,2009,37(5):1070-1081.
[4] Davies M E,Daudet L.Sparse audio representations using the MCLT[J].Signal Processing,2006,86(3):457-470.
[5]梁瑞宇,鄒采榮,趙力,等.語音壓縮感知及其重構算法[J].東南大學學報:自然科學版,2011,41(1):1-5.
Liang Ruiyu,Zou Cairong,Zhao Li,et al.Compressed sensing in speech and its reconstruction algorithm[J].Journal of Southeast University:Natural Science Edition,
2011,41(1):1-5.
[6] Candes E J,Eldar Y C,Needell D,et al.Compressed sensing with coherent and redundant dictionaries[J].Applied and Computational Harmonic Analysis,2011,31(1):59-73.
[7]Giacobello D,Christensen M G,Murthi M N,et al.Retrieving sparse patterns using a compressed sensing framework:applications to speech coding based on sparse linear prediction[J].IEEE Signal Processing Letters,2010,17(1):103-106.
[8] Aharon M,Elad M A,Bruckstein.K-SVD:an algorithm for designing overcomplete dictionaries for sparse representation[J].IEEE Transactions on Signal Processing,2006,54(11):4311-4322.
[9] Chen S S,Donoho D L,Saunders M A.Atomic decomposition by basis pursuit[J].SIAM Review,2001,43(1):129-159.
[10]Goodwin M M,Vetterli M.Matching pursuit and atomic signal models based on recursive filter banks[J].IEEE Transactions on Signal Processing,1999,47(7):1890-1902.
[11] Giacobello D,Christensen M G,Murthi M N,et al.
Sparse linear prediction and its applications to speech processing[J].IEEE Transactions on Audio,Speech,and Language Processing,2012,20(5):1644-1657.[12] Elad M,Bruckstein A M.A generalized uncertainty principle and sparse representation in pairs of bases[J].IEEE Transactions on Information Theory,2002,48(9):2558-2567.
[13]Cristobal E,F(xiàn)lavian C,Guinaliu M.Perceived e-service quality(PeSQ):measurement validation and effects on consumer satisfaction and web site loyalty[J].Managing Service Quality,2007,17(3):317-340.
[14] Emiya V,Vincent E N,Harlander,et al.Subjective and objective quality assessment of audio source separation[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(5):2046-2057.
Adaptive compressed sensing method for speech
La Vu Tuan Dao Van Phuong Zuo Jiakuo Zhao Li
(Key Laboratory of Underwater Acoustic Signal Processing of Ministry of Education,Southeast University,Nanjing 210096,China)
To overcome the problem that the method of sparsification for speech signal based on fixed orthogonal base has a low sparsity and is not adaptive,a new adaptive sparsification algorithm is developed for speech signal compression.First,speech signal is predicted by linear predication using weighted linear combination of linear predictive coefficients,and the linear prediction residual are used as the signal bases.Then,the adaptive training dictionary is trained under the sparsity constraint,and the dictionary and sparsity coefficients are updated by alternatively using 1-norm sparsity constraint pursuit and singular value decomposition(SVD)algorithm.By analyzing the feature of speech signals,the new scheme can exactly extract essential feature or texture feature,and can obtain better sparsification performance and reconstruction performance for speech signal.The experimental results show that compared with other orthogonal base algorithms,the sparsity of speech signals with the proposed method is obviously improved.The subjective and objective evaluation results of speech quality also show that the proposed method exhibits a good reconstruction performance in speech signal.
compressed sensing;sparsity;speech;linear prediction
TN912
A
1001-0505(2012)06-1027-04
10.3969/j.issn.1001 -0505.2012.06.001
2012-04-05.
羅武駿(1985—),男,博士生;趙力(聯(lián)系人),男,博士,教授,博士生導師,zhaoli@seu.edu.cn.
國家自然科學基金資助項目(51075068,61201326,61231002,61273266)、教育部博士點基金資助項目(20110092130004)、江蘇省高校自然科學研究基金資助項目(12KJB510021).
羅武駿,陶文鳳,左加闊,等.自適應語音壓縮感知方法[J].東南大學學報:自然科學版,2012,42(6):1027-1030.[doi:10.3969/j.issn.1001 -0505.2012.06.001]