孫 燕,姜占才,潘春花
(1.青海民族大學(xué)計(jì)算機(jī)學(xué)院,青海西寧 810007; 2.青海師范大學(xué)物理系,青海西寧 810008)
語音自組織特征映射神經(jīng)網(wǎng)絡(luò)矢量量化算法
孫 燕1,姜占才2,潘春花1
(1.青海民族大學(xué)計(jì)算機(jī)學(xué)院,青海西寧 810007; 2.青海師范大學(xué)物理系,青海西寧 810008)
針對(duì)數(shù)字語音信號(hào)分幀提取MFCC參數(shù),MFCC是Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)。Mel頻率是基于人耳聽覺特性提出的,它與Hz頻率呈非線性對(duì)應(yīng)關(guān)系,利用它們之間的這種關(guān)系,計(jì)算得到Hz頻譜特征。將每幀的MFCC作為矢量進(jìn)行自組織特征映射神經(jīng)網(wǎng)絡(luò)矢量量化及LBG矢量量化,通過實(shí)驗(yàn)對(duì)二者進(jìn)行比較。仿真結(jié)果表明,自組織特征映射神經(jīng)網(wǎng)絡(luò)矢量量化算法得到的碼書比LBG算法具有量化誤差小、碼本尺寸小的特點(diǎn),進(jìn)而可以節(jié)省存儲(chǔ)空間。實(shí)驗(yàn)結(jié)果表明,文中方法具有一定的實(shí)用性。
LBG算法;自組織特征映射神經(jīng)網(wǎng)絡(luò);MFCC參數(shù);矢量量化
矢量量化是將若干個(gè)采樣信號(hào)構(gòu)成一組,形成一個(gè)矢量,然后對(duì)此矢量進(jìn)行量化。矢量量化可以壓縮數(shù)據(jù),但也帶來了信息的損失。矢量量化需要解決三個(gè)問題:碼書設(shè)計(jì)、碼字搜索、碼字索引分配。矢量量化最本質(zhì)的核心是碼書設(shè)計(jì)。
碼書設(shè)計(jì)有多種算法,主要分為四類:LBG[1]算法(也叫GLA改進(jìn)算法);矢量量化算法;由數(shù)學(xué)理論衍生出的全局優(yōu)化技術(shù)的碼書設(shè)計(jì)算法,如隨機(jī)場下隨機(jī)松弛算法、模擬退火算法、遺傳算法和指導(dǎo)性搜索算法;由模糊數(shù)學(xué)作為理論基礎(chǔ)的模糊聚類的碼書設(shè)計(jì)算法[2]。
傳統(tǒng)的LBG矢量量化是硬聚類算法[3]。該算法可以使量化誤差達(dá)到最小,并聚類為一個(gè)矢量中心集,只能判別為一個(gè)類,當(dāng)聚類的樣本尺寸巨大,最終的存儲(chǔ)量非常大。自組織特征映射神經(jīng)網(wǎng)絡(luò)(Self-Organizing Feature Maps,SOFM)通過對(duì)外界輸入信號(hào)特征的無監(jiān)督競爭學(xué)習(xí),自組織形成不同的區(qū)域,不需要目標(biāo)輸出,網(wǎng)絡(luò)根據(jù)提供的學(xué)習(xí)樣本自學(xué)習(xí),由輸入樣本的特性自組織映射,對(duì)輸入樣本進(jìn)行排序和分類,從而形成碼書。由SOFM形成的碼書不僅對(duì)初始碼書不敏感,還因?yàn)槭褂昧肃徲蚋拍畋WC收斂到全局最優(yōu),是一種可行的矢量量化算法。
LBG算法是傳統(tǒng)算法。它是一種基于初始碼書的迭代算法。具體步驟如下:
步驟 1:給定初始碼書為 C(0)={,,…,},令迭代次數(shù)的初始值n=0。在給定的平均失真→∞ 下,其下降閾值為ε(0<ε<1)。
步驟2:訓(xùn)練矢量集X根據(jù)最優(yōu)劃分原則將初始碼書中的碼字C(n)作為質(zhì)心,劃分矢量集為N個(gè)胞腔R(n)={,,…,}。其中,滿足= {v|d(v)=d(v),v∈X}。
步驟3:計(jì)算平均失真。
步驟4:根據(jù)矢量量化誤差達(dá)到最小的矢量中心集條件,計(jì)算各胞腔的質(zhì)心。由這N個(gè)新質(zhì)心y(n+1)j,j=0,1,…,N-1形成新碼書C(n+1),置n=n+1,轉(zhuǎn)步驟2,直到≤ ε停止計(jì)算。
自組織特征映射(Self-Organizing Feature Maps)神經(jīng)網(wǎng)絡(luò)[4-7]是一種競爭性神經(jīng)網(wǎng)絡(luò),是由芬蘭學(xué)者Kohonen提出的?;舅枷胧?對(duì)一個(gè)一個(gè)神經(jīng)網(wǎng)絡(luò)提供學(xué)習(xí)樣本,神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí),將學(xué)習(xí)樣本根據(jù)不同的響應(yīng)特性分成不同區(qū)域,神經(jīng)網(wǎng)絡(luò)完成自動(dòng)的分類和排序。它一般是由輸入層和競爭層構(gòu)成的網(wǎng)絡(luò),輸入層由k個(gè)輸入神經(jīng)元組成,競爭層由N個(gè)輸出神經(jīng)元組成,輸入層和競爭層的各個(gè)神經(jīng)元實(shí)現(xiàn)全互連接。
SOFM神經(jīng)網(wǎng)絡(luò)的算法如下:
步驟1:對(duì)輸入層建立初始優(yōu)勝鄰域Nj*(0);它的學(xué)習(xí)率η=0;總的迭代次數(shù)為T,并將小隨機(jī)數(shù)賦予輸出層的各權(quán)向量之后進(jìn)行歸一化處理,得到w^(j),j =1,2,…,m。
步驟2:輸入層隨機(jī)選取一個(gè)輸入模式并進(jìn)行歸一化處理,得到X^(p),p∈{1,2,…,P}。
步驟3:搜索最優(yōu)節(jié)點(diǎn)計(jì)算X^(p)與w^(j)的點(diǎn)積,j= 1,2,…,m,從中選出點(diǎn)積最大的最優(yōu)節(jié)點(diǎn)j*。
步驟4:以優(yōu)勝鄰域Nj*(t)的j*為中心,確定t時(shí)刻的權(quán)值調(diào)整鄰域范圍。一般情況下初始鄰域Nj*(0)較大,在訓(xùn)練過程中Nj*(t)隨訓(xùn)練時(shí)間t逐漸縮小。
步驟5:利用式(2)對(duì)Nj*(t)內(nèi)的所有節(jié)點(diǎn)進(jìn)行權(quán)值調(diào)整:
其中,η(t,N)是在訓(xùn)練時(shí)間t時(shí)刻,鄰域內(nèi)第j個(gè)神經(jīng)元與獲勝神經(jīng)元j*之間的拓?fù)渚嚯x為N的函數(shù)。
步驟6:令t=t+1,返回步驟2,直到t=T為止。
根據(jù)SOFM理論,將語音進(jìn)行SOFM量化,流程見圖1。
語音SOFM矢量量化原理是將原始的一段語音進(jìn)行預(yù)處理分幀,為了增加幀與幀之間的連續(xù)性,經(jīng)過海明窗將語音信號(hào)經(jīng)過快速傅里葉變換到頻域,再經(jīng)過20個(gè)三角帶通濾波器得到平滑的消除諧波的突顯語音共振峰的對(duì)數(shù)能量,帶入離散余弦變換的對(duì)數(shù)得到MFCC參數(shù),進(jìn)入到SOFM創(chuàng)建的網(wǎng)絡(luò)訓(xùn)練得到聚類結(jié)果,SOFM創(chuàng)建網(wǎng)絡(luò)可調(diào)用相應(yīng)的函數(shù)完成,即得到語音SOFM矢量量化的碼本。
相同點(diǎn):SOFM[8-9]和LBG都是從某個(gè)區(qū)域內(nèi)獲得最佳質(zhì)心,從碼書設(shè)計(jì)對(duì)比二者是等價(jià)的。
不同點(diǎn):分類發(fā)生的地方不同;由訓(xùn)練矢量學(xué)習(xí)的特征傳遞給碼書的方式不同。LBG算法主要是將輸入矢量聚類為新質(zhì)心作為下次迭代開始的碼書[10]。SOFM是通過更新特征域碼書矢量,將鄰域內(nèi)的矢量更新作為新碼書,對(duì)初始碼書不敏感[11-12]。
LBG算法有3個(gè)主要缺點(diǎn):
(1)由此算法得出的碼書自適應(yīng)性差,初始碼書沒有隨機(jī)性;
(2)迭代的區(qū)域劃分過程,搜索算法和求最近碼字距離的時(shí)間復(fù)雜度和空間復(fù)雜度很大;
(3)初始碼書的選擇影響算法的收斂速度和最終碼書的性能。
而SOFM在更新碼書時(shí)使用了鄰域概念[12],避免了LBG算法存在的缺點(diǎn)。
文中的初始矢量碼本[13-14]是在實(shí)驗(yàn)室條件下錄制的語音經(jīng)過分幀、海明窗、快速FFT變換、三角帶通濾波器、對(duì)數(shù)、離散余弦變換六步得到的MFCC參數(shù),其碼本尺寸為20×622。其中,碼本的大小和選擇的語音大小,每幀的幀長,及帶通濾波器的個(gè)數(shù)有關(guān)[15]。
實(shí)驗(yàn)中語料為短詩;數(shù)字語音的各種參數(shù)為采樣率8 kHz、PCM編碼;分幀提取語音MFCC參數(shù),毎幀的MFCC參數(shù)即為一矢量,建立大小為20×622的碼本訓(xùn)練樣本集。
利用模糊聚類確定區(qū)域邊界中心改進(jìn)LBG算法對(duì)語音參數(shù)MFCC矢量量化進(jìn)行仿真實(shí)驗(yàn)。
仿真結(jié)果如圖2~5所示。其中,圖2是原始語音;圖3是MFCC參數(shù)按每2行所有列畫出的空間分布圖;圖4是神經(jīng)網(wǎng)絡(luò)每個(gè)類別自組織形成的個(gè)數(shù);圖5是訓(xùn)練后網(wǎng)絡(luò)權(quán)值分布圖。用這個(gè)權(quán)值作為矢量量化的結(jié)果,碼本大小為20×30,可以看到由SOFM訓(xùn)練的碼本尺寸大大縮減了。
6.1 編碼失真
通常可以用峰值信噪比(PSNR)來描述矢量量化的編碼失真。它是原失真測度與被處理失真測度之間的均方誤差相對(duì)于(2n-1)2的對(duì)數(shù)值,PSNR值越大,就代表失真越少。PSNR定義如下:
其中,MSE是均方誤差。
6.2 實(shí)驗(yàn)數(shù)據(jù)
表1給出了仿真實(shí)驗(yàn)在迭代過程中LBG算法和SOFM算法的PSNR比較。
通過表1可知,SOFM比LBG的PSNR還要高,比傳統(tǒng)LBG算法的量化誤差小、碼本尺寸小,SOFM較傳統(tǒng)LBG算法具有更好的性能。
針對(duì)數(shù)字語音信號(hào)分幀提取MFCC參數(shù),將每幀的MFCC作為矢量進(jìn)行自組織特征映射神經(jīng)網(wǎng)絡(luò)矢量量化及LBG矢量量化。仿真實(shí)驗(yàn)結(jié)果表明,自組織特征映射神經(jīng)網(wǎng)絡(luò)矢量量化算法得到的碼書比LBG算法具有量化誤差小、碼本尺寸小的特點(diǎn),進(jìn)而減少了存儲(chǔ)量,具有一定的實(shí)用性。
[1] Linde Y,Buzo A,Gray R M.An algorithm for vector quantizerdesign[J].IEEE Transactions on Communications,1980,28 (1):84-95.
[2] 孫圣和,陸哲明.矢量量化技術(shù)及應(yīng)用[M].北京:科學(xué)出版社,2002.
[3] Shen F,Hasegawa O.An adaptive incremental LBG for vector quantization[J].Neural Networks,2006,19:694-704.
[4] Hagan M T,Demuth H B.神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)[M].戴 葵,譯.北京:機(jī)械工業(yè)出版社,2002.
[5] Amerijckx C,Legaty J D,Verle-Ysen M.Image compression using self organizing maps[J].Systems Analysis Model Simulation,2003,43(11):1529-1543.
[6] Seo S,Oberayer K.Self organizing maps and clustering methods for matrix data[J].Neural Networks,2004,17:1211-1230.
[7] Lau K W,Yin H,Hubbard S.Kernel self-organizing maps for classification[J].Neurocomputing,2006,69:2033-2040.
[8] McAulie J D,Atlas L E,Rivera C.A comparison of the LBG algorithm and Kohonen neural network paradigm for image vector quantization[C]//Proc of ICASSP.[s.l.]:[s.n.],1990:2293-2296.
[9] Nasrabadi N M,King R A.Image coding using vector quantization:a review[J].IEEE Transactions on Communications,1988,36(8):957-971.
[10]Lancini R,Tubaro S.Adaptive vector quantization for picture coding using neural networks[J].IEEE Transactions on Communications,1995,43(2):534-544.
[11]王茂芝,徐文皙.LBG算法對(duì)初始碼書敏感的實(shí)驗(yàn)性能分析[J].物探化探計(jì)算技術(shù),2004,26(4):375-378.
[12]Huang H,Chen S H.Fast encoding algorithm for VQ-based image coding[J].Electronics Letters,1990,26:1618-1619.
[13]Ra S W,Kim J K.A fast mean-distance-ordered partial codebook search algorithm for image vector quantization[J].IEEE Transactions on Circuits and Systems-II:Analog and Digital Signal Processing,1993,40(9):576-579.
[14]Chang C C,Chang R F,Lee W T,et al.Fast algorithms for vector quantization[J].Journal of Information Science and Engineering,1996,12(4):593-602.
[15] Chang C C,Lee W T,Chen T S.Two improved codebook search methods of vector quantization based on orthogonal checking and fixed range search[J].Journal of Electronic Imaging Representation,1997,8(1):27-37.
A Speech Vector-quantization Algorithm of Self-organizing Feature Maps Neural Network
SUN Yan1,JIANG Zhan-cai2,PAN Chun-hua1
(1.Computer Department of Qinghai University for Nationalities,Xining 810007,China; 2.Department of Physics,Qinghai Normal University,Xining 810008,China)
MFCC parameter is extracted from digital speech frame,and MFCC is Mel Frequency Cepstrum Coefficients.Mel frequency is proposed based on human auditory characteristics,and it reflects nonlinear relationship with Hz frequency.The Hz frequency spectrum characteristics is calculated by their relationship.The MFCC of each frame is taken as vector for vector quantization of self-organizing feature maps neural network and LBG,and they are compared by experiment.Simulation shows that the self-organizing feature maps neural network algorithm has smaller quantization error and code size than LBG algorithm,saving the space of memory.The experiment demonstrates the method is feasible.
LBG algorithm;SOFMNN;MFCC;VQ
TP391
A
1673-629X(2016)09-0175-03
10.3969/j.issn.1673-629X.2016.09.039
2015-04-30
2015-08-12< class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間:
時(shí)間:2016-08-23
青海省自然科學(xué)基金(2013-Z-920)
孫 燕(1973-),女,副教授,碩士,研究方向?yàn)檎Z音處理和語音編碼。
http://www.cnki.net/kcms/detail/61.1450.TP.20160823.1343.020.html