姚建霄,張歆奕
(五邑大學 信息工程學院,廣東 江門 529020)
基于STRAIGHT譜的非特定人數字語音識別
姚建霄,張歆奕
(五邑大學 信息工程學院,廣東 江門 529020)
介紹了STRAIGHT算法的原理,并選擇STRAIGTH譜作為語音識別的特征參數. 采用對應點映射方法以提高同一發(fā)音不同樣本參數間的匹配效果,在特征匹配的方法上選擇差別子空間法,將二者結合應用于非特定人漢語數字0~9的語音識別,實驗結果表明,基于STRAIGHT譜的非特定人數字語音識別可以達到97%的識別率.
語音識別;STRAIGHT譜;差別子空間;對應點映射
語音識別研究如何采用數字信號處理技術自動提取以及確定語音信號中的信息,時域分析和頻域分析是分析語音信號的2種重要方法,但都有局限:時域分析對語音信號的頻譜特性沒有直觀的了解,而頻域特性中沒有語音信號隨時間變化的表現. 語譜圖分析綜合了頻譜圖和波形圖的優(yōu)點,集中顯示了大量的與語音特性有關的信息,能直觀地分析語音信號幅度、頻率與時間的關系,一直以來人們都注意用語譜圖來描述語音信號,并將其應用于語音識別和說話人識別[1]. 日本學者Hideki Kawahara等[2-4]提出的STRAIGHT算法(Speech Transformation and Representation by Adaptive Interpolation of weiGHTed spectrogram)將語音信號分解成獨立的激勵源參數和濾波器參數,并將其中的濾波器參數以譜圖的形式表示. 由于STRAIGHT譜保留了語音要表達的語義內容,并在很大程度上抑制了其中與說話人相關的個性信息,因而可以很好地滿足語音識別特征選取的要求. 本文嘗試將STRAIGHT算法應用于非特定人漢語“0~9”的語音識別.
STRAIGHT算法以Dudely的VODER理論為基礎,用源—濾波器的思想表征語音信號,并將語音分解為相互獨立的頻譜參數(STRAIGHT譜)和一系列脈沖的卷積. STRAIGHT算法最早應用于語音合成領域,整個算法分為3部分:抑制周期性影響的譜估計,可靠的基頻檢測,有效的語音合成控制. 下面介紹抑制周期性干擾的方法.
1.1 基音同步分析
語音信號短時平穩(wěn)性和動態(tài)通帶帶寬所造成的頻譜失真會引起基音頻率F0的估計誤差,常引入邊界連續(xù)性好的時窗以減少失真,這里通過高斯加權的方法來實現.
以式(1)Bartlett窗為例,對其進行高斯加權,得到ωP(t)作為原始窗,并用來計算語譜圖P0(ω,t).式(2)中,η為增加頻譜分辨率的一個臨時系數,*代表與基音同步的卷積;ωP(t)的補償窗ωC(t)=ωP(t )sin(πt/T0),其中T0為原窗函數的周期,由ωC(t )計算得到的語譜圖記為PC(ω,t). P0(ω,t)和PC(ω,t)有大致相同的諧波結構,二者的合成頻譜,其中ε為混合參數.對ε的選定標準是確保PR(ω,t)的時域波動最小,一般情況下取ε=0.13655.
1.2 自適應平滑內插
用二維B樣條卷積法生成的線性譜對基音頻率F0的估計誤差不敏感. 原線性語譜圖PR(ω,t)經濾波后的語譜PS(ω,t)形式如下:
其中,ω0即F0,γ表示非線性程度,一般定為0.3,濾波核hω是一種三角映射關系,定義域為[-1,1].其STRAIGHT譜PST(ω,t)為:
引入r(x)是為確保語音譜在各處均為正值,取r(x)=βlog(ex/β+1). 通過自適應平滑內插,頻譜進一步被光滑化,消除了邊緣不連續(xù)性.[3]
對應點映射方法用以提高同一發(fā)音不同樣本間的匹配程度. Hideki Kawahara[3]用這種方法對STRAIGHT譜和對應激勵參數進行操作,再將其合成出聲音,以此改變一個發(fā)音的長度、語氣、情緒等內容. 本文舉例說明對應點映射方法的使用,圖1為2個不同語氣Hai發(fā)音的STRAIGHT譜圖,我們將這2個發(fā)音標定錨點、融合后,得到同時包含二者信息的中性發(fā)音.
2.1 錨點標定
在圖1上分別標定一些有意義的錨點,這些錨點將在樣本間的映射過程中用于時域和頻域上的對應. 選取錨點的規(guī)則:對所有樣本來說,它應該是穩(wěn)定的、有代表性的. 在頻域上,錨點一般選在共振峰的位置. 在時域上,一般選取這些位置:1)發(fā)音的始末位置,以此保證融合時2個發(fā)音時間上的一致. 2)元音和輔音的過渡點,這是對應語音頻譜變化的地方. 3)元音中點,這是發(fā)音中最穩(wěn)定的部分. 對圖1分別標定錨點得到圖2.
圖1 angryHai和neutralHai的STRAIGHT譜圖
圖2 標定錨點后的STRAIGHT譜
圖3 對數插值方法得到的morphHai譜
2.2 融合
利用錨點信息從neutralHai和angryHai分別向融合morphHai進行映射,然后將二者映射的結果按比例疊加(該比例可自由確定,若希望生氣的成分多一些,可以把angryHai的比例設為70%). 具體的映射是一個插值的過程,這里以neutralHai向morphHai進行映射為例. 先由二者錨點的時域坐標確定時域上的插值系數,各段內樣點的插值系數再由段末端點處的錨點頻域坐標確定,以此完成整個譜的映射. 圖3為對數插值方法得到的morphHai譜. 在STRAIGHT算法中,為了得到效果更好的合成音,可以在更細的層次(如音素)上對源音進行校準.
文獻[5]提出了基于差別子空間的語音識別算法,并證明基于差別子空間的識別算法要優(yōu)于基于動態(tài)時間歸正技術(DTW)的識別算法.
3.1 語音識別實驗
用非特定說話人漢語 “0~9”的發(fā)音進行測試. 實驗方案:0~9每個數字錄音25次(分別由3男2女,每人錄5次),即為25個樣本;25個樣本中,15個用于訓練(每人3個),另外10個用于識別;所有樣本都標記相同維數的錨點.
圖4是上述錄音集中任意2個不同說話人數字9發(fā)音的STRAIGHT譜,比較發(fā)現:在錨點時域中間段、頻域800~2 000 Hz,這兩個譜有比較大的差別. 為了說明錨點信息的重要性,筆者對錄制語音分2種情況進行訓練:只利用錨點中的端點信息和利用全部錨點信息,每種情況下都先統(tǒng)計全部訓練樣本的錨點信息和譜矩陣大小,由此確定模板的對應信息. 用上述5個人共15個樣本訓練后,得到的模板譜如圖5所示(圖5-a使用全部錨點信息訓練,圖5-b只利用端點信息). 將時域70~220 ms、頻域800~2 000 Hz的譜與圖4的樣本譜比較,可以發(fā)現:使用全部錨點信息得到的模板譜和實際樣本譜更接近.
圖4 數字9兩個樣本的STRAIGHT譜
圖5 數字9在不同錨點信息下的模板譜
3.2 實驗結果
經過對錨點的多次調整,得到結果:共100個測試樣本,每個數字10次,訓練時,只利用錨點端點信息的情況下,不用差別子空間法時錯了20個(實驗1),用差別子空間法錯了12個(實驗2);利用全部錨點信息,不用差別子空間法時錯了4個(實驗3),用差別子空間法錯了3個(實驗4). 具體結果如表1所示,該結果證明了對應點映射方法和差別子空間法的有效性.
表1 不同實驗方法時非特定人數字語音識別結果
選取STRAIGHT譜作為特征參數,用對應點映射方法和差別子空間法進行非特定人數字識語音別可以達到較高的識別率. 錨點信息對識別很重要,選取合適的錨點位置,可以有效提高識別效率;因此,確定一套合理的規(guī)則用于選擇錨點位置是需要迫切解決的問題. 從STRAIGHT譜特征出發(fā),找到維數更低的特征來描述不同詞、不同說話人之間的差別,是我們今后工作的重點.
[1] 阮伯堯. 脈沖耦合神經網絡(PCNN)在基于語譜圖的說話人識別中的應用[D]. 江門:五邑大學,2008.
[2] KAWAHARA HIDEKI, IKUYO Masuda-Katsuse, ALAIN de Cheveigne. Restructuring speech representations using a pitch adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds [J]. Speech Communication, 1999, 27: 187-207.
[3] KAWAHARA Hideki. STRAIGHT, exploitation of the other aspect of VOCODER: Perceptually isomorphic decomposition of speech sounds [J]. Acoust Sci & Tech, 2006, 27(6): 349-353.
[4] KAWAHARA Hideki. Speech representation and transformation using adaptive interpolation of weighted spectrum: vocoder revisited [C]// ICASSP-97. Munich: [s.n.], 1997, 2: 1303-1306.
[5] 張歆奕,吳今培,張其善. 一種基于差別子空間的語音識別算法研究和實現[J]. 五邑大學學報:自然科學版,2002, 16(1): 17-20.
Research on STRAIGHT Spectrum in Speech Recognition
YAO Jian-xiao, ZHANG Xin-yi
(School of Information Engineering, Wuyi University, Jiangmen 529020, China)
The principle of the STRAIGHT algorithm was introduced and the STRAGHT spectrum as feature index for speech recognition was chose. Corresponding point mapping was used to improve the effect of matching different sample parameters and the difference subspace was used for feature matching. These methods can be applied to digital identification of non-specific persons. The result shows that the STRAIGHT spectrum-based digital voice recognition can achieve a high recognition rate.
speech recognition; STRAIGHT spectrum; difference subspace; corresponding points mapping
TN912.34
A
1006-7302(2011)01-0056-05
2009-04-25
姚建霄(1980—),男,山西臨猗人,碩士研究生,研究方向是語音識別;張歆奕,副教授,博士,碩士生導師,通信作者,主要從事信息與信號處理研究.