李建文 朱悅
摘? 要: 語音合成一直是信息交互的重要研究領(lǐng)域,但是目前語音合成的方法還遠(yuǎn)不夠完備。為提高重建語音的辨識正確率,提出以頻譜構(gòu)造法進(jìn)行語音信號合成。首先將語音信號經(jīng)過去噪、加窗、分幀和傅里葉變換等處理得到語音頻譜圖,然后通過頻率解析提取共振峰譜線關(guān)鍵頻率信息,在以C#搭建的智能語音合成平臺上進(jìn)行語音信號重建,最后利用重建語音信號和原始標(biāo)準(zhǔn)語音信號進(jìn)行主觀辨析測試。實驗結(jié)果表明,重建語音信號可平衡各頻率段的能量,突出語音信號的頻譜特征。相比雙譜線漢語重建語音,除漢語音素[o],其他單韻母音素識別正確率皆有明顯提高。
關(guān)鍵詞: 皮膚聽聲; 語音信號處理; 語音頻譜圖; 頻譜特征; 共振峰譜線; 頻譜構(gòu)造; 語音信號重建; 濁音
中圖分類號: TN912?34? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼: A? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)19?0035?05
Abstract: The speech synthesis has always been an important research area of information interaction, however, the current methods of speech synthesis are far from complete. In order to improve the recognition accuracy of reconstructed speech, a speech signal synthesis method is proposed based on spectrum construction. The speech signal is processed by denoising, windowing, framing and Fourier transform to obtain a speech spectrum diagram, and then the key frequency information of the formant spectral line is extracted by frequency analysis. Speech signal is reconstructed on the intelligent speech synthesis platform build with C#. In the end, the reconstructed speech signal and original standard speech signal are used in the subjective discrimination analysis test. The experimental results show that the reconstructed speech signal can balance the energy of each frequency band and highlight the spectrum feature of speech signal. In comparison with the Chinese reconstructed speech with double?spectrum line, the accuracy of single final phonemes is significantly improved except for the Chinese phoneme [o].
Keywords: skin?hearing; speech signal processing; speech spectrum; spectrum feature; formant spectral line; spectrum construction; speech signal reconstruction; voiced sound
0? 引? 言
語音合成是一個具有極大挑戰(zhàn)性的研究領(lǐng)域,目前人們在語音合成領(lǐng)域的成果非常有限,尤其是以計算機(jī)實現(xiàn)任意語音合成的問題至今很少有研究成果出現(xiàn)[1?2]。語音合成涉及的數(shù)學(xué)理論非常多并且非常細(xì)膩,以至于現(xiàn)在很多語音合成問題沒有解決,比如計算機(jī)合成的語音演唱。
目前大部分語音合成方法歸屬于數(shù)據(jù)驅(qū)動法,即通過載入語音語料庫中最小分割單元進(jìn)行處理,最終合成自然度和可懂度符合要求的語音信號。線性預(yù)測編碼(LPC)技術(shù)作為波形拼接技術(shù)中的主要處理方法,但本質(zhì)上來說是將錄音重放[3]?;敉蒋B加(PSOLA)技術(shù)是一種改進(jìn)的波形拼接方法,但是必須對基音周期進(jìn)行準(zhǔn)確的判定,且可能對頻域參數(shù)有一定的影響[4]。綜上,數(shù)據(jù)驅(qū)動法主要是對語料庫中的最小分割單元在拼接時的處理,構(gòu)建出的語音信號的音色和音調(diào)不具有靈活多變的特點,雖然具有很長的研究歷史,但是很難實現(xiàn)基于語音編碼的模擬演唱,且對語音信號的本質(zhì)特性分析較少。
因此,在皮膚聽聲理論基礎(chǔ)上采用頻譜構(gòu)造法合成語音信號,即通過頻譜圖的構(gòu)造實現(xiàn)合成語音的方法。頻譜圖在醫(yī)學(xué)、工程測試、航空航天及物聯(lián)網(wǎng)等方面有廣泛的應(yīng)用[5?7],但在語音合成技術(shù)上應(yīng)用較少。本文基于語音的發(fā)聲原理[8]和皮膚聽聲原理[9],通過對語音信號進(jìn)行頻譜分析和參數(shù)提取,并以C#語言實現(xiàn)語音信號再合成。為探索漢語語音信號的特征,文獻(xiàn)[10]提出語音信號的濁音段基本包含語音所有的信息,研究漢語韻母頻譜分布具有重要意義,運(yùn)用原始語音信號前兩個共振峰參數(shù)即可進(jìn)行語音信號重建,得到了漢語單音節(jié)雙譜線重建語音的混淆矩陣。但從混淆矩陣中得出,單音節(jié)[o],[e]和[i]的分辨效果不佳。
為提高單音節(jié)語音的辨識率,本文用24譜線頻譜構(gòu)造法進(jìn)行漢語單音節(jié)語音信號重建。首先,基于皮膚聽聲技術(shù)對語音信號進(jìn)行頻譜分析;然后,運(yùn)用正弦模型和頻譜構(gòu)造法對語音信號進(jìn)行模擬重建;最后,運(yùn)用原始語音信號與仿真語音信號進(jìn)行主觀辨析實驗,得到漢語單音節(jié)24譜線重建語音的混淆矩陣。結(jié)果表明重建語音信號的辨別成功率皆有提升。
1? 語音正弦模型和皮膚聽聲器原理
1.1? 語音正弦模型
在語音信號的產(chǎn)生模型中,假設(shè)語音信號[st]是由一個聲門激勵信號[et]通過沖激響應(yīng)[ht]的線性時變?yōu)V波器所得到的響應(yīng)。那么:
根據(jù)語音正弦模型原理[7],激勵信號[et]可以表示為:
式中:[l]表示第[i]個正弦分量;[alt]和[wlt]分別代表正弦分量的幅度和頻率;[?l]表示該正弦信號的初始相位。而線形時變?yōu)V波器的頻率響應(yīng)可以表示為:
于是語音信號模型可表示為:
化簡得,語音信號[s(t)]可表示為:
因此,語音信號可以表示為一系列正弦波信號的疊加[11],各正弦波的幅度為[Alt],相位為[ψlt]。語音的正弦模型表示切合頻譜構(gòu)造法的中心思想,其參數(shù)是頻譜構(gòu)造法中的重要參數(shù)。
1.2? 皮膚聽聲器原理
皮膚聽聲技術(shù)是將聲音信號轉(zhuǎn)化為電刺激信號,刺激皮膚讓聽障人感知到聲音的新技術(shù),是可以徹底解決聽覺障礙的前沿技術(shù)[12]。皮膚聽聲器原理如圖1所示。
皮膚聽聲器將從麥克風(fēng)獲取到的聲音信號進(jìn)行放大和降噪處理后,通過多通道帶通濾波器將聲音信號劃分為多組信號,再經(jīng)過功放、升壓,最終通過多通道電極陣列作用于皮膚,使觸覺中樞接收刺激信號,相當(dāng)于在人體皮膚上畫一個語音頻譜圖。
頻譜圖在醫(yī)學(xué)、工程測試、航空航天及物聯(lián)網(wǎng)等方面有廣泛應(yīng)用,而本文涉及的頻譜圖為語音頻譜圖,簡稱語譜圖。語譜圖是語音信號短時頻譜的時間?強(qiáng)度表示,是一種三維圖譜[13]。本文使用窄帶語譜圖表示語音信號。與寬帶語譜圖相反,窄帶語譜圖的頻率分辨率較低,時間分辨率較高,呈現(xiàn)橫向條紋,可以更加清晰地反映語音信號頻率的分布情況。
語譜圖中顏色的明暗一般用能量的對數(shù)表示,即[lg (P(n,ω))],語音信號在[(n,ω)]處能量具體表示為:
2? 語音信號合成方法
根據(jù)皮膚聽聲原理提出基于正弦模型的頻譜構(gòu)造合成語音信號的方法,該方法是皮膚聽聲器處理語音信號的逆過程,其流程如圖2所示。
2.1? 語音信號預(yù)處理
研究使用的原始音頻保存為.wav文件格式,采樣大小為16位,為單聲道錄音。為去除在錄制過程中可能會出現(xiàn)小幅值的噪音以及錄音設(shè)備的電流干擾,對語音信號進(jìn)行預(yù)處理。
語音頻域范圍[14]約在150~4 000 Hz,設(shè)置濾波器截止頻率為75 Hz,圖3給出了所設(shè)計的濾波器的參數(shù)特性,圖中橫軸為頻率參數(shù),縱軸為幅度參數(shù)。
2.2? 語音關(guān)鍵頻率提取
2.2.1? 使用高性能皮膚聽聲器篩選關(guān)鍵頻率
使用高性能皮膚聽聲器進(jìn)行漢語單韻母關(guān)鍵頻率的初步篩選。佩戴高性能皮膚聽聲器,播放經(jīng)過預(yù)處理后的語音音頻,測試高性能皮膚聽聲器各個通道電極的信號,不同的語音檢測到的通道及通道數(shù)量不同。
以陰平女聲[a]和[i]為例,測得女聲[a]檢測到信號的通道為L型B通道至L通道、H型B通道至G通道,女聲[i]檢測到信號的通道為H型G通道至J通道。參考高性能皮膚聽聲器的頻率對照表可得,漢語音素[a]的頻率范圍為220~1 064 Hz,漢語因素[i]的頻率范圍為220~450 Hz,2 800~4 400Hz。經(jīng)皮膚聽聲器測得漢語單韻母音節(jié)男女聲頻率范圍如表1所示。
2.2.2? 關(guān)鍵譜線分布提取
為了提高頻譜分析精度,選擇的窗函數(shù)的頻譜應(yīng)該有較窄主瓣、較小旁瓣,并有較大的衰減速度,因此選擇Hamming窗[15],其定義式如下:
根據(jù)聲道特性[16?17],年輕女性聲音的基頻約為300 Hz,年輕男性的基頻約為110 Hz,年輕女性聲音相鄰共振峰相距300 Hz,年輕男性聲音相鄰共振峰相距110 Hz。因此在提取共振峰參數(shù)數(shù)據(jù)時,可以以等差數(shù)列為規(guī)律提取參數(shù)數(shù)據(jù)。本文中語音信號[xn]的采樣率為44 100 Hz,量化位數(shù)為16 bit,正弦模型的分析幀長為20 ms。
采用提取局部峰值法提取極值點,得到每個重要頻率及能量參數(shù)如表2所示。
由表2可以得出,女聲的每條譜線之間的差值為250 Hz;男聲的每條譜線之間的差值為150 Hz。
在Matlab中,使用[A(a)]代表幅值參數(shù),[F]表示頻率參數(shù),對提取到關(guān)鍵譜線提取幅值參數(shù)[17],語句如下:
A(a)=find(f==F*10^6);
將表2中的譜線頻率數(shù)據(jù)代入,得到每條關(guān)鍵譜線的幅值參數(shù),將數(shù)據(jù)載入文檔。使用模擬函數(shù)描述語音信號,如式(9)所示:
式中[A(xn)]和[f(xn)]表示幅值參數(shù)和頻率參數(shù)。頻譜構(gòu)造法通過構(gòu)建不同譜線進(jìn)行頻譜構(gòu)造,即可得到不同的語音信號,使合成語音具有多樣性和靈活性。
2.3? 語音信號合成
使用C#語言編寫WAVE波形編輯文件,將提取到的數(shù)據(jù)寫入文件中。人體的聽覺范圍為20~20 000 Hz,因此本文選用WAVE音頻格式,秒數(shù)據(jù)量為44 100,即可生成20~20 000 Hz范圍內(nèi)所有聲音。
1) 使用二進(jìn)制流進(jìn)行文件數(shù)據(jù)的寫入:
MemoryStream ms2 = new MemoryStream();
BinaryWriter bw2 = new BinaryWriter(ms2);
2) 設(shè)置for循環(huán)計算WAVE音頻文件中多個頻率為[x]的譜線幅值疊加后,每個數(shù)據(jù)單位中保存的參數(shù)[Y]。ActualAmplitude表示幅值參數(shù),[a]為基音頻率,[b]為語音信號高頻率,[c]為譜線頻率間隔。
for(x=a; x
Y=(short)(Math.sin(x)*ActualAmplitude;
//計算每個采樣點的數(shù)據(jù)值
3) 將計算出的[Y]值寫入每個聲道數(shù)據(jù)中:
for (int channelIndex=0; channelIndex //計算每個聲道數(shù)據(jù)位 bw2.Write(Y);? ? ? ? ? ? ? ? ? ? ? ? ? //寫入數(shù)據(jù) 3? 頻譜構(gòu)造法的有效性驗證 3.1? 重建語音信號頻譜對比 在Matlab 2015中處理重建信號,生成頻譜解析圖,與原始信號做對比,如圖4,圖5所示。 從圖4和圖5中可得,與原始語音信號相比,重建語音信號降低了低頻區(qū)域信號能量,提高了高頻區(qū)域信號能量,突出語音信號高頻區(qū)域特征的同時,平衡了語音信號的能量強(qiáng)度,增大了語音信號的被識別率。 3.2? 主觀評價 主觀評價采用辨析法來測試。辨析法將重建語音音頻和對應(yīng)原始語音音頻打亂次序,由18位測試者進(jìn)行辨析測試。測試結(jié)束后統(tǒng)計測試者的正確率,正確率越高,說明重建的語音可懂性越強(qiáng)。 文獻(xiàn)[10]中雙譜線重建語音的混淆矩陣如表3所示,本文根據(jù)主觀評價結(jié)果得到了漢語韻母新的混淆矩陣,如表4所示。 比較表3和表4可得,除漢語音素[o]外,其他漢語音素的辨識正確率皆有明顯提高。 4? 結(jié)? 語 本文在皮膚聽聲技術(shù)的基礎(chǔ)上,對漢語音素進(jìn)行模擬重建,得到以下結(jié)果: 1) 重建的語音提高了高頻區(qū)域的信號能量,平衡了低頻區(qū)域的信號能量,突顯了原始語音信號的特征。 2) 經(jīng)主觀辨析測試得到了重建語音的混淆矩陣,相比雙譜線重建語音的混淆矩陣,除了重建語音音素[o],其他音素識別正確率皆有顯著提高。 文中研究了皮膚聽聲原理在語音合成技術(shù)中的可行性,并使用頻譜構(gòu)造法重建語音,結(jié)果顯示該方法具有良好的可控性和靈活性。課題的下一步工作是通過函數(shù)擬合的方法構(gòu)建不同頻譜視覺形態(tài)的聲紋譜線進(jìn)行不同聲音的頻譜構(gòu)造。 注:本文通訊作者為朱悅。 參考文獻(xiàn) [1] 張斌,全昌勤,任福繼.語音合成方法和發(fā)展綜述[J].小型微型計算機(jī)系統(tǒng),2016,37(1):186?192. [2] 劉豫軍,夏聰.計算機(jī)語音合成技術(shù)研究及發(fā)展方向[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014(12):22. [3] 卓嘎,董志誠.藏語拉薩語LPC語音參數(shù)提取研究[J].現(xiàn)代電子技術(shù),2017,40(18):20?22. [4] 李娟,張雪英,黃麗霞,等.基于Hilbert?Huang變換的語音合成基音標(biāo)注搜索新算法[J].現(xiàn)代電子技術(shù),2018,41(12):153?156. [5] BOVERI H, SOTO G. Spectrogram analysis as a monitor of anesthetic depth in a pediatric patient [J]. Journal of neurosurgical anesthesiology, 2018, 30(2): 193?194. [6] 肖娜,關(guān)喜峰,孔祥偉.基于圖像處理的航空發(fā)動機(jī)自適應(yīng)頻譜報警技術(shù)研究[J].計算機(jī)測量與控制,2019,27(9):184?190. [7] YAN Siyuan, LI Xiao, JIANG Changhong, et al. Digital predistortion for spectrum compliance in the Internet of Things [J]. Journal of electronic testing, 2018, 34(3): 255?262. [8] 呂亮亮.基于正弦模型的語音編碼算法研究[D].西安:西安電子科技大學(xué),2013. [9] 李建文,李沙沙.基于Matlab的多通道人耳模型技術(shù)在皮膚聽聲中的應(yīng)用[J].計算機(jī)測量與控制,2012,20(11):3083?3085. [10] 張毅楠,肖熙.漢語語音正弦模型特征分析和聽覺辨識[J].電聲技術(shù),2011,35(8):38?41. [11] 尹偉,易本順.一種基于正弦激勵的線性預(yù)測模型的語音轉(zhuǎn)換方法[J].數(shù)據(jù)采集與處理,2010,25(2):218?222. [12] 賀靖康,李建文.一種改進(jìn)的皮膚聽聲語音信號處理系統(tǒng)[J].江蘇科技大學(xué)學(xué)報(自然科學(xué)版),2017,31(6):825?829. [13] SARRIA?PAJA M, FALK T H. Fusion of auditory inspired amplitude modulation spectrum and cepstral features for whispered and normal speech speaker verification [J]. Computer speech & language, 2017, 45: 437?456. [14] 王鐘斐,王彪.基于時頻分布的漢語語音關(guān)鍵頻率分布研究[J].電子設(shè)計工程,2011,19(10):14?18. [15] SMITH B, SUSTERSIC J, MOORE M. Low?power OZGF bank and MR hamming windowing for embedded speech recognition [J]. WSEAS transactions on signal processing, 2015, 11: 52?57. [16] AYOUB M R, LARROUY?MAESTRI P, MORSOMME D. The effect of smoking on the fundamental frequency of the speaking voice [J]. Journal of voice, 2019, 33(5): 11?16. [17] 周麗紅,雷金輝.雙譜圖在語音分析中的應(yīng)用[J].傳感器與微系統(tǒng),2018,37(2):158?160.