郭雷勇,李 宇,林勝義,譚洪舟
(1.廣東藥科大學(xué) 醫(yī)藥信息工程學(xué)院,廣州 510006; 2.中山大學(xué) 電子與信息工程學(xué)院,廣州 510006)
(*通信作者電子郵箱guoleiyong@gdpu.edu.cn)
用于隱馬爾可夫模型語音帶寬擴(kuò)展的激勵分段擴(kuò)展方法
郭雷勇1*,李 宇1,林勝義1,譚洪舟2
(1.廣東藥科大學(xué) 醫(yī)藥信息工程學(xué)院,廣州 510006; 2.中山大學(xué) 電子與信息工程學(xué)院,廣州 510006)
(*通信作者電子郵箱guoleiyong@gdpu.edu.cn)
語音帶寬擴(kuò)展通過人為恢復(fù)窄帶語音的頻譜帶寬來提高語音聽覺質(zhì)量。針對源濾波器擴(kuò)展模型的激勵擴(kuò)展問題,提出一種分段擴(kuò)展方法。該方法在擴(kuò)展帶的低頻段與高頻段部分分別采用窄帶激勵源的高頻部分與幀能量等效的白噪聲作為激勵信號,最后兩者與原窄帶激勵組成寬帶激勵信號。基于隱馬爾可夫模型(HMM)譜包絡(luò)估計(jì)的寬帶語音重構(gòu)實(shí)驗(yàn)結(jié)果表明:該方法降低了重建語音的失真度,恢復(fù)重建的語音信號優(yōu)于譜平移激勵擴(kuò)展方法。
語音帶寬擴(kuò)展;分段擴(kuò)展;譜平移;激勵信號;隱馬爾可夫模型
過去由于技術(shù)條件限制,傳統(tǒng)窄帶電話網(wǎng)絡(luò)的語音信號都以8 kHz采樣成數(shù)字信號進(jìn)行處理與編碼傳輸,其對應(yīng)的編碼標(biāo)準(zhǔn)有ITU(International Telecommunication Union)的G.729與GSM(Global System for Mobile Communication)等窄帶語音編碼標(biāo)準(zhǔn)。人類語音的主要信息都集中在頻率為 0.1~3.4 kHz的范圍內(nèi)。窄帶語音在保留大部分語音特性的前提下節(jié)省了帶寬開銷,適合長途電話通信,但也犧牲了一些處于高頻部分的語音成份,如輔音等。然而語音信號在0.3~7.5 kHz頻譜范圍所包含的信息使聲音聽起來更加飽滿與自然,這對通話的可理解性與舒適性有著重要的影響。長時間地使用窄帶語音通話會令人產(chǎn)生聽覺疲勞,但0.3~3.4 kHz范圍的窄帶電話網(wǎng)絡(luò)帶寬限制了語音通話質(zhì)量的提高[1]。隨著通信技術(shù)的發(fā)展,寬帶語音通信已經(jīng)實(shí)現(xiàn)商業(yè)應(yīng)用,但原有的窄帶通信系統(tǒng)在很長一段時間會繼續(xù)使用,出現(xiàn)兩種通信系統(tǒng)長期并存的狀態(tài)。在窄帶與寬帶系統(tǒng)中進(jìn)行語音通信,通過窄帶語音的帶寬擴(kuò)展技術(shù)使得寬帶系統(tǒng)的終端能夠回放比窄帶語音具有更豐富頻譜成分的寬帶語音,能增加通信業(yè)務(wù)的附加值。
一般來講,窄帶語音帶寬擴(kuò)展依據(jù)人體發(fā)音的信號與系統(tǒng)模型(線性源濾波器模型)作為擴(kuò)展思路,利用分析-擴(kuò)展-合成的框架實(shí)現(xiàn)。先把窄帶語音通過線性預(yù)測分拆為激勵信號與包絡(luò)信號,并分別對它們進(jìn)行擴(kuò)展,再將擴(kuò)展后的激勵與包絡(luò)信號合成為寬帶語音。
依據(jù)是否帶邊信息,窄帶語音帶寬擴(kuò)展可以分為盲與非盲兩類方法。盲擴(kuò)展方法僅傳送窄帶信號,并依據(jù)寬帶信號的先驗(yàn)特征統(tǒng)計(jì)信息進(jìn)行匹配,選擇信號的備選擴(kuò)展素材進(jìn)行帶寬擴(kuò)展;非盲擴(kuò)展方法則必須對語音進(jìn)行寬帶的16 kHz采樣,并抽取3.4~7.5 kHz高頻部分中有代表性的特征作為邊信息,窄帶信號與邊信息同時傳送到帶寬終端并被用于帶寬擴(kuò)展。邊信息包含寬帶語音高頻段的關(guān)鍵特征,這使得非盲方法有較好的擴(kuò)展性能。
盲擴(kuò)展方法依據(jù)語音信號的分析-合成策略,先把窄帶語音通過線性預(yù)測分拆為激勵信號與包絡(luò)信號,并分別對它們進(jìn)行擴(kuò)展,再將擴(kuò)展后的激勵信號與包絡(luò)信號合成為寬帶語音,如文獻(xiàn)[2-3]分別利用訓(xùn)練好的高斯混合模型(Gaussian Mixture Model, GMM)與隱馬爾可夫模型(Hidden Markov Model, HMM)估計(jì)寬帶語音包絡(luò)。文獻(xiàn)[4]通過選擇與擴(kuò)展帶譜包絡(luò)互信息大的窄帶語音特征來估計(jì)寬帶譜包絡(luò)。深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)分別被文獻(xiàn)[5-6]用于映射窄帶語音特征與寬帶語音特征的關(guān)系。文獻(xiàn)[7-8]利用Boltzmann機(jī)分別取代GMM來表示窄寬兩帶的頻譜包絡(luò)統(tǒng)計(jì)分布,進(jìn)一步結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)約束的Boltzmann機(jī)[8]可更充分利用語音幀間相關(guān)性來提高性能。這類基于深度學(xué)習(xí)的擴(kuò)展方法以極高的復(fù)雜度代價來獲得性能的提高。
文獻(xiàn)[9]指出窄帶與高頻帶之間的互信息與高頻帶的感知熵的比率,表明僅依靠窄帶語音包絡(luò)特征來提高擴(kuò)展語音的質(zhì)量是非常有限的。引入高頻帶部分的特征信息較好地補(bǔ)充了盲擴(kuò)展方法的局限。帶有邊信息的非盲擴(kuò)展方法除了對窄帶語音作分析、擴(kuò)展與合成外,對實(shí)時高頻部分信號提取有效特征作為嵌入邊信息,有效地提高了擴(kuò)展質(zhì)量。文獻(xiàn)[10]對寬帶語音的高頻譜有音信息編碼,然后嵌入到窄帶頻譜中低于聽覺感知掩蔽曲線以下的區(qū)域中。該方法在不破壞窄帶語音質(zhì)量前提下傳輸邊信息,避免了對其額外傳輸,可以兼容于現(xiàn)有窄帶通信網(wǎng)絡(luò)。標(biāo)量科斯塔方案(Scalar Costa Scheme, SCS)是一種具有信息隱藏的數(shù)據(jù)通信模型,并且是其中一種次優(yōu)的科斯塔方案[11]。依據(jù)該模型,文獻(xiàn)[12]提出基于SCS模型的帶寬擴(kuò)展方法,該方法結(jié)合聽覺掩蔽閾值與信道噪聲估計(jì)來選擇被嵌的子帶。
譜平移或譜折疊[1]是激勵信號常用的擴(kuò)展方法,它把原窄帶信號簡單地“搬移/復(fù)制”到高頻帶區(qū)域,并沒有考慮高頻帶區(qū)域的激勵信號特點(diǎn)。文獻(xiàn)[13]依據(jù)諧波主要集中在低頻段0~2 kHz,提出了一種中頻激勵方法,其只選取窄帶語音的2~4 kHz帶寬內(nèi)的激勵信號進(jìn)行擴(kuò)展,避免了強(qiáng)諧波進(jìn)入擴(kuò)展帶。
為了更精確地重建擴(kuò)展帶的激勵信號,本文提出一種激勵分段擴(kuò)展方法。該方法的依據(jù)是語音的激勵信號在有音區(qū)多為基頻整數(shù)倍頻率的正弦波,而在輔音區(qū)則近似白噪聲。此外,通常情況下語音的輔音出現(xiàn)在能量較高的高頻部分,次高頻則是混合區(qū)域,因此所提出的激勵分段擴(kuò)展更加符合語音的頻譜分布特點(diǎn)。
基于HMM的貝葉斯最小均分誤差(Minimum Mean-Square Error, MMSE)語音帶寬擴(kuò)展方法系統(tǒng)框圖如圖1所示。該方法分兩條擴(kuò)展支線,即圖1上半部分進(jìn)行譜包絡(luò)擴(kuò)展與寬帶線性預(yù)測系數(shù)重構(gòu),下半部分實(shí)現(xiàn)激勵信號擴(kuò)展。 最終擴(kuò)展后的激勵信號輸入到線性預(yù)測系數(shù)構(gòu)成的合成濾波器得到重構(gòu)寬帶語音。
1.1 寬帶語音線性預(yù)測系數(shù)重構(gòu)
寬帶語音的線性預(yù)測系數(shù)用于構(gòu)成寬帶語音的合成濾波器。其重構(gòu)過程表示為:組合估計(jì)的擴(kuò)展帶譜包絡(luò)與原窄帶譜包絡(luò),組合后的譜包絡(luò)通過逆傅立葉變換轉(zhuǎn)為自相關(guān)函數(shù),然后通過列文森-杜賓(Levison-Dubin)算法轉(zhuǎn)換為線性預(yù)測系數(shù)。具體流程如圖2所示。
圖1 基于HMM的貝葉斯MMSE語音帶寬擴(kuò)展系統(tǒng)框圖Fig. 1 Diagram of HMM based Bayesian MMSE voice bandwidth expansion system
圖2 寬帶語音譜包絡(luò)倒譜估計(jì)與合成濾波器線性預(yù)測系數(shù)估計(jì)框圖Fig. 2 Diagram of wideband speech spectrum envelope cepstrum estimation and synthetic filter linear prediction coefficient estimation
1.2 擴(kuò)展帶包絡(luò)估計(jì)
由于擴(kuò)展帶語音譜包絡(luò)的估計(jì)譜包絡(luò)的對數(shù)與倒譜之間是一對傅立葉變換對,因此擴(kuò)展帶語音譜包絡(luò)的估計(jì)可先估計(jì)其對應(yīng)的倒譜,然后對其倒譜作傅立葉變換與指數(shù)運(yùn)算得到。倒譜用對數(shù)運(yùn)算,這使得倒譜的MMSE估計(jì)器符合聽覺感知特性。圖2中擴(kuò)展帶譜包絡(luò)倒譜估計(jì)器采用基于HMM的貝葉斯MMSE準(zhǔn)則對當(dāng)前語音幀輸入窄帶語音的Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)特征進(jìn)行估計(jì),得到對應(yīng)的擴(kuò)展帶譜包絡(luò)倒譜系數(shù)向量,如圖3所示。
圖3 擴(kuò)展帶譜包絡(luò)倒譜估計(jì)結(jié)構(gòu)框圖Fig. 3 Diagram of extended spectral envelope cepstrum estimation
圖3中估計(jì)前先要訓(xùn)練HMM的各種參數(shù),包括狀態(tài)轉(zhuǎn)移概率、觀察概率以及隱含發(fā)射概率的狀態(tài)類質(zhì)心的確定。有很多文獻(xiàn)陳述HMM參數(shù)集訓(xùn)練,這里不再贅述。
(1)
其中Rd為d維倒譜空間,p(y|X)可以通過HMM的Ns個狀態(tài){S1,S2,…,SNs}表示為:
(2)
依據(jù)聯(lián)合概率公式有:
p(y,Si|X)=p(y|Si,x)P(Si|X)
(3)
式(2)、(3)代入式(1)可得到:
(4)
(5)
其中p(Si|X)可以依據(jù)訓(xùn)練好的HMM參數(shù)集合計(jì)算,具體參考文獻(xiàn)[3]。
1.3 激勵信號的譜平移擴(kuò)展
圖4 基于譜平移的激勵擴(kuò)展信號框圖Fig. 4 Diagram of excitation propagation signal based on spectrum shift
譜平移激勵信號所合成的寬帶語音有類似于金屬摩擦的人造音,聽起來缺乏自然度,重建的寬帶語音的高頻段能量高于原語音信號[14]。從圖6中的語譜示意圖可以看出,產(chǎn)生上述問題歸根結(jié)底在于譜平移方法所產(chǎn)生的寬帶激勵信號中高頻帶激勵信號是窄帶激勵信號復(fù)制,導(dǎo)致窄帶與高頻帶之間的諧波結(jié)構(gòu)沒有對齊而使整個發(fā)音的完整性遭到破壞,加上高頻帶能量沒有加以調(diào)整,因此使得人造的激勵信號成分能量過大以致于合成的語音信號中產(chǎn)生人耳可聞的金屬聲。
(6)
其中:Nk為一幀內(nèi)窄帶激勵信號的采樣點(diǎn)數(shù),μ為窄帶激勵信號的均值。整個激勵方法流程如圖5所示,其中所有高通濾波器都使用有限長單位脈沖響應(yīng)(Finite Impulse Response, FIR)線性相位濾波器,具有相同的階數(shù)49,則群延時為24,也就是濾波器產(chǎn)生的延時。
整個激勵分段擴(kuò)展算法如下:
1)由圖1中的“分析濾波器”得到窄帶激勵信號unb(k)。
2)同時處理下面3個支路信號:
上支路:
①uwb1(k)=unb(k-24)。
中間支路:
①unbtemp1(k)=unb(k)·2cos(ΩM·k);
②uwb2(k)=unbtemp1(k)?Fhigh1(k)。
下支路:
①用式(6)求得σunb;
②uwbtemp1(k)=σunb·gnoise(k);
③uwb3(k)=uwbtemp2(k)?Fhigh2(k)。
3)合并輸出:
圖5 激勵分段擴(kuò)展的信號原理圖Fig. 5 Schematic diagram of excitation piecewise extension signal
3.1 實(shí)驗(yàn)條件
本文采用的實(shí)驗(yàn)平臺為Matlab 2014。采用的語音庫為CMU的ARCTIC數(shù)據(jù)庫[15],選取其中100句的英文短句作為訓(xùn)練語音樣本,選取另外10句不包含在訓(xùn)練樣本中的英文短句作為測試語音樣本。擴(kuò)展系統(tǒng)實(shí)現(xiàn)中,取MFCC作為特征矢量,其提取采用Mel濾波器組個數(shù)為15,即窄帶語音的語音特征為15維的MFCC。高頻帶譜包絡(luò)倒譜CC設(shè)定為8維矢量,因此HMM模型的狀態(tài)數(shù)為8。訓(xùn)練采用LBG(Linde-Buzo-Gray)算法,碼書大小為500。基2上采樣后的窄帶語音一幀為400采樣點(diǎn),頻帶擴(kuò)展后的寬帶語音每幀也為400采樣點(diǎn)。
3.2 實(shí)驗(yàn)結(jié)果與分析
3.2.1 語譜圖分析
實(shí)驗(yàn)采用HMM-MMSE譜包絡(luò)擴(kuò)展下得到的合成濾波器系數(shù),激勵信號擴(kuò)展分別采用本文的分段擴(kuò)展與譜平移擴(kuò)展。各自得到的寬帶激勵信號輸入寬帶合成濾波器得到重構(gòu)的寬帶語音。以語音庫中一句英語短句作為處理語料,結(jié)果如圖6所示。圖左上角橢圓區(qū)域?qū)儆?.5~7.5 kHz的高頻部分。原寬帶語音存在一些不規(guī)則成分。激勵分段擴(kuò)展方法所恢復(fù)的能量要比譜平移方法更加接近于原信號,特別是圈右側(cè)圖中的那個豎條頻譜。中頻3.5~5 kHz部分的橢圓區(qū)域,兩種方法實(shí)際上都是譜平移,但所平移的部分不同。此區(qū)域分布著一些帶諧波的頻譜以及一些能量低的輔音或者無音部分。譜平移方法在恢復(fù)諧波區(qū)域的同時,提高了輔音或者無音區(qū)域的能量。本文方法更加接近原寬帶語音的語譜分布。
圖6 原寬帶語音與兩種激勵擴(kuò)展方法得到的寬帶語譜圖Fig. 6 Wideband speech spectrum obtained from original wideband speech and two excitation extension methods
3.2.2 失真評測
實(shí)驗(yàn)采用對數(shù)譜失真(Log-Spectral Distortion, LSD)、語音質(zhì)量感知評估(Perceptual Evaluation Of Speech Quality, PESQ)與倒譜距離(Cepstrum Distance, CD)分別對提出的分段激勵擴(kuò)展方法進(jìn)行評測。譜包絡(luò)擴(kuò)展采用HMM-MMSE方法。對數(shù)譜失真LSD通過計(jì)算合成寬帶語音與原寬帶語音之間的對數(shù)頻譜差異值來反映待測語音的失真度大小。計(jì)算所得LSD值越小,則反映出待測語音的失真度越小,表明擴(kuò)展合成語音出現(xiàn)人造雜音的現(xiàn)象越少。LSD可以定義[16]為:
LSD=
(7)
其中:CX(k,l)max{|X(k,l)|,ε},|X(k,l)|為原寬帶語音的短時幅度譜,|(k,l)|為待測語音的短時幅度譜,L為幀數(shù),l和k分別為幀索引和頻譜索引。
PESQ是國際電信聯(lián)盟提出的一種通過客觀評價方法來模擬主觀評價的一種打分方法[15],取值范圍在0.5~4.5,語音質(zhì)量越好其分值越大。PESQ評測需要參考語音,參考語音的最高得分為4.5,被測語音值都會低于4.5。依據(jù)文獻(xiàn)[17]中PESQ的計(jì)算方法計(jì)算10條擴(kuò)展合成語音的平均PESQ值。
倒譜距離CD是計(jì)算語音與合成語音間倒譜差的一種語音測度。平均CD定義[18]為:
(8)
其中:ck為倒譜系數(shù),D為倒譜的階數(shù)。
三種指標(biāo)的評測結(jié)果如表1所示。由表1可知所提出的激勵分段擴(kuò)展會稍微降低失真的客觀評價指標(biāo)LSD與CD,并且略微提高表示主觀評價的PESQ,因?yàn)檎Z音帶寬擴(kuò)展的質(zhì)量主要由包絡(luò)擴(kuò)展好壞決定。相對而言,激勵擴(kuò)展影響語音擴(kuò)展的質(zhì)量較弱。
表1 原寬帶語音與頻帶擴(kuò)展語音的CDM測度平均值Tab. 1 Average CDM measure of the original wideband speech and the band extended speech
在源濾波器語音帶寬擴(kuò)展方案中,激勵信號擴(kuò)展是其中一個重要問題。本文在現(xiàn)有譜平移擴(kuò)展基礎(chǔ)上提出對激勵信號進(jìn)行分段擴(kuò)展,并基于HMM源濾波器帶寬擴(kuò)展方法進(jìn)行了帶寬擴(kuò)展實(shí)驗(yàn)??陀^測試及語譜圖實(shí)驗(yàn)結(jié)果表明,相比傳統(tǒng)的譜平移擴(kuò)展方法,所提出的激勵分段擴(kuò)展可提高重建語音的質(zhì)量。目前語音通信系統(tǒng)的窄帶傳輸網(wǎng)絡(luò)(如2G無線、PSTN)仍在使用,而支持16 kHz采樣的通話終端已經(jīng)普及。通過終端的語帶寬擴(kuò)展方法來提高通話質(zhì)量,是一種低成本減輕窄帶傳輸所造成的話音質(zhì)量下降的有效方法。
References)
[1] JAX P, VARY P. Bandwidth extension of speech signals: a catalyst for the introduction of wideband speech coding? [J]. IEEE Communications Magazine, 2006, 44(5): 106-111.
[2] PARK K-Y, KIM H S. Narrowband to wideband conversion of speech using GMM based transformation [C]// ICASSP ’00: Proceedings of the 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing. Washington, DC: IEEE Computer Society, 2000, 3:1843-1846.
[3] JAX P, VARY P. On artificial bandwidth extension of telephone speech [J]. Signal Processing, 2003, 83(8): 1707-1719.
[4] 張勇,胡瑞敏.基于高斯混合模型的語音帶寬擴(kuò)展算法的研究[J].聲學(xué)學(xué)報,2009,34(5):471-480. (ZHANG Y, HU R M. Research on speech bandwidth extension algorithm based on Gauss mixture model [J]. Journal of Acoustics, 2009, 34(5): 471-480.)
[5] WANG Y, ZHAO S, LIU W, et al. Speech bandwidth expansion based on deep neural networks [C]// InterSpeech-2015: Proceedings of the 16th Annual Conference of the International Speech Communication Association. [S.l.]: ISCA, 2015: 2593-2597.
[6] LI K, LEE C-H. A deep neural network approach to speech bandwidth expansion [C]// Proceedings of the 2015 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2015: 4395-4399.
[7] WANG Y, ZHAO S, LI J, et al. Speech bandwidth extension using recurrent temporal restricted Boltzmann machines [J]. IEEE Signal Processing Letters, 2016, 23(12): 1877-1881.
[8] 王迎雪, 趙勝輝, 于瑩瑩,等. 基于受限玻爾茲曼機(jī)的語音帶寬擴(kuò)展[J].電子與信息學(xué)報,2016,38(7):1717-1723. (WANG Y X, ZHAO S H, YU Y Y, et al. Speech bandwidth extension based on restricted Boltzmann machine [J]. Journal of Ectronic and Information, 2016, 38 (7): 1717-1723)
[9] NILSSON M, GUSTAFTSON H, ANDERSEN S V, et al. Gaussian mixture model based mutual information estimation between frequency bands in speech [C]// ICASSP ’02: Proceedings of the 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing. Washington, DC: IEEE Computer Society, 2002, 1: 525-528.
[10] DING H. Wideband audio over narrowband low-resolution media [C]// ICASSP ’04: Proceedings of the 2004 IEEE International Conference on Acoustics, Speech, and Signal Processing. Washington, DC: IEEE Computer Society, 2004, 1: 489-492.
[11] EGGERS J J, BAUML R, TZSCHOPPE R, et al. Scalar Costa scheme for information embedding [J]. IEEE Transactions on Signal Processing, 2003, 51(4): 1003-1019.
[12] SAGI A, MALAH D. Bandwidth extension of telephone speech ai-ded by data embedding [J]. EURASIP Journal on Advances in Sig-
nal Processing, 2007, 2007(1): 064921.
[13] 張勇,劉軼.窄帶語音帶寬擴(kuò)展算法研究[J].聲學(xué)學(xué)報,2014,39(6):764-773. (ZHANG Y, LIU Y. Research on narrowband speech bandwidth extension algorithm [J]. Acta Acustica, 2014, 39(6): 764-773.)
[14] LIU X, BAO C-C. Audio bandwidth extension based on temporal smoothing cepstral coefficients [J]. EURASIP Journal on Audio, Speech, and Music Processing, 2014, 2014: 41.
[15] KOMINEK J, BLACK A W. The CMU Arctic speech databases [C]// SSW5-2004: Proceedings of the Fifth ISCA ITRW on Speech Synthesis. [S.l.]: ISCA, 2004: 223-224.
[16] COHEN I, BENESTY J, GANNOT S. Speech Processing in Modern Communication: Challenges and Perspectives [M]. Berlin: Springer-Verlag, 2010: 32.
[17] International Telecommunication Union. ITU-T Recommendation P.862, Perceptual Evaluation of Speech Quality (PESQ), an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs [S]. Geneva, Switzerland: International Telecommunication Union, 2001.
[18] KITAWAKI N, NAGABUCHI H, ITOH K. Objective quality evaluation for low-bit-rate speech coding systems [J]. IEEE Journal on Selected Areas in Communications, 1988, 6(2): 242-248.
This work is partially supported by the National Natural Science Foundation of China (61473322,81570904).
GUOLeiyong, born in 1973, Ph. D, lecturer. His research interests include voice bandwidth expansion, Internet of things perception.
LIYu, born in 1973, Ph. D, associate professor. His research interests include speech signal processing, interleaved sampling system distortion correction.
LINShengyi, born in 1990, M. S., engineer. His research interests include speech signal bandwidth expansion and coding.
TANHongzhou, born in 1965, Ph. D., professor. His research interests include communication signals and systems, integrated circuit design.
ExcitationpiecewiseexpansionmethodforspeechbandwidthexpansionbasedonhiddenMarkovmodel
GUO Leiyong1*, LI Yu1, LIN Shengyi1, TAN Hongzhou2
(1.CollegeofMedicalInformationEngineering,GuangdongPharmaceuticalUniversity,GuangzhouGuangdong510006,China;2.SchoolofElectronicsandInformationTechnology,SunYat-SenUniversity,GuangzhouGuangdong510006,China)
Speech bandwidth expansion is used to enhance the auditory quality by artificially recovering the lost components in the high-band spectrum of narrow-band speech. Aiming at the problem of excitation expansion in speech source-filter extension model, a piecewise extension method was proposed. The higher spectrum part in the narrow-band excitation source and the white noise with the equivalent narrow-band excitation frame energy were used as the excitation sources for the lower and upper part of the extension band respectively. At last, the wideband excitation signal was composed of the above two and the original narrow band one. Experimental results of the wide band speech reconstruction with Hidden Markov Model (HMM) based spectrum envelope estimation show that the proposed method is superior to spectrum shift excitation expansion method.
speech bandwidth extension; piecewise extension; spectrum shift; excitation signal; Hidden Markov Model (HMM)
TN912.3
A
2017- 02- 28;
2017- 04- 13。
國家自然科學(xué)基金資助項(xiàng)目 (61473322,81570904)。
郭雷勇(1973—),男,湖南郴州人,講師,博士,主要研究方向:語音帶寬擴(kuò)展、物聯(lián)網(wǎng)感知; 李宇(1977—),男,廣東增城人,副教授,博士,主要研究方向:語音信號處理、交織采樣系統(tǒng)失真修正; 林勝義(1990—),男,廣東汕頭人,工程師,碩士,研究方向:語音信號帶寬擴(kuò)展與編碼; 譚洪舟(1965—),男,重慶人,教授,博士生導(dǎo)師,博士,研究方向:通信信號與系統(tǒng)、集成電路設(shè)計(jì)。
1001- 9081(2017)08- 2416- 05
10.11772/j.issn.1001- 9081.2017.08.2416