陳曉梅,王曉瑋,鐘 波,商瑩瑩,楊佳燕
(1.華北電力大學(xué)電氣與電子工程學(xué)院,北京 102206;2.中國計量科學(xué)研究院力學(xué)與聲學(xué)計量科學(xué)研究所,北京 100029;3.中國醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)院耳鼻喉科,北京 100730)
近年來,人工智能技術(shù)的高速發(fā)展給語音信號處理帶來一個又一個的突破。語音在社會的各個領(lǐng)域中扮演了重要的角色,因此,語音系統(tǒng)性能的優(yōu)劣也成為了信息在交流過程中是否通暢的一個關(guān)鍵因素,其輸出語音可懂度的高低成為了評價這些語音系統(tǒng)性能好壞的根本標志。語音可懂度的評價分為主觀評價和客觀評[1]。主觀評估的優(yōu)點是符合人對語音質(zhì)量的感知,缺點是費時費力費錢,受人的主觀影響較大等,為了克服主觀評估的缺點人們開始研究語音可懂度客觀評估。
傳統(tǒng)的語音可懂度客觀評價指標以語音清晰度指數(shù)(Articulation Index,AI)[2]和語音傳輸指數(shù)(Speech Tansmission Index,STI)[3]為主。AI可以預(yù)測聽力正常的人在安靜和噪聲環(huán)境下的語音可懂度,自1997年以來,AI被重新命名為語音可懂度指數(shù)(Speech Intelligibility Index,SII)[4],SII取決于譜信息比例。SII在線性濾波和加性噪聲的情況下,能夠成功地預(yù)測出語音可懂度。但是,預(yù)測過程中仍存在一些局限性,當語音嵌入在波動掩蔽的情況下就不能應(yīng)用SII。STI能夠預(yù)測加性噪聲和混響造成的語音可懂度下降,但是對于峰值削波和中心削波的失真信號,STI不再適用。2010年Falk等[5]提出了語音混響調(diào)制能量比(Speech-to-reverberation Modulation Energy Ratio,SRMR)。SRMR是一種非侵入式的[6],可以預(yù)測混響和去混響語音信號的可懂度,但其適用范圍僅僅局限于混響失真的信號。上述的方法只針對某些特定類型的失真,適用范圍較小。于是在2011年Andersen等[7]提出了一種短時語音可懂度測量(Short-time Objective Intelligibility Measure,STOI)。它是一個純凈語音和降噪語音的函數(shù),可以預(yù)測多種語音失真的可懂度,但是在波動掩蔽噪聲的影響下,其表現(xiàn)也不佳。
在測量過程中,當高斯噪聲摻雜在語音信號中,上述方法不能有效地抑制噪聲對可懂度造成的影響。本文在此基礎(chǔ)上提出了一種從語音信號的雙譜中提取特征來預(yù)測語音可懂度的方法,雙譜是三階統(tǒng)計量的二維傅里葉變換,利用雙譜可以處理語音信號的非線性和非高斯的特性,檢測信號的相位耦合[8],抑制語音信號中的高斯噪聲,從而提高語音可懂度[9]。該方法不依賴于純凈語音的加入,是一種非侵入式的度量方法。從信號的雙譜中提取單一特征(即對角元素的一階譜矩)進行預(yù)測,結(jié)構(gòu)簡單,這種特征可以表征多種失真類型造成的語音可懂度的下降。
語音是由不同生理結(jié)構(gòu)之間的非線性相互作用產(chǎn)生的。例如,膠原纖維有助于黏彈性生理過程,控制聲帶僵硬和聲音等。本文從雙譜圖中提取特征,提出了雙譜語音可懂度評價(Bispectral Speech Intelligibility Metric,BSIM)等法,相比于二階統(tǒng)計量(例如功率譜和自相關(guān)函數(shù))可以提供更多關(guān)于信號的信息,它不僅可以檢測頻率分量之間的相位耦合還可以檢測非線性效應(yīng),當語音信號中任意兩個頻率分量之間發(fā)生相位耦合產(chǎn)生和頻時,這種耦合會影響三階矩序列,雙譜可以檢測到這種非線性的影響,但是二階統(tǒng)計量會抑制相位關(guān)系,無法檢測到非線性效應(yīng)的發(fā)生。因此本文使用雙譜分析語音信號的各種線性和非線性變化對語音可懂度造成的影響。BSIM算法的整體流程為:首先將語音信號進行分幀加窗,接著對信號進行雙譜估計并提取相關(guān)特征值,最后進行語音可懂度分數(shù)的計算。如圖1所示為BSIM算法的整體流程框圖,具體步驟如下:
圖1 BSIM算法流程圖Fig.1 Flow chart of BSIM algorithm
(1)語音信號的預(yù)處理
為了減少計算時間,對輸入的語音信號進行降采樣處理,對每個頻帶的信號用幀長256 ms、幀移32 ms的漢明(Hanmming)窗進行處理,窗函數(shù)w(n)的計算公式為
其中:n表示第n幀信號,N表示信號的幀數(shù)。
加窗分幀后信號的幀數(shù)為n,同時為了避免幀與幀之間的特性變化太大,幀移一般取幀長的1/4或者1/2。語音信號是非穩(wěn)態(tài)、時變的,分幀之后每一幀的信號可以看成是短時平穩(wěn)的。將語音信號x(t)分幀后,需要對每一幀信號進行分析處理。
(2)雙譜估計
雙譜是信號三階累積量的二維傅里葉變換,三階累積量可以反映相位關(guān)系,對于存在二次相位耦合的信號,其三階累量不為零。使用雙譜分析x(n)時,其雙譜的三維圖會在(ω1,ω2)和(ω2,ω1)出現(xiàn)峰值,因此可以利用雙譜來檢測諧波信號的二次相位耦合。
x(n)的三階累積量為[9]
其中:c為聯(lián)合累積量,m1和m2為任意延遲,E[·]表示求期望。
三階譜(雙譜)[9]為三階累積量的二維傅里葉變換,即:
其中:B(ω1,ω2)為x(n)的雙譜。
雙譜具有對稱性:
如圖2所示,雙譜定義的區(qū)域分為12個扇形區(qū),根據(jù)雙譜具有對稱性的特點[10],只需要計算第一象限的三角形區(qū)域(ω2≥0,ω1≥ω2,ω1+ω2≤π)就可以描述x(n)所有的雙譜。
圖2 雙譜的對稱區(qū)域Fig.2 Symmetrical regions of bispectrum
(3)雙譜的特征提取
雙譜的特征值有相位熵[11]、平均幅值[12],還有與矩相關(guān)的值[13]。但是一些特征值的幅值并沒有隨著信號失真的變化而變化,但與矩相關(guān)的值如下式提到的三種,當語音信號出現(xiàn)失真變化時,幅值隨之發(fā)生相應(yīng)的變化。
①對數(shù)振幅之和H1
其中:Ω表示計算雙譜的三角形區(qū)域(即圖2所示的陰影區(qū)域),f1和f2為三角形區(qū)域(Ω)的兩個頻率。
②對角元素的對數(shù)振幅之和H2
其中:fk表示雙譜對角線上的頻率。
③對角元素振幅的一階譜矩H3
其中:k表示雙譜對角線上第k個頻率,K表示頻率個數(shù),fk表示雙譜對角線上的頻率
(4)雙譜特征值的選擇
雙譜對數(shù)振幅之和(H1)、對角元素的對數(shù)振幅之和(H2)和對角元素振幅的一階譜矩(H3)的幅值隨x(n)的失真發(fā)生變化。
使用公式(8)計算在三種特征值下客觀語音可懂度的得分S:
其中:其中H代表信號特征值的幅值,Hmax和Hmin分別代表了純凈信號和完全嘈雜信號的特征值的幅值。
使用皮爾遜相關(guān)系數(shù)[14](Pearson correlation coefficient)計算在三種不同特征值下的客觀分數(shù)與主觀分數(shù)的相關(guān)系數(shù)[15-17]。皮爾遜相關(guān)系數(shù)是衡量兩組數(shù)據(jù)是否線性相關(guān),其函數(shù)表達為
其中:r值表示兩組數(shù)據(jù)之間的相關(guān)程度,x代表主觀分數(shù),y代表客觀分數(shù)。r值越大,表示兩組數(shù)據(jù)的線性相關(guān)性越大。在本文中,r值越大,表示的是客觀評測越接近主觀評測,即可懂度客觀評測算法效果越好。
客觀分數(shù)的離均差的平方和Ixx,主觀分數(shù)的離均差的平方和Iyy,客觀分數(shù)與主觀分數(shù)的離均差的平方和Ixy分別為
(5)計算語音可懂度得分
選用步驟(4)中確定的與主觀評價最接近的雙譜特征值進行客觀評價。使用公式(13)計算歸一化的語音可懂度的得分:
其中:rH1、rH2和 rH3分別表示特征值H1、H2和 H3與主觀分數(shù)的皮爾遜相關(guān)系數(shù),表示選擇相關(guān)系數(shù)r值最高的特征值計算客觀可懂度的得分。
實驗的語料庫來自于TIMIT[18],TIMIT是一個由來自不同地區(qū)的以美式英語為母語的男性和女性的錄音。TIMIT語料庫包括總共6 300個句子,由來自美國八種主要方言的630個說話者中的每一個人所說的10個句子組成。該語音以16 kHz的采樣率和16位樣本分辨率錄制。
在這項試驗中,每個實驗選用了300個隨機選擇的TIMIT句子,句子包含了6~12個英文單詞。
這些句子用于預(yù)測聽力正常的聽者的語音可懂度,并與其他測量方法進行比較,例如短時客觀清晰度度量(Short-time Objective Intelligibility Measure,STOI)[7]以及語音混響調(diào)制能量比(SRMR)[5]。STOI是一種侵入式的方法,而SRMR是一種非侵入式的度量方法。
主觀評價:主觀測試人員均為隨機選取的20名正常聽力留學(xué)生(母語為英語),評價結(jié)果是由測試者在各種聽力條件下能聽懂的單詞數(shù)占句子總的單詞數(shù)的百分比來衡量。例如,當測試人員100個單詞聽懂了80個時,則主觀分數(shù)為0.80或者80%。
應(yīng)用直接(基于快速傅里葉變換)[19]方法,使用Matlab的高階譜分析(HOSA)[20]工具箱來估計雙譜,雙譜是用256采用(32 ms)的時間序列計算。
主觀評價:分別測試添加了7種信噪比(-20~40 dB)的TIMIT句子,添加的噪聲為語音形狀噪聲[21](其噪聲時域包絡(luò)恒定,頻譜與原始語音信號匹配)。
客觀評價:使用雙譜的三種特征值(H1,H2,H3)分別進行語音可懂度測試。圖3為測試結(jié)果,圖中的可懂度得分為三種特征值客觀評價得分的平均值。
圖3 使用三種不同雙譜特征值的語音可懂度測試結(jié)果Fig.3 Test results of speech intelligibility by using three different eigenvalues of bispectrum
表1 三種特征值的相關(guān)系數(shù)Table 1 Correlation coefficients of three eigenvalues
由圖3分析可得,三種特征值均隨著信噪比發(fā)生相應(yīng)的變化,但H3與主觀評估的結(jié)果更貼近,相關(guān)度最高。即H3預(yù)測語音可懂度的效果更接近主觀評估,所以本文選用H3作為預(yù)測語音客觀可懂度的特征值。
語音信號處理過程中會被引入各種類型的線性失真和非線性失真,線性失真是由于系統(tǒng)對語音信號不同的頻率成分產(chǎn)生不一致的放大倍數(shù)或者延遲時間引起的,不會產(chǎn)生除輸入信號以外新的頻率成分;非線性失真是由于系統(tǒng)引進的非線性元件或者進入非線性區(qū)域而引起的,會出現(xiàn)輸入信號所沒有的頻率成分。
本文分別測試兩種類型失真對語音可懂度造成的影響,線性失真選用的是語音形狀噪聲、高斯噪聲和4種類型的實際噪聲(babble、bus、machine和train,選自AURORA語音庫中),這6種噪聲均為加性噪聲,不會產(chǎn)生新的頻率成分;非線性失真選用的是峰值削波和中心削波[22]。
通過BSIM、SRMR和STOI三種算法測量的可懂度分數(shù)與主觀測試的分數(shù)相比較,將客觀結(jié)果與主觀結(jié)果的相關(guān)度作為衡量該算法優(yōu)劣的標準,
(1)線性失真對語音可懂度的影響
①語音形狀噪聲和高斯噪聲對語音可懂度的影響
主觀評價:測試環(huán)境為14種條件(7種信噪比及2種噪聲類型,共14種測試環(huán)境)。
客觀評價:隨機選取300個TIMIT句子分別添加7種信噪比(-20~40 dB)的兩種噪聲,使用BSIM、STOI以及SRMR分別進行測試,預(yù)測的結(jié)果為300個句子的平均值,將結(jié)果與主觀評價結(jié)果進行比較。圖4、5分別為三種方法(STOI、SRMR和BSIM)在兩種噪聲下不同信噪比的可懂度得分。
圖4 語音形狀噪聲不同信噪比時三種方法的可懂度得分Fig.4 The intelligibility scores of three methods under different ratios of signal to the speech shaped noise
由表2和表3可得,BSIM和STOI的評價結(jié)果與主觀結(jié)果相接近,相關(guān)度較高;SRMR的相關(guān)度相比于前兩者較差。BSIM和STOI均可作為預(yù)測客觀可懂度的方法,BSIM在高斯噪聲下評價效果優(yōu)于STOI。
表2 在語音形狀噪聲時三種語音可懂度的相關(guān)系數(shù)Table 2 Correlation coefficients of three kinds of speech intelligibility under speech shaped noise
表3 高斯噪聲時三種語音可懂度的相關(guān)系數(shù)Table 3 Correlation coefficients of three kinds of speech intelligibility under Gaussian noise
②實際噪聲對語音可懂度的影響
主觀評價:測試環(huán)境為24種條件(6種信噪比情況及4種背景噪聲類型,共24種測試環(huán)境),添加噪聲的信噪比為-10~40 dB。
客觀評價:隨機選取300個TIMIT句子分為4組,每組句子分別添加一種背景噪聲,噪聲的信噪比均為-10~40 dB。用三種方法分別進行測試。圖6~9為三種方法在4種噪聲條件下不同信噪比的語音可懂度得分。
圖5 高斯噪聲不同信噪比時三種方法的可懂度得分Fig.5 The intelligibility scores of the three methods under different ratios of signal to the Gaussian noise
由圖6~9分析可得,在4種類型噪聲條件下,BSIM和STOI可懂度得分的曲線走勢與主觀分數(shù)十分接近,SRMR相對較差,其中在babble和bus噪聲下BSIM的表現(xiàn)優(yōu)于STOI,更加接近主觀分數(shù)。
圖6 babble噪聲不同信噪比時三種方法的可懂度得分Fig.6 The intelligibility scores of the three methods under different ratios of signal to the babble noise
圖7 bus噪聲不同信噪比時三種方法的可懂度得分Fig.7 The intelligibility scores of the three methods under different ratios of signal to the bus noise
圖8 machine噪聲不同信噪比時三種方法的可懂度得分Fig.8 The intelligibility scores of the three methods under different ratios of signal to the machine noise
圖9 train噪聲不同信噪比時三種方法的可懂度得分Fig.9 The intelligibility scores of the three methods under different ratios of signal to the train noise
表4為不同噪聲類型時三種方法計算的皮爾遜相關(guān)系數(shù)。由表4分析可得,在實際噪聲測試下,BSIM和STOI與主觀評價接近,但是STOI算法屬于侵入式,具有理想特性。
表4 不同噪聲類型時三種方法計算的皮爾遜相關(guān)系數(shù)Table 4 Pearson correlation coefficients calculated by three methods in different noise situations
綜上所述,BSIM預(yù)測語音可懂度效果更佳。
(2)非線性失真對語音可懂度的影響
語音可懂度的變化受到語音信號頻率和幅值的影響,其降低不僅僅是由于環(huán)境噪聲、房間混響和聽力損失對語音可懂度造成影響,諸如來自助聽器等語音傳輸設(shè)備所帶來的非線性失真,也會對語音可懂度造成影響,并且其他類型的非線性失真對語音可懂度造成的影響均介于峰值削波和中心削波之間[22]。
峰值削波與語音傳輸設(shè)備中的運算、放大器和接收器飽和有關(guān);中心削波與降低信號低電平部分幅度的噪聲抑制系統(tǒng)有關(guān)。
峰值削波會使可懂度得分隨著削波閾值的增加而增加,而中心削波會使可懂度得分隨著削波閾值的增加而減少。將測試結(jié)果與Kates and Arehart[23]中的原始數(shù)據(jù)進行比較,測量結(jié)束如圖10、11所示。
由圖10可知,當中心削波的閾值增加時,可懂度的客觀得分在降低,并且STOI與原始數(shù)據(jù)的走勢相差較大,隨著削波閾值的增加,STOI的可懂度得分逐漸下降之后,在削波閾值為60%時再次升高;SRMR與BSIM與原始數(shù)據(jù)走勢大致相同,BSIM的效果更貼近原始數(shù)據(jù),效果更佳。
圖10 不同中心削波閾值下三種方法的可懂度得分Fig.10 Intelligibility scores of three methods under different center clipping thresholds
由圖11可知,三種評測方法均與原始數(shù)據(jù)的走勢大致相同,當峰值削波的閾值增加時,可懂度得分也隨之增加。但BSIM的效果更貼近原始數(shù)據(jù)。所以BSIM可以較好地預(yù)測峰值削波造成的語音可懂度的變化。
圖11 不同峰值削波閾值下三種方法的可懂度得分Fig.11 Intelligibility scores of three methods under different peak clipping thresholds
綜上所述,BSIM和SRMR可以預(yù)測中心削波造成的語音可懂度的變化。對于語音傳輸設(shè)備造成的非線性失真,BSIM可以較好地預(yù)測語音客觀可懂度的變化。
隨機選取TIMIT語料庫中的一段語音數(shù)據(jù),分別添加閾值為20%和60%的峰值削波失真,進行功率譜和雙譜估計。結(jié)果表明:添加兩種閾值的峰值削波失真信號其頻率分量的幅值在功率譜上沒有顯著差異。傳統(tǒng)的語音可懂度評價方法基于的是二階統(tǒng)計量,通過計算其功率譜包絡(luò)預(yù)測可懂度,所以傳統(tǒng)的方法將會產(chǎn)生相同的預(yù)測分數(shù);而雙譜的等高線圖顯示了不同峰值削波閾值相位耦合的較為明顯差異,通過計算在兩種峰值削波失真下特征值H3,其數(shù)值隨著閾值的增大而增大,符合語音可懂度的變化。
本文給出了一種基于雙譜特征的語音可懂度客觀評價算法,根據(jù)實驗結(jié)果可知,在線性失真的條件下,STOI和BSIM的方法均可以預(yù)測語音可懂度變化,兩者相差較小,但STOI在每次測量過程中均依賴純凈語音的加入,而在現(xiàn)實環(huán)境中純凈語音較難獲??;在非線性失真的條件下,SRMR和BSIM的可懂度得分與主觀評分曲線接近,BSIM相比于SRMR更貼近主觀評分,誤差在1%以內(nèi),但SRMR預(yù)測線性失真的效果較差。綜上所述,該方法是一種不依賴原始語音,更實用的、預(yù)測多種類型失真的語音可懂度評價算法。