李程程
(四川大學(xué)計算機(jī)學(xué)院,成都 610000)
基于語音識別的英語發(fā)音相似性研究
李程程
(四川大學(xué)計算機(jī)學(xué)院,成都 610000)
地道的英語發(fā)音在日常交流和相互理解中十分重要。隨著自動語音識別技術(shù)的完善,計算機(jī)輔助發(fā)音練習(xí)(CAPT)系統(tǒng)已可以給第二語言學(xué)習(xí)者提供有限的交互。發(fā)音相似性比較是構(gòu)建系統(tǒng)的關(guān)鍵一步,設(shè)計一個可識別英語發(fā)音相似度的模型。通過計算學(xué)習(xí)者發(fā)音與標(biāo)準(zhǔn)語音的相似度,并與專家對學(xué)習(xí)者發(fā)音的評分進(jìn)行比較,計算兩者的相關(guān)度,驗證模型的可行性和有效性。
端點檢測;梅爾倒譜系數(shù);最大土地搬運(yùn)距離;帶條件的最大匹配動態(tài)規(guī)劃
閱讀相關(guān)文獻(xiàn)[1]后,本文認(rèn)為基于自動語音識別技術(shù)(ASR,Automatic Speech Recognition)的計算機(jī)輔助學(xué)習(xí)系統(tǒng)(CALL,Computer Assisted Language Learning)的功能可以用五個階段來總結(jié):
(1)語音識別階段:ASR引擎基于音素內(nèi)部關(guān)系和語義模型將輸入語音信號轉(zhuǎn)換成一個詞序列。這是第一個也是最重要的環(huán)節(jié),因為后續(xù)階段的實施都要依靠這個階段結(jié)果的準(zhǔn)確性。
(2)評分:這個階段可以對發(fā)音質(zhì)量以分?jǐn)?shù)的形式給出評價。ASR系統(tǒng)能分析之前由語音識別階段識別出的語音。通過分析比較學(xué)習(xí)者語音的語音特征和標(biāo)準(zhǔn)語音的相關(guān)語音特征,兩者越靠近,分?jǐn)?shù)就越高。
(3)錯誤檢測:基于ASR的CAPT系統(tǒng)還能夠檢測在一段語音中錯誤發(fā)音的位置,并告訴學(xué)習(xí)者哪里出現(xiàn)了錯誤,幫助他們在某部分提高關(guān)注并加強(qiáng)練習(xí)。
錯誤診斷:ASR系統(tǒng)能夠識別特定類型的錯誤,然后給出如何改進(jìn)的意見。
(4)反饋:此功能需要考慮更多關(guān)于圖形用戶界面的設(shè)計問題,可以包含在給學(xué)習(xí)者展示第(2)(3)(4)階段的信息里。
(5)本文主要工作集中在(1)(2),包括語音信號特征參數(shù)前需要做的預(yù)處理,語音信號端點檢測的方法,學(xué)習(xí)者和標(biāo)準(zhǔn)語音特征參數(shù)的提取過程,并提出基于EMD和帶條件的最大匹配動態(tài)規(guī)劃兩種算法計算語音相似度。
1.1 語音信號的預(yù)加重
語音信號的平均功率譜會受到聲門激勵和發(fā)音者口腔,鼻腔輻射的影響,其高頻部分大約在800Hz以上按6dB/倍頻程跌落[2]。所以高頻部分的頻譜比低頻部分更弱,求語音信號頻譜時,需要對語音信號做預(yù)加重,目的是消除發(fā)聲過程中聲帶和嘴唇輻射的影響,補(bǔ)充語音功率譜的固有衰落和受發(fā)音系統(tǒng)所壓抑的高頻部分,使高頻部分提高,使低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析。
語音進(jìn)行預(yù)加重處理后,主要的發(fā)聲片段和可能是噪聲的部分幅值差距變得更明顯,波形變化也更清晰,從而減少了噪音對之后端點檢測和特征參數(shù)提取模塊的影響。
1.2 語音信號的分幀與加窗
由于人自身的發(fā)音器官的運(yùn)動,語音信號是一種典型的非平穩(wěn)信號,但是相比于聲波振動的速度,發(fā)音器官的運(yùn)動就顯得非常緩慢了,因此,技術(shù)人員通常認(rèn)為10ms~30ms這樣長度的時間段中,即每秒大約有33~100幀,語音信號是平穩(wěn)信號[3]。分幀雖然可以采用連續(xù)分的方法,但一般要采用交疊分段的方法,這是為了使幀與幀之間平滑過渡,保持其連續(xù)性。幀移是前一幀與后一幀的重疊部分,其長度通常是幀長的0~1/2。
用可移動的有限長度窗口對語音信號進(jìn)行加權(quán)得到新的信號波形的過程稱為加窗,也就是通過特定的窗函數(shù)w(n)來乘以原始語音波形信號s(n)得到加窗波形信號Sw(n)。在時域上選取窗函數(shù)的標(biāo)準(zhǔn)是:因為是語音波形信號乘以窗函數(shù),所以要減小加窗信號幀波形兩側(cè)的截斷效應(yīng),是邊緣平滑過渡到零而不至于發(fā)生急劇變化。所以相較于矩形窗,漢明窗適用于本模型的語音分幀加窗。
本文結(jié)合端點檢測的兩種基本方法,將一段預(yù)處理后的錄音盡量劃分成獨(dú)立的單詞。理想情況是,從短時能量來看:無聲段的短時能量為零,清音段短時能量比濁音段??;從短時過零率來看,無聲段的過零率為零,清音段的過零率比濁音段大。因此,如果某部分語音短時能量小而且過零率低,則可認(rèn)為它是無聲段;如果其短時能量大但過零率小,可以認(rèn)為是濁音段;如果其短時能量小但過零率大,則可以認(rèn)為它是清音段[4]。
3.1 MFCC的提取
在學(xué)習(xí)者模仿標(biāo)準(zhǔn)語音的過程中,要求學(xué)習(xí)者在吐詞和聲調(diào)上與標(biāo)準(zhǔn)語音越相似越好,也就是盡量模仿母語說話者的發(fā)音習(xí)慣和發(fā)聲方式,由于梅爾倒頻譜系數(shù)(Mel-Frequence Cepstral Coefficients,MFCC)能表現(xiàn)聲道運(yùn)動的動態(tài)特征,而且能較好地仿真人耳的聽覺特性,抗噪能力也較高,所以本文模型采用MFCCs來作為計算語音相似性的特征參數(shù)。
提取MFCCs的過程:首先對待測語音進(jìn)行預(yù)處理,對其中每幀通過快速傅里葉變換(FFT)將語音從時域波形圖轉(zhuǎn)換到頻域圖,根據(jù)人耳的聽覺特性,通過梅爾濾波器組取得該幀語音的部分頻率特征,再通過離散余弦變換(DCT)以后就可以得到MFCC。
為了能更準(zhǔn)確地表示語音的特點,本文同時提取語音的MFCCs的一階差分系數(shù)作為其動態(tài)變化表征,從而基于MFCCs計算得到了語音的24維特征參數(shù)。
3.2 提取語音強(qiáng)度
在學(xué)習(xí)者模仿標(biāo)準(zhǔn)語音的時候,會想象說話時的語境和說話者的情緒,聲音的高低往往能表達(dá)說話者情緒是高興還是悲傷,是激動還是平緩。所以學(xué)習(xí)者語音的強(qiáng)度變化可以在一定程度上反映其模仿發(fā)音的質(zhì)量。本文提取了每幀語音短時能量的一階差分系數(shù)作為其動態(tài)變化的表征,從而基于短時能量計算得到1維特征。
至此本文模型特征參數(shù)提取過程結(jié)束,學(xué)習(xí)者語音和標(biāo)準(zhǔn)語音利用上述提取特征參數(shù)的方法得到的25維特征(24維MFCCs及其動態(tài)變化特征和1維短時能量動態(tài)變化特征)進(jìn)行相似度計算。
準(zhǔn)語音和學(xué)習(xí)者語音在端點檢測和特征提取后長度往往不相同,所以不能直接用余弦距離或者歐氏距離等來測量兩段語音的相似度,通過查閱相關(guān)文獻(xiàn),本文模型采用EMD和帶條件的最大匹配動態(tài)規(guī)劃算法來解決上述問題。
4.1 EMD(Earth Movers Distance)算法
EMD是1997年由Rubner提出的一種有效圖像檢索的方法。EMD被定義為在供應(yīng)商與顧客間運(yùn)輸貨物最小工作量的問題。EMD基本計算框架可以用如下線性規(guī)劃問題來描述:
假設(shè)P={(p1,wp1),…,(pm,wpm)}代表供應(yīng)商供貨的離散分布,例如直方圖,其中p1代表每個類的類中心,wpm代表相應(yīng)類的權(quán)重,或該類中元素個數(shù);Q={(q1,wq1),…,(qn,wqn)}代表顧客需求的離散分布;D=[dij]表示類中心和類中心的距離矩陣?,F(xiàn)在需要找到一個運(yùn)輸量矩陣,F(xiàn)=[fij],其中fij代表了pi到qj的運(yùn)輸量,使得花費(fèi)計算結(jié)果最小。
依據(jù)EMD的框架,本文將標(biāo)準(zhǔn)語音特征模型當(dāng)做供應(yīng)商的供貨分布,把學(xué)習(xí)者語音特征向量當(dāng)做顧客的需求分布,計算EMD作為兩者的相似度,EMD值越大語音間相差越大,反之EMD值越小,則兩段語音越相似。過程可以用圖1表示。
圖1 基于EMD算法的相似度計算流程圖
提取標(biāo)準(zhǔn)語音和學(xué)習(xí)者語音的25維特征參數(shù),再用LBG算法得到標(biāo)準(zhǔn)語音模型,即codebook的直方圖,接下來就利用EMD算法計算他們的相似度,由于EMD算法框架可以用線性規(guī)劃問題來描述,所以本文模型中采用了MATLAB自帶的optim工具箱中l(wèi)inprog函數(shù)來解決。
4.2 帶條件的最大匹配動態(tài)規(guī)劃算法
在孤立詞語音識別中,最為簡單有效的方法是采用DTW(Dynamic Time Wraping,動態(tài)時間彎折)算法,該算法基于動態(tài)規(guī)劃的思想,在語音識別中解決了發(fā)音長短不一的模板匹配問題,是出現(xiàn)較早、較為經(jīng)典的一種算法[5]。本文借鑒DTW的思想并結(jié)合英語發(fā)音訓(xùn)練模型的實際情況,采用了帶條件的最大匹配動態(tài)規(guī)劃算法來解決語音長短不一的特征參數(shù)匹配和相似度計算問題。
在英語發(fā)音訓(xùn)練模型提取語音特征參數(shù)之前,先采用端點檢測算法找到每個單詞的起點和終點。假設(shè)標(biāo)準(zhǔn)語音模板用{S(1),S(2),…,S(n),…,S(N)}表示,n為標(biāo)準(zhǔn)語音幀的時序標(biāo)號,n=1為起點語音幀,n=N為終點語音幀,S(n)為第n幀的語音特征矢量;學(xué)習(xí)者語音模板用{T(1),T(2),…,T(m),…,T(M)}來表示,m為學(xué)習(xí)者語音幀的時序標(biāo)號,m=1為起點語音幀,m=M為終點語音幀,T(m)為第m幀的語音特征矢量。標(biāo)準(zhǔn)語音和學(xué)習(xí)者語音模板采用相同類型的特征矢量(12維的MFCCs,12維MFCCs動態(tài)變化特征,1維的短時能量動態(tài)變化特征)、相同的幀長(256個采樣點)、相同的窗函數(shù)(漢明窗)和相同的幀移(80個采樣點)。
假設(shè)標(biāo)準(zhǔn)語音和學(xué)習(xí)者語音模板分別用S和T表示,為了比較它們的相似度,模型中計算它們之間的匹配值D[S,T],匹配值越大則相似度越高。為了計算此匹配值,首先計算S和T中各個對應(yīng)幀之間的匹配值,即d[S(n)][T(m)],其中n和m分別是S和T中任意選擇的幀號。
由于在實際的兩段語音中,N和M往往不等,本文采用帶條件的最大匹配動態(tài)規(guī)劃算法求最大匹配度,且使得語音中的兩幀在匹配無交叉項的情況下對齊。
如果把標(biāo)準(zhǔn)模板的各個幀號n=1~N在一個二維直角坐標(biāo)系中的橫軸上標(biāo)出,把待測模板的各幀號m= 1~M在縱軸上標(biāo)出,通過這些表示幀號的整數(shù)坐標(biāo)畫出一些縱橫線形成一個網(wǎng)絡(luò),網(wǎng)格中每個交叉點(n,m)表示測試模式中某兩幀的交匯點[6]。帶條件最大匹配動態(tài)規(guī)劃算法可以歸結(jié)為尋找一條通過此網(wǎng)格中若干格點的路徑,路徑通過的格點就是標(biāo)準(zhǔn)語音和學(xué)習(xí)者語音模板中進(jìn)行距離計算的幀號。
路徑不是隨意選擇的,雖然任何一種語音的發(fā)音快慢都可能變化,但是其各部分的先后次序不能變,按照上述狀態(tài)轉(zhuǎn)移方程,假設(shè)路徑已經(jīng)通過了格點(ni-1,mj-1)那么下一個通過格點(ni,mj)可能是下列三種情況:
這使得每個幀號至多被對應(yīng)一次,并且能找到的沿路徑的累積距離達(dá)到最大值。易于證明,限定范圍內(nèi)的任何一個格點(ni,mj)只能有一條搜索路徑通過。
通過計算這兩組數(shù)據(jù)與專家評分結(jié)果的相關(guān)性,即可比較兩種語音相似度計算方法的優(yōu)劣。用MATLAB計算20條學(xué)習(xí)者語音分別通過模型所得發(fā)音質(zhì)量評級和專家評分得到:基于EMD算法的評級與專家1和專家2評分的相關(guān)性分別是0.5474,0.6715;基于動態(tài)規(guī)劃算法的評級與專家1和專家2評分的相關(guān)性分別是0.2064,0.2405。
但從時間復(fù)雜度來看,基于EMD算法的平均耗時更長為16.729s,而基于動態(tài)規(guī)劃算法的平均耗時為1.191s。
實驗所取的兩位專家的評分相關(guān)性很高,說明該評分均有參考價值。由于模型給出的評分等級是1最高4最低;專家評分時采用評分10最高,0最低,所以本文模型評級與專家評分結(jié)果相關(guān)性越高,則相關(guān)系數(shù)的絕對值越靠近1,從實驗結(jié)果可以看出模型在EMD算法下計算相似度的評級結(jié)果與專家的評分結(jié)果更相關(guān),也就能更真實地反饋學(xué)習(xí)者在模仿標(biāo)準(zhǔn)語音時的發(fā)音水平;同時基于EMD算法的模型耗時更多,而且有可能影響用戶體驗。綜合考慮學(xué)習(xí)者的需求和英語發(fā)音訓(xùn)練的目的,EMD算法更適用于在CAPT系統(tǒng)中計算英語發(fā)音相似度。
[1]S.M.Witt,S.J.Young.Phone-Level Pronunciation Scoring and Assessment for Interactive Language Learning.Speech Communication,30,95-108,2000.
[2]吳恬盈,戴在平.基于Burg算法逆運(yùn)算的計算機(jī)語音信號合成.福建電腦,2005(9):84-85.
[3]Li,Qi,Jing-song Zheng.Robust Endpoint Detection and Energy Normalization for Real-Time Speech and Speaker Recognition. Speech and Audio Processing.IEEE Transactions on(Volume:10,Issue:3)Mar 2002,146-157.
[4]馬莉,黨幼云.特定人孤立詞語音識別系統(tǒng)的仿真與分析.西安工程科技學(xué)院學(xué)報,2007,21(3):371-373.
[5]李邵梅,陳鴻昶,王凱.基于DSP的高速實時語音識別系統(tǒng)的設(shè)計與實現(xiàn).現(xiàn)代電子技術(shù),2007,30(15):109-111.
[6]維基百科.WAV.http://zh.wikipedia.org/wiki/WAV,2014/4/20.
Research on the Similarity of English Pronunciation Based on Speech Recognition
LI Cheng-cheng
(College of Computer Science,Sichuan University,Chengdu 610000)
Pronunciation is of great importance to second language learning.Computer assistance pronunciation training(CAPT)is therefore an efficient way to address this problem,which is able to detect the errors from a learner's speech and provide useful suggestions in a fully automatic manner.Studies the algorithms to compare two algorithms for speech similarity calculation.Through these experiments,finds that our model ranking based on EMD algorithm is more closer to experts scoring and verifies the feasibility and effectiveness of our model as well.
Endpoint Detection;MFCCs;EMD;DTW
1007-1423(2017)02-0016-04
10.3969/j.issn.1007-1423.2017.02.004
李程程(1991-),女,四川樂山人,碩士研究生,研究方向多媒體計算、機(jī)器智能
2016-11-01
2016-12-19