【摘要】文章針對現(xiàn)在我國俄語教學(xué)中發(fā)音教學(xué)的不足,提出使用自動語音分析技術(shù)輔助俄語發(fā)音學(xué)習(xí),設(shè)計了一個具有示范、評分反饋功能的俄語單詞發(fā)音學(xué)習(xí)輔助系統(tǒng)。文章詳細(xì)的描述了系統(tǒng)功能、基本框架,給出了系統(tǒng)實現(xiàn)中的關(guān)鍵技術(shù)。最后,使用VC 6.0實現(xiàn)了一個演示系統(tǒng),并進(jìn)行了簡單測試。
【關(guān)鍵詞】自動語音分析;俄語發(fā)音;MFCC;計算機(jī)輔助教學(xué)
【中圖分類號】G420 【文獻(xiàn)標(biāo)識碼】B 【論文編號】1009—8097(2010)07—0091—03
引言
隨著國際交流的不斷發(fā)展,人們已經(jīng)越來越多地意識到外語學(xué)習(xí)和使用的重要性。非母語語言的教學(xué)已經(jīng)成為當(dāng)前教育教學(xué)領(lǐng)域的一個熱點。俄語作為世界上最豐富的語言之一,由于歷史及地理原因在我國受到的關(guān)注程度遠(yuǎn)遠(yuǎn)超越了除英語以外的其他語種。
語言作為一個交流工具,能夠正確標(biāo)準(zhǔn)的發(fā)音是現(xiàn)代語言教學(xué)與學(xué)習(xí)的一個重要目標(biāo)。在發(fā)音學(xué)習(xí)中,有效的反饋是必不可少的一個重要環(huán)節(jié)。在傳統(tǒng)的課堂教學(xué)中教師是一個有效的反饋源,然而由于課堂時間和教師資源都是有限的,不能保證每個學(xué)生的發(fā)音都能得到有效的反饋。另外,語言的發(fā)音學(xué)習(xí)是需要反復(fù)訓(xùn)練的,這也是傳統(tǒng)課堂教學(xué)方式所不能提供的。在發(fā)音習(xí)時,學(xué)生需要一個“教師”隨時隨地的對自己的發(fā)音進(jìn)行有效的反饋和指導(dǎo)。
計算機(jī)輔助語言學(xué)習(xí)(CALL,Computer-Aided Language Learning)技術(shù)[1]的興起和發(fā)展為語言發(fā)音教學(xué)提供了新的途徑。CALL是指在一定的語言學(xué)和心理學(xué)的理論基礎(chǔ)上,利用計算機(jī)和信息技術(shù)輔助外語學(xué)習(xí)。結(jié)合自動語音分析技術(shù)的CALL可以用來進(jìn)行輔助發(fā)音學(xué)習(xí),學(xué)習(xí)者可以隨時隨地的得到即時的有效反饋,根據(jù)反饋信息及時調(diào)整改進(jìn)自己的發(fā)音,有效的彌補(bǔ)了傳統(tǒng)課堂語言教學(xué)中發(fā)音反饋的不足。
俄語和漢語屬于不同的語系,它們發(fā)音習(xí)慣有著很大的不同。目前我國對基于語音處理技術(shù)的發(fā)音學(xué)習(xí)的研究主要集中在英語教學(xué)[2][3]和對外漢語教學(xué)[4][5]中,對于俄語發(fā)音的研究尚未見于文獻(xiàn)。本文采用自動語音分析技術(shù),設(shè)計了一個具有示范、評分功能的俄語單詞發(fā)音學(xué)習(xí)系統(tǒng)。
一 系統(tǒng)介紹
1 基本功能
本文設(shè)計的基于自動語音分析技術(shù)的俄語單詞發(fā)音輔助學(xué)習(xí)系統(tǒng)包括了示范和評分反饋兩個主要功能:
(1)示范。系統(tǒng)顯示當(dāng)前單詞、音標(biāo)、中文意思及標(biāo)準(zhǔn)發(fā)音,學(xué)習(xí)者可以反復(fù)的收聽系統(tǒng)中存儲單詞的標(biāo)準(zhǔn)發(fā)音;
(2)評分反饋。學(xué)習(xí)者可以跟讀,將自己的發(fā)音和系統(tǒng)的中標(biāo)準(zhǔn)發(fā)音比較,系統(tǒng)自動給出評分反饋,并給出標(biāo)準(zhǔn)發(fā)音和學(xué)習(xí)者發(fā)音的波譜圖對比。
2 系統(tǒng)框架
根據(jù)系統(tǒng)的基本功能,系統(tǒng)的基本框架設(shè)計如圖1所示:
系統(tǒng)預(yù)先在數(shù)據(jù)庫中存儲單詞的標(biāo)準(zhǔn)發(fā)音,并提取其特征,本文使用MFCC(Mel頻率倒譜系數(shù))作為語音特征。系統(tǒng)獲取學(xué)習(xí)者語音后,首先將其和數(shù)據(jù)庫中標(biāo)準(zhǔn)語音在時間上對齊,然后提取特征并計算和數(shù)據(jù)庫中標(biāo)準(zhǔn)發(fā)音的相似度,最后將相似度映射為學(xué)習(xí)者較易理解和接受的等級評分。
3 與其他系統(tǒng)的不同
本文設(shè)計的系統(tǒng)和其他文獻(xiàn)中提到的基于語音分析技術(shù)的發(fā)音學(xué)習(xí)系統(tǒng)[2][3][4][7]的不同主要體現(xiàn)在以下幾個方面:
(1)本系統(tǒng)使用的技術(shù)不是語音識別技術(shù),并不識別學(xué)習(xí)者發(fā)音的含義,而是采用語音分析技術(shù),分析判斷學(xué)習(xí)者發(fā)音和系統(tǒng)存儲的標(biāo)準(zhǔn)語音的相似度給出評分反饋;
(2)本系統(tǒng)的設(shè)計旨在指導(dǎo)學(xué)習(xí)者學(xué)習(xí)俄語單詞的發(fā)音,是屬于語音分析技術(shù)中的孤立詞分析,孤立詞分析技術(shù)相對于整句的分析的技術(shù)較為成熟,這增加了系統(tǒng)的可行性;
(3)本系統(tǒng)數(shù)據(jù)庫使用標(biāo)準(zhǔn)語音數(shù)據(jù)庫,并沒有進(jìn)行語料庫的訓(xùn)練,直接根據(jù)相似度評價打分,降低了系統(tǒng)的復(fù)雜性,這是因為本系統(tǒng)僅僅面向于俄語單詞發(fā)音的輔助學(xué)習(xí)。
二 系統(tǒng)關(guān)鍵技術(shù)
1 端點檢測
端點檢測是指在有背景音的情況下,找出實際語音的開始點和結(jié)束點,是語音分析領(lǐng)域的一個基本問題。在孤立詞的分析識別中,尤為重要,正確的端點檢測不僅是正確語音分析的必要前提,同時也能提高系統(tǒng)的運行速度。
本系統(tǒng)旨在指導(dǎo)學(xué)習(xí)者學(xué)習(xí)俄語單詞發(fā)音,因此屬于孤立詞語音分析。這種情況下,單詞的起始和結(jié)束位置較為明顯,因此本文使用較為簡單的音量法和過零率檢測方法進(jìn)行端點的檢測。音量檢測為主,過零率檢測為輔,過零率的引入能有效的消除對氣音的誤判。
2 特征選取
特征的選擇和提取是語音分析系統(tǒng)的一個重要部分,特征選取的合適與否將直接影響到整個系統(tǒng)的性能。在語音分析輔助俄語發(fā)音系統(tǒng)中,語音特征的選取還體現(xiàn)著評分的意圖和側(cè)重,這是因為所選取的特征將被用來比較作為評分依據(jù)。
在語音分析領(lǐng)域,常用的特征主要有短時幀平均能量、幅度、短時幀過零率,LPCC(線性預(yù)測倒譜系數(shù))和MFCC(Mel到譜系數(shù))等。其中MFCC考慮了人耳的聽覺特性,具有良好的識別特性和抗噪特性,能較好的體現(xiàn)語音的內(nèi)容,因而本文選擇其作為語音特征。MFCC參數(shù)的提取流程過程如圖2所示:
3 MFCC計算流程
首先對系統(tǒng)捕獲的原始語音信號S(n)進(jìn)行預(yù)加重、分幀、加窗等預(yù)處理,得到每個語音幀的時域信號X(n)。然后對X(n)實施DFT(離散傅里葉變換)得到線性頻譜X(k)。接著計算X(k)的能量譜,使用一組Mel尺度的三角形濾波器在頻域?qū)δ芰孔V進(jìn)行帶通濾波。求取每個濾波器組輸出的對數(shù)能量S(m),對S(m)進(jìn)行DCT(離散余弦變換)最終得到MFCC參數(shù)。
4 評分算法(相似度度量)
發(fā)音水平的衡量評分方法是俄語發(fā)音學(xué)習(xí)系統(tǒng)中使用到的另一項關(guān)鍵技術(shù),不合理的評分算法會對發(fā)音給出錯誤的評分,對學(xué)習(xí)者造成誤導(dǎo)。發(fā)音水平的計算機(jī)評分結(jié)果要可靠,要求盡可能的和現(xiàn)實專家(老師)對發(fā)音的評分保持一致。
現(xiàn)有評估發(fā)音質(zhì)量的主要方法有:段分類評分、段時長評分等、HMM對數(shù)似然度評分和對數(shù)后驗概率評分。它們的原理都是以標(biāo)準(zhǔn)發(fā)音為模板,通過計算學(xué)習(xí)者發(fā)音和這些模板之間相似度進(jìn)行的。本文中系統(tǒng)是對單詞發(fā)音的孤立詞語音分析,因此段分類評分和段時長評分不適用本系統(tǒng)。以往的研究結(jié)果[3][8]表明,對數(shù)后驗概率評分具有最好的健壯性,因此本文選取其作為俄語發(fā)音學(xué)習(xí)系統(tǒng)的評分算法。
下面對后驗概率評分算法進(jìn)行簡單的介紹【9】。
對于音素 ,給出與其相關(guān)的第i段語音的每一幀 ,計算 基于幀的后驗概率得:
其中, 為給定音素q下觀測到的 的概率分布,在分母上, 為音素q的先驗概率,M為當(dāng)前語料中與文本無關(guān)的音素總數(shù)。
音素 在第i段語音每一幀下的后驗概率取對數(shù),然后逐幀累加,就可以得到音素 在第i段語音下的對數(shù)后驗概率得分:
其中 表示音素 所對應(yīng)的第i段語音的起始時間。整個單詞的后驗概率打分,定義為單詞或句子中所有音素段的對數(shù)后驗概率按音素長度歸一化后的平均值,為:
其中,N為單詞的總音素數(shù), 為第i個音素持續(xù)的幀數(shù)。
對數(shù)后驗概率評分具有很好健壯性,受學(xué)習(xí)者個體說話特征或聲音通道的變化影響較小,它能更好的反映學(xué)習(xí)者的發(fā)音與標(biāo)準(zhǔn)發(fā)音之間相似度,因此,它是目前使用最普遍的一種發(fā)音測度方法。
使用對數(shù)后驗概率評分得到的分?jǐn)?shù)不夠直觀,不便于學(xué)習(xí)者理解和接受,因此需要將該得分映射為一個概略的得分。系統(tǒng)將對數(shù)后驗概率得分映射到A、B、C、D、E五個等級。為了鼓勵學(xué)習(xí)者學(xué)習(xí),評分最高的(和標(biāo)準(zhǔn)語音相似度)的35%都映射為等級A(非常標(biāo)準(zhǔn)),同時為了督促學(xué)習(xí)者更好的掌握標(biāo)準(zhǔn)語音,評分最低后35%都被映射為等級E(非常不標(biāo)準(zhǔn),建議學(xué)習(xí)重讀)。當(dāng)用戶發(fā)音得分等級為D或E時,提示用戶發(fā)音不合格,建議跟隨標(biāo)準(zhǔn)發(fā)音重新學(xué)習(xí)。
三 系統(tǒng)實現(xiàn)
我們使用VC6.0實現(xiàn)了一個簡單的基于語音分析的俄語單詞發(fā)音學(xué)習(xí)演示系統(tǒng),實現(xiàn)了文中提出的基本功能,系統(tǒng)界面截圖為圖3所示。
系統(tǒng)界面主要分為兩個部分,左邊部分為單詞區(qū),顯示的是系統(tǒng)內(nèi)有標(biāo)準(zhǔn)發(fā)音的單詞列表(本演示系統(tǒng)使用的標(biāo)準(zhǔn)發(fā)音取自高等教育出版社出版的《大學(xué)俄語簡明教程》隨書攜帶的MP3)。單擊左邊窗口的單詞,系統(tǒng)將會讀出標(biāo)準(zhǔn)發(fā)音。
系統(tǒng)界面的右邊半部分為信息顯示區(qū)。當(dāng)學(xué)習(xí)者選擇開啟跟讀學(xué)習(xí)模式時,在標(biāo)準(zhǔn)發(fā)音結(jié)束3秒鐘內(nèi),學(xué)習(xí)者跟讀,系統(tǒng)比較學(xué)習(xí)者發(fā)音和標(biāo)準(zhǔn)發(fā)音給出評分。系統(tǒng)同時給出了標(biāo)準(zhǔn)發(fā)音和學(xué)習(xí)者發(fā)音的波譜圖對比,直觀的顯示了學(xué)習(xí)者發(fā)音和標(biāo)準(zhǔn)發(fā)音的不同。
我們在小規(guī)模小范圍的情況下對本演示系統(tǒng)進(jìn)行了測試,測試結(jié)果顯示本系統(tǒng)對俄語單詞學(xué)習(xí)具有一定的指導(dǎo)意義,并能夠幫助學(xué)習(xí)者提高俄語單詞發(fā)音的準(zhǔn)確性。
目前實現(xiàn)的僅僅是一個小規(guī)模的演示系統(tǒng),要將系統(tǒng)應(yīng)用于實際教學(xué)中,需要對系統(tǒng)注冊單詞的規(guī)模及對學(xué)習(xí)者友好交互性設(shè)計等方面加以改進(jìn)。
四 結(jié)束語
隨著計算機(jī)和語音處理技術(shù)的不斷發(fā)展,利用自動語音分析技術(shù)對學(xué)習(xí)者在學(xué)習(xí)非母語時進(jìn)行發(fā)音指導(dǎo)成為計算機(jī)輔助教學(xué)一個熱點問題。它能夠有效的解決外語學(xué)習(xí)課堂上教師和時間資源的有限性,作為反饋源隨時隨地對學(xué)習(xí)者發(fā)音進(jìn)行指導(dǎo)。
本文利用自動語音分析技術(shù)對俄語單詞發(fā)音學(xué)習(xí)進(jìn)行指導(dǎo),設(shè)計并實現(xiàn)了一個小規(guī)模演示系統(tǒng)。本文工作是語音分析技術(shù)和俄語教學(xué)的一個有效契合點,對語音技術(shù)和俄語教學(xué)的進(jìn)一步結(jié)合發(fā)展具有較強(qiáng)的參考意義。
參考文獻(xiàn)
[1] Mark Warschauera and Deborah Healya. Computers and language learning: an overview[J].Language Teaching,2009,(12):57-71.
[2] 黃驍勇.語音識別技術(shù)在英語發(fā)音學(xué)習(xí)中的應(yīng)用研究[D].南京:東南大學(xué),2007.
[3] 趙博.語音識別應(yīng)用于計算機(jī)輔助語言學(xué)習(xí)的研究[D].上海:上海交通大學(xué),2009.
[4] 施偉,謝湘.一種基于語音識別的漢語發(fā)音評價系統(tǒng)[A].中國計算技術(shù)與語言問題研究——第七屆中文信息處理國際會議論文集[C].北京:電子工業(yè)出版社,2007: 621-625.
[5] 呂軍,曹效英.基于語音識別的漢語發(fā)音自動評分系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機(jī)工程與技術(shù),2007,28(5):1232-1235.
[6] 李璐.語音識別的拼音學(xué)習(xí)中發(fā)音識別和評分模塊的系統(tǒng)設(shè)計[J].黑龍江科技信息,2010,(1):5-5.
[7] France,H.,Neumeyer,L.,Kim,Y.,Ronen,0.,1997.automatic pronunciation scoring for language instruction[A].
Proceedings of ICASSP’97[C].Munich,Germany,April 1997.
[8] 高國棟.語音接口在漢語學(xué)習(xí)寓教于樂系統(tǒng)中的應(yīng)用[D].北京:北京交通大學(xué),2009.