• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于音素評分模型的發(fā)音標準度評測研究

      2011-06-28 07:05:02戴禮榮
      中文信息學(xué)報 2011年5期
      關(guān)鍵詞:音素后驗發(fā)音

      嚴 可,戴禮榮

      (中國科學(xué)技術(shù)大學(xué) 訊飛語音實驗室,安徽 合肥 230027)

      1 引言

      普通話水平測試(Putonghua Shuiping Ceshi,PSC)是一項規(guī)模浩大的全國性考試,每年約有300多萬人參加考試。該測試是以口頭方式進行,每人耗時大約15分鐘。若測試的評分完全采用人工進行,則每個考場需要2~3名評分員考核以保證評分質(zhì)量,因此若每個評分員一天工作8小時,則僅能完成15人左右的評分任務(wù)??梢娺M行PSC需要消耗大量的人力和物力。同時,由于評分員工作時間長、任務(wù)重,且人與人主觀差異性不可避免,使得評分的客觀性受到損害。采用計算機進行輔助評測,大大提高了評分效率和評分的客觀程度,同時也顯著降低了測試費用,因此受到了相關(guān)部門的高度重視。目前,PSC自動評分系統(tǒng)(以下簡稱PSC系統(tǒng))已在全國十多個省進行了推廣試用,并受到廣泛的好評。

      按照普通話水平測試大綱要求[1],發(fā)音標準度是重點考查的內(nèi)容。在計算機輔助學(xué)習(xí)(Computer Assisted Language Learning,CALL)領(lǐng)域的研究中,美國的斯坦福研究中心(SRI)提出了后驗概率(Posterior Probability)的發(fā)音標準度評價策略[2-3],該策略被廣泛應(yīng)用于各種CALL系統(tǒng)[4-7],并被證實具有良好的評測性能和魯棒性。但研究發(fā)現(xiàn)后驗概率策略評價發(fā)音標準度上存在著嚴重的缺陷。針對此問題,相關(guān)研究人員進行了不懈的研究和探索。魏思等人提出了“根據(jù)聲韻母時長比例調(diào)整后驗概率”[8],加重了聲母的權(quán)重,使得機器評分更符合人工評分情況;劉慶升等人提出了“基于語言學(xué)知識”的網(wǎng)絡(luò)[9-10]、以及基于KLD聚類[7,11]等方法對概率空間進行了優(yōu)化,并在發(fā)音檢錯[12]及調(diào)型檢錯[13]上得到應(yīng)用,均顯著提升了系統(tǒng)性能。

      上述基于規(guī)則的改進工作并未很好的彌補后驗概率與人主觀評測的差異。因此本文提出可訓(xùn)練的“音素評分模型”的概念,通過學(xué)習(xí)開發(fā)集的“知識”,將特征(本文僅采用后驗概率)從概率域變換至分數(shù)域。因此其思想也可看作是特征變換。在全國采集的498人的普通話考試現(xiàn)場數(shù)據(jù)集上的實驗表明該方法能使系統(tǒng)評分性能有顯著的提升: 當后驗概率在全音素概率空間中計算時,可使系統(tǒng)性能相對提升約42%;當該方法與上述基于規(guī)則的策略合并時,能進一步提升系統(tǒng)性能;在上述基于規(guī)則的策略下,有約23%~27%的相對性能提升。

      2 PSC自動評分系統(tǒng)結(jié)構(gòu)及其算法

      2.1 文本相關(guān)評測系統(tǒng)中后驗概率算法

      令音素集包含I個音素,可表示為P={p1,p2,…,pI}。在目前PSC自動評測系統(tǒng)中,后驗概率計算是在切分(Forced Alignment)[11]的音素邊界上進行,并采用對數(shù)形式。對于某一句的第n個音素,假設(shè)其在語料中標記為pi,并起始于第sn幀,終止于第en幀。則該音素的后驗概率的計算如式(1)所示(嚴格來講應(yīng)該為“幀規(guī)整的對數(shù)后驗概率”,下文若未加說明,“后驗概率”均指“幀規(guī)整的對數(shù)后驗概率”)。

      其中O[n;sn,en]代表該音素所對應(yīng)的聲學(xué)特征序列,Mi為pi后驗概率空間。式(1)是針對一個音素的計算,而對于篇章則需要按式(2)在整個語流上進行歸整。

      其中N代表句子(篇章)中音素數(shù)目,id(n)代表該考生語料中第n個音素在音素集中的序號。

      2.2 PSC自動評分系統(tǒng)針對后驗概率算法的改進

      為了進一步提升式(1)對發(fā)音標準度評價的能力,魏思、劉慶升等人做了大量的工作,引入語言學(xué)知識及KLD準則,對式(1)中的各音素的概率空間Mi進行改進。這些基于規(guī)則的改進既節(jié)約了運算量,同時在性能上也得到了大幅度提升,使得PSC系統(tǒng)從實驗室走向安徽再走向全國。

      目前,在實際應(yīng)用中的PSC系統(tǒng)根據(jù)中國人發(fā)音特點,針對性地使用了如下兩類概率空間列表進行評測:

      1) 基于典型錯誤模式的概率空間: 總結(jié)了一些考生容易犯的典型錯誤,概率空間中只考慮這類錯誤影響,有興趣的讀者可參看文獻[11]。

      2) 基于KLD聚類的概率空間: 為了減少HMM之間的聲學(xué)相似造成對評分的影響而設(shè)計的概率空間,KLD計算方式采用文獻[14]所述的Monte-Carlo法。

      3 傳統(tǒng)音素后驗概率策略的不足

      3.1 理想情況——數(shù)據(jù)量無窮多時后驗概率策略在衡量發(fā)音標準度的不足

      樣本無窮多時,累加可轉(zhuǎn)換為積分

      +const(Mi)

      (3)

      3.2 實際情況——后驗概率描述發(fā)音質(zhì)量的缺陷

      上述分析建立在簡單的GMM模型且數(shù)據(jù)量無窮的基礎(chǔ)上,但在實際情況中問題仍然如此。因為式(1)的物理意義是: 在概率空間Mi中,發(fā)音為pi的概率。顯然,概率的值會受到概率空間嚴重的影響,且增加數(shù)據(jù)并不能削弱其影響,若在概率空間中有與pi相似的發(fā)音,則影響會更為嚴重。例如,對于標準的發(fā)音“ing”和“a”時考慮如下兩種概率空間:

      1) 概率空間為M1={a,ing,in,o,e,u,v}

      2) 概率空間為M2={a,ing,o,e,u,v}=M1-{in}

      對于標準的“a”的發(fā)音O(a)而言,無論在是M1還是M2中均沒有其他與之相似的發(fā)音,因此P(a|O(a))≈1。而對于標準的“ing”的發(fā)音O(ing)而言,由于“ing”與“in”在聲學(xué)上天然相似導(dǎo)致該發(fā)音根據(jù)“ing”與“in”對應(yīng)的聲學(xué)模型所計算的聲學(xué)得分相似,因此在概率空間為M1時,P(ing|O(ing))常常會明顯小于1,即評測系統(tǒng)會錯誤認為該發(fā)音不如“a”標準;而當將概率空間變?yōu)槿鏜2的概率空間時,有P(ing|O(ing))≈1。

      上述分析表明,即使都是發(fā)音標準情況,概率空間M1中的音素“in”的存在,會使得音素“ing”的后驗概率較其他如“a”等音素的后驗概率顯著下降,這顯然不利于評分;然而,若“ing”概率空間中沒有元素“in”,就完全不能解決將音素“ing”錯讀為“in”的情況。

      3.3 后驗概率忽略了主觀評分標準的變化

      評分是主觀任務(wù),不同任務(wù)的評分標準各不相同。例如對于PSC測試而言,由于大多考生為發(fā)音流利、錯誤較少的中國人,因此評分員著重考察發(fā)音標準度,對于如“sh-s”,“ch-c”,“zh-z”,“in-ing”,“en-eng”,“n-l”等典型錯誤對會重點關(guān)注;如中學(xué)生學(xué)外語或者外國人初學(xué)漢語任務(wù)上,由于語言學(xué)習(xí)剛剛起步,評分員會重點考察其發(fā)音的可懂度及流暢度,而上述音近的典型在多數(shù)情況下并不影響可懂度,因此會占較低的權(quán)重。而式(1)后驗概率在數(shù)學(xué)上有著嚴格的定義,不隨主觀評分標準變化而相應(yīng)的變化。

      4 基于后驗概率的音素評分模型算法

      上述分析表明,直接采用概率(或?qū)?shù)概率)作為衡量發(fā)音質(zhì)量的特征存在著明顯的缺陷。在實際系統(tǒng)中,由于數(shù)據(jù)量有限,并有信道、噪聲等干擾,式(3)的噪聲項難以精確求解。本文提出可訓(xùn)練的“音素評分模型”的思想,將式(1)的音素后驗概率從“對數(shù)概率域”變換到“分數(shù)域”,使其更符合評分員的主觀分準則。音素評分模型的參數(shù)由開發(fā)集“說話”。

      4.1 音素評分模型的一般形式

      本文僅用式(1)的音素后驗概率作為音素評分特征,如式(5)所示:

      篇章級機器分為該篇章各音素分的平均,如式(7)所示:

      優(yōu)化目標為最小化開發(fā)集的機器分與人工分均根方誤差(RMSE),如式(8)所示:

      4.2 線性音素評分模型

      4.2.1 線性音素評分模型形式

      線性音素評分模型假設(shè)音素分與音素后驗概率成線性關(guān)系,記為λi=(αi,βi),對于訓(xùn)練集中第r句的第n個音素,其機器分的計算如式(9)所示:

      雖然線性函數(shù)結(jié)構(gòu)簡單,但魯棒性好,因此得到廣泛的應(yīng)用。

      4.2.2 線性音素評分模型的顯式全局最優(yōu)解

      將式(9)代入式(7)有:

      寫成矩陣形式如式(12)所示:

      于是式(9)的解如式(13)所示,具體推導(dǎo)過程可參看文獻[15];注意A矩陣中的元素αi,βi即為線性音素評分模型λi的解。

      其中

      4.3 非線性sigmoid音素評分模型

      4.3.1 非線性sigmoid音素評分模型形式及與線性形式的關(guān)系

      Sigmoid函數(shù)是一種“S”形狀的非線性函數(shù),如圖1所示。它比線性函數(shù)更接近人的主觀感受。

      Sigmoid函數(shù)在AB、CD處有較大的壓擴,可理解為發(fā)音后驗概率很低(發(fā)音錯誤)和后驗概率較高(發(fā)音正確)時的音素分;函數(shù)在BC段近似線性。

      非線性Sigmoid音素評分模型可記為λi=(αi,βi,γi,bi),對于訓(xùn)練集中第r句的第n個音素,其機器分的計算如式(15)所示,其中αi和βi控制著sigmoid函數(shù)的形狀及位置,γi控制其取值范圍,bi為偏置項:

      將式(16)代入式(15),就可轉(zhuǎn)成如式(9)所示的線性音素評分模型形式,如式(17)所示。

      4.3.2 非線性sigmoid音素評分模型的梯度下降法求解

      可惜我們并不能像線性函數(shù)那樣簡捷地求解,就目前作者的知識而言,只能采用梯度下降法調(diào)節(jié)模型參數(shù),以逐步逼近局部最優(yōu)解。對式(8)的輔助函數(shù)求偏導(dǎo),如式(18)所示。

      將上式的偏導(dǎo)項展開,有

      (19)

      (20)

      (21)

      (22)

      因此模型的更新公式如(23)式所示:

      a) 使用梯度下降法更新音素評分模型參數(shù)至收斂b) 將其看作是對音素評分特征進行sigmoid規(guī)整后的線性音素評分模型的參數(shù)更新流程圖

      4.3.3 非線性sigmoid音素評分模型的初始化

      梯度下降法僅收斂于局部最優(yōu)值,因此初始化非常重要。本文采用線性音素評分模型估計出的音素分來進行非線性sigmoid音素評分模型λi=(αi,βi,γi,bi)的初始化,聯(lián)立式(9)和式(15),有

      于是有:

      因此非線性sigmoid音素評分模型λi=(αi,βi,γi,bi)的初始值γi=smax(smax為該題型的滿分),偏置bi=0。于是αi,βi的初始值的求解問題就變成經(jīng)典的線性回歸問題,可采用式(13)簡捷地求取。

      5 數(shù)據(jù)庫介紹及音素評分模型實驗

      5.1 普通話水平考試介紹

      普通話水平等級考試滿分為100分,由4個部分組成,分別是:

      1. 單字朗讀: 要求考生朗讀100個孤立字,限時3.5分鐘,滿分10分;

      2. 雙字詞朗讀: 要求考生朗讀50個詞,其中絕大部分為雙字詞,僅少量三字詞,限時2.5分鐘,滿分20分;

      3. 篇章朗讀: 要求考生朗讀400字的短文篇章,限時4分鐘,滿分30分;

      4. 命題說話: 本部分只給考生一個話題,讓其自由發(fā)揮,限時3分鐘,滿分40分。

      當前PSC自動評分系統(tǒng)只對有文本的前三題進行評分,第四題的評分仍采用人工方式。

      5.2 數(shù)據(jù)庫介紹

      1. 訓(xùn)練集:

      數(shù)據(jù)庫錄音總時間約100小時,發(fā)音人均有國家認證的普通話水平測試一甲等級的發(fā)音水平,數(shù)據(jù)采用16k取樣,16bit量化。訓(xùn)練集數(shù)據(jù)詳細情況可參看文獻[8-11]。

      2. 開發(fā)集與測試集:

      隨著這幾年P(guān)SC自動評分系統(tǒng)的推廣,所搜集的數(shù)據(jù)規(guī)模較文獻[8-11]無論在數(shù)量上還是地域上都有了迅速的擴充。目前有3 885份來自安徽、湖北、山東、江蘇、江西、上海等多省市的、有1~3位專家精細評分的PSC現(xiàn)場錄音的數(shù)據(jù),共計約528小時。并且對分歧較大的數(shù)據(jù)進行了復(fù)審。本文從中隨機選擇498份作為測試集,剩下的3 387份為開發(fā)集。

      6 實驗及結(jié)論

      6.1 實驗配置及系統(tǒng)評價指標

      本文實驗采用39維MFCC_0_D_A_Z特征。聲學(xué)模型采用單音子聲(Mono-phone)方式建模。音素集共計64個音素(即64個HMM),包括零聲母、靜音、填充模型(filler),其中聲母3狀態(tài),韻母5狀態(tài),每個狀態(tài)16高斯。聲學(xué)模型訓(xùn)練采用劍橋大學(xué)的HTK工具[16]。

      本文采用機器分與人工分的相關(guān)度(Cross Correlation, CC)作為系統(tǒng)的評價指標,它反映了人機評分的一致程度。其中人工分為各專家打分的平均。當然,雖然相關(guān)度從0.5提升到0.6與從0.8提升到0.9都提升了0.1,但顯然后者性能提升的改進遠遠大于前者。因此本文定義“相對提升”的概念,假設(shè)改進前、后的系統(tǒng)相關(guān)度為CCold與CCnew,則相對提升的計算方式如式(26)所示:

      6.2 基于全概率空間的音素評分模型實驗

      本節(jié)實驗中,式(1)的概率空間Mi為所有音素的集合*實際系統(tǒng)中,由于聲韻母狀態(tài)數(shù)目不一致,在計算上會有問題。因此聲母的概率空間為所有聲母集合;韻母概率空間為所有韻母集合。。本節(jié)考慮如下配置:

      ③ 如式(15)所示的自由sigmoid變換,采用梯度下降法優(yōu)化,記為sig-GD;

      實驗結(jié)果如表1所示,評價指標為相關(guān)度,括號內(nèi)為性能的相對提升幅度。

      表1 基于全概率空間的音素評分模型性能

      可見,采用音素評分模型,將音素后驗概率變換至音素分,能大大提升評分性能,這也表明了直接采用傳統(tǒng)的后驗概率作為發(fā)音標準的度量存在著顯著的缺陷。

      非線性的sigmoid音素評分模型雖然在開發(fā)集集內(nèi)較線性音素評分模型有著顯著的優(yōu)勢,當結(jié)合線性回歸算法優(yōu)化參數(shù)γi,bi時,能進一步提升開發(fā)集集內(nèi)的評分性能;但在測試集上,其性能提升不明顯,反映了其魯棒性不如線性函數(shù)。

      另外,雖然sig-GD的評分性能好于linear,但其參數(shù)優(yōu)化采用的高維梯度法優(yōu)化收斂速度非常緩慢,且步長設(shè)置非常煩瑣。在本文數(shù)據(jù)量上,大約需3~5天才能收斂;而線性音素評分模型的參數(shù)瞬間即可求得。

      表2 基于KLD聚類概率空間的音素評分模型性能

      表3 基于典型錯誤對的概率空間的音素評分模型性能

      6.3 基于優(yōu)化的概率空間的音素評分模型實驗

      本節(jié)實驗中,式(1)的概率空間Mi為優(yōu)化后的概率空間,即基于KLD聚類的概率空間和基于典型錯誤對的概率空間(2.2節(jié))。由于sigmoid音素評分模型過耗時量大,且性能提升并不明顯,因此本節(jié)僅比較線性音素評分模型的性能。

      上述一系列實驗表明本文所提出的音素評分模型在目前PSC較優(yōu)后驗概率算法配置下,仍能大大彌補后驗概率和人工實際打分的不匹配情況,整體約有23.2%~27.5%相對提升。同時,對比表2、3與表1可以發(fā)現(xiàn),同時采用音素評分模型和優(yōu)化的概率空間能進一步提升系統(tǒng)性能,但提升幅度相比未采用音素評分模型會減少。

      7 總結(jié)和展望

      本文從理論上指出后驗概率用于發(fā)音質(zhì)量評價的不足,并提出了可訓(xùn)練的“音素評分模型”的思想,將音素評分特征從對數(shù)概率變換至分數(shù)域,使其與主觀評測更符合,無論在全概率空間還是在優(yōu)化的概率空間下,它們均能顯著改善系統(tǒng)的評分性能。同時采用音素評分模型和“優(yōu)化的概率空間”的技術(shù)能進一步提升系統(tǒng)的評分性能。

      本文研究了線性和非線性sigmoid的音素評分模型并發(fā)現(xiàn): 線性音素評分模型有顯式解,能高效計算,且集外推廣性好;非線性音素評分模型雖然在集內(nèi)性能明顯好于線性音素評分模型,但其集外推廣性略差且計算復(fù)雜度大。

      另外,后驗概率的計算依賴于聲學(xué)模型。而目前語音評分采用的聲學(xué)模型均是針對語音識別進行優(yōu)化和定制,未考慮評分員的評分準則。如何訓(xùn)練更符合評分任務(wù)的聲學(xué)模型是本文下一步研究方向。

      [1] 國家語言文字工作委員會普通話培訓(xùn)測試中心,普通話水平測試實施綱要[M].北京: 商務(wù)印書館,2004.

      [2] H.L Franco, L.Neumeyer, Y.Kim, O.Ronen. Automatic pronunciation scoring for language instruction[C]//ICASSP 1997: 1465-1468.

      [3] L. Neumeyer, H. Franco, V. Digalakis, M.Weintraub. Automatic scoring of pronunciation quality[J]. Speech Communication 30, 2000: 83-93.

      [4] C. Cucchiarini, F.D.Wet, H.Strik, L.Boves. Automatic evaluation of Dutch pronunciation by using speech recognition technology[J]. ICSLP. 1998,5: 1739-1742.

      [5] S.M Witt. Use of speech recognition in computer assisted language learning[D]. Doctor’s dissertation of Cambridge, Nov. 1999.

      [6] S.M Witt, S,J.Young. Phone-level pronunciation scoring and assessment for interactive language learning[J]. Speech Communication 30, 2000, 95-108.

      [7] C. Cucchiarini, H. Strik, L Boves. Quantitative assessment of second language learners’ fluency by means of automatic speech recognition technology[J]. Acoustical Society of America, Feb. 2000, 989-999.

      [8] 魏思,胡郁,王仁華. 普通話水平測試電子化系統(tǒng)[J].中文信息學(xué)報,2006,21(4):92-96.

      [9] 劉慶升,魏思,胡郁,等. 基于語言學(xué)知識的發(fā)音質(zhì)量評價算法改進[J].中文信息學(xué)報,2007,21(4):92-96.

      [10] Qingsheng Liu, Si Wei, et al. The application of phone weight in Putonghua pronunciation quality assessment[J]. ISCSLP 2006.

      [11] SiWei, et al. Putonghua Proficiency Test and Evaluation [M]. Advances in Chinese Spoken Language Processing, Chapter 18: Springer Press, 2006.

      [12] 張峰,黃超,戴禮榮. 普通話發(fā)音錯誤自動檢測技術(shù)[J].中文信息學(xué)報,2010,24(2):110-115.

      [13] 潘逸倩,魏思,王仁華. 基于韻律信息的連續(xù)語流調(diào)型評測研究[J].中文信息學(xué)報,2008,22(4):88-93.

      [14] Peng Liu, Frank K. Soong. Kullback-Leibler Divergence between Two Hidden Markov Models[R]. Microsoft Research Asia, Speech Group, 2002.

      [15] 王松桂,陳敏.線性統(tǒng)計模型[M]. 高等教育出版社,1999.

      [16] S.Yong, D.Kershaw, J. Odell. The HTK book[M]. Microsoft Corporation, July, 2000.

      猜你喜歡
      音素后驗發(fā)音
      新目標英語七年級(上)Starter Units 1-3 STEP BY STEP 隨堂通
      Hickory, Dickory, Dock
      依托繪本課程,培養(yǎng)學(xué)生英語音素意識
      基于對偶理論的橢圓變分不等式的后驗誤差分析(英)
      小學(xué)英語課堂中音素意識與自然拼讀整合訓(xùn)練的探索
      貝葉斯統(tǒng)計中單參數(shù)后驗分布的精確計算方法
      ?不定冠詞a與an
      一種基于最大后驗框架的聚類分析多基線干涉SAR高度重建算法
      Playing with h
      Playing with /eI/
      泗洪县| 台湾省| 深泽县| 喜德县| 荣成市| 山阳县| 明光市| 汝州市| 潮安县| 弥勒县| 阜新市| 始兴县| 青神县| 阜平县| 夏邑县| 苍山县| 板桥市| 鞍山市| 米易县| 福海县| 侯马市| 平阳县| 天门市| 石阡县| 吴忠市| 辰溪县| 铁力市| 安图县| 二连浩特市| 会东县| 津南区| 佛学| 涞水县| 洛宁县| 聂荣县| 沙坪坝区| 公安县| 棋牌| 乌拉特中旗| 三河市| 永登县|