趙 悅,李要嬙,徐曉娜,吳立成
中央民族大學(xué) 信息工程學(xué)院,北京 100081
藏語是一種非常重要的中國少數(shù)民族語種,在我國使用藏語的人數(shù)500多萬,其中主要分布在我國的西藏自治區(qū)以及青海、甘肅、四川和云南等藏族聚集區(qū)。藏語語音識(shí)別技術(shù)的發(fā)展,不僅可以有效地解決藏族地區(qū)和我國其他區(qū)域之間的語言障礙問題,促進(jìn)民族間的相互交流,而且可以推動(dòng)藏區(qū)經(jīng)濟(jì)、科技、文化等領(lǐng)域的發(fā)展,促進(jìn)民族團(tuán)結(jié)統(tǒng)一,增強(qiáng)民族凝聚力。
在語音識(shí)別領(lǐng)域,語音識(shí)別算法(如隱馬爾科夫模型和深度神經(jīng)網(wǎng)絡(luò)等)采用監(jiān)督式學(xué)習(xí)方式建立語音識(shí)別模型[1]。為了建立高準(zhǔn)確的語音識(shí)別模型,這種學(xué)習(xí)方式需要大量的帶標(biāo)注的語音語料,而標(biāo)注語音語料是一件非常費(fèi)時(shí)費(fèi)力的工作。通常以詞為語音識(shí)別單位的標(biāo)注工作所花費(fèi)的時(shí)間是實(shí)際音頻語句時(shí)間的10倍,以音素為識(shí)別單位的語音標(biāo)注工作將會(huì)達(dá)到語音語句時(shí)間長度的400倍[2]。藏語作為小語種,其語音標(biāo)注專家十分匱乏,人工標(biāo)注語音語料更加耗時(shí)耗力。目前,帶標(biāo)注的藏語連續(xù)語音數(shù)據(jù)量還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際語音識(shí)別系統(tǒng)建模的需要[3-5]。
然而,在大量未標(biāo)記的數(shù)據(jù)集中,有許多較為相似的信息,如果能夠選擇較少的數(shù)據(jù)給語音專家去標(biāo)注,那么同樣會(huì)獲得具有較高精度的識(shí)別器,這便是主動(dòng)學(xué)習(xí)的原理。
主動(dòng)學(xué)習(xí)的過程如圖1所示,其基于少量的帶標(biāo)注訓(xùn)練樣本建立初始識(shí)別器,在每次迭代學(xué)習(xí)中,根據(jù)目標(biāo)函數(shù)的設(shè)定,在候選樣本集中選擇最具有價(jià)值的樣本交給用戶標(biāo)記,然后將標(biāo)記后的樣本加入到當(dāng)前訓(xùn)練集中,更新識(shí)別器,直到識(shí)別器達(dá)到滿意的精度[6]。主動(dòng)學(xué)習(xí)通常被用來減少人工標(biāo)注的數(shù)據(jù)量,解決標(biāo)注工作繁瑣冗長的問題。它可以從大量未標(biāo)注的數(shù)據(jù)中挑選一些具有價(jià)值的樣本交給用戶進(jìn)行標(biāo)注,以便利用少量高質(zhì)量的訓(xùn)練樣本構(gòu)建與大數(shù)據(jù)量訓(xùn)練方式一樣精準(zhǔn)的識(shí)別模型[7]。
圖1 主動(dòng)學(xué)習(xí)過程
本文針對(duì)藏語拉薩話連續(xù)語音識(shí)別目標(biāo),構(gòu)造了語音語料的評(píng)價(jià)函數(shù)和語料批量選擇的目標(biāo)函數(shù),通過臨近最優(yōu)選擇算法,實(shí)現(xiàn)了語音數(shù)據(jù)的挑選。實(shí)驗(yàn)結(jié)果顯示,通過使用主動(dòng)學(xué)習(xí)方法挑選的少量樣本進(jìn)行建模,所構(gòu)建的語音識(shí)別模型識(shí)別精度可以達(dá)到與使用全部數(shù)據(jù)進(jìn)行建模的精度。本文提出的基于主動(dòng)學(xué)習(xí)的藏語語音語料選擇方法,可以加快藏語連續(xù)語音識(shí)別工作,為識(shí)別建模提供充分、可信的訓(xùn)練數(shù)據(jù)。
主動(dòng)學(xué)習(xí)方法首先通過樣本評(píng)價(jià)函數(shù)對(duì)候選數(shù)據(jù)集中的樣本進(jìn)行打分,因此,對(duì)已標(biāo)注的樣本集進(jìn)行了數(shù)據(jù)統(tǒng)計(jì),通過當(dāng)前的數(shù)據(jù)分布情況和語音識(shí)別目標(biāo),構(gòu)造藏語拉薩話語音語料的評(píng)價(jià)函數(shù)。
本文對(duì)現(xiàn)有訓(xùn)練數(shù)據(jù)集中單音素出現(xiàn)的頻數(shù)進(jìn)行了統(tǒng)計(jì),如圖2所示。將出現(xiàn)頻數(shù)低于50次的音素定義為稀疏音素。本文稀疏音素頻數(shù)分布圖如圖3所示。
考慮到構(gòu)建的訓(xùn)練數(shù)據(jù)集應(yīng)該盡量涵蓋全部藏語拉薩話音素,并且各個(gè)音素?cái)?shù)據(jù)分布要均衡,同時(shí)結(jié)合提高語音識(shí)別準(zhǔn)確率的目標(biāo),在構(gòu)造主動(dòng)學(xué)習(xí)的樣本評(píng)價(jià)函數(shù)時(shí),主要考慮以下三個(gè)因素:
(1)句子中識(shí)別音子的覆蓋度Xk,即語音句子中包含識(shí)別音子的個(gè)數(shù);
圖2 單音素頻數(shù)分布圖
圖3 稀疏音素頻數(shù)分布圖
(2)句子中稀疏音子的覆蓋度Yk,即語音句子中包含稀疏音子的個(gè)數(shù);
(3)句子對(duì)于語音識(shí)別精度提高的貢獻(xiàn)度Zk,即每個(gè)語音句子加入到識(shí)別器中,語音識(shí)別精度的提高程度。
基于以上三個(gè)評(píng)價(jià)因素,語音語料的評(píng)價(jià)函數(shù)可以寫成:
大多數(shù)的主動(dòng)學(xué)習(xí)方法都是非批量的方法,它們一次只選擇一個(gè)最有價(jià)值的樣本去標(biāo)注[8]。因?yàn)榉桥康闹鲃?dòng)學(xué)習(xí)方法對(duì)每一個(gè)選出的數(shù)據(jù)都要進(jìn)行識(shí)別器的重新訓(xùn)練,所以訓(xùn)練過程緩慢,并且不能進(jìn)行多專家在線同時(shí)標(biāo)注。
相反,批量主動(dòng)學(xué)習(xí)方法允許一次選擇多個(gè)未標(biāo)注的樣本[9-11]。但是如果只是把單一樣本選擇策略應(yīng)用到批量主動(dòng)學(xué)習(xí)選擇樣本過程中效果并不好,因?yàn)樗x樣本具有高度的信息相似性,例如N-best方法。為了選擇能夠代表整體數(shù)據(jù)集的全局最優(yōu)子集樣本,作者在文獻(xiàn)[12]中利用submodular函數(shù)理論優(yōu)化了樣本選擇問題?;谠摴ぷ?,本文研究了臨近最優(yōu)語音樣本集合的目標(biāo)函數(shù),并證明了該函數(shù)具有submodularity性質(zhì),這使得主動(dòng)學(xué)習(xí)器可以利用greedy算法來獲得臨近最優(yōu)的語料子集。
批量主動(dòng)學(xué)習(xí)的一般過程是:基于少量的已標(biāo)注訓(xùn)練樣本建立初始識(shí)別器,在每次迭代學(xué)習(xí)中,根據(jù)目標(biāo)函數(shù)的設(shè)定,在候選樣本集中選擇多個(gè)最具有價(jià)值的樣本交給用戶標(biāo)注,然后將這些標(biāo)注后的樣本加入到當(dāng)前的訓(xùn)練集中,更新識(shí)別器,直到識(shí)別器達(dá)到滿意的精度。在每次迭代學(xué)習(xí)過程中,批量主動(dòng)學(xué)習(xí)的目的就是從未標(biāo)記的樣本中選擇一個(gè)最優(yōu)子集S*,S*可以通過式(2)獲得:
其中,O(S)為目標(biāo)函數(shù),S為樣本數(shù)是N的子集。為得到O(S)的最優(yōu)解,需要將O(S)構(gòu)造為submodular函數(shù),利用其函數(shù)性質(zhì),就可獲得其臨近最優(yōu)解,也就是臨近最優(yōu)樣本數(shù)據(jù)集S*。
一個(gè)函數(shù)是submodular函數(shù)的充分必要條件是:如果有且僅有A?B?V并且s∈VB,那么如果函數(shù)滿足“回報(bào)遞減(diminishing returns)”性質(zhì):
第2章闡述了單一樣本評(píng)價(jià)函數(shù)基于三個(gè)考慮因素,在批量選擇樣本時(shí),同樣依據(jù)這三個(gè)評(píng)價(jià)因素,希望每次迭代能夠選擇出N個(gè)未標(biāo)注樣本,它們構(gòu)成的樣本子集涵蓋最多的音素個(gè)數(shù)、最多的稀疏音子個(gè)數(shù)和具有最大的期望識(shí)別誤差減少。因此,對(duì)于式(2)中的目標(biāo)函數(shù)O(S),構(gòu)造如下公式:
其中,X(S)代表樣本集中音素出現(xiàn)的個(gè)數(shù);Y(S)表示稀疏音子出現(xiàn)的次數(shù);Z(S)表示樣本集的期望識(shí)別誤差減少;α、β、γ同式(1)中的定義一樣,仍然分別是三個(gè)因素的預(yù)設(shè)系數(shù)。
下面來推導(dǎo)O(S)滿足submodular函數(shù)的充分必要條件。讓A?B?U且{s}?UB,則:
證明過程的第二步中,X(A?{s})-X(A)等于{s}中新出現(xiàn)的音素個(gè)數(shù)或等于0;Y(A?{s})-Y(A)等于{s}中稀疏音子出現(xiàn)次數(shù);根據(jù)文獻(xiàn)[6]中的證明,期望誤差減少函數(shù) Z(A?{s})-Z(A)等于為當(dāng)前分類器在未標(biāo)注數(shù)據(jù)集上的分類信息熵,即期望誤差。同理,也可以推導(dǎo)出:
因?yàn)锳?B?U,所以由式(7)得:
即
從而,O(?)滿足式(3),其是submodular函數(shù)。
正如文獻(xiàn)[16]所示,如果目標(biāo)函數(shù)為submodular函數(shù),那么由S={}(此時(shí)O(S)=0)開始,使用greedy算法,迭代地選擇未標(biāo)注樣本并加入到S中,直到有N個(gè)樣本被加入為止,那么此時(shí)獲得的集合S就是臨近最優(yōu)集合。根據(jù)第3章構(gòu)造的語料子集目標(biāo)函數(shù)公式(4),藏語語音語料選擇算法描述如下。
算法1臨近最優(yōu)批量主動(dòng)學(xué)習(xí)算法
1.隨機(jī)從未標(biāo)注樣本集U中選擇少量樣本,為每個(gè)樣本標(biāo)注文本內(nèi)容,形成初始訓(xùn)練數(shù)據(jù)集L;
2.基于L訓(xùn)練語音識(shí)別器C;
3.循環(huán)以下各步驟直到識(shí)別器精度滿足設(shè)定的要求或選擇了全部未標(biāo)注樣本;
3.1 greedy算法發(fā)現(xiàn)S;
3.2 用戶標(biāo)注S,并將標(biāo)注后的S加入到L中;
3.3 重新訓(xùn)練識(shí)別器C,在測(cè)試集上獲得C的識(shí)別精度。
算法2 greedy算法發(fā)現(xiàn)S 1.S={};
2.While|S|≤N
2.1 基于當(dāng)前識(shí)別器C*(初始C*=C)預(yù)估數(shù)據(jù)集U(L?S)中每一個(gè)未標(biāo)注樣本的語音內(nèi)容,即用音素表征的語音內(nèi)容;
2.2 根據(jù)式(1)計(jì)算每一個(gè)未標(biāo)注樣本的Xk、Yk;
2.3 將每一個(gè)預(yù)標(biāo)注的樣本分別加入預(yù)訓(xùn)練集L*=,訓(xùn)練識(shí)別器Ck,得到期望誤差ek;
2.4 對(duì)數(shù)據(jù)集U(L?S)中的每一個(gè)樣本根據(jù)式(1)進(jìn)行打分,得到sk;
2.5 選擇sk得分最高的未標(biāo)注樣本加入S,即S=S+{xk};
2.6 用sk得分最高的預(yù)標(biāo)注樣本對(duì)應(yīng)的識(shí)別器Ck替換 C*,即 C*=Ck
3.End
本文使用自建的藏語拉薩話連續(xù)語音數(shù)據(jù)集對(duì)提出的語音語料選擇方法進(jìn)行評(píng)估。實(shí)驗(yàn)中,語料665句,選取其中57句作為測(cè)試數(shù)據(jù),剩余608句中的564句作為主動(dòng)學(xué)習(xí)的初始訓(xùn)練集,44句作為未標(biāo)注語料。實(shí)驗(yàn)測(cè)得,用608句作為全部訓(xùn)練數(shù)據(jù),句子識(shí)別率為75.07%。
在主動(dòng)學(xué)習(xí)中,564句初始訓(xùn)練集的識(shí)別率為65.07%,根據(jù)臨近最優(yōu)主動(dòng)學(xué)習(xí)算法進(jìn)行實(shí)驗(yàn),每次在未標(biāo)注數(shù)據(jù)集中挑選N=2條語音語句添加到初始訓(xùn)練集中,并且式(1)和式(4)中的 α、β、γ 參數(shù)均設(shè)置為1。利用HTK進(jìn)行識(shí)別模型建模,當(dāng)進(jìn)行8次迭代選擇了16條語句后,識(shí)別器的識(shí)別率就達(dá)到75.73%。實(shí)驗(yàn)結(jié)果如表1所示,其折線圖如圖4所示。
表1 三種方法的語音識(shí)別率實(shí)驗(yàn)數(shù)據(jù)比較 %
圖4 三種方法的語音識(shí)別率折線圖比較
正如實(shí)驗(yàn)結(jié)果顯示,第8次迭代學(xué)習(xí)后,臨近最優(yōu)批量主動(dòng)學(xué)習(xí)方法選擇大約1/3的未標(biāo)注語料,就可以使識(shí)別器的識(shí)別精度與全部語料訓(xùn)練的結(jié)果相當(dāng),其表現(xiàn)好于N-best和隨機(jī)數(shù)據(jù)選擇兩種方法。本文提出的語音語料選擇方法,明顯減少了語音標(biāo)注的工作量,不需要標(biāo)注全部語音語料就可以達(dá)到全部語音語料的識(shí)別率,甚至高于全部訓(xùn)練語句的識(shí)別率。
本文研究了基于臨近最優(yōu)主動(dòng)學(xué)習(xí)的藏語語音語料選擇方法,提出了語料樣本評(píng)價(jià)函數(shù)和臨近最優(yōu)批量樣本選擇的目標(biāo)函數(shù),并證明了后者具有submodular函數(shù)性質(zhì)。該函數(shù)性質(zhì)保證了基于greedy算法實(shí)現(xiàn)的藏語語料選擇是臨近最優(yōu)樣本集,該樣本集包含了最有價(jià)值的樣本參與人工標(biāo)注和識(shí)別器訓(xùn)練,減少了冗余樣本的標(biāo)注,極大地提高了語音識(shí)別器構(gòu)建的工作效率。