• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于拼音約束聯(lián)合學習的漢語語音識別

    2022-01-01 13:11:28梁仁鳳余正濤高盛祥黃于欣郭軍軍許樹理
    中文信息學報 2022年10期
    關(guān)鍵詞:解碼器級聯(lián)集上

    梁仁鳳,余正濤,高盛祥,黃于欣,郭軍軍,許樹理

    (1. 昆明理工大學 信息工程與自動化學院,云南 昆明 650500;2. 昆明理工大學 云南省人工智能重點實驗室,云南 昆明 650500)

    0 引言

    自動語音識別(Automatic Speech Recognition,ASR)是把語音中包含的詞匯內(nèi)容轉(zhuǎn)換為計算機可理解的文本。隨著深度學習的快速發(fā)展,ASR系統(tǒng)主要分為兩類:傳統(tǒng)混合系統(tǒng)和當前主流的端到端模型。傳統(tǒng)混合系統(tǒng)[1]基于深度神經(jīng)網(wǎng)絡(luò)隱馬爾可夫模型(Deep Neural Networks - Hidden Markov Models ,DNN-HMM)對聲學模型建模,使用發(fā)音字典將音素序列轉(zhuǎn)換為詞,再通過一個語言模型將詞序列映射為句子。系統(tǒng)訓練時,這些聲學、發(fā)音和語言組件有不同的激活函數(shù),通常單獨訓練和優(yōu)化。為了彌補傳統(tǒng)混合系統(tǒng)的不足,當前流行的端到端模型[2]將傳統(tǒng)混合系統(tǒng)折疊為一個單一的神經(jīng)網(wǎng)絡(luò),去除傳統(tǒng)框架中所有中間步驟和獨立子任務(wù),輸入語音特征,直接輸出源語言文本,具有容易訓練、模型簡單和聯(lián)合優(yōu)化的優(yōu)勢,目前取得顯著效果。當前端到端模型流行的方法主要有連接時序分類算法(Connectionist Temporal Classification,CTC)[3]和使用CTC與注意力對齊機制的混合方法[4]。CTC不需要對訓練語料預先分段和后處理,直接輸出標簽。然而,CTC基于條件獨立假設(shè)訓練ASR模型,缺乏對輸入序列間上下文關(guān)系的建模。因此,注意力對齊機制[5]引入到基于序列到序列結(jié)構(gòu)的語音識別模型中[6],但過度靈敏的關(guān)注對齊方式應(yīng)用到真實的語音識別場景中會表現(xiàn)出比較差的效果。于是, Kim等人[7]結(jié)合CTC和注意力機制的優(yōu)勢提出基于兩者的混合語音識別模型?;诨旌险Z音模型,Moritz等人[8]、Sarl等人[9]取得更好的識別效果。

    綜上所述,端到端的模型主要在英語、法語等表音文字的語音識別中取得很好的效果,然而,漢語是一種典型的表意文字,每一個漢字表示個別詞或詞素的形體,不與語音直接發(fā)生聯(lián)系,當前端到端的模型對漢字的識別存在一些不足。Chan 等人[10]在漢字識別的研究工作中表明模型對漢字的識別收斂速度較慢。拼音作為漢字的讀音標注文字,直接表示漢字語音,拼音與漢字存在內(nèi)在轉(zhuǎn)換關(guān)系,基于音節(jié)(拼音)的研究工作[11]持續(xù)至今。將語音特征識別為音節(jié)單元[12],再通過一個轉(zhuǎn)換模型將拼音變換為漢字[13]的級聯(lián)模型存在錯誤傳播,為了避免這種問題, Chan等人提出漢字-拼音識別模型,只在訓練時使用拼音幫助對漢字的識別,但是這種方法識別字符錯誤率(Character Error Rate,CER)達到59.3%,對此, Zhou等人提出基于Transformer[14]的貪婪級聯(lián)解碼器模型,取得相對滿意的效果。

    基于以上研究工作,在漢語語音識別中,引入拼音作為對漢字解碼的約束,能夠促使模型學習更好的語音特征。在漢語中,對漢字的識別類似于語音翻譯(Spoken Language Translation,ST)[15],對拼音的識別可以視為對漢語的語音識別。在ST領(lǐng)域, Weiss 等人[16]提出語音識別和語音翻譯聯(lián)合學習可以有效提高模型翻譯性能。本文從該項研究工作中受到啟發(fā),在多任務(wù)學習框架下[17],提出基于拼音約束聯(lián)合學習的漢語語音識別方法,在漢語語音識別中引入拼音語音識別任務(wù)作為輔助任務(wù)聯(lián)合訓練,共同學習,相互促進。在希爾貝殼公司發(fā)布的普通話語音數(shù)據(jù)庫AISHELL-1[18]上,相比基線模型,詞錯誤率WER降低2.24%。

    1 基于拼音約束聯(lián)合學習的漢語語音識別方法

    模型共享一個編碼器,拼音語音識別和漢語語音識別分別有一個解碼器。訓練時,模型的交叉熵是兩個解碼器分別計算損失后正則求和;反向傳播時,編碼器的參數(shù)被兩個任務(wù)同時更新,達到兩個任務(wù)相互增強的效果。模型結(jié)合Weiss等人的研究工作和Kim等人提出的混合模型,并對其做了進一步改進,具體模型結(jié)構(gòu)如圖1所示??梢钥闯觯P凸舶ㄈ齻€部分:共享編碼器、拼音語音識別和基于拼音約束聯(lián)合學習的漢字識別。

    1.1 共享編碼器

    模型共享一個編碼器,編碼器采用雙向長短期記憶網(wǎng)絡(luò)(Long Short Term Memory Networks, LSTM),雙向LSTM結(jié)構(gòu)見圖1中的共享編碼器部分。共享編碼器將語音信號特征x=(x1,x2,…,xT)作為輸入,使用卷積層(Visual Geometry Group,VGG)對x抽取特征轉(zhuǎn)為高維的隱表征,輸出為h=(h1,h2,…,hL)。這里T表示語音特征的幀索引,L為對語音特征下采樣后的幀索引(L≤T)。編碼器的編碼過程如式(1)所示。

    1.2 拼音語音識別

    拼音語音識別模型采用當前流行的基于注意力機制的編碼器-解碼器框架,編碼器采用1.1節(jié)介紹的共享編碼器結(jié)構(gòu)。解碼器采用單向LSTM,見圖1中的拼音解碼器部分。解碼器以共享編碼器的輸出h作為輸入,基于t時刻前的輸出標簽序列,得到t時刻的預測拼音p標簽ypt的概率分布。如式(2)、式(3)所示。

    圖1 基于拼音約束聯(lián)合學習的漢語語音識別模型結(jié)構(gòu)圖

    對于時間步t,基于輸入語音特征h和注意力機制權(quán)重at,l產(chǎn)生文本向量ct,如式(4)所示。

    (4)

    這里的at,l通過Softmax層計算,如式(5)~式(7)所示。

    其中,訓練參數(shù)有ω、W、V、U和F,γ是模型的銳化因子,*表示一維卷積,ft通過*與卷積參數(shù)F計算得出,b是偏置項。

    解碼器使用ct、t時刻前的輸出標簽yp(t-1)和隱狀態(tài)st-1生成當前時刻的隱狀態(tài)st和預測拼音標簽ypt,如式(8)、式(9)所示。

    其中,LSTM()代表單向循環(huán)神經(jīng)網(wǎng)絡(luò),Generate()代表前饋網(wǎng)絡(luò)。

    結(jié)合式(2),拼音語音識別的損失函數(shù)如式(10)所示。

    其中,拼音序列yp=(yp1,yp2,…,ypt),其中t≤T。

    1.3 基于拼音約束聯(lián)合學習的漢字識別

    基于共享編碼器的輸出h,漢字解碼器同樣以h作為輸入,結(jié)合t時刻前的輸出標簽序列,通過前饋網(wǎng)絡(luò)和softmax激活函數(shù),得到t時刻預測漢字標簽yt的概率分布P(y|h),基于P(y|h),漢字語音識別交叉損失熵如式(11)所示。

    其中,漢字序列y=(y1,y2,…,yt)。

    在多任務(wù)學習框架下,提出模型的交叉損失熵通過拼音解碼器和漢字解碼器分別計算損失后正則求和。聯(lián)合訓練時,拼音語音識別作為輔助任務(wù)幫助模型增強對漢字的識別能力。與此同時,漢語語音識別作為主要任務(wù)促進模型對拼音監(jiān)督信號的解碼。反向傳播時,通過共享編碼器,能同時接收拼音和漢字的監(jiān)督信號,編碼器的參數(shù)被拼音語音識別和漢字語音識別同時更新。結(jié)合式(10)、式(11),基于拼音約束聯(lián)合學習的漢字識別交叉熵損失函數(shù)如式(12)所示。

    Lhy(h,y)=λLp(h,yp)+(1-λ)L(h,y)

    (12)

    其中,λ為模型可微調(diào)的超參數(shù),λ∈(0,1)。

    考慮CTC具有使模型快速收斂的優(yōu)勢,且不需要對輸入、輸出序列做一一標注和對齊,因此提出的模型結(jié)合了CTC。通常情況下,CTC與循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)結(jié)合,RNN作為編碼器,把語音特征序列x轉(zhuǎn)為高維的隱狀態(tài)h,該編碼器過程如式(1)所示?;谡Z音隱表幀h,CTC假設(shè)輸出漢字標簽之間條件獨立,標簽之間允許插入空白表示(-),求出標簽序列任何一條路徑π=(π1,π2,…,πT)的概率分布P(π|h),由于多條路徑序列可能只對應(yīng)一條漢字標簽序列,通過定義一個多對一的映射函數(shù)f(π∈f(y))將路徑序列映射到標簽序列y,采用前后向算法有效求得標簽序列的最大概率分布P(y|h),基于P(y|h),可以計算CTC的負對數(shù)似然函數(shù)LCTC,如式(14)、式(15)所示。本文模型結(jié)合CTC模型的交叉熵損失函數(shù)如式(13)所示。

    L(h,y)=(1-λ1)Lhy(h,y)+λ1LCTC(h,y)

    (13)

    LCTC(h,y)=-ln(P(y|h))

    (14)

    (15)

    其中,λ1為模型可微調(diào)的超參數(shù),λ1∈(0,1),y′為映射標簽序列。

    2 實驗

    2.1 數(shù)據(jù)設(shè)置

    數(shù)據(jù)設(shè)置集見表1,使用由希爾貝殼公司發(fā)布的普通話語音數(shù)據(jù)庫AISHELL-1[18]證明了本文方法的有效性。該訓練語料包括200個說話者,其中,訓練集有120 098條語音(約150個小時),驗證集有14 326條語音(約10個小時),測試集有7 176條語音(約5個小時)。通過Torchaudio工具, 提取以上訓練語料步長為10ms、窗口大小為25ms、維度為40的梅爾倒頻譜filter-bank特征。

    表1 實驗數(shù)據(jù)集AISHELL-1

    2.2 評價指標

    本文使用詞錯誤率作為模型的評價指標,詞錯誤率簡稱WER(Word Error Rate),將模型預測的輸出序列與監(jiān)督信號序列進行比較,WER算法如式(16)所示。

    其中,S、D、I表示替換、刪除和插入的字數(shù),N為監(jiān)督信號字序列的總字數(shù)。

    2.3 參數(shù)設(shè)置

    對于未登錄字,使用特殊字符UNK代替,超參數(shù)均設(shè)置為0.2時模型效果最好,Dropout設(shè)為0.25。模型采用Adadelta算法進行優(yōu)化,Batch-size設(shè)置為16,共享編碼器采用4層的卷積網(wǎng)絡(luò)和5層的雙向LSTM,雙向LSTM每個方向有512個隱狀態(tài)單元,兩個解碼器均是一個單層的有512個隱狀態(tài)單元的LSTM,注意力機制Attention使用LAA(Location-Aware Attention)。在詞嵌入層,每個字表征為256維的向量。拼音的字表大小為1 400,漢語的字表大小為4 500。

    2.4 基線模型

    本文共選擇了三個基線模型,分別在訓練數(shù)據(jù)模型集AISHELL-1上進行試驗,得到WER評分。模型包括基于音節(jié)的貪婪級聯(lián)解碼模型、序列到序列(Sequence-to-sequence,S2S)結(jié)合CTC的混合模型(S2S+CTC)和級聯(lián)模型。

    貪婪級聯(lián)解碼模型是使用兩個束搜索(beam search)級聯(lián)解碼的Transformer模型。

    混合S2S+CTC語音識別系統(tǒng)是一種結(jié)合CTC和注意力機制(Attention)兩者優(yōu)勢的序列到序列模型,是目前常用的語音識別系統(tǒng)。

    級聯(lián)模型是將漢語語音特征序列識別為拼音文本序列,再采用一個額外的語言模型將拼音文本轉(zhuǎn)寫為漢語文本。

    2.5 本文方法有效性分析

    對比基線模型,在AISHELL-1數(shù)據(jù)集上,驗證了本文方法的有效性。使用WER值作為模型的評價指標(表2)。

    表2 提出模型對比基線模型的實驗結(jié)果

    根據(jù)表2的實驗結(jié)果分析:相比S2S+CTC+拼音,S2S+CTC+漢字的WER值在驗證集上高4.93%,在測試集上高5.04%,這說明當前的端到端語音識別模型對表意文字的識別效果不佳。相比基線模型S2S+CTC+漢字,提出模型在驗證集上的WER值低2.5%,在測試集上的WER值低2.24%,說明在當前的漢語語音識別中引入拼音語音識別作為輔助任務(wù)聯(lián)合訓練,增強了模型對漢字的識別能力。相比級聯(lián)系統(tǒng)+CTC,提出模型在驗證集上的WER值低1.31%,在測試集上低1.05%,說明在漢語語音識別中引入拼音語音識別任務(wù),提出的方法避免了級聯(lián)系統(tǒng)導致的錯誤傳播問題,取得比級聯(lián)系統(tǒng)更好的識別效果。相比貪婪級聯(lián)解碼模型,提出模型在驗證集上的WER值低6.1%,在測試集上的WER值低4.95%,這說明提出的模型在漢語語音識別中引入拼音作為一種更接近漢語語音的歸納偏置,增強了模型對漢字的表達能力。

    為了討論拼音語音識別任務(wù)和CTC對漢字識別的影響,對提出的模型去除CTC結(jié)構(gòu)進行消融實驗,且分別將級聯(lián)系統(tǒng)和S2S+CTC模型均消去CTC結(jié)構(gòu)。三個模型訓練時間基本一致,實驗結(jié)果如表3所示。

    表3 消融性實驗結(jié)果分析

    從表3可以看出,相比S2S-CTC+拼音,S2S-CTC+漢字在驗證集集上的WER值高6.23%,在測試集上的WER值高6.45%,說明當前的端到端語音識別系統(tǒng)對表意文字的識別效果不佳。相比基線模型S2S-CTC+漢字,提出模型-CTC在驗證集上的WER值低2.61%,在測試集上的WER低2.57%;相比級聯(lián)系統(tǒng)-CTC,提出模型-CTC在驗證集上的WER低1.5%,在測試集上的WER低2.31%,說明提出模型在不受CTC影響下,引入拼音約束聯(lián)合學習,增強了模型對漢語語音特征的表達。

    3 總結(jié)和展望

    由于漢字與語音沒有直接的聯(lián)系,拼音與漢字、語音具有內(nèi)在關(guān)系,本文提出基于拼音約束聯(lián)合學習的漢語語音識別方法,通過多任務(wù)學習框架,聯(lián)合拼音語音識別、漢字語音識別任務(wù)共同學習,取得了更好的效果。未來工作中,可以將拼音序列變換漢字序列視為一個機器翻譯任務(wù),通過共享解碼器方式去增強聯(lián)合學習模型的語義表達能力以及語句標點符號的判斷。

    猜你喜歡
    解碼器級聯(lián)集上
    科學解碼器(一)
    科學解碼器(二)
    科學解碼器(三)
    Cookie-Cutter集上的Gibbs測度
    鏈完備偏序集上廣義向量均衡問題解映射的保序性
    線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
    復扇形指標集上的分布混沌
    級聯(lián)LDPC碼的STBC-OFDM系統(tǒng)
    電子制作(2016年15期)2017-01-15 13:39:09
    基于級聯(lián)MUSIC的面陣中的二維DOA估計算法
    LCL濾波器在6kV級聯(lián)STATCOM中的應(yīng)用
    電測與儀表(2014年1期)2014-04-04 12:00:34
    山西省| 惠来县| 潜山县| 平乡县| 梨树县| 呼伦贝尔市| 敦化市| 宜春市| 江达县| 巩留县| 额敏县| 当雄县| 宣城市| 德庆县| 广饶县| 莎车县| 东源县| 青州市| 石楼县| 中方县| 登封市| 新余市| 钟山县| 长汀县| 凤阳县| 米易县| 湖北省| 霸州市| 太湖县| 建平县| 福建省| 佛学| 蕲春县| 新野县| 巴马| 开化县| 诏安县| 宁城县| 清流县| 宜君县| 梁河县|