陳 戈,謝旭康,孫 俊,陳祺東
江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇 無錫 214122
自動(dòng)語音識(shí)別系統(tǒng)(automatic speech recognition,ASR)廣泛應(yīng)用到許多產(chǎn)品中,來支持各種業(yè)務(wù)應(yīng)用程序,比如手機(jī)助手、智能家居、客服機(jī)器人、會(huì)議記錄等,已經(jīng)成為生活中不可或缺的一部分。傳統(tǒng)的ASR系統(tǒng)通常由聲學(xué)模型、發(fā)音詞典、語言模型三部分構(gòu)成,構(gòu)建和調(diào)整這些單獨(dú)的組件通常較為復(fù)雜[1-2]。近些年來,隨著計(jì)算能力快速發(fā)展以及數(shù)據(jù)資源的急劇增長,將傳統(tǒng)語音識(shí)別三個(gè)模塊融合一體的端到端(end-to-end,E2E)ASR 系統(tǒng)取得顯著的進(jìn)展。不同于前述的混合架構(gòu),E2E模型只需要音頻和對(duì)應(yīng)的文本標(biāo)簽,在一個(gè)模型中通過訓(xùn)練學(xué)習(xí)語音到文字的映射,可以直接將語音輸入轉(zhuǎn)換為字符序列輸出,大大簡化了訓(xùn)練過程。目前流行的E2E語音方法主要基于以下三種模型構(gòu)建:連接時(shí)序分類(connectionist temporal classification,CTC)[3-4]、基于注意力的編解碼器(attention based encoder decoder,AED)[5-6]和換能器(transducers)[7-8]。這些深度學(xué)習(xí)模型易于搭建、調(diào)優(yōu),在某些應(yīng)用場景方面的識(shí)別率都超過了基于傳統(tǒng)語音識(shí)別方法的模型[5],還可以將多個(gè)模型進(jìn)行靈活的組合,利用不同基礎(chǔ)模型的優(yōu)點(diǎn)來達(dá)到更好的效果[9-10]。
基于CTC 構(gòu)建端到端聲學(xué)模型,無需時(shí)間維度上幀級(jí)別對(duì)齊標(biāo)簽,極大地簡化了聲學(xué)模型訓(xùn)練流程。Graves 等[3]首次構(gòu)建了神經(jīng)網(wǎng)絡(luò)連接時(shí)序分類(neural network CTC,NN-CTC)聲學(xué)模型,并驗(yàn)證了對(duì)于聲學(xué)建模的有效性;Hannun等[11]采用了帶有雙向遞歸層的5層循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),經(jīng)過CTC 損失訓(xùn)練以及語言模型來糾正,在Switchboard 數(shù)據(jù)集[12]上獲得了當(dāng)時(shí)最好的結(jié)果。同時(shí)他們還提出了一些優(yōu)化方案。Amodei 等[4]在這基礎(chǔ)上,使用有13 個(gè)隱層(包含卷積層)的模型取得了更好的結(jié)果。Lee等[13]提出了中間CTC損失來規(guī)范CTC訓(xùn)練并提高了性能。
基于自注意力的Transformer 體系結(jié)構(gòu)[14]由于能夠捕獲長距離交互和高訓(xùn)練效率而被廣泛用于序列建模。但Transformer 在提取長序列依賴的時(shí)候有效,而提取細(xì)粒度的局部特征圖案的能力卻比較弱。文獻(xiàn)[15]假設(shè)全局和局部相互作用對(duì)參數(shù)有效性都很重要,擅長提取局部特征,但需要更多的層或者參數(shù)量去捕捉全局信息的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),提出了一種新的自我注意和卷積的組合Conformer,實(shí)現(xiàn)自我注意學(xué)習(xí)全局交互作用,而卷積有效地捕獲基于相對(duì)偏移的局部相關(guān)性。
Chan等在文獻(xiàn)[16]中提出了LAS(listen,attend and spell),與之前的方法不同,LAS在標(biāo)簽序列中不做獨(dú)立性假設(shè),也不依賴于隱馬爾可夫模型(hidden Markov model,HMM)。LAS 同樣基于具有注意力的序列到序列學(xué)習(xí)框架。它由一個(gè)編碼器RNN作為聽者(listener),一個(gè)解碼器RNN作為拼寫者(speller)。listener采用金字塔型RNN,將低級(jí)語音信號(hào)轉(zhuǎn)換為高級(jí)特征。speller使用注意機(jī)制[5-6]指定字符序列的概率分布,將這些更高級(jí)別的特征轉(zhuǎn)換為輸出標(biāo)簽[9,17]。但前人的工作尚未探索基于最先進(jìn)的Conformer模型[15]作為listener所帶來的效果。
基于以上內(nèi)容,本文首先探索了不同編解碼器組合而成的LAS語音識(shí)別系統(tǒng)的性能,對(duì)比了不同編解碼器結(jié)構(gòu)下語音識(shí)別的準(zhǔn)確率;其次,以Conformer編碼器結(jié)合LAS 模型提出了基于Conformer 的LAS 語音識(shí)別模型(Conformer-LAS);為進(jìn)一步提高語音識(shí)別準(zhǔn)確率以及加快模型訓(xùn)練收斂速度,添加CTC解碼器聯(lián)合訓(xùn)練,并加入文獻(xiàn)[14]中提出的中間層CTC 損失作為子任務(wù)輔助訓(xùn)練,提出Conformer-LAS-CTC 語音識(shí)別模型;最后,基于Aishell-1[18]數(shù)據(jù)集開展語音識(shí)別研究,對(duì)比不同模型的實(shí)驗(yàn)效果,其實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出的Conformer-LAS-CTC語音識(shí)別模型的先進(jìn)性。
由Gulati等[15]提出的Conformer對(duì)比文獻(xiàn)[9]將卷積和自我注意相結(jié)合,自我注意學(xué)習(xí)全局交互作用,而卷積有效地捕獲基于相對(duì)偏移的局部相關(guān)性,從而獲得了比單獨(dú)使用卷積或自我注意更有效的結(jié)果。Conformer Encoder 首先使用卷積子采樣層處理輸入,然后使用大量的Conformer Block代替文獻(xiàn)[19-20]中的Transformer塊來處理輸入。圖1[16]左邊展示了Conformer 編碼器整體架構(gòu),右邊展示了Conformer Block具體結(jié)構(gòu)。
圖1 Conformer編碼器模型架構(gòu)Fig.1 Conformer encoder model architecture
其中Conformer Block 是由前饋模塊(Feedforward Module)、多頭自注意模塊(Multi-Head Self-Attention Module)、卷積模塊(Convolution Module)三個(gè)模塊組成,Conformer Block前后各有一個(gè)前饋層,多頭自注意力模塊和卷積模塊被夾在中間,并且前饋層采用半步殘差連接,每個(gè)大模塊后面跟著層歸一化(Layernorm),每個(gè)模塊上都采用了殘差單元。通過這種結(jié)構(gòu),將卷積和Attention串聯(lián)起來達(dá)到增強(qiáng)的效果。
采用的多頭自注意模塊中,還集成了Transformer-XL[21]的一項(xiàng)重要技術(shù),即相對(duì)正弦位置編碼方案。相對(duì)位置編碼使得自我注意模塊在不同的輸入長度上具有更好的泛化能力,并且產(chǎn)生的編碼器對(duì)話語長度的變化具有更強(qiáng)的魯棒性。
卷積模塊包含一個(gè)擴(kuò)展因子為2的逐點(diǎn)卷積,通過GLU激活層投影通道數(shù),然后是一維深度卷積,卷積后接Batchnorm和swish激活層。
在Conformer Block中,前后都部署了相同的Feedforward Module,每個(gè)FFN 都貢獻(xiàn)一半的值,稱為半步FFN。在數(shù)學(xué)上,對(duì)于第i個(gè)Conformer Block 的輸入xi,輸出hi計(jì)算公式如下:
其中,F(xiàn)FN 是指前饋模塊,MHSA 是指多頭自注意力模塊,Conv是指卷積模塊,Layernorm表示層歸一化,每個(gè)模塊間都使用殘差連接。
LAS[17]模型包含了編碼器listener、解碼器speller 和一個(gè)注意力網(wǎng)絡(luò),大致模型架構(gòu)如圖2所示。
圖2 LAS模型架構(gòu)Fig.2 LAS model architecture
圖2 中l(wèi)istener 是聲學(xué)模型的編碼器,執(zhí)行編碼操作,這個(gè)操作將輸入聲學(xué)序列x=(x1,x2,…,xT)轉(zhuǎn)換為高層次的表示h,其中高級(jí)別特征序列h的長度可以和輸入聲學(xué)序列x一樣,或者得到下采樣后的短序列。
本文探索了BLSTM、Transformer、Conformer三種不同的模型結(jié)構(gòu)作為listener對(duì)整體語音識(shí)別模型的影響。
speller是一個(gè)基于注意力機(jī)制的解碼器,在每個(gè)輸出步驟中,轉(zhuǎn)換器都會(huì)根據(jù)之前看到的所有字符生成下一個(gè)字符的概率分布,從而得到輸出序列y的概率如下:
在每個(gè)時(shí)間步t,通過注意力機(jī)制計(jì)算輸出對(duì)編碼器特征h的條件依賴。注意力機(jī)制是當(dāng)前解碼器隱藏狀態(tài)和編碼器輸出特征的函數(shù),通過以下機(jī)制將編碼器特征壓縮為上下文向量ct。
其中,向量vT、ba,以及矩陣Wh、Wd都是經(jīng)過學(xué)習(xí)得到的參數(shù);dt表示解碼器在時(shí)間步數(shù)t的隱藏狀態(tài)。然后對(duì)uit進(jìn)行softmax,得到attention分布:
利用αit通過對(duì)hi加權(quán)求和得到相應(yīng)的上下文向量:
每一時(shí)刻,用于捕捉先前輸出上下文的解碼器隱藏狀態(tài)dt經(jīng)以下方式得到:
其中,dt-1是上一個(gè)隱藏狀態(tài),是通過yt-1學(xué)習(xí)得到的嵌入層向量。在t時(shí)刻,輸出yt的后驗(yàn)概率如下:
其中,Ws和bs是可學(xué)習(xí)參數(shù)。最后,模型損失函數(shù)定義為:
連接時(shí)序分類(CTC)在標(biāo)注符號(hào)集中加入了一個(gè)空白符號(hào)(blank),它意味著此幀沒有預(yù)測值輸出。因而在模型的預(yù)測輸出中就包含了很多空白符號(hào),一個(gè)音素對(duì)應(yīng)的一整段語音中只有一個(gè)尖峰被識(shí)別器確認(rèn),其他都被識(shí)別為空白,結(jié)果相當(dāng)于自動(dòng)切分了音素邊界,實(shí)現(xiàn)了將空白符號(hào)和連續(xù)出現(xiàn)的狀態(tài)進(jìn)行消除,得到最終預(yù)測的字符序列。
在給定輸入序列h下,經(jīng)過Softmax層輸出之后,網(wǎng)絡(luò)的輸出為P(qt|h),qt為t時(shí)刻的輸出,則標(biāo)簽序列l(wèi)為所有路徑概率總和為:
式中,Γ(qt)為標(biāo)簽序列的多對(duì)一的映射。因?yàn)橥粋€(gè)標(biāo)簽序列可能有多條路徑與其對(duì)應(yīng),所以需要去掉路徑中的重復(fù)的標(biāo)簽和空白標(biāo)簽。qt∈A,t=1,2,…,T,A為加了空白標(biāo)簽“-”的標(biāo)簽集合,輸出序列中概率最大的標(biāo)注序列為:
CTC的損失函數(shù)是所有標(biāo)簽的負(fù)對(duì)數(shù)概率和,可以通過反向傳播訓(xùn)練CTC網(wǎng)絡(luò):
為了實(shí)現(xiàn)更好的語音識(shí)別模型,本文采用Conformer模型作為編碼器(listener),LAS 模型的Attention and Spell 部分與CTC 模型聯(lián)合解碼,共同構(gòu)造端到端的Conformer-LAS-CTC語音識(shí)別系統(tǒng)。圖3給出了該模型架構(gòu)。
圖3 Conformer-LAS-CTC語音識(shí)別模型Fig.3 Conformer-LAS-CTC speech recognition model
它包括三部分,一個(gè)共享編碼器、一個(gè)CTC解碼器和一個(gè)注意力解碼器。共享編碼器由N個(gè)Conformer[16]編碼器層組成。CTC解碼器由線性層和對(duì)數(shù)softmax層組成,CTC 損失函數(shù)應(yīng)用于訓(xùn)練中的softmax 輸出。LAS解碼器結(jié)構(gòu)在第1.2節(jié)中已詳細(xì)介紹。
和其他編碼器模型的對(duì)比實(shí)驗(yàn)中,Conformer 都實(shí)現(xiàn)了最好的效果。其中卷積塊在效果上最為重要,兩個(gè)半步FFN 的效果也優(yōu)于只有一個(gè)FFN 的結(jié)構(gòu)。在多頭自注意力機(jī)制中集成相對(duì)正弦位置編碼,即使輸入長度不同,自我注意模塊也具備很好的泛化能力和更強(qiáng)的魯棒性。因此在本文提出的模型中,使用Conformer 編碼器將輸入的幀級(jí)別聲學(xué)特征x=(x1,x2,…,xM)映射到一種序列高級(jí)表示(h1,h2,…,hU)。
LAS解碼器則通過使用注意力機(jī)制[14-16]指定字符序列的概率分布,相較于其他端到端模型,LAS 網(wǎng)絡(luò)生成字符序列,而不對(duì)字符之間進(jìn)行任何獨(dú)立假設(shè)。這也決定了該模型解碼會(huì)帶來更好的精確度。在本文提出的結(jié)構(gòu)中,采用Conformer編碼器與LAS解碼器聯(lián)合的方法,解碼器將已經(jīng)生成的文本(y1,y2,…,yS-1)聯(lián)合隱藏狀態(tài)(h1,h2,…,hU)進(jìn)行注意力解碼,將這些更高級(jí)別的特征轉(zhuǎn)換解碼,最終生成目標(biāo)轉(zhuǎn)錄序列(y1,y2,…,yS)。
因?yàn)镃TC可以被視為一種能夠直接優(yōu)化輸入序列與輸出目標(biāo)序列似然度的目標(biāo)函數(shù),在此目標(biāo)函數(shù)下,CTC在訓(xùn)練過程中自動(dòng)學(xué)習(xí)并優(yōu)化輸入、輸出序列的對(duì)應(yīng)關(guān)系,所以本文結(jié)構(gòu)加入音素級(jí)別CTC 解碼器輔助訓(xùn)練。
在殘差網(wǎng)絡(luò)正則化技術(shù)中,隨機(jī)深度通過隨機(jī)跳過一些層來幫助訓(xùn)練非常深的網(wǎng)絡(luò),但由于集成策略,它對(duì)正則化低層無效。受此啟發(fā),在CTC 訓(xùn)練中跳過中間層之后的所有層,加入中間CTC損失(InterCTCloss)[13]作為輔助任務(wù)來誘導(dǎo)子模型。訓(xùn)練依賴于較低層的子模型可以規(guī)范整個(gè)模型的較低部分,從而進(jìn)一步改善CTC的性能。
本文考慮具有CTC 損失函數(shù)的N層編碼器,由于子模型和完整模型共享較低的結(jié)構(gòu),通過獲得模型的中間表示以計(jì)算相應(yīng)的CTC 損失。與完整模型一樣,對(duì)子模型同樣使用CTC損失:
CTC 可以學(xué)習(xí)聲學(xué)特征和標(biāo)簽序列之間的單調(diào)對(duì)齊,這有助于編碼器更快地收斂;基于注意的解碼器可以學(xué)習(xí)目標(biāo)序列之間的依賴關(guān)系。因此,將CTC 和注意損失相結(jié)合不僅有助于基于注意的解碼器的收斂,而且使混合模型能夠利用標(biāo)簽依賴性。
本文模型使用CTC和LAS解碼器聯(lián)合優(yōu)化模型參數(shù),同時(shí)加入中間層音素級(jí)別CTC損失,用于正則化較底層參數(shù),以進(jìn)一步提高模型性能,因此在訓(xùn)練過程中定義損失函數(shù)如下:
其中,CTCloss、InterCTCloss、Attloss分別是CTC 損失、中間層CTC 損失與Attention損失,λ和μ是兩個(gè)超參數(shù),用于衡量CTC、中間層CTC與Attention權(quán)重。
本文實(shí)驗(yàn)使用的數(shù)據(jù)集為希爾貝殼開源的178h數(shù)據(jù)集(Aishell-1)[21],采樣率16 kHz。該數(shù)據(jù)集包括400位來自中國不同口音區(qū)域的發(fā)音人,語料內(nèi)容涵蓋財(cái)經(jīng)、科技、體育、娛樂、時(shí)事新聞。其中按無交疊原則劃分為訓(xùn)練集、驗(yàn)證集以及測試集,訓(xùn)練集120 418 條音頻,驗(yàn)證集14 331條音頻,測試集7 176條音頻。
本文實(shí)驗(yàn)所采用的硬件配置為Intel?CoreTMi7-5930K 處理器,32 GB 運(yùn)行內(nèi)存,GPU 顯卡為NVIDIA GeForce GTX TITAN X;軟件環(huán)境為64位Ubuntu18.04操作系統(tǒng)上搭建的Pytorch深度學(xué)習(xí)環(huán)境。
本文實(shí)驗(yàn)中,使用80維FBank(filter banks)作為輸入特征,其中幀長為25 ms,幀移為10 ms。在訓(xùn)練時(shí)使用Adam[22]優(yōu)化器,并使用文獻(xiàn)[19]中的學(xué)習(xí)率自適應(yīng)變化策略,其中熱身步數(shù)為2.5×104,最高學(xué)習(xí)率為0.001。本文實(shí)驗(yàn)對(duì)于訓(xùn)練集音頻應(yīng)用變速0.9、1.1來擴(kuò)充數(shù)據(jù)集[23],以及使用Google 提出的SpecAugment[24]來隨機(jī)掩蓋時(shí)域頻域的一部分信息,其中掩蓋參數(shù)為F=27,T=100。在音頻特征輸入部分使用兩個(gè)2D 卷積神經(jīng)網(wǎng)絡(luò)(CNN)模塊,每個(gè)模塊都有兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)、批次歸一化層(BatchNorm2d)以及ReLu 激活函數(shù),每個(gè)CNN都有32個(gè)濾波器組,每個(gè)濾波器內(nèi)核大小為3×3,步長為1。然后接二維最大池化層(2D-MaxPool),內(nèi)核大小為2×2,步長為2,然后再通過線性層(Linear)輸出為256 的維度,最后再使用2 個(gè)核大小為2,步長為2 的一維最大池化層(1D-Maxpool)進(jìn)行下采樣,減少語音特征冗余信息。主體網(wǎng)絡(luò)結(jié)構(gòu)是LAS,listen 使用基于Conformer的Encoder結(jié)構(gòu),參數(shù)配置為多頭注意層使用d_model=256,h=4,前饋神經(jīng)網(wǎng)絡(luò)層d_ff=1 024,卷積模塊中Pointwise CNN 輸入通道為256,輸出為512,卷積核大小為1,Depthwise CNN 輸入通道為256,輸出通道為256,卷積核大小為15,其中使用Swish激活函數(shù)[25],每個(gè)模塊之前都使用了Layernorm 和殘差連接來加速模型訓(xùn)練收斂,使用每層Dropout比率為0.1來提高模型魯棒性。在編碼器中間層,使用了基于音素級(jí)別的CTC loss(權(quán)重為0.1)來輔助訓(xùn)練,attend 中利用局部注意力(local-attention)來關(guān)注編碼器輸出的信息,spell 利用LSTM 來解碼出信息,其中輸入維度為1 024,訓(xùn)練中使用Dropout,比率為0.3。本文所有的實(shí)驗(yàn)結(jié)果都是在無外部語言模型和超參數(shù)優(yōu)化的情況下得到的。
本文首先在Aishell-1 數(shù)據(jù)集上驗(yàn)證了所提出的Conformer-LAS,以及使用音素級(jí)別中間層CTC 損失(權(quán)重為0.1)輔助訓(xùn)練的Conformer-LAS-CTC 效果,并與基線模型以及其他編解碼器組合模型的實(shí)驗(yàn)效果進(jìn)行對(duì)比,如表1所示。使用字錯(cuò)率(character error rate,CER)作為評(píng)判標(biāo)準(zhǔn),所有的評(píng)估結(jié)果都四舍五入保留至小數(shù)點(diǎn)后2位。
表1 不同編解碼器在Aishell-1上的實(shí)驗(yàn)結(jié)果Table 1 Experimental results of different encoder-decoder on Aishell-1 單位:%
從表1中可以看出:
(1)在解碼器都采用LAS模型時(shí),提出的Conformer-LAS-CTC 模型相對(duì)于以BLSTM 為編碼器的模型字錯(cuò)率相對(duì)降低了19.52%,相對(duì)于Transformer 編碼器模型更是相對(duì)降低了46.74%。
(2)使用音素級(jí)別中間CTC 損失輔助訓(xùn)練的Conformer-LAS-CTC(+Inter CTC)模型獲得了最優(yōu)效果,相對(duì)于Conformer-LAS-CTC模型在測試集上又獲得了2.11%的提升。
為了更好地體現(xiàn)各模型之間的差異,本文在訓(xùn)練集中每隔1 000 步選取一個(gè)損失值,各模型在訓(xùn)練集上的損失曲線如圖4所示;在驗(yàn)證集中選取前70 epoch,訓(xùn)練過程的識(shí)別字錯(cuò)率(CER)曲線如圖5所示。
圖4 訓(xùn)練過程損失Fig.4 Loss during training
圖5 驗(yàn)證集上字錯(cuò)率Fig.5 Character error rate of verification set
從圖4訓(xùn)練過程損失曲線中可以看出,在最初的0~10 000 步中,Conformer-LAS-CTC 就已經(jīng)體現(xiàn)出優(yōu)勢,相比Transformer-LAS 和Conformer-LAS 模型的loss 曲線,其斜率更大,下降更快,在10 000步之后Conformer-LAS-CTC相比于BLSTM-LAS模型則更加平穩(wěn),這意味著Conformer-LAS-CTC 模型相比于其他模型可以快速且穩(wěn)定地訓(xùn)練出loss值。從圖5驗(yàn)證集上字錯(cuò)率曲線中可以看到,隨著迭代次數(shù)的增加,模型逐漸趨于收斂,字錯(cuò)率最終都穩(wěn)定在一個(gè)固定范圍內(nèi),Conformer-LAS和Conformer-LAS-CTC的字錯(cuò)率都明顯低于BLSTM-LAS模型和Transformer-LAS。其中Conformer-LAS-CTC 采用Conformer-LAS 編解碼器學(xué)習(xí)目標(biāo)序列之間的依賴關(guān)系,并采用CTC輔助加快收斂,在訓(xùn)練集上能學(xué)到更多的信息,模型泛化性能和準(zhǔn)確率都得到了提升。
本文還將所提出的模型與傳統(tǒng)語音識(shí)別方法以及近兩年主流的端到端模型在Aishell-1 上的效果進(jìn)行了對(duì)比,結(jié)果如表2所示。
表2 不同聲學(xué)模型在Aishell-上的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of different acoustic models on Aishell-1 單位:%
從表2 中可以看出,相比于其他端到端模型,本文提出的模型也進(jìn)一步降低了字錯(cuò)率,這清楚地證明了所提出的Conformer-LAS-CTC模型的有效性。
為了進(jìn)一步驗(yàn)證本文提出的模型性能,還探索了不同解碼層數(shù)對(duì)語音識(shí)別效果的影響,控制LAS解碼器中所采用的LSTM層數(shù)分別為1層、2層、3層,將獲得的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,結(jié)果如表3所示。
表3 不同解碼層次實(shí)驗(yàn)結(jié)果Table 3 Experimental results of different model levels 單位:%
從表3 中可以看出,隨著spell 層數(shù)增加,語音識(shí)別模型在測試集上的字錯(cuò)率逐漸下降,由此得出更多的解碼器層將有利于獲得更好的識(shí)別效果。本文提出的模型在組合3層解碼層時(shí)達(dá)到了4.54%的錯(cuò)誤率。
本文提出了Conformer-LAS-CTC 聲學(xué)模型用于端到端語音識(shí)別。研究了不同編解碼器組合的識(shí)別效果,證明了Conformer編碼器與LAS解碼器組合,并添加音素級(jí)別CTC 輔助解碼,引入中間CTC 損失聯(lián)合訓(xùn)練。該模型在Aishell-1 數(shù)據(jù)集上顯示出最好的性能。本文還對(duì)比了傳統(tǒng)語音識(shí)別模型和其他端到端模型,驗(yàn)證了Conformer-LAS-CTC 聲學(xué)模型的先進(jìn)性。該模型在Conformer Decoder 具有3 層LSTM 網(wǎng)絡(luò)時(shí)達(dá)到了字錯(cuò)率4.54%的最佳性能。未來的研究中會(huì)探索不同的超參數(shù)對(duì)模型的影響,以及研究融合外部語言模型解碼提升模型的魯棒性。