郭家興 韓紀(jì)慶
摘要:端到端語(yǔ)音識(shí)別模型由于結(jié)構(gòu)簡(jiǎn)單且容易訓(xùn)練,已成為目前最流行的語(yǔ)音識(shí)別模型。然而端到端語(yǔ)音識(shí)別模型通常需要大量的語(yǔ)音-文本對(duì)進(jìn)行訓(xùn)練,才能取得較好的識(shí)別性能。而在實(shí)際應(yīng)用中收集大量配對(duì)數(shù)據(jù)既費(fèi)力又昂貴,因此其無(wú)法在實(shí)際應(yīng)用中被廣泛使用。本文提出一種將RNN-T(RecurrentNeuralNetworkTransducer,RNN-T)模型與BERT(BidirectionalEncoderRepresentationsfromTransformers,BERT)模型進(jìn)行結(jié)合的方法來(lái)解決上述問題,其通過用BERT模型替換RNN-T中的預(yù)測(cè)網(wǎng)絡(luò)部分,并對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào),從而使RNN-T模型能有效利用BERT模型中的語(yǔ)言學(xué)知識(shí),進(jìn)而提高模型的識(shí)別性能。在中文普通話數(shù)據(jù)集AISHELL-1上的實(shí)驗(yàn)結(jié)果表明,采用所提出的方法訓(xùn)練后的模型與基線模型相比能獲得更好的識(shí)別結(jié)果。
關(guān)鍵詞:語(yǔ)音識(shí)別;端到端模型;BERT模型
【Abstract】Theend-to-endspeechrecognitionmodelhasbecomeoneofthemostpopularspeechrecognitionmodelsduetoitssimplestructureandeasytraining.However,itusuallyneedsalargenumberofspeech-textpairsforthetrainingofanend-to-endspeechrecognitionmodeltoachieveabetterperformance.Inpracticalapplications,itisverylaboriousandexpensivetocollectalargenumberofthepaireddata,resultinginthemodelcannotbewidelyused.ThispaperproposesamethodofcombiningtheRecurrentNeuralNetworkTransducer(RNN-T)modelwiththeBidirectionalEncoderRepresentationsfromTransformers(BERT)modeltosolvetheaboveproblems.ItreplacesthepredictionnetworkpartintheRNN-TwiththeBERTmodelandfine-tunestheentirenetwork,thustheRNN-Tmodeleffectivelyuseslinguisticinformationtoimprovemodelrecognitionperformance.TheexperimentalresultsontheChinesemandarindatasetAISHELL-1showthat,comparedwiththebaselinesystem,thesystemusingtheproposedexpansionmethodachievesbetterrecognitionresults.
【Keywords】speechrecognition;end-to-endmodel;BERTmodel
作者簡(jiǎn)介:郭家興(1995-),男,碩士研究生,主要研究方向:語(yǔ)音識(shí)別;韓紀(jì)慶(1964-),男,博士,教授,博士生導(dǎo)師,主要研究方向:語(yǔ)音信號(hào)處理、音頻信息處理。
0引言
近年來(lái),各種基于深度神經(jīng)網(wǎng)絡(luò)的端到端模型在語(yǔ)音識(shí)別(AutomaticSpeechRecognition,ASR)領(lǐng)域正逐漸成為研究熱點(diǎn)。不同于傳統(tǒng)的語(yǔ)音識(shí)別模型,端到端模型不再需要將輸入語(yǔ)音幀和給定文本標(biāo)簽進(jìn)行一一對(duì)齊,其僅包含一個(gè)單獨(dú)的序列模型,可以直接將輸入的語(yǔ)音特征序列映射為識(shí)別的文本序列,簡(jiǎn)化了識(shí)別的過程。同時(shí)模型不依賴語(yǔ)言模型和發(fā)音詞典,降低了對(duì)專家知識(shí)的要求[1-3]。目前,端到端語(yǔ)音識(shí)別模型主要包括基于注意力機(jī)制的編解碼模型[4-5]、連接時(shí)序分類(ConnectionistTemporalClassification,CTC)模型[6-7]、基于循環(huán)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換器(RecurrentNeuralNetworkTransducer,RNN-T)的模型[8-9]三種。其中,RNN-T模型是由Graves等人針對(duì)CTC的不足所提出的改進(jìn)方法。相比于CTC,RNN-T可以同時(shí)對(duì)輸入和輸出序列的條件相關(guān)性進(jìn)行建模,而且對(duì)輸入和輸出序列的長(zhǎng)度沒有限制。這使得RNN-T模型更加適合語(yǔ)音任務(wù),因此本文擬圍繞RNN-T模型來(lái)展開研究工作。
時(shí)下的大量研究表明[10-14],端到端語(yǔ)音識(shí)別模型仍然存在著語(yǔ)料資源有限所導(dǎo)致訓(xùn)練不充分等一系列問題。而收集大量語(yǔ)音-文本對(duì)非常困難,這導(dǎo)致端到端語(yǔ)音識(shí)別模型在實(shí)際應(yīng)用中的表現(xiàn)欠佳。最近的工作表明,可以使用純文本數(shù)據(jù)來(lái)改善其性能。文獻(xiàn)[5]用詞級(jí)語(yǔ)言模型組成RNN輸出網(wǎng)格,文獻(xiàn)[8]用外部語(yǔ)言模型對(duì)搜索算法進(jìn)行重新打分。文獻(xiàn)[15-16]在波束搜索期間合并了字符級(jí)語(yǔ)言模型,而文獻(xiàn)[17]采用知識(shí)遷移的方法,先對(duì)大規(guī)模外部文本訓(xùn)練語(yǔ)言模型,再將該語(yǔ)言模型中的知識(shí)遷移到端到端語(yǔ)音識(shí)別系統(tǒng)中。這些方法在解碼階段將端到端模型與其它語(yǔ)言模型結(jié)合在一起,可以有效改善語(yǔ)音識(shí)別模型的性能,但是都需要額外的步驟來(lái)集成和微調(diào)單獨(dú)的語(yǔ)言模塊,因此都不是真正意義上的端到端模型。
為了解決上述問題,同時(shí)考慮到BERT(BidirectionalEncoderRepresentationsfromTransformers)模型[18]是目前對(duì)語(yǔ)言學(xué)信息建模最好的模型,本文提出一種將RNN-T模型與BERT模型進(jìn)行聯(lián)合優(yōu)化的方法,就可以高效利用BERT模型所提供的語(yǔ)言學(xué)信息,也是一種真正的端到端模型。
1提出方法
1.1RNN-T模型及其局限性分析
1.1.1基于RNN-T的端到端語(yǔ)音識(shí)別模型
基于RNN-T的端到端語(yǔ)音識(shí)別模型能夠很好地將聲學(xué)信息和語(yǔ)言學(xué)信息進(jìn)行聯(lián)合優(yōu)化,在端到端語(yǔ)音識(shí)別任務(wù)中取得了目前最好的性能,通常由3部分構(gòu)成:編碼器(Encoder)、預(yù)測(cè)網(wǎng)絡(luò)(PredictNetwork)和聯(lián)合網(wǎng)絡(luò)(JointNetwork)。其中,編碼器的功能就類似于傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)的聲學(xué)模型,通過將輸入的聲學(xué)特征序列轉(zhuǎn)化為發(fā)音基元序列,預(yù)測(cè)網(wǎng)絡(luò)給出對(duì)應(yīng)的語(yǔ)言學(xué)信息,聯(lián)合網(wǎng)絡(luò)的作用是結(jié)合語(yǔ)言學(xué)信息和發(fā)音基元序列產(chǎn)生對(duì)應(yīng)的轉(zhuǎn)錄文本,整個(gè)模型結(jié)構(gòu)如圖1所示。
RNN-T模型不僅解決了CTC中輸出之間的條件獨(dú)立性假設(shè),以及缺少語(yǔ)言建模能力的不足,還使用了共同建模的思路來(lái)對(duì)語(yǔ)言模型和聲學(xué)模型進(jìn)行聯(lián)合優(yōu)化;同時(shí),模型具有在線解碼等諸多優(yōu)點(diǎn),是一種比較有前景的模型。因此,本文首先搭建基于RNN-T結(jié)構(gòu)的端到端語(yǔ)音識(shí)別基線模型。
1.1.2RNN-T模型的局限性分析
RNN-T模型也存在不足。一方面,由于在RNN-T模型中,聲學(xué)建模與語(yǔ)言學(xué)建模已被整合在一個(gè)網(wǎng)絡(luò)中,其僅用一個(gè)目標(biāo)函數(shù)進(jìn)行優(yōu)化,這就要求訓(xùn)練數(shù)據(jù)必須同時(shí)包含輸入和輸出序列。然而在實(shí)際應(yīng)用中配對(duì)數(shù)據(jù)的獲取十分困難。另一方面,RNN-T模型并不能像CTC一樣與傳統(tǒng)的WFST結(jié)合,在第一遍解碼中,未能利用大型語(yǔ)言模型的好處,而RNN-T的預(yù)測(cè)網(wǎng)絡(luò)所提供的上下文信息,只能在一定程度上緩解這種劣勢(shì)。
實(shí)際上傳統(tǒng)的語(yǔ)音識(shí)別模型也會(huì)出現(xiàn)上述問題。傳統(tǒng)語(yǔ)音識(shí)別模型結(jié)構(gòu)如圖2所示。由圖2可知,在傳統(tǒng)語(yǔ)音識(shí)別模型中,通常采用獨(dú)立的聲學(xué)模型和語(yǔ)言模型分別建模聲學(xué)信息和語(yǔ)言學(xué)信息。首先,使用聲學(xué)模型去識(shí)別每一個(gè)發(fā)音基元,將輸入的聲學(xué)特征序列轉(zhuǎn)化為發(fā)音基元序列;然后,在發(fā)音詞典和語(yǔ)言模型的幫助下,通過搜索算法在發(fā)音基元序列中得到一條最佳路徑,這條最佳路徑就對(duì)應(yīng)了識(shí)別的轉(zhuǎn)錄文本序列。對(duì)于容易出錯(cuò)的詞,語(yǔ)言模型沒有見過或者很少見過這種搭配,導(dǎo)致搜索算法計(jì)算出的概率得分很低。所以要提高語(yǔ)音識(shí)別模型的識(shí)別準(zhǔn)確率,就必須重新擴(kuò)充語(yǔ)言模型部分,旨在使模型對(duì)容易出錯(cuò)的詞也能計(jì)算出一個(gè)比較高的概率得分。因此傳統(tǒng)的語(yǔ)音識(shí)別模型可以利用比訓(xùn)練集的轉(zhuǎn)錄文本多幾個(gè)數(shù)量級(jí)的純文本數(shù)據(jù),來(lái)單獨(dú)訓(xùn)練語(yǔ)言模型部分,以更新語(yǔ)言學(xué)的知識(shí),從而保持聲學(xué)模型部分不動(dòng)。然而,通過擴(kuò)充語(yǔ)言模型的方式并不適用于RNN-T模型,因?yàn)樵赗NN-T模型中訓(xùn)練數(shù)據(jù)和擴(kuò)充數(shù)據(jù)都必須是平行的文本和語(yǔ)音對(duì)。
1.2用BERT模型替換預(yù)測(cè)網(wǎng)絡(luò)
根據(jù)1.1節(jié)中的分析,RNN-T模型在實(shí)際應(yīng)用中表現(xiàn)不好是因?yàn)槿狈τ?xùn)練數(shù)據(jù),進(jìn)而導(dǎo)致模型的語(yǔ)言學(xué)信息建模不充分。而RNN-T的預(yù)測(cè)網(wǎng)絡(luò)所提供的上下文信息,只能在一定程度上緩解這種劣勢(shì)。鑒于傳統(tǒng)語(yǔ)音識(shí)別方法可以直接用大量文本數(shù)據(jù)單獨(dú)訓(xùn)練語(yǔ)言模型部分,從而擴(kuò)充模型的語(yǔ)言學(xué)信息,在RNN-T模型中,編碼器部分相當(dāng)于聲學(xué)模型,預(yù)測(cè)網(wǎng)絡(luò)相當(dāng)于語(yǔ)言模型。參考傳統(tǒng)語(yǔ)音識(shí)別方法的經(jīng)驗(yàn),直觀有效的方法就是對(duì)預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行擴(kuò)充。因此,本文提出使用更強(qiáng)大的語(yǔ)言模型來(lái)替換RNN-T模型的預(yù)測(cè)網(wǎng)絡(luò)部分,以在推理時(shí)提供更具表示性的語(yǔ)言學(xué)信息。
BERT模型是目前對(duì)語(yǔ)言學(xué)信息建模最好的語(yǔ)言模型[20],與其它語(yǔ)言模型不同,BERT采用雙向語(yǔ)言模型的方式,能夠更好地融合上下文的信息。同時(shí),預(yù)訓(xùn)練的BERT模型在實(shí)際使用時(shí),只需要根據(jù)具體任務(wù)額外加入一個(gè)輸出層進(jìn)行微調(diào)即可,而不用為特定任務(wù)來(lái)修改模型結(jié)構(gòu)。本文使用BERT模型來(lái)替換RNN-T模型的預(yù)測(cè)網(wǎng)絡(luò)部分,使聯(lián)合網(wǎng)絡(luò)在進(jìn)行解碼的過程中,通過BERT模型引入外部的語(yǔ)言學(xué)信息來(lái)進(jìn)行輔助解碼。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。替換后的模型在進(jìn)行解碼時(shí),由預(yù)測(cè)網(wǎng)絡(luò)提供當(dāng)前時(shí)刻的上下文向量變?yōu)橛葿ERT模型提供對(duì)應(yīng)信息。
1.3微調(diào)RNN-T模型
1.2節(jié)中介紹的將BERT模型與RNN-T模型進(jìn)行結(jié)合的方法,通過使用BERT模型替換RNN-T模型的預(yù)測(cè)網(wǎng)絡(luò)部分,實(shí)現(xiàn)了在推理時(shí)利用BERT模型提供的語(yǔ)言學(xué)信息。
然而實(shí)驗(yàn)結(jié)果表明,直接替換的方法會(huì)導(dǎo)致模型的識(shí)別性能下降,這是因?yàn)锽ERT沒有參與訓(xùn)練,只是在RNN-T模型進(jìn)行解碼時(shí)提供相應(yīng)信息,從而導(dǎo)致了BERT模型和RNN-T的編碼器部分不匹配。例如,t-1時(shí)刻聯(lián)合網(wǎng)絡(luò)預(yù)測(cè)的字符為“新”,而BERT模型預(yù)測(cè)下一個(gè)字符是“冠”,但語(yǔ)料庫(kù)中并沒有這個(gè)詞,這就導(dǎo)致聯(lián)合網(wǎng)絡(luò)沒有見過BERT模型提供的信息,從而出現(xiàn)錯(cuò)誤。
解決方法是微調(diào)RNN-T模型。具體來(lái)說(shuō),就是在用BERT模型替換掉RNN-T的預(yù)測(cè)網(wǎng)絡(luò)部分后,再用訓(xùn)練語(yǔ)料庫(kù)重新訓(xùn)練一遍整個(gè)模型。在這個(gè)過程中BERT模型參與了訓(xùn)練,使聯(lián)合網(wǎng)絡(luò)逐漸適應(yīng)BERT模型提供的信息,進(jìn)而使編碼器和BERT模型相互匹配。
2實(shí)驗(yàn)與結(jié)果分析
2.1實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)基于2種普通話語(yǔ)料庫(kù):AISHELL-1[21]和AISHELL-2[22]。其中,AISHELL-1包含180h語(yǔ)音數(shù)據(jù),AISHELL-2包含1000h語(yǔ)音數(shù)據(jù)。使用Kaldi提取40維的FBank特征,每個(gè)特征都被重新調(diào)整為在訓(xùn)練集上具有零均值和單位方差。
在實(shí)驗(yàn)中,本文使用AISHELL-1訓(xùn)練RNNT模型,將AISHELL-2的轉(zhuǎn)錄文本作為文本數(shù)據(jù)集,訓(xùn)練BERT模型。
2.2模型結(jié)構(gòu)和實(shí)驗(yàn)設(shè)置
在基線RNN-T模型中,編碼器由5層雙向長(zhǎng)短時(shí)記憶(BidirectionalLongShort-TermMemory,BLSTM)網(wǎng)絡(luò)組成,每層有700個(gè)單元,正向和反向各有350個(gè)單元。預(yù)測(cè)網(wǎng)絡(luò)由700個(gè)門控循環(huán)單元(GatedRecurrentUnit,GRU)的單層組成,聯(lián)合網(wǎng)絡(luò)結(jié)合了聲學(xué)和語(yǔ)言學(xué)信息,由700個(gè)單元的單向前饋網(wǎng)絡(luò)組成,使用tanh作為激活函數(shù)。
在實(shí)驗(yàn)設(shè)置方面,模型采用聲學(xué)特征作為輸入,標(biāo)注文本作為輸出序列,實(shí)現(xiàn)端到端的語(yǔ)音識(shí)別模型;模型直接進(jìn)行解碼,以提取輸出字符序列,而無(wú)需使用單獨(dú)的發(fā)音模型或外部語(yǔ)言模型;采用字錯(cuò)誤率(CharacterErrorRate,CER)作為語(yǔ)音識(shí)別效果的評(píng)價(jià)指標(biāo)。
2.3實(shí)驗(yàn)結(jié)果與分析
本文的實(shí)驗(yàn)結(jié)果見表1。RNNTransducer是使用AISHELL-1數(shù)據(jù)集訓(xùn)練的基線模型。RNNTransducer*模型是用BERT模型替換RNN-T模型中的預(yù)測(cè)網(wǎng)絡(luò)部分,并在推理時(shí)提供語(yǔ)言學(xué)信息的結(jié)果,可以發(fā)現(xiàn)字錯(cuò)誤率大幅度上升。這是因?yàn)锽ERT模型并沒有參與訓(xùn)練,只是在RNN-T模型解碼時(shí)提供相應(yīng)信息,導(dǎo)致BERT模型和RNN-T的編碼器部分不匹配。RNNTransducer+Bert是用AISHELL-1數(shù)據(jù)集對(duì)整個(gè)模型進(jìn)行重訓(xùn)練的結(jié)果,相當(dāng)于對(duì)聯(lián)合網(wǎng)絡(luò)進(jìn)行微調(diào),使編碼器部分與BERT模型之間相互匹配。與基線模型比較后可知,本文提出的方法相對(duì)降低了5.2%的字錯(cuò)誤率,提高了模型的識(shí)別性能。
3結(jié)束語(yǔ)
本文針對(duì)基于RNN-T的端到端語(yǔ)音識(shí)別模型,提出了一種與BERT模型進(jìn)行結(jié)合的方法。該方法通過用BERT模型替換RNN-T中的預(yù)測(cè)網(wǎng)絡(luò)部分,對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào),從而使RNN-T模型在訓(xùn)練和解碼過程中能夠有效利用BERT提供的語(yǔ)言學(xué)信息,進(jìn)而提高模型的識(shí)別性能。最后,在AISHELL中文普通話數(shù)據(jù)集上對(duì)所提出的方法進(jìn)行了評(píng)估,實(shí)驗(yàn)結(jié)果表明,該方法能夠獲得更好的ASR性能。
參考文獻(xiàn)
[1]韓紀(jì)慶,張磊,鄭鐵然.語(yǔ)音信號(hào)處理[M].2版.北京:清華大學(xué)出版社,2013.
[2]ALTER.語(yǔ)音識(shí)別進(jìn)化簡(jiǎn)史:從造技術(shù)到建系統(tǒng)[J].大數(shù)據(jù)時(shí)代,2019(9):50-59.
[3]PRABHAVALKARR,RAOK,SAINATHTN,etal.Acomparisonofsequence-to-sequencemodelsforspeechrecognition[C]//Interspeech.Stockholm,Sweden:dblp,2017:939-943.
[4]GRAVESA,GOMEZF.Connectionisttemporalclassification:Labellingunsegmentedsequencedatawithrecurrentneuralnetworks[C]//Proceedingsofthe23rdInternationalConferenceonMachineLearning.NewYork,USA:ACM,2006:369-376.
[5]MIAOY,GOWAYYEDM,METZEF.EESEN:End-to-endspeechrecognitionusingdeepRNNmodelsandWFST-baseddecoding[C]//2015IEEEWorkshoponAutomaticSpeechRecognitionandUnderstanding(ASRU).Dammam:IEEE,2015:167-174.
[6]GRAVESA.Sequencetransductionwithrecurrentneuralnetworks[J].arXivpreprintarXiv:1211.3711,2012.
[7]RAOK,SAKH,PRABHAVALKARR.Exploringarchitectures,dataandunitsforstreamingend-to-endspeechrecognitionwithRNN-transducer[C]//2017IEEEAutomaticSpeechRecognitionandUnderstandingWorkshop(ASRU).Okinawa,Japan:dblp,2017:193-199.
[8]CHANW,JAITLYN,LEQ,etal.Listen,attendandspell:Aneuralnetworkforlargevocabularyconversationalspeechrecognition[C]//2016IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).Shanghai:IEEE,2016:4960-4964.
[9]BAHDANAUD,CHOROWSKIJ,SERDYUKD,etal.End-to-endattention-basedlargevocabularyspeechrecognition[C]//2016IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).Shanghai:IEEE,2016:4945-4949.
[10]KARITAS,WATANABES,IWATAT,etal.Semi-supervisedend-to-endspeechrecognition[C]//Interspeech.Hyderabad,India:dblp,2018:2-6.
[11]BASKARMK,WATANABES,ASTUDILLORF,etal.Self-supervisedSequence-to-sequenceASRusingunpairedspeechandtext[C]//Interspeech.Graz,Austria:dblp,2019:3790-3794.
[12]RENDUCHINTALAA,DINGS,WIESNERM,etal.Multi-modaldataaugmentationforend-to-endASR[C]//Interspeech.Hyderabad,India:dblp,2018:2394-2398.
[13]HORIT,ASTUDILLOR,HAYASHIT,etal.Cycle-consistencytrainingforend-to-endspeechrecognition[C]//ICASSP2019-2019IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).Brighton,UK:IEEE,2019:6271-6275.
[14]HAYASHIT,WATANABES,ZHANGYu,etal.Back-translation-styledataaugmentationforend-to-endASR[C]//2018IEEESpokenLanguageTechnologyWorkshop(SLT).Athens:IEEE,2018:426-433.
[15]MAASA,XIEZ,JURAFSKYD,etal.Lexicon-FreeconversationalspeechrecognitionwithNeuralNetworks[C]//ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies.Colorado,USA:ACL,2015:345-354.
[16]HORIT,WATANABES,ZHANGYu,etal.AdvancesinjointCTC-attentionbasedend-to-endspeechrecognitionwithadeepCNNencoderandRNN-LM[C]//Interspeech.Stockholm,Sweden:dblp,2017:949-953.
[17]BAIYe,YIJiangyan,TAOJianhua,etal.Learnspellingfromteachers:Transferringknowledgefromlanguagemodelstosequence-to-sequencespeechrecognition[C]//Interspeech.Graz,Austria:dblp,2019:3795-3799.
[18]DEVLINJ,CHANGMingwei,LEEK,etal.Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding[J].arXivpreprintarXiv:1810.04805,2018.
[19]HOCHREITERS,SCHMIDHUBERJ.Longshort-termmemory[J].Neuralcomputation,1997,9(8):1735-1780.
[20]JIANGD,LEIX,LIW,etal.Improvingtransformer-basedspeechrecognitionusingunsupervisedpre-training[J].arXivpreprintarXiv:1910.09932,2019.
[21]BUHui,DUJiayu,NAXingyu,etal.Aishell-1:Anopen-sourcemandarinspeechcorpusandaspeechrecognitionbaseline[C]//201720thConferenceoftheOrientalChapteroftheInternationalCoordinatingCommitteeonSpeechDatabasesandSpeechI/OSystemsandAssessment(O-COCOSDA).Seoul,SouthKorea:IEEE,2017:1-5.
[22]DUJiayu,NAXingyu,LIUXuechen,etal.AISHELL-2:TransformingmandarinASRresearchintoindustrialscale[J].arXivpreprintarXiv:1808.10583,2018.