劉 悅,林 軍,羅 瀟,褚 偉,劉 任
(中車株洲電力機(jī)車研究所有限公司, 湖南 株洲 412001)
為了滿足乘用車在安全及使用多樣化方面的需求,車輛生產(chǎn)商在不斷地朝車載設(shè)備智能化方向探索,開發(fā)了多種智能化功能,如采用智能語音交互技術(shù)的多媒體及導(dǎo)航系統(tǒng)等。車載智能化技術(shù)的不斷提升為駕駛?cè)藛T帶來了便捷及舒適的體驗(yàn)。傳統(tǒng)車載設(shè)備采用觸控方式進(jìn)行交互,存在因用戶注意力分散而帶來的安全隱患,而智能化功能的使用大大降低了此類安全隱患發(fā)生的概率。作為最有效且便捷的交互方式,語音為駕駛者提供了一種全新、安全的交互體驗(yàn)。近年來,多數(shù)汽車生產(chǎn)商推出具有語音交互功能的車載產(chǎn)品。寶馬和奔馳部分車型采用語音交互功能實(shí)現(xiàn)系統(tǒng)控制,長安和大眾部分車型配備了語音交互功能,可實(shí)現(xiàn)多媒體及導(dǎo)航語音操控??拼笥嶏w、思必馳及云知聲等公司在為眾多車企提供語音技術(shù)支持的同時(shí),還推出了帶有語音控制功能的汽車后視鏡產(chǎn)品。
語音技術(shù)在軌道交通領(lǐng)域的應(yīng)用起步較晚。目前,機(jī)車、動(dòng)車和城市軌道交通車輛已逐步向智能化方向發(fā)展,語音技術(shù)在軌道交通車輛上的應(yīng)用研究也隨之開展。例如,智軌電車的顯示器語音交互系統(tǒng),其實(shí)現(xiàn)了語音關(guān)鍵詞識別技術(shù)、車載語音合成技術(shù)。未來可通過聲紋識別技術(shù)進(jìn)行車輛的人員身份驗(yàn)證;高鐵乘客區(qū)域也可以通過語音交互系統(tǒng)為乘客帶來更舒適的乘車體驗(yàn)。
語音識別是語音交互系統(tǒng)中最為重要的環(huán)節(jié),是語音交互系統(tǒng)的入口,決定著語音交互體驗(yàn)效果。在該技術(shù)的發(fā)展過程中,深度學(xué)習(xí)算法的出現(xiàn)及多種開發(fā)工具、框架的使用使語音識別技術(shù)得到了真正的應(yīng)用落地[1‐3]。本文介紹了語音技術(shù)及其發(fā)展歷程,在此基礎(chǔ)上,面向軌道交通場景應(yīng)用需求,開發(fā)了一套基于時(shí)延神經(jīng)網(wǎng)絡(luò)的命令詞定制語音識別系統(tǒng),最后依托列車顯示器平臺及智能計(jì)算平臺實(shí)現(xiàn)了該語音識別系統(tǒng)的應(yīng)用部署,并完成了實(shí)車測試。
以語音交互為代表的新一代智能交互模式在邏輯架構(gòu)上主要分為5層,包括基礎(chǔ)層、算法層、能力層、接口層和應(yīng)用層(圖1)。深度學(xué)習(xí)技術(shù)的出現(xiàn)使語音技術(shù)進(jìn)一步發(fā)展,其對數(shù)據(jù)及計(jì)算平臺算力的需求不斷增大,算法層迭代優(yōu)化的效果對基礎(chǔ)層的依賴也不斷增強(qiáng)。伴隨著能力層各項(xiàng)技術(shù)的成熟,語音交互技術(shù)已被廣泛應(yīng)用于智慧車載、智慧醫(yī)療等應(yīng)用領(lǐng)域。
圖1 語音交互技術(shù)邏輯架構(gòu)Fig.1 Logic architecture of voice interaction technology
語音交互過程有5 個(gè)關(guān)鍵處理階段(圖2),具體如下:
圖2 語音交互技術(shù)框架Fig.2 Voice interaction technology framework
(1)拾音器所采集的音頻信息經(jīng)語音識別轉(zhuǎn)換為文本信息;
(2)文本信息經(jīng)自然語言理解模塊進(jìn)行語義分析,以理解文本意圖;
(3)將文本意圖結(jié)果傳輸給對話管理模塊,為決策提供依據(jù);
(4)自然語言生成模塊將決策結(jié)果生成文本信息進(jìn)行傳輸;
(5)語音合成將文本信息轉(zhuǎn)換為語音進(jìn)行播放。
作為語音交互的入口,語音識別技術(shù)的研究具有重要的現(xiàn)實(shí)意義。因此,多年來對該技術(shù)的研究從未間斷。
語音識別技術(shù)的研究起源于20世紀(jì)50年代。語音識別技術(shù)的發(fā)展從算法角度主要分為模板匹配、統(tǒng)計(jì)模型和深度學(xué)習(xí)3個(gè)階段[4](圖3)。
圖3 語音識別技術(shù)發(fā)展歷程Fig.3 Development history of speech recognition technology
(1)20世紀(jì)50年代至70年代,語音識別經(jīng)典理論被先后提出和發(fā)表。在此階段,Martin提出的時(shí)間歸一化方法解決了語音時(shí)長不一致的問題;隨后,卡耐基梅隆大學(xué)的Reddy利用動(dòng)態(tài)跟蹤音素實(shí)現(xiàn)了連續(xù)語音識別;蘇聯(lián)科學(xué)家Vintsyuk首次將動(dòng)態(tài)規(guī)劃引入語音信號的時(shí)間規(guī)整處理;日本的Sakoe和Chiba基于該研究形成了動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping,DTW)方法,將兩段不同長度的語音在時(shí)間軸上進(jìn)行了對齊,這幾項(xiàng)工作為此后語音識別技術(shù)的發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)[4‐5]。
(2)20 世紀(jì)80 年代至90 年代,研究的重點(diǎn)放在大詞匯量連續(xù)語音識別系統(tǒng)上。在此階段,人們多采用基于統(tǒng)計(jì)模型的技術(shù),聲學(xué)模型和語言模型由此產(chǎn)生。語言模型以N‐gram 模型為代表;聲學(xué)模型以隱馬爾可夫模型(hidden Markov model,HMM)為代表[4,6],HMM 至今仍被看作是語音領(lǐng)域的主流技術(shù)。在這一階段產(chǎn)生了一系列著名的語音識別系統(tǒng),其中最具代表性的是李開復(fù)的SPHINX 系統(tǒng)[7]。該系統(tǒng)用HMM對語音狀態(tài)的轉(zhuǎn)移概率建模,用高斯混合模型(Gaussian mixture model,GMM)對語音狀態(tài)的觀察值概率建模,稱之為高斯混合‐隱馬爾可夫模型(Gaussian mixture model‐ hidden Markov model,GMM‐HMM)[4]。該技術(shù)的出現(xiàn)也為語音技術(shù)的落地應(yīng)用奠定了基礎(chǔ),其核心算法成為主流語音識別技術(shù),得到了更為廣泛的應(yīng)用;以此為基礎(chǔ)發(fā)展的一些自適應(yīng)方法及訓(xùn)練準(zhǔn)則進(jìn)一步提升了語音識別的準(zhǔn)確性,使其地位更加穩(wěn)固[4]。
(3)自2006 年起,深度學(xué)習(xí)技術(shù)的迅速發(fā)展為語音技術(shù)的發(fā)展提供了新的研究思路。伴隨著日常應(yīng)用對語音交互技術(shù)需求的不斷增長,多應(yīng)用場景識別難度亦增加。GMM‐HMM算法的效果無法獲得更為理想的體驗(yàn)感,識別率到達(dá)了一個(gè)瓶頸(80%左右),無法突破。直到2006年,Hinton提出“深度置信網(wǎng)絡(luò)”概念,實(shí)現(xiàn)了訓(xùn)練的優(yōu)化[8]。深度學(xué)習(xí)方法更易于進(jìn)行深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,使訓(xùn)練時(shí)間減少,模型性能提升,這項(xiàng)技術(shù)成為了語音識別的轉(zhuǎn)折點(diǎn)。2012年微軟研究院將深度學(xué)習(xí)技術(shù)與HMM 相結(jié)合,提出上下文相關(guān)的深度神經(jīng)網(wǎng)絡(luò)(context dependent deep neural network,CD‐DNN)[4,9]與HMM 融合的聲學(xué)模型(CD‐DNN‐HMM),在大詞匯量的連續(xù)語音識別技術(shù)上取得了顯著的進(jìn)步。相比GMM‐HMM 方 法,CD‐DNN‐HMM 性 能 提 升 約20%。之后涌現(xiàn)了各種神經(jīng)網(wǎng)絡(luò)模型:循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[10]可以更好地利用音頻信息中的上下文;長短時(shí)記憶網(wǎng)絡(luò)(long short term memory,LSTM)[11]通過遺忘門和輸出門忘記部分信息來解決梯度消失的問題;時(shí)延神經(jīng)網(wǎng)絡(luò)(time delay neural network,TDNN)可適應(yīng)語音的動(dòng)態(tài)時(shí)域變化,學(xué)習(xí)到音頻特征之間的時(shí)間依賴關(guān)系,取得了很好的識別效果[12]。
伴隨深度學(xué)習(xí)技術(shù)的飛速發(fā)展以及數(shù)據(jù)量和算力的不斷提升,端到端語音識別技術(shù)逐漸受到關(guān)注,經(jīng)典的CTC(connectionist temporal classification)算法實(shí)現(xiàn)了對語音的序列建模及輸入語音和輸出結(jié)果的直接映射[13]。各語音公司也開始了對該模型的研發(fā)和應(yīng)用。2015 年,注意力機(jī)制(Attention)擴(kuò)展到語音領(lǐng)域,基于Attention 的Seq2Seq 模型取得了優(yōu)異的結(jié)果;2017 年,新的架構(gòu)Transformer 被提出,其中編碼和解碼均采用Attention,該架構(gòu)在端到端語音識別中有明顯的效果改進(jìn)[14‐17]。研究人員通過不斷地嘗試新的建模方式,從HMM 和GMM 的出現(xiàn),到DNN,再到CTC 和Attention,逐步提高語音識別技術(shù)的性能,為其更加廣泛的應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。
語音識別系統(tǒng)的輸入是一段音頻信號序列。原始信號經(jīng)過信息處理和特征提取后進(jìn)行聲學(xué)模型的訓(xùn)練,同時(shí)采用文本數(shù)據(jù)進(jìn)行語言模型的訓(xùn)練;之后,利用聲學(xué)模型和語言模型發(fā)音詞典共同進(jìn)行解碼搜索,輸出的識別結(jié)果即文本序列[4]。
軌道交通車輛顯示交互語音識別系統(tǒng)特點(diǎn)如下:
(1)識別內(nèi)容通常為2~5個(gè)字的關(guān)鍵詞;
(2)關(guān)鍵詞數(shù)量有限;
(3)關(guān)鍵詞隨不同車輛顯示界面的變化而變化,需針對不同場景定制開發(fā)。
針對以上特點(diǎn),本文開發(fā)了一套軌道交通車輛顯示交互語音識別系統(tǒng)(圖4)。開發(fā)時(shí)需重點(diǎn)考慮針對軌道交通場景需求進(jìn)行聲學(xué)模型數(shù)據(jù)增廣訓(xùn)練及語言模型的自適應(yīng)性。
圖4 軌道交通車輛顯示交互語音識別系統(tǒng)Fig.4 Train display speech recognition system in rail transit
用O表示語音波形,用W表示文字序列。找到對應(yīng)觀察值序列O最可能的詞序列W?,一般用概率表示,并按貝葉斯準(zhǔn)則轉(zhuǎn)化為
式中,P(O)與P(W)沒有關(guān)系,可以認(rèn)為是常量,因此P(W|O)的最大值可轉(zhuǎn)換為P(O|W)和P(W)兩項(xiàng)乘積的最大值。P(O|W)由聲學(xué)模型決定,P(W)由語言模型決定[4]。
數(shù)據(jù)增廣訓(xùn)練目的是針對特定需求,在通用模型的基礎(chǔ)上對關(guān)鍵詞進(jìn)行優(yōu)化,進(jìn)而提升交互效果。
3.2.1 特征參數(shù)提取及歸一化
特征參數(shù)提取的輸出就是聲學(xué)特征參數(shù)表單和用于保存聲學(xué)特征參數(shù)的二進(jìn)制文檔。提取聲學(xué)特征參數(shù)的基本流程如下:
(1)預(yù)加重。采用高通濾波器突出高頻信號。
(2)滑動(dòng)加窗,進(jìn)行語音分幀。通常幀長25 ms,幀移10 ms,重疊15 ms保證幀內(nèi)信號平穩(wěn)性。
(3)對每一幀做快速傅里葉變換,計(jì)算功率譜。
(4)應(yīng)用梅爾濾波器組獲取每個(gè)濾波器內(nèi)的對數(shù)能量。
(5)對數(shù)能量向量做離散余弦變換。
特征參數(shù)提取后,完成了聲學(xué)特征的空間轉(zhuǎn)換。為了便于在新空間中分析參數(shù)的概率分布,縮小特征參數(shù)值域動(dòng)態(tài)范圍,并盡可能避免訓(xùn)練和測試環(huán)境的不匹配。
3.2.2 音素模型訓(xùn)練
首先使用高斯混合模型(GMM)描述單音子(monophone)發(fā)音狀態(tài)的概率分布函數(shù)的HMM模型;然后多輪迭代訓(xùn)練GMM‐HMM 模型做幀級別的標(biāo)注,為后面訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型做準(zhǔn)備。在此過程中,需要解決如何獲取每一幀對應(yīng)的狀態(tài)號問題,以此作為訓(xùn)練的標(biāo)簽。獲取每一幀對應(yīng)狀態(tài)號的過程即對齊。在每一輪聲學(xué)模型迭代訓(xùn)練完成后,都會有一次強(qiáng)制對齊;將文字對應(yīng)到具體的音頻發(fā)音時(shí)間片段上,或者將文字對應(yīng)的音素對應(yīng)到具體的音頻發(fā)音時(shí)間片段上。在聲學(xué)模型訓(xùn)練的過程中,我們會先得到一個(gè)基礎(chǔ)的聲學(xué)模型;然后加入訓(xùn)練數(shù)據(jù),不斷地迭代更新模型參數(shù),優(yōu)化模型。
單音素模型進(jìn)行強(qiáng)制對齊后,開始迭代訓(xùn)練三音素模型。此處的三音素模型還加入了差分特征變換(Delta)、線性判別分析(LDA)和最大似然線性變換(MLLT)。三音素模型屬于上下文相關(guān)的聲學(xué)模型,其訓(xùn)練過程與單音素模型的建模訓(xùn)練過程非常類似。三音素模型的訓(xùn)練需要進(jìn)行多輪反復(fù)的迭代,而每一輪迭代后都要進(jìn)行強(qiáng)制對齊。
3.2.3 TDNN數(shù)據(jù)增廣訓(xùn)練
在工程應(yīng)用中,顯示器界面的關(guān)鍵詞會根據(jù)車型的不同而變化,因此,在訓(xùn)練時(shí)需適應(yīng)性地進(jìn)行優(yōu)化。當(dāng)有新的關(guān)鍵詞輸入時(shí),需錄制大量關(guān)鍵詞語音信息,將新的音頻數(shù)據(jù)進(jìn)行格式規(guī)范化;加入新的語音資源后,開始深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練。TDNN的優(yōu)點(diǎn)在于不僅能夠?qū)﹂L時(shí)間依賴的語音信號進(jìn)行建模,而且與DNN的訓(xùn)練速度和解碼效率幾乎相當(dāng)。TDNN 在網(wǎng)絡(luò)傳播過程中對各隱層的輸出進(jìn)行了擴(kuò)展。DNN每個(gè)隱層的輸入是前一層網(wǎng)絡(luò)的輸出,而TDNN 則會參考前一層網(wǎng)絡(luò)的歷史輸出。這樣TDNN 可對更長的歷史信息進(jìn)行建模,這樣可明顯降低語音誤識別率。從TDNN 的網(wǎng)絡(luò)結(jié)構(gòu)可以看出,相鄰節(jié)點(diǎn)之間的變化很小且包含了大量冗余信息。因此,可每隔幾幀計(jì)算一次,這樣可加快訓(xùn)練和解碼速度。圖5為標(biāo)準(zhǔn)的TDNN網(wǎng)絡(luò)。
圖5 TDNN 網(wǎng)絡(luò)Fig.5 TDNN network
基于DNN‐HMM 的語音識別系統(tǒng)采用TDNN 來構(gòu)建深度神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)融合了FNN、CNN 和RNN的優(yōu)點(diǎn),減少了重復(fù)計(jì)算次數(shù),擴(kuò)展了知識域。
語言模型用于刻畫語言的表達(dá)合理性,描述一句話中每個(gè)詞之間的關(guān)聯(lián)性。在語音識別解碼中,詞與詞之間如何轉(zhuǎn)移就是參考語言模型的結(jié)果,因此,語言模型是提高解碼效率及識別效果的重要途徑。面對新的交互內(nèi)容,語言模型要與聲學(xué)模型同步優(yōu)化,采用兩個(gè)文本進(jìn)行模型訓(xùn)練,即通用大文本和定制的關(guān)鍵詞文本,可訓(xùn)練出一個(gè)通用的語言大模型和一個(gè)定制化的小模型。將這兩個(gè)模型進(jìn)行合并調(diào)整各模型所占權(quán)重,通過輸出詞序列的可能性概率來描述語言內(nèi)在的統(tǒng)計(jì)規(guī)律。
假定一個(gè)詞序列S=(w1,...,wt),根據(jù)連式法則及馬爾可夫假設(shè)可得其可能性概率:
計(jì)算語言模型概率值復(fù)雜度較高,計(jì)算量大,因此一般采用n個(gè)詞組合的n‐gram 模型,即每個(gè)預(yù)測變量wt只與長度為(n-1)的上下文有關(guān)。在實(shí)踐中,通常采用2‐gram 和3‐gram 統(tǒng)計(jì)模型,n過大時(shí)精度提高得不多[4],但是時(shí)間長、復(fù)雜度高。
語音識別解碼的核心是解決兩個(gè)序列的對齊問題,一個(gè)是輸入的語音特征,一個(gè)是輸出的文本特征。由于輸入語音特征的幀數(shù)要遠(yuǎn)大于輸出的文本個(gè)數(shù),因此需要建立的映射模型需要解決多幀對一幀的問題。
主流的語音識別解碼器都是根據(jù)HMM、上下文、發(fā)音字典和語言模型構(gòu)建一個(gè)加權(quán)有限狀態(tài)轉(zhuǎn)換器(weighted finite‐state transducer,WFST),生成一個(gè)用于搜索的解碼網(wǎng)絡(luò),從中搜索到最大概率的路徑,即最佳匹配作為輸出。搜索解碼分2個(gè)階段:
(1)構(gòu)建解碼網(wǎng)絡(luò)。根據(jù)訓(xùn)練階段生成的聲學(xué)模型、語言模型、字典以及上下文音素生成解碼網(wǎng)絡(luò)(圖6)。
圖6 語音識別解碼網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Architecture of speech recognition decoded network
(2)解碼。識別階段先進(jìn)行一次解碼,得到詞圖網(wǎng)格;然后進(jìn)行圖剪枝;最后基于剪枝后的圖進(jìn)行多次解碼,搜索出一個(gè)最可能的路徑作為結(jié)果。
HCLG.fst由4部分組成:
(1)G,語言模型WFST,其輸入符號為詞,輸出符號為句子;
(2)L,發(fā)音詞典WFST,其輸入符號為音素,輸出符號為詞;
(3)C,上下文相關(guān)WFST,其輸入符號為三音素,輸出符號為音素;
(4)H,HMM 聲學(xué)模型WFST,其輸入符號為HMM狀態(tài),輸出符號為三音素。
聲學(xué)模型和語言模型的計(jì)算結(jié)果共同決定了輸入特征序列所對應(yīng)輸出識別序列,final.mdl 用來計(jì)算輸入特征可能對應(yīng)的識別狀態(tài),HCLG.fst為提前構(gòu)建好的靜態(tài)解碼器,使得輸入音頻能夠生成最優(yōu)的序列。在解碼過程中,信息存儲在狀態(tài)和狀態(tài)的轉(zhuǎn)移邊之間,輸入為狀態(tài)序列,輸出為詞序列;權(quán)值為語言模型的權(quán)值;聲學(xué)模型的后驗(yàn)概率需要實(shí)時(shí)計(jì)算得出[3‐4]。
為驗(yàn)證該基于TDNN的命令詞定制語音識別系統(tǒng)在不同場景下的語音識別效果,本文在智軌電車司機(jī)室顯示交互系統(tǒng)中進(jìn)行測試。測試設(shè)備包括拾音器和智能硬件計(jì)算平臺,設(shè)備關(guān)聯(lián)關(guān)系如圖7所示。通過車載拾音器采集音頻信息并通過模擬信號與智能計(jì)算平臺通信,語音識別系統(tǒng)將所接收的音頻信號在智能硬件計(jì)算平臺上進(jìn)行處理,轉(zhuǎn)為文本信息后再傳送給主控系統(tǒng)(顯示器)以實(shí)現(xiàn)相關(guān)邏輯控制。
圖7 車載顯示交互語音識別系統(tǒng)Fig 7 On‐board display speech recognition system
工程上廣泛使用的語音識別評價(jià)指標(biāo)包括字正確率及實(shí)時(shí)率。字正確率即測試集中被正確識別的字與測試集全部字?jǐn)?shù)量的比值,它能夠直觀給出測試集中正確識別的比例;實(shí)時(shí)率能夠評價(jià)模型在硬件設(shè)備上的運(yùn)行是否滿足實(shí)時(shí)交互需求。
(1)測試語料
測試命令詞包括啟動(dòng)運(yùn)營、結(jié)束運(yùn)營、安全門、上行開、上行關(guān)、下行開、下行關(guān)、菜單、查詢和設(shè)置等60余個(gè)。全局命令詞包括檢修界面、音量增大及亮度增大等7個(gè)。
(2)車載噪聲
車輛運(yùn)行過程中噪聲環(huán)境較為復(fù)雜。本實(shí)驗(yàn)涉及車輛靜止、車輛啟動(dòng)、車輛加速、車輛穩(wěn)定行駛和車輛減速等場景,包含車載噪聲以及車輛鳴笛、車內(nèi)播報(bào)語音提示和空調(diào)噪聲等聲音。
(3)功能測試
功能測試是指語音識別準(zhǔn)確率測試,其采用命令詞測試音頻200條、通用測試音頻200條。
(4)性能測試
性能測試為語音識別實(shí)時(shí)率測試,其采用400 條測試音頻,統(tǒng)計(jì)識別每條音頻耗費(fèi)的時(shí)間并取平均值。
場景一:車輛處于靜止?fàn)顟B(tài)。
場景二:車輛運(yùn)行過程,包括平穩(wěn)運(yùn)行、加速、減速、鳴笛和剎車等工況,運(yùn)行速度為10~35 km/h。
表1和表2示出實(shí)驗(yàn)結(jié)果。可以看出,基于TDNN訓(xùn)練的模型能夠滿足車輛不同場景的識別需求,識別率較理想,但是由于場景二中車輛運(yùn)行時(shí)存在多種噪聲干擾,使得識別率出現(xiàn)一定程度的降低?,F(xiàn)階段,既往降噪系統(tǒng)可以基本消除平穩(wěn)噪聲,但對于非平穩(wěn)噪聲,還需改進(jìn)。后續(xù)將在已有工程經(jīng)驗(yàn)的基礎(chǔ)上,一方面通過擴(kuò)展麥克風(fēng)陣列數(shù)量及采用深度學(xué)習(xí)方法提高降噪效果,另一方面嘗試改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),滿足不同車載設(shè)備及不同環(huán)境下的語音識別需求,從而提升整體識別率。
表1 場景一的測試結(jié)果Tab.1 Test results of scene 1
表2 場景二的測試結(jié)果Tab.2 Test results of scene 2
本文介紹了語音識別技術(shù)在語音交互中的重要作用,梳理了語音識別技術(shù)的發(fā)展歷程,在此基礎(chǔ)上進(jìn)行了基于時(shí)延神經(jīng)網(wǎng)絡(luò)語音識別技術(shù)的研究,開發(fā)了面向軌道交通車輛顯示交互的語音識別系統(tǒng),重點(diǎn)介紹了針對顯示交互內(nèi)容的需求變化如何自適應(yīng)訓(xùn)練及部署的各個(gè)環(huán)節(jié),并在智軌電車上進(jìn)行了實(shí)車測試。伴隨數(shù)據(jù)及算力的不斷增長,后續(xù)將持續(xù)迭代優(yōu)化語音識別模型,并且重點(diǎn)關(guān)注端到端語音識別技術(shù)的進(jìn)展,以滿足軌道交通不同車載環(huán)境下對語音識別技術(shù)的需求,推進(jìn)語音技術(shù)在軌道交通領(lǐng)域的工程化應(yīng)用。