劉立輝,楊 毅,王旭陽,徐 磊
(中國電子科學研究院,北京 100041)
機載任務(wù)系統(tǒng)語音交互技術(shù)應(yīng)用研究
劉立輝,楊 毅,王旭陽,徐 磊
(中國電子科學研究院,北京 100041)
針對大型機載任務(wù)系統(tǒng)人機工效提升問題,文中采用一種適用于新系統(tǒng)研制和現(xiàn)有系統(tǒng)改造的語音交互技術(shù)應(yīng)用方法,以實現(xiàn)通過語音技術(shù)提升系統(tǒng)人機工效的目的。該方法基于MVC分層架構(gòu),在各個層次上構(gòu)建語音功能模塊,包括針對機載任務(wù)系統(tǒng)的語音詞庫、應(yīng)用開發(fā)庫和語音交互插件,并定義3個層次模塊之間的交互接口。該方法最大限度實現(xiàn)了語音功能的獨立性。在部分典型機載任務(wù)對比試驗中,采用該方法構(gòu)建的語音交互系統(tǒng)提升人機工效15%以上。
機載任務(wù)系統(tǒng);語音交互;人機交互;人機工效
隨著人工智能技術(shù)的迅猛發(fā)展,國內(nèi)外針對智能交互技術(shù)的研究日益廣泛。從人機交互角度來看,改善信息輸入手段、減少人工操作時間,是提高信息系統(tǒng)效率的重要手段[1]。在裝備領(lǐng)域,“以人為本”、致力于操作員舒適性的新型人機交互技術(shù)應(yīng)用是裝備發(fā)展的必然趨勢。
視覺和聽覺是人類獲取外界信息的最主要來源,語言是人類最重要、最有效、最常用和最方便的溝通方式[2]。自動語音識別(Automatic Speech Recognition,ASR)技術(shù)是目前最為成熟的人工智能技術(shù),已被廣泛應(yīng)用于車輛、船舶等系統(tǒng)中。開展機載環(huán)境下的任務(wù)系統(tǒng)語音交互技術(shù)研究,對于優(yōu)化系統(tǒng)人機工效,進而提升整個系統(tǒng)的運行效率,有著重要意義[3]。
本文提出一種適用于機載任務(wù)系統(tǒng)的語音交互技術(shù)應(yīng)用方法,并結(jié)合典型機載任務(wù)對比試驗,驗證了語音交互技術(shù)對機載任務(wù)系統(tǒng)人機工效的改善效果。
人類對語音技術(shù)的研究始于上世紀五十年代,AT&T Bell 實驗室實現(xiàn)了首個突破性成果——Audry系統(tǒng)。該系統(tǒng)是全球首個可識別10個英文數(shù)字的語音識別系統(tǒng)。上世紀八十年代,隨著人工神經(jīng)元網(wǎng)絡(luò)(Artificial Neural Network,ANN)的成功應(yīng)用,語音技術(shù)得到了更進一步的發(fā)展。上世紀九十年代,語音識別系統(tǒng)走出實驗室,發(fā)展成為了實用產(chǎn)品。國外企業(yè)包括IBM、Apple、AT&T、Google等公司均致力于語音產(chǎn)品的研發(fā)[4]。IBM公司于1997 年開發(fā)出的ViaVoice語音識別系統(tǒng)帶有一個由32 000個單詞組成的基本詞匯表(可擴展至65 000個單詞),平均識別率可以達到95%[2]。2006年,Hinton提出了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNNs)技術(shù)[5],伴隨硬件性能的顯著提升和數(shù)據(jù)規(guī)模的爆發(fā),深度神經(jīng)網(wǎng)絡(luò)技術(shù)得到了長足發(fā)展。語音識別技術(shù)在特定環(huán)境下的識別率已經(jīng)超越了人類[6]。
我國語音技術(shù)研究工作一直緊跟美國,處于世界領(lǐng)先地位。中科院聲學所、自動化所、清華大學、科大訊飛、百度、騰訊等科研機構(gòu)均參與了研究,并取得了高水平的科研成果,其中科大訊飛語音識別系統(tǒng)的中文識別率首次突破了97%。除此之外,語音技術(shù)不僅覆蓋了交通、教育、娛樂、金融等與人類生活息息相關(guān)的領(lǐng)域,還被應(yīng)用于國家戰(zhàn)略安全的相關(guān)領(lǐng)域。
近十余年,我國加快了大型機載任務(wù)系統(tǒng)的研制工作,已經(jīng)裝備了諸如新型戰(zhàn)斗機、預(yù)警機、偵察機、干擾機、反潛機等多門類的大型機載任務(wù)系統(tǒng),積累了大量運行數(shù)據(jù)。其中,話音數(shù)據(jù)和指令數(shù)據(jù)對于裝備改進研究具有重要意義。此類數(shù)據(jù)為機載語音識別、合成、翻譯等技術(shù)研究提供了數(shù)據(jù)基礎(chǔ)。
人機交互是機載任務(wù)系統(tǒng)運行過程中的重要組成部分,人機交互效率嚴重制約著整個系統(tǒng)的運行效率。目前,提升機載任務(wù)系統(tǒng)人機工效的主要措施包括針對屏幕畫面、鍵盤/鼠標和座椅等設(shè)施的改進。通過加裝語音交互功能提升大型機載任務(wù)系統(tǒng)人機工效的相關(guān)研究,尚處于早期試驗階段。
與常規(guī)系統(tǒng)相比,機載任務(wù)系統(tǒng)通常應(yīng)用于救援系統(tǒng)或作戰(zhàn)裝備,具有更高的準確性和穩(wěn)定性要求,其使用流程和應(yīng)用環(huán)境更為復(fù)雜。實驗表明,直接將民用語音交互系統(tǒng)置于機載噪音環(huán)境下,其語音識別率不到65%,遠遠滿足不了此類系統(tǒng)的準確性要求。
語音技術(shù)應(yīng)用于機載任務(wù)系統(tǒng)面臨諸多困難:
(1)魯棒性:語音系統(tǒng)對環(huán)境依賴性強,要求測試條件和訓練條件保持一致,否則系統(tǒng)性能會下降,尤其對于機載噪聲環(huán)境,會因人的情緒或心理變化導(dǎo)致語音發(fā)生改變,對于多操作員的機載任務(wù)系統(tǒng)是個難題[2];
(2)語音采集:即使在安靜環(huán)境下,語音系統(tǒng)一半以上的識別錯誤來自于語音采集。在機載任務(wù)系統(tǒng)中適配安裝符合操作要求的采集設(shè)備是個難點[2];
(3)系統(tǒng)兼容:如何根據(jù)系統(tǒng)要求,選擇合適的計算單元和處理策略是語音處理的重中之重,影響著系統(tǒng)計算資源分配策略,在一定程度上,對系統(tǒng)主業(yè)務(wù)功能存在影響;
(4)操作兼容:在機載任務(wù)系統(tǒng)中集入語音交互功能,將在一定程度上改變操作員的現(xiàn)有操作習慣。要使操作員更加自然地接受新功能需要做大量的前期工作。
綜上所述,降噪技術(shù)和魯棒性技術(shù)是語音交互應(yīng)用的核心技術(shù)要求,對于提升復(fù)雜環(huán)境下的語音識別效果至關(guān)重要。語音引擎移植技術(shù)是機載任務(wù)系統(tǒng)語音交互功能集成的關(guān)鍵。
語音交互是眾多人機交互手段之一,是對傳統(tǒng)的基于GUI(Graphic User Interface)交互范式的指向型(Pointing)交互手段的一種補充,而非替代。語音交互的最大特點是可實現(xiàn)一語直達的“穿透式”命令控制,可顯著壓縮交互過程中的中間環(huán)節(jié)(如菜單瀏覽、選取等)。在設(shè)計語音交互系統(tǒng)時,應(yīng)盡可能發(fā)揮其“穿透式”的交互效果,避免增加中間操作過程,使其在如下情況中突顯出快捷性。
(1)看不見:當被操控對象處于操作員有效視野(Useful Field of View, UFOV)之外(或處于隱藏狀態(tài))時,適用“穿透式”的語音控制命令。例如,當通信控制界面未被打開時,操作員可直接發(fā)布“電臺開機”語音控制命令,完成對通信電臺工作狀態(tài)的更改設(shè)置;
(2)顧不上:當操作員雙手忙于操縱其他設(shè)備的同時,面臨突發(fā)緊急情況,可通過發(fā)布語音命令,實現(xiàn)對系統(tǒng)的多功能并行控制。在機載任務(wù)系統(tǒng)中加裝語音交互模塊,建議遵循如下原則:
(1)加裝語音功能,不應(yīng)破壞現(xiàn)有操作習慣,以疊加補充為主;
(2)語音控制命令應(yīng)便于記憶,且音調(diào)清晰,使操作員可以很方便地記憶并可準確地口頭表述;
(3)語音功能模塊應(yīng)相對獨立,將對系統(tǒng)主業(yè)務(wù)功能的影響降到最低。
在機載任務(wù)系統(tǒng)中,常見的操作包括對話框操作、命令窗口操作、地圖操作、表格操作和文本對話操作等。然而,并非所有機載操作都適合應(yīng)用語音交互方式。經(jīng)過分析,適用于語音交互的應(yīng)用場景歸納總結(jié)如下:
(1)常用控制命令。語音交互的基礎(chǔ)是操作員和計算機通過一致對應(yīng)的命令詞表相互理解。操作員記憶力有限,過多的命令詞會增加操作員的記憶負荷,而計算機只能理解已注冊過的命令詞表。采用語音輸入時,應(yīng)盡可能限定在常用命令范圍內(nèi),并且將語音命令詞表固化,避免頻繁改動;
(2)枚舉值輸入。語音輸入變量應(yīng)為可枚舉的有限離散變量。語音交互周期為從語音發(fā)出開始到計算機識別響應(yīng)為止。這個周期限制了語音交互的時效性,例如“地圖放大”操作更適合滑塊控制方式,而非操作員連續(xù)的語音輸入“放大!放大!…”。但是,對于地圖一次性放大N倍,采用語音控制就相對高效;
(3)精確表述短語??删_表述的命令短語便于被計算機所理解,例如 “紅外設(shè)備開機”,簡單明了且無二義性,適合采用語音控制方式。而難以精確表述的命令就不宜采用語音控制,例如 “圖片縮小”操作,需要操作員反復(fù)觀察判斷并持續(xù)反饋,不適合語音控制。在機載任務(wù)系統(tǒng)中,可精確表述的語音命令包括對象召喚(如對菜單、對話框等的調(diào)取)、檔位/開關(guān)設(shè)置(如工作狀態(tài)設(shè)置、圖層顯隱控制)等。當計算機收到語音命令時,經(jīng)過匹配解析,可映射為對某個對象的控制操作,例如計算機收到“打開通信參數(shù)”語音命令時,彈出名稱為“通信參數(shù)”的對話框。又如語音命令“雷達低空開機”,可使“雷達參數(shù)”對話框中的“雷達低空開機”選項處于被選中狀態(tài),體現(xiàn)了語音控制的“穿透式”快捷性特點;
(4)多槽命令輸入。語音命令還可支持同時對多個參數(shù)的設(shè)置(多槽命令詞),操作員可以一次性對多個參數(shù)進行設(shè)置,例如語音命令“26001 26002合批”即可完成兩個批號目標的“合批”操作。而采用鍵盤鼠標操作,需要在對話框中分別輸入批號1“26001”和批號2“26002”后,再點擊“合批”按鈕,相對耗時更多,如圖1所示。
圖1 多槽命令詞輸入示意圖
在機載任務(wù)系統(tǒng)中集成語音模塊,需要兼顧考慮現(xiàn)有系統(tǒng)的人機交互架構(gòu),最大限度避免影響現(xiàn)有業(yè)務(wù)功能。實現(xiàn)時應(yīng)遵從MVC架構(gòu)設(shè)計,將語音模塊進行分層設(shè)計,自下而上分為語音引擎、語音組件、語音插件3個部分。
語音引擎是實現(xiàn)語音識別和語音合成的核心模塊。語音組件實現(xiàn)語音交互控制的邏輯功能,將語音引擎接口封裝,向應(yīng)用層提供二次開發(fā)接口。語音插件實現(xiàn)機載任務(wù)系統(tǒng)的業(yè)務(wù)功能,通過語音接口調(diào)用語音基礎(chǔ)功能。語音模塊組成如圖2所示。
圖2 語音模塊組成圖
語音引擎可以運行于可編程硬件板卡、也可以軟件形態(tài)運行于常規(guī)操作系統(tǒng)。相對應(yīng)的,語音組件可實現(xiàn)兩個版本:軟件引擎版和板卡引擎版。在系統(tǒng)集成時,可根據(jù)客戶端數(shù)量需求,采用單機版語音交互系統(tǒng)或C/S架構(gòu)的語音交互系統(tǒng)。
單機版語音交互系統(tǒng)中,語音組件和語音引擎均運行于本地計算機。該系統(tǒng)的優(yōu)點是部署簡單,不受網(wǎng)絡(luò)帶寬限制;缺點是整個系統(tǒng)硬件資源利用率低。其中,軟件引擎版不需增加額外硬件,但需搶占本地計算機的計算資源;板卡引擎版需要在本地計算機上接入語音引擎板卡,但基本不占用本地計算資源。
C/S版語音交互系統(tǒng)是將語音組件的語音輸入、輸出模塊運行于本地計算機,將語音引擎及其外圍服務(wù)軟件配置于服務(wù)器端。該系統(tǒng)優(yōu)點是可實現(xiàn)一臺服務(wù)器同時服務(wù)于多個客戶端,系統(tǒng)整體資源利用率高;缺點是受網(wǎng)絡(luò)帶寬限制,當網(wǎng)絡(luò)傳輸壓力增大時,會對語音交互品質(zhì)造成影響。
機載語音模塊設(shè)計及集成需要符合現(xiàn)有系統(tǒng)的組件規(guī)范和插件規(guī)范,詳見圖3。
圖3 語音模塊集成示意圖
機載任務(wù)系統(tǒng)人機交互子系統(tǒng)用于實現(xiàn)整個系統(tǒng)的信息綜合顯示和人機交互功能,包含圖形、文字、圖表顯示,命令輸入和應(yīng)答輸出等。
按照圖形、文件等基礎(chǔ)服務(wù)功能的集成方式,將語音功能作為獨立功能,封裝為框架中各個層次上的功能模塊。語音引擎模塊實現(xiàn)對操作系統(tǒng)、基礎(chǔ)硬件的調(diào)用,對上封裝為底層調(diào)動接口,供上層服務(wù)組件調(diào)用。語音組件,與圖形組件、文件組件等其他組件一樣,根據(jù)具體系統(tǒng)需求,實現(xiàn)對底層引擎的適應(yīng)性封裝,供上層業(yè)務(wù)模塊(業(yè)務(wù)插件)調(diào)用。這些組件在對底層引擎調(diào)用的同時,實現(xiàn)對基礎(chǔ)數(shù)據(jù)的管理調(diào)度,例如語音組件通過綜合調(diào)用語音引擎和語音詞庫實現(xiàn)語音命令識別。
語音交互引擎包括語音識別引擎和語音合成引擎。語音合成引擎主要用于計算機語音播報等應(yīng)用。語音交互的重點在于計算機對人類語言的識別過程,其原理[7]如圖4。
圖4 語音識別引擎原理圖
語音識別工作包含兩個大的步驟:模型訓練和識別。模型訓練是利用訓練數(shù)據(jù)訓練聲學模型和語言模型。目前比較流行的聲學模型構(gòu)建是用隱馬爾科夫模型(Hidden Markov Model, HMM)[8]來對時間序列建模,在隱馬爾科夫模型的各個狀態(tài)上,使用深度神經(jīng)網(wǎng)絡(luò)進行分類。神經(jīng)網(wǎng)絡(luò)有多隱層的全連接網(wǎng)絡(luò),包括卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNNs)[9-11]、遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks, RNNs)[12-13]和時延神經(jīng)網(wǎng)絡(luò)(Time-delay Neural Networks, TDNNs)[14]等。語言模型雖然也可以采用復(fù)雜的統(tǒng)計模型,但由于其在解碼過程中需要被頻繁調(diào)用,因此一般多使用N元文法[15]。除了訓練兩個模型外,系統(tǒng)還需要根據(jù)識別詞典或文法來構(gòu)建解碼網(wǎng)絡(luò)。識別則是根據(jù)上一步提供的各種資源對輸入的語音信號進行解碼,將其轉(zhuǎn)為文本。
對于語音識別系統(tǒng),除算法外,居于核心地位的是語音數(shù)據(jù)。真實準確的語音數(shù)據(jù)的獲取和處理,是機載語音交互系統(tǒng)構(gòu)建的關(guān)鍵問題。一般情況下,一套成熟的語音識別系統(tǒng)至少需要300~500 h的訓練數(shù)據(jù)。盡管在機載任務(wù)系統(tǒng)中,命令詞相對明確,但考慮到噪聲等因素,訓練數(shù)據(jù)至少也得超過幾十小時。
在識別方面看,機載語音環(huán)境噪音較大,降噪處理將作為機載語音系統(tǒng)長期持續(xù)研究的內(nèi)容。降噪算法可以分為單通道降噪算法和多通道降噪算法。單通道降噪算法主要通過語音和噪聲在時域和頻域上分布的不同特點,以區(qū)分二者的信號,包括譜減法[16]、維納濾波法[17]、基于統(tǒng)計模型的算法[18-19]和基于子空間的算法[20-22]等,近些年隨著深度學習技術(shù)在信號處理領(lǐng)域的引入,也有研究通過使用DNN模型來對語音和噪音進行分類,取得了理想的效果[23]。多通道降噪算法除了能夠利用時、頻域信息外,還可以利用空間上的區(qū)分度進行噪聲抑制,主要方法有波束形成[24]、維納濾波[25]和盲源分離[26-27]等算法。另外,針對機載艙室環(huán)境,遠場語音信號去噪[28]也將是未來研究的方向之一。
另外,基于機載任務(wù)系統(tǒng)對命令苛刻的實時性要求,與識別速度相關(guān)的解碼模塊是語音識別系統(tǒng)高效運行的關(guān)鍵,需要不斷進行優(yōu)化改進以適應(yīng)未來不斷變化的語音語義環(huán)境。解碼模塊主要包括解碼網(wǎng)絡(luò)的構(gòu)建和解碼算法兩部分內(nèi)容?,F(xiàn)代語音識別系統(tǒng)由于需要支持大規(guī)模語言模型和詞典,解碼網(wǎng)絡(luò)的構(gòu)建方法分為基于前綴樹(Prefix Tree)[29]和加權(quán)有限狀態(tài)轉(zhuǎn)換機(Weighted Finite State Transducer, WFST)[30-31]兩種方式?;谇熬Y樹的解碼網(wǎng)絡(luò),創(chuàng)建一個根節(jié)點, 各個詞的音素狀態(tài)序列與根節(jié)點連接,并將前綴相同的狀態(tài)串合并,由此構(gòu)成了音素狀態(tài)級的前綴樹解碼網(wǎng)絡(luò)?;赪FST的解碼網(wǎng)絡(luò)主要通過復(fù)合(Composition)、確定化(Determination)和最小化(Minimization)等一系列WFST的標準化操作將聲學模型、語言模型和識別詞典等所有的識別資源生成為一個網(wǎng)絡(luò),其網(wǎng)絡(luò)緊致程度比前綴樹形式更高,因此一般解碼速度也更快。
(1)交互任務(wù)成功率。對于機載任務(wù)系統(tǒng)來說,交互任務(wù)成功與否是操作員最為關(guān)注的問題。因此,將交互任務(wù)成功率[32]作為語音系統(tǒng)的主要評估指標,其本質(zhì)是語音識別率。在此,采用短語識別率作為機載語音系統(tǒng)評估指標,即識別正確的命令短語數(shù)目與測試集短語總數(shù)目的比值。搭建語音系統(tǒng)試驗評估平臺,在機載噪音回放環(huán)境下開展測試。在未采取硬件降噪措施時,語音識別率可以達到80%以上。為提高語音識別的準確性,采用麥克陣列技術(shù)進行降噪處理,通過信噪比的改善進一步提升語音數(shù)據(jù)質(zhì)量。從實驗結(jié)果看,經(jīng)過硬件降噪處理后的語音數(shù)據(jù)信噪比明顯提升,語音識別率超過90%。如果結(jié)合魯棒性糾錯技術(shù),可以進一步提高語音識別效果;
(2)交互效率。設(shè)計典型機載任務(wù)對比試驗,測試加裝語音交互模塊的系統(tǒng)操作時間,與未改造系統(tǒng)進行比較,判斷語音交互在機載人機工效提升上的效果。通過典型任務(wù)試驗,驗證各類語音交互模塊的工作效率以及人機工效提升作用。從試驗結(jié)果看,語音交互在常用控制命令、枚舉值輸入、精確表述短語等方面有突出優(yōu)勢,能夠大幅縮短操作時間,交互效率提升15%以上。但是,在多槽命令輸入方面有待進一步優(yōu)化設(shè)計,在其具體命令詞設(shè)計上需要做更加細致的工作。
語音是交互系統(tǒng)中最自然的交互媒介,語音交互技術(shù)作為新型交互手段應(yīng)用于機載任務(wù)系統(tǒng)具備較高可行性。隨著計算機和人工智能技術(shù)的發(fā)展,其實用性將進一步提高。語音交互與其他交互技術(shù)有機結(jié)合是機載任務(wù)系統(tǒng)人機交互技術(shù)發(fā)展的重要方向,其應(yīng)用前景非常廣泛。
[1] 楊加平.面向指控系統(tǒng)的嵌入式語音交互技術(shù)設(shè)計與實現(xiàn)[J].機械與電子,2015(4):72-74.
[2] 何湘智.語音識別的研究與發(fā)展[J].計算機與現(xiàn)代化, 2002(3):3-6.
[3] 夏樂樂.機載語音信號檢測與處理技術(shù)[D].南京:南京航空航天大學, 2014.
[4] 張飛宇.在線教學平臺中視頻語音識別系統(tǒng)設(shè)計[J].電子科技,2012,25(10):43-48.
[5] Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J]. Neural Computation,2006,18(7):1527-1535.
[6] Amodei D,Ananthanarayanan S,Anubhai R,et al.Deep speech 2: End-to-end speech recognition in English and Mandarin[C].New York: International Conference on Machine Learning,2016.
[7] 景春進,陳東東,周琳琦.基于中文語音識別技術(shù)的艦艇指揮訓練系統(tǒng)的研究[J].計算機測量與控制,2014,22(8):2571-2573.
[8] 蔡明琦,凌震華,戴禮榮.基于隱馬爾科夫模型的中文發(fā)音動作參數(shù)預(yù)測方法[J].數(shù)據(jù)采集與處理,2014,29(3):204-210.
[9] Abdel-Hamid O,Mohamed A R,Jiang H,et al.Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognition[C].Kyoto:IEEE International Conference on Acoustics, Speech and Signal Processing,IEEE,2012.
[10] Abdel-Hamid O,Mohamed A R,Jiang H,et al.Convolutional neural networks for speech recognition[J].IEEE/ACM Transactions on Audio Speech & Language Processing,2014,22(10):1533-1545.
[11] Palaz D,Magimai-Doss M,Collobert R. Convolutional Neural Networks-based continuous speech recognition using raw speech signal[C].Brisbane:IEEE International Conference on Acoustics,Speech and Signal Processing,IEEE,2015.
[12] Graves A,Mohamed A R,Hinton G.Speech recognition with deep recurrent neural networks[J].IEEE Transacitons on Imagenation,2013,38(3):6645-6649.
[13] Li X,Wu X.Constructing long short-term memory based deep recurrent neural networks for large vocabulary speech recognition[C]. Brisbane:IEEE International Conference on Acoustics,Speech and Signal Processing, IEEE,2015.
[14] Peddinti V,Povey D,Khudanpur S.A time delay neural network architecture for efficient modeling of long temporal contexts[C]. Dresden:Interspeech,2015.
[15] 單煜翔,陳諧,史永哲,等.基于擴展N元文法模型的快速語言模型預(yù)測算法[J].自動化學報,2012,38(10):1618-1626.
[16] 王水平,唐振民,陳北京,等.復(fù)雜環(huán)境下語音增強的復(fù)平面譜減法[J].南京理工大學學報,2013,37(6):857-862.
[17] 余世經(jīng),李冬梅,劉潤生.一種基于CASA的單通道語音增強方法[J].電聲技術(shù),2014,38(2):50-54.
[18] Kwon H,Son J,Bae K.Speech enhancement using modified minimum mean square error short-time spectral amplitude estimator[J].ITC-CSCC,2003,87(6):228-231.
[19] 張寧,顧明亮,朱俊梅,等.語音活動檢測對方言辨識系統(tǒng)的影響研究[J].計算機技術(shù)與發(fā)展,2012,22(11):73-76.
[20] Chang H Y,Rahardja S,Koh S N.Audible noise reduction in eigendomain for speech enhancement[J].IEEE Transactions on Audio Speech & Language Processing,2007,15(6):1753-1765.
[21] 王燁,屈丹,李弼程,等.基于子空間映射和得分規(guī)整的GSV-SVM方言識別[J].計算機工程與設(shè)計,2013,34(1):278-282.
[22] 王耀軍,林永剛.壓縮感知下的自適應(yīng)聲源定位估計[J].計算機工程與應(yīng)用,2016,52(14):62-66.
[23] Wang Y.Supervised speech separation using deep neural networks[M].Ohio:The Ohio State University,2015.
[24] 韓穎.復(fù)雜環(huán)境下陣列語音識別方法的研究[D].錦州:遼寧工業(yè)大學,2014.
[25] 王立東,肖熙.傳聲器陣列空間維納濾波語音增強方法的研究[J].電聲技術(shù),2013,37(8):53-56.
[26] Brandstein M S,Ward D B.Microphone arrays: signal processing techniques and applications[M].Berlin:Springer Science & Business Media,2013.
[27] 欒先冬,徐巖.基于螢火蟲算法的變步長語音信號盲源分離[J].電子科技,2016,29(7):4-7.
[28] 唐軍華,王永剛,劉世輝.一種遠場語音信號去噪算法研究與實現(xiàn)[J].電子科技,2014, 27(8):144-146.
[29] 邵俊堯.海量孤立詞識別算法研究[D]. 北京:北京郵電大學,2013.
[30] 陳智鵬,賀志陽,呂萍等.語音識別中WFST網(wǎng)絡(luò)構(gòu)建與解碼的效率優(yōu)化[C].天津:全國人機語音通訊學術(shù)會議,2013.
[31] 郭宇弘,黎塔,肖業(yè)鳴,等.基于加權(quán)有限狀態(tài)機的動態(tài)匹配詞圖生成算法[J].電子與信息學報,2014,36(1):140-146.
[32] 韓超,劉加.新型多模態(tài)人性化語音交互系統(tǒng)[J].電聲技術(shù),2009,33(8):78-80.
Applied Research on the Speech Interaction Technology in Airborne Mission System
LIU Lihui,YANG Yi,WANG Xuyang,XU Lei
(China Academy of Electronics and Information Technology,Beijing 100041,China)
A method of speech interaction technology application adapted to new system developing and existing system rebuilding was used to improve the ergonomics in large airborne mission system with speech technology. The method was based on MVC layered architecture, and was used to build speech function modules in every layer, including speech database, development library and speech interaction plugs related to airborne mission system, and to define the interactive interfaces between the modules in three layers. The method realized the maximum independent of speech function. In contrastive tests of partial typical airborne mission, the speech interaction system built by this method improved more than 15% in ergonomics.
airborne mission system;speech interaction;human computer interaction;ergonomics
2017- 09- 21
國家部委項目(14G00101)
劉立輝(1981-),男,碩士,高級工程師。研究方向:大型電子系統(tǒng)軟件設(shè)計與開發(fā)。楊毅(1985-),男,博士,工程師。研究方向:人機交互系統(tǒng)設(shè)計與開發(fā)。王旭陽(1988-),男,博士,工程師。研究方向:語音交互系統(tǒng)設(shè)計與開發(fā)。
10.16180/j.cnki.issn1007-7820.2017.12.033
TN912.3
A
1007-7820(2017)12-125-05