張 炎
湖南三一工業(yè)職業(yè)技術學院 湖南 長沙410129
結合實時語音識別與機器翻譯,將中文與目標翻譯結果實時顯示,就可以給學生類似觀看雙語字幕電影的新奇體驗。本文基于此構想,開發(fā)了一款集成安卓手機端語音識別軟件、電腦端機器翻譯軟件、以及藍牙串口模塊數(shù)據(jù)傳輸?shù)碾p語課堂的系統(tǒng)。
雙語課堂系統(tǒng)主要構成為:實時語音識別模塊、串口藍牙通訊模塊,以及電腦端機器翻譯軟件。實時語音識別標準版包含中文普通話輸入法、英語、粵語、四川話、遠場5個識別模型,依托百度AI開放平臺提供的實時語音識別技術,基于Deep Peak2的端到端建模,將音頻流實時識別為文字,并返回每句話的開始和結束時間,適用于長句語音輸入、音視頻字幕、會議等場景;串口藍牙通訊模塊選用廣州匯承信息科技有限公司出品的HC-06(藍牙2.0)穩(wěn)定、抗干擾性強、傳輸質量好等優(yōu)點,深受世界技術專家的認可和好評。機器翻譯模塊采用百度翻譯開放平臺提供的通用翻譯標準版,支持28種語言互譯。
1.5 軟件使用預覽 電腦軟件實現(xiàn)了透明窗體、鼠標穿透的效果,使用C#語言開發(fā),基于雙緩存GDI+技術在具有alpha通道的png格式的圖片上繪制文本。圖2介紹了軟件各個界面。
圖2 電腦端界面Fig.2 PCuser interface
將識別與翻譯分離,通過串口藍牙模塊(還需要配合USB轉TTL模塊)聯(lián)系手機端和電腦端,可以保證教師在課堂上的活動自由。所以,當前的雙語課堂系統(tǒng)的部署模式是比較合適的。
3.1 語音識別模型方面
1.在垂直業(yè)務領域下通用語音識別模型準確率不滿足需求,語音識別應用的場景專業(yè)詞匯較集中,如醫(yī)療詞匯、金融詞匯、教育用語、交通地名、人名等,識別結果存在“同音不同字”的情況。例如“虹橋機場”識別為“紅橋機場”;“債券”識別為“在勸”。
2.語音識別結果不準帶來更高的后處理成本,并且語音識別模型針對性優(yōu)化訓練存在技術門檻、成本高、訓練周期長。此時,可以通過語音自訓練平臺,使用業(yè)務場景語料,零代碼自助訓練語言模型,精準識別語音內容,有效提升業(yè)務領域識別準確率。
3.2 輔助硬件方面 在語音識別過程中,除了保證說話環(huán)境的安靜,還可以使用降噪麥克風來濾除雜音作為安卓手機端的音頻輸入源。
文章介紹了雙語課堂的解決方案,經過實際使用,語音識別在較理想的聲場環(huán)境里獲得比較高的識別率,但同時也存在識別不準的現(xiàn)象,但隨著語音識別技術的發(fā)展以及自助訓練的服務可以保證愈來愈好的識別效果。再者,目前實現(xiàn)的是軟硬件產品的原理模型,需要更進一步地做好硬件設計、產品外觀設技等產品化流程以及商業(yè)化推廣。系統(tǒng)的產品化設計以及商業(yè)化推廣是后續(xù)的研究方向。