國(guó)網(wǎng)江蘇省電力有限公司鎮(zhèn)江供電分公司 張大林 任萱 徐藝敏 笪濤 于曉蒙
為滿足企業(yè)內(nèi)網(wǎng)Web智能問答系統(tǒng)中語音識(shí)別需求,充分利用網(wǎng)絡(luò)資源和客戶端資源,提高用戶體驗(yàn),論文設(shè)計(jì)并實(shí)現(xiàn)了一種適應(yīng)于企業(yè)內(nèi)網(wǎng)的語音識(shí)別方案,解決了多款瀏覽器的語音識(shí)別兼容問題,并提供了針對(duì)不同行業(yè)術(shù)語的優(yōu)化方法。該方案已成功應(yīng)用到電力行業(yè)智能問答系統(tǒng)中,語音識(shí)別準(zhǔn)確率明顯高于其他同類系統(tǒng)。
與機(jī)器進(jìn)行語音交流,讓機(jī)器明白人們說什么,這是人們長(zhǎng)期以來夢(mèng)寐以求的事情[1]。隨著科學(xué)技術(shù)的不斷發(fā)展,語音識(shí)別技術(shù)的出現(xiàn),使人類的這一理想得以實(shí)現(xiàn)。語音識(shí)別技術(shù)是讓機(jī)器通過識(shí)別和理解將語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的智能技術(shù)[2]。語音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面[3]。語音識(shí)別正逐步成為信息系統(tǒng)中人機(jī)交互的關(guān)鍵技術(shù)。語音識(shí)別技術(shù)與語音合成技術(shù)的結(jié)合,使人們能夠甩掉鍵盤,通過語音進(jìn)行人機(jī)互動(dòng)[4]。語音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè)。
語音識(shí)別技術(shù)也被稱為自動(dòng)語音識(shí)別(Automatic Speech Recognition,ASR)、電腦語音識(shí)別(Computer Speech Recognition)或語音轉(zhuǎn)文本識(shí)別(Speech To Text,STT),其目標(biāo)是利用計(jì)算機(jī)自動(dòng)將人類的語音內(nèi)容轉(zhuǎn)換為相應(yīng)的文字。語音識(shí)別通常分為兩個(gè)技術(shù)過程,即語音錄入和通過識(shí)別模型識(shí)別語音。企業(yè)內(nèi)網(wǎng)系統(tǒng)語音識(shí)別技術(shù)基于js-audio-recorder,實(shí)現(xiàn)錄音和音頻格式轉(zhuǎn)換,使用VOSK來實(shí)現(xiàn)語音識(shí)別。
利用js-audio-recorder插件實(shí)現(xiàn)語音的錄入,還支持錄音、暫停、恢復(fù)播報(bào)等功能。目前系統(tǒng)考慮常用音頻內(nèi)容的大小,將音頻參數(shù)設(shè)置為8kHz(采樣率)、單聲道,16 Bit(采樣位數(shù))。
常規(guī)的音頻錄入會(huì)伴隨一些環(huán)境雜音,以及音頻前后部分都會(huì)有“空白”出現(xiàn),所以系統(tǒng)的音頻錄入保留了裁剪操作,即截取音頻的中間部分作為最終識(shí)別的對(duì)象。語音錄入過程如下:
先獲取錄音權(quán)限然后自動(dòng)開啟錄音(如圖1所示),監(jiān)聽到語音錄入結(jié)束3s后自動(dòng)結(jié)束并轉(zhuǎn)為WAV格式音頻,并且自動(dòng)過濾無效識(shí)別內(nèi)容,環(huán)境噪聲也會(huì)被過濾。自動(dòng)結(jié)束通過判斷音量比實(shí)現(xiàn),音量比低于10%則默認(rèn)當(dāng)前無語音錄入。
圖1 語音錄入Fig.1 Speech record
利用FileReader以安全方式從遠(yuǎn)程系統(tǒng)中讀取文件內(nèi)容,它允許Web應(yīng)用程序異步讀取存儲(chǔ)文件或原始數(shù)據(jù)緩沖區(qū),指定要讀取的文件或數(shù)據(jù)。
使用的SDK是半成品化的VOSK語音識(shí)別模型,主要用于識(shí)別中文對(duì)象,其能夠基本滿足日?;恼Z音識(shí)別使用需求。
由于應(yīng)用場(chǎng)景的不同,更多情況下會(huì)使用固定的特殊詞,比如在電力公司[5],更多的是調(diào)度命令詞、動(dòng)作命令詞等[6]。在滿足基本使用的前提下,還需要對(duì)詞典進(jìn)行優(yōu)化,根據(jù)同音詞、同音字、近音詞或近音字等來對(duì)詞典進(jìn)行修改,將低識(shí)別率的詞語或字替換成行業(yè)專用的詞或字(比如同音、諧音詞的替換),優(yōu)化VOSK語音識(shí)別模塊,語音識(shí)別率能得到有效的提高[7]。
VOSK Model分為三部分:Dictionary、Coustic Model和Language Mode。通過Kaldi的語言識(shí)別技術(shù)及其工具,我們可以再次編譯VOSK Model。首先準(zhǔn)備類似于Kaldi風(fēng)格的“新詞”詞典,以TXT文本格式保存,通過G2P工具進(jìn)行音素預(yù)測(cè),排除無誤后用SRILM進(jìn)行Perplexity測(cè)試,滿足需求后與現(xiàn)有的Language Model融合并編譯成HCLG.fst文件,最后與現(xiàn)有的模型進(jìn)行替換即可[8]。
這樣就相當(dāng)于增加了新詞的解碼,大大提高了語言識(shí)別的準(zhǔn)確率。例如將原始語音識(shí)別詞典中的“鍘刀”修改成“閘刀”,通過“zhadao”可語音輕松識(shí)別出“閘刀”(如圖2、圖3所示)。
圖2 優(yōu)化語音識(shí)別詞典Fig.2 Optimize speech recognition dictionary
在下一步的開發(fā)中,將會(huì)繼續(xù)優(yōu)化VOSK Model,包括在消除方言、口音、降噪等方面優(yōu)化Acoustic Model,以及為智能問答系統(tǒng)開發(fā)喚醒詞功能、將HanLP分詞接入語音識(shí)別中,實(shí)現(xiàn)實(shí)時(shí)錄入新詞等。
引用
[1] 何金燦.基于語音識(shí)別技術(shù)的智能家居現(xiàn)地控制節(jié)點(diǎn)設(shè)計(jì)[J].工業(yè)控制計(jì)算機(jī),2014,27(3):142-143.
[2] 朱亞迪,吳毅堅(jiān),趙文耘.基于代碼片段復(fù)用的安卓應(yīng)用組裝技術(shù)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2016,33(11):164-168.
[3] 朱余啟,朱潤(rùn)杭,傘晨峻,等.語音檢索在電力調(diào)度領(lǐng)域的發(fā)展[J].電子技術(shù)與軟件工程,2021(15):214-216.
[4] 陳芳芳,吳艷,王丹萍.論人工智能技術(shù)發(fā)展及在電力客服系統(tǒng)的應(yīng)用[J].電子世界,2021(7):176-177.
[5] 劉宏,郝乾嘯,蕭嘉榮.人工智能語音交互技術(shù)在電力調(diào)控領(lǐng)域的應(yīng)用[J].電子技術(shù)與軟件工程,2021(4):217-219.
[6] 張?jiān)葡?李智誠(chéng).面向電力行業(yè)的熱詞語音識(shí)別技術(shù)[J].現(xiàn)代計(jì)算機(jī),2020(22):14-17.
[7] 蔣久松,熊富強(qiáng),毛文奇,等.智能語音識(shí)別方法在電力移動(dòng)作業(yè)平臺(tái)中的應(yīng)用[J].自動(dòng)化應(yīng)用,2017(11):124-127.
[8] 李清,許冠中.淺析語音識(shí)別技術(shù)在電網(wǎng)中的應(yīng)用[J].計(jì)算機(jī)產(chǎn)品與流通,2019(11):148.