金豪圣
(國網(wǎng)浙江省電力有限公司信息通信分公司,浙江杭州 310000)
近幾年,隨著智能機(jī)器人技術(shù)的不斷發(fā)展,人們將各種不同的信息輸入到智能機(jī)器人中。當(dāng)前,大部分的語音處理軟件都是在收到聲音之后,利用云計(jì)算服務(wù)或者語言分析引擎或者模型來尋找與聲音相符合的詞語。并且通過用戶接口查詢一個(gè)或者更多的詞匯,使用戶能夠確定智能機(jī)器人語音是否正確,如果用戶確定語音是對(duì)的,就直接輸出;如果用戶確定語音是錯(cuò)的,就把正確的語音輸入到語言分析引擎中,以便對(duì)話音分析機(jī)制進(jìn)行再訓(xùn)練。但是,該系統(tǒng)的不足之處在于,它必須時(shí)刻向使用者提問,從而對(duì)語言分析模式進(jìn)行修正,因此造成使用者的不便。目前提出的基于深度前編碼卷積網(wǎng)絡(luò)的校準(zhǔn)方法,首先構(gòu)建語音序列模型,通過該模型判斷語音序列長度敏感度。然后使用深度卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建語音校準(zhǔn)模型,并對(duì)音頻頻譜特征進(jìn)行分析和前編碼處理。最后通過提取深層特征緩解建模壓力,實(shí)現(xiàn)對(duì)語音的精準(zhǔn)校準(zhǔn)[1]。提出的一種多尺度前向注意力模型的校準(zhǔn)方法,首先建立正向注意力模型,通過計(jì)算不同時(shí)間點(diǎn)的注意力分?jǐn)?shù),使模型得到最優(yōu)解。然后根據(jù)該模型將多尺度正向注意力與多層次語音相結(jié)合,并將所得的多層次目標(biāo)矢量進(jìn)行融合,解決了注意力分?jǐn)?shù)異常情況,從而實(shí)現(xiàn)了語音的校準(zhǔn)[2]。然而,目前使用的校準(zhǔn)方法容易受到用戶多樣性意圖和多樣任務(wù)執(zhí)行的適應(yīng)性影響,導(dǎo)致語音校準(zhǔn)結(jié)果不精準(zhǔn)。為此,提出了基于深度學(xué)習(xí)的智能機(jī)器人語音自動(dòng)校準(zhǔn)系統(tǒng),實(shí)現(xiàn)用戶多樣性意圖和多樣任務(wù)執(zhí)行之間的松散耦合。
為了解決智能機(jī)器人語音信號(hào)的采集要求采用了模數(shù)變換,以提高采樣效率,一般采用150 kHz 以上的頻率,實(shí)現(xiàn)語音自動(dòng)校準(zhǔn)[3-4]。A/D 轉(zhuǎn)換電路的校準(zhǔn)是智能機(jī)器人語音轉(zhuǎn)換的重要環(huán)節(jié),它可以從電路中獲取原始的語音信號(hào),從而提高系統(tǒng)自動(dòng)糾錯(cuò)語音的準(zhǔn)確性[5]。A/D 轉(zhuǎn)換使用多核頻振蕩器集成了智能A/D 取樣結(jié)果,該過程所需的采樣芯片由I2C 總線提供15 V 的輸出電壓。一般情況下,采用4路15 比特A/D 電路轉(zhuǎn)換器進(jìn)行并聯(lián)和串行控制,以保證A/D 變換電路輸入電壓穩(wěn)定[6]。在設(shè)計(jì)語音精度數(shù)據(jù)采集電源時(shí),采用115 V 的數(shù)字信號(hào)處理(DSP)板對(duì)電容進(jìn)行濾波處理。通過模擬信號(hào)發(fā)射范圍進(jìn)行同步采樣,由此完成語音自動(dòng)校準(zhǔn)引擎A/D 電路的設(shè)計(jì)。
使用一種緊湊型嵌入式音頻接收器,該接收器結(jié)構(gòu)如圖1 所示。
圖1 音頻接收器結(jié)構(gòu)
由圖1 可知,音頻接收器結(jié)構(gòu)主要是由后箱、主板、前蓋、USB 組成,其中后箱的中間部分是一個(gè)底部箱,底部箱的開口前面設(shè)有一個(gè)容納底部箱的空間,底部箱的前面設(shè)有一個(gè)卡邊,該卡邊包含一個(gè)固定盤,并且在固定盤的第一個(gè)螺絲孔上設(shè)有一個(gè)固定片[7];固定片與主板連接,該主板置于底部盒體的容納空間,并與該底部箱體的背面固定相連,該USB插口固定在該主板的前端;前蓋設(shè)置在后箱的前面,在前蓋的上、下各有一個(gè)螺絲孔,在蓋子上也有一個(gè)正方形的階梯孔,這個(gè)階梯孔由一個(gè)前階梯孔和一個(gè)后面階梯孔組成[8];前蓋通過第一螺孔、第二螺孔以及后箱體被緊固;USB 前端被封入背景臺(tái)階孔中,可用作頂板支承[9]。
基于深度學(xué)習(xí)的智能機(jī)器人語音自動(dòng)校準(zhǔn)流程設(shè)計(jì)如下所示:
步驟1:通過對(duì)歷史語音資料的語音識(shí)別,將其轉(zhuǎn)化為拼音語句的文本數(shù)據(jù)集,并通過修正語句中的文本數(shù)據(jù)集獲得正確的語句文本樣本集[10]。
步驟2:采用深度學(xué)習(xí)建立校正模型,校正模型建立的詳細(xì)步驟如下所示:
1)校正模型輸入部分的構(gòu)建
將所有拼音按照字母順序依次排列,形成拼音詞典。利用拼音詞典對(duì)步驟1 中的拼音語句文本數(shù)據(jù)集xp進(jìn)行編碼處理,由此得到輸入校正模型的部分內(nèi)容。對(duì)于所得的輸入內(nèi)容中每個(gè)樣本都具有一個(gè)n維的稀疏矩陣,利用word2vec 對(duì)輸入樣本進(jìn)行詞嵌入訓(xùn)練處理,得到訓(xùn)練后的矩陣[11]。
對(duì)于輸入的樣本文字位置,使用正弦和余弦函數(shù)進(jìn)行編碼處理,公式為:
式(1)中,w表示文字位置;n表示維度。在獲取位置編碼后,將位置編碼和嵌入矩陣依次疊加,得到輸入樣本集合[12]。將得到的輸入樣本集合輸入到注意力模型中,該模型可表示為:
式(2)中,q表示查詢矩陣;c表示密鑰矩陣;u表示價(jià)值矩陣;dc表示注意力維度;cT表示密鑰矩陣的轉(zhuǎn)置[13]。將注意力模型輸入到前饋神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,基于深度學(xué)習(xí)的前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 基于深度學(xué)習(xí)的前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
由圖2 可知,通過該結(jié)構(gòu)的訓(xùn)練結(jié)果能夠得到一個(gè)特征矩陣,由此完成校正模型輸入部分的構(gòu)建。
2)校正模型輸出部分的構(gòu)建
將拼音語句文本數(shù)據(jù)集xp作為輸入樣本集,經(jīng)過編碼處理步驟獲取漢字詞典[14]。利用該詞典對(duì)語句文本樣本集xc進(jìn)行編碼處理,并將處理后的結(jié)果進(jìn)行詞嵌入訓(xùn)練,得到有位置編碼的標(biāo)簽嵌入矩陣[15]。在該部分需要使用兩個(gè)注意力模型,將這兩個(gè)模型堆疊后輸入到前饋神經(jīng)網(wǎng)絡(luò)中,并將該網(wǎng)絡(luò)的輸出作為sottmax函數(shù)的輸入值,由此得到一個(gè)概率。選擇概率最大的為預(yù)測(cè)結(jié)果,通過與詞典對(duì)比,能夠得到相應(yīng)的文字,完成校正模型輸出部分的構(gòu)建;
步驟3:對(duì)所選語句的樣本進(jìn)行編碼,得到所需的樣本;通過對(duì)輸入的樣本采用字嵌入的方法獲得標(biāo)記的嵌入矩陣;輸入的是一個(gè)輸入的樣本集,而輸出的是一個(gè)嵌入的矩陣;通過訓(xùn)練步驟2 得到的修正模型,得到一個(gè)已修正的模型[16]。
步驟4:采用了基于輸入模型的數(shù)據(jù)處理方式,對(duì)待糾正的語音進(jìn)行了矢量化,并將其輸入到經(jīng)過訓(xùn)練的修正模型中,得到了相應(yīng)的修正文本,由此獲取智能機(jī)器人語音自動(dòng)校準(zhǔn)結(jié)果。
為了驗(yàn)證基于深度學(xué)習(xí)的智能機(jī)器人語音自動(dòng)校準(zhǔn)系統(tǒng)設(shè)計(jì)合理性,進(jìn)行了如下實(shí)驗(yàn)。
通過語音識(shí)別技術(shù),實(shí)現(xiàn)了多源音頻的匹配,實(shí)驗(yàn)環(huán)境設(shè)置為:
1)配置PXI-6713 語音播放通道,系統(tǒng)以15 MHz以下的頻率自動(dòng)采集音頻;
2)采用VPP 標(biāo)準(zhǔn)設(shè)備,對(duì)語音進(jìn)行識(shí)別,在整個(gè)校準(zhǔn)過程中,語音識(shí)別精度不小于5 位;
3)由于語音信號(hào)的輸入頻段很寬,所以在語音采集時(shí),必須采用五個(gè)信道進(jìn)行同步和異步輸入;
4)在低功率工作方式下,A/D 轉(zhuǎn)換率在150 kHz以上,總線傳送的解析度必須達(dá)到10 位[17-19]。
實(shí)驗(yàn)平臺(tái)設(shè)計(jì)如圖3 所示。
圖3 實(shí)驗(yàn)平臺(tái)
由圖3 可知,這項(xiàng)任務(wù)是操控一個(gè)微型的智能機(jī)器人,它能通過接收語音到處走動(dòng)。智能機(jī)器人利用ARM 微控制器與話筒同步進(jìn)行語音采集與識(shí)別,并依據(jù)識(shí)別結(jié)果對(duì)其進(jìn)行控制。
對(duì)智能機(jī)器人下達(dá)的語音指令是:1)后退1.5 m,將垃圾扔進(jìn)垃圾箱內(nèi);2)向前行駛2 m,清掃桌子底下的灰塵。獲取語音指令后,對(duì)音頻數(shù)據(jù)進(jìn)行參數(shù)化整理,如圖4 所示。
由圖4 可知,語音指令下達(dá)后出現(xiàn)的振幅有可能是噪聲,但不對(duì)整個(gè)音頻產(chǎn)生影響。
分別使用基于深度前編碼卷積網(wǎng)絡(luò)的校準(zhǔn)系統(tǒng)、多尺度前向注意力模型的校準(zhǔn)系統(tǒng)和基于深度學(xué)習(xí)的智能機(jī)器人語音自動(dòng)校準(zhǔn)系統(tǒng)進(jìn)行對(duì)比分析,兩種指令下音頻顯示結(jié)果如圖5-6 所示。
圖5 指令1下音頻顯示結(jié)果
由圖5 可知,使用基于深度前編碼卷積網(wǎng)絡(luò)的校準(zhǔn)系統(tǒng)與圖4(a)振幅波動(dòng)情況不一致,其波動(dòng)范圍為12~18 dB;使用多尺度前向注意力模型的校準(zhǔn)系統(tǒng)與圖4(a)振幅波動(dòng)情況不一致,其波動(dòng)范圍為5~25 dB;使用基于深度學(xué)習(xí)的智能機(jī)器人語音自動(dòng)校準(zhǔn)系統(tǒng)與圖4(a)振幅波動(dòng)情況一致,其波動(dòng)范圍為9~22 dB。
由圖6 可知,使用基于深度前編碼卷積網(wǎng)絡(luò)的校準(zhǔn)系統(tǒng)、多尺度前向注意力模型的校準(zhǔn)系統(tǒng)與圖4(b)振幅波動(dòng)情況不一致,波動(dòng)范圍分別為11~19 dB、14~16 dB;使用基于深度學(xué)習(xí)的智能機(jī)器人語音自動(dòng)校準(zhǔn)系統(tǒng)與圖4(b)振幅波動(dòng)情況一致,其波動(dòng)范圍為7~21 dB。
圖6 指令2下音頻顯示結(jié)果
通過上述分析結(jié)果可知,使用基于深度學(xué)習(xí)的智能機(jī)器人語音自動(dòng)校準(zhǔn)系統(tǒng)能夠精準(zhǔn)校準(zhǔn)語音。
該文提出的基于深度學(xué)習(xí)的智能機(jī)器人語音自動(dòng)校準(zhǔn)系統(tǒng),利用深度學(xué)習(xí)法訓(xùn)練音頻樣本,解決了由于語音識(shí)別過程復(fù)雜,使用傳統(tǒng)的校準(zhǔn)方法難以發(fā)現(xiàn)發(fā)音差異性的問題。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)的設(shè)計(jì)是合理的,具有較高的可靠性。在后期,從均衡網(wǎng)絡(luò)計(jì)算復(fù)雜性的角度考慮,改進(jìn)了校準(zhǔn)結(jié)果的準(zhǔn)確性。