鄢 艷
(宜春學(xué)院,江西 宜春 336000)
聲音是人類交換信息最方便、最快捷的一種方式,在高度發(fā)達(dá)的信息社會中,用數(shù)字化的方法進(jìn)行聲音的傳送、存儲、識別、合成和增強(qiáng)等是整個(gè)數(shù)字化通信網(wǎng)中最重要、最基本的組成部分之一。在孤立字語音識別中,如語音密碼鎖、汽車控制等領(lǐng)域,都運(yùn)用到了特定的語音識別技術(shù)(即DTW算法)。相對于HMM算法,DTW算法具有操作簡單的特性。如果將DTW算法引入到農(nóng)業(yè)機(jī)器人語音識別系統(tǒng)中,可以有效提高機(jī)器人語音識別的效率和準(zhǔn)確性,對于提高農(nóng)業(yè)機(jī)器人的協(xié)同作業(yè)能力具有重要的意義。
對于不同的音樂,其聲音特征是不相同的。特別是男生和女生唱歌時(shí)的發(fā)聲不相同,高音和低音唱法時(shí)音樂信號特征也不相同。音樂高頻成分音質(zhì)非常尖銳,齒音中聲音有些暗淡;音樂低頻成分音質(zhì)沉穩(wěn),空間感覺強(qiáng),語音渾厚;音樂中頻成分音質(zhì)有力度,有通透感。因此,在不同唱法時(shí),可以通過對音樂信號特征的提取和識別來提高音樂的演唱效果。
音樂信號是一種非平穩(wěn)的時(shí)變信號,它帶著各種信息,在音樂編碼、音樂合成、音樂識別和音樂增強(qiáng)等音樂處理中無一例外需要提取音樂中包含的各種信息。與音樂信號特征提取和識別的過程類似,如果將聲音源目標(biāo)信號作為搜索識別的對象,而在聲音源信號上嵌入控制指令,則通過對聲音信號的識別實(shí)現(xiàn)不同的控制指令。
農(nóng)業(yè)機(jī)器人編隊(duì)作業(yè)如圖1所示。隨著農(nóng)業(yè)自動化和智能化技術(shù)的不斷發(fā)展,農(nóng)業(yè)機(jī)器人被使用到了農(nóng)業(yè)生產(chǎn)作業(yè)過程中。在多機(jī)器人協(xié)同作業(yè)時(shí),需要通過指令控制的方式協(xié)調(diào)每個(gè)機(jī)器人的作業(yè),最快捷有效的方法就是語音信號指令。與音樂信號特征提取的方法類似,機(jī)器人對于語音信號的識別也可以通過特征提取和匹配的方法。具體流程如圖2所示。
圖1 農(nóng)業(yè)機(jī)器人編隊(duì)作業(yè)Fig.1 The formation operation of agricultural robots
圖2 基于語音信號識別的機(jī)器人動作執(zhí)行Fig.2 The robot action execution based on speech recognition
基于語音信號識別技術(shù),農(nóng)業(yè)機(jī)器人語音識別系統(tǒng)可以對語音指令進(jìn)行識別。在語音指令識別時(shí),首先需要對模板信號的訓(xùn)練,發(fā)出語音指令后,機(jī)器人對指令信息化進(jìn)行采集;然后通過信號處理系統(tǒng)進(jìn)行預(yù)處理;通過信號處理可以得到信號特征,將其和模板庫里的信號進(jìn)行對比后,利用專家經(jīng)驗(yàn)知識庫識別信號指令,從而執(zhí)行動作指令。
在多農(nóng)業(yè)機(jī)器人作業(yè)過程中,為了使機(jī)器人之間的作業(yè)既不相互干擾又能進(jìn)行協(xié)作,可以利用語音聲源目標(biāo)識別技術(shù),對機(jī)器人進(jìn)行控制。目前,在語音識別方面常用的算法有HMM算法和DTW算法。相比而言,DTW算法比較簡單,也可以得到和HMM算法類似的效果,且DTW算法可以解決語音長短不一模板匹配的問題。所以,選擇DTW算法作為語音聲源目標(biāo)信號識別的算法。
語音信號起點(diǎn)和終點(diǎn)的識別主要通過端點(diǎn)檢測來實(shí)現(xiàn),檢測過程主要分為3個(gè)階段,包括訓(xùn)練階段、建立模板階段和識別階段。模板的建立主要是建立參考模板,參考模板可以表示為{R(1),R(2),...,R(m),...,R(M)}。其中,m表示模板語音的時(shí)序標(biāo)號,m表示語音幀的起點(diǎn),M表示語音幀的終點(diǎn),模板語音幀的總數(shù)也是M,待識別語音的特征矢量為R(m)。為了檢測機(jī)器人對語音識別的有效性,可以采用測試模板進(jìn)行檢驗(yàn),測試模板可以表示為{T(1),T(2),...,T(n),...,T(N)}。其中,n表示模板語音的時(shí)序標(biāo)號,n表示語音幀的起點(diǎn),N表示語音幀的終點(diǎn),模板語音幀的總數(shù)也是N,待識別語音的特征矢量為T(n)。
為了識別測試模板,可以對測試模板和參考模板的相似性進(jìn)行檢測,通過對相似度的比較,確定兩者之間的距離D[T,R],距離越小則相似度越高。為了求得信號不同幀之間的距離,可以采用規(guī)整函數(shù)的方法。規(guī)整函數(shù)可以采用網(wǎng)格的形式表示,如圖3所示。其中,一條邊斜率為2,另一條邊斜率為1/2,規(guī)整函數(shù)的起點(diǎn)是(1,1),終點(diǎn)為(N,M)。利用DTW算法主要是在平行四邊形內(nèi)部尋找規(guī)整函數(shù),使規(guī)整函數(shù)具有最小的代價(jià)函數(shù),這樣測試模板和參考模板可以具有最大的聲學(xué)相似性。
圖3 DTW語音信號識別基本原理Fig.3 The basic Principle of DTW speech recognition
在模板匹配過程中,斜率是限定的,只需要計(jì)算四邊形之內(nèi)的網(wǎng)格點(diǎn)對應(yīng)的語音幀即可。在匹配過程中,不需要將所有的網(wǎng)點(diǎn)進(jìn)行匹配,只需要匹配前1列的3個(gè)網(wǎng)格點(diǎn),這樣可以有效降低計(jì)算量,減輕計(jì)算存儲的負(fù)擔(dān),提高DTW算法的效率。圖3中,在進(jìn)行DTW算法的計(jì)算時(shí),把實(shí)際的動態(tài)彎折分為3段,即(1,xa)、(xa+1,xb)、(xb+1,N)。
(1)
其中,xa和xb都取最相近的整數(shù),由此可得出對M和N長度的限制條件為
(2)
在x軸上的每一幀不再需要與y軸上的每一幀進(jìn)行比較,而只是與y軸上[ymin,ymax]間的幀進(jìn)行比較。ymin和ymax的計(jì)算公式為
(3)
如果出現(xiàn)xa>xb的情況,則彎折匹配的3段為(1,xb)、(xb+1,xa)、(xa+1,N)。累積距離的更新用以下公式實(shí)現(xiàn),即
D(x,y)=d(x,y)+min[D(x-1,y),D(x-1,y-1),D(x-1,y-2)]
基于DTW算法對聲源目標(biāo)信號識別的流程如圖4所示。
圖4 聲源目標(biāo)信號識別的流程Fig.4 The procedure of sound source target signal recognition
在聲源目標(biāo)信號輸入后,通過幀匹配距離矩陣和動態(tài)規(guī)劃計(jì)算出測試信號和模板信號的距離。如果距離較小,并滿足之前設(shè)定的閾值,則表示測試性和模板信號類似,從而識別出測試信號。
基于DTW算法的聲源目標(biāo)搜索算法,可以對控制聲音信號進(jìn)行識別。如果將其使用在農(nóng)業(yè)機(jī)器人協(xié)同控制上,可以有效提高農(nóng)業(yè)機(jī)器人的作業(yè)效率及每個(gè)機(jī)器人的利用率。以采摘機(jī)器人為例,將聲源目標(biāo)搜索算法以編程的形式嵌入到了機(jī)器人控制的硬件和軟件系統(tǒng)上,利用測試庫對機(jī)器人進(jìn)行了測試。聲源目標(biāo)識別的流程如圖5所示。
圖5 聲源目標(biāo)識別流程圖Fig.5 The flow chart of sound source target recognition
采用DTW算法可以依據(jù)參考模板對測試模板進(jìn)行識別,一旦識別匹配成功,采摘機(jī)器人將按照參考模板指令內(nèi)容執(zhí)行相關(guān)動作。為了驗(yàn)證方案的可靠性,在信號識別的過程中加入了噪聲高干擾,信號曲線如圖6所示。
圖6 加噪聲后聲源信號曲線Fig.6 The sound source signal curve after adding noise
加入噪聲后聲源信號會受到干擾,為了避免干擾,更好地識別聲源控制指令,需要對聲源信號進(jìn)行濾波操作,從而去除干擾信號。系統(tǒng)處理后的聲音信號曲線如圖7所示。
通過采摘機(jī)器人聲音信號識別系統(tǒng)的處理,可以有效地去除噪聲干擾,恢復(fù)原始聲源控制信號。為了驗(yàn)證聲源目標(biāo)信號識別的準(zhǔn)確率,對多個(gè)聲源信號進(jìn)行了測試,結(jié)果如表1所示。
表1 聲源目標(biāo)信號識別測試結(jié)果Table 1 The acoustic source target signal recognition test results
測試結(jié)果表明:不同編隊(duì)的農(nóng)業(yè)機(jī)器人可以對測試信號進(jìn)行成功識別,可以將其使用在農(nóng)業(yè)機(jī)器人聲源目標(biāo)搜尋協(xié)助控制系統(tǒng)上,以提高控制系統(tǒng)的效率和精度。
為了提高農(nóng)業(yè)機(jī)器人控制系統(tǒng)的效率和準(zhǔn)確性,實(shí)現(xiàn)多機(jī)器人協(xié)同化作業(yè),將聲源目標(biāo)搜尋方法引入到了機(jī)器人控制系統(tǒng)的設(shè)計(jì)上,并引入了聲音識別的DTW算法,實(shí)現(xiàn)了農(nóng)業(yè)機(jī)器人的遠(yuǎn)程控制。為了驗(yàn)證方案的可行性,以采摘機(jī)器人語音識別系統(tǒng)的設(shè)計(jì)為例,對系統(tǒng)進(jìn)行了測試。結(jié)果表明:采摘機(jī)器人語音識別控制系統(tǒng)可以成功地識別語音控制指令,且識別的準(zhǔn)確性較高,對于提高農(nóng)業(yè)機(jī)器人的自動化和智能化程度具有重要的意義。