邵 晨,劉誠(chéng)杰,鄧 琛
(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海201620)
隨著社會(huì)的發(fā)展,無(wú)論在企業(yè)還是民宅中,人們對(duì)門(mén)禁系統(tǒng)的使用越來(lái)越廣泛。然而傳統(tǒng)門(mén)禁無(wú)法滿足各種使用場(chǎng)合的復(fù)雜性和智能性,于是綜合應(yīng)用語(yǔ)音識(shí)別、指紋識(shí)別、虹膜識(shí)別、紅外感應(yīng)等最新生物識(shí)別技術(shù)的門(mén)禁系統(tǒng)廣泛吸引了人們的注意,并將逐步成為門(mén)禁系統(tǒng)發(fā)展的主流與趨勢(shì)[1]。
本文提出了基于高性價(jià)比的凌陽(yáng)SPCE061A單片機(jī),以16位的μ′nSP為主控芯片,通過(guò)添加部分外圍元件,即可搭建一個(gè)經(jīng)濟(jì)的、功能相對(duì)完善的智能實(shí)時(shí)語(yǔ)音門(mén)禁系統(tǒng)。該系統(tǒng)具有成本低、功耗低等優(yōu)點(diǎn),是一種安全有效、有市場(chǎng)價(jià)值的門(mén)禁系統(tǒng)解決方案。
語(yǔ)音識(shí)別技術(shù)就是對(duì)不同說(shuō)話人的不同說(shuō)話內(nèi)容進(jìn)行準(zhǔn)確的識(shí)別,其本質(zhì)是屬于模式識(shí)別的范疇。系統(tǒng)原理框圖如圖1所示。從圖中可以看出,識(shí)別結(jié)果的正確與否與模式匹配息息相關(guān)。計(jì)算機(jī)首先從特定人處取得語(yǔ)音信號(hào)并訓(xùn)練制作成語(yǔ)音的特征模型庫(kù)。當(dāng)系統(tǒng)需要進(jìn)行語(yǔ)音識(shí)別時(shí),對(duì)新輸入的語(yǔ)音信號(hào)進(jìn)行分析,抽取其語(yǔ)音特征參數(shù)。通過(guò)與語(yǔ)音系統(tǒng)中所儲(chǔ)存的特征模型進(jìn)行對(duì)比,在一些特定的搜索和匹配策略下尋找最優(yōu)的匹配模板。通過(guò)查表系統(tǒng)就能給出語(yǔ)音識(shí)別的結(jié)果。其主要步驟分為:預(yù)處理、特征參數(shù)提取、語(yǔ)音的訓(xùn)練與識(shí)別。
圖1 語(yǔ)音識(shí)別系統(tǒng)原理框圖
在進(jìn)行語(yǔ)音的預(yù)處理以及特征參數(shù)的提取之后,就要運(yùn)用某種識(shí)別方法辨識(shí)出測(cè)試的說(shuō)話人,說(shuō)話人識(shí)別算法部分是整個(gè)說(shuō)話人識(shí)別處理流程中最核心的一環(huán),直接決定著系統(tǒng)的識(shí)別性能[2]。主要任務(wù)是將預(yù)處理后的所有需要辨識(shí)的語(yǔ)音信號(hào)進(jìn)行特征參數(shù)的提取,經(jīng)過(guò)訓(xùn)練形成參考模板庫(kù),然后將某個(gè)特定的需要識(shí)別的說(shuō)話人的語(yǔ)音以同樣的方法得到其測(cè)試模板,最后用此模板與庫(kù)中的模板進(jìn)行模式匹配,以達(dá)到識(shí)別的目的。常用的識(shí)別算法有矢量量化 VQ(Vector Quantization)、動(dòng)態(tài)時(shí)間規(guī)整法 DTW(Dynamic Time Warping)、隱馬可夫模型 HMM(Hidden Markov Model)和人工神經(jīng)網(wǎng)絡(luò)ANN(Artificial Neural Networks)等[3]。
圖2為系統(tǒng)總體的硬件設(shè)計(jì)框圖,系統(tǒng)主控制模塊以凌陽(yáng)SPCE061A單片機(jī)為核心部件,麥克風(fēng)輸入模塊采集語(yǔ)音聲波信號(hào)轉(zhuǎn)換為模擬電壓信號(hào),采樣調(diào)理電路對(duì)電信號(hào)進(jìn)行濾波,去除噪聲干擾。通過(guò)單片機(jī)自帶的AD采集模塊實(shí)現(xiàn)對(duì)說(shuō)話人識(shí)別確認(rèn)的功能。輸出部分采用兩路輸出的形式。一路輸出為揚(yáng)聲器模塊,可以語(yǔ)音播報(bào)識(shí)別的結(jié)果信息;另一路輸出為電子門(mén)鎖驅(qū)動(dòng)模塊,驅(qū)動(dòng)門(mén)鎖的開(kāi)合。
圖2 硬件結(jié)構(gòu)框圖
凌陽(yáng)SPCE061A單片機(jī)內(nèi)部含有語(yǔ)音識(shí)別相關(guān)的函數(shù),通過(guò)代碼的編寫(xiě),能夠完成語(yǔ)音錄制、語(yǔ)音采集、語(yǔ)音播放以及語(yǔ)音識(shí)別等任務(wù)。本系統(tǒng)在使用時(shí)可無(wú)需任何按鍵,在任意時(shí)刻錄入口令,口令不匹配時(shí),揚(yáng)聲器返回報(bào)錯(cuò)信息;口令匹配時(shí),揚(yáng)聲器返回正確信息,門(mén)鎖開(kāi)啟。
常見(jiàn)的語(yǔ)音識(shí)別算法有 HMM、VQ、DTW等[4]。由于本項(xiàng)目只針對(duì)短時(shí)語(yǔ)音(語(yǔ)音長(zhǎng)度1.3 s),經(jīng)過(guò)比對(duì)分析,決定采用動(dòng)態(tài)規(guī)整(Dynamic Time Wrapping)算法[5]進(jìn)行語(yǔ)音模板的匹配,這是因?yàn)镈TW算法簡(jiǎn)單、計(jì)算量小,特別適用于特定人孤立詞的短時(shí)語(yǔ)音識(shí)別。
DTW是將時(shí)間規(guī)整和距離測(cè)度計(jì)算結(jié)合起來(lái)的一種非線性規(guī)整技術(shù)[6]:
其中,D為處于最優(yōu)時(shí)間規(guī)整情況下兩矢量的距離;d[T(i),R(i)]是第 i幀測(cè)試矢量 T(i)和第 j幀模板矢量R(j)之間的距離測(cè)試。
由于傳統(tǒng)固定端點(diǎn)的DTW算法對(duì)語(yǔ)音起始點(diǎn)和終止點(diǎn)的判斷會(huì)存在較大的誤差,所以需要對(duì)原算法作適當(dāng)?shù)膬?yōu)化來(lái)解決這個(gè)問(wèn)題。模板語(yǔ)音的所有幀和待識(shí)別語(yǔ)音的所有幀之間的相互距離構(gòu)成一個(gè)m×n的距離矩陣,記為 Dm×n,而另有一個(gè)矩陣存放每一個(gè)階段最優(yōu)化的結(jié)果,記為 Gm×n。 改進(jìn)后的 DTW 算法以 g(m×n)為兩發(fā)音的總距離。放寬了端點(diǎn)對(duì)其限制后,算法選用d(1,i)和d(i,1)(1≤i≤w)中的最小值作為起點(diǎn)。在 d(m,i)、d(i,1)(n-w≤i≤n)和 g(j,n)(m-w≤j≤m)之間選一個(gè)最小值作為總距離,實(shí)現(xiàn)了起始點(diǎn)和終止點(diǎn)的變化。從而減小說(shuō)話人不同時(shí)期發(fā)音長(zhǎng)短、語(yǔ)速變化對(duì)識(shí)別精度帶來(lái)的影響[7]。
本系統(tǒng)軟件的開(kāi)發(fā)使用了凌陽(yáng)公司的μ′nSP IDE集成開(kāi)發(fā)平臺(tái),這個(gè)高效的開(kāi)發(fā)環(huán)境支持匯編與C語(yǔ)言的混合編寫(xiě),還支持編譯、鏈接等功能,集成了調(diào)試和實(shí)時(shí)分析等實(shí)用功能,為開(kāi)發(fā)提供了便利。
語(yǔ)音識(shí)別門(mén)禁系統(tǒng)的軟件總體流程如圖3所示。本程序分為3個(gè)模塊,分別為中斷模塊、訓(xùn)練模塊和識(shí)別模塊。
圖3 語(yǔ)音識(shí)別門(mén)禁系統(tǒng)流程圖
首先獲取語(yǔ)音信息,經(jīng)過(guò)模數(shù)轉(zhuǎn)換、預(yù)加重、自動(dòng)增益等處理后根據(jù)中斷類別進(jìn)入訓(xùn)練或者識(shí)別模塊。訓(xùn)練模塊將經(jīng)過(guò)處理的語(yǔ)音信號(hào)通過(guò)特征提取,存入語(yǔ)音特征模型庫(kù)。而識(shí)別模塊通過(guò)改進(jìn)識(shí)別算法將輸入語(yǔ)音信號(hào)的特征與訓(xùn)練后語(yǔ)音特征模型庫(kù)進(jìn)行對(duì)比分析。
本文實(shí)現(xiàn)的基于SPCE061A的實(shí)時(shí)語(yǔ)音識(shí)別門(mén)禁系統(tǒng)具有識(shí)別特定人條件下短時(shí)語(yǔ)音的功能。樣機(jī)經(jīng)過(guò)測(cè)試,對(duì)特定人進(jìn)行語(yǔ)音采樣和辨識(shí)訓(xùn)練后,對(duì)100次語(yǔ)音輸入訪問(wèn)測(cè)試,正確通過(guò)為93次,識(shí)別率達(dá)到93%;樣本有效但拒絕訪問(wèn)請(qǐng)求7次,拒識(shí)率為7%,達(dá)到了預(yù)期的設(shè)計(jì)要求。
[1]黎育紅.基于語(yǔ)音識(shí)別技術(shù)的門(mén)禁系統(tǒng)的研究[J].電子技術(shù)應(yīng)用,2006,32(12):88-91.
[2]趙力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2005.
[3]胡文靜.基于SPCE061A語(yǔ)音識(shí)別門(mén)禁系統(tǒng)實(shí)現(xiàn)的研究[J].計(jì)算技術(shù)與自動(dòng)化,2011,30(2):111-114.
[4]宋大杰.基于DTW的說(shuō)話人識(shí)別及其在DSP上的實(shí)現(xiàn)[D].江西:東華理工大學(xué),2012.
[5]蔣曄.基于短語(yǔ)音和信道變化的說(shuō)話人識(shí)別研究[D].江蘇:南京理工大學(xué),2013.
[6]白瑜.語(yǔ)音信號(hào)特征參數(shù)的提取[J].科技傳播,2011,12(24):228-229.
[7]姚燁豪.基于語(yǔ)音識(shí)別和RFID技術(shù)的智能門(mén)禁系統(tǒng)研究[J].科技信息,2012(2):31-32.