施超群 陳堅剛
(浙江工商職業(yè)技術(shù)學(xué)院,浙江 寧波 315012)
語言交流是人類一種天然的溝通模式。從兒童時代開始我們對語言的相關(guān)學(xué)習(xí)都是自發(fā)的,語言交流始終貫穿于我們的生活。它是那么的自然以至于我們根本沒有發(fā)現(xiàn)這是一種多么復(fù)雜的現(xiàn)象。人類的聲道和發(fā)音器官,是具有非線性特征的生物器官,不僅僅運行在有意識的控制下,而且受到性別及其成長因素情緒狀態(tài)的影響。因此,聲音會因為他們的口音、發(fā)音、清晰度、體積、速度等有著大幅的變動。人類希望能與機器進一步溝通,從而方便生產(chǎn)與生活,而在語音信號的傳輸過程中,我們不規(guī)則的語言行為方式會被背景噪聲和回聲,以及電特性(如話筒等電子設(shè)備)進一步扭曲。這一切可變性的聲音來源使語音識別更加繁瑣復(fù)雜。
語音識別是一個多層模式識別的任務(wù)。聲音信號經(jīng)過考察,結(jié)構(gòu)分為一個層次詞根單位(例如,音素)、詞、短語、句子。每一層可提供額外的時間限制,例如,已經(jīng)被認知的單詞發(fā)音或法律上的單詞序列,可以彌補錯誤或把不確定性降到較低水平。限制的最好方法是在所有較低的層次中利用概率相結(jié)合的決策,而只在最高層次中使用離散決策。
一個標(biāo)準(zhǔn)的語音識別系統(tǒng)如下圖所示。
實際的物理波形信號通過傳聲器(話筒)采集而形成的隨時間連續(xù)變化的模擬信號,在語音信號被采集的同時背景噪音也隨之而來。
要將采集進來的模擬信號轉(zhuǎn)換為計算機認識的信號,這就需要數(shù)/模轉(zhuǎn)換(計算機中的聲卡就有此功能)。其中最常見的方式稱為脈沖編碼調(diào)制 (Pulse Code Modulation),可分為采樣、量化、編碼三個過程。
1.2.1 采樣。就是將模擬音頻電信號轉(zhuǎn)換成二進制碼。耳朵可以聽到的頻率為20Hz~20kHz,根據(jù)采樣定理:當(dāng)采樣頻率大于信號的兩倍帶寬時,即采樣頻率大于40kHz時,采樣過程就不會丟失信息。由于考慮到設(shè)備兼容性問題,國際上將采樣頻率標(biāo)準(zhǔn)定為44.1kHz。盡管從物理上可以證明大于40kHz的采樣率可精確重構(gòu)原始波形,但人的主管聽音試驗表明,采樣頻率越大音質(zhì)越有保證。
1.2.2 量化。就是將模擬信號的采樣的幅度值以特定單位進行度量,用它整數(shù)倍的數(shù)字進行表示的過程。先將整個幅度值劃分成有限的區(qū)域,所有采樣信號的幅度值分布在幅度值最相近的區(qū)域并用量化精度(比特數(shù))表示。量化決定了聲音動態(tài)范圍,因為都是2的整數(shù)倍,如4bit、8bit、16bit等等。而且量化過程沒有最低標(biāo)準(zhǔn),精度一般越大越好。
經(jīng)過時間上的采樣和幅度上的量化后,連續(xù)的模擬信號就變成了離散信號,這樣就轉(zhuǎn)化為了數(shù)字信號。其中把量化好的采樣值表示成二進制代碼的這一過程就是編碼。量化和編碼基本上是同時實現(xiàn)的。
為了簡化后續(xù)過程必須先將數(shù)字信號中的語音信號進過轉(zhuǎn)化和壓縮,其中有許多技術(shù)能將其中的特征提取出來和壓縮數(shù)據(jù)的時候盡量減少重要數(shù)據(jù)的丟失。
1.3.1 短時傅里葉變換。語音信號有短時的穩(wěn)定,長時變化,瞬時穩(wěn)態(tài)的特點,即信號的頻率隨時間的變化。傳統(tǒng)傅里葉變換缺少時域定位功能而不適用于時變信號。
1.3.2 線性預(yù)測編碼。這是廣泛和最有效的語音分析技術(shù),可以用過去的若干個語音信號樣值的線性組合來預(yù)測以后的樣值。
1.3.3 倒譜系數(shù)。語音識別中較為常用的特征參數(shù)是線性預(yù)測倒譜系數(shù)LPCC (Linear Predictive Cepstral Coding)和Mel頻率倒譜系數(shù) (Mel Frequency Cepstrum Coefficient)。前者體現(xiàn)人的聲道特性容易受環(huán)境噪聲干擾,后者構(gòu)造了人的聽覺模型,強調(diào)語音低頻信息,有利于噪音屏蔽干擾。
在經(jīng)過語音信號的預(yù)處理和分析,提取出來的特征參數(shù)要與模型庫中的模板參數(shù)去匹配,而這個就是語言識別系統(tǒng)的核心。目前有代表性的語音識別方法主要有特征參數(shù)匹配法、隱馬爾可夫法和神經(jīng)網(wǎng)絡(luò)法。
這是一種傳統(tǒng)的模式識別方法,其技術(shù)要點是:在訓(xùn)練過程中將預(yù)處理過的信號通過一次變換,去掉冗余部分,而把代表語音本質(zhì)的特征參數(shù)抽出來,成為相對應(yīng)語音的模版;然后,在識別過程中,用同樣的方法從待識別語音信號中提取出語音參數(shù);最后,應(yīng)用某種不變的測度,尋求語音參數(shù)與模版參數(shù)兩者之間的相似性,用似然函數(shù)進行判決。
這是一種研究透徹,算法成熟,效率高,效果好,易于訓(xùn)練的方法,已成為識別的主流技術(shù),目前大多數(shù)詞匯量、連續(xù)語音的非特定語音識別系統(tǒng),都是基于HMM的模型。隱馬爾可夫模型是馬爾可夫鏈的一種,它的模式庫不是預(yù)先存儲好的模式樣本,而是通過反復(fù)訓(xùn)練形成的與訓(xùn)練后輸出信號相似合概率最大的最優(yōu)模型參數(shù)。而且它的識別過程中待識別語音序列與HMM參數(shù)達到最佳匹配狀態(tài)作為識別輸出,是較為理想的識別模型。
ANN本質(zhì)上是一個自適應(yīng)非線性動力學(xué)系統(tǒng),模擬了人類神經(jīng)元活動的原理,具有自適應(yīng)性、并行性、魯棒性、容錯性和學(xué)習(xí)特性。基于神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)通常由網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練算法和神經(jīng)元構(gòu)成。由于具有良好的動態(tài)時變性能和結(jié)構(gòu),良好的動態(tài)時間關(guān)聯(lián)特性,使其具有很大的發(fā)展?jié)摿Α?/p>
微軟windows 7操作系統(tǒng)已經(jīng)發(fā)布有段時間了,其中的語音識別功能可以比較好的控制電腦的很多功能了。首先我們準(zhǔn)備一臺裝有windows 7操作系統(tǒng)的電腦,當(dāng)然語音輸入設(shè)備必不可少(如:話筒)。
首先找到語音識別程序,在開始-控制面板-所有控制面板項-語音識別 (如圖2所示)。點擊 “啟動語音識別”,如果是首次運行就會出現(xiàn)關(guān)于語音識別系統(tǒng)的一些介紹,然后就會跳入麥克風(fēng)設(shè)置向?qū)Вㄈ鐖D3所示),根據(jù)提示設(shè)置麥克風(fēng)。這一步就是語音輸入設(shè)備(傳聲器)的選擇調(diào)整。
圖2 windows 7語音識別系統(tǒng)
圖3 輸入設(shè)備設(shè)置
教程(如圖4所示)的學(xué)習(xí)可以根據(jù)不同人的需要來學(xué)習(xí),其中基礎(chǔ)部分就展示了如何打開或者關(guān)閉語音識別系統(tǒng)以及一些常用到的最基礎(chǔ)的信息。聽寫部分就是用聲音輸入文字,然后如何編輯聲音輸入后的文字(如:選擇、刪除等)其中包括一些常用編輯命令。命令部分就是允許通過聲音控制窗口,啟動程序,選擇菜單等等,可以和屏幕上的項目交互。使用windows部分讓人學(xué)習(xí)瀏覽窗口,控制窗口,啟動切換程序等。完成了學(xué)習(xí)教程意味著您學(xué)會了如何使用這個語音識別的功能了。因為語音識別是一項前沿技術(shù),有時候計算機不一定能完全聽懂您說的內(nèi)容所以您需要不斷地訓(xùn)練它。
圖4 系統(tǒng)自帶語音識別教程
就在剛才的學(xué)習(xí)教程的過程中,語音識別系統(tǒng)已經(jīng)進行了由模擬信號到數(shù)字信號的轉(zhuǎn)換,語音信號的預(yù)處理和分析,然后經(jīng)過了特征參數(shù)的提取,和模式庫的建立匹配,最后識別執(zhí)行識別后的命令,這一系列的過程。為了更好的識別控制著的語音,用自然平穩(wěn)的語調(diào)向計算機閱讀文本,提高計算機理解語音的能力。通過反復(fù)訓(xùn)練(如圖5所示)形成的與訓(xùn)練后輸出信號相似合概率最大的最優(yōu)模型參數(shù),使識別更加準(zhǔn)確。
圖 5語音識別語音訓(xùn)練
雖然目前的語音識別技術(shù)還不完善,但是它已經(jīng)應(yīng)用到了日常生活的各個領(lǐng)域中,如數(shù)字通信、教育培訓(xùn)、醫(yī)學(xué)醫(yī)療等方面。要使機器能理解人類的自然語言,能和人類交流,這是一個長遠的長期的研究課題,但也是一個具有劃時代意義的重大工程。
[1]胡澤,雷偉.計算機數(shù)字音頻工作站[M].北京:中國廣播電視出版社,2005.
[2]柏逢明.音頻檢測技術(shù)與儀器[M].北京:國防工業(yè)出版社,2006.
[3]劉幺和,宋庭新.語音識別與控制應(yīng)用技術(shù)[M].北京:科學(xué)出版社,2008.
[4](德)布勞爾特(Blauert,J.). 通信聲學(xué)[M]. 李昌立,李雙田譯.北京:科學(xué)出版社,2009.