楊景花,王雙喜,周思方
(1.商丘學院 計算機工程學院,河南 商丘 476000;2. 商丘師范學院 計算機與信息技術學院,河南 商丘 476000;3.商丘職業(yè)技術學院,河南 商丘 476000)
?
基于神經(jīng)網(wǎng)絡的智能語音識別研究*
楊景花1,王雙喜1,周思方2,3
(1.商丘學院 計算機工程學院,河南 商丘 476000;2. 商丘師范學院 計算機與信息技術學院,河南 商丘 476000;3.商丘職業(yè)技術學院,河南 商丘 476000)
語音識別或語言轉化成文本的過程包括捕獲聲波,數(shù)字化聲波,轉換成基本的語言單位或者音素,根據(jù)音位和語境構建詞語,分析詞語,保證拼寫正確,并且保證與聽到的詞語保持一致。該文把人工智能和神經(jīng)網(wǎng)絡技術應用到語音識別系統(tǒng)中,通過學習獲得固定權重并應用到模型,最后模型快速給出與輸入相匹配的輸出。文中涉及到的神經(jīng)網(wǎng)絡模型主要用來進行語音識別。
語音識別;神經(jīng)網(wǎng)絡;人工智能;信號處理
引用格式:楊景花,王雙喜,周思方. 基于神經(jīng)網(wǎng)絡的智能語音識別研究[J].微型機與應用,2016,35(17):52-54.
人工智能的應用在最近幾年迅速發(fā)展,特別是神經(jīng)網(wǎng)絡的應用,神經(jīng)網(wǎng)絡系統(tǒng)是解決許多突出問題的一個工具,如模式識別和模式分類。1943年,神經(jīng)生物學家MCCULLOCH W S和青年數(shù)學家PITTS W合作,提出了第一個人工神經(jīng)元模型,并抽象出神經(jīng)元的數(shù)理模型,開創(chuàng)了人工神經(jīng)網(wǎng)絡的研究[1]。Hopfield模型是于1982年提出的,它是神經(jīng)網(wǎng)絡存儲和提取信息進行非線性數(shù)學運算的概括,使人工神經(jīng)網(wǎng)絡的構造和學習有了理論指導[2]。隨后又有脈沖耦合神經(jīng)網(wǎng)絡等模型不斷被提出[3-5]。經(jīng)過多年的發(fā)展,更多經(jīng)過優(yōu)化、性能更強的神經(jīng)網(wǎng)絡模型被提出。
語音識別的研究工作開始于Bell實驗室開發(fā)的第一個可識別10個英文數(shù)字的語音識別系統(tǒng)。20世紀60年代,計算機的應用推動了語音識別的發(fā)展。出現(xiàn)了動態(tài)規(guī)劃和線性預測分析技術,較好地解決了語音信號產(chǎn)生模型的問題。隱馬爾可夫(HMM)模型和人工神經(jīng)網(wǎng)絡(ANN)在語音識別中的應用加快了語音識別模型的發(fā)展,隨后又有許多的模型出現(xiàn)[6-9]。隨著多媒體時代的來臨,迫切要求語音識別系統(tǒng)從實驗室走向實用。我國語音識別研究工作起步較晚,但近年來發(fā)展也很快,尤其實驗室系統(tǒng)到市場化商品的發(fā)展[10-12]。
自動識別、分類和分組模式作為重要的參數(shù)廣泛應用于各種工程和科學學科,如生物學、心理學、醫(yī)學、市場營銷、計算機視覺、人工智能、遙感等。模式可以是指紋圖像、手寫草書、人臉或語音信號。從處理問題的性質和解決問題的方法等角度,模式識別可分為:
(1)有監(jiān)督的分類,辨別分析、實驗樣本所屬的類別是預先已知的;
(2)無監(jiān)督的分類,實驗樣本所屬的類別是預先未知的。
文中的模式識別問題是如何分類或者說是分類問題,其中類的定義是系統(tǒng)設計者設計的約束分類或者是無監(jiān)督分類下相似模型的學習。
模式識別的應用包括特定數(shù)據(jù)的挖掘等。例如,數(shù)以百萬計的相關或獨立的多維模型中,文檔分類能有效搜索文本文檔、金融預測、多媒體數(shù)據(jù)庫和生物特征的組織與檢索。由于大型數(shù)據(jù)庫對速度、精度和成本要求很嚴格,所以自動模式識別的需求正在迅速增長。
圖1 語音信號處理流程圖
識別系統(tǒng)模式的設計基本上包括以下三個方面:(1)收集、預處理和數(shù)據(jù)報告;(2)決策過程;(3)問題規(guī)模決定了預處理技術的選擇。
從一組例子中學習是大多數(shù)識別系統(tǒng)的一個重要性質。人們在觀察事物或現(xiàn)象時,通常會尋找它與其他事物或現(xiàn)象的不同之處,并根據(jù)一定的目的把各個相似的但又不完全相同的事物或現(xiàn)象組成一類[13-17]。常見的模式識別方法有:模式匹配、統(tǒng)計分類、句法方法等。
神經(jīng)網(wǎng)絡是一種模仿動物神經(jīng)網(wǎng)絡行為特征、進行分布式并行信息處理的算法數(shù)學模型。通過調整內部大量節(jié)點之間相互連接的關系,從而達到處理信息的目的。一些學者給出了節(jié)點之間交互定義:利用數(shù)學模型仿真生物學系統(tǒng)特征,并行處理信息;簡單的實體類的算法,算法形成于數(shù)學模型(模型將這些策略分組成大量的算法,這些算法能解決大量復雜的問題)。
神經(jīng)網(wǎng)絡的活躍性體現(xiàn)在分類、編碼的過程和神經(jīng)網(wǎng)絡的特性方面。神經(jīng)網(wǎng)絡特性有:(1)抗噪聲。(2)靈活處理扭曲圖像。(3)并行協(xié)同處理信息。神經(jīng)網(wǎng)絡中的每個神經(jīng)元都可以根據(jù)接收到的信息進行獨立的運算和處理,并輸出結果,同一層中的各個神經(jīng)元的輸出結果可被同時計算下來,然后傳輸給下一層做進一步處理,體現(xiàn)了神經(jīng)網(wǎng)絡并行運算的特點。(4)對信息的處理具有自組織、自學習的特點,便于聯(lián)想、綜合和推廣。神經(jīng)網(wǎng)絡的神經(jīng)元之間的連接強度用權值大小表示,這種權值可以通過對訓練樣本的學習而不斷變化。
神經(jīng)網(wǎng)絡常見類型有:(1)Hopfield網(wǎng)絡,一種單層的自聯(lián)想網(wǎng)絡,無學習能力,多使用在聯(lián)想記憶方法來識別ASCII字符等領域。(2)感知器主要用來模擬人腦的感知特征,采取閾值單元作為傳遞函數(shù),所以只能輸出兩個值,適合簡單模式分類問題。多用在文字識別、聲音識別領域。(3)自組織映射常尋找最優(yōu)參考矢量集合來對輸入模式集合進行分類。(4)自適應諧振理論將競爭學習模型嵌入到一個自調節(jié)控制機構,使得當輸入充分類似某一已存模式時系統(tǒng)才接受,不夠類似時,只能作為新的類別來處理。
神經(jīng)網(wǎng)絡處理語音識別問題的處理過程如圖1所示。
3.1識別過程
(1)輸入信號送入計算機,選擇單詞邊界,去掉孤立詞匯。
(2)聽覺信號處理,對語音信號進行片段化(分幀),LPC分析,將Durbin算法作用于每個片段得到LPC倒譜系數(shù)的矢量,并使用K均值算法進行量化。
(3)模式匹配和識別,利用人工神經(jīng)網(wǎng)絡對聲學參數(shù)近似度進行計算。
(4)時間校正,模式序列識別。
語音信號作為神經(jīng)網(wǎng)絡的輸入,對語音信號分段后,神經(jīng)網(wǎng)絡接收到一組信號片段。每個片段對應一組數(shù)字,表示信號的振幅范圍。所有的數(shù)字為計算神經(jīng)網(wǎng)絡輸出做準備。如表1所示,每行是一幀的數(shù)字集合。
表1 一組語音信號的表示
圖2 反饋型神經(jīng)網(wǎng)絡結構
反饋型神經(jīng)網(wǎng)絡結構如圖2所示。其中,I表示一組數(shù)字中的數(shù)目,N表示數(shù)字集合(分割之后的幀信號)的數(shù)目,輸入神經(jīng)元的數(shù)目已知,每個神經(jīng)元對應一組數(shù)字,輸出層只有一個神經(jīng)元。輸出神經(jīng)元輸出的信號對應識別所期望的輸出值。
其中,xqi表示一組數(shù)字中第i個xq的輸入值,yj為第j個神經(jīng)元的輸出值,wij為第i個神經(jīng)元和第j個神經(jīng)元的連接權值,βj為第j個神經(jīng)元的權值反饋。
3.2利用模型進行語音識別
要計算神經(jīng)網(wǎng)絡的輸出,須完成以下步驟:
(1)初始化所有隱藏層中的所有神經(jīng)元的上下文;
(2)將第一組數(shù)字應用于神經(jīng)網(wǎng)絡,利用式(1)計算隱藏層的輸出。
(1)
要識別一個數(shù)字需要建立相應的神經(jīng)網(wǎng)絡模型,這里建立10個相互有聯(lián)系的模型單元模仿神經(jīng)元。一個語音片段經(jīng)過片段化后輸入到神經(jīng)網(wǎng)絡模型中,經(jīng)過權值的迭代計算出期望的輸出。如訓練神經(jīng)網(wǎng)絡識別一個數(shù)字時,理想的輸出應當是對應的數(shù)字,而不應當是其他的數(shù)字或者字母。表2列出了神經(jīng)網(wǎng)絡模型對數(shù)字0~9測試的準確率。
表2 利用反饋性神經(jīng)網(wǎng)絡結構對數(shù)字測試的準確率
神經(jīng)網(wǎng)絡學習時按照量化均值調整規(guī)模,直到周圍的各種配置錯誤到達一個可以接受的水平(由系統(tǒng)定義)。系統(tǒng)功能中的錯誤按式(2)進行計算。
(2)
N是神經(jīng)網(wǎng)絡例子中訓練樣本的數(shù)目。一個神經(jīng)元的原型是生物學中的神經(jīng)細胞,一個神經(jīng)元由體細胞和兩個樹狀的分支——軸突和樹突組成。細胞體包含了細胞的必要元素,例如細胞核(內含DNA)、細胞質等。樹突可以接受刺激并將興奮傳入細胞體。每個神經(jīng)元只有一個軸突,傳遞興奮給其他神經(jīng)元。
圖3 雙層神經(jīng)網(wǎng)絡模型
神經(jīng)元的功能特點以及它們如何結合成一個網(wǎng)絡結構決定了神經(jīng)網(wǎng)絡的功能特點。多層神經(jīng)網(wǎng)絡和多層感知器能夠滿足苛刻的識別和管理要求。設計神經(jīng)元時,每一個神經(jīng)元都會從前一層處理矢量信號,并將處理結果傳給下一層。最小實現(xiàn)是一個雙層神經(jīng)網(wǎng)絡,由輸入層、中間層(隱藏)、輸出層組成。如圖3所示。
基于人工神經(jīng)網(wǎng)絡的語音識別模型的研究目的是研究開發(fā)學習型神經(jīng)網(wǎng)絡。利用學習型神經(jīng)網(wǎng)絡來實現(xiàn)語音識別的功能。本文把人工智能和神經(jīng)網(wǎng)絡技術應用到語音識別的系統(tǒng)中,通過學習獲得固定權重并應用到模型,最后模型快速給出與輸入相匹配的輸出。在現(xiàn)有數(shù)據(jù)集實驗的基礎上,識別準確程度較好。
[1] MCCULLOCH W S,PITTS W. A logical calculus of the ideas immanent in nervous activity[J]. Bulletin of Mathematical Biophysics,1943,10(5):115-133.
[2] HOSPFIELD J.Neural networks and physical systems with emergent collective computer abilities[J].Proc Natl Acad Sci,1982,79(6):2554-2558.
[3] RITTER G X, SUSSNER P. Morphological associative memories[J]. IEEE Transactions on Neural Networks, 1998,9(2):281-292.
[4] 馮乃勤,劉春紅,張聰品,等.形態(tài)學聯(lián)想記憶框架研究[J].計算機學報,2010,33(1): 31-40.
[5] SMADI A T A. Design and implementation of double base integer encoder of term metrical to direct binary[J].Journal of Signal and Information Processing,2015,4(4):370-374.
[6] CHOUDHARY A, KSHIRSAGAR R.(2012) Process speech recognition system using artificial intelligence technique[J].International Journal of Soft Computing and Engineering(IJSCE), 2012,2(5):239-242.
[7] CUI X, AFIFY M, GAO Y,et al.Stereo hidden Markov modeling for noise robust speech recognition[J].Computer Speech & Language,2013,27(2):407-419.
[8] BENGIO Y, YAO L,ALAIN G,et al.Generalized denoising autoencoders as generative models[J].Advances in Neural Information Processing Systems,2013:899-907.
[9] SRIVASTAVA N,HINTON G,KRIZHEVSKY A,et al.Dropout:a simple way to prevent neural networks from overfitting[J].The Journal of Machine Learning Research,2014,15(1):1929-1958.
[10] 邢銘生,朱浩,王宏斌.語音識別技術綜述[J].科協(xié)論壇,2010(3):62-63.
[11] 林錫海.召喚式撿球機器人的語音識別系統(tǒng)設計與實現(xiàn)[D].廣州:廣東工業(yè)大學,2011.
[12] 史峰,王小川,郁磊,等.MATLAB 神經(jīng)網(wǎng)絡30個案例分析[M].北京:北京航空航天大學出版社,2010.
[15] 劉鈺,馬艷麗,董蓓蓓.語音識別技術概述[J].計算機光盤軟件與應用,2010(5):98-99.
[16] 廖锎.淺析語音識別技術的發(fā)展及趨勢[J].科技傳播,2010(17):34-36.
[17] 賈晶.基于STM32的嵌入式語音識別模塊設計[J].數(shù)字技術與應用,2012(6):152-153.
Research of intelligent speech recognition based on neural networks
Yang Jinghua1, Wang Shuangxi1, Zhou Sifang2,3
(1. College of Computer Science and Technology, Shangqiu University, Shangqiu 476000, China; 2. School of Computer and Information Technology, Shangqiu Normal University, Shangqiu 476000, China;3. Shangqiu Polytecnic, Shangqiu 476000, China)
Speech recognition or speech to text includes capturing and digitizing the sound waves, transformation of basic linguistic units or phonemes, constructing words from phonemes and contextually, analyzing the words to ensure the correct spelling of words that sounds the same. The paper proposed that the recognition of speech system using one of the techniques of artificial intelligence and neuron networks where this system is able to distinguish the sound signals. Fixed weights are trained first and then the system gives the output match for each of inputs with high speed. The proposed neural network model is mainly used to solve the speech recognition tasks.
speech recognition; neural networks; artificial intelligence; signal processing
河南省科技廳基礎與前沿技術研究計劃項目(132300410203)
TP183
ADOI: 10.19358/j.issn.1674- 7720.2016.17.016
2016-05-12)
楊景花(1981-),通信作者,女,學士,講師,主要研究方向:計算機應用技術。E-mail:yangjinghua81@126.com。
王雙喜(1984-)男,碩士研究生,講師,主要研究方向:模式識別、聯(lián)想記憶等。
周思方(1973-)男,在讀博士,主要研究方向:網(wǎng)絡安全。