周晶 賈江凱 孫博 李曉明
(國(guó)網(wǎng)電子商務(wù)有限公司,北京 100053)
在大數(shù)據(jù)、云計(jì)算等技術(shù)的發(fā)展下,人工智能技術(shù)研究有了較好的成果,以深度學(xué)習(xí)為基礎(chǔ)的人工智能技術(shù)應(yīng)用越來(lái)越廣泛。在當(dāng)前的語(yǔ)音識(shí)別系統(tǒng)中,對(duì)識(shí)別提出了更高的要求,一些技術(shù)有待完善,難以滿足人們的實(shí)際需求??刹捎萌斯ぶ悄艿纳疃葘W(xué)習(xí),加強(qiáng)語(yǔ)音系統(tǒng)的識(shí)別準(zhǔn)確性,使識(shí)別效果得到改善。因此,應(yīng)對(duì)人工智能技術(shù)應(yīng)用于語(yǔ)音識(shí)別的方面進(jìn)行深入研究,為語(yǔ)音識(shí)別方法創(chuàng)新帶來(lái)幫助。
語(yǔ)音識(shí)別技術(shù)是通過(guò)讓機(jī)器識(shí)別人的聲音進(jìn)行理解,將語(yǔ)音信號(hào)轉(zhuǎn)換為文本形式。在識(shí)別過(guò)程中,包括了語(yǔ)音信號(hào)預(yù)處理、信號(hào)特征提取、模型庫(kù)匹配、語(yǔ)言處理幾個(gè)環(huán)節(jié)。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,社會(huì)對(duì)智能化的需求逐漸提升,在語(yǔ)音識(shí)別研究中,可通過(guò)多方面途徑獲得原始語(yǔ)音數(shù)據(jù),并且對(duì)其進(jìn)行詳細(xì)的分析。然而在應(yīng)用語(yǔ)音識(shí)別系統(tǒng)的時(shí)候,僅僅借助傳統(tǒng)語(yǔ)音識(shí)別算法會(huì)使數(shù)據(jù)得不到有效的應(yīng)用。深度學(xué)習(xí)理論屬于一種模擬人類大腦進(jìn)行感知和學(xué)習(xí)信息的理論,借助該理論的核心可使計(jì)算機(jī)云計(jì)算與海量的語(yǔ)音數(shù)據(jù)結(jié)合起來(lái),對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行高效處理,使人們的應(yīng)用需求得到滿足,因此,深度學(xué)習(xí)理論具有有效的作用。
語(yǔ)音拾取方法包括采樣及斷點(diǎn)檢測(cè),采樣指的是語(yǔ)音信息用聲卡采集到系統(tǒng)之中,對(duì)語(yǔ)音信息模數(shù)處理后使其轉(zhuǎn)化為數(shù)字化信息。端點(diǎn)檢測(cè)是將語(yǔ)音信息中的語(yǔ)音起點(diǎn)、終點(diǎn)確定,這是預(yù)處理中的重要內(nèi)容。進(jìn)行端點(diǎn)檢測(cè)的時(shí)候通常使用的算法為能量以及過(guò)零率結(jié)合的檢測(cè)方式。
對(duì)于語(yǔ)音識(shí)別,應(yīng)選擇合適的特征,保證方法應(yīng)用的效果。通過(guò)良好的特征能夠使語(yǔ)音自身區(qū)別于其他語(yǔ)音的信息被明確地反映出來(lái),之后將沒有聯(lián)系的信息去除,達(dá)到對(duì)特征的提取。在檢測(cè)過(guò)程中,應(yīng)用該方法能夠使識(shí)別順利實(shí)現(xiàn)。
模擬訓(xùn)練及語(yǔ)音識(shí)別判決是兩個(gè)步驟,在訓(xùn)練過(guò)程中選擇識(shí)別適合的方法,通過(guò)訓(xùn)練以及聚類的方式來(lái)獲取語(yǔ)音參數(shù),以參數(shù)為模板進(jìn)行存儲(chǔ),當(dāng)識(shí)別系統(tǒng)中存儲(chǔ)了大量的識(shí)別字參數(shù)模板后,可產(chǎn)生模板數(shù)據(jù)庫(kù)。在識(shí)別的過(guò)程中,將識(shí)別的內(nèi)容與參考模板數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行比較和分析,具有最大相似度的是識(shí)別出來(lái)的字。
語(yǔ)音識(shí)別系統(tǒng)應(yīng)用中,將語(yǔ)音信號(hào)特征提取出來(lái)是關(guān)鍵的環(huán)節(jié),通過(guò)該環(huán)節(jié)能夠使語(yǔ)音信號(hào)中的大量信息得到量化,進(jìn)而從中找出代表語(yǔ)音信號(hào)的特征,實(shí)施聲學(xué)模型的分析及處理。通過(guò)對(duì)深度學(xué)習(xí)的研究,實(shí)現(xiàn)圖像的識(shí)別之后,在語(yǔ)音識(shí)別中發(fā)揮了有效的作用,這使語(yǔ)音識(shí)別的效果增強(qiáng)。深度學(xué)習(xí)中的訓(xùn)練方式具有特殊性,可將多種優(yōu)良初始權(quán)值以及偏重給予神經(jīng)網(wǎng)絡(luò),這樣可使神經(jīng)網(wǎng)絡(luò)模型接受訓(xùn)練的過(guò)程中不會(huì)產(chǎn)生局部最優(yōu)解的問(wèn)題,還能夠收斂到合理極值點(diǎn)。此外,深度神經(jīng)網(wǎng)絡(luò)可描繪原始音素相關(guān)數(shù)據(jù)中的本質(zhì)特征,使數(shù)據(jù)的可區(qū)分性加強(qiáng),同時(shí)能夠提升語(yǔ)音識(shí)別系統(tǒng)的識(shí)別性能。
進(jìn)行語(yǔ)音預(yù)處理的時(shí)候,需要進(jìn)行數(shù)據(jù)模型訓(xùn)練,由于網(wǎng)絡(luò)模型層數(shù)比較深,網(wǎng)絡(luò)的結(jié)構(gòu)比較復(fù)雜,在訓(xùn)練的過(guò)程中,應(yīng)對(duì)大量的參數(shù)進(jìn)行調(diào)整,需要使用自編碼器模型,可避免產(chǎn)生局部最優(yōu)以及過(guò)擬合的情況。在語(yǔ)音識(shí)別的模擬訓(xùn)練中,開展的目的是使語(yǔ)音識(shí)別系統(tǒng)能夠掌握語(yǔ)音特征值,在輸入了較多的數(shù)據(jù)之后,通過(guò)多次的循環(huán)訓(xùn)練才可得到理想的深度識(shí)別效果。不僅需要將語(yǔ)音識(shí)別系統(tǒng)中添加模擬訓(xùn)練模板,還應(yīng)對(duì)模板庫(kù)文字進(jìn)行判別,投入較多的相似度高的字,在這樣的方式下進(jìn)行訓(xùn)練可使語(yǔ)音識(shí)別的效果加強(qiáng),提升了識(shí)別的效率,避免產(chǎn)生錯(cuò)誤問(wèn)題。
隨著人工智能技術(shù)的快速發(fā)展,人機(jī)互動(dòng)的應(yīng)用也逐漸普及,在溝通過(guò)程中,其中包含著一些感情,可將語(yǔ)音情感識(shí)別融入到語(yǔ)音識(shí)別系統(tǒng)中。識(shí)別分析出語(yǔ)音之中的情感信息,同時(shí)將其中的信息提取出來(lái)具有較大的難度,要想實(shí)現(xiàn)這個(gè)功能,需要經(jīng)歷復(fù)雜的過(guò)程,僅僅以語(yǔ)音來(lái)識(shí)別其中包含的情感有著較大的困難,可將發(fā)聲器官的運(yùn)動(dòng)數(shù)據(jù)、人的面部表情數(shù)據(jù),根據(jù)聲學(xué)及運(yùn)動(dòng)學(xué)習(xí)來(lái)進(jìn)行語(yǔ)音情感識(shí)別,在這個(gè)過(guò)程中需要采集大量的數(shù)據(jù),在采集完成之后,需要對(duì)數(shù)據(jù)的特征進(jìn)行提取,融合到語(yǔ)音識(shí)別系統(tǒng)之中,可使語(yǔ)音情感識(shí)別效果加強(qiáng),提升了識(shí)別的水平。
人工智能下深度學(xué)習(xí)理論能夠?yàn)檎Z(yǔ)音識(shí)別提供更多的條件,語(yǔ)音識(shí)別的要求逐漸提升,為了滿足語(yǔ)音識(shí)別的不同需求,應(yīng)結(jié)合深度學(xué)習(xí)對(duì)語(yǔ)音識(shí)別系統(tǒng)進(jìn)行改善,合理利用語(yǔ)音識(shí)別方法,根據(jù)語(yǔ)音識(shí)別的實(shí)際需求,應(yīng)加強(qiáng)語(yǔ)音系統(tǒng)對(duì)特征的識(shí)別,還應(yīng)多次開展語(yǔ)音識(shí)別的模擬訓(xùn)練,并且根據(jù)聲學(xué)特征及運(yùn)動(dòng)學(xué)特征進(jìn)行識(shí)別,為語(yǔ)音識(shí)別系統(tǒng)的應(yīng)用帶來(lái)了幫助,實(shí)現(xiàn)智能化識(shí)別,進(jìn)而使語(yǔ)音識(shí)別發(fā)揮出更多的功能。