李為州 楊印根
摘要:在說話人識別系統(tǒng)中,為了精確地將說話人的特征表現(xiàn)出來,往往需要用到超向量,為解決在說話人識別中超向量維度高,運算量較大的問題,該文提出了基于深度學(xué)習(xí)的降維方法,利用通過多個受限玻爾茲曼機堆疊而成的深度信念網(wǎng)絡(luò)對超向量進行降維。實驗表明,深度信念網(wǎng)絡(luò)方法在說話人識別中超向量降雛有著更好的效果,其分類的準(zhǔn)確率高于傳統(tǒng)的降維方法。
關(guān)鍵詞:超向量;降維;深度學(xué)習(xí);深度信念網(wǎng)絡(luò);受限玻爾茲曼機
中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1009-3044(2017)22-0176-03
說話人識別技術(shù),又稱為聲紋識別技術(shù),它是生物識別技術(shù)的一個分支。因為每個人的聲道形狀,喉嚨大小,以及其他發(fā)聲器官的不同,所以每個人的聲音各有特色。由于人與人之間存在這樣的物理性差異,因此每個說話人都有獨特的說話特點,說話人識別技術(shù)則是根據(jù)這些特點對說話人身份進行識別和辨別的一項技術(shù)。
進行說話人識別時,隨著說話人樣本規(guī)模的不斷增加,系統(tǒng)對說話人識別的準(zhǔn)確率則會隨之衰減,為了提高說話人系統(tǒng)的識別性能,需要獲取更精確的表征說話人信息的特征向量,因此超向量(SuperVector)的概念被提了出來。超向量的基本理念是通過特定的方法,將大量的說話人訓(xùn)練語音幀特征向量進行壓縮、映射,從而構(gòu)造成高維度的、固定維度的特征向量。具體來說,就是利用說話人識別中的經(jīng)典模型——基于通用背景模型(university Background Model,UBM)的高斯混合模型(Gaussian Mixture Model,GMM),對于目標(biāo)說話人,利用UBM并且采用最大后驗概率fMaximum a Postteriori,MAPl進行自適應(yīng),得到一個與UBM大小相同的一個目標(biāo)說話人GMM。訓(xùn)練中只更新GMM的均值,再將向量中的均值連接起來,得到GMM均值超向量,稱為超向量。然而,在研究中發(fā)現(xiàn)超向量的維數(shù)比較高,高維度的信息并不都是有用的信息,有些有用的,能夠反應(yīng)說話人的信息,有些是不確定是否有用,暫時還不知道如何使用的信息,還有一些則是沒用的,并且還有可能淹沒有用信息的無用信息,這樣并不利于后續(xù)分類算法的訓(xùn)練,因此需要對超向量進行處理。
在處理高維度數(shù)據(jù)的關(guān)鍵之處在于從眾多的影響因素中尋找到最本質(zhì)的因素,消除冗余,換句話說就是從高維度數(shù)據(jù)中尋求其低維表示,同時保留其必要特征的映射或變換過程,這就是降維。具體來說就是通過一個映射F,將一個數(shù)據(jù)集X={xi∈RN}變換為Y={yi∈Rn}(n 在過去的幾十年里,有眾多的降維方法被提出來,根據(jù)對數(shù)據(jù)處理方式的不一樣,將數(shù)據(jù)降維算法分為線性降維和非線性降維。線性降維是指通過降維所得到的低維數(shù)據(jù)能夠保持與高維數(shù)據(jù)點之間的線性關(guān)系,線性降維算法包括主成份分析(PCA)、線性判決分析(LDA)等。非線性降維有兩種,一種是基于核的,它是將原始的數(shù)據(jù)隱式地映射到更高維的特征空間中,以便于在特征空間中利用線性的方法對數(shù)據(jù)進行處理,如核主成份分析(KPCA)、核獨立成分分析(KLDA)等,另一種則是通常所提到的流形學(xué)習(xí),即從高維采樣數(shù)據(jù)中恢復(fù)出低維流形結(jié)構(gòu),求出相應(yīng)的鑲嵌映射,如等距映射(ISOMAP)、局部線性嵌入(LLE)等。 人工神經(jīng)網(wǎng)絡(luò)fArtificial Neural Network,ANN)是人工智能(Artificial Intelligence,AI)中的一個由大量神經(jīng)元構(gòu)成進行計算的自適應(yīng)模型或計算數(shù)學(xué)模型。人工神經(jīng)網(wǎng)絡(luò)在其發(fā)展過程中經(jīng)歷了一些曲折,使得其發(fā)展停滯了長達數(shù)十年之久。直到2006年,Hinton在《科學(xué)》雜志上發(fā)表了一篇關(guān)于深度神經(jīng)網(wǎng)絡(luò)的論文,從此開啟了深度學(xué)習(xí)(Deep Learning,DLl在學(xué)術(shù)界和工業(yè)界的浪潮。深度學(xué)習(xí)常用的方法和模型有,自動編碼器(AutoEncoder,AE)、稀疏編碼(Sparse Coding,SC)、受限玻爾茲曼機(Restricted Bohzmann Machine,RBM)、深度信念網(wǎng)絡(luò)(DeepBelief Networks,DBN)等。本文所使用的降維方法則是基于多層受限玻爾茲曼機的深度信念網(wǎng)絡(luò),構(gòu)建了一種數(shù)據(jù)降維模型,對超向量進行降維,然后將降維后的數(shù)據(jù)應(yīng)用到說話人識別系統(tǒng)中進行驗證。 1深度信念網(wǎng)絡(luò)算法 本文在對超向量進行降維的時候,需要構(gòu)建一個深度信念網(wǎng)絡(luò),深度信念網(wǎng)絡(luò)是通過多個受限玻爾茲曼機堆疊而成。 1.1受限玻爾茲曼機的基本概念 受限玻爾茲曼機是一類具有兩層結(jié)構(gòu)、對稱連接的隨機神經(jīng)網(wǎng)絡(luò),一層為可視層,一層為隱藏層。RBM的層間是全連接的,而層內(nèi)是無連接的。受限玻爾茲曼機的結(jié)構(gòu)如圖1所示,上面為隱藏層,下面為可見層。 1.2構(gòu)造受限玻爾茲曼機 假設(shè)一個首先玻爾茲曼機有n個可視單元和m個隱藏單元,用向量v和向量h分別表示受限玻爾茲曼機可視單元和隱藏單元的狀態(tài)。那么受限玻爾茲曼機作為一個系統(tǒng),它的可視單元和隱藏單元的聯(lián)合能量公式為: 基于上述的聯(lián)合能量公式,可以得到v和h的聯(lián)合概率分布,其定義為: 由于RBM層與層之間有連接,而層內(nèi)是無連接的,根據(jù)這一特性,可視單元狀態(tài)確定時,各個隱藏單元的激活狀態(tài)之間是條件獨立的,令第j個隱藏單元的特征值取1的概率為: 再根據(jù)RMB的對稱性,又可以得出第i個可視單元的激活概率: 通過激活概率,可以將可見層的數(shù)據(jù)進行重構(gòu),隱藏層再根據(jù)重構(gòu)后的數(shù)據(jù)對自己的狀態(tài)進行更新。對于權(quán)值的更新變化公式為: 2實驗過程及結(jié)果分析 2.1實驗設(shè)置 本文的實驗是基于ALIZE平臺,運行于Intel Xeon CPUE5-2620 v3 2.40GHz服務(wù)器環(huán)境下進行的,實驗所使用的說話人語音是來美國國家標(biāo)準(zhǔn)技術(shù)研究院(National Institute of Stan-dards and Technology,NIST)說話人評測(Speaker RecognitionEvaluation,SRE)2008年的核心語音庫。語音首先進行預(yù)處理和特征提取,語音幀長為20ms,幀移10ms,提取13維MFCC特征及其一階、二階差分組合成39維輸入特征,GMM采用1024階混合,用NIST SRE04、05和06年語音數(shù)據(jù)集數(shù)據(jù)分別訓(xùn)練出1024階性別相關(guān)的通用背景模型UBM,并用最大后驗概率(MAP)進行自適應(yīng),訓(xùn)練中只更新均值,再將向量中的均值連接起來,得到GMM均值超向量。
將得到的超向量通過深度學(xué)習(xí)的方法進行降維,訓(xùn)練出400維的i-vector,并將降維后的結(jié)果運用到說話人識別的實驗中,實驗結(jié)果通過等錯誤率(EER)和最小檢測代價函數(shù)(minD-CF)進行評估。
2.2實驗過程
使用多層RBM堆疊的深度信念網(wǎng)絡(luò)對超向量進行降維時,是需要設(shè)置一些參數(shù)的,比如最大訓(xùn)練的迭代次數(shù)、隱藏層節(jié)點的數(shù)量、學(xué)習(xí)率、參數(shù)的初始值等。Hilton等提出通過RBM進行預(yù)訓(xùn)練,獲取理想的實驗參數(shù)。在預(yù)訓(xùn)練階段,通過第一層的RBM進行訓(xùn)練,生成的數(shù)據(jù)將作為下一層RBM的可視層單元進行訓(xùn)練,這樣一層一層的學(xué)習(xí),重復(fù)多次。然后將降維得到的數(shù)據(jù)進行反向解碼,生成高維數(shù)度,與原來的數(shù)據(jù)進行相似度對比,并調(diào)整RBM的參數(shù),使其達到要求的精度。設(shè)置學(xué)習(xí)率的時候,學(xué)習(xí)率不宜過大,否則會導(dǎo)致重構(gòu)誤差急劇增大,權(quán)重也會變得非常大。設(shè)置隱藏層節(jié)點數(shù)量的時候,基于所得的數(shù),選擇低于這個數(shù)一個數(shù)量級的值作為隱藏單元的個數(shù),如果訓(xùn)練數(shù)據(jù)高度冗余,則可以選擇更少的隱藏單元。最大訓(xùn)練的迭代次數(shù)對實驗結(jié)果也有影響,增加迭代次數(shù)可以提高結(jié)果精確度,但并不是迭代次數(shù)越大越好。進行預(yù)訓(xùn)練時,通過重構(gòu)誤差的大小來反應(yīng)RBM對訓(xùn)練數(shù)據(jù)的似然度,重構(gòu)誤差的計算非常簡單,只需要將重構(gòu)數(shù)據(jù)與原數(shù)據(jù)的差值求平方,每次結(jié)果累加起來,就是重構(gòu)誤差。雖然重構(gòu)誤差不是完全的可靠,但是在實驗過程中還是非常有用的。
2.3實驗結(jié)果與分析
本文測試使用的超向量樣本為6939對39936維度的男性樣本和9552對39936維度的女性樣本。使用上文所介紹的基于四層RBM堆疊的深度信念網(wǎng)絡(luò)對其進行降維,將維度降低到400維。在實驗中,最大迭代次數(shù)為50次,學(xué)習(xí)率設(shè)置為0.1,動量的初始學(xué)習(xí)率設(shè)置為0.5,當(dāng)重構(gòu)誤差趨于平穩(wěn)增加的狀態(tài)時,動量的最終學(xué)習(xí)率設(shè)置為0.9。實驗結(jié)果的評測方法使用的是等錯誤率(Equal Error Rate,EER)和最小檢測代價函數(shù)(minimal Detection Cost Funcfion,min_DCF)進行評估。表1和表2分別為男性和女性的實驗結(jié)果。
從表中的數(shù)據(jù)可以看出基于深度信念網(wǎng)絡(luò)的方法等錯誤率有一定的提高,因此將深度信念網(wǎng)絡(luò)方法應(yīng)用于說話人識別中的超向量降維是可行的。
3結(jié)束語
本文針對在說話人識別中,超向量維度高的特點,提出了基于深度信念網(wǎng)絡(luò)的降維方法。具體方法是,通過多個RBM堆疊成一個深度信念網(wǎng)絡(luò),超向量通過RBM進行一層一層的降維,每一層學(xué)習(xí)生成的數(shù)據(jù)將作為下一層RBM的可視單元進行訓(xùn)練,最終生成目標(biāo)維度的數(shù)據(jù),然后將生成的數(shù)據(jù)通過RBM進行反向解碼,一層一層的還原為高維數(shù)據(jù),并與原先的數(shù)據(jù)進行相似度對比,通過調(diào)整RBM里面的各項參數(shù),提高精確度。在預(yù)訓(xùn)練過程中,通過重構(gòu)誤差的大小來反應(yīng)RBM對訓(xùn)練數(shù)據(jù)的似然度,當(dāng)各項參數(shù)調(diào)整好后,對生成的數(shù)據(jù)進行說話人實驗。實驗表明,深度信念網(wǎng)絡(luò)方法在說話人識別中超向量降維有著更好的效果,其分類的準(zhǔn)確率高于傳統(tǒng)的降維方法。
盡管初步驗證證明深度學(xué)習(xí)可以運用于說話人識別中的超向量降維,然而如何在保證準(zhǔn)確率的前提下提高運行效率以及深度學(xué)習(xí)能否應(yīng)用于說話人識別技術(shù)的其他方面,這些諸多問題還值得進一步的研究。endprint