黃繼鵬,陳 志,芮 路,王宇虹
(南京郵電大學 計算機學院,江蘇 南京 210023)
基于模糊聚類決策樹的分布式語者識別算法
黃繼鵬,陳 志,芮 路,王宇虹
(南京郵電大學 計算機學院,江蘇 南京 210023)
為解決大規(guī)模語者識別問題中普遍存在的加性噪聲、高計算復雜度等問題,提高大規(guī)模語者識別算法的抗噪性和魯棒性,利用模糊聚類決策樹,提出了一種分布式語者識別算法。該算法將訓練數(shù)據(jù)等分成幾個部分,對這幾個部分分別使用基于模糊聚類的決策樹算法進行訓練;對于輸入的測試樣本,用建好的決策樹進行分類,判斷它屬于哪棵樹的哪個葉節(jié)點;在該選定的葉節(jié)點上使用梅爾頻率倒譜系數(shù)和高斯混合模型識別方法識別該語者身份。對訓練數(shù)據(jù)進行模糊聚類的過程主要包括四個步驟:根據(jù)相應的層提取語音特征;計算特征數(shù)據(jù)的均值和標準差得到信任間距集合;對集合使用Lloyd算法得到分隔向量;以分隔向量為基礎進行聚類分組得到下一層的節(jié)點。實驗結果表明,與傳統(tǒng)的硬聚類算法相比,該算法能夠提高語者識別的準確率和分類效率,對加性噪聲具有良好的抗干擾能力。
語者識別;模糊聚類;決策樹;分布式計算
在語者識別中,給出一個輸入語音,要求從系統(tǒng)提供的所有語者中選擇一個來確定未知語者的身份[1],這個過程通常用到梅爾頻率倒譜系數(shù)、高斯混合模型等方法[2-4]。上述方法在低噪聲條件下對小型語者表現(xiàn)非常好,但是在高噪聲條件下會嚴重地降低識別性能,并且當語者數(shù)量明顯增時,識別錯誤的可能性將大大增加[5]。Kenny等提出基于I向量的語音識別和語者身份確認方法,該方法通常需要大量表現(xiàn)良好的數(shù)據(jù),但當把I向量應用于大規(guī)模語者識別時,計算復雜度可能會很高[6]。Graves等提出使用遞歸神經(jīng)網(wǎng)絡進行語者識別的方法,在噪聲較小的情況下,該方法準確率較高,但對于高噪聲的數(shù)據(jù)效果不盡如人意,并且使用深度網(wǎng)絡在數(shù)據(jù)量較大時計算復雜度很高[7]。Chorowski等研究了使用機器翻譯模型進行語音識別錯誤率較高的原因,提出了一種基于注意力模型的方法該方法可以防止單幀過于集中,提高了語音識別的魯棒性和抗噪聲性,但計算復雜度較高[8]。
可見,普遍存在的加性噪聲和大規(guī)模語者識別的應用需求使得語者識別算法設計需要解決以下問題:
(1)語音數(shù)據(jù)的噪聲可能會導致訓練和測試之間的錯誤匹配,降低語者識別的正確性。
(2)當識別的語者數(shù)量顯著增加時,識別的錯誤率也將可能提高。在傳統(tǒng)的梅爾頻率倒譜系數(shù)和高斯混合模型的方法中,語者規(guī)模增長時,識別準確性持續(xù)減小,當規(guī)模增長到100時,準確性發(fā)生最大下降;與10個語者的案例相比,630個語者大約有30%的準確性損失[4]。
(3)當語者規(guī)模變大時,識別效率隨之下降,而計算復雜性相應提高[9]。
良好的語者識別算法需要有較強的魯棒性和抗噪性,能夠克服大規(guī)模語者識別錯誤率高、計算復雜度高等問題。為此,結合決策樹[10]和模糊聚類[11],設計了一種分布式語者識別算法,以解決上述問題。
基于模糊聚類決策樹的分布式語者識別包括四個過程:將訓練數(shù)據(jù)等分成三個部分;對等分過的數(shù)據(jù)分別使用基于模糊聚類的決策樹分類;決定測試語者屬于哪棵樹的哪個葉節(jié)點;對該選定的葉節(jié)點使用梅爾頻率倒譜系數(shù)和高斯混合模型識別技術識別該語者身份。在決策樹的每一層的建樹過程中采用模糊聚類,即在每一層上一個語者可能屬于多個節(jié)點。圖1給出了基于模糊聚類決策樹的分布式語者識別框架。
1:輸入樣本S2:將樣本分為3份,s1,s2,s3∈S3:forallsi∈S4:使用模糊聚類算法建成決策樹ti5:輸入測試語音6:決定該語者屬于哪個葉節(jié)點7:使用MFCC+GMM算法進行識別8:輸出語者身份9:endfor
圖1 基于模糊聚類決策樹的分布式語者識別框架
在該框架中,首先輸入樣本S,將其分為s1,s2,s3用于分布式處理;對每個樣本,使用模糊聚類算法建成一棵決策樹ti,將大量的語者分類到不同的葉子節(jié)點,縮小語者規(guī)模;對于輸入的測試語音,先判斷該語者屬于哪個葉節(jié)點,再在所屬葉節(jié)點的人群中使用梅爾頻率倒譜系數(shù)和高斯混合模型的算法進行識別,最后輸出語者身份。上述分布式策略用于降低計算復雜度,而用模糊聚類決策樹分類將目標語者縮小,制造出傳統(tǒng)語者識別方法適合的語者規(guī)模,以提高對加性噪聲的抗性和識別精確性。
此外,在分布式語者識別框架中,決策樹建樹過程會從語者語音信號提取語音的音調(diào)、語音信號正脈沖的均值、語音信號正脈沖的偏度、語音信號負脈沖的均值、語音信號負脈沖的偏度、語音信號正脈沖的寬度等六種特征,決策樹每一層將提取一個特征。給定一個連續(xù)的語音輸入,使用YIN算法[12]將語音分解成等長的NF幀,一幀的長度是25 ms,幀移位長度是10 ms。在語者語音信號提取中,音調(diào)的提取方法為:獲得第i幀的音調(diào)值Pi和有聲概率Pri(i=0,1,…,NF);去掉50~550 Hz范圍之外的音調(diào)值,同時去掉從有聲概率低于0.8的幀中提取的音調(diào)值;得到音調(diào)值的集合。其他五個語音特征的提取方法:計算每一幀的能量Ei和過零率Zi,并判斷該幀是否有聲,若不是,不進行操作,若是,則用Levinson-Durbin算法[13-15]計算線性預測系數(shù);通過使用線性預測系數(shù)得到線性預測剩余信號;從LP剩余信號中提取五個聲源特征。
提取的特征表示為Fi,j,i是當前節(jié)點上的語者索引,j是特征索引,j=0,1,…,Ni,Ni表示語者i的特征值總數(shù)。
根據(jù)分布式語者識別框架,從節(jié)點模糊聚類分類、識別語者身份兩個方面,設計基于模糊聚類決策樹的分布式語者識別算法。
2.1 節(jié)點模糊聚類分類
在圖1的框架中,語音樣本數(shù)據(jù)等分成三個部分,這些等分后的語音樣本數(shù)據(jù)分別作為一棵決策樹的根節(jié)點C1進行建樹;每一個語音樣本都來自不同的語者,Cn1,n2,…,nL,nL+1表示L層的第nL+1個節(jié)點。此外,使用基于模糊聚類的決策樹對等分過的數(shù)據(jù)進行分類,對已建好的一棵樹,先對根節(jié)點進行分組,得到的子節(jié)點執(zhí)行相同的步驟繼續(xù)進行分組直到建成決策樹。圖2給出了一個節(jié)點的模糊聚類分類過程。
1:if節(jié)點上的語者數(shù)>預設值2:提取特征值3:計算μi,δi4:構建信任間距集合{μi-λδi,μi+λδi}5:使用Lloyd的算法得到分隔向量[P0,P1,…,PM]和下面組群數(shù)M6:創(chuàng)建M個子節(jié)點7:forall語者i∈C18:索引mi=19:whilem!=M+110:if[μi-λδi,μi+λδi]∩[Pm-1Pm]>011:語者i∈C1,m12:endif13:m=m+114:endwhile15:endfor16:endif
圖2 一個節(jié)點的模糊聚類分類過程
根據(jù)圖2,在節(jié)點的模糊聚類分類中,首先判斷當前節(jié)點中的樣本數(shù)量是否大于預設值,若不大于則該節(jié)點為葉節(jié)點,不需要再進行分組;然后對節(jié)點上的樣本進行特征提取,每一層只提取一種特征,依次提取音調(diào)、語音信號正脈沖的均值、語音信號正脈沖的偏度、語音信號負脈沖的均值、語音信號負脈沖的偏度和語音信號正脈沖的寬度。
在完成節(jié)點樣本特征提取后,根據(jù)式(1)、式(2)計算每個語者特征數(shù)據(jù)的平均值和標準差。
(1)
(2)
其中,μi為語者i的特征數(shù)據(jù)的平均值;δi為語者i的特征數(shù)據(jù)的標準差;Fi,j為提取出的特征,i是當前節(jié)點上的語者索引,j(j=0,1,…,Ni)是特征索引,Ni為語者i的特征值總數(shù)。
構建一個可信任的間距[μi-λδi,μi+λδi],λ是一個預定的系數(shù);得到所有語者兩個統(tǒng)計數(shù)據(jù)μi±λδi的集合D={μi-λδi,μi+λδi}。
在獲得每個語者特征數(shù)據(jù)的平均值和標準差后,對集合D使用Lloyd算法[16]得到分隔向量[P0,P1,…,PM],M為Lloyd算法采用的語者組的總數(shù)。以此分隔向量為基礎,創(chuàng)建全部M個子節(jié)點。對每個語者i(i∈C1)進行分組,判斷其屬于C1,m(m=1,2,…,M)中的哪一個,m初始為1,若[μi-λδi,μi+λδi]∩[Pm-1,Pm]>0,則語者i屬于C1,m,如此直到m等于M,所有語者都分組完畢,所得的C1,m即是決策樹的下一層。
2.2 識別語者身份
根據(jù)基于模糊聚類決策樹的分布式語者識別框架,對已建好的三棵決策樹,分別同時從決策樹的根節(jié)點開始,對測試語者進行分類,直到其中一棵樹分類完成,即識別出該語者身份。識別過程如圖3所示。
1:while該節(jié)點不為葉節(jié)點2:特征值提取3:異常值去除4:計算特征平均值μ5:m=16:while!(Pm-1≤μ≤Pm)7:m=m+18:endwhile9:endwhile10:使用MFCC+GMM識別語音身份
圖3 語者身份識別過程
在圖3中,從樹的根節(jié)點開始,對測試語者進行分類直到結束或找到測試語者屬于的葉節(jié)點,每個節(jié)點上執(zhí)行的分類步驟相同。首先判斷該節(jié)點是否為葉節(jié)點,若是則對該節(jié)點使用梅爾頻率倒譜系數(shù)和高斯混合模型進行身份識別;對測試語者的語音進行特征提取和異常值去除,且相應的層只提取相應特征,得到特征集合{Fk},k=1,2,…,K,K為特征值總數(shù)。使用式(3)計算特征值的平均值:
(3)
此后,通過比較平均值和從模糊聚類中的Lloyd算法得到的分隔向量[P0,P1,…,PM]來做分類決定,令m=1,判斷是否有Pm-1≤μ≤Pm,若不是,則令m=m+1,重復此步驟繼續(xù)判斷直到m等于M;若是,則該測試語者被分類到子節(jié)點且此層分類結束。在比較的基礎上,當有且僅有一個節(jié)點在L層是可用的且L層的基于決策樹的分類結束時,分類將會從L層的該可用節(jié)點上以相同的方式繼續(xù)進行,直到一個葉節(jié)點最終可用。最終,對選中的葉節(jié)點使用梅爾頻率倒譜系數(shù)和高斯混合模型識別技術識別測試語者身份。
實驗采用從www.audible.com等在線有聲讀物網(wǎng)站收集的數(shù)據(jù),將所有的mp3樣例以11.025 kHz的抽樣率轉(zhuǎn)換成wav格式,假設這些語者都不相同,共得到1 300個語者的語音,每個語音的時長為20 s,在高斯白噪聲下的信噪比為25 dB。
在實驗中,1 300段語音用來構建一棵六層決策樹,音調(diào)特征的參數(shù)包括構建信任間距的λ值和Lloyd算法采用的聚類數(shù)量;對于另外五個聲源特征,除了以上列出的兩個參數(shù),還有一個額外的關于異常值去除的比例參數(shù)。表1給出了決策樹每一層所構建信任間距的λ值和Lloyd算法采用的聚類數(shù)量以及每一層語者縮減率和準確率。
表1 決策樹每一層參數(shù)和性能指標
實驗將1 300段語音通過訓練的決策樹做分類測試,在某一層的分類精確性是以在該層上被分到正確節(jié)點的語者所占百分比計算的。為了計算某一層的語者縮減率,給該層的節(jié)點加權并且所加權重是由該層上語音被分到正確節(jié)點的百分比決定的。例如,1 000個語者全部被正確的分到樹的某一層,其中有100個語者被正確地分到該層上語者規(guī)模(容量)為200的節(jié)點上,那么當計算該層所有節(jié)點的加權平均語者時,該節(jié)點分配的權重是100/1 000=10%。根據(jù)表1,從樹的高層到低層,分類精確性持續(xù)下降,語者縮減率持續(xù)增加。在25 dB的情況下,實驗中六層決策樹在底層能夠獲得97.01%的分類精確性和94.75%的語者縮減率,性能表現(xiàn)很好。
下面比較模糊聚類決策樹和傳統(tǒng)聚類決策樹的性能表現(xiàn)。實驗使用與表1相同的六個特征構建兩棵樹,圖4和圖5給出了兩種不同聚類方法的實驗結果。
圖4 模糊聚類決策樹和傳統(tǒng)聚類決策樹語者縮減率對比
從圖4和圖5可以看出,模糊聚類決策樹的分類精確性比傳統(tǒng)聚類決策樹的精確性高得多,而兩棵樹的語者縮減率基本相同??梢姡:垲悓嬙焖捎玫臎Q策樹好于傳統(tǒng)的硬聚類方法。
圖5 模糊聚類決策樹和傳統(tǒng)聚類決策樹準確率對比
為解決存在加性噪聲的大規(guī)模語者識別問題,提出了一種基于模糊聚類決策樹的分布式語者識別算法。該算法劃分訓練數(shù)據(jù),使用基于模糊聚類的決策樹分別進行分類,通過決定測試語者屬于哪棵樹的哪個葉節(jié)點,縮小識別語者的規(guī)模,結合梅爾頻率倒譜系數(shù)和高斯混合模型來識別未知語者的身份。實驗結果表明,利用基于模糊聚類的決策樹能夠顯著提高分類準確率,而分布式建樹極大地提高了分類效率,同時對加性噪聲有良好的抗干擾力。
在后續(xù)研究中,可以考慮對分類算法、語音特征提取算法等進行優(yōu)化。此外,設計脫離梅爾頻率倒譜系數(shù)和高斯混合模型的新識別算法,尋找合適的深度學習架構來進行語者身份識別等也是值得探索的方向。
[1] Togneri R,Pullella D.An overview of speaker identification:accuracy and robustness issues[J].IEEE Circuits and Systems Magazine,2011,11(2):23-61.
[2] Reynolds D A,Rose R C.Robust text-independent speaker identification using Gaussian mixture speaker models[J].IEEE Transactions on Speech and Audio Processing,1995,3(1):72-83.
[3] Reynolds D A,Quatieri T F,Dunn R B.Speaker verification using adapted Gaussian mixture models[J].Digital Signal Processing,2000,10(1):19-41.
[4] Reynolds D A. Speaker identification and verification using Gaussian mixture speaker models[J].Speech Communication,1995,17(1):91-108.
[5] Hasan M R,Jamil M,Rahman M G,et al.Speaker identification using mel frequency cepstral coefficients[C]//Proceedings of the 3rd international conference on electrical & computer engineering.[s.l.]:IEEE,2004:565-568.
[6] Kenny P,Boulianne G, Ouellet P,et al. Joint factor analysis versus eigenchannels in speaker recognition[J].IEEE Trans-actions on Audio,Speech,and Language Processing,2007,15(4):1435-1447.
[7] Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks[C]//Proceedings of the 2013 IEEE international conference on acoustics, speech and signal processing.[s.l.]:IEEE,2013:6645-6649.
[8] Chorowski J K, Bahdanau D, Serdyuk D, et al.Attention-based models for speech recognition[C]//Advances in neural information processing systems.[s.l.]:Neural Information Processing Systems Foundation,2015:577-585.
[9] Hu Y,Wu D,Nucci A.Fuzzy-clustering-based decision tree approach for large population speaker identification[J].IEEE Transactions on Audio,Speech,and Language Processing,2013,21(4):762-774.
[10] Safavian S R,Landgrebe D.A survey of decision tree classifier methodology[J].IEEE Transactions on Systems,Man,and Cybernetics,1991,21(3):660-674.
[11] 孫吉貴,劉 杰,趙連宇.聚類算法研究[J].軟件學報,2008,19(1):48-61.
[12] de Cheveigné A,Kawahara H.YIN,a fundamental frequency estimator for speech and music[J].Journal of the Acoustical Society of America,2002,111(4):1917-1930.
[13] Musicus B R.Levinson and fast Choleski algorithms for Toeplitz and almost Toeplitz matrices[D].[s.l.]:Massachusetts Institute of Technology,1988.
[14] Sim K S,Lim M S,Yeap Z X.Performance of signal-to-noise ratio estimation for scanning electron microscope using autocorrelation Levinson-Durbin recursion model[J].Journal of Microscopy,2016,263(1):64-77.
[15] Selvaperumal S K,Nataraj C,Thiruchelvam V,et al.Speech to text synthesis from video automated subtitling using levinson durbin method of linear predictive coding[J].International Journal of Applied Engineering Research,2016,11(4):2388-2395.
[16] Lloyd S P.Least squares quantization in PCM[J].IEEE Transactions on Information Theory,1982,28(2):129-137.
Distributed Speaker Identification Algorithm with Fuzzy Clustering Decision Tree
HUANG Ji-peng,CHEN Zhi,RUI Lu,WANG Yu-hong
(College of Computer,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)
In order to solve the problems of additive noise and high computational complexity in speaker identification and to improve the robustness and anti-noise ability of the large scale speaker identification algorithm,a distributed speaker identification algorithm with fuzzy clustering decision tree has been presented,which divides training data into several parts,and builds fuzzy clustering decision trees for these parts.For testing data,fuzzy decision trees has been employed,which are built in the previous step to decide which leaf node the people’s speech belongs to.The speaker is identified by using the Mel-Frequency Cepstral Coefficients and the Gauss mixture model identification method on the selected leaf nodes.The process of fuzzy clustering on training data mainly includes four parts,i.e.extracting feature data from the corresponding layer,calculating the mean and standard deviation of the feature data,using Lloyd algorithm to get the separation vector,clustering to get the nodes of the next layer.The experimental result shows that compared with the traditional hard clustering algorithm,the proposed algorithm has improved the accuracy and classification efficiency of speaker identification,with the good anti-interference ability to the additive noise.
speaker identification;fuzzy clustering;decision tree;distributed computing
2016-04-18
2016-08-03 網(wǎng)絡出版時間:2017-06-05
國家自然科學基金資助項目(61501253);江蘇省“六大人才高峰”第十一批高層次人才選拔培養(yǎng)資助項目(XXRJ-009);江蘇省基礎研究計劃(自然科學基金)項目(BK20131382,BK20151506);江蘇省重點研發(fā)計劃(社會發(fā)展)項目(BE2016778);江蘇省高等教育教學改革“重中之重”立項研究課題(2013JSJG005);國家級大學生創(chuàng)新創(chuàng)業(yè)訓練計劃項目(201410293011,201510293014);江蘇省高等學校大學生創(chuàng)新創(chuàng)業(yè)訓練計劃立項項目(201410293011Z、201510293014Z);南京郵電大學大學生創(chuàng)新訓練計劃立項項目(SZDG2014011,SZDG2015014,XYB2015036,XYB2015265)
黃繼鵬(1994-),男,研究方向為數(shù)據(jù)挖據(jù);陳 志,副教授,通信作者,CCF會員(200014587M),研究方向為數(shù)據(jù)挖掘、傳感器網(wǎng)絡。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170605.1506.010.html
TP391
A
1673-629X(2017)08-0079-04
10.3969/j.issn.1673-629X.2017.08.016