張小恒++李勇明++謝文賓
摘 要: 構(gòu)造頻域空間的檢測模型,將基音頻率作為特征值進行提取,然后為檢測模型引入模型參數(shù)即優(yōu)化因子,通過進化算法對該因子進行全局優(yōu)化,從而獲取基音頻率的全局最優(yōu)值,在優(yōu)化精度和時間代價上取得了較好的平衡。采用兩種具有代表性的進化算法進行算法設計,包括遺傳算法(GA算法)和粒子群算法(PSO算法)。將所提算法與相關有代表性的算法進行比較,結(jié)果表明,所提算法在不同類型不同程度的噪聲環(huán)境下,能顯著提升檢測識別率,尤其是在極低信噪比下,優(yōu)勢更為明顯。
關鍵詞: 極低信噪比環(huán)境; 基音頻率; 進化算法; 遺傳算法; 粒子群算法
中圖分類號: TN912.3?34 文獻標識碼: A 文章編號: 1004?373X(2017)11?0046?07
Evolutionary algorithm based fundamental tone frequency
detection in low SNR environment
ZHANG Xiaoheng1, 2, LI Yongming2, XIE Wenbin2
(1. Chongqing Radio & TV University, Chongqing 400052, China; 2. College of Communication Engineering, Chongqing University, Chongqing 400030, China)
Abstract: A frequency?domain detection model was constructed. The fundamental tone frequency is extracted as characteristic value. The model parameter (optimization factor) is introduced into the detection model, for which the global optimization is carried out with evolutionary algorithm (EA) to get the global optimum of the fundamental tone frequency, and obtain a better balance in optimization accuracy and time cost. Two representative EAs (genetic algorithm (GA) and particle swarm optimization (PSO) algorithm) are used to perform the algorithm design. The proposed algorithm is compared with the other representative algorithms. The comparison results show that the proposed algorithm can improve the detection recognition rate greatly in the noise environments of different types and different degrees, especially in the very?low SNR environment.
Keywords: very?low SNR environment; fundamental tone frequency; evolutionary algorithm; genetic algorithm; PSO
0 引 言
基音頻率是語音信號最為重要的參數(shù)之一。準確有效地檢測基音頻率對很多語音技術起著極為關鍵的作用,如說話人檢測、跟蹤、語音分離及識別等。盡管基音頻率檢測已經(jīng)研究多年,并取得了一系列成果,但相關算法大都適用于高信噪比環(huán)境,而實際應用中,大多數(shù)語音都處于復雜惡劣的噪聲環(huán)境中。因此,針對低信噪比環(huán)境,特別是-5 dB以下的基音頻率檢測算法的研究,對實現(xiàn)性能優(yōu)良、實用的語音處理技術,取得實效應用有著重要的現(xiàn)實意義[1?4]。
基音頻率檢測的有效性依賴于語音信號諧波結(jié)構(gòu)的完整性,噪聲疊加造成諧波結(jié)構(gòu)被破壞,而隨著信噪比的下降最終難以分辨一個完整的諧波周期。因此低信噪比下實現(xiàn)優(yōu)良的檢測性能具有較大難度[5?9]。
由于語音信號參數(shù)隨時間變化緩慢,相鄰多個語音幀信號參數(shù)會保持一定連續(xù)性,因此典型的基音頻率檢測算法可以分為兩個階段[10]:第一個階段找出基音頻率的多個可能候選值,或者計算基音頻率值落在不同頻率區(qū)間的概率。第二階段一般依賴DP[11]或HMM[12]算法,從多個候選值選出最終的基音頻率值。這些算法大都利用了相鄰語音幀數(shù)據(jù)之間的相關性找出最優(yōu)的基音頻率序列值,從而使得整體的后驗誤差概率最低。但這類利用數(shù)據(jù)間強相關性的算法本身也會導致一定錯誤。此外,該類算法對相關性的過高要求在現(xiàn)實中常常難以得到較好滿足。
為了抑制噪聲,目前研究的方法一般分為參數(shù)化方法和非參數(shù)化方法兩類[13]:參數(shù)化算法采用統(tǒng)計方法對諧波結(jié)構(gòu)進行建模,其典型的代表算法有GMM[14]算法;非參數(shù)化算法一般從頻域的諧波結(jié)構(gòu)或者時域的周期特性入手,通過對頻域或時域峰值的檢測得到基音頻率,其典型的代表算法有RAPT[15]算法和YIN[16]算法,但這類方法在信噪較高時比較有效,而當信噪比較低時其峰值特性很容易湮沒在噪聲之中從而使得難以檢測出基音頻率。
近年在該領域有一些研究成果出現(xiàn),如HSAC?SAMSF[17]算法對諧波進行自相關運算,然后作對稱性相加求和來尋找基音周期,該算法充分利用語音的諧波特性,并通過DCT相關運算及對稱累加運算抑制噪聲;TAPS?CA[18]算法對頻域信號進行相關運算,并利用稀疏矩陣對其進行重建,該算法利用短時譜的自相關運算抑制噪聲,在高信噪比環(huán)境利用最小均方誤差法求取稀疏矩陣,在低信噪比環(huán)境下利用GMM法對誤差信號進行建模,從而得到最優(yōu)稀疏矩陣。PEFAC[13]算法是最近提出的性能優(yōu)良的基音頻率檢測算法,其通過對信號的對數(shù)譜進行壓縮以求取峰值信號,充分利用噪聲統(tǒng)計特性及幅度譜的壓縮抑制噪聲,具有極低信噪比環(huán)境下較好的抗噪聲干擾能力,且在-20~20 dB信噪比下均性能良好?;谌斯ど窠?jīng)網(wǎng)絡的基音頻率檢測算法[10]也利用了PEFAC算法的特征提取優(yōu)勢,并進一步采用深度神經(jīng)網(wǎng)絡進行建模,但相比PEFAC算法僅在-10 dB信噪比以上得出性能優(yōu)良的結(jié)論。
總的來說以上算法都是在經(jīng)典的參數(shù)化及非參數(shù)化方法上做了一定程度的改進,但仍然很難改變無法精確有效描述復雜噪聲環(huán)境中語音信號的缺陷。由于語音信號具有多次諧波特性,基音頻率這一重要參數(shù)可通過特征波形的峰值表達。因此,本文針對參數(shù)化方法與非參數(shù)化方法的各自不足,充分利用PEFAC對語音信號進行基音頻率特征提取,構(gòu)造基音頻率特征波形,通過對特征波形的峰值求取實現(xiàn)基音頻率的提取。但是當語音信號被噪聲污染時,信號的諧波特征被破壞,特征波形的峰值與基音頻率就存在一定的誤差。當信噪比惡化時,該誤差就會明顯增大,嚴重影響了峰值對基音頻率的表達?;诖?,本文引入優(yōu)化因子對特征波形進行校正以抵消噪聲帶來的畸變。該優(yōu)化因子的精確取值能最大程度地抑制噪聲帶來的畸變影響,從而消除特征波形峰值與基音頻率的誤差。
本文將優(yōu)化因子最佳取值問題轉(zhuǎn)換為最優(yōu)化問題,嘗試利用進化算法來獲取其全局最優(yōu)解。進化算法的優(yōu)勢在于其可解決復雜的非線性及多維空間尋優(yōu)問題,通過構(gòu)造含有優(yōu)化因子的適應度函數(shù),從而能動態(tài)尋找出最佳基音頻率值所對應的優(yōu)化因子的值。
1 基于進化算法面向極低信噪比環(huán)境的基音頻
率檢測方法(LSNR_PFD_EA)
本文提出的基音頻率估計算法,即低信噪比下基于進化算法的基音頻率估計(LSNR_PFD_EA)主要包括特征提取模塊、基于進化算法的優(yōu)化因子搜索模塊及基音頻率提取模塊三部分。圖1為該算法主要流程。
如圖1所示,首先提取語音幀的頻域特征,此頻域特征稱為基音特征波形,其峰值用來表達基音頻率值,然后設計一個多維變量稱為優(yōu)化因子,對基音頻率特征波形的峰值進行有效調(diào)整,使得調(diào)整后的峰值能夠表達的基音頻率是真實基音頻率值的最佳逼近。本文的特征提取方式基于PEFAC,包括短時傅里葉變換,頻域?qū)?shù)化,規(guī)整化,再進行頻域卷積得到基音特征波形即圖中的特征值。接著,通過優(yōu)化因子搜索模塊,利用基音特征波形與優(yōu)化因子共同構(gòu)造適應度函數(shù),利用進化算法結(jié)合訓練語音搜索到最佳優(yōu)化因子。最后,對測試集語音提取其特征值,基于搜索得到的最佳優(yōu)化因子對該特征值進行優(yōu)化,優(yōu)化完成后再通過動態(tài)規(guī)劃(DP)得到語音的基音頻率。
1.1 特征提取模塊
特征提取模塊主要包括如下步驟:
(1) 語音幀信號首先通過短時傅里葉變換映射到頻域。代表第幀的功率譜密度,對數(shù)頻域的功率譜密度采用表示,其中規(guī)整化后的功率譜密度為:
(1)
式中:代表長程平均語音譜;而代表平滑后平均語音譜。
(2) 規(guī)整化的頻譜通過如下擴展峰值的濾波器增強其諧波特性。其中濾波器定義如下:
(2)
其中的選取滿足而設置為1.8且設置為10。
(3) 通過對規(guī)整化的功率譜密度進行卷積得基音特征波形接下來的基音檢測方法一般可先從中選取較大的幾個峰值對應的頻率值作為候選基音頻率值。
(4) 然后通過DP等規(guī)劃算法得到基音頻率值的最佳估計值。
當信噪比惡化時,特征波形的峰值被嚴重破壞,使得候選值均極大地偏離真實值,也就無法得到準確的估計值。為減小候選值與真實值的誤差,本文提出了優(yōu)化因子策略,即使用優(yōu)化因子計算優(yōu)化后的基音特征波形從中選取新的峰值對應的候選基音頻率值,使得最終的基音頻率估計值與真實值的誤差最小。
1.2 優(yōu)化因子搜索模塊
1.2.1 優(yōu)化函數(shù)分析
圖2表示了優(yōu)化因子在基音頻率檢測中的作用。其中圖2(a)為不含噪聲的語音幀經(jīng)過特征提取之后的輸出;圖2(b)為SNR=-10 dB下語音幀經(jīng)過特征提取之后的輸出;圖2(c)為圖2(b)經(jīng)過優(yōu)化因子處理后的波形,若選取幅值最大的3個峰值作為基音頻率候選值,通常最大峰值對應的基音頻率值成為估計值的概率是最大的,如果后續(xù)不作DP規(guī)劃,則最大峰值對應的基音頻率值就是基音頻率估計值,如果要作DP規(guī)劃,最終的估計值要在候選值,三個值之中選取。從圖中發(fā)現(xiàn),圖2(a)中基音頻率候選值與圖2(b)中基音頻率候選值的誤差很大,特別是最大峰值對應的頻率值誤差極大,這是低信噪比環(huán)境下噪聲干擾的結(jié)果。
若要提升基音頻率估計精度,減小估計誤差,可通過優(yōu)化因子處理,如圖2(c)所示。通過將區(qū)間segment的幅度做一定程度的提升,則該區(qū)間峰值對應的頻率就會成為候選基音頻率,而免遭錯誤遺漏。優(yōu)化因子取值的不同可以使波形在不同區(qū)間的幅度進行放縮。通過進化算法來搜索最優(yōu)因子,從而使圖2(a)與圖2(c)的基音頻率候選值誤差最小。圖2是某一類語音幀的情況,由于不同語音幀的基音頻率候選值有所不同,而受到噪聲污染后基音特征波形的畸變也明顯有所不同,因此每個語音幀的理想優(yōu)化因子也不盡相同,事實上針對每一幀語音數(shù)據(jù)找出其對應的理想優(yōu)化因子是沒有意義的,因為優(yōu)化因子數(shù)量十分龐大而無法使用,其次優(yōu)化因子與語音幀的關聯(lián)性也無法得到有效建立。但肯定能找出一個合理的優(yōu)化因子,相對于每一幀語音數(shù)據(jù)來說雖不一定最優(yōu),但相對于所有幀語音數(shù)據(jù)來說,總體誤差最小?;谝陨戏治?,優(yōu)化因子的取值就被轉(zhuǎn)化為一個求解最佳優(yōu)化因子的最優(yōu)化問題。由于優(yōu)化因子是高維向量,加上不同維的取值都有一定精度,優(yōu)化因子的可能取值是海量的,即候選解空間較大。此外,優(yōu)化因子和峰值與基音頻率間誤差的關系并非線性相關,因此候選解空間將存在多個局部極值點。鑒于進化算法全局尋優(yōu)的特性,本文基于GA[19]和PSO[20]算法分別求解該優(yōu)化問題。
GA和PSO算法都涉及確定適應度函數(shù)的問題,用于基音頻率檢測的優(yōu)化因子的適應度函數(shù)分為如下兩種情況:
(1) 不使用DP動態(tài)規(guī)劃
由于不使用DP動態(tài)規(guī)劃,優(yōu)化后的基音特征波形最大峰值對應的頻率值為基音頻率估計值,其與真實基音頻率值的誤差。
因此適應度函數(shù)即小于5%的概率。
(2) 使用DP動態(tài)規(guī)劃
表示時刻語音幀基音特征波形的峰值幅度,表示與之相關聯(lián)的頻率,則選擇較小峰值的代價其中為最大峰值幅度;基音頻率候選值的選擇率其中為相鄰語音幀的時間偏移量,則躍遷到的代價為其中為在訓練語音庫中的均值;時刻語音幀基音頻率候選值與基音頻率中值的相對誤差為,其中可通過時刻最大峰值幅度對應的基音頻率候選值及相鄰幀的值估計得到,若相鄰幀不是濁音幀則跳過。綜上,時刻語音幀的第個基音頻率候選值躍遷到時刻語音幀的第個基音頻率候選值的總代價為三者之和:其中為限制的最大值,而表示各參數(shù)相關權(quán)重。
將總代價最小時選擇的峰值頻率作為基音頻率估計值,因此適應度函數(shù)為:
即小于5%的概率。
1.2.2 優(yōu)化算法?進化算法
(1) GA算法
本文采用二進制遺傳算法,其主要流程如下:
步驟1: 二進制編碼;
步驟2: 隨機產(chǎn)生二進制種群;
步驟3:計算其對應的適應度函數(shù)值
步驟4: 計算種群適應度之和
步驟5: 計算每個的選擇概率
步驟6: 計算每個的累加概率
步驟7: 競爭法進行選擇操作;
步驟8: 對新一代種群進行單點隨機交叉運算;
步驟9: 單點隨機變異操作;
步驟10: 第一代計算完畢,返回繼續(xù)計算步驟3,直到達到滿意的結(jié)果為止。
(2) PSO算法
本文采用粒子群算法的主要流程如下:
步驟1:根據(jù)優(yōu)化因子的維度與取值范圍確定粒子群的參數(shù);
步驟2:初始化粒子群,其中粒子的信息可用兩個維向量表示,第個粒子的位置(即優(yōu)化因子)可表示為:
,
其中與為每一維的取值上下限,速度可表示為其中與均為取值范圍在0~1之間的隨機數(shù);
步驟3:計算每個粒子的適應度;
步驟4:根據(jù)進化方程更新及粒子位置速度:
步驟5:是否滿足終止條件,否則返回繼續(xù)計算步驟3,直到達到滿意的結(jié)果為止。
2 實驗結(jié)果與分析
2.1 實驗條件
2.1.1 數(shù)據(jù)說明
本文采用TIMIT標準數(shù)據(jù)庫測試算法性能。訓練集包含20男20女,每人3句話。噪聲訓練集為NOISE?92,包含white,babble,car三種噪聲。純凈語音與噪聲相混合,信噪比SNR分為9個不同的等級:-20 dB,-15 dB,
-10 dB,-5 dB,0 dB,5 dB,10 dB,15 dB,20 dB。測試集包含10男10女,每人3句話。標準基音頻率使用Praat工具從純凈語音中提取。
以兩種標準方式測試估計結(jié)果:基音頻率識別率(DR)。DR是針對濁音而言,計算誤差不超過5%的概率,為濁音幀數(shù),為其中計算誤差不超過5%的幀數(shù),計算式如下:
2.1.2 參數(shù)設置
優(yōu)化因子的維度為10,每一維的取值范圍均在0.5~1.5之間。當使用GA算法時,基因總數(shù)為100,搜索下限為0.5,上限為1.5,交叉概率為0.8,變異概率為0.1,迭代次數(shù)為30;當使用PSO算法時,種群大小為20,粒子初始速度為0.01,最大速度為1,粒子群維度為10,取值范圍在0.5~1.5,認知加速度為2,社會加速度為2,慣性權(quán)重為1,退化因子為1,迭代次數(shù)為60。
2.2 兩種進化算法的效果對比
圖3為不同迭代次數(shù)下,兩種進化算法的檢測效果。兩種算法共同的規(guī)律是隨著信噪比的提高,收斂速度會加快。隨著迭代次數(shù)的增加,檢測率變化越來越緩慢或者根本不發(fā)生變化。這說明信噪比越低優(yōu)化的空間越大,因此信噪比越低,特征波形的結(jié)構(gòu)受噪聲影響越大。再對比GA與PSO算法,GA算法僅在信噪比為-20 dB下的識別率有較為明顯的變化,其他信噪比下幾乎沒有變化。從最終的識別率來看,相同信噪比下PSO的識別率要高于GA,因此說明PSO算法在搜索最佳優(yōu)化因子上更加有效。因此,后續(xù)實驗中,主要采用基于PSO的基音檢測算法進行效果對比。為了便于說明,基于GA的基音檢測算法記為LSNR_PFD_GA,基于PSO的基音檢測算法記為LSNR_PFD_PSO。
2.3 不同類型噪聲環(huán)境下的檢測效果對比
圖4為三種類型的噪聲環(huán)境下,本文LSNR_PFD_ PSO算法與三種主流算法J&W,YIN,RAPT的識別效果對比。
由圖4可見,對于不同類型的噪聲(白噪聲,babble噪聲,car噪聲),本文算法均優(yōu)于其他算法。此外,信噪比越低,本文算法的改進效果越明顯。例如,-5 dB以下,本文算法的識別率提高了10%~20%,而在-20 dB時,其提升程度可以達到20%~50%。這說明本文算法非常適合低信噪比環(huán)境下的基音頻率檢測。
2.4 DP對基音頻率檢測的影響分析
圖5為本文算法與PEFAC算法針對采用DP與否進行的效果對比。比較采用DP與不采用DP計算的三種噪聲(白噪聲,babble噪聲,car噪聲)在不同信噪比下的平均識別率,采用DP算法并用PSO優(yōu)化后的識別率是最好的,不采用DP而使用PSO優(yōu)化的識別率并不如使用了DP的PEFAC效果好,但比未采用DP和PSO優(yōu)化的效果好很多。這說明DP對基音頻率檢測算法具有明顯的正面作用,本文算法也不例外。為了最大限度地發(fā)揮本文算法效率,建議采用DP。
圖4 基音頻率識別率比較
2.5 進化算法參數(shù)影響分析
圖6為基于不同參數(shù)設置,在不同信噪比下(白噪聲,babble噪聲,car噪聲) LSNR_PFD_PSO算法的平均識別率。圖6(a)為種群規(guī)模設置不同帶來的影響。圖6(b)為粒子飛行初始速度設置不同帶來的影響。
由圖6(a)可見,隨著種群規(guī)模的增大,識別率有所增加但不明顯,當種群規(guī)模由20增加至200,-5 dB以下識別率平均提升了2%左右。鑒于種群規(guī)模與計算復雜度的關系,因此需要結(jié)合具體情況,通過統(tǒng)計實驗設定合適的種群規(guī)模。此外,還發(fā)現(xiàn)種群規(guī)模對識別率的正面作用在低信噪比下更明顯。由圖6(a)可見,在信噪比為-20 dB,200的種群規(guī)模較20的種群規(guī)模提高效果為25%左右。由圖6(b)可見,粒子初始速度與識別率為負相關關系,當其較大時,識別率會變差。具體來說,當粒子速度由0.01增至0.05時,-5 dB以下識別率平均下降3%。這個結(jié)果的可能原因是初始速度太大將影響搜索的精細程度,較容易錯過最優(yōu)解。由于初始速度過小將增加計算代價,因此也需要結(jié)合具體情況,通過統(tǒng)計實驗來設定合適的初始速度。
2.6 相關算法的時間代價對比
表1為不同算法基于同一運算平臺的平均時間代價。計算機平臺為Intel CPU 2.6 GHz,算法分別為PSO,GA,PEFAC,RAPT,YIN,“算法時間代價”是指當前算法在裝有Matlab軟件的計算機平臺上處理1 s語音數(shù)據(jù)運行的平均時間代價。
由表1可見,LSNR_PFD_PSO,LSNR_PFD_GA和PEFAC算法的時間代價一致,均為0.175 s。這個時間代價并不包含進化算法的訓練時間,這是由于一旦訓練完成后,幾種算法的實時檢測過程所需時間代價幾乎無差別。本文算法與YIN算法的時間代價也相當,比PART算法明顯降低。根據(jù)多次實測表明,本文算法工作所需時間代價完全滿足實時性要求,現(xiàn)實可行。
3 結(jié) 論
極低噪聲環(huán)境下的基音頻率檢測是一個非常有用但具有較大難度的科研問題,迄今為止,一直沒有得到很好的解決。針對目前新提出的抗噪性能較好的基音檢測算法的不足,本文引入最佳優(yōu)化因子來消除噪聲帶來的畸變影響。通過把最佳優(yōu)化因子取值問題轉(zhuǎn)化為最優(yōu)化問題,引入進化算法加以求解,顯著提升了低信噪比環(huán)境下基音頻率檢測性能。實驗結(jié)果表明,面對不同類型不同信噪比的噪聲環(huán)境,本文算法均取得了較為顯著的改進效果,且信噪比越低,改進效果越明顯。針對下一步工作,本文擬考慮進行更大噪聲環(huán)境的實驗及對進化算法的改進以提高最佳優(yōu)化因子的搜索效率和基音頻率檢測的泛化性能。
參考文獻
[1] RAMAKRISHNAN A G, ABHIRAM B, PRASANNA S R M. Voice source characterization using pitch synchronous discrete cosine transform for speaker identification [J]. Journal of the acoustical society of America, 2015, 137(6): 469?475.
[2] WOHLMAYR M, PERNKOPF F. Model?based multiple pitch tracking using factorial HMMs: model adaptation and inference [J]. IEEE transactions on audio, speech and language processing, 2013, 21(8): 1742?1754.
[3] HAN K, WANG D L. A classification based approach to speech segregation [J]. Journal of the acoustical society America, 2012, 132(5): 3475?3483.
[4] RAO K S, MAITY S, REDDY V R. Pitch synchronous and glottal closure based speech analysis for language recognition [J]. International journal of speech technology, 2013, 16(4): 413?430.
[5] SHARMA D, NAYLOR P A. Evaluation of pitch estimation in noisy speech for application in non?intrusive speech quality assessment [C]// Proceedings of 2009 European Signal Processing Conference. Glasgow: IEEE, 2009: 2514?2518.
[6] SHIMAMURA T, KOBAYASHI H. Weighted autocorrelation for pitch extraction of noisy speech [J]. IEEE transactions on speech and audio processing, 2001, 9(7): 727?730.
[7] SHAHNAZ C, ZHU W P, AHMAD M O. Robust pitch estimation at very low SNR exploiting time and frequency domain cues [C]// Proceedings of 2005 IEEE International Conference on Acoustics, Speech, Signal Processing. Philadelphia: IEEE, 2005: 389?392.
[8] SHAHNAZ C, ZHU W P, AHMAD M O. A robust pitch estimation algorithm in noise [C]// Proceedings of 2007 IEEE International Conference on Acoustics, Speech, and Signal Proces?sing. Honolulu: IEEE, 2007: 1073?1076.
[9] WU M, WANG D L, BROWN G J. A multipitch tracking algorithm for noisy speech [J]. IEEE transactions on speech and audio processing, 2003, 11(3): 229?241.
[10] HAN Kun, WANG Deliang. Neural network based pitch tracking in very noisy speech [J]. IEEE transactions on audio, speech and language processing, 2014, 22(12): 2158?2168.
[11] GOSAIN A, SHARMA G. A survey of dynamic program analysis techniques and tools [J]. Advances in intelligent systems and computing, 2014, 327: 113?122.
[12] JIN Z, WANG D L. HMM?based multipitch tracing for noisy and reverberant speech [J]. IEEE/ACM transactions on audio, speech and language processing, 2011, 19(5): 1091?1102.
[13] GONZALEZ S, BROOKES M. PEFAC: a pitch estimation algorithm robust to high levels of noise [J]. IEEE/ACM transactions on audio, speech and language processing, 2014, 22(2): 518?530.
[14] MCLACHLAN G, PEEL D. Finite mixture models [M]. New York: Wiley?Blackwell, 2000.
[15] TALKIN D. A robust algorithm for pitch tracking (RAPT) [R]. Amsterdam: Elsevier, 1995: 495?518.
[16] DE CHEVEGNE A, KAWAHARA H. YIN, a fundamental frequency estimator for speech and music [J]. Journal of the acoustical society America, 2002, 111(4): 1917?1930.
[17] SHAHNAZ C, ZHU W P, AHMAD M O. Pitch estimation based on a harmonic sinusoidal autocorrelation model and a time?domain matching scheme [J]. IEEE transactions on audio, speech and language processing, 2012, 20(1): 322?335.
[18] FENG Huang, TAN Lee. Pitch estimation in noisy speech using accumulated peak spectrum and sparse estimation technique [J]. IEEE transactions on audio, speech and language processing, 2013, 21(1): 99?109.
[19] HE Yaohua, HUI Chiwai. A binary coding genetic algorithm for multi?purpose process scheduling: a case study [J]. Chemical engineering science, 2010, 65(16): 4816?4828.
[20] PARSOPOULOS K E, VRAHAT IM N. On the computation of all global minimizers through particle swarm optimization [J]. IEEE transactions on evolutionary computation, 2004, 8(3): 211?224.