陳潔
摘 要: 為了解決廣播中背景音樂(lè)的提取、分離和魯棒識(shí)別,考慮到廣播語(yǔ)音中背景音樂(lè)的類(lèi)型穩(wěn)定性和說(shuō)話人的不確定性,提出一種說(shuō)話人無(wú)關(guān)背景音樂(lè)類(lèi)型相關(guān)的語(yǔ)音和背景音樂(lè)分離算法,為了更好地分離音樂(lè)背景與語(yǔ)音信號(hào),設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)級(jí)聯(lián)系統(tǒng),即音樂(lè)背景下的語(yǔ)音活動(dòng)檢測(cè)系統(tǒng)加語(yǔ)音和背景音樂(lè)分離系統(tǒng)。針對(duì)實(shí)際的廣播語(yǔ)料,采用一種全監(jiān)督的方法提取背景音樂(lè),實(shí)驗(yàn)數(shù)據(jù)表明,該系統(tǒng)在一定程度上能夠提升背景音樂(lè)和語(yǔ)音的識(shí)別率。
關(guān)鍵詞: 音頻信號(hào)分離; 魯棒語(yǔ)音識(shí)別; 非負(fù)矩陣分解; 語(yǔ)音活動(dòng)檢測(cè)
中圖分類(lèi)號(hào): TN911.7?34, TM417 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)05?0134?05
Abstract: To solve the problems of background music extraction, seperation and robust recognition on the radio, a voice and background music seperation algorithm independent of speaker and relevant with background music types is proposed accor?ding to the types stability of the background music and speakers′ uncertainty in broadcast voice. In order to better seperate the background music and voice signal, a cascade system was designed and implemented, which combines the voice activity detection system with speech and background music separation system in the music background. Aiming at the practical broadcast corpus, a method with entire supervision is used to extract the music background. The experimental data show this system can improve the recognition ratio of background music and speech to a certain extent.
Keywords: audio signal separation; robust speech recognition; non?negative matrix factorization; voice activity detection
隨著科技的發(fā)展,背景音樂(lè)被應(yīng)用到越來(lái)越多的場(chǎng)景當(dāng)中,人們希望背景音樂(lè)識(shí)別可以在任何復(fù)雜場(chǎng)景中都可以發(fā)揮作用,所以如何消除背景音樂(lè)以外的干擾對(duì)背景音樂(lè)識(shí)別系統(tǒng)的影響就成了一個(gè)很重要的課題[1]?;诖?,本文要實(shí)現(xiàn)的目標(biāo)即為去除廣播語(yǔ)料中的語(yǔ)音信號(hào),減小其對(duì)背景音樂(lè)識(shí)別系統(tǒng)的影響。
1 基于非負(fù)矩陣分解的語(yǔ)音和背景音樂(lè)分離系統(tǒng)
1.1 音樂(lè)類(lèi)型相關(guān)說(shuō)話人無(wú)關(guān)的語(yǔ)音和背景音樂(lè)分離系統(tǒng)
根據(jù)處理的背景音樂(lè)所具有的特點(diǎn),給出了一種基于NMF的音樂(lè)類(lèi)型相關(guān)說(shuō)話人無(wú)關(guān)的語(yǔ)音和背景音樂(lè)分離系統(tǒng),即本系統(tǒng)是一個(gè)半監(jiān)督算法[2]。該系統(tǒng)的創(chuàng)新點(diǎn)在于,相對(duì)于已有的語(yǔ)音和背景音樂(lè)分離算法,本算法不僅考慮了語(yǔ)音的稀疏處理,也考慮了背景音樂(lè)的暫時(shí)連續(xù)性。該系統(tǒng)的結(jié)構(gòu)框圖如圖1所示。
訓(xùn)練階段,使用相應(yīng)音樂(lè)類(lèi)型的純凈信號(hào)訓(xùn)練得到音樂(lè)的基本矢量[Wm。]在分離階段,首先通過(guò)STFT得到混合信號(hào)的幅度譜[V,]即得到了用于NMF的待分解矩陣[3]。為了更好地利用已有的先驗(yàn)信息從而得到更好的分離效果,本系統(tǒng)考慮了語(yǔ)音的稀疏性和背景音樂(lè)的暫時(shí)連續(xù)性,并把它們作為先驗(yàn)信息加入到NMF的分解過(guò)程中。分解之后得到了語(yǔ)音的基本矢量和其相對(duì)應(yīng)的權(quán)重矩陣[Ws]和[Hs,]音樂(lè)基本矢量對(duì)應(yīng)的權(quán)重矩陣[Hm,]通過(guò)圖1中的式子即可得到估計(jì)語(yǔ)音的幅度譜,進(jìn)而得到其時(shí)域信號(hào)。
1.2 基于非負(fù)矩陣分解的背景音樂(lè)類(lèi)型建模
考慮到所用的訓(xùn)練數(shù)據(jù)較多(一類(lèi)音樂(lè)),為了使訓(xùn)練過(guò)程更有效率,本算法使用基于樣本的訓(xùn)練方法。具體實(shí)施過(guò)程如下:
(1) 對(duì)長(zhǎng)度為30 s的每一段訓(xùn)練數(shù)據(jù)(沒(méi)有靜音部分,全部為音樂(lè))分別做STFT得到每一段的幅度譜。
(2) 將每一段的幅度譜放在一起構(gòu)成一個(gè)很大的矩陣,作為訓(xùn)練結(jié)果保存起來(lái)。
(3) 在確定了NMF的秩,語(yǔ)音和音樂(lè)基本矢量的個(gè)數(shù)之后,隨機(jī)的從訓(xùn)練結(jié)果的矩陣中選取和音樂(lè)基本矢量相同個(gè)數(shù)的不同幀的幅度譜,組成音樂(lè)的基本矢量。雖然隨機(jī)選擇可能會(huì)給分離性能也帶來(lái)一定的隨機(jī)性,但幅度譜仍然可以保留該流派音樂(lè)的一些特征。
1.3 語(yǔ)音的稀疏性和背景音樂(lè)的暫時(shí)連續(xù)性
式中[?]為[α]的0范式。在實(shí)際應(yīng)用中由于0范式的優(yōu)化問(wèn)題是一個(gè)非凸問(wèn)題,一般將0范式的優(yōu)化問(wèn)題轉(zhuǎn)化為1范式或2范式,而2范式的優(yōu)化由于算法簡(jiǎn)便更是經(jīng)常被采用,1范式的優(yōu)化問(wèn)題則發(fā)展出了壓縮感知算法[4]。
對(duì)于語(yǔ)音信號(hào)來(lái)說(shuō),大部分情況下也可以將其幅度譜做稀疏化[5]表示,即一幀信號(hào)的幅度譜[V]可以用式(2)的方法稀疏表示:
在系統(tǒng)提出的算法中,語(yǔ)音的稀疏性是通過(guò)對(duì)語(yǔ)音的基本矩陣對(duì)應(yīng)的權(quán)重矩陣增加稀疏性來(lái)實(shí)現(xiàn)的,通過(guò)在優(yōu)化目標(biāo)函數(shù)中對(duì)稀疏性增加懲罰因子達(dá)到在優(yōu)化過(guò)程中保證語(yǔ)音權(quán)重矩陣的稀疏性[6]。
本文提出的算法針對(duì)語(yǔ)音和音樂(lè)信號(hào)分離這一目的,稀疏性只加在了[Hs]上,具體實(shí)現(xiàn)方法如下:
式中:[σi]為[Hs]第[i]行的標(biāo)準(zhǔn)差;[hi,j]是[Hs]第[i]行第[j]列的元素;[rs]為語(yǔ)音基本矢量的個(gè)數(shù),由于采用的是半監(jiān)督算法,所以該值是確定的。
暫時(shí)連續(xù)性也是在處理音頻信號(hào)時(shí)經(jīng)常使用的一種先驗(yàn)信息。一般來(lái)說(shuō),語(yǔ)音信號(hào)被認(rèn)為是準(zhǔn)穩(wěn)態(tài)的,在一段時(shí)間內(nèi)其頻譜特性被認(rèn)為是穩(wěn)定的,即在這段時(shí)間內(nèi)語(yǔ)音信號(hào)的各種特性是暫時(shí)連續(xù)的,這也是在語(yǔ)音信號(hào)處理中幀長(zhǎng)一般取10~30 ms的原因[7]?;谝陨戏治?,本算法提出對(duì)音樂(lè)信號(hào)增加暫時(shí)連續(xù)性的限制,通過(guò)對(duì)NMF中音樂(lè)信號(hào)的權(quán)重矩陣相鄰兩列系數(shù)的變化增加懲罰因子以保證優(yōu)化結(jié)果中其相鄰兩列的系數(shù)變化比較小,具體實(shí)現(xiàn)方法如下:
式中[rm]為音樂(lè)基本矢量的個(gè)數(shù),其值同樣也是確定的。
在得到了語(yǔ)音的稀疏性限制的數(shù)學(xué)表示和音樂(lè)的暫時(shí)連續(xù)性限制的數(shù)學(xué)表示之后,提出算法的代價(jià)函數(shù)(cost function):
式中:[λ]和[μ]分別是稀疏性和暫時(shí)連續(xù)性的強(qiáng)度,[λ]越大稀疏性的強(qiáng)度越大,即得到的[Hs]越稀疏;同理,[μ]越大暫時(shí)連續(xù)性的強(qiáng)度越大,即得到的[Hm]列與列之間的連續(xù)性越強(qiáng)?;诖舜鷥r(jià)函數(shù),根據(jù)乘法迭代規(guī)則,可以得到其相應(yīng)的迭代方法,經(jīng)過(guò)迭代最終可以得到[Ws,Hs,Hm,]進(jìn)而得到分離后的時(shí)域信號(hào)。迭代終止以固定的迭代次數(shù)為條件。
1.4 實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)評(píng)測(cè)主要包括兩部分:第一部分的目的是為了測(cè)試式(6)中不同的[λ]和[μ]值的組合帶來(lái)的性能變化,只對(duì)背景音樂(lè)是古典音樂(lè)的測(cè)試語(yǔ)料做了實(shí)驗(yàn),部分實(shí)驗(yàn)結(jié)果如圖2所示。
圖2中指出了[λ=1]和[μ=50]時(shí)的SDR,可以看出這個(gè)取值組合在不同的SMR下都給出了最好的結(jié)果。還可以看出,隨著[λ]的增加,分離效果并沒(méi)有明顯的提升,而且如果[λ]過(guò)大,分離效果甚至?xí)陆?,相反,隨著[μ]的增加,整體上來(lái)說(shuō)性能是逐漸增加的。同稀疏性一樣,過(guò)強(qiáng)的暫時(shí)連續(xù)性限制也會(huì)帶來(lái)性能的下降,這個(gè)閾值在不同的SMR下是不同的,高SMR下閾值相對(duì)較高,低SMR下閾值則相對(duì)較低。
總體來(lái)說(shuō),第一部分實(shí)驗(yàn)證明了稀疏性和暫時(shí)連續(xù)性相對(duì)不加稀疏性和暫時(shí)連續(xù)性的性能提升是很明顯的,而且暫時(shí)連續(xù)性限制帶來(lái)的性能提升要高于稀疏性限制。稀疏性和暫時(shí)連續(xù)性限制都不是越強(qiáng)越好,而是有一個(gè)閾值,超過(guò)了閾值帶來(lái)的分離效果反而會(huì)下降,實(shí)驗(yàn)結(jié)果顯示[λ=1]和[μ=50]在當(dāng)前的實(shí)驗(yàn)設(shè)置下可以給出最好的結(jié)果。
第二部分的實(shí)驗(yàn)做了三組對(duì)比試驗(yàn)。第一組是基線系統(tǒng),不考慮稀疏性和暫時(shí)連續(xù)性限制,第二組是對(duì)比系統(tǒng),只考慮稀疏性不考慮暫時(shí)連續(xù)性,這里[λ=1,][μ=0,]第三組是提出的算法,既考慮了稀疏性也考慮了暫時(shí)連續(xù)性,這里[λ=1,][μ=50。]基于分離效果的評(píng)測(cè)結(jié)果如表1,表2所示。其中的SIR為相對(duì)提高(即評(píng)測(cè)得到的結(jié)果減去測(cè)試語(yǔ)料的SMR),SDR和SAR為測(cè)試得到的實(shí)際值。從表1,表2中可以看出,在兩種背景音樂(lè)下暫時(shí)連續(xù)性的加入對(duì)系統(tǒng)性能的總體提升都非常明顯,從全局分離效果即SDR來(lái)看,加入暫時(shí)連續(xù)性之后SDR的值相對(duì)于基線系統(tǒng)和只加稀疏性的系統(tǒng)也有明顯的增加,而只加稀疏性的系統(tǒng)相比于基線系統(tǒng)則性能提升很小,這與第一部分實(shí)驗(yàn)中得到的結(jié)果是一致的。
綜上,本文提出的說(shuō)話人無(wú)關(guān)背景音樂(lè)類(lèi)型相關(guān)的語(yǔ)音和背景音樂(lè)分離系統(tǒng)相比傳統(tǒng)的只加稀疏性的語(yǔ)音和背景音樂(lè)分離系統(tǒng)性能提升非常明顯,可見(jiàn)對(duì)音樂(lè)信號(hào)施加暫時(shí)連續(xù)性可以有效地提升語(yǔ)音和背景音樂(lè)分離系統(tǒng)的表現(xiàn),從而證明本文算法可以更有效地利用待分離混合信號(hào)所提供的先驗(yàn)信息。然而也可以看到,只固定特定音樂(lè)類(lèi)型的基本矢量的半監(jiān)督算法基線系統(tǒng)表現(xiàn)并不好,在實(shí)際應(yīng)用時(shí)如果背景音樂(lè)的確定性很大,則可以訓(xùn)練得到更好的音樂(lè)基本矢量,從而得到更好的分離效果。
1.5 針對(duì)廣播語(yǔ)料的語(yǔ)音和背景音樂(lè)分離系統(tǒng)
經(jīng)過(guò)上述分析,可以得到用于廣播語(yǔ)料語(yǔ)音和背景音樂(lè)分離系統(tǒng)的基本框圖,如圖3所示。
首先,從廣播語(yǔ)料中截取了男女兩個(gè)說(shuō)話人的語(yǔ)料,其中男性說(shuō)話人包括30條語(yǔ)料共約5 min,女性說(shuō)話人包括60條語(yǔ)料共約10 min,但無(wú)從知道語(yǔ)音和背景音樂(lè)的信噪比,主觀感受來(lái)說(shuō)男性說(shuō)話人的30條語(yǔ)料的語(yǔ)音音樂(lè)信噪比普遍比女性說(shuō)話人的60條語(yǔ)料低。
需要得到每一條語(yǔ)料的幅度譜,求STFT時(shí)所用參數(shù)為:窗長(zhǎng)64 ms,幀移16 ms,窗類(lèi)型為漢明窗,本系統(tǒng)其他需要求STFT的地方的參數(shù)也是如此。之后,先從863語(yǔ)料庫(kù)中選擇10名說(shuō)話人(5男5女),每名說(shuō)話人有5條語(yǔ)料,共有50條語(yǔ)料約3 min,將這50條語(yǔ)料連接起來(lái),求幅度譜并做NMF,NMF的秩設(shè)為60,即訓(xùn)練出60個(gè)語(yǔ)音基本矢量。同理,音樂(lè)基本矩陣的訓(xùn)練數(shù)據(jù)來(lái)自GTZAN流派數(shù)據(jù)庫(kù)的古典音樂(lè),共5條約4 min,將這5條語(yǔ)料連接起來(lái)做NMF,NMF的秩同樣設(shè)為30,也保證了語(yǔ)音和音樂(lè)基本矢量個(gè)數(shù)比為2[∶]1,那么最終得到的音樂(lè)基本矢量個(gè)數(shù)為30。
測(cè)試階段按照不同說(shuō)話人測(cè)試,所用識(shí)別引擎在緒論中已有描述。首先測(cè)試了不進(jìn)行增強(qiáng)時(shí)兩個(gè)說(shuō)話人的語(yǔ)料各自的識(shí)別率,然后在增強(qiáng)之后,又分別測(cè)試了兩個(gè)說(shuō)話人增強(qiáng)后的語(yǔ)料的識(shí)別率,實(shí)驗(yàn)結(jié)果如表3所示。
識(shí)別引擎對(duì)純凈的863測(cè)試語(yǔ)料正確率為55.99%,從表3中可以看出,本文所提出的的語(yǔ)音和背景音樂(lè)分離系統(tǒng)確實(shí)可以提高廣播語(yǔ)料的語(yǔ)音識(shí)別正確率,其中測(cè)試的男性說(shuō)話人的識(shí)別率相對(duì)提升17.1%,女性說(shuō)話人的識(shí)別率相對(duì)提升9.70%,但由于無(wú)從得知測(cè)試語(yǔ)料的真實(shí)信噪比,所以也不能比較不同信噪比下分離系統(tǒng)對(duì)識(shí)別引擎的貢獻(xiàn),而且,最優(yōu)的稀疏性和暫時(shí)連續(xù)性限制的強(qiáng)度也和信噪比有關(guān)系[8],上述只給出了針對(duì)選擇的測(cè)試語(yǔ)料得出最好的限制強(qiáng)度,但是在實(shí)際使用中,還需要有相應(yīng)的信噪比估計(jì)模塊。
2 基于語(yǔ)音活動(dòng)檢測(cè)的語(yǔ)音和背景音樂(lè)分離系統(tǒng)
2.1 系統(tǒng)概述
為了得到更好的分離結(jié)果,本文采用全監(jiān)督算法,先利用訓(xùn)練語(yǔ)料訓(xùn)練出說(shuō)話人無(wú)關(guān)的語(yǔ)音基本矩陣,再利用VAD的結(jié)果得到背景音樂(lè)的基本矩陣,同時(shí)仍然對(duì)語(yǔ)音部分的權(quán)重矩陣加入稀疏性限制,對(duì)音樂(lè)部分的權(quán)重矩陣加入暫時(shí)連續(xù)性限制,進(jìn)而得到分離結(jié)果。系統(tǒng)的基本框圖如圖4所示。
實(shí)際當(dāng)中面臨的一大問(wèn)題是VAD的結(jié)果不能保證完全正確,這時(shí)會(huì)有一部分語(yǔ)音幀被誤判別為音樂(lè)幀,并用來(lái)訓(xùn)練音樂(lè)的基本矩陣,從而導(dǎo)致訓(xùn)練得到的音樂(lè)基本矩陣出現(xiàn)較大偏差。基于NMF的音頻信號(hào)分離系統(tǒng)對(duì)基本矢量比較敏感,即如果音樂(lè)的基本矩陣中出現(xiàn)相對(duì)較多的語(yǔ)音基本矢量,也會(huì)對(duì)分離結(jié)果產(chǎn)生較大的負(fù)面影響。為盡可能減少這一問(wèn)題帶來(lái)的影響,系統(tǒng)可做如下改進(jìn),在使用VAD時(shí)閾值應(yīng)設(shè)置得當(dāng),使TPR盡可能的高,這樣就會(huì)有較少的語(yǔ)音幀被錯(cuò)誤的判別為音樂(lè)幀,盡管此時(shí)會(huì)有更多的音樂(lè)幀被判別為語(yǔ)音幀,但此代價(jià)要小于語(yǔ)音幀誤判為音樂(lè)幀。
對(duì)于本文處理的廣播語(yǔ)料,說(shuō)話人不僅語(yǔ)速較快,而且很少有較長(zhǎng)的停頓,且語(yǔ)音音樂(lè)信噪比不是很低,VAD系統(tǒng)可以給出不錯(cuò)的正確率,所以本文在使用VAD結(jié)果訓(xùn)練背景音樂(lè)基本矢量時(shí)只做了第一點(diǎn)改進(jìn),調(diào)整閾值使TPR盡可能的高,同時(shí)又有足夠的音樂(lè)幀用于訓(xùn)練音樂(lè)的基本矢量。
2.2 實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)階段訓(xùn)練語(yǔ)音基本矢量所用的語(yǔ)料為純凈TIMIT數(shù)據(jù)庫(kù)訓(xùn)練部分隨機(jī)選擇的100條語(yǔ)料,保證了說(shuō)話人無(wú)關(guān)的特性。訓(xùn)練時(shí)所用的參數(shù)如下:求STFT時(shí)窗長(zhǎng)為64 ms,幀移為16 ms,窗類(lèi)型為漢明窗,NMF的秩為40,迭代次數(shù)為200,最終訓(xùn)練得到的語(yǔ)音基本矢量個(gè)數(shù)為40。
測(cè)試部分所用的語(yǔ)料庫(kù)為第2.1節(jié)用于VAD結(jié)果評(píng)測(cè)的背景噪聲是音樂(lè)的TIMIT數(shù)據(jù)庫(kù),所用語(yǔ)料為T(mén)IMIT測(cè)試部分的前10個(gè)說(shuō)話人(4女6男)共200條約15 min的語(yǔ)料。分別測(cè)試了兩種VAD算法下系統(tǒng)的性能表現(xiàn),兩種VAD算法的參數(shù)和第2.1節(jié)評(píng)測(cè)VAD算法時(shí)所用的參數(shù)一樣。VAD的閾值設(shè)置標(biāo)準(zhǔn)是保證TPR不低于90%,閾值設(shè)置時(shí)參考了VAD的評(píng)測(cè)結(jié)果,然而在實(shí)際應(yīng)用時(shí)是沒(méi)有實(shí)驗(yàn)結(jié)果可以參考的,但可以根據(jù)所處理語(yǔ)料的信噪比適當(dāng)調(diào)整閾值以達(dá)到最優(yōu)的效果。
為了平衡TIMIT數(shù)據(jù)庫(kù)中語(yǔ)音段和靜音段的比例,人為在每一條語(yǔ)料開(kāi)頭和結(jié)尾增加了0.5 s的靜音段,這導(dǎo)致帶噪TIMIT數(shù)據(jù)庫(kù)每一條語(yǔ)料的噪聲段也有所增加,這里在選擇音樂(lè)幀時(shí)仍然沒(méi)有只選擇持續(xù)的音樂(lè)幀,而是把VAD判決出的音樂(lè)幀全部用來(lái)訓(xùn)練音樂(lè)的基本矢量,這主要是出于項(xiàng)目中遇到的實(shí)際廣播語(yǔ)料的考慮。得到VAD結(jié)果之后,對(duì)音樂(lè)幀做NMF,所用參數(shù)和訓(xùn)練語(yǔ)音基本矩陣相同,不同的是NMF的秩為20,即保證語(yǔ)音音樂(lè)基本矢量個(gè)數(shù)比為2[∶]1,這樣最終可以得到20個(gè)音樂(lè)基本矢量。
實(shí)驗(yàn)評(píng)測(cè)仍然使用基于分離效果的評(píng)測(cè)方法,工具包依然使用PEASStoolkit。對(duì)比實(shí)驗(yàn)設(shè)置了不使用VAD的半監(jiān)督算法,即只用訓(xùn)練得到的語(yǔ)音基本矩陣做半監(jiān)督的語(yǔ)音和背景音樂(lè)分離,其所設(shè)置參數(shù)除了VAD部分和上述完全一樣。這里分別列出兩種VAD算法在語(yǔ)音音樂(lè)信噪比為5 dB,10 dB時(shí)的實(shí)驗(yàn)結(jié)果,以柱狀圖的形式給出,如圖5所示。
圖5中“semiNMF”為不使用VAD結(jié)果的半監(jiān)督算法,“CASA_VAD_NMF”所用的VAD算法為基于CASA的VAD算法,“VAD_NMF”所用的VAD算法為基于NMF的VAD算法。
由柱狀圖可以看出,從SDR的角度來(lái)看,在5 dB的情況下基于VAD的算法都要好于“semiNMF”,但在10 dB的情況下結(jié)果是相反的,主要原因可能是在較高信噪比下,基于VAD的方法帶來(lái)了過(guò)多的失真。而從SIR角度來(lái)看,基于VAD的方法在各種信噪比下都要遠(yuǎn)好于“semiNMF”,即音樂(lè)的去除程度很明顯。而從SAR角度來(lái)說(shuō),無(wú)一例外,基于VAD的方法都要遠(yuǎn)小于“semiNMF”,這也證明了基于VAD的方法雖然更好的去除了音樂(lè),但卻帶來(lái)了比較多的失真,但綜合來(lái)說(shuō),基于VAD的語(yǔ)音和背景音樂(lè)分離算法還是有效的,特別是在信噪比不高的情況下。
3 結(jié) 論
本文以從帶有背景音樂(lè)的廣播語(yǔ)料中提取背景音樂(lè)和抑制語(yǔ)音為目標(biāo),以基于NMF的語(yǔ)音和背景音樂(lè)分離為主要研究方向,提出了一種基于NMF的說(shuō)話人無(wú)關(guān)背景音樂(lè)相關(guān)的語(yǔ)音音樂(lè)分離系統(tǒng),該系統(tǒng)不僅對(duì)語(yǔ)音增加了稀疏性限制,同時(shí)還對(duì)背景音樂(lè)增加了暫時(shí)連續(xù)性限制;為了更好地對(duì)背景音樂(lè)建模,提出了結(jié)合VAD和語(yǔ)音音樂(lè)分離系統(tǒng),從而得到更好的系統(tǒng)表現(xiàn)。
參考文獻(xiàn)
[1] 呂釗,吳小培,張超.魯棒語(yǔ)音識(shí)別技術(shù)綜述[J].安徽大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,37(5):17?24.
[2] 李智勇,王飛,朱強(qiáng).基于模型化DSP快速設(shè)計(jì)的音頻信號(hào)采集系統(tǒng)[J].現(xiàn)代電子技術(shù),2015,38(21):11?13.
[3] 張磊,劉繼芳,項(xiàng)學(xué)智.基于計(jì)算聽(tīng)覺(jué)場(chǎng)景分析的混合語(yǔ)音分離[J].計(jì)算機(jī)工程,2010,36(14):24?25.
[4] 張?zhí)祢U,徐昕,吳旺軍,等.多反復(fù)結(jié)構(gòu)模型的精確音樂(lè)分離方法[J].聲學(xué)學(xué)報(bào),2016(1):135?142.
[5] 周宏,潘亞濤,陳健.基于內(nèi)容的音頻描述[J].計(jì)算機(jī)工程,2001,27(10):140?143.
[6] 禹琳琳.語(yǔ)音識(shí)別技術(shù)及應(yīng)用綜述[J].現(xiàn)代電子技術(shù),2013,36(13):43?45.
[7] 郭偉,于鳳芹.基于改進(jìn)時(shí)頻比的語(yǔ)音音樂(lè)信號(hào)分離[J].計(jì)算機(jī)工程,2015,41(3):287?291.
[8] 孫愛(ài)中,劉冰,張琬珍,等.基于DSP的語(yǔ)音識(shí)別系統(tǒng)研究與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2013,36(9):76?78.