郭 偉,于鳳芹
(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院,江蘇無錫214122)
基于改進(jìn)時(shí)頻比的語音音樂信號(hào)分離
郭 偉,于鳳芹
(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院,江蘇無錫214122)
時(shí)頻比是混合信號(hào)在時(shí)頻域幅值特性的比值,利用時(shí)頻比尋找混合信號(hào)中的單源點(diǎn),對(duì)相應(yīng)的比值構(gòu)成的矩陣求逆可以得到對(duì)源信號(hào)的估計(jì)。針對(duì)基于時(shí)頻比的盲源分離將信號(hào)變換到時(shí)頻域后計(jì)算量大且對(duì)算法有效的時(shí)頻窗較少的問題,提出用重復(fù)結(jié)構(gòu)周期內(nèi)的時(shí)頻點(diǎn)代替整個(gè)時(shí)頻域進(jìn)行單源點(diǎn)的檢測(cè),重復(fù)結(jié)構(gòu)內(nèi)的時(shí)頻點(diǎn)在每個(gè)周期內(nèi)都有相似的值,通過減少一個(gè)周期內(nèi)時(shí)頻點(diǎn)的檢測(cè),由單源點(diǎn)對(duì)應(yīng)的時(shí)頻比恢復(fù)出源信號(hào)。用相似系數(shù)矩陣評(píng)價(jià)分離效果,仿真實(shí)驗(yàn)結(jié)果表明,在達(dá)到幾乎相同的相似系數(shù)的情況下,運(yùn)行時(shí)間可減少45.43%,可有效降低運(yùn)算量。
時(shí)頻比;單源點(diǎn);線性時(shí)頻變換;重復(fù)結(jié)構(gòu);節(jié)拍譜;語音音樂信號(hào)分離
盲源分離是在不知道先驗(yàn)知識(shí)的情況下,根據(jù)源信號(hào)統(tǒng)計(jì)特性從混合信號(hào)分離出源信號(hào)的過程,語音和音樂信號(hào)的分離可應(yīng)用于說話人的識(shí)別與檢測(cè)、儀器識(shí)別、音樂旋律提取、樂譜轉(zhuǎn)錄等[1]。音樂信號(hào)通常都表現(xiàn)出較強(qiáng)的自相似性,因而有一些重復(fù)類型或重復(fù)結(jié)構(gòu),音樂的重復(fù)可表現(xiàn)在旋律、節(jié)奏、歌詞和編曲這4個(gè)方面,重復(fù)結(jié)構(gòu)的提取可用于音樂摘要、音樂檢索和音樂恢復(fù)[2]。通過音樂信號(hào)任意2個(gè)片段之間的相似性組成的二維相似矩陣可視化音樂信號(hào)的重復(fù)結(jié)構(gòu),相似矩陣可以通過MFCC、時(shí)頻譜圖或音樂信號(hào)的特征得到,可用來定位局部跳變點(diǎn)或者計(jì)算節(jié)拍譜[3],節(jié)拍譜最大值對(duì)應(yīng)的時(shí)間定義為音樂重復(fù)結(jié)構(gòu)的周期,音樂信號(hào)在具有重復(fù)結(jié)構(gòu)的時(shí)頻塊中具有相似的值[4]。
基于時(shí)頻比的盲源分離是通過檢測(cè)時(shí)頻單源點(diǎn)對(duì)應(yīng)的比值恢復(fù)出源信號(hào)[5],文獻(xiàn)[6]提出基于時(shí)頻比的算法,對(duì)觀測(cè)信號(hào)進(jìn)行短時(shí)傅里葉變換,計(jì)算恒定時(shí)間或恒定頻率的相鄰幾個(gè)時(shí)頻窗的時(shí)頻比,用互相關(guān)系數(shù)最大或均方差最小方法尋找單源點(diǎn)。文獻(xiàn)[7]針對(duì)時(shí)延混合系統(tǒng),提出在恒定時(shí)
間情況下的時(shí)頻比算法,將方差的均值按升序排列,最小均值對(duì)應(yīng)的時(shí)頻點(diǎn)就是最佳單源分析域。文獻(xiàn)[8]對(duì)觀測(cè)信號(hào)進(jìn)行小波包變換增大信號(hào)的稀疏程度。文獻(xiàn)[9]利用S變換構(gòu)造時(shí)頻比矩陣,獲得多分辨率特性。文獻(xiàn)[10]先去除能量較小的時(shí)頻點(diǎn),再根據(jù)實(shí)部與虛部的比值分別相等判斷單源點(diǎn)。基于時(shí)頻比的盲源分離將信號(hào)變換到時(shí)頻域后,計(jì)算量大且對(duì)算法有效的時(shí)頻窗比較少,本文提出縮小單源分析域的搜索范圍,根據(jù)重復(fù)結(jié)構(gòu)內(nèi)的時(shí)頻點(diǎn)在每個(gè)周期內(nèi)具有相似的值,選擇包含一個(gè)重復(fù)結(jié)構(gòu)周期的時(shí)頻域來代替整個(gè)時(shí)頻域檢測(cè)單源點(diǎn),減少計(jì)算量。
2.1 基于相似矩陣的重復(fù)結(jié)構(gòu)
相似矩陣的自相似性稱為節(jié)拍譜[11],反映了節(jié)拍的周期性變化規(guī)律,節(jié)拍譜的峰值對(duì)應(yīng)著重復(fù)時(shí)刻。節(jié)拍譜的計(jì)算分為3個(gè)步驟:(1)將音頻信號(hào)以頻譜等形式表示為特征向量組成的序列; (2)計(jì)算2個(gè)特征向量之間的相似度,得到相似矩陣;(3)計(jì)算相似矩陣的對(duì)角線和或自相關(guān),觀察相似矩陣的周期性。本文的節(jié)拍譜是對(duì)信號(hào)進(jìn)行短時(shí)傅里葉變換,以每幀信號(hào)的幅度譜作為特征向量進(jìn)行相似性計(jì)算。對(duì)混合信號(hào)作短時(shí)傅里葉變換,混合信號(hào)的幅度譜記作V。利用特征向量的夾角余弦參數(shù)描述相似性,相似矩陣定義為:
其中,V(i)和V(j)分別為第i幀和第j幀特征向量,以角度的余弦參數(shù)作為相似性測(cè)度,在向量幅值較小的情況下仍然可以得到較大的相似度。節(jié)拍譜可通過計(jì)算相似矩陣對(duì)角線方向元素之和得到:
其中,C(0)是主對(duì)角線元素之和;C(1)是上對(duì)角線元素之和,依次計(jì)算C(l)的各個(gè)元素。另一種計(jì)算節(jié)拍譜更為穩(wěn)健的方法是計(jì)算相似矩陣的自相關(guān):
其中,C(k,l)為對(duì)稱矩陣,只需按行或者列相加,就可得到節(jié)拍譜C(l);重復(fù)結(jié)構(gòu)的周期定義為節(jié)拍譜中最大值對(duì)應(yīng)的時(shí)間,記為p,包含重復(fù)結(jié)構(gòu)的時(shí)頻塊在每個(gè)周期內(nèi)都有相似的值。圖1所示是語音信號(hào)、音樂信號(hào)和語音音樂的混合信號(hào)的節(jié)拍譜。
圖1 3種信號(hào)的節(jié)拍譜
圖1(a)中語音信號(hào)的節(jié)拍譜沒有周期性的規(guī)律。圖1(b)中音樂信號(hào)和圖1(c)中語音音樂的混合信號(hào)的節(jié)拍譜周期性地形成了峰值,而且兩者的節(jié)拍譜比較接近。由圖1可以看出,將語音和音樂信號(hào)混合之后,混合信號(hào)中具有重復(fù)結(jié)構(gòu)。
2.2 基于時(shí)頻比改進(jìn)的盲源分離
在得到時(shí)頻比值之后,檢測(cè)單源區(qū)域,本文考慮恒定頻率、相鄰時(shí)間點(diǎn)構(gòu)成的時(shí)頻窗,這些相鄰的時(shí)頻窗稱為分析域,計(jì)算每一個(gè)分析域中的均值:
其中,M為分析域中時(shí)頻窗的個(gè)數(shù),之后計(jì)算方差:
基于時(shí)頻比改進(jìn)的語音音樂信號(hào)盲分離算法具體步驟為:
(1)對(duì)混合信號(hào)進(jìn)行短時(shí)傅里葉變換,從第一路混合信號(hào)開始計(jì)算每一路與第一路混合信號(hào)的時(shí)頻比值。
(2)計(jì)算幅度譜V中的各幀信號(hào)之間的相似性,得到相似矩陣,利用式(3)計(jì)算節(jié)拍譜,得到重復(fù)結(jié)構(gòu)周期p。
(3)以恒定頻率、相鄰時(shí)間點(diǎn)的時(shí)頻窗為分析域,選取包含一個(gè)重復(fù)結(jié)構(gòu)周期p的分析域,將分析域按方差的升序排列,將方差最小對(duì)應(yīng)的分析域作為第一個(gè)單源區(qū)域,確定分離矩陣的第一列。
(5)對(duì)時(shí)頻矩陣B求逆,求源信號(hào)的估計(jì)y=B-1x(t)。
圖2 源信號(hào)時(shí)域波形圖
對(duì)混合信號(hào)進(jìn)行短時(shí)傅里葉變換,選取窗長(zhǎng)為128的漢明窗,2幀之間的重疊75%,計(jì)算混合信號(hào)的頻譜。以幅度譜為特征向量,計(jì)算每個(gè)特征向量之間的相似性,相似矩陣主對(duì)角線計(jì)算的是每個(gè)特征向量的自相似性,相似值最大,為1,越接近于1的值代表對(duì)應(yīng)的2個(gè)特征向量之間的相似性越大。計(jì)算節(jié)拍譜,混合信號(hào)周期性地形成了峰值,如圖3所示。
圖3 混合信號(hào)的節(jié)拍譜
在第2 398幀處,節(jié)拍譜的峰值最大,此值對(duì)應(yīng)的時(shí)間為重復(fù)結(jié)構(gòu)的周期。將恒定頻率,相鄰10個(gè)時(shí)間點(diǎn)的時(shí)頻窗作為一個(gè)分析域,相鄰分析域的重復(fù)率為50%,一共998個(gè)分析域,選取第1個(gè)~第480個(gè)分析域,這些分析域包含了一個(gè)完整的重復(fù)結(jié)構(gòu)周期,然后檢測(cè)單源點(diǎn),在得到全部的時(shí)頻比的列后,對(duì)時(shí)頻比矩陣求逆并求得對(duì)源信號(hào)的估計(jì),分離信號(hào)時(shí)域波形如圖4所示,從圖2和圖4的波形對(duì)比可以看出,本文方法較好地分離出了源信號(hào)。
圖4 分離信號(hào)時(shí)域波形圖
評(píng)價(jià)分離效果的性能指標(biāo)有相似系數(shù)矩陣和信干比[13],第i路分離輸出信號(hào)yi與第j路輸入信號(hào)sj的相似系數(shù)計(jì)算公式如下:
當(dāng)ri,j≈1時(shí),yi是sj的較好估計(jì),由于在盲源分離中,分離信號(hào)存在幅度與順序的差異,當(dāng)相似系數(shù)矩陣每行每列都有且僅有一個(gè)元素接近于1,其他元素都接近于0時(shí),認(rèn)為該算法分離效果較為理想。分離后信號(hào)與源信號(hào)之間信干比(SIR)的定義式為:
將分離信號(hào)與源信號(hào)之間的差值作為干擾信號(hào),分離后計(jì)算出的信干比數(shù)值越大,分離效果越好。
用本文方法進(jìn)行語音和音樂信號(hào)的分離,并與原方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表1所示。
表1 改進(jìn)前后算法性能對(duì)比
理論上時(shí)頻比矩陣的值為:
從表1可以看出,改進(jìn)前后算法時(shí)頻比矩陣的值均較為接近理論值,分離效果也比較好,但改進(jìn)后算法選取了一部分時(shí)頻窗進(jìn)行計(jì)算,時(shí)間明顯降低。
在語音信號(hào)和音樂信號(hào)分別以-10 dB,-5 dB, 0 dB,5 dB,10 dB,混合的情況下計(jì)算SIR和相似系數(shù)矩陣,實(shí)驗(yàn)結(jié)果如表2所示。
表2 語音音樂信號(hào)在不同混合比例下的性能指標(biāo)對(duì)比
從表2可以看出,語音-音樂混合比變化時(shí),雖然相似系數(shù)矩陣的值變化不大,但是SIR變化比較明顯,當(dāng)語音-音樂混合比越大,SIR的值越大,分離效果越好。算法主要是尋找單源域?qū)?yīng)的時(shí)頻比,當(dāng)信號(hào)稀疏性較好時(shí),算法的性能越好,音樂信號(hào)在經(jīng)過時(shí)頻變換后稀疏性低于語音信號(hào),當(dāng)混合信號(hào)中音樂信號(hào)的比重越小,混合信號(hào)與語音信號(hào)就更為接近,信號(hào)的稀疏性越好,分離效果也越好。
觀察源信號(hào)數(shù)目增加對(duì)分離結(jié)果的影響,分別在源信號(hào)數(shù)為2個(gè)、3個(gè)、4個(gè)、5個(gè)的情況下計(jì)算信干比,實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同源信號(hào)數(shù)下的分離情況對(duì)比
從表3可以看出,當(dāng)源信號(hào)的數(shù)目增加時(shí),SIR的值呈下降趨勢(shì),即分離效果越差,因?yàn)殡S著源信號(hào)數(shù)目的增加,信號(hào)在時(shí)頻域單獨(dú)出現(xiàn)的幾率減小,所以在時(shí)頻域上從混合信號(hào)中尋找單個(gè)源信號(hào)就更加困難。
本文利用重復(fù)結(jié)構(gòu)來改進(jìn)基于時(shí)頻比的盲源分離算法,選取包含一個(gè)重復(fù)結(jié)構(gòu)周期的分析域代替整個(gè)時(shí)頻域來檢測(cè)單源點(diǎn)。仿真實(shí)驗(yàn)結(jié)果表明,在達(dá)到同等分離效果的情況下,改進(jìn)后算法檢測(cè)的時(shí)頻窗減少了51.90%,運(yùn)行時(shí)間減少了56.72%,有效地降低了運(yùn)算量。
[1]Hsu Chao-Ling,Wang Deliang.A Tandem Algorithm for Singing Pitch Extraction and Voice Separation from Music Accompaniment[J].IEEETransactionson Audio,Speech,and Language Processing,2012,20(5): 1482-1491.
[2]Lie L,Mu Y W.Repeating Pattern Discovery and Structure Analysis from Acoustic Music Data[C]// Proceedings ofthe 6thACMSIGMMInternational WorkshoponMultimediaInformationRetrieval.New York,USA:ACM Press,2004:275-282.
[3]Antoine L,Zafar R.Adaptive Filtering for Music/Voice SeparationExploitingtheRepeatingMusicalStructure[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing.Kyoto, Japan:[s.n.],2012:53-56.
[4]Zafar R,Bryan P.A Simple Music/Voice Separation Method Based on the Extraction of the Repeating MusicalStructure[C]//ProceedingsofIEEE International ConferenceonAcoustics,Speechand Signal Processing.Prague,Czechoslovakia:[s.n.], 2011:221-224.
[5]Lu Fengbo,Huang Zhitao,Jiang Wenli.Underdetermined Blind SeparationofNon-disjointSignalsinTimefrequency Domain Based on Matrix Diagonalization[J].Signal Processing,2011,91(7):1568-1577.
[6]Puigt M,Deville Y.Time-frequency Ratio-based Blind Separation Methods for Attenuated and Time-delayed Sources[J].Mechanical Systems and Signal Processing, 2005,19(6):1348-1379.
[7]Deville Y,Puigt M.Two Time-frequency Ratio-based Blind Source Separation Methods forTime-delayed Mixtures[C]//Proceedings of the 6th International Conference on Independent Component Analysis and Blind Signal Separation.Charleston,USA:[s.n.], 2006:682-690.
[8]Li Yuanqing,Amari S.Underdetermined Blind Source Separation Based on Sparse Representation[J].IEEE Transactions onSignalProcessing,2006,54(2): 423-437.
[9]郭 靖,曾孝平.盲源分離的一種時(shí)頻比方法[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(30):23-29.
[10]任喜順,沈越泓,高 猛,等.基于時(shí)頻分析的混合矩陣估計(jì)方法[J].信號(hào)處理,2012,28(4):545-553.
[11]尹琦卿,劉若倫.基于節(jié)奏的鼓聲識(shí)別[J].軟件導(dǎo)刊, 2013,12(6):140-143.
[12]Puigt M,Deville Y.Iterative-shift Cluster-based Timefrequency BBS for Fractional-time-delay Mixtures[C]// Proceedings of the 8th International Conference on Independent Component Analysis and Signal Separation.Paraty,Brazil:[s.n.],2009:15-18.
[13]劉 琚,孫建德,許宏吉.盲信號(hào)處理理論與應(yīng)用[M].北京:科學(xué)出版社,2012.
編輯 顧逸斐
Speech-music Signal Separation Based on Improved Time-frequency Ratio
GUO Wei,YU Fengqin
(School of Internet of Things Engineering,Jiangnan University,Wuxi 214122,China)
Time-frequency ratio is the ratio of mixed signals’amplitudes in time-frequency domain.The inversion of the matrix composing of the corresponding time-frequency ratios which is gotten from single source points in mixed signals can obtain the estimate of the source signals.Blind source separation based on time-frequency ratio has a large amount of calculation and small number of effective time-frequency windows after transforming the signals to the timefrequency domain.Time-frequency bins comprising the repeating patterns have similar values at each period.According to this characteristic,analysis zones including a repeating period are used to detect single source points instead of the whole time-frequency domain.Using similarity coefficient matrix as the separation effect standard,simulation experimental results show that the proposed method can reduce 45.43%of time with the same separation accuracy.
time-frequency ratio;single source point;linear time-frequency transform;repeating structure;beat spectrum;speech-music signal separation
郭 偉,于鳳芹.基于改進(jìn)時(shí)頻比的語音音樂信號(hào)分離[J].計(jì)算機(jī)工程,2015,41(3):287-291.
英文引用格式:Guo Wei,Yu Fengqin.Speech-music Signal Separation Based on Improved Time-frequency Ratio[J].Computer Engineering,2015,41(3):287-291.
1000-3428(2015)03-0287-05
:A
:TN912.34
10.3969/j.issn.1000-3428.2015.03.054
郭 偉(1989-),女,碩士研究生,主研方向:語音信號(hào)處理;于鳳芹,教授。
2014-04-24
:2014-05-25E-mail:xuyixi2012@sina.com