朱文博,王謀,張曉雷,Susanto Rahardja
(西北工業(yè)大學(xué)航海學(xué)院智能聲學(xué)與臨境通信研究中心,陜西西安 710072)
語音分離的目的是將多個(gè)音源的混合語音分離成其對(duì)應(yīng)成分。在本文中,我們研究了基于深度學(xué)習(xí)的說話人無關(guān)情況下的語音分離,其中說話人無關(guān)的情況是指訓(xùn)練時(shí)所用到的說話人與測(cè)試中的說話人可以不相同[1]。Hershey 等人首先提出用深度聚類的方法來解決語音分離問題[2]。在此之后,針對(duì)語音分離問題又提出了多種方法,例如置換不變訓(xùn)練[3-4],深度吸引子網(wǎng)絡(luò)[5]。在這些方法中,被廣泛應(yīng)用的聲學(xué)特征是短時(shí)傅里葉變換的幅度譜(short -time Fourier transform,STFT)。然而,在從分離后的幅度譜恢復(fù)成時(shí)域信號(hào)的過程中,所用到的是含有噪聲的相位譜,這會(huì)導(dǎo)致得到次優(yōu)的性能。
為了克服這一缺陷,數(shù)據(jù)驅(qū)動(dòng)的從時(shí)域到時(shí)頻域變換的可學(xué)習(xí)特征成為了新的趨勢(shì)。其中代表性的就是一維卷積濾波器(1D-conv)[6-9]。由于該變換是與分離網(wǎng)絡(luò)聯(lián)合訓(xùn)練的,并且不需要額外的人工操作,因此該變換相比于STFT來說使語音分離的性能得到了提升。在這些時(shí)域方法中,Conv-Tasnet在幀長設(shè)置為僅2 毫秒的低時(shí)延情況下得到了杰出的分離性能,從而受到了廣泛的關(guān)注。
近期有一些工作旨在研究Conv-Tasnet 的聲學(xué)特征。例如,Ditter 和Gerkmann 用人工設(shè)計(jì)特征[10],即多相位gammatone濾波器組(MPGTF)來代替Conv-Tasnet中編碼器部分的可學(xué)習(xí)特征,并在尺度無關(guān)信噪比(scale-invariant source-to-noise,SI-SNR)上帶來了提升。Pariente 等人將參數(shù)化濾波器擴(kuò)展為了復(fù)值的解析濾波器[11-12],同時(shí)他們也提出了類似的一維卷積濾波器的解析版本。解析的一維卷積濾波器相比于原始的Conv-Tasnet 也有性能上的提升。上述結(jié)果表明,人工設(shè)計(jì)特征和參數(shù)化特征與目前最先進(jìn)的可學(xué)習(xí)特征相比也具有競(jìng)爭(zhēng)力。
然而,目前缺少對(duì)于可學(xué)習(xí)特征,人工設(shè)計(jì)特征以及參數(shù)化特征的比較。受到用人工設(shè)計(jì)特征來代替編碼器或解碼器的可學(xué)習(xí)特征的啟發(fā),在這篇文章中我們將三種類型的特征在Conv-Tasnet 框架下進(jìn)行了比較。同時(shí)為了了解這三種特征之間的聯(lián)系,我們將多相位gammatone 濾波器組和參數(shù)化特征進(jìn)行了結(jié)合,提出了參數(shù)化多相位gammatone 濾波器組(ParaMPGTF)。其中,ParaMPGTF的中心頻率和帶寬將與分離網(wǎng)絡(luò)聯(lián)合訓(xùn)練。我們?cè)赪SJ0-2mix 數(shù)據(jù)集[2]上比較了STFT、MPGTF、ParaMPGTF 以及可學(xué)習(xí)特征。實(shí)驗(yàn)結(jié)果表明:如果解碼器是可學(xué)習(xí)特征,將編碼器設(shè)置為參與比較特征中的任意一種都產(chǎn)生了相似的性能。我們還比較了將STFT、MPGTF、ParaMPGTF 作為編碼器,它們的逆變換作為解碼器。實(shí)驗(yàn)結(jié)果表明:我們所提出的ParaMPGTF 比其他兩種人工設(shè)計(jì)特征的性能要好。
本文將以下面所述進(jìn)行組織編排。第二節(jié)介紹了比較的框架以及所提出的ParaMPGTF,第三節(jié)展示實(shí)驗(yàn)結(jié)果。第四節(jié)總結(jié)了我們的發(fā)現(xiàn)。
本文研究的基礎(chǔ)分離框架是Conv-Tasnet。如圖1 所示,它由三個(gè)主要部分構(gòu)成:編碼器,分離網(wǎng)絡(luò)和解碼器。編碼器和解碼器采用小幀長來顯著降低系統(tǒng)時(shí)延。編碼器和解碼器是可學(xué)習(xí)的一維卷積濾波器,他的作用是在時(shí)域信號(hào)和時(shí)頻特征之間進(jìn)行類似的轉(zhuǎn)換。分離網(wǎng)絡(luò)是一個(gè)由一維擴(kuò)張卷積塊堆疊成的全卷積的分離模塊[13-14],以SI-SNR 為損失進(jìn)行優(yōu)化。其作用是為每個(gè)音源產(chǎn)生一個(gè)掩模。
圖1 Conv‐Tasnet的框架圖
我們使用WSJ0-2mix 數(shù)據(jù)集對(duì)雙說話人語音分離性能進(jìn)行比較[2]。它包含了30個(gè)小時(shí)的訓(xùn)練數(shù)據(jù),10 小時(shí)的驗(yàn)證數(shù)據(jù)以及5 小時(shí)的測(cè)試數(shù)據(jù)。WSJ0-2mix中的混合語音是通過在Wall Street Journal(WSJ0)訓(xùn)練集si_tr_s 中隨機(jī)選擇不同的說話者和句子產(chǎn)生的,并將它們以-5分貝到5分貝范圍中的隨機(jī)信噪比混合。測(cè)試集中的句子來自于WSJ0數(shù)據(jù)集中si_dt_05 和si_et_05 中16個(gè)訓(xùn)練中未用到的說話人。WSJ0-2mix中所有的語音均被重采樣至8000赫茲。
該網(wǎng)絡(luò)在4秒長的片段上進(jìn)行了200個(gè)周期的訓(xùn)練。優(yōu)化器采用Adam 優(yōu)化器,初始學(xué)習(xí)率為0.001。如果在驗(yàn)證集上連續(xù)5個(gè)周期性能沒有提升則學(xué)習(xí)率減半。同時(shí),當(dāng)驗(yàn)證集上的性能在過去的10個(gè)周期內(nèi)都沒有提升時(shí),網(wǎng)絡(luò)訓(xùn)練將會(huì)被停止。網(wǎng)絡(luò)的超參數(shù)設(shè)置遵循Conv-Tasnet 中的網(wǎng)絡(luò)超參數(shù)[10],其中濾波器數(shù)目為512。時(shí)序卷積網(wǎng)絡(luò)(Temporal Convolutional Networks,TCN)的掩模函數(shù)分別被設(shè)置為sigmoid 函數(shù)和修正線性單元(rectified linear unit,Re-LU)。對(duì)于ParaMPGTF,我們將階數(shù)設(shè)置為2,幅度設(shè)置為1。我們將和的初始值設(shè)置為其經(jīng)驗(yàn)值,即我們將SI-SNR 作為評(píng)價(jià)指標(biāo)。所報(bào)告的結(jié)果均是3000 句測(cè)試混合語音的平均結(jié)果。
我們首先比較了解碼器為可學(xué)習(xí)特征,編碼器為STFT,MPGTF,ParaMPGTF和可學(xué)習(xí)特征時(shí)的情況,表1 列出了比較結(jié)果。從表1 中可以看出,這四種特征并沒有產(chǎn)生很大的性能差異。如果我們仔細(xì)比較,我們發(fā)現(xiàn)STFT特征在測(cè)試集和驗(yàn)證集都達(dá)到最高的性能。MPGTF 和ParaMPGTF 性能比較接近,ParaMPGTF 在驗(yàn)證集上略好于MPGTF,而在測(cè)試集上略差于MPGTF。
表1 當(dāng)解碼器為可學(xué)習(xí)特征時(shí),不同特征作為編碼器的比較
圖2 所示的是用MPGTF,ParaMPGTF,STFT 和可學(xué)習(xí)特征作為編碼器,解碼器為可學(xué)習(xí)特征的幅度譜圖,由于STFT 的實(shí)部部分和虛部部分有相似的形狀[17],因此我們這里只繪制了從1 到256 頻點(diǎn)的STFT。濾波器在0 到4000 赫茲的范圍內(nèi)均勻分布。從圖中可以看出,ParaMPGTF 和MPGTF 的幅度譜圖是相似的。這一現(xiàn)象不僅說明了它們的性能相似,而且也說明了參數(shù)化特征能夠被成功地優(yōu)化。不僅如此,圖2也表明了(1)MPGTF是一個(gè)良好的人工設(shè)計(jì)特征,(2)可學(xué)習(xí)的解碼器能夠有效的學(xué)習(xí)到編碼器的反變換。表2 列出了人工設(shè)計(jì)特征MPGTF 的和以及ParaMPGTF 中優(yōu)化得到的和。從表中我們可以看出兩組參數(shù)十分接近,這也進(jìn)一步解釋了MPGTF和ParaMPGTF相似的性能。
表2 當(dāng)解碼器為可學(xué)習(xí)特征時(shí),MPGT和ParaMPGTF中和的比較
表2 當(dāng)解碼器為可學(xué)習(xí)特征時(shí),MPGT和ParaMPGTF中和的比較
圖2 不同設(shè)置的編碼器和解碼器的幅度譜圖的可視化。左邊為基于MPGTF的編碼器,中間為基于ParaMPGTF的編碼器,右邊為基于STFT的編碼器。
在該實(shí)驗(yàn)中,我們將分別將編碼器設(shè)置為STFT,MPGTF,ParaMPGTF,并將解碼器設(shè)置為其對(duì)應(yīng)的逆變換。表3 列出了STFT,MPGTF,ParaMPGTF 以及它們逆變換分別作為編碼器和解碼器的實(shí)驗(yàn)結(jié)果。從表中我們可以看出,這三種比較方法的性能大體上是相似的。
表3 編碼器和解碼器為不同特征及其逆變換時(shí)的比較
如果我們仔細(xì)研究細(xì)節(jié),我們發(fā)現(xiàn)在測(cè)試集和驗(yàn)證集上,我們所提出的ParaMPGTF 都達(dá)到了最好的性能,這也表明了參數(shù)化訓(xùn)練的策略有改進(jìn)傳統(tǒng)人工設(shè)計(jì)特征的潛力。圖3展示的是將解碼器為編碼器的逆變換時(shí)所訓(xùn)練的模型在驗(yàn)證集上的收斂曲線。圖中我們可以發(fā)現(xiàn)可學(xué)習(xí)特征比人工設(shè)計(jì)特征和參數(shù)化特征收斂的更快。盡管人工設(shè)計(jì)特征和ParaMPGTF 在前期以相似的速度收斂,然而ParaMPGTF 收斂的更快。
圖3 不同編碼器‐解碼器的收斂曲線
在本文中,我們提出了一種參數(shù)化的多相位gammatone 濾波器組。Para MPGTF將MPGTF中的核心參數(shù)與網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練。我們還在同一個(gè)實(shí)驗(yàn)框架中比較了人工設(shè)計(jì)特征,參數(shù)化特征和可學(xué)習(xí)特征。據(jù)我們所知,這是第一個(gè)將三種特征放在一起比較。所比較的特征有STFT,MPGTF,ParaMPGTF 和可學(xué)習(xí)特征。實(shí)驗(yàn)結(jié)果表明:當(dāng)解碼器設(shè)置為可學(xué)習(xí)特征時(shí),這四種特征的表現(xiàn)相似。STFT 比其他特征的性能稍好。當(dāng)解碼器設(shè)置為編碼器的逆變換時(shí),ParaMPGTF比其他人工設(shè)計(jì)特征的性能好。