• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于TasNet的單通道語音分離技術(shù)的研究綜述

      2022-11-23 09:10:00朱定局
      計(jì)算機(jī)與現(xiàn)代化 2022年11期
      關(guān)鍵詞:掩膜時(shí)域編碼器

      陸 煒,朱定局

      (華南師范大學(xué)計(jì)算機(jī)學(xué)院,廣東 廣州 510631)

      0 引 言

      在現(xiàn)實(shí)世界中,語音交流通常發(fā)生在復(fù)雜的多人環(huán)境中。在此條件下運(yùn)行的語音處理系統(tǒng)需能夠分離不同說話者的語音,而這項(xiàng)任務(wù)難以在機(jī)器中建模。近年來,與傳統(tǒng)的語音分離方法相比,利用深度學(xué)習(xí)的語音分離方法顯著改善了此問題的現(xiàn)狀[1-6]。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)語音分離算法在過程一開始會通過短時(shí)傅里葉變換(Short-Time Fourier Transform, STFT)來創(chuàng)建混合語音信號的時(shí)-頻域(Time-Frequency Domain)表征,然后利用對應(yīng)于時(shí)頻表征的掩膜將聲源的單元盒進(jìn)行分離,最后通過逆短時(shí)傅里葉變換(Inverse Short-Time Fourier Transform, ISTFT)來恢復(fù)分離后的語音信號。在這個(gè)框架中存在以下幾個(gè)問題:

      1)無法確定傅里葉變換是最優(yōu)的語音分離變換方法。

      2)由于短時(shí)傅里葉變換將語音信號轉(zhuǎn)換至復(fù)數(shù)域,分離算法需同時(shí)處理語音信號的幅度和相位信息,而相位信息的修改難度較大,所以大多數(shù)方法僅通過計(jì)算每個(gè)語音信號源的時(shí)頻掩膜來修改短時(shí)傅里葉變換的幅度,并使用經(jīng)掩膜操作后的幅度譜圖與語音混合信號的原始相位信息進(jìn)行合成,這使得語音分離的性能存在上限。盡管存在若干系統(tǒng)[7-8]是利用相位信息來設(shè)計(jì)掩膜的,但由于分離過程存在不準(zhǔn)確性,因此語音分離的性能上限仍然存在。

      3)短時(shí)傅里葉變換域中的語音分離需要高頻分辨率,但這將導(dǎo)致時(shí)間窗口長度變大,例如,時(shí)間窗口長度在語音研究領(lǐng)域中一般超過32 ms[3-4],在音樂分離領(lǐng)域中一般超過90 ms[9]。由于語音分離系統(tǒng)的最小延遲時(shí)間受制于短時(shí)傅里葉變換的時(shí)間窗口長度,因此這個(gè)框架會限制需要低延遲要求的系統(tǒng)或設(shè)備的使用與發(fā)展。解決這些問題的一種方法是在時(shí)域中對語音信號進(jìn)行建模。

      近年來,在時(shí)域中對語音信號進(jìn)行建模的方法已成功應(yīng)用于語音識別、合成和增強(qiáng)等任務(wù)[10-14],但尚未利用深度學(xué)習(xí)的方法進(jìn)行波形級的語音分離。Luo等人[15]在2018年提出了時(shí)域音頻分離網(wǎng)絡(luò)(Time-domain audio separation Network, TasNet),這種神經(jīng)網(wǎng)絡(luò)使用編碼器-解碼器的框架直接對混合語音信號進(jìn)行建模并對編碼器的輸出執(zhí)行分離操作。在這個(gè)框架中,混合波形由N個(gè)基信號的非負(fù)加權(quán)和表示,其中,權(quán)重是編碼器的輸出,基信號是解碼器的濾波器。分離操作是通過從混合信號的權(quán)重中估計(jì)對應(yīng)于每個(gè)信號源的權(quán)重來完成的。因?yàn)闄?quán)重值是非負(fù)的,源權(quán)重的估計(jì)值可以通過公式化操作找到表征每個(gè)信號源相對于混合語音信號權(quán)重貢獻(xiàn)度的掩膜,這個(gè)掩膜類似于STFT系統(tǒng)中所使用的T-F掩膜。然后利用經(jīng)學(xué)習(xí)得出的解碼器重建聲源波形。由于TasNet框架可以對小至5 ms的波形段進(jìn)行操作,因此該系統(tǒng)可以以極低的延遲進(jìn)行實(shí)時(shí)的語音分離操作。除了具有較低的延遲外,TasNet較基于短時(shí)傅里葉變換的系統(tǒng)有著更優(yōu)的性能,其在不需要實(shí)時(shí)處理語音信號的應(yīng)用中,也可以利用非因果的分離模塊,結(jié)合來自整個(gè)聲音信號的信息,從而進(jìn)一步提高性能。本文接下來將從橫、縱2個(gè)方向的對比來研究基于TasNet框架的單通道語音分離研究進(jìn)展,并闡述目前基于TasNet的單通道語音分離模型的局限性,最后從模型、數(shù)據(jù)集、說話人數(shù)量以及如何解決復(fù)雜場景下的語音分離等層面對未來的研究方向進(jìn)行討論。

      1 TasNet與基于深度學(xué)習(xí)的其他傳統(tǒng)方法的比較研究

      “語音分離”這一概念源自經(jīng)典的雞尾酒會問題,其目標(biāo)是在復(fù)雜的多人說話環(huán)境中,將每個(gè)目標(biāo)說話人的對應(yīng)語音信號分離出來。深度學(xué)習(xí)的語音分離算法在單通道語音分離領(lǐng)域已經(jīng)超越了傳統(tǒng)信號處理算法,故本文將不探討非深度學(xué)習(xí)的語音分離方法。

      語音信號在時(shí)域有很強(qiáng)的時(shí)變性,在一段時(shí)間內(nèi)會呈現(xiàn)出周期信號的特點(diǎn),而在另一段時(shí)間內(nèi)呈現(xiàn)出隨機(jī)信號的特點(diǎn),或者呈現(xiàn)出兩者混合的特性。若將語音信號轉(zhuǎn)換到頻域或者其他變換域,則語音信號在時(shí)域中表現(xiàn)不明顯的信號特征在變換域上將表現(xiàn)得明顯,這樣就可以對表現(xiàn)出的信號特征進(jìn)行分析。

      由于語音信號的時(shí)變性,研究者常用短時(shí)傅里葉變換方法進(jìn)行語音信號的處理。具體做法是首先選取適當(dāng)?shù)拇昂瘮?shù)將語音信號進(jìn)行分幀處理,然后將各幀語音信號分別進(jìn)行傅里葉變換。語音信號分幀后,因每幀時(shí)間較短,則可將每幀的信號看作是平穩(wěn)的,這樣便可觀察語音信號的頻譜圖了,頻譜圖可較好地反映出語音隨時(shí)間、頻率的變化特性。同時(shí)經(jīng)短時(shí)傅里葉變換后,語音信號為二維信號,可以將其看作一個(gè)二維矩陣,以便于后續(xù)的語音信號處理。目前,比較典型的基于深度學(xué)習(xí)的語音分離方法有深度聚類(Deep Clustering, DPCL)、置換不變訓(xùn)練(Permutation Invariant Train, PIT)以及本文將重點(diǎn)介紹的時(shí)域語音分離網(wǎng)絡(luò)(TasNet)。表1展示了深度聚類、置換不變性訓(xùn)練及時(shí)域分離網(wǎng)絡(luò)的主要特點(diǎn)。

      表1 深度聚類、置換不變性訓(xùn)練及時(shí)域分離網(wǎng)絡(luò)的比較

      深度聚類方法是MERL實(shí)驗(yàn)室Hershey等人[16]于2016年提出的語音分離方法。這一方法的基本思路是將混合語音信號轉(zhuǎn)化為頻譜圖,將頻譜圖上每個(gè)時(shí)-頻塊(TF)通過一個(gè)深度神經(jīng)網(wǎng)絡(luò)映射到一個(gè)特征空間,使得在該特征空間中各個(gè)TF塊的相鄰矩陣與依實(shí)際標(biāo)注得到的相鄰矩陣盡可能相似?;谶@一特征空間,對混合語音的TF塊進(jìn)行聚類,再將同一類的TF塊選出來作為一個(gè)聲源的頻譜,即可實(shí)現(xiàn)語音分離。深度聚類的性能和泛化性較好,但缺點(diǎn)是它不是一個(gè)端到端的方法。

      置換不變訓(xùn)練是Yu等人[17]于2017年提出的一種端到端的語音分離方法。PIT模型的設(shè)計(jì)思想是當(dāng)模型給定時(shí),就可以給出一個(gè)確定的分離后的語音排列,并選擇可以使得損失函數(shù)最小化的排列方式,反之,當(dāng)排列給定時(shí)則可以訓(xùn)練模型,因此可在實(shí)驗(yàn)最初隨機(jī)初始化一個(gè)分離模型,在得到一個(gè)排列后,更新模型,反復(fù)迭代至收斂。該方法有效地解決了基于深度學(xué)習(xí)的語音分離技術(shù)中長期存在的標(biāo)簽排列問題。

      時(shí)域分離網(wǎng)絡(luò)是由Luo等人[15]在2018年提出的一種基于時(shí)域的端到端的語音分離方法,即直接輸入混合語音信號,不經(jīng)過短時(shí)傅立葉變換(STFT)從而得到聲音特征。傳統(tǒng)的基于時(shí)-頻域的語音分離方法因STFT而存在相位不匹配的問題,TasNet則既可以利用幅度信息也可以利用相位信息。TasNet的結(jié)構(gòu)由編碼器、分離網(wǎng)絡(luò)和解碼器組成,與基于時(shí)-頻域的語音分離方法相比,編碼過程不是固定的而是通過網(wǎng)絡(luò)學(xué)習(xí)生成的,信號通過分離網(wǎng)絡(luò)得到相應(yīng)目標(biāo)者個(gè)數(shù)的掩膜,再經(jīng)學(xué)習(xí)得到的掩膜矩陣與編碼器輸出矩陣進(jìn)行點(diǎn)乘后,最后經(jīng)過解碼器輸出分離后的語音信號。

      2 基于TasNet的語音分離方法的現(xiàn)狀與發(fā)展

      2.1 基于時(shí)域的全卷積模型(Conv-TasNet)

      基于時(shí)-頻域的語音分離方法存在相位不匹配的問題,即在語音分離的最后階段中,增強(qiáng)的幅值譜和原始混合的相位譜進(jìn)行逆短時(shí)傅里葉變換后會對語音分離的性能產(chǎn)生一定的影響,Wang等人在2018年和2019年提出了WA-MISI[18]和Sign prediction net[19]等方法,以解決語音分離中相位補(bǔ)償?shù)膯栴},Liu等人[20]在2019年提出了Deep CASA的方法,以解決在復(fù)數(shù)譜中進(jìn)行語音分離的問題。解決相位不匹配問題的另一種解決辦法就是在時(shí)域上進(jìn)行語音分離,基于時(shí)域的分離系統(tǒng)與將音頻的時(shí)頻表示作為輸入的系統(tǒng)有所不同,時(shí)域音頻分離網(wǎng)絡(luò)通過學(xué)習(xí)產(chǎn)生自適應(yīng)的前端,用時(shí)域卷積的非負(fù)自動編碼器替代時(shí)頻域表征,即利用時(shí)域的波形點(diǎn)作為特征輸入,并同樣在時(shí)域上輸出波形點(diǎn),因?yàn)闀r(shí)域上包含了語音的所有特征,所以這種端到端的訓(xùn)練模型可以避免相位不匹配的問題,從而突破語音分離問題中的一大瓶頸。

      Luo等人2018年提出的TasNet是一種直接對混合聲音波形進(jìn)行操作的深度學(xué)習(xí)語音分離系統(tǒng)(模型示意圖如圖1所示),它包含3個(gè)部分:用于估計(jì)混合權(quán)重的編碼器、分離模塊和用于重建源波形的解碼器。編碼器和解碼器模塊的組合為混合波形構(gòu)建了一個(gè)非負(fù)的自動編碼器,其中非負(fù)權(quán)重值是由編碼器經(jīng)過計(jì)算得出的,并且基礎(chǔ)信號是解碼器中的一維濾波器,分離模塊中使用了深度長短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò),最終通過在混合權(quán)重矩陣中對應(yīng)的信號源掩膜來解決在時(shí)域上的語音分離問題。該研究成果相較于基于短時(shí)傅里葉變換的系統(tǒng)而言,其分離速度提高了6倍,具有更好的語音分離性能。同年,Luo等人[21]開展了TasNet在語音去噪問題上的工作,他們通過將去混響問題類比為語音分離問題,進(jìn)而表述成直接路徑與混響分離的去噪問題,最終證明,TasNet在頻譜圖輸入方面優(yōu)于深度LSTM基線,并且通過在卷積自動編碼器中調(diào)整步幅的大小進(jìn)一步提高了語音分離和去混響任務(wù)的性能。圖1是TasNet模型示意圖。

      圖1 TasNet模型示意圖

      盡管TasNet在因果和非因果實(shí)現(xiàn)方面都優(yōu)于基于時(shí)-頻域的語音分離方法,但在分離模塊中使用深度長短期記憶網(wǎng)絡(luò)會限制原始的TasNet框架。原因如下:1)在編碼器中選擇較短的波形段作為輸入會增加編碼器輸出的長度,這使得基于LSTM網(wǎng)絡(luò)的訓(xùn)練難以被管理;2)深度LSTM網(wǎng)絡(luò)中所使用的大量參數(shù)會增加其計(jì)算的成本,從而限制了原始TasNet框架在諸如嵌入式系統(tǒng)、可穿戴聽力設(shè)備等低資源、低功耗平臺的適用性;3)LSTM網(wǎng)絡(luò)具有對長期時(shí)間的依賴性,這通常會影響語音的分離精度。為了緩解原始TasNet框架的局限性,Luo等人[22]在原有基礎(chǔ)上于2019年進(jìn)一步提出了全卷積的TasNet(Conv-TasNet)模型,即在語音處理的所有階段僅使用卷積層。受時(shí)間卷積網(wǎng)絡(luò)(Temporal Convolutional Network, TCN)模型[23-25]的啟發(fā),Conv-TasNet中使用TCN架構(gòu)來代替深度LSTM網(wǎng)絡(luò)進(jìn)行分離步驟,為了進(jìn)一步減少參數(shù)的數(shù)量和計(jì)算的成本,Luo和Mesgarani等人用深度可分離卷積[26-27]代替了原始卷積。最終證明,Conv-TasNet在因果和非因果實(shí)現(xiàn)中顯著提高了基于LSTM神經(jīng)網(wǎng)絡(luò)的TasNet的分離精度。此外,Conv-TasNet的分離精度超過了在信號失真比(Signal Distortion Ratio, SDR)和平均意見得分(Mean Opinion Score, MOS)測量評判標(biāo)準(zhǔn)下的理想時(shí)-頻域幅度掩膜如理想二值掩膜[28](Ideal Binary Mask, IBM)、理想比率掩膜[29-30](Ideal Ratio Mask, IRM)和維納濾波器掩膜[7](Wiener Filtering Mask, WFM)等的性能。

      表2 針對Conv-TasNet的一些改進(jìn)工作

      針對Conv-TasNet,有諸多學(xué)者展開了相關(guān)的改進(jìn)工作(如表2所示)。Tuan等人[31]于2019年提出了Mini-TasNet(MiTAS)模型,MiTAS模型對混合音頻中背景噪音和起始點(diǎn)的干擾具有魯棒性。與TasNet和Conv-TasNet相比,MiTAS能夠減少4倍的模型大小,同時(shí)有著更高的語音分離穩(wěn)定性,其模型更適合實(shí)時(shí)、低延遲的應(yīng)用程序;Conv-TasNet被證實(shí)存在人工的操作,F(xiàn)aceBook人工智能實(shí)驗(yàn)室的Défossez等人[32]于2019年提出了一種基于掩膜方法的波形到波形的替代模型Demucs,其架構(gòu)更接近于音頻生成模型,解碼器容量更大。Défossez等人推測,當(dāng)信息在混合儀器中丟失且不能簡單地通過掩膜恢復(fù)時(shí),該方法將發(fā)揮用處;由于Conv-TasNet的訓(xùn)練編碼器與聽覺濾波器組存在相似性,Ditter等人[33]采用確定性GammaTone濾波器組,于2020年提出了確定性多相伽馬色調(diào)濾波器組(MP-GTF),以替換Conv-TasNet中的學(xué)習(xí)編碼器,研究表明,當(dāng)Conv-TasNet中的學(xué)習(xí)編碼器被MP-GTF取代時(shí),整體系統(tǒng)性能不會降低,相反,該模型可以讓SI-SNR的平均值提高0.7 dB。此外,在不會影響整體性能的情況下,MP-GTF濾波器的數(shù)量可以從512個(gè)減少到128個(gè)。該模型整體性能類似于端到端系統(tǒng),同時(shí)可減少訓(xùn)練數(shù)據(jù)的過度擬合;Conv-TasNet模型主要關(guān)注分離器,其編碼器和解碼器為淺層線性算子,Kadioglu等人[34]于2020年提出了基于Conv-TasNet的深度非線性的編碼器與解碼器變體。研究表明,編碼器與解碼器的變體可以將SI-SNR的平均值提高1 dB以上;受生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)在語音增強(qiáng)任務(wù)上的成功應(yīng)用的啟發(fā)[35-36],Deng等人[37]于2020年提出了一種名為Conv-TasSAN的新型分離對抗網(wǎng)絡(luò),其中分離器是采用Conv-TasNet架構(gòu)實(shí)現(xiàn)的。鑒別器目標(biāo)使用客觀語音質(zhì)量評估(Perceptual Evaluation of Speech Quality, PESQ)或可短時(shí)客觀可懂(Short-time Objective Intelligibility, STOI)語音質(zhì)量評價(jià)方法,以提高由分離器建模的源分布的準(zhǔn)確性。研究證明,通過在WSJ0-2mix數(shù)據(jù)集上的實(shí)驗(yàn)表明,Conv-TasSAN在SI-SNR和PESQ方面優(yōu)于Conv-TasNet;由于回聲和遠(yuǎn)端信號之間的非線性關(guān)系,線性自適應(yīng)濾波器不能完全去除聲學(xué)回聲,因此通常需要一個(gè)后處理模塊來進(jìn)一步抑制回聲,Chen等人[38]于2020年提出了一種基于改進(jìn)的Conv-TasNet的殘余回聲抑制方法,該方法采用線性聲學(xué)回聲消除系統(tǒng)的殘余信號和自適應(yīng)濾波器的輸出,為Conv-TasNet形成多個(gè)流,在保持整個(gè)系統(tǒng)具有較低延遲性的同時(shí),有效地抑制了回聲。研究證明,仿真結(jié)果驗(yàn)證了所提出的方法在單方通話和雙方通話情況下的有效性;Conv-TasNet的去噪性能和計(jì)算效率主要受掩膜預(yù)測網(wǎng)絡(luò)結(jié)構(gòu)的影響,Koizumi等人[39]于2021年提出了一種基于Conformer的時(shí)域語音增強(qiáng)網(wǎng)絡(luò)DF-Conformer,研究者旨在通過將Conformer集成到新的掩碼預(yù)測網(wǎng)絡(luò)中來提高Conv-TasNet模型的順序建模能力。為了提高計(jì)算復(fù)雜度和局部順序建模,研究者使用線性復(fù)雜度注意力機(jī)制和一維擴(kuò)張可分離卷積擴(kuò)展了Conformer。研究證明,使用線性復(fù)雜性注意力機(jī)制可解決計(jì)算復(fù)雜性問題,并且DF-Conformer模型比改進(jìn)后的時(shí)間擴(kuò)張卷積網(wǎng)絡(luò)(TDCN++)有著更高的性能。

      2.2 基于時(shí)域的雙路徑循環(huán)神經(jīng)網(wǎng)絡(luò)模型(DPRNN-TasNet)

      由于Conv-TasNet使用固定的時(shí)間上下文長度,即Conv-TasNet沒有辦法整合整句話的信息,它只能關(guān)注到所切割的固定語音長度范圍內(nèi)的信息,因此在需要長期跟蹤某個(gè)目標(biāo)說話者語音信息的場景中,尤其是在混合音頻中存在長時(shí)間停頓的情況下,該方法可能會失效。為了解決這個(gè)問題,Luo等人[40]在2020年提出了一種雙路徑循環(huán)神經(jīng)網(wǎng)絡(luò)(Dual-Path RNN, DPRNN)的語音分離方法(模型示意圖如圖2所示)。

      圖2 DPRNN模型示意圖

      DPRNN不僅會考慮所切割語音的長度信息,同時(shí)也會整合目標(biāo)說話者整句的信息,使得語音分離網(wǎng)絡(luò)可以關(guān)注到更長時(shí)間的語音信息。傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)無法有效地對由大量時(shí)間步長組成的輸入序列進(jìn)行建模,而一維卷積神經(jīng)網(wǎng)絡(luò)(1-D CNN)在其感受野小于序列長度時(shí)無法進(jìn)行話語級別的序列建模。DPRNN可在深層結(jié)構(gòu)中組織RNN層以對長時(shí)間序列進(jìn)行建模。DPRNN將長時(shí)間序列的輸入拆分成塊并不斷迭代塊內(nèi)和塊間操作,其塊處理過程為:將通過分割處理后得到的三維向量送入連續(xù)堆疊的DPRNN中,每個(gè)DPRNN的輸入及輸出維度保持一致,每個(gè)DPRNN中,輸入的三維向量首先經(jīng)過塊內(nèi)RNN,再將每個(gè)塊分別作為輸入送進(jìn)雙向RNN中,以進(jìn)行局部的建模,緊接著將上述輸出作為輸入經(jīng)過全連接層、層歸一化和殘差連接之后送入塊間RNN,塊間RNN與塊內(nèi)RNN類似,只是RNN的輸入是每個(gè)時(shí)間步的所有塊,而不是一個(gè)塊的所有時(shí)間步,以此來進(jìn)行全局建模,前一個(gè)DPRNN的輸出結(jié)果將會是下一個(gè)DPRNN的輸入,以此進(jìn)行迭代處理。這種神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)允許每個(gè)RNN輸入的長度與原始輸入長度的平方根成正比,從而實(shí)現(xiàn)次線性的處理并減輕優(yōu)化過程中面臨的挑戰(zhàn)。

      表3 基于WSJ0-2mix的各模型性能對比

      Luo等人在TasNet框架中通過使用深度DPRNN替換一維CNN模塊來執(zhí)行樣本級分離的方法,使得該方法在WSJ0-2mix數(shù)據(jù)集上獲得了較之于先前語音分離方法[3-4, 6, 18-20, 22, 41-43]更優(yōu)的性能,表3展示了部分方法的性能對比。

      表4 針對DPRNN的一些改進(jìn)工作

      針對DPRNN-TasNet,有諸多學(xué)者展開了相關(guān)的改進(jìn)工作(如表4所示)。2020年,F(xiàn)acebook團(tuán)隊(duì)的Nachmani等人[44]改進(jìn)了DPRNN模型,采用了一種特定RNN架構(gòu)的新型語音分離模型。由于語音信號包含無聲部分,因此僅憑連續(xù)性無法分離實(shí)例,Nachmani等人在工作中添加了基于識別的恒定損失組件并使用它來檢測混合信號中的實(shí)例數(shù)量。另外,為了解決因揚(yáng)聲器數(shù)量增多導(dǎo)致的語音分離性能下降問題,Nachmani等人在工作中通過引入了一個(gè)新的循環(huán)塊,該塊結(jié)合了2個(gè)雙向RNN和一個(gè)跳過連接,并使用了多尺度損失以及語音恒定項(xiàng)。最后證明該模型在多說話人語音分離的性能方面優(yōu)于Conv-TasNet以及DPRNN;2020年,Shi等人[45]針對端到端的單聲道語音分離方法提出了LaFurca模型,該模型是對基于雙路徑BiLSTM的網(wǎng)絡(luò)模型的改進(jìn)。首先,該研究引入了具有塊間并行BiLSTM和塊內(nèi)并行BiLSTM結(jié)構(gòu)的雙路徑網(wǎng)絡(luò),以減少不同分支之間的性能差異。接下來,該研究在先前研究的基礎(chǔ)上使用可進(jìn)行全局上下文感知的塊間-塊內(nèi)交叉并行的BiLSTM網(wǎng)絡(luò)模型來進(jìn)一步感知全局上下文信息。最后,該研究提出了一種螺旋多級的雙路徑BiLSTM網(wǎng)絡(luò)模型,通過迭代從而細(xì)化前幾級的分離結(jié)果,即混合語音先經(jīng)過一個(gè)DPRNN模型得到2個(gè)分離語音,再將分離后的語音與混合語音一起送入第二個(gè)DPRNN模型,分離出2個(gè)語音,并不斷迭代。所有這些網(wǎng)絡(luò)都是將2個(gè)說話者的混合語音映射到2個(gè)單獨(dú)的語音中,其中每個(gè)語音塊只包含一個(gè)說話者的聲音。最終證明LaFurca模型在WSJ0-2mix數(shù)據(jù)集上的性能超過了DPRNN網(wǎng)絡(luò)框架。2021年,Wijayakusuma等人[46]嘗試使用因果配置在TasNet和DPRNN神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)實(shí)時(shí)的說話人分離。該研究中主要使用3種實(shí)驗(yàn)變量類型:RNN(LSTM和GRU)、優(yōu)化器(Adam和RAdam)和批量大小(128和64),以期發(fā)現(xiàn)較好的參數(shù)集。最終得出結(jié)論,“LSTM神經(jīng)網(wǎng)絡(luò)+批量大小64+優(yōu)化器RAdam”的組合是較好的一組TasNet參數(shù)集。2021年,Wang等人[47]提出了一種稱為雙路徑濾波器網(wǎng)絡(luò)(Dual-Path Filter Network, DPFN)的方法。它是一個(gè)基于過濾器的模型,這意味著它將充當(dāng)語音過濾器來傳遞混合中的目標(biāo)源波形。該模型結(jié)合了雙路徑方法的優(yōu)點(diǎn)和說話人信息的使用。在DPFN模型中,揚(yáng)聲器模塊是全新設(shè)計(jì)的,靈感來自分離模型。它可以為語音分離產(chǎn)生更多有用的說話人嵌入,而且DPFN模型專注于語音分離的后處理,所以該模型可以連接到任何的分離模型以提高各模型的分離性能。研究最終證明,基于DPRNN模型構(gòu)建的DPFN不僅優(yōu)于DPRNN模型,而且避免了置換不變性訓(xùn)練(PIT)的問題。

      3 TasNet的未來展望

      盡管基于時(shí)域的語音分離方法的性能超過了基于時(shí)-頻域的語音分離方法,但處理真實(shí)世界的音頻仍具有挑戰(zhàn)性。目前基于TasNet的語音分離方法還存在以下問題:

      1)在模型層面,TasNet在幀跳數(shù)較大的情況下表現(xiàn)不佳,導(dǎo)致這種性能下降的主要原因可能是因?yàn)?個(gè)相鄰窗口之間錯(cuò)開的采樣數(shù)較大而引起的混疊現(xiàn)象[48]。

      2)在實(shí)驗(yàn)數(shù)據(jù)集層面,基于TasNet的語音分離雖在模擬數(shù)據(jù)集上運(yùn)行良好,但由于模擬訓(xùn)練集中的語音和閱讀語音中的說話風(fēng)格不匹配,在現(xiàn)實(shí)會話場景下語音分離效果會存在不穩(wěn)定性[49],即泛化性還有待加強(qiáng)。

      3)在說話人數(shù)量層面,大多數(shù)TasNet語音分離模型只能處理固定數(shù)量說話者的語音信息。為了解決這個(gè)限制,研究人員受語音提取的啟發(fā)[50-52],開始使用說話人信息來更好地支持語音分離,即每一次的操作只需根據(jù)說話人信息提取單個(gè)目標(biāo)說話人,則分離模型就不會受固定說話人數(shù)量的限制。有很多方法可以將說話者身份通過揚(yáng)聲器合并到分離模塊中。例如,聯(lián)合TasNet和說話人提取網(wǎng)絡(luò)的SpEx[53]和SpEx+[54]模型每次只輸出一個(gè)說話人的掩膜從而實(shí)現(xiàn)多說話人聲源提取的工作,說話人向量在WaveSplit[55-56]架構(gòu)的分離模塊中進(jìn)行仿射變換,與說話人條件鏈模型(Speaker-Conditional Chain Model,SCCM)[57]中混合的逐幀特征向量連接,以及僅用于計(jì)算TasTas[58]中的說話人分類損失,或者基于DPRNN-TasNet的DPFN模型[47]。

      4)在復(fù)雜場景下,為了貼合真實(shí)說話人場景,TasNet模型側(cè)重中低頻語音信號的分離,但是在更廣音頻分布的場景中將會受限。要解決復(fù)雜聽覺場景下語音分離問題,需要將計(jì)算模型和聽覺研究中的一些相關(guān)機(jī)制深度結(jié)合起來[59]。為了使其泛化性更高,研究者可以嘗試挖掘人耳的聽覺心理學(xué)知識以及更多地關(guān)注和挖掘語音的固有特性等[60]。未來語音分離會朝著更低延遲、更低功耗、更長時(shí)間序列的方向發(fā)展,以期實(shí)現(xiàn)廣義語音分離[61]。

      綜上所述,本文提出TasNet語音分離技術(shù)可以從TasNet本身的模型優(yōu)化層面、實(shí)驗(yàn)數(shù)據(jù)集的泛化性層面、說話人數(shù)量層面以及如何解決復(fù)雜場景下的語音分離的層面進(jìn)行更加深入地探索和研究。

      猜你喜歡
      掩膜時(shí)域編碼器
      利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
      一種結(jié)合圖像分割掩膜邊緣優(yōu)化的B-PointRend網(wǎng)絡(luò)方法
      基于時(shí)域信號的三電平逆變器復(fù)合故障診斷
      基于FPGA的同步機(jī)軸角編碼器
      光纖激光掩膜微細(xì)電解復(fù)合加工裝置研發(fā)
      基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
      基于極大似然準(zhǔn)則與滾動時(shí)域估計(jì)的自適應(yīng)UKF算法
      多層陰影掩膜結(jié)構(gòu)及其制造和使用方法
      科技資訊(2016年21期)2016-05-30 18:49:07
      基于時(shí)域逆濾波的寬帶脈沖聲生成技術(shù)
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      香港 | 泾阳县| 怀安县| 临朐县| 垫江县| 昌都县| 巴林左旗| 星子县| 广南县| 广河县| 台北县| 香河县| 固镇县| 光泽县| 九江市| 时尚| 汾西县| 沛县| 繁峙县| 黎城县| 香河县| 若羌县| 楚雄市| 张家界市| 定远县| 阿城市| 正定县| 策勒县| 青川县| 天台县| 木里| 德保县| 仁化县| 潜江市| 秭归县| 六安市| 融水| 鹿邑县| 淳安县| 牟定县| 丽江市|