何一鋒 戴藝寧 陳一凡
摘 要:目前部署的沉浸式音頻內容的范式是基于音頻對象的,它是由一個聲軌和位置元數(shù)據(jù)組成的。 基于電影對象的作品通常由幾十個同時進行的音頻對象組成,這給音頻對象的提取帶來了挑戰(zhàn)。我們通過構建一種深度學習方法來提取對象,從基于對象的作品的多聲道渲染中學習,而不是直接從音頻對象本身學習。這種方法可以解決對象的可擴展性問題,也提供了以監(jiān)督或無監(jiān)督的方式來制定解決問題的可能性方案。
關鍵詞:音頻分離,深度學習,監(jiān)督,無監(jiān)督
中圖法分類號TP389.1
1簡介
音軌和位置元數(shù)據(jù)組成的音頻對象在播放過程中被渲染成特定的聽覺布局(如5.1或立體聲),這比傳統(tǒng)的多聲道制作提供更高的靈活性、適應性和沉浸性?;趯ο蟮囊纛l制作是由幾十個同時進行的音頻對象組成。這種對象的可擴展性問題也從模型優(yōu)化的角度帶來了挑戰(zhàn)。語音[7-9]和通用[3, 10]源分離文獻中描述的包絡模糊性問題也出現(xiàn)在這里。由于任務的來源(或說話人)獨立性質,監(jiān)督學習所需的輸出到基礎真理對不能被任意分配。 為了克服這些挑戰(zhàn),我們提出了一種基于多通道學習的方法:我們監(jiān)督學習的參照物不是物體,而是由這些物體呈現(xiàn)的多通道混合?;诙嗤ǖ赖膶W習的靈感來自于人類評估電影作品的方式,根
據(jù)這種方式,即使兩個混合中的物體數(shù)量可能不同,如果兩個基于物體的作品在多通道布局中的渲染也是相似的,那么它們就被認為是相似的。我們提取少量的對象,通常是1-3個,對應于最突出的聽覺事件,以及一個多通道的剩余部分,稱為 "嵌入通道",包含沒有嵌入對象的音頻。因此,我們研究獨立于源的深度學習模型,除了嵌入通道外,還可以提取多達3個的對象。
2多渠道學習
我們設計并建立了一個神經(jīng)網(wǎng)絡,給定一個多聲道摘錄,提取一個固定數(shù)量的音頻對象、位置元數(shù)據(jù)和一個多聲道提醒(嵌入通道)。為了簡化操作,我們假設5.1輸入--盡管我們的方法可以擴展成任何多聲道輸入格式。如上所述,我們的訓練目標并不依賴于基于對象的監(jiān)督學習。相反,我們的訓練目標被設計為以有監(jiān)督或無監(jiān)督的方式從多通道渲染中學習(見圖1)。
· 監(jiān)督學習一個基于對象的參考組合需要渲染一組預先確定的多通道布局(例如,2.0、5.1、7.1、9.1)。 所獲得的渲染結果被用作重建損失的參考,該損失是在多聲道布局領域定義的。 這個損失是由每個多通道格式的重建損失的加權平均數(shù)組成的。 這種監(jiān)督下的配置需要一個基于對象的訓練集,所有的參考多通道渲染都來自于此。
· 我們設計并建立了一個神經(jīng)網(wǎng)絡,給定一個多聲道摘錄,提取一個固定數(shù)量的音頻對象、位置元數(shù)據(jù)和一個多聲道提醒(嵌入聲道)。因此,基于多渠道的學習是通過處理問題的結構化方式實現(xiàn)的。我們通過模型的結構和損失函數(shù)中的額外正則化項來執(zhí)行這種結構。
·無監(jiān)督學習也可以用來適應一個特定的多聲道摘錄。通過無監(jiān)督學習適應特定的5.1混音,可以在不需要任何訓練數(shù)據(jù)庫的情況下提取音頻對象。這種 "無監(jiān)督編碼 "的情況可以被看作是一個5.1到5.1的自動編碼器,它覆蓋了一個特定的例子,其中模型的結構和正則化損失項的指導使模型朝著提取潛在的有意義的音頻對象方向發(fā)展。
圖1. 基于多通道的音頻對象提取型。對于推理和訓練,可學習的對象提取器(編碼器,見圖2)從輸入的5.1中提取對象和床位通道。對于訓練,不可訓練的可區(qū)分的渲染器將它們解碼為一些布局。對于無監(jiān)督訓練,目標函數(shù)只基于5.1的混合(藍框)。在有監(jiān)督的訓練中,其他渲染器會被額外考慮(藍色和黃色方框)。
3建模
我們的模型由一個對象提取模塊(編碼器)和一個渲染器模塊(解碼器)組成--見圖1。編碼器(圖2)執(zhí)行音頻對象提取,并將5.1輸入轉換為基于對象的格式。 解碼器的對象是將提取的對象和嵌入通道渲染成多通道混合,以便進行有監(jiān)督或無監(jiān)督的基于多通道的學習。
編碼器(圖2)由以下部分組成:(i)掩碼估計塊,一個可訓練的深度神經(jīng)網(wǎng)絡,用于估計對象和嵌入通道掩碼;(ii)其余對象提取塊,用于從估計的掩碼中提取音頻對象(包括位置元數(shù)據(jù))和嵌入通道。(iii)依賴于可微分的數(shù)字信號處理層來進一步處理對象掩碼和床面通道掩碼,以重建對象和床面通道。去除器從5.1對象音頻中提取位置元數(shù)據(jù)。我們目前的實現(xiàn)是基于一個可區(qū)分的數(shù)字信號處理層;當然,它也可以擴展為一個可學習的深度神經(jīng)網(wǎng)絡。解碼器扭轉了優(yōu)化過程(在渲染過程中,對遠離正面位置的對象降低了對象的電平)。 解碼器只是一個完全可區(qū)分的音頻對象渲染器,它將對象和嵌入通道渲染成特定的多通道布局。
在我們的實現(xiàn)中,整個模型是用Tensorflow編寫的,包括可訓練和不可訓練的數(shù)字信號處理模塊。脫模器和解削器也對應于杜比全景聲渲染器。該模型對48kHz的5.44秒的音頻摘錄進行操作,F(xiàn)FT窗口長度為2048個樣本,導致256個時間倉和1025個頻段的音頻補丁,它們被分組為128個mel bands。
圖2. 編碼器,它從5.1混音中提取物體和床位通道。如圖1所示,紅色方框表示模型的可學習部分,綠色方框表示不可學習的可區(qū)分的數(shù)字信號處理部分。
4訓練目標
我們依靠兩個主要的訓練目標:重建損失,在多通道層面上匹配混合的內容,以及規(guī)則化損失,鼓勵提取的對象表現(xiàn)得一致。
重建損失 - 這些損失來自于參考渲染/混合和解碼器的輸出之間的比較。正如在第2節(jié)和第3節(jié)中所討論的,在基于多通道的監(jiān)督學習中,我們比較了幾個參考渲染(2.0)和解碼器的輸出。在基于多通道的監(jiān)督學習中,我們將幾個參考渲染(2.0、5.1、7.1和9.1,由基于參考對象的制作渲染)與相應的解碼器輸出進行比較。
正則化損失--為了說明這些正則化術語的必要性,對于無監(jiān)督的情況,模型可以通過將所有內容發(fā)送到嵌入通道來將重建損失最小化為零。有必要使模型偏向于與預期的基于對象的制作方式相對應的解決方案。
5實驗和評估
5.1實驗方法
我們設計了一個實驗。這項實驗從5.1混音中提取1或3個對象和嵌入通道,這些對象是由可用于評估的已知對象呈現(xiàn)的。該實驗是從包含1個對象和床鋪通道的5.1混音中提取對象?;煲糁械膶ο笫峭ㄟ^將偽隨機合成軌跡分配給電影混音中出現(xiàn)的不同聲音類別(車輛聲音、特殊效果、樂器、聲音、腳步聲等)的真實音軌來創(chuàng)建的,這些音軌從Freesound Datasets[20-22]中獲得。這些基于對象的節(jié)選還包含有真實的圓形錄音的嵌入通道。
5.2 實驗結果
在單對象實驗中,前牽引床通道的表現(xiàn)明顯優(yōu)于基線。然而,在三對象實驗中,"無監(jiān)督? ? t "和 "精確調整 "的配置不如基線的表現(xiàn)。這個結果說明了"無監(jiān)督? ? ?t "和 "精確調整 "方法的優(yōu)勢和劣勢。雖然這些方法通過對一個特定的5.1節(jié)選實現(xiàn)了最好的對象提取結果,但我們引入的強烈的歸納偏見導致了積極的對象提取,這可能會影響到嵌入通道的質量。這一點對于 "無監(jiān)督測定 "的影響尤其明顯,即從頭開始訓練,在沒有額外訓練數(shù)據(jù)的情況下,需要對一個給定的5.1進行測定。
6結論
我們提出了一個獨立于源的方法,即依靠強大的誘導性偏差來學習多通道渲染。我們探索的歸納偏差是基于架構約束(強制我們模型的瓶頸是一個特定的基于對象的格式),以及額外的正則化損失條款(強制對象按照基于對象的生產(chǎn)慣例行事)。 基于多渠道的學習可以以監(jiān)督或無監(jiān)督的方式進行,并在分離音軌方面能達到較好的效果。
參考文獻:
[1]? Berkan Kadioglu, Michael Horgan, Xiaoyu Liu, Jordi Pons, Dan Darcy, and Vivek Kumar, “An empirical study of Conv-TasNet,” in ICASSP, 2020.
[2]? Yi Luo and Nima Mesgarani, “Tasnet: time-domain audio sepa-? ration network for real-time, single-channel speech separation,” in ICASSP, 2018.
[3]? Yuzhou Liu and DeLiang Wang,? ?“Divide and conquer:? A deep CASA approach to talker-independent monaural speaker separation,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 12, pp. 2092–2102, 2019.
[4]? Ilya Kavalerov, Scott Wisdom, Hakan Erdogan, Brian Patton,Kevin Wilson, Jonathan Le Roux, and John R Hershey, “Univer- sal sound separation,” in 2019 IEEE Workshop on Applications? of Signal Processing to Audio and Acoustics (WASPAA), 2019.
[5]? Scott Wisdom, Efthymios Tzinis, Hakan Erdogan, Ron J Weiss,Kevin Wilson, and John R Hershey,? ?“Unsupervised sound separation using mixtures of mixtures,” in NeurIPS, 2020.
本文得到上海立信會計金融學院大學生創(chuàng)新創(chuàng)業(yè)訓練計劃(s202111047008)基金支持. 何一鋒(2000-),男,江西景德鎮(zhèn)人,計算機科學與技術本科在讀