Tan Liwen’,Zhou Yi′ ,Liu Yin1,Cao Yin2+ (1.Scholofomucationamp;InfoationEnginering,Choging UniersityfPostsamp;elecomicains,hoging4oina; 2.Dept.of Intelligent Science,Xi'anJiaotong-Liverpool University,Suzhou Jiangsu 215ooo,China)
Abstract:Modalitydiscrepancies haveperpetuallyposedsignificant chalenges fortheapplicationofAACand acrossall multi-modalresearchdomains.Faciliatingmodelsincomprehendingtextinformationplaysapivotalroleinestablishinga seamless connection between thetwo modalities of textandaudio.Recent studies haveconcentratedonnarrowingthedisparity between thesetwo modalities viacontrastive learning.However,bridgingthegapbetweenthem merelybyemployingasimple contrastivelossfunctionishallenging.Inordertoreduceteinfluenceofmodal diffrencesand enhancetheutilizationf the modelforthetwomodalfeatures,thispaperproposed SimTLNet,anaudiocaptioning methodbasedonmulti-modalrepresentationlearning byintroducing anovelrepresentationmodule,TRANSLATOR,constructingatwin representation structure,and jointly optimizingthemodel weights throughcontrastive learning and momentum updates,which enabledthe model toconcurrentlylearnthecommonhigh-dimensional semantic informationbetwen theaudioandtextmodalities.Theproposed method achieves 0.251,0.782,0.480forMETEOR,CIDEr,and SPIDEr-FLon AudioCaps dataset and0.187,0.475,0.303 for Clotho V2dataset,respectively,whicharecomparablewith state-of-the-art methodsandefectivelybridgethediferencebetween the two modalities.
Key words:audio captioning;representation learning;contrastive learning;modality discrepancies;twin network
0 引言
自動音頻字幕(AAC)是一項多模態(tài)生成任務(wù),它聯(lián)合音頻和文本兩種模態(tài),生成音頻的描述性字幕[1]。AAC研究的適用性是多種多樣的,包括借助音頻到文本的轉(zhuǎn)換以幫助聽障人士、構(gòu)建面向內(nèi)容的智能人機(jī)交互系統(tǒng)等領(lǐng)域[2]。近年來,得益于DCASE 挑戰(zhàn)和Clotho[3]、AudioCaps[4]等數(shù)據(jù)集的發(fā)布,AAC研究受到了極大的關(guān)注,并取得了實(shí)質(zhì)性進(jìn)展。
目前主流的AAC方法采用編碼器-解碼器系統(tǒng)架構(gòu)。具體來說,利用PANNs[5] HTS-AT[6] 等音頻編碼器來提取對數(shù)梅爾頻譜、梅爾倒譜系數(shù)等聲學(xué)特征,然后由文本解碼器對提取的聲學(xué)特征進(jìn)行解碼以生成對應(yīng)的音頻字幕。文本解碼器通常遵循序列到序列的設(shè)計,近年來,隨著Transformer架構(gòu)的發(fā)展,越來越多優(yōu)秀的解碼器如GPT-2[7]、BART[8]等逐漸成為文本解碼器的首選。
目前AAC領(lǐng)域仍面臨著一個重要的挑戰(zhàn),即音頻模態(tài)和文本模態(tài)之間存在巨大的模態(tài)差異。隨著基于對比語言-圖像預(yù)訓(xùn)練方法(contrastive language-image pretraining,CLIP)[9]在圖像字幕中的廣泛應(yīng)用,對比學(xué)習(xí)逐漸受到研究者的關(guān)注。CLIP將模型分為兩個分支,通過兩個獨(dú)立的編碼器分別提取來自兩個分支中對應(yīng)模態(tài)的特征,然后優(yōu)化對比損失來縮小兩個模態(tài)之間的差異。Elizalde等人[通過將CLIP中的圖像編碼器替換為音頻編碼器,提出了對比語言-音頻預(yù)訓(xùn)練(contrastivelanguage-audiopretraining,CLAP),成功將CLIP應(yīng)用到音頻和文本的多模態(tài)任務(wù)中。Wu等人[1]通過大規(guī)模訓(xùn)練,首次將CLAP應(yīng)用到AAC領(lǐng)域中。文獻(xiàn)[12]使用了類似的架構(gòu),但采用InfoNCE損失函數(shù)取代CLAP中的損失函數(shù)來縮小兩種模式之間的差異。上述方法證明了對比學(xué)習(xí)確實(shí)可以作為縮小模態(tài)差異的有效方法,但它們都是通過使用一個對比損失函數(shù),促使音頻編碼器間接學(xué)習(xí)文本編碼器提取到的文本特征。這種方式不是使模型直接學(xué)習(xí)文本特征,無法充分利用文本模態(tài)的信息。同時,音頻和文本兩種模態(tài)之間的巨大差異也很難單純通過一個損失函數(shù)來彌合。
本文模型整體流程如圖1所示。同之前的研究類似,在特征提取階段,模型被分為音頻分支和文本分支。音頻分支首先通過一個凍結(jié)權(quán)重的音頻編碼器以提取音頻特征,然后將提取到的音頻特征輸入到一個全新的表征模塊TRANSLATOR中,該模塊可以通過聯(lián)合全局上下文信息提取高維特征表示。文本分支同樣由一個凍結(jié)權(quán)重的文本編碼器和一個表征模塊TRANSLATOR組成。兩個分支中的表征模塊TRANSLATOR具有相同的結(jié)構(gòu)和權(quán)重,組成一組孿生表征模塊。反向傳播時,使用動量更新的方法更新孿生表征模塊的權(quán)重,通過該方式,音頻分支的表征模塊也能夠直接學(xué)習(xí)文本特征。最后,通過對孿生表征模塊的最終隱藏狀態(tài)計算對比損失,輔助模型彌合音頻和文本模態(tài)之間的差異??偟膩碚f,本文的貢獻(xiàn)如下:
a)提出了一種全新的表征模塊TRANSLATOR,能夠聯(lián)合全局上下文信息學(xué)習(xí)音頻信號的高維特征表示。
b)通過將共享權(quán)重的孿生模塊作用于音頻分支和文本分支,使模型能夠同時學(xué)習(xí)兩種模態(tài)的特征。
c)使用動量更新權(quán)重的方式,使模型兩條分支間不同模態(tài)的信息能夠相互交互,以彌合兩種模態(tài)之間的差異。
1相關(guān)工作
自動音頻字幕(AAC)旨在為音頻生成精確的描述性字幕。在以往的研究中,許多研究者從不同的角度對AAC研究進(jìn)行了探索。研究者們通常引入遷移學(xué)習(xí)的方法,通過在大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練以提高模型的性能。一些研究人員通過引入額外的特征嵌人(如聲音事件檢測[13]、關(guān)鍵字信息等[14])來改進(jìn)系統(tǒng)性能。部分研究者通過使用強(qiáng)化學(xué)習(xí)算法直接優(yōu)化指標(biāo)來提高生成字幕的質(zhì)量[15],但是這會導(dǎo)致生成字幕的流暢度下降。為了解決訓(xùn)練數(shù)據(jù)稀缺的問題,Mei等人[16]提出了WavCaps 數(shù)據(jù)集,Wu等人[1]提出了LAION-Audio-630K數(shù)據(jù)集,有效地解決了這一問題。對比學(xué)習(xí)因其能夠無監(jiān)督地學(xué)習(xí)樣本間的差異性和相似性,長期以來一直是研究者關(guān)注的焦點(diǎn)。在以往的研究中,研究者通過對同一張圖片使用不同的數(shù)據(jù)增強(qiáng)方法生成該圖像的異構(gòu)視圖,并通過比較這些視圖來學(xué)習(xí)共有特征。
近年來,以CLIP[9]為代表的對比學(xué)習(xí)研究在多模態(tài)任務(wù)中逐漸嶄露頭角,成為研究熱點(diǎn)。在自動音頻字幕領(lǐng)域,也有一系列類似的研究,研究者大多采用了相似的架構(gòu)。這些模型通常包含兩個分支,每個分支通過不同的模態(tài)編碼器分別提取各自模態(tài)的特征,最后通過一個對比損失函數(shù)協(xié)助模型學(xué)習(xí)兩種模態(tài)間的關(guān)聯(lián)。 Wu 等人[]通過大規(guī)模訓(xùn)練將CLAP應(yīng)用到AAC領(lǐng)域,Chen等人[17]提出CLIP-AAC,采用與CLAP類似的結(jié)構(gòu),并通過cliploss(一種對比損失函數(shù))來彌補(bǔ)兩種模態(tài)之間的差異。Wu等人[12]在此結(jié)構(gòu)的基礎(chǔ)上,使用BAETs + Conformer替換掉原本的音頻編碼器,并使用InfoNCEloss代替clip loss以獲得更好的性能。Deshmukh等人[18]嘗試僅利用文本模態(tài)的信息訓(xùn)練基于該結(jié)構(gòu)的模型,從另一個角度出發(fā)證明了該結(jié)構(gòu)確實(shí)能夠有效地彌合兩種模態(tài)之間的差異。
2方法
2.1編碼器和解碼器
2.1.1 音頻編碼器
在之前的研究中,許多不同的編碼器被應(yīng)用于AAC領(lǐng)域,這些編碼器基于不同的架構(gòu),使得它們能提取不同視角的特征。例如,基于CNN架構(gòu)的編碼器,其提取的特征更多是局部細(xì)節(jié)特征,而基于Transformer架構(gòu)的編碼器由于應(yīng)用注意力機(jī)制,則會更關(guān)注全局信息。
本文選擇了三種在AAC領(lǐng)域被廣泛使用的預(yù)訓(xùn)練音頻編碼器:PANNs[5] HTS-AT[6] 和 ConvNeXt[19] ,分別提取各種視圖下的音頻特征,以對比其性能表現(xiàn)。PANNs基于CNN架構(gòu),由14個卷積層堆疊構(gòu)成。HTS-AT是一種基于Swin-Transformer架構(gòu)的音頻編碼器。ConvNeXt也是基于CNN架構(gòu),但與PANNs不同的是,它使用了更大的卷積核并參考部分Transformer的結(jié)構(gòu)設(shè)置。音頻編碼器的權(quán)重都被凍結(jié),不參與權(quán)重更新。每個音頻編碼器提取的音頻特征張量被調(diào)整為32×768 的相同形狀。
2.1.2 文本編碼器
本文采用INSTRUCTOR-base[20]作為文本編碼器,它是一個基于指令微調(diào)的T5預(yù)訓(xùn)練模型。與音頻編碼器相同,訓(xùn)練時模型的權(quán)重被凍結(jié),并使用\"Representtheaudiocaption:\"作為指令,引導(dǎo)文本編碼器提取對應(yīng)的文本特征。最終提取的文本特征張量形狀被調(diào)整為與音頻特征張量相同的形狀。
2.1.3文本解碼器
本文采用 BART[8] 作為文本解碼器,它是一種具有雙向編碼器和自回歸解碼器(BERT + GPT)的Transformer解碼器,共有6層編碼器和6層解碼器,詞匯量為 50256 與編碼器部分不同,訓(xùn)練時文本解碼器參與更新權(quán)重。
使用交叉熵?fù)p失作為模型的主要損失函數(shù),其通過文本解碼器的輸出分布和真實(shí)字幕計算得到。交叉熵?fù)p失可以表示為
其中: 表示音頻樣本 ; 表示該音頻樣本對應(yīng)的字幕; yn 表示字幕中的第 Ωn 個單詞; N 表示批次大小。
2.2 表征模塊TRANSLATOR
2.2.1為什么選擇TRANSLATOR
在模型的構(gòu)建中,通常會將輸入張量和輸出張量調(diào)整為相同的形狀,以此將不同的模塊拼接在一起,但這樣做完全忽略了每個張量維度的具體意義。如圖2所示,在AAC任務(wù)中,音頻特征通常通過提取對應(yīng)的對數(shù)梅爾頻譜得到,音頻特征張量的形狀可以表示為(bs,time-step, n -mel),其中 bs 代表批次大小,time-step代表時間步長,n-mel代表梅爾濾波器的數(shù)量。文本特征張量的形狀可以表示為(bs,seq-len, d -model),其中bs代表批次大小,seq-len表示字幕的長度, d -model為字幕中每個單詞的編碼維度。通過對比可以發(fā)現(xiàn),兩種特征張量只有在第一個維度表示相同的含義,最后一個維度雖然表示不同的含義,但通過模型中的復(fù)雜變化也能夠近似等價,唯獨(dú)第二個維度很難建立起對應(yīng)關(guān)系。每一個時間步長的音頻特征和字幕中每一個單詞之間的對應(yīng)關(guān)系并不是簡單的一一對應(yīng),而是多對多的關(guān)系。對于文本信息而言,每個單詞不僅包含自身信息,還包含更多的上下文信息,而對于音頻樣本,每個時間步長的特征更側(cè)重于當(dāng)前時間節(jié)點(diǎn)的信息。表征模塊TRANSLA-TOR通過聯(lián)合特征的全局信息和狀態(tài)信息,使每個時間步長的特征包含更多的全局上下文信息,進(jìn)而提取更高維度的特征表示。
2.2.2 TRANSLATOR詳細(xì)結(jié)構(gòu)
如圖3所示,TRANSLATOR由 M 層編碼器和 N 層解碼器組成,其輸入是形狀為(bs,time-step,n-mel)的音頻特征。音頻特征會在time-step維度上進(jìn)行拆分,每個拆分后的張量形狀為(bs,n-mel),依次作為每個時間步的輸入。
每層編碼器由一個上下文注意力模塊(contextattentionblock,CAB)、一個全局注意力模塊(globalattentionblock,GAB)和標(biāo)準(zhǔn)的前饋網(wǎng)絡(luò)(feedforwardnetwork,F(xiàn)FN)組成。在CAB模塊內(nèi)部,每個時間步的輸入首先會通過一個具有大卷積核的一維卷積層,將原本為一個整體的音頻特征進(jìn)一步拆分為獨(dú)立的時間步特征,采用大卷積核則可以通過擴(kuò)展感受野來減少因卷積操作對原始特征造成的影響。然后,當(dāng)前時間步的特征會與前一時間步的隱藏狀態(tài)計算交叉注意力以提取上下文信息。最后,經(jīng)過層歸一化后,時間步特征會通過一個殘差結(jié)構(gòu)與原始時間步特征相加,得到CAB模塊的輸出。通過CAB模塊后的特征將包含先前所有時間步的信息。在此之后,每個時間步的特征都經(jīng)過一個GAB模塊,該模塊具有與CAB相同的內(nèi)部結(jié)構(gòu),但通過注意力模塊時,計算當(dāng)前時間步與原始未拆分音頻特征之間的交叉注意力,提取得到的特征則作為當(dāng)前時間步的隱藏狀態(tài)傳遞到下一個時間步。通過GAB模塊,當(dāng)前時間步的特征同時也包含了全局上下文信息。最后,提取到的特征通過一個標(biāo)準(zhǔn)的FFN進(jìn)行線性變換,以獲得編碼器在當(dāng)前時間步的輸出。
解碼器的結(jié)構(gòu)類似于編碼器,但在GAB模塊和FFN之間增加了一個注意力層,通過計算最后一層編碼器和解碼器在同一時間步特征之間的交叉注意力,使特征具有更豐富的全局上下文信息。該特征會作為解碼器在當(dāng)前時間步的隱藏狀態(tài)傳遞到下一時間步,同時還會通過層歸一化和線性變換后,作為解碼器在當(dāng)前時間步的輸出。此外,最后一層編碼器最終的隱藏狀態(tài)會被用作每一層解碼器的初始狀態(tài)。最后,解碼器在每個時間步的輸出會拼接在一起作為TRANSLATOR模塊的最終輸出。通過實(shí)驗(yàn)發(fā)現(xiàn),在 M=3,N=2 和卷積核大小為45時性能最佳。
TRANSLATOR模塊可以視作對音頻特征進(jìn)行一次恒等變換,使每個時間步特征包含更加豐富的全局上下文信息。TRANSLATOR模塊的輸出可以表示為
x0,x1,…,xT=split(X)
ytran=concatn=0Tf(xn?hn-1)
其中 :X 表示原始音頻特征; xn 表示第 n 個時間步長的輸入;hn-1 表示第 n-1 個時間步的隱藏狀態(tài); T 表示時間步的總數(shù);f(?) 代表TRANSLATOR模塊的計算過程; split(?) 代表對特征沿時間維度進(jìn)行拆分; concat(?) 表示重新拼接每個時間步的特征; ? 代表計算交叉注意力。
2.3孿生結(jié)構(gòu)與動量更新
本節(jié)詳細(xì)描述孿生結(jié)構(gòu)和動量更新原理,以及應(yīng)用該結(jié)構(gòu)的原因。
2.3.1為什么選擇這種結(jié)構(gòu)
作為一種跨模態(tài)任務(wù),如何充分利用文本模態(tài)的信息一直是提高AAC系統(tǒng)性能的關(guān)鍵之一。最直接的方法是同時使用音頻和文本作為模型的輸人進(jìn)行訓(xùn)練,使模型能夠?qū)W習(xí)兩種模態(tài)之間的關(guān)聯(lián)信息。但由于在推理過程中無法獲取對應(yīng)的文本信息,所以該方法無法處理只能使用音頻信息的推理過程。先前的研究幾乎都是通過使用對比學(xué)習(xí)的方式,使模型間接學(xué)習(xí)兩種模態(tài)之間的關(guān)聯(lián),但無論是間接利用文本模態(tài)的信息,還是僅使用對比損失函數(shù)來拉近兩種模態(tài),都無法充分利用兩種模態(tài)各自的信息。需要一種新的方法,讓模型能直接同時學(xué)習(xí)兩種模態(tài)的特征,更進(jìn)一步來說,是使模型能夠在學(xué)習(xí)音頻模態(tài)信息的同時,也具有學(xué)習(xí)文本模態(tài)信息的能力。
2.3.2 具體細(xì)節(jié)
與之前的研究類似,模型被分為音頻分支和文本分支,兩個分支都由一個被凍結(jié)權(quán)重的編碼器和一個可學(xué)習(xí)的表征模塊構(gòu)成。其中編碼器用于提取對應(yīng)模態(tài)的特征,表征模塊則從由編碼器提取到的特征中學(xué)習(xí)兩種模態(tài)的高維表征。上一節(jié)介紹的TRANSLATOR模塊被應(yīng)用于此處充當(dāng)表征模塊,兩個分支的TRANSLATOR模塊結(jié)構(gòu)相同且共享權(quán)重,構(gòu)成一對孿生表征結(jié)構(gòu)。孿生表征結(jié)構(gòu)得益于與共享權(quán)重的原因,能夠同時學(xué)習(xí)兩種模態(tài)之間的關(guān)聯(lián),以提取高維語義信息。但是,同時學(xué)習(xí)兩種模態(tài)的信息仍是具有挑戰(zhàn)性的,為進(jìn)一步增強(qiáng)模型的表征能力,在孿生結(jié)構(gòu)中額外引人動量更新權(quán)重、添加對比損失函數(shù)兩種方法。
假設(shè)經(jīng)過一次反向傳播后,音頻分支中TRANSLATOR模塊權(quán)重為 Wa ,文本分支中TRANSLATOR模塊權(quán)重為 Wt ,則兩個分支中TRANSLATOR最終的權(quán)重 W 可表示為
W=α?Wa+(1-α)?Wt
其中: α 為動量參數(shù),用于控制每一次反向傳播時權(quán)重的更新比例。每次模型更新權(quán)重時,孿生表征結(jié)構(gòu)的權(quán)重以動量更新的方式進(jìn)行更新。具體來說,每次反向傳播后,整個孿生表征模塊的權(quán)重由兩個分支中各自表征模塊的權(quán)重按一定比例組合而成。通過增加屬于音頻分支中表征模塊的權(quán)重比例( αgt; 0.9),使整個孿生表征結(jié)構(gòu)能夠在緩慢學(xué)習(xí)文本信息的同時,保持由音頻分支中表征模塊學(xué)習(xí)到的提取高維音頻表征的能力。兩個分支中表征模塊的權(quán)重會保持一致,以防止由于長時間的訓(xùn)練,使兩個分支中表征模塊的權(quán)重完全不相關(guān),從而導(dǎo)致孿生表征結(jié)構(gòu)失去同時學(xué)習(xí)兩種模態(tài)信息的能力。通過實(shí)驗(yàn)發(fā)現(xiàn),在 α=0.95 時性能表現(xiàn)最佳。
在雙分支結(jié)構(gòu)的模型中,通過優(yōu)化對比損失,能迫使模型不斷學(xué)習(xí)如何區(qū)分不同的正負(fù)樣本對,以學(xué)習(xí)模態(tài)間的關(guān)聯(lián)信息。由于孿生表征模塊的權(quán)重采用動量更新的方式,在優(yōu)化對比損失的同時,還能進(jìn)一步促進(jìn)表征模塊學(xué)習(xí)各自模態(tài)的信息。兩個分支中,TRANSLATOR模塊的最后一個隱藏狀態(tài)被用于計算對比損失。對比損失函數(shù)可以表示為
其中: hia?hic 分別表示音頻分支和文本分支中TRANSLATOR模塊的最后一個隱藏狀態(tài); N 表示批次大小。最后一個隱藏狀態(tài)是指TRANSLATOR模塊中最后一層解碼器在最后一個時間步的隱藏狀態(tài),相較于直接使用表征模塊的輸出結(jié)果來計算對比損失,最后一個隱藏狀態(tài)同時具有所有時間步的全局上下文信息。模型的總損失函數(shù)則由交叉熵?fù)p失和對比損失構(gòu)成,總損失函數(shù)可以表示為
L=β?Lce+(1-β)?Lcl
其中 :β 為一個超參數(shù)、用于控制兩種損失的權(quán)重,經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn),當(dāng) β=0.5 時,性能表現(xiàn)最佳。
3實(shí)驗(yàn)結(jié)果
3.1 數(shù)據(jù)集
分別在AAC領(lǐng)域兩個主流數(shù)據(jù)集,即Clotho abla2[3] 和AudioCaps[4]中驗(yàn)證本文方法的有效性。
3.1.1 Clotho V2
Clotho abla2[3] 數(shù)據(jù)集被劃分為開發(fā)、評估、驗(yàn)證和測試共四個分支。除測試分支外,其他三個分支均由時長為15~30 s的音頻樣本組成,每個音頻樣本包含5個長度為5\~10s的字幕。作為DCASE挑戰(zhàn)賽的官方數(shù)據(jù)集,共有6974個音頻樣
本,34 870個字幕。
3.1.2 AudioCaps
AudioCaps[4]數(shù)據(jù)集由超過 50k 個從大規(guī)模音頻數(shù)據(jù)集Audio set[21]中挑選得到的音頻樣本組成。數(shù)據(jù)集劃分為訓(xùn)練、驗(yàn)證和測試分支,每個音頻樣本的長度為 10s 。在訓(xùn)練分支中,每個音頻樣本對應(yīng)于一個真實(shí)字幕,而在驗(yàn)證和測試分支中,每個音頻樣本對應(yīng)五個真實(shí)字幕。
3.2 評價指標(biāo)
AAC任務(wù)的評價指標(biāo)可以分為兩類,分別為基于 n -gram的傳統(tǒng)機(jī)器翻譯指標(biāo)和基于語義相似性的指標(biāo)[1]。自DCASE2023挑戰(zhàn)賽開始以來,METEOR[22]、CIDEr[23]、SPICE[24]]SPIDEr[25]和SPIDEr-FL已被用作AAC任務(wù)的主要評價指標(biāo)。其中,METEOR專注于計算單個單詞的 F1 分?jǐn)?shù)和召回率;CIDEr通過TF-IDF分?jǐn)?shù)以加權(quán)計算 n -gram;SPICE用來評估預(yù)測字幕和真實(shí)字幕之間的語義匹配程度;SPIDEr是SPICE和CIDEr的平均值;SPIDEr-FL是一種新提出的度量方法,通過計算SPIDEr和FENSE[26]的平均值,同時兼顧評價生成字幕的流暢度。
3.3實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置
同以前的研究中被廣泛驗(yàn)證得到的超參數(shù)設(shè)置一樣,AdamW被用作訓(xùn)練過程中的優(yōu)化器,批次大小設(shè)置為32。初始學(xué)習(xí)率為 3×10-5 ,同時使用余弦退火算法更新學(xué)習(xí)率,周期長度為4個epoch。在一個周期中基準(zhǔn)學(xué)習(xí)率會首先下降10倍,然后再恢復(fù),每經(jīng)過一個周期,基準(zhǔn)學(xué)習(xí)率會減半。每個epoch會在驗(yàn)證集中進(jìn)行3次評估,每次評估使用CIDEr[23]以選擇是否保存權(quán)重。應(yīng)用標(biāo)簽平滑策略來減少模型過度自信的問題。訓(xùn)練時采用teacherforcing方式加快推理速度。每個音頻樣本會使用SpecAugment[27]進(jìn)行數(shù)據(jù)增強(qiáng)。
使用NVIDIAV100GPU(32G)訓(xùn)練模型,訓(xùn)練時長為20個epoch。應(yīng)用提前停止的策略,當(dāng)連續(xù)4個epoch沒有提高指標(biāo)時結(jié)束訓(xùn)練。在推理階段禁用數(shù)據(jù)增強(qiáng)策略,并使用束寬為4的束搜索方法以生成字幕。
3.4 消融實(shí)驗(yàn)
為驗(yàn)證本文方法的有效性,在ClothoV2數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)時選擇DCASE挑戰(zhàn)的基線系統(tǒng)作為消融實(shí)驗(yàn)的基線模型,并通過在基線模型上逐個添加模塊的方式以驗(yàn)證各個方法的有效性,結(jié)果如表1所示。其中,基線模型表示只采用音頻分支的模型,文本分支表示額外添加文本編碼器和對比損失函數(shù),TRANSLATOR表示在編碼器后額外添加表征模塊TRANSLATOR,(Sim)TRANSLATOR表示在雙分支模型的基礎(chǔ)上添加孿生表征結(jié)構(gòu),動量更新表示在孿生表征結(jié)構(gòu)之間采用動量更新權(quán)重。訓(xùn)練期間所有編碼器的權(quán)重都被凍結(jié),除編碼器外,所有模塊都重新訓(xùn)練,以保證消融實(shí)驗(yàn)結(jié)論的可靠性。
第1\~3行的結(jié)果顯示,當(dāng)使用 BART[8] 作為文本解碼器時, HTS-AT[6] 表現(xiàn)最佳,這表明在AAC任務(wù)中,基于注意力機(jī)制的音頻編碼器要優(yōu)于基于傳統(tǒng)卷積結(jié)構(gòu)的音頻編碼器。在實(shí)驗(yàn)過程中有嘗試使用其他的音頻編碼器(如BEATs[28]等)用于提取音頻特征,但沒有取得更好的表現(xiàn)。第4行的結(jié)果表明,添加文本分支并使用對比學(xué)習(xí)的方式的確能夠有效提高模型的性能,這也與之前研究得出的結(jié)論保持一致。第5行的結(jié)果表明,當(dāng)僅使用音頻分支時,添加表征模塊TRANSLATOR可以有效提高模型的性能,這是由于表征模塊TRANSLATOR能夠通過聯(lián)合全局上下文信息,從音頻特征中提取更高維的特征表示,一定程度上能夠緩解音頻和文本兩種模態(tài)之間的差異。第6行的結(jié)果表明,通過在兩個分支上添加一組孿生表征模塊,可以顯著提高系統(tǒng)的性能,這是由于孿生表征模塊在提取高維表征的同時,還能同時學(xué)習(xí)兩種模態(tài)之間的高維語義信息,從而進(jìn)一步在高維表征中降低兩種模態(tài)的差異。第7行的結(jié)果表明,通過在孿生表征模塊之間應(yīng)用動量更新權(quán)重的方式,可以進(jìn)一步提高孿生表征模塊同時學(xué)習(xí)高維語義信息的能力。
3.5 對比實(shí)驗(yàn)
將本文方法與當(dāng)前最先進(jìn)的方法進(jìn)行比較,結(jié)果如表2所示,其中SOTA表示目前該數(shù)據(jù)集下最先進(jìn)的方法。結(jié)果表明,在ClothoV2數(shù)據(jù)集上,本文方法優(yōu)于目前最先進(jìn)的方法,并在AudioCaps數(shù)據(jù)集上獲得了與最先進(jìn)方法相當(dāng)?shù)慕Y(jié)果。值得注意的是,Mei等人的方法在訓(xùn)練階段使用額外數(shù)據(jù)集WavCaps[16]進(jìn)行預(yù)訓(xùn)練,WavCaps數(shù)據(jù)集具有約40萬條音頻數(shù)據(jù),數(shù)據(jù)量幾乎是ClothoV2數(shù)據(jù)集的60倍、AudioCaps數(shù)據(jù)集的8倍,但最終仍有部分指標(biāo)(METEOR、SPICE)落后于本文方法。
文獻(xiàn)[12]在對生成結(jié)果進(jìn)行rerank后,性能優(yōu)于本文方法。rerank是指通過重復(fù)生成多次結(jié)果,然后在所有結(jié)果中對得分進(jìn)行排序以選擇最終的結(jié)果。為保證對比實(shí)驗(yàn)的公平性,進(jìn)一步在ClothoV2數(shù)據(jù)集上對文獻(xiàn)[12]和本文方法進(jìn)行了比較,結(jié)果如表3所示。本文方法在訓(xùn)練時僅使用ClothoV2數(shù)據(jù)集進(jìn)行訓(xùn)練,而文獻(xiàn)[12]則使用AudioCaps數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,并使用ChatGPT生成額外字幕以進(jìn)行數(shù)據(jù)增強(qiáng)。實(shí)驗(yàn)結(jié)果表明,本文方法無論是僅使用音頻分支還是同時音頻分支和文本分支,在ClothoV2數(shù)據(jù)集上的表現(xiàn)都比文獻(xiàn)[12]更好。
需要指出的是,本文方法沒有采用強(qiáng)化學(xué)習(xí)進(jìn)行微調(diào),因?yàn)檫@種方法會重復(fù)生成關(guān)鍵詞,雖然能有效提高部分性能指標(biāo),但會降低生成字幕的流暢度。
4結(jié)束語
為克服音頻和文本兩種模態(tài)之間的差異,提出了基于多模態(tài)表征學(xué)習(xí)的音頻字幕方法SimTLNet,以彌合兩種模態(tài)之間的差異。首先提出表征模塊TRANSLATOR,通過聯(lián)合全局上下文信息提取音頻特征的高維表征。然后添加孿生表征結(jié)構(gòu),使模型能夠同時學(xué)習(xí)兩種模態(tài)的語義信息,以避免僅使用對比損失函數(shù)來彌合兩種模態(tài)之間的差異,最后通過動量更新權(quán)重的方式,進(jìn)一步增強(qiáng)孿生表征結(jié)構(gòu)的學(xué)習(xí)能力,從而盡可能高效地利用文本信息。該方法在AudioCaps和ClothoV2數(shù)據(jù)集上取得了可以與最先進(jìn)方法相媲美的結(jié)果,有效彌合了兩種模態(tài)之間的差異。在未來的工作中,將會著重結(jié)合自監(jiān)督學(xué)習(xí)的
參考文獻(xiàn):
[1]Mei Xinhao,Liu Xubo,Plumbley MD,et al.Automated audio captioning:an overview of recent progressand new challenges[J]. EURASIP Journal on Audio,Speech,and Music Processing, 2022(1):26.
[2]XuXuenan,WuMengyue,YuKai.Acomprehensive survey of automatedaudiocaptioning[EB/OL].(2022-05-05)[2025-01-13]. https://doi.org/10.48550/arXiv.2205.05949.
[3]Drossos K,Lipping S,Virtanen T. Clotho:an audio captioning dataset [C]//Proc ofIEEE International Conference on Acoustics, SpeechandSignal Processing.Piscataway,NJ:IEEEPress,2020: 736-740.
[4]Kim C D,Kim B,Lee H,et al. AudioCaps:generating captions for audiosinthewild[C]//ProcofConferenceoftheNorthAmerican ChapteroftheAssociation for Computational Linguistics:HumanLanguage Technologies. Stroudsburg,PA:Association for Computational Linguistics,2019:119-132.
[5]Kong Qiuqiang,Cao Yin,Iqbal T,et al. PANNs:large-scale pretrained audio neural networks for audio pattern recognition [J]. IEEE/ACM Trans on Audio,Speech,and Language Processing,2020,28:2880-2894.
[6]ChenKe,Du Xingjian,Zhu Bilei,etal.HTS-AT:a hierarchical token-semanticaudiotransformerforsoundclassificationanddetection [C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press, 2022: 646-650.
[7]Radford A,Wu J, Child R,et al.Language models are unsupervised multitask learners[J].OpenAl Blog,2019,1(8): 9.
[8]Lewis M ,Liu Yinhan,Goyal N,et al.BART:denoising sequenceto-sequence pre-training for natural language generation,translation, and comprehension [C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA:Association for Computational Linguistics,2020:7871-7880.
[9]Radford A,KimJW,Hallacy C,et al. Learning transferable visual models from natural language supervision[C]//Proc of International Conference on Machine Learning.[S.1.]:PMLR,2021:8748-8763.
[10]Elizalde B,Deshmukh S,Al Ismail M,et al.CLAPlearningaudio concepts from natural language supervision [C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2023:1-5.
[11]Wu Yusong,Chen Ke, Zhang Tianyu,et al.Large-scale contrastive language-audio pretraining with feature fusion and keyword-to-caption augmentation [C]// Proc of IEEE International Conferenceon Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2023:1-5.
[12] Wu SL,Chang Xuankai,Wichern G,et al. Improving audio captioning models with fine-grained audio features,text embedding supervision,and LLM mix-up augmentation [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway:IEEE Press,2024:316-320.
[13]Xie Zeyu,Xu Xuenan,Wu Mengyue,et al.Enhance temporal relations in audio captioning with sound event detection[EB/OL]. (2023-06-01)[2025-01-13]. htps://doi. org/10.48550/arXiv. 2306.01533.
[14]Eren A,Sert M.Automated audio captioning with topic modeling [J].IEEE Access,2023,11:4983-4991.
[15]Mei Xinhao,HuangQiushi,Liu Xubo,etal.Anencoder-decoder based audio captioning system with transfer and reinforcement learning [EB/OL]. (2021-08-05). https://arxiv.org/abs/2108.02752.
[16]Mei Xinhao,Meng Chutong,Liu Haohe,et al.WavCaps:a ChatGPTassisted weakly-labelled audio captioning dataset for audio-language multimodal research[J].IEEE/ACM Trans on Audio,Speech, and Language Processing,2024,32:3339-3354.
[17]Chen Chen,Hou Nana,Hu Yuchen,et al.Interactiveaudio-text representation for automated audio captioning with contrastive learning [EB/OL]. (2022-03-29).https://arxiv.or/abs/2203.15526.
[18]Deshmukh S,Elizalde B,Emmanouilidou D,et al. Training audio captioning modelswithout audio[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processig. Piscataway,, NJ: IEEE Press,2024: 371-375.
[19]Liu Zhuang,Mao Hanzi,Wu Chaoyuan,et al.A ConvNet for the 2020s[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2022:11966-11976.
[20]Su Hongjin,Shi Weijia,Kasai J,etal.One embedder,any task: instruction-finetuned text embeddings[C]//Findings of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2023:1102-1121.
[21]Gemmeke JF,Ellis D PW,F(xiàn)reedman D,et al.Audio set:an ontoInternational Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ:IEEE Press,2017:776-780.
[22]Banerjee S,Lavie A.METEOR:an automatic metric for MT evaluation with improved correlation with human judgments[C]//Proc of ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Stroudsburg,PA:Association for Computational Linguistics,2Oo5:65-72.
[23]Vedantam R,Zitnick CL,Parikh D.CIDEr:consensus-based image description evaluation[C]//Proc of IEEE Conference on Computer Vision and Patern Recognition.Piscataway,NJ: IEEE Press,2015: 4566-4575.
[24]Anderson P,F(xiàn)ernando B,Johnson M,et al. SPICE:semantic propositional image caption evaluation[C]//Proc of the 14th European Conference on Computer Vision.Cham:Springer,2016:382-398.
[25]Liu Siqi, Zhu Zhenhai,Ye Ning,etal.Improved image captioning via policy gradient optimization of SPIDEr[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017: 873-881.
[26] Zhou Zelin,Zhang Zhiling,Xu Xuenan,et al. Can audio captions be evaluated with image caption metrics?[C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway:IEEE Press,2022:981-985.
[27]Park DS,ChanW,Zhang Yu,et al.SpecAugment:a simple data augmentation method for automatic speech recognition [EB/OL]. (2019-04-08). htps://doi.org/10.48550/arXiv.1904.08779.
[28]Chen Sanyuan,Wu Yu,Wang Chengyi,et al. BEATs:audio pretraining with acoustic tokenizers [EB/OL].(2022-12-09).https://doi.org/10.48550/arXiv.2212.09058.
[29] Zhang Yiming,Yu Hong,Du Ruoyi,et al.ACTUAL:audio captioning with caption feature space regularization [J].IEEE/ACM Transon Audio,Speech,and Language Processing,2023,31:2643-2657.
[30]Ye Zhongjie,Wang Helin, Yang Dongchao,et al.Improving the performance of automated audio captioning via integrating the acoustic and semantic information [EB/OL]. (2021-10-06). https://doi. org/10.48550/arXiv.2110.06100.
[31]KomatsuT,F(xiàn)ujitaY,TakedaK,etal.Audiodiferencelearningfor audio captioning[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ:IEEE Press,2024:1456-1460.
[32]Liu Xubo,Huang Qiushi,Mei Xinhao,et al.Visually-aware audio captioning with adaptive audio-visual attention[EB/OL]. (2022-10- 16).https://doi. org/10.48550/arXiv.2210.16428.
[33]Kim M,Sung-BinK,Oh TH.Prefix tuning for automated audio captioning[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2O23:1-5.
[34]Deshmukh S,Elizalde B, Singh R,et al. Pengi: an audio language model for audio tasks[C]//Proc of the 37th International Conference on Neural Information Processing Systems.Red Hook,NY: Curran Associates Inc.,2023:18090-18108.
[35]Kim Eb,KimJh,OhYR,et al.Exploring train and test-time augmentations for audio-language learning[EB/OL].(2023-10-17). https://arxiv.org/abs/2210.17143.