• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于多模態(tài)表征學(xué)習(xí)的自動音頻字幕方法

    2025-08-03 00:00:00譚力周翊柳銀曹寅
    計算機(jī)應(yīng)用研究 2025年6期
    關(guān)鍵詞:解碼器字幕編碼器

    Tan Liwen’,Zhou Yi ,Liu Yin1,Cao Yin2+ (1.Scholofomucationamp;InfoationEnginering,Choging UniersityfPostsamp;elecomicains,hoging4oina; 2.Dept.of Intelligent Science,Xi'anJiaotong-Liverpool University,Suzhou Jiangsu 215ooo,China)

    Abstract:Modalitydiscrepancies haveperpetuallyposedsignificant chalenges fortheapplicationofAACand acrossall multi-modalresearchdomains.Faciliatingmodelsincomprehendingtextinformationplaysapivotalroleinestablishinga seamless connection between thetwo modalities of textandaudio.Recent studies haveconcentratedonnarrowingthedisparity between thesetwo modalities viacontrastive learning.However,bridgingthegapbetweenthem merelybyemployingasimple contrastivelossfunctionishallenging.Inordertoreduceteinfluenceofmodal diffrencesand enhancetheutilizationf the modelforthetwomodalfeatures,thispaperproposed SimTLNet,anaudiocaptioning methodbasedonmulti-modalrepresentationlearning byintroducing anovelrepresentationmodule,TRANSLATOR,constructingatwin representation structure,and jointly optimizingthemodel weights throughcontrastive learning and momentum updates,which enabledthe model toconcurrentlylearnthecommonhigh-dimensional semantic informationbetwen theaudioandtextmodalities.Theproposed method achieves 0.251,0.782,0.480forMETEOR,CIDEr,and SPIDEr-FLon AudioCaps dataset and0.187,0.475,0.303 for Clotho V2dataset,respectively,whicharecomparablewith state-of-the-art methodsandefectivelybridgethediferencebetween the two modalities.

    Key words:audio captioning;representation learning;contrastive learning;modality discrepancies;twin network

    0 引言

    自動音頻字幕(AAC)是一項多模態(tài)生成任務(wù),它聯(lián)合音頻和文本兩種模態(tài),生成音頻的描述性字幕[1]。AAC研究的適用性是多種多樣的,包括借助音頻到文本的轉(zhuǎn)換以幫助聽障人士、構(gòu)建面向內(nèi)容的智能人機(jī)交互系統(tǒng)等領(lǐng)域[2]。近年來,得益于DCASE 挑戰(zhàn)和Clotho[3]、AudioCaps[4]等數(shù)據(jù)集的發(fā)布,AAC研究受到了極大的關(guān)注,并取得了實(shí)質(zhì)性進(jìn)展。

    目前主流的AAC方法采用編碼器-解碼器系統(tǒng)架構(gòu)。具體來說,利用PANNs[5] HTS-AT[6] 等音頻編碼器來提取對數(shù)梅爾頻譜、梅爾倒譜系數(shù)等聲學(xué)特征,然后由文本解碼器對提取的聲學(xué)特征進(jìn)行解碼以生成對應(yīng)的音頻字幕。文本解碼器通常遵循序列到序列的設(shè)計,近年來,隨著Transformer架構(gòu)的發(fā)展,越來越多優(yōu)秀的解碼器如GPT-2[7]、BART[8]等逐漸成為文本解碼器的首選。

    目前AAC領(lǐng)域仍面臨著一個重要的挑戰(zhàn),即音頻模態(tài)和文本模態(tài)之間存在巨大的模態(tài)差異。隨著基于對比語言-圖像預(yù)訓(xùn)練方法(contrastive language-image pretraining,CLIP)[9]在圖像字幕中的廣泛應(yīng)用,對比學(xué)習(xí)逐漸受到研究者的關(guān)注。CLIP將模型分為兩個分支,通過兩個獨(dú)立的編碼器分別提取來自兩個分支中對應(yīng)模態(tài)的特征,然后優(yōu)化對比損失來縮小兩個模態(tài)之間的差異。Elizalde等人[通過將CLIP中的圖像編碼器替換為音頻編碼器,提出了對比語言-音頻預(yù)訓(xùn)練(contrastivelanguage-audiopretraining,CLAP),成功將CLIP應(yīng)用到音頻和文本的多模態(tài)任務(wù)中。Wu等人[1]通過大規(guī)模訓(xùn)練,首次將CLAP應(yīng)用到AAC領(lǐng)域中。文獻(xiàn)[12]使用了類似的架構(gòu),但采用InfoNCE損失函數(shù)取代CLAP中的損失函數(shù)來縮小兩種模式之間的差異。上述方法證明了對比學(xué)習(xí)確實(shí)可以作為縮小模態(tài)差異的有效方法,但它們都是通過使用一個對比損失函數(shù),促使音頻編碼器間接學(xué)習(xí)文本編碼器提取到的文本特征。這種方式不是使模型直接學(xué)習(xí)文本特征,無法充分利用文本模態(tài)的信息。同時,音頻和文本兩種模態(tài)之間的巨大差異也很難單純通過一個損失函數(shù)來彌合。

    本文模型整體流程如圖1所示。同之前的研究類似,在特征提取階段,模型被分為音頻分支和文本分支。音頻分支首先通過一個凍結(jié)權(quán)重的音頻編碼器以提取音頻特征,然后將提取到的音頻特征輸入到一個全新的表征模塊TRANSLATOR中,該模塊可以通過聯(lián)合全局上下文信息提取高維特征表示。文本分支同樣由一個凍結(jié)權(quán)重的文本編碼器和一個表征模塊TRANSLATOR組成。兩個分支中的表征模塊TRANSLATOR具有相同的結(jié)構(gòu)和權(quán)重,組成一組孿生表征模塊。反向傳播時,使用動量更新的方法更新孿生表征模塊的權(quán)重,通過該方式,音頻分支的表征模塊也能夠直接學(xué)習(xí)文本特征。最后,通過對孿生表征模塊的最終隱藏狀態(tài)計算對比損失,輔助模型彌合音頻和文本模態(tài)之間的差異??偟膩碚f,本文的貢獻(xiàn)如下:

    a)提出了一種全新的表征模塊TRANSLATOR,能夠聯(lián)合全局上下文信息學(xué)習(xí)音頻信號的高維特征表示。

    b)通過將共享權(quán)重的孿生模塊作用于音頻分支和文本分支,使模型能夠同時學(xué)習(xí)兩種模態(tài)的特征。

    c)使用動量更新權(quán)重的方式,使模型兩條分支間不同模態(tài)的信息能夠相互交互,以彌合兩種模態(tài)之間的差異。

    圖1模型整體流程Fig.1Overall flowchart of themodel

    1相關(guān)工作

    自動音頻字幕(AAC)旨在為音頻生成精確的描述性字幕。在以往的研究中,許多研究者從不同的角度對AAC研究進(jìn)行了探索。研究者們通常引入遷移學(xué)習(xí)的方法,通過在大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練以提高模型的性能。一些研究人員通過引入額外的特征嵌人(如聲音事件檢測[13]、關(guān)鍵字信息等[14])來改進(jìn)系統(tǒng)性能。部分研究者通過使用強(qiáng)化學(xué)習(xí)算法直接優(yōu)化指標(biāo)來提高生成字幕的質(zhì)量[15],但是這會導(dǎo)致生成字幕的流暢度下降。為了解決訓(xùn)練數(shù)據(jù)稀缺的問題,Mei等人[16]提出了WavCaps 數(shù)據(jù)集,Wu等人[1]提出了LAION-Audio-630K數(shù)據(jù)集,有效地解決了這一問題。對比學(xué)習(xí)因其能夠無監(jiān)督地學(xué)習(xí)樣本間的差異性和相似性,長期以來一直是研究者關(guān)注的焦點(diǎn)。在以往的研究中,研究者通過對同一張圖片使用不同的數(shù)據(jù)增強(qiáng)方法生成該圖像的異構(gòu)視圖,并通過比較這些視圖來學(xué)習(xí)共有特征。

    近年來,以CLIP[9]為代表的對比學(xué)習(xí)研究在多模態(tài)任務(wù)中逐漸嶄露頭角,成為研究熱點(diǎn)。在自動音頻字幕領(lǐng)域,也有一系列類似的研究,研究者大多采用了相似的架構(gòu)。這些模型通常包含兩個分支,每個分支通過不同的模態(tài)編碼器分別提取各自模態(tài)的特征,最后通過一個對比損失函數(shù)協(xié)助模型學(xué)習(xí)兩種模態(tài)間的關(guān)聯(lián)。 Wu 等人[]通過大規(guī)模訓(xùn)練將CLAP應(yīng)用到AAC領(lǐng)域,Chen等人[17]提出CLIP-AAC,采用與CLAP類似的結(jié)構(gòu),并通過cliploss(一種對比損失函數(shù))來彌補(bǔ)兩種模態(tài)之間的差異。Wu等人[12]在此結(jié)構(gòu)的基礎(chǔ)上,使用BAETs + Conformer替換掉原本的音頻編碼器,并使用InfoNCEloss代替clip loss以獲得更好的性能。Deshmukh等人[18]嘗試僅利用文本模態(tài)的信息訓(xùn)練基于該結(jié)構(gòu)的模型,從另一個角度出發(fā)證明了該結(jié)構(gòu)確實(shí)能夠有效地彌合兩種模態(tài)之間的差異。

    2方法

    2.1編碼器和解碼器

    2.1.1 音頻編碼器

    在之前的研究中,許多不同的編碼器被應(yīng)用于AAC領(lǐng)域,這些編碼器基于不同的架構(gòu),使得它們能提取不同視角的特征。例如,基于CNN架構(gòu)的編碼器,其提取的特征更多是局部細(xì)節(jié)特征,而基于Transformer架構(gòu)的編碼器由于應(yīng)用注意力機(jī)制,則會更關(guān)注全局信息。

    本文選擇了三種在AAC領(lǐng)域被廣泛使用的預(yù)訓(xùn)練音頻編碼器:PANNs[5] HTS-AT[6] 和 ConvNeXt[19] ,分別提取各種視圖下的音頻特征,以對比其性能表現(xiàn)。PANNs基于CNN架構(gòu),由14個卷積層堆疊構(gòu)成。HTS-AT是一種基于Swin-Transformer架構(gòu)的音頻編碼器。ConvNeXt也是基于CNN架構(gòu),但與PANNs不同的是,它使用了更大的卷積核并參考部分Transformer的結(jié)構(gòu)設(shè)置。音頻編碼器的權(quán)重都被凍結(jié),不參與權(quán)重更新。每個音頻編碼器提取的音頻特征張量被調(diào)整為32×768 的相同形狀。

    2.1.2 文本編碼器

    本文采用INSTRUCTOR-base[20]作為文本編碼器,它是一個基于指令微調(diào)的T5預(yù)訓(xùn)練模型。與音頻編碼器相同,訓(xùn)練時模型的權(quán)重被凍結(jié),并使用\"Representtheaudiocaption:\"作為指令,引導(dǎo)文本編碼器提取對應(yīng)的文本特征。最終提取的文本特征張量形狀被調(diào)整為與音頻特征張量相同的形狀。

    2.1.3文本解碼器

    本文采用 BART[8] 作為文本解碼器,它是一種具有雙向編碼器和自回歸解碼器(BERT + GPT)的Transformer解碼器,共有6層編碼器和6層解碼器,詞匯量為 50256 與編碼器部分不同,訓(xùn)練時文本解碼器參與更新權(quán)重。

    使用交叉熵?fù)p失作為模型的主要損失函數(shù),其通過文本解碼器的輸出分布和真實(shí)字幕計算得到。交叉熵?fù)p失可以表示為

    其中: 表示音頻樣本 ; 表示該音頻樣本對應(yīng)的字幕; yn 表示字幕中的第 Ωn 個單詞; N 表示批次大小。

    2.2 表征模塊TRANSLATOR

    2.2.1為什么選擇TRANSLATOR

    在模型的構(gòu)建中,通常會將輸入張量和輸出張量調(diào)整為相同的形狀,以此將不同的模塊拼接在一起,但這樣做完全忽略了每個張量維度的具體意義。如圖2所示,在AAC任務(wù)中,音頻特征通常通過提取對應(yīng)的對數(shù)梅爾頻譜得到,音頻特征張量的形狀可以表示為(bs,time-step, n -mel),其中 bs 代表批次大小,time-step代表時間步長,n-mel代表梅爾濾波器的數(shù)量。文本特征張量的形狀可以表示為(bs,seq-len, d -model),其中bs代表批次大小,seq-len表示字幕的長度, d -model為字幕中每個單詞的編碼維度。通過對比可以發(fā)現(xiàn),兩種特征張量只有在第一個維度表示相同的含義,最后一個維度雖然表示不同的含義,但通過模型中的復(fù)雜變化也能夠近似等價,唯獨(dú)第二個維度很難建立起對應(yīng)關(guān)系。每一個時間步長的音頻特征和字幕中每一個單詞之間的對應(yīng)關(guān)系并不是簡單的一一對應(yīng),而是多對多的關(guān)系。對于文本信息而言,每個單詞不僅包含自身信息,還包含更多的上下文信息,而對于音頻樣本,每個時間步長的特征更側(cè)重于當(dāng)前時間節(jié)點(diǎn)的信息。表征模塊TRANSLA-TOR通過聯(lián)合特征的全局信息和狀態(tài)信息,使每個時間步長的特征包含更多的全局上下文信息,進(jìn)而提取更高維度的特征表示。

    圖2關(guān)于選擇TRANSLATOR原因的陳述

    2.2.2 TRANSLATOR詳細(xì)結(jié)構(gòu)

    如圖3所示,TRANSLATOR由 M 層編碼器和 N 層解碼器組成,其輸入是形狀為(bs,time-step,n-mel)的音頻特征。音頻特征會在time-step維度上進(jìn)行拆分,每個拆分后的張量形狀為(bs,n-mel),依次作為每個時間步的輸入。

    ig.2Statement on the reasons for choosing TRANSLATOR圖3TRANSLATOR內(nèi)部結(jié)構(gòu)Fig.3Internal structure ofTRANSLATOR

    每層編碼器由一個上下文注意力模塊(contextattentionblock,CAB)、一個全局注意力模塊(globalattentionblock,GAB)和標(biāo)準(zhǔn)的前饋網(wǎng)絡(luò)(feedforwardnetwork,F(xiàn)FN)組成。在CAB模塊內(nèi)部,每個時間步的輸入首先會通過一個具有大卷積核的一維卷積層,將原本為一個整體的音頻特征進(jìn)一步拆分為獨(dú)立的時間步特征,采用大卷積核則可以通過擴(kuò)展感受野來減少因卷積操作對原始特征造成的影響。然后,當(dāng)前時間步的特征會與前一時間步的隱藏狀態(tài)計算交叉注意力以提取上下文信息。最后,經(jīng)過層歸一化后,時間步特征會通過一個殘差結(jié)構(gòu)與原始時間步特征相加,得到CAB模塊的輸出。通過CAB模塊后的特征將包含先前所有時間步的信息。在此之后,每個時間步的特征都經(jīng)過一個GAB模塊,該模塊具有與CAB相同的內(nèi)部結(jié)構(gòu),但通過注意力模塊時,計算當(dāng)前時間步與原始未拆分音頻特征之間的交叉注意力,提取得到的特征則作為當(dāng)前時間步的隱藏狀態(tài)傳遞到下一個時間步。通過GAB模塊,當(dāng)前時間步的特征同時也包含了全局上下文信息。最后,提取到的特征通過一個標(biāo)準(zhǔn)的FFN進(jìn)行線性變換,以獲得編碼器在當(dāng)前時間步的輸出。

    解碼器的結(jié)構(gòu)類似于編碼器,但在GAB模塊和FFN之間增加了一個注意力層,通過計算最后一層編碼器和解碼器在同一時間步特征之間的交叉注意力,使特征具有更豐富的全局上下文信息。該特征會作為解碼器在當(dāng)前時間步的隱藏狀態(tài)傳遞到下一時間步,同時還會通過層歸一化和線性變換后,作為解碼器在當(dāng)前時間步的輸出。此外,最后一層編碼器最終的隱藏狀態(tài)會被用作每一層解碼器的初始狀態(tài)。最后,解碼器在每個時間步的輸出會拼接在一起作為TRANSLATOR模塊的最終輸出。通過實(shí)驗(yàn)發(fā)現(xiàn),在 M=3,N=2 和卷積核大小為45時性能最佳。

    TRANSLATOR模塊可以視作對音頻特征進(jìn)行一次恒等變換,使每個時間步特征包含更加豐富的全局上下文信息。TRANSLATOR模塊的輸出可以表示為

    x0,x1,…,xT=split(X)

    ytran=concatn=0Tf(xn?hn-1

    其中 :X 表示原始音頻特征; xn 表示第 n 個時間步長的輸入;hn-1 表示第 n-1 個時間步的隱藏狀態(tài); T 表示時間步的總數(shù);f(?) 代表TRANSLATOR模塊的計算過程; split(?) 代表對特征沿時間維度進(jìn)行拆分; concat(?) 表示重新拼接每個時間步的特征; ? 代表計算交叉注意力。

    2.3孿生結(jié)構(gòu)與動量更新

    本節(jié)詳細(xì)描述孿生結(jié)構(gòu)和動量更新原理,以及應(yīng)用該結(jié)構(gòu)的原因。

    2.3.1為什么選擇這種結(jié)構(gòu)

    作為一種跨模態(tài)任務(wù),如何充分利用文本模態(tài)的信息一直是提高AAC系統(tǒng)性能的關(guān)鍵之一。最直接的方法是同時使用音頻和文本作為模型的輸人進(jìn)行訓(xùn)練,使模型能夠?qū)W習(xí)兩種模態(tài)之間的關(guān)聯(lián)信息。但由于在推理過程中無法獲取對應(yīng)的文本信息,所以該方法無法處理只能使用音頻信息的推理過程。先前的研究幾乎都是通過使用對比學(xué)習(xí)的方式,使模型間接學(xué)習(xí)兩種模態(tài)之間的關(guān)聯(lián),但無論是間接利用文本模態(tài)的信息,還是僅使用對比損失函數(shù)來拉近兩種模態(tài),都無法充分利用兩種模態(tài)各自的信息。需要一種新的方法,讓模型能直接同時學(xué)習(xí)兩種模態(tài)的特征,更進(jìn)一步來說,是使模型能夠在學(xué)習(xí)音頻模態(tài)信息的同時,也具有學(xué)習(xí)文本模態(tài)信息的能力。

    2.3.2 具體細(xì)節(jié)

    與之前的研究類似,模型被分為音頻分支和文本分支,兩個分支都由一個被凍結(jié)權(quán)重的編碼器和一個可學(xué)習(xí)的表征模塊構(gòu)成。其中編碼器用于提取對應(yīng)模態(tài)的特征,表征模塊則從由編碼器提取到的特征中學(xué)習(xí)兩種模態(tài)的高維表征。上一節(jié)介紹的TRANSLATOR模塊被應(yīng)用于此處充當(dāng)表征模塊,兩個分支的TRANSLATOR模塊結(jié)構(gòu)相同且共享權(quán)重,構(gòu)成一對孿生表征結(jié)構(gòu)。孿生表征結(jié)構(gòu)得益于與共享權(quán)重的原因,能夠同時學(xué)習(xí)兩種模態(tài)之間的關(guān)聯(lián),以提取高維語義信息。但是,同時學(xué)習(xí)兩種模態(tài)的信息仍是具有挑戰(zhàn)性的,為進(jìn)一步增強(qiáng)模型的表征能力,在孿生結(jié)構(gòu)中額外引人動量更新權(quán)重、添加對比損失函數(shù)兩種方法。

    假設(shè)經(jīng)過一次反向傳播后,音頻分支中TRANSLATOR模塊權(quán)重為 Wa ,文本分支中TRANSLATOR模塊權(quán)重為 Wt ,則兩個分支中TRANSLATOR最終的權(quán)重 W 可表示為

    W=α?Wa+(1-α)?Wt

    其中: α 為動量參數(shù),用于控制每一次反向傳播時權(quán)重的更新比例。每次模型更新權(quán)重時,孿生表征結(jié)構(gòu)的權(quán)重以動量更新的方式進(jìn)行更新。具體來說,每次反向傳播后,整個孿生表征模塊的權(quán)重由兩個分支中各自表征模塊的權(quán)重按一定比例組合而成。通過增加屬于音頻分支中表征模塊的權(quán)重比例( αgt; 0.9),使整個孿生表征結(jié)構(gòu)能夠在緩慢學(xué)習(xí)文本信息的同時,保持由音頻分支中表征模塊學(xué)習(xí)到的提取高維音頻表征的能力。兩個分支中表征模塊的權(quán)重會保持一致,以防止由于長時間的訓(xùn)練,使兩個分支中表征模塊的權(quán)重完全不相關(guān),從而導(dǎo)致孿生表征結(jié)構(gòu)失去同時學(xué)習(xí)兩種模態(tài)信息的能力。通過實(shí)驗(yàn)發(fā)現(xiàn),在 α=0.95 時性能表現(xiàn)最佳。

    在雙分支結(jié)構(gòu)的模型中,通過優(yōu)化對比損失,能迫使模型不斷學(xué)習(xí)如何區(qū)分不同的正負(fù)樣本對,以學(xué)習(xí)模態(tài)間的關(guān)聯(lián)信息。由于孿生表征模塊的權(quán)重采用動量更新的方式,在優(yōu)化對比損失的同時,還能進(jìn)一步促進(jìn)表征模塊學(xué)習(xí)各自模態(tài)的信息。兩個分支中,TRANSLATOR模塊的最后一個隱藏狀態(tài)被用于計算對比損失。對比損失函數(shù)可以表示為

    其中: hia?hic 分別表示音頻分支和文本分支中TRANSLATOR模塊的最后一個隱藏狀態(tài); N 表示批次大小。最后一個隱藏狀態(tài)是指TRANSLATOR模塊中最后一層解碼器在最后一個時間步的隱藏狀態(tài),相較于直接使用表征模塊的輸出結(jié)果來計算對比損失,最后一個隱藏狀態(tài)同時具有所有時間步的全局上下文信息。模型的總損失函數(shù)則由交叉熵?fù)p失和對比損失構(gòu)成,總損失函數(shù)可以表示為

    L=β?Lce+(1-β)?Lcl

    其中 :β 為一個超參數(shù)、用于控制兩種損失的權(quán)重,經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn),當(dāng) β=0.5 時,性能表現(xiàn)最佳。

    3實(shí)驗(yàn)結(jié)果

    3.1 數(shù)據(jù)集

    分別在AAC領(lǐng)域兩個主流數(shù)據(jù)集,即Clotho abla2[3] 和AudioCaps[4]中驗(yàn)證本文方法的有效性。

    3.1.1 Clotho V2

    Clotho abla2[3] 數(shù)據(jù)集被劃分為開發(fā)、評估、驗(yàn)證和測試共四個分支。除測試分支外,其他三個分支均由時長為15~30 s的音頻樣本組成,每個音頻樣本包含5個長度為5\~10s的字幕。作為DCASE挑戰(zhàn)賽的官方數(shù)據(jù)集,共有6974個音頻樣

    本,34 870個字幕。

    3.1.2 AudioCaps

    AudioCaps[4]數(shù)據(jù)集由超過 50k 個從大規(guī)模音頻數(shù)據(jù)集Audio set[21]中挑選得到的音頻樣本組成。數(shù)據(jù)集劃分為訓(xùn)練、驗(yàn)證和測試分支,每個音頻樣本的長度為 10s 。在訓(xùn)練分支中,每個音頻樣本對應(yīng)于一個真實(shí)字幕,而在驗(yàn)證和測試分支中,每個音頻樣本對應(yīng)五個真實(shí)字幕。

    3.2 評價指標(biāo)

    AAC任務(wù)的評價指標(biāo)可以分為兩類,分別為基于 n -gram的傳統(tǒng)機(jī)器翻譯指標(biāo)和基于語義相似性的指標(biāo)[1]。自DCASE2023挑戰(zhàn)賽開始以來,METEOR[22]、CIDEr[23]、SPICE[24]]SPIDEr[25]和SPIDEr-FL已被用作AAC任務(wù)的主要評價指標(biāo)。其中,METEOR專注于計算單個單詞的 F1 分?jǐn)?shù)和召回率;CIDEr通過TF-IDF分?jǐn)?shù)以加權(quán)計算 n -gram;SPICE用來評估預(yù)測字幕和真實(shí)字幕之間的語義匹配程度;SPIDEr是SPICE和CIDEr的平均值;SPIDEr-FL是一種新提出的度量方法,通過計算SPIDEr和FENSE[26]的平均值,同時兼顧評價生成字幕的流暢度。

    3.3實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

    同以前的研究中被廣泛驗(yàn)證得到的超參數(shù)設(shè)置一樣,AdamW被用作訓(xùn)練過程中的優(yōu)化器,批次大小設(shè)置為32。初始學(xué)習(xí)率為 3×10-5 ,同時使用余弦退火算法更新學(xué)習(xí)率,周期長度為4個epoch。在一個周期中基準(zhǔn)學(xué)習(xí)率會首先下降10倍,然后再恢復(fù),每經(jīng)過一個周期,基準(zhǔn)學(xué)習(xí)率會減半。每個epoch會在驗(yàn)證集中進(jìn)行3次評估,每次評估使用CIDEr[23]以選擇是否保存權(quán)重。應(yīng)用標(biāo)簽平滑策略來減少模型過度自信的問題。訓(xùn)練時采用teacherforcing方式加快推理速度。每個音頻樣本會使用SpecAugment[27]進(jìn)行數(shù)據(jù)增強(qiáng)。

    使用NVIDIAV100GPU(32G)訓(xùn)練模型,訓(xùn)練時長為20個epoch。應(yīng)用提前停止的策略,當(dāng)連續(xù)4個epoch沒有提高指標(biāo)時結(jié)束訓(xùn)練。在推理階段禁用數(shù)據(jù)增強(qiáng)策略,并使用束寬為4的束搜索方法以生成字幕。

    3.4 消融實(shí)驗(yàn)

    為驗(yàn)證本文方法的有效性,在ClothoV2數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)時選擇DCASE挑戰(zhàn)的基線系統(tǒng)作為消融實(shí)驗(yàn)的基線模型,并通過在基線模型上逐個添加模塊的方式以驗(yàn)證各個方法的有效性,結(jié)果如表1所示。其中,基線模型表示只采用音頻分支的模型,文本分支表示額外添加文本編碼器和對比損失函數(shù),TRANSLATOR表示在編碼器后額外添加表征模塊TRANSLATOR,(Sim)TRANSLATOR表示在雙分支模型的基礎(chǔ)上添加孿生表征結(jié)構(gòu),動量更新表示在孿生表征結(jié)構(gòu)之間采用動量更新權(quán)重。訓(xùn)練期間所有編碼器的權(quán)重都被凍結(jié),除編碼器外,所有模塊都重新訓(xùn)練,以保證消融實(shí)驗(yàn)結(jié)論的可靠性。

    表1在ClothoV2數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果

    第1\~3行的結(jié)果顯示,當(dāng)使用 BART[8] 作為文本解碼器時, HTS-AT[6] 表現(xiàn)最佳,這表明在AAC任務(wù)中,基于注意力機(jī)制的音頻編碼器要優(yōu)于基于傳統(tǒng)卷積結(jié)構(gòu)的音頻編碼器。在實(shí)驗(yàn)過程中有嘗試使用其他的音頻編碼器(如BEATs[28]等)用于提取音頻特征,但沒有取得更好的表現(xiàn)。第4行的結(jié)果表明,添加文本分支并使用對比學(xué)習(xí)的方式的確能夠有效提高模型的性能,這也與之前研究得出的結(jié)論保持一致。第5行的結(jié)果表明,當(dāng)僅使用音頻分支時,添加表征模塊TRANSLATOR可以有效提高模型的性能,這是由于表征模塊TRANSLATOR能夠通過聯(lián)合全局上下文信息,從音頻特征中提取更高維的特征表示,一定程度上能夠緩解音頻和文本兩種模態(tài)之間的差異。第6行的結(jié)果表明,通過在兩個分支上添加一組孿生表征模塊,可以顯著提高系統(tǒng)的性能,這是由于孿生表征模塊在提取高維表征的同時,還能同時學(xué)習(xí)兩種模態(tài)之間的高維語義信息,從而進(jìn)一步在高維表征中降低兩種模態(tài)的差異。第7行的結(jié)果表明,通過在孿生表征模塊之間應(yīng)用動量更新權(quán)重的方式,可以進(jìn)一步提高孿生表征模塊同時學(xué)習(xí)高維語義信息的能力。

    3.5 對比實(shí)驗(yàn)

    將本文方法與當(dāng)前最先進(jìn)的方法進(jìn)行比較,結(jié)果如表2所示,其中SOTA表示目前該數(shù)據(jù)集下最先進(jìn)的方法。結(jié)果表明,在ClothoV2數(shù)據(jù)集上,本文方法優(yōu)于目前最先進(jìn)的方法,并在AudioCaps數(shù)據(jù)集上獲得了與最先進(jìn)方法相當(dāng)?shù)慕Y(jié)果。值得注意的是,Mei等人的方法在訓(xùn)練階段使用額外數(shù)據(jù)集WavCaps[16]進(jìn)行預(yù)訓(xùn)練,WavCaps數(shù)據(jù)集具有約40萬條音頻數(shù)據(jù),數(shù)據(jù)量幾乎是ClothoV2數(shù)據(jù)集的60倍、AudioCaps數(shù)據(jù)集的8倍,但最終仍有部分指標(biāo)(METEOR、SPICE)落后于本文方法。

    文獻(xiàn)[12]在對生成結(jié)果進(jìn)行rerank后,性能優(yōu)于本文方法。rerank是指通過重復(fù)生成多次結(jié)果,然后在所有結(jié)果中對得分進(jìn)行排序以選擇最終的結(jié)果。為保證對比實(shí)驗(yàn)的公平性,進(jìn)一步在ClothoV2數(shù)據(jù)集上對文獻(xiàn)[12]和本文方法進(jìn)行了比較,結(jié)果如表3所示。本文方法在訓(xùn)練時僅使用ClothoV2數(shù)據(jù)集進(jìn)行訓(xùn)練,而文獻(xiàn)[12]則使用AudioCaps數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,并使用ChatGPT生成額外字幕以進(jìn)行數(shù)據(jù)增強(qiáng)。實(shí)驗(yàn)結(jié)果表明,本文方法無論是僅使用音頻分支還是同時音頻分支和文本分支,在ClothoV2數(shù)據(jù)集上的表現(xiàn)都比文獻(xiàn)[12]更好。

    表2在ClothoV2和AudioCaps數(shù)據(jù)集上的對比實(shí)驗(yàn)結(jié)果
    方法,避免額外的文本編碼器,從根本上解決由于引入文本分支而造成的資源浪費(fèi)問題。

    需要指出的是,本文方法沒有采用強(qiáng)化學(xué)習(xí)進(jìn)行微調(diào),因?yàn)檫@種方法會重復(fù)生成關(guān)鍵詞,雖然能有效提高部分性能指標(biāo),但會降低生成字幕的流暢度。

    表3與文獻(xiàn)[12]的詳細(xì)對比實(shí)驗(yàn)Tab.3Results of comparative experiments with method proposed byReference[12]

    4結(jié)束語

    為克服音頻和文本兩種模態(tài)之間的差異,提出了基于多模態(tài)表征學(xué)習(xí)的音頻字幕方法SimTLNet,以彌合兩種模態(tài)之間的差異。首先提出表征模塊TRANSLATOR,通過聯(lián)合全局上下文信息提取音頻特征的高維表征。然后添加孿生表征結(jié)構(gòu),使模型能夠同時學(xué)習(xí)兩種模態(tài)的語義信息,以避免僅使用對比損失函數(shù)來彌合兩種模態(tài)之間的差異,最后通過動量更新權(quán)重的方式,進(jìn)一步增強(qiáng)孿生表征結(jié)構(gòu)的學(xué)習(xí)能力,從而盡可能高效地利用文本信息。該方法在AudioCaps和ClothoV2數(shù)據(jù)集上取得了可以與最先進(jìn)方法相媲美的結(jié)果,有效彌合了兩種模態(tài)之間的差異。在未來的工作中,將會著重結(jié)合自監(jiān)督學(xué)習(xí)的

    參考文獻(xiàn):

    [1]Mei Xinhao,Liu Xubo,Plumbley MD,et al.Automated audio captioning:an overview of recent progressand new challenges[J]. EURASIP Journal on Audio,Speech,and Music Processing, 2022(1):26.

    [2]XuXuenan,WuMengyue,YuKai.Acomprehensive survey of automatedaudiocaptioning[EB/OL].(2022-05-05)[2025-01-13]. https://doi.org/10.48550/arXiv.2205.05949.

    [3]Drossos K,Lipping S,Virtanen T. Clotho:an audio captioning dataset [C]//Proc ofIEEE International Conference on Acoustics, SpeechandSignal Processing.Piscataway,NJ:IEEEPress,2020: 736-740.

    [4]Kim C D,Kim B,Lee H,et al. AudioCaps:generating captions for audiosinthewild[C]//ProcofConferenceoftheNorthAmerican ChapteroftheAssociation for Computational Linguistics:HumanLanguage Technologies. Stroudsburg,PA:Association for Computational Linguistics,2019:119-132.

    [5]Kong Qiuqiang,Cao Yin,Iqbal T,et al. PANNs:large-scale pretrained audio neural networks for audio pattern recognition [J]. IEEE/ACM Trans on Audio,Speech,and Language Processing,2020,28:2880-2894.

    [6]ChenKe,Du Xingjian,Zhu Bilei,etal.HTS-AT:a hierarchical token-semanticaudiotransformerforsoundclassificationanddetection [C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press, 2022: 646-650.

    [7]Radford A,Wu J, Child R,et al.Language models are unsupervised multitask learners[J].OpenAl Blog,2019,1(8): 9.

    [8]Lewis M ,Liu Yinhan,Goyal N,et al.BART:denoising sequenceto-sequence pre-training for natural language generation,translation, and comprehension [C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA:Association for Computational Linguistics,2020:7871-7880.

    [9]Radford A,KimJW,Hallacy C,et al. Learning transferable visual models from natural language supervision[C]//Proc of International Conference on Machine Learning.[S.1.]:PMLR,2021:8748-8763.

    [10]Elizalde B,Deshmukh S,Al Ismail M,et al.CLAPlearningaudio concepts from natural language supervision [C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2023:1-5.

    [11]Wu Yusong,Chen Ke, Zhang Tianyu,et al.Large-scale contrastive language-audio pretraining with feature fusion and keyword-to-caption augmentation [C]// Proc of IEEE International Conferenceon Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2023:1-5.

    [12] Wu SL,Chang Xuankai,Wichern G,et al. Improving audio captioning models with fine-grained audio features,text embedding supervision,and LLM mix-up augmentation [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway:IEEE Press,2024:316-320.

    [13]Xie Zeyu,Xu Xuenan,Wu Mengyue,et al.Enhance temporal relations in audio captioning with sound event detection[EB/OL]. (2023-06-01)[2025-01-13]. htps://doi. org/10.48550/arXiv. 2306.01533.

    [14]Eren A,Sert M.Automated audio captioning with topic modeling [J].IEEE Access,2023,11:4983-4991.

    [15]Mei Xinhao,HuangQiushi,Liu Xubo,etal.Anencoder-decoder based audio captioning system with transfer and reinforcement learning [EB/OL]. (2021-08-05). https://arxiv.org/abs/2108.02752.

    [16]Mei Xinhao,Meng Chutong,Liu Haohe,et al.WavCaps:a ChatGPTassisted weakly-labelled audio captioning dataset for audio-language multimodal research[J].IEEE/ACM Trans on Audio,Speech, and Language Processing,2024,32:3339-3354.

    [17]Chen Chen,Hou Nana,Hu Yuchen,et al.Interactiveaudio-text representation for automated audio captioning with contrastive learning [EB/OL]. (2022-03-29).https://arxiv.or/abs/2203.15526.

    [18]Deshmukh S,Elizalde B,Emmanouilidou D,et al. Training audio captioning modelswithout audio[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processig. Piscataway,, NJ: IEEE Press,2024: 371-375.

    [19]Liu Zhuang,Mao Hanzi,Wu Chaoyuan,et al.A ConvNet for the 2020s[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2022:11966-11976.

    [20]Su Hongjin,Shi Weijia,Kasai J,etal.One embedder,any task: instruction-finetuned text embeddings[C]//Findings of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2023:1102-1121.

    [21]Gemmeke JF,Ellis D PW,F(xiàn)reedman D,et al.Audio set:an ontoInternational Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ:IEEE Press,2017:776-780.

    [22]Banerjee S,Lavie A.METEOR:an automatic metric for MT evaluation with improved correlation with human judgments[C]//Proc of ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Stroudsburg,PA:Association for Computational Linguistics,2Oo5:65-72.

    [23]Vedantam R,Zitnick CL,Parikh D.CIDEr:consensus-based image description evaluation[C]//Proc of IEEE Conference on Computer Vision and Patern Recognition.Piscataway,NJ: IEEE Press,2015: 4566-4575.

    [24]Anderson P,F(xiàn)ernando B,Johnson M,et al. SPICE:semantic propositional image caption evaluation[C]//Proc of the 14th European Conference on Computer Vision.Cham:Springer,2016:382-398.

    [25]Liu Siqi, Zhu Zhenhai,Ye Ning,etal.Improved image captioning via policy gradient optimization of SPIDEr[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017: 873-881.

    [26] Zhou Zelin,Zhang Zhiling,Xu Xuenan,et al. Can audio captions be evaluated with image caption metrics?[C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway:IEEE Press,2022:981-985.

    [27]Park DS,ChanW,Zhang Yu,et al.SpecAugment:a simple data augmentation method for automatic speech recognition [EB/OL]. (2019-04-08). htps://doi.org/10.48550/arXiv.1904.08779.

    [28]Chen Sanyuan,Wu Yu,Wang Chengyi,et al. BEATs:audio pretraining with acoustic tokenizers [EB/OL].(2022-12-09).https://doi.org/10.48550/arXiv.2212.09058.

    [29] Zhang Yiming,Yu Hong,Du Ruoyi,et al.ACTUAL:audio captioning with caption feature space regularization [J].IEEE/ACM Transon Audio,Speech,and Language Processing,2023,31:2643-2657.

    [30]Ye Zhongjie,Wang Helin, Yang Dongchao,et al.Improving the performance of automated audio captioning via integrating the acoustic and semantic information [EB/OL]. (2021-10-06). https://doi. org/10.48550/arXiv.2110.06100.

    [31]KomatsuT,F(xiàn)ujitaY,TakedaK,etal.Audiodiferencelearningfor audio captioning[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ:IEEE Press,2024:1456-1460.

    [32]Liu Xubo,Huang Qiushi,Mei Xinhao,et al.Visually-aware audio captioning with adaptive audio-visual attention[EB/OL]. (2022-10- 16).https://doi. org/10.48550/arXiv.2210.16428.

    [33]Kim M,Sung-BinK,Oh TH.Prefix tuning for automated audio captioning[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2O23:1-5.

    [34]Deshmukh S,Elizalde B, Singh R,et al. Pengi: an audio language model for audio tasks[C]//Proc of the 37th International Conference on Neural Information Processing Systems.Red Hook,NY: Curran Associates Inc.,2023:18090-18108.

    [35]Kim Eb,KimJh,OhYR,et al.Exploring train and test-time augmentations for audio-language learning[EB/OL].(2023-10-17). https://arxiv.org/abs/2210.17143.

    猜你喜歡
    解碼器字幕編碼器
    交際翻譯理論視域下的字幕翻譯
    文教資料(2025年14期)2025-08-21 00:00:00
    新聞短視頻的拍攝和剪輯技巧
    基于Transformer模型的圖書館借閱量預(yù)測研究
    翻譯熵與生態(tài)翻譯學(xué)視角下《懸崖之上》電影字幕翻譯研究
    神經(jīng)運(yùn)動手環(huán)通過手勢實(shí)現(xiàn)人機(jī)交互
    一種融合注意力機(jī)制與ED-LSTM模型的核工程虛擬測量方法
    跨文化視角下看《戰(zhàn)狼2》漢譯德字幕翻譯
    三角洲(2025年20期)2025-08-05 00:00:00
    微型全國產(chǎn)化精密單軸轉(zhuǎn)臺設(shè)計
    外部知識與內(nèi)部上下文語義聚合的短文本新聞虛假檢測模型
    面向視覺-語言模型的遞進(jìn)互提示學(xué)習(xí)
    午夜精品久久久久久毛片777| 国产乱人视频| 88av欧美| 日本一二三区视频观看| 亚洲国产精品久久男人天堂| 国产乱人伦免费视频| 精品人妻1区二区| 国产亚洲欧美在线一区二区| 非洲黑人性xxxx精品又粗又长| 久久人妻av系列| 岛国在线观看网站| 在线观看一区二区三区| 男女视频在线观看网站免费| 女人被狂操c到高潮| 成人精品一区二区免费| 此物有八面人人有两片| 国产三级黄色录像| 国产淫片久久久久久久久 | 亚洲人与动物交配视频| 午夜久久久久精精品| 精品福利观看| 草草在线视频免费看| 亚洲七黄色美女视频| 夜夜夜夜夜久久久久| 午夜日韩欧美国产| 久久人人精品亚洲av| 欧美一区二区国产精品久久精品| 成人av在线播放网站| 淫妇啪啪啪对白视频| 国产精品久久久久久久电影 | 精品国内亚洲2022精品成人| 久久久久久九九精品二区国产| 亚洲av美国av| 毛片女人毛片| 淫妇啪啪啪对白视频| 精品国产超薄肉色丝袜足j| 午夜免费成人在线视频| 久久久久久九九精品二区国产| 黑人欧美特级aaaaaa片| 成人欧美大片| 国产精品1区2区在线观看.| 一进一出抽搐gif免费好疼| 日本与韩国留学比较| 老汉色av国产亚洲站长工具| 欧美成人a在线观看| 欧美中文日本在线观看视频| 脱女人内裤的视频| 又紧又爽又黄一区二区| 神马国产精品三级电影在线观看| 午夜福利欧美成人| 99精品欧美一区二区三区四区| 高清日韩中文字幕在线| 中文字幕人妻丝袜一区二区| 亚洲国产欧美人成| 国产一区二区在线av高清观看| 免费人成视频x8x8入口观看| 啪啪无遮挡十八禁网站| 男插女下体视频免费在线播放| 一本一本综合久久| 91麻豆精品激情在线观看国产| 有码 亚洲区| 亚洲av第一区精品v没综合| 亚洲一区高清亚洲精品| 国语自产精品视频在线第100页| 一区福利在线观看| 日本一二三区视频观看| 中文字幕高清在线视频| 91av网一区二区| 国产伦人伦偷精品视频| 国产精品永久免费网站| 亚洲电影在线观看av| 美女高潮喷水抽搐中文字幕| 黄色片一级片一级黄色片| 欧美一级a爱片免费观看看| 不卡一级毛片| 国产一区二区三区在线臀色熟女| 精品日产1卡2卡| 岛国在线观看网站| 国产成年人精品一区二区| 毛片女人毛片| 丁香六月欧美| 一级a爱片免费观看的视频| 欧美zozozo另类| 亚洲国产中文字幕在线视频| 成人特级黄色片久久久久久久| 欧美黑人欧美精品刺激| 欧美日韩一级在线毛片| 国产探花极品一区二区| 少妇丰满av| 欧美黑人巨大hd| 国产精品永久免费网站| 12—13女人毛片做爰片一| 19禁男女啪啪无遮挡网站| 亚洲成人久久爱视频| 国产亚洲精品综合一区在线观看| 少妇丰满av| 色精品久久人妻99蜜桃| 成人欧美大片| 五月伊人婷婷丁香| 久久九九热精品免费| 怎么达到女性高潮| 午夜福利在线在线| 我要搜黄色片| 国产中年淑女户外野战色| 久久久久久久午夜电影| 久久婷婷人人爽人人干人人爱| 热99在线观看视频| 90打野战视频偷拍视频| 老鸭窝网址在线观看| 嫩草影院入口| 在线观看日韩欧美| 99久国产av精品| 亚洲在线自拍视频| 亚洲午夜理论影院| 麻豆成人av在线观看| 大型黄色视频在线免费观看| 97人妻精品一区二区三区麻豆| 五月玫瑰六月丁香| 91在线精品国自产拍蜜月 | 欧美乱码精品一区二区三区| 国产乱人伦免费视频| 久久久久久九九精品二区国产| 久久婷婷人人爽人人干人人爱| 久久亚洲真实| 可以在线观看毛片的网站| 99国产极品粉嫩在线观看| 亚洲av一区综合| 亚洲久久久久久中文字幕| 日韩中文字幕欧美一区二区| 俄罗斯特黄特色一大片| 特大巨黑吊av在线直播| 欧美三级亚洲精品| 香蕉丝袜av| 一卡2卡三卡四卡精品乱码亚洲| 精品福利观看| 丰满乱子伦码专区| 丰满人妻熟妇乱又伦精品不卡| 国产午夜福利久久久久久| 欧美日韩中文字幕国产精品一区二区三区| 亚洲国产中文字幕在线视频| 麻豆久久精品国产亚洲av| or卡值多少钱| 国产在视频线在精品| av在线蜜桃| 亚洲狠狠婷婷综合久久图片| www.熟女人妻精品国产| 中文字幕av成人在线电影| 在线观看美女被高潮喷水网站 | 亚洲av成人精品一区久久| 在线观看av片永久免费下载| 搡老妇女老女人老熟妇| 免费人成在线观看视频色| 亚洲精品一区av在线观看| 岛国在线免费视频观看| 免费人成在线观看视频色| 国产午夜精品久久久久久一区二区三区 | 成年人黄色毛片网站| 看片在线看免费视频| 搡老岳熟女国产| 18禁裸乳无遮挡免费网站照片| 脱女人内裤的视频| 婷婷六月久久综合丁香| 老司机午夜十八禁免费视频| 亚洲色图av天堂| 中文字幕人妻丝袜一区二区| 99久国产av精品| 成人特级黄色片久久久久久久| 九九热线精品视视频播放| 成人亚洲精品av一区二区| 精品国产超薄肉色丝袜足j| 久久久精品欧美日韩精品| 熟女少妇亚洲综合色aaa.| 中文亚洲av片在线观看爽| 久久精品综合一区二区三区| 欧美另类亚洲清纯唯美| 又粗又爽又猛毛片免费看| 久久精品影院6| 麻豆成人午夜福利视频| 激情在线观看视频在线高清| 国产成人福利小说| www.熟女人妻精品国产| 亚洲自拍偷在线| 一区二区三区免费毛片| 亚洲一区二区三区不卡视频| 国产高清视频在线观看网站| 亚洲av电影不卡..在线观看| 人人妻,人人澡人人爽秒播| 欧美激情在线99| 国内精品久久久久精免费| 美女高潮喷水抽搐中文字幕| 日本撒尿小便嘘嘘汇集6| 黄色日韩在线| 我要搜黄色片| xxx96com| 在线观看一区二区三区| 18禁黄网站禁片午夜丰满| 免费无遮挡裸体视频| 国产一区二区在线av高清观看| 特大巨黑吊av在线直播| 每晚都被弄得嗷嗷叫到高潮| 亚洲五月天丁香| 一级毛片高清免费大全| 宅男免费午夜| 精品日产1卡2卡| 两个人的视频大全免费| 亚洲黑人精品在线| 在线观看舔阴道视频| 一进一出好大好爽视频| 欧美中文日本在线观看视频| 好男人电影高清在线观看| 久久亚洲真实| 欧美绝顶高潮抽搐喷水| 女生性感内裤真人,穿戴方法视频| 精品日产1卡2卡| 日韩欧美 国产精品| 99国产综合亚洲精品| 蜜桃亚洲精品一区二区三区| 国内精品一区二区在线观看| 国产精品1区2区在线观看.| 在线观看一区二区三区| 夜夜爽天天搞| 首页视频小说图片口味搜索| 日韩大尺度精品在线看网址| 亚洲专区国产一区二区| 人人妻,人人澡人人爽秒播| 99在线人妻在线中文字幕| 国模一区二区三区四区视频| 欧美另类亚洲清纯唯美| 国产伦一二天堂av在线观看| 亚洲 国产 在线| 88av欧美| 免费看十八禁软件| 精品午夜福利视频在线观看一区| 午夜视频国产福利| 一区二区三区激情视频| 国产欧美日韩精品亚洲av| 美女高潮的动态| 国内精品美女久久久久久| 69人妻影院| 高潮久久久久久久久久久不卡| 国产一区二区在线观看日韩 | h日本视频在线播放| 国产国拍精品亚洲av在线观看 | 99国产极品粉嫩在线观看| 性色avwww在线观看| 国产午夜精品论理片| 老汉色av国产亚洲站长工具| 国产aⅴ精品一区二区三区波| 2021天堂中文幕一二区在线观| 久久九九热精品免费| 国产精品国产高清国产av| 久久久久久大精品| 脱女人内裤的视频| 美女高潮喷水抽搐中文字幕| 精品久久久久久久久久久久久| 国产三级在线视频| 国产麻豆成人av免费视频| 国产老妇女一区| 免费大片18禁| 看黄色毛片网站| 久久久久久久久大av| www国产在线视频色| 日韩欧美 国产精品| 亚洲精华国产精华精| 国内精品久久久久精免费| 在线观看一区二区三区| 久久精品国产99精品国产亚洲性色| 一区二区三区高清视频在线| 青草久久国产| 国产视频一区二区在线看| 亚洲av一区综合| 窝窝影院91人妻| 欧美午夜高清在线| 亚洲久久久久久中文字幕| av中文乱码字幕在线| 亚洲欧美日韩高清专用| 黄色成人免费大全| 免费人成视频x8x8入口观看| 欧美绝顶高潮抽搐喷水| 极品教师在线免费播放| 国产激情欧美一区二区| 欧美黑人欧美精品刺激| 国产 一区 欧美 日韩| av国产免费在线观看| 午夜激情欧美在线| 一进一出抽搐gif免费好疼| 一边摸一边抽搐一进一小说| 日韩国内少妇激情av| 九色成人免费人妻av| 精品久久久久久久久久久久久| 亚洲精品日韩av片在线观看 | 精品国产亚洲在线| 高清毛片免费观看视频网站| 亚洲av五月六月丁香网| 亚洲欧美日韩卡通动漫| 在线十欧美十亚洲十日本专区| 一个人免费在线观看的高清视频| 国产探花在线观看一区二区| 国产成年人精品一区二区| 国产久久久一区二区三区| 在线视频色国产色| 国产视频内射| 日韩欧美国产一区二区入口| 热99re8久久精品国产| 成年女人看的毛片在线观看| 免费观看的影片在线观看| 欧美日韩精品网址| 亚洲av熟女| 亚洲无线观看免费| 国产一区二区在线av高清观看| 久久国产精品人妻蜜桃| 国产高清激情床上av| 国产精品亚洲av一区麻豆| 日本免费一区二区三区高清不卡| 成人性生交大片免费视频hd| 色哟哟哟哟哟哟| 性色avwww在线观看| 婷婷亚洲欧美| 日韩av在线大香蕉| 又黄又爽又免费观看的视频| 日本a在线网址| 亚洲国产欧美网| 国产成人福利小说| 日日摸夜夜添夜夜添小说| 中文字幕人妻丝袜一区二区| 亚洲在线观看片| 色综合亚洲欧美另类图片| 欧美成人免费av一区二区三区| 亚洲乱码一区二区免费版| 可以在线观看的亚洲视频| 久久精品91蜜桃| 午夜老司机福利剧场| 精品福利观看| 久久精品91无色码中文字幕| 精品不卡国产一区二区三区| 免费看十八禁软件| 熟女电影av网| 嫁个100分男人电影在线观看| 成年版毛片免费区| 亚洲五月天丁香| 精品福利观看| 免费人成视频x8x8入口观看| 黄色日韩在线| 久久久久国内视频| 一区二区三区激情视频| 给我免费播放毛片高清在线观看| 麻豆久久精品国产亚洲av| 69人妻影院| 免费人成在线观看视频色| 国产日本99.免费观看| 香蕉久久夜色| 国产一区二区在线观看日韩 | 精品无人区乱码1区二区| 国产伦精品一区二区三区视频9 | 男人和女人高潮做爰伦理| 国产aⅴ精品一区二区三区波| 亚洲一区二区三区色噜噜| 琪琪午夜伦伦电影理论片6080| 成年女人毛片免费观看观看9| 成人高潮视频无遮挡免费网站| 久久亚洲精品不卡| 国产淫片久久久久久久久 | 免费在线观看亚洲国产| 淫妇啪啪啪对白视频| 日本五十路高清| 69人妻影院| 亚洲欧美日韩高清在线视频| 免费无遮挡裸体视频| 国产真人三级小视频在线观看| 色播亚洲综合网| 欧洲精品卡2卡3卡4卡5卡区| 3wmmmm亚洲av在线观看| 色av中文字幕| 精品国产三级普通话版| 在线播放国产精品三级| 色综合亚洲欧美另类图片| 国产精品永久免费网站| 丰满人妻一区二区三区视频av | 九九在线视频观看精品| 国产精品日韩av在线免费观看| 97超级碰碰碰精品色视频在线观看| 欧美+日韩+精品| 九九在线视频观看精品| 香蕉av资源在线| 女警被强在线播放| 嫩草影视91久久| 在线免费观看不下载黄p国产 | 日本成人三级电影网站| 午夜福利视频1000在线观看| 我的老师免费观看完整版| 别揉我奶头~嗯~啊~动态视频| 老汉色∧v一级毛片| 日韩亚洲欧美综合| 又粗又爽又猛毛片免费看| 热99re8久久精品国产| 嫩草影视91久久| aaaaa片日本免费| 亚洲精品在线观看二区| 国产亚洲欧美98| 国产野战对白在线观看| 亚洲欧美精品综合久久99| 国产男靠女视频免费网站| 很黄的视频免费| 村上凉子中文字幕在线| 一卡2卡三卡四卡精品乱码亚洲| 热99在线观看视频| 久久人妻av系列| 国产成年人精品一区二区| 精品一区二区三区av网在线观看| 有码 亚洲区| 波多野结衣巨乳人妻| 黄色视频,在线免费观看| 欧美乱色亚洲激情| 久久久久久久精品吃奶| 欧美日韩综合久久久久久 | 国产91精品成人一区二区三区| 尤物成人国产欧美一区二区三区| 高清日韩中文字幕在线| 精品国内亚洲2022精品成人| or卡值多少钱| 亚洲欧美日韩东京热| 久久亚洲真实| 亚洲精品在线美女| 别揉我奶头~嗯~啊~动态视频| 嫩草影视91久久| 夜夜夜夜夜久久久久| 97人妻精品一区二区三区麻豆| 精品99又大又爽又粗少妇毛片 | 精品久久久久久,| 老司机午夜福利在线观看视频| eeuss影院久久| 欧美国产日韩亚洲一区| 他把我摸到了高潮在线观看| 亚洲在线自拍视频| 久久久国产精品麻豆| 国产熟女xx| 最近最新中文字幕大全免费视频| 欧美日韩综合久久久久久 | 亚洲,欧美精品.| 怎么达到女性高潮| 天天添夜夜摸| 在线十欧美十亚洲十日本专区| 男女视频在线观看网站免费| 欧美日韩黄片免| 51国产日韩欧美| 2021天堂中文幕一二区在线观| 特大巨黑吊av在线直播| 国产精品一及| 国产激情偷乱视频一区二区| 亚洲狠狠婷婷综合久久图片| 成人高潮视频无遮挡免费网站| 最近最新免费中文字幕在线| av在线蜜桃| x7x7x7水蜜桃| 男人舔女人下体高潮全视频| 黑人欧美特级aaaaaa片| 欧美一区二区国产精品久久精品| 欧美日韩国产亚洲二区| 日日干狠狠操夜夜爽| 成年版毛片免费区| 国产亚洲av嫩草精品影院| 精品人妻偷拍中文字幕| 老司机午夜福利在线观看视频| 九九久久精品国产亚洲av麻豆| 日本一本二区三区精品| a级毛片a级免费在线| 日韩国内少妇激情av| 欧美xxxx黑人xx丫x性爽| 亚洲精品在线美女| 国产中年淑女户外野战色| 亚洲成人中文字幕在线播放| 制服人妻中文乱码| 丰满乱子伦码专区| 欧美精品啪啪一区二区三区| 美女cb高潮喷水在线观看| 在线观看av片永久免费下载| 亚洲第一欧美日韩一区二区三区| 国产伦精品一区二区三区视频9 | 午夜a级毛片| 99热这里只有是精品50| 国产精品自产拍在线观看55亚洲| 老司机在亚洲福利影院| 欧美色视频一区免费| 女人高潮潮喷娇喘18禁视频| 99热这里只有精品一区| 一二三四社区在线视频社区8| netflix在线观看网站| 欧美激情在线99| 亚洲电影在线观看av| 少妇人妻精品综合一区二区 | 一进一出好大好爽视频| 免费一级毛片在线播放高清视频| 91在线精品国自产拍蜜月 | 无人区码免费观看不卡| avwww免费| 大又大粗又爽又黄少妇毛片口| 亚洲av电影在线观看一区二区三区 | 亚洲国产日韩欧美精品在线观看| 日日摸夜夜添夜夜爱| 国产午夜福利久久久久久| 日韩一区二区三区影片| 国产精品久久久久久精品电影| 秋霞伦理黄片| 一区二区三区四区激情视频| 亚洲av日韩在线播放| 美女高潮的动态| 日本wwww免费看| 成年女人在线观看亚洲视频 | 免费av毛片视频| 欧美97在线视频| 欧美日韩视频高清一区二区三区二| 国产高清不卡午夜福利| 亚洲精品第二区| 精品国产三级普通话版| 可以在线观看毛片的网站| 啦啦啦中文免费视频观看日本| 午夜福利在线观看免费完整高清在| 久久99热6这里只有精品| 美女国产视频在线观看| 国产色爽女视频免费观看| 有码 亚洲区| 99久久精品一区二区三区| 又粗又硬又长又爽又黄的视频| 精品久久久噜噜| 国产成人精品婷婷| 黄色欧美视频在线观看| 亚洲国产精品专区欧美| 国产91av在线免费观看| 亚洲国产精品sss在线观看| 久久精品久久久久久久性| 国产真实伦视频高清在线观看| 国产中年淑女户外野战色| 成年女人看的毛片在线观看| 国产精品久久视频播放| .国产精品久久| 成人无遮挡网站| 国产有黄有色有爽视频| 禁无遮挡网站| 国产免费福利视频在线观看| 日本欧美国产在线视频| 午夜福利在线观看免费完整高清在| 99久久精品国产国产毛片| 欧美日韩一区二区视频在线观看视频在线 | 国产精品久久久久久久电影| 99久国产av精品国产电影| 亚洲av日韩在线播放| 午夜爱爱视频在线播放| 久久精品人妻少妇| 色视频www国产| 欧美日韩精品成人综合77777| 99热这里只有精品一区| 久久精品久久久久久噜噜老黄| 国产成人精品一,二区| 国产黄色小视频在线观看| 亚洲av日韩在线播放| 国产v大片淫在线免费观看| 国产亚洲91精品色在线| 久久久久国产网址| 成人av在线播放网站| 亚洲欧美成人综合另类久久久| 成人午夜精彩视频在线观看| 天天躁日日操中文字幕| 汤姆久久久久久久影院中文字幕 | 国产午夜精品久久久久久一区二区三区| 观看免费一级毛片| 观看美女的网站| 国产女主播在线喷水免费视频网站 | 亚洲欧美一区二区三区黑人 | eeuss影院久久| 99久久精品一区二区三区| 六月丁香七月| 亚洲真实伦在线观看| 最近最新中文字幕大全电影3| 日本免费a在线| 三级国产精品欧美在线观看| 中文字幕亚洲精品专区| 色综合站精品国产| 黄色日韩在线| 国产视频内射| 国产精品人妻久久久影院| 九草在线视频观看| 欧美xxxx性猛交bbbb| 免费av毛片视频| 亚洲性久久影院| 麻豆成人午夜福利视频| 久久这里只有精品中国| 免费av观看视频| 春色校园在线视频观看| 日本午夜av视频| 成人午夜精彩视频在线观看| 97热精品久久久久久| 亚洲欧美日韩无卡精品| 国产免费又黄又爽又色| av卡一久久| 老女人水多毛片| 一级a做视频免费观看| 大香蕉久久网| 久久精品国产亚洲网站| 爱豆传媒免费全集在线观看| 色综合色国产| 少妇熟女欧美另类| 亚洲av福利一区| 欧美不卡视频在线免费观看| 欧美xxxx性猛交bbbb| 我的女老师完整版在线观看| 天天一区二区日本电影三级| 狂野欧美白嫩少妇大欣赏| 99久久中文字幕三级久久日本| 免费看光身美女| 国产麻豆成人av免费视频| 日韩大片免费观看网站| 国内精品一区二区在线观看| 亚洲精品成人av观看孕妇| 日韩三级伦理在线观看| 岛国毛片在线播放|