• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向多模態(tài)自監(jiān)督特征融合的音視頻對(duì)抗對(duì)比學(xué)習(xí)

    2023-02-18 06:32:56盛振濤陳雁翔齊國(guó)君
    關(guān)鍵詞:對(duì)抗性音視頻級(jí)別

    盛振濤,陳雁翔*,齊國(guó)君

    1.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,合肥 230601;2.智能互聯(lián)系統(tǒng)安徽省實(shí)驗(yàn)室(合肥工業(yè)大學(xué)), 合肥 230601;3.機(jī)器感知與學(xué)習(xí)實(shí)驗(yàn)室(美國(guó)中佛羅里達(dá)大學(xué)), 美國(guó)奧蘭多 32816

    0 引 言

    在自然界中,音頻和視覺(jué)事件往往同時(shí)發(fā)生:當(dāng)說(shuō)話時(shí),嘴唇會(huì)同時(shí)動(dòng)作;當(dāng)飛機(jī)低空掠過(guò)時(shí),飛機(jī)會(huì)同時(shí)發(fā)出噪聲;當(dāng)切菜時(shí),刀與案板碰撞會(huì)發(fā)出聲音。由于自然界中音視頻信息具有時(shí)間同步性,因此人類在感知自然界的過(guò)程中,聽覺(jué)系統(tǒng)和視覺(jué)系統(tǒng)往往協(xié)同工作來(lái)采集音視頻信息,然后由大腦中樞系統(tǒng)融合處理音視頻信息,最終人類形成了對(duì)外界的認(rèn)知。在感知研究中,已有大量文獻(xiàn)(Shams 和 Kim,2010;Heffner 和 Heffner,1992;Risto,1992)提供了實(shí)驗(yàn)證據(jù),表明人在理解動(dòng)態(tài)事件時(shí)不僅依靠視覺(jué)系統(tǒng),還需要聽覺(jué)系統(tǒng)的輔助,如果一個(gè)人的聽覺(jué)功能受到影響,那么他對(duì)視覺(jué)事件的敏感度會(huì)降低(Myklebust,1960)。因此,相比于單從聽覺(jué)事件或者視覺(jué)事件中提取到的特征,從音視頻事件中可以提取到的特征包含更加豐富的信息。

    對(duì)比學(xué)習(xí)是一種自監(jiān)督表示學(xué)習(xí),它使用對(duì)比損失(van den Oord 等,2018)衡量表示空間中樣本對(duì)之間的相似性。在計(jì)算機(jī)視覺(jué)領(lǐng)域,傳統(tǒng)的對(duì)比學(xué)習(xí)通過(guò)衡量樣本之間的互信息(Hénaff,2020;Hadsell等,2016;Hjelm等,2019;Zhuang等,2019;van den Oord等,2018)來(lái)學(xué)習(xí)數(shù)據(jù)特征。Chen等人(2020)將對(duì)比學(xué)習(xí)應(yīng)用到計(jì)算機(jī)視覺(jué)領(lǐng)域,提出可以對(duì)圖像進(jìn)行增強(qiáng)編碼,讓同一幅圖的不同增強(qiáng)視圖相互靠近,不同圖像的增強(qiáng)視圖相互遠(yuǎn)離。對(duì)比學(xué)習(xí)需要從負(fù)樣本空間中抽取負(fù)樣本,如何構(gòu)建負(fù)樣本空間是一個(gè)關(guān)鍵的問(wèn)題。為了良好地對(duì)比學(xué)習(xí)質(zhì)量,構(gòu)建負(fù)樣本空間的原則是足夠大且具有連續(xù)性(He 等,2020)。在計(jì)算機(jī)視覺(jué)領(lǐng)域,許多工作(Hu 等,2021;He 等,2020;Li 等,2021;Ho 和 Vasconcelos,2020;Kalantidis 等,2020)專注于視覺(jué)負(fù)樣本空間的構(gòu)造。Wu 等人(2018)提出可以維護(hù)一個(gè)包含所有訓(xùn)練樣本的存儲(chǔ)庫(kù);He 等人(2020)提出可以構(gòu)建一個(gè)帶有隊(duì)列和移動(dòng)平均編碼器的動(dòng)態(tài)負(fù)樣本字典,既保證了負(fù)樣本空間規(guī)模性和連續(xù)性,又減少了內(nèi)存占用;Li 等人(2021)、Kalantidis 等人(2020)提出可以通過(guò)聚類等手段尋找更加有效的負(fù)樣本,增強(qiáng)負(fù)樣本空間的有效性;Hu 等人(2021)、Ho 和 Vasconcelos(2020)提出引入對(duì)抗性負(fù)樣本的想法,可以有效地使負(fù)樣本空間覆蓋到具有挑戰(zhàn)性的訓(xùn)練樣本,提高對(duì)比學(xué)習(xí)質(zhì)量。但是上述工作提出的對(duì)負(fù)樣本空間的改進(jìn)措施都聚焦于視覺(jué)單一模態(tài),沒(méi)有考慮到對(duì)比學(xué)習(xí)在音視頻多模態(tài)領(lǐng)域的應(yīng)用。相比于上述單一視覺(jué)模態(tài)下的對(duì)比學(xué)習(xí),音視頻跨模態(tài)對(duì)比學(xué)習(xí)可以使用不同的音視頻視圖進(jìn)行對(duì)比學(xué)習(xí),從而學(xué)習(xí)到信息更加豐富的音視頻信息(Morgado 等,2021b;Owens 和 Efros,2018)。

    本文針對(duì)音視頻多模態(tài)下的對(duì)比空間負(fù)樣本空間的構(gòu)建問(wèn)題,提出了面向多模態(tài)自監(jiān)督特征融合的音視頻對(duì)抗對(duì)比學(xué)習(xí)方法,如圖1所示。在圖1左側(cè),首先將視覺(jué)片段和音頻片段進(jìn)行增強(qiáng)編碼,分別得到視覺(jué)特征向量和聽覺(jué)特征向量。對(duì)同一片段再次進(jìn)行增強(qiáng)編碼,可以得到對(duì)應(yīng)的正樣本。在圖1中間部分,展示了音視頻跨模態(tài)對(duì)抗對(duì)比學(xué)習(xí)的訓(xùn)練流程。

    首先,如圖1中間左側(cè)下方所示,使用標(biāo)準(zhǔn)正態(tài)分布來(lái)生成視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本集合,從而構(gòu)建了音視頻負(fù)樣本空間。定義視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本數(shù)量均為65 536,確保了音視頻負(fù)樣本空間的規(guī)模性。其次,在圖1中間的上半部分表示了音視頻模態(tài)間的對(duì)抗對(duì)比學(xué)習(xí),以左上的視覺(jué)特征向量為例,將其和對(duì)應(yīng)的同一音頻片段的在不同增強(qiáng)視圖下的聽覺(jué)特征向量作為正樣本對(duì)(圖1中間的左上方的相對(duì)箭頭兩側(cè)),而聽覺(jué)對(duì)抗性負(fù)樣本構(gòu)成了負(fù)樣本空間。在模態(tài)間對(duì)比學(xué)習(xí)的過(guò)程中,視覺(jué)特征向量要靠近聽覺(jué)正樣本,同時(shí)遠(yuǎn)離聽覺(jué)對(duì)抗性負(fù)樣本。然后,聽覺(jué)對(duì)抗性負(fù)樣本進(jìn)行模態(tài)間對(duì)抗更新,使得自身更加接近視覺(jué)特征向量,增加對(duì)比學(xué)習(xí)的難度。以聽覺(jué)特征向量為核心的模態(tài)間對(duì)抗對(duì)比學(xué)習(xí)流程也是如此。

    與此同時(shí),如果僅有圖1中間的上半部分的音視頻模態(tài)間對(duì)抗對(duì)比學(xué)習(xí),那么實(shí)際上模型就退化為了單一模態(tài)的對(duì)抗對(duì)比學(xué)習(xí),這是因?yàn)橐曈X(jué)和聽覺(jué)對(duì)抗性負(fù)樣本初始化時(shí)為標(biāo)準(zhǔn)正態(tài)分布,不包含任何自身模態(tài)的信息。為此,如圖1中間的下半部分,增加了音視頻模態(tài)內(nèi)的對(duì)抗對(duì)比學(xué)習(xí)。以圖1右下的視覺(jué)特征向量為例,將其和對(duì)應(yīng)的同一視覺(jué)片段的在不同增強(qiáng)視圖下的視覺(jué)特征向量作為正樣本對(duì),而視覺(jué)對(duì)抗性負(fù)樣本構(gòu)成了負(fù)樣本空間。在模態(tài)內(nèi)對(duì)比學(xué)習(xí)的過(guò)程中,視覺(jué)特征向量靠近視覺(jué)正樣本,同時(shí)遠(yuǎn)離視覺(jué)對(duì)抗性負(fù)樣本。接著,視覺(jué)對(duì)抗性負(fù)樣本進(jìn)行對(duì)抗更新,使得自身更加接近視覺(jué)特征向量,增加對(duì)比學(xué)習(xí)的難度。圖1左下聽覺(jué)特征向量對(duì)應(yīng)的模態(tài)內(nèi)對(duì)抗對(duì)比學(xué)習(xí)流程也是如此。

    最終,視覺(jué)和聽覺(jué)特征向量既包含了模態(tài)間信息,也包含了自身模態(tài)的信息。其融合了視聽覺(jué)信息,可以更好地指導(dǎo)圖1右側(cè)的下游任務(wù),提升準(zhǔn)確率。1.2節(jié)的數(shù)學(xué)推導(dǎo)證明了對(duì)抗性負(fù)樣本可以不斷地跟蹤音視頻訓(xùn)練樣本中難以區(qū)分的樣本,從而提高對(duì)比學(xué)習(xí)質(zhì)量。

    圖1 面向多模態(tài)自監(jiān)督特征融合的音視頻對(duì)抗對(duì)比學(xué)習(xí)方法方法示意圖

    本文定義了一個(gè)視聽覺(jué)對(duì)抗性負(fù)樣本集合,以此來(lái)代替原有的視覺(jué)對(duì)抗性負(fù)樣本集合和聽覺(jué)對(duì)抗性負(fù)樣本集合。這一改進(jìn)簡(jiǎn)化了框架,降低了框架的復(fù)雜度,1.3節(jié)的數(shù)學(xué)推導(dǎo)和2.3.1節(jié)的消融實(shí)驗(yàn)證明了這一簡(jiǎn)化措施的等價(jià)性和有效性。

    音視頻多模態(tài)自監(jiān)督學(xué)習(xí)的目的是通過(guò)預(yù)訓(xùn)練得到融合音視頻信息的特征表示,其通過(guò)微調(diào)可以遷移到不同下游任務(wù)上。對(duì)于提出的面向多模態(tài)自監(jiān)督特征融合的音視頻對(duì)抗對(duì)比學(xué)習(xí)方法,選取Kinetics-400(Kay 等,2017)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,選取動(dòng)作識(shí)別和音頻分類下游任務(wù),分別評(píng)估了訓(xùn)練得到的包含聽覺(jué)信息的視覺(jué)特征表示和包含視覺(jué)信息的聽覺(jué)特征表示。實(shí)驗(yàn)從定性和定量的角度表明,該方法可以很好地融合音視頻特征,在動(dòng)作識(shí)別和音頻分類下游任務(wù)上與其他音視頻跨模態(tài)自監(jiān)督學(xué)習(xí)方法相比取得了具有競(jìng)爭(zhēng)性的結(jié)果。

    綜上所述,本文的貢獻(xiàn)在于:

    1)提出了面向多模態(tài)自監(jiān)督特征融合的音視頻對(duì)抗對(duì)比學(xué)習(xí)方法,創(chuàng)新性地引入了視覺(jué)、聽覺(jué)對(duì)抗性負(fù)樣本集合來(lái)構(gòu)建音視頻負(fù)樣本空間;

    2)構(gòu)建了音視頻模態(tài)間與模態(tài)內(nèi)對(duì)抗對(duì)比的聯(lián)合學(xué)習(xí)模式,并證明了視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本可以有效跟蹤訓(xùn)練樣本中難以區(qū)分的樣本,從而提高了音視頻特征融合質(zhì)量;

    3)進(jìn)一步提出了音視頻對(duì)抗對(duì)比學(xué)習(xí)簡(jiǎn)化框架,在減少一半視聽覺(jué)對(duì)抗性負(fù)樣本的同時(shí)保證了本文方法的精度。

    1 面向多模態(tài)自監(jiān)督特征融合的音視頻對(duì)抗對(duì)比學(xué)習(xí)

    面向多模態(tài)自監(jiān)督特征融合的音視頻對(duì)抗對(duì)比學(xué)習(xí)方法引入了視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本,從而構(gòu)建了一個(gè)更加高效的音視頻跨模態(tài)負(fù)樣本空間,增強(qiáng)了音視頻跨模態(tài)對(duì)比學(xué)習(xí)的學(xué)習(xí)質(zhì)量。

    1.1 音視頻對(duì)抗對(duì)比學(xué)習(xí)框架

    圖2 音視頻對(duì)抗對(duì)比學(xué)習(xí)框架

    本文采用了經(jīng)典的InfoNCE對(duì)比損失函數(shù)(van den Oord 等,2018),具體為

    LInfoNCE(X,X′,R)=

    (1)

    綜上所述,一方面,通過(guò)音視頻編碼器將視覺(jué)片段和音頻片段投影到特征空間,得到視覺(jué)正樣本對(duì)和聽覺(jué)正樣本對(duì);另一方面,定義視覺(jué)對(duì)抗性負(fù)樣本集合和聽覺(jué)對(duì)抗性負(fù)樣本集合。由于集合中的每個(gè)對(duì)抗性負(fù)樣本都是可梯度更新的,相當(dāng)于在每個(gè)對(duì)抗性負(fù)樣本后都添加了全連接層。初始狀態(tài)下,全連接層的可梯度更新的參數(shù)矩陣為單位矩陣(矩陣行寬和列寬均為向量長(zhǎng)度)?;谝粢曨l正樣本對(duì)和視聽覺(jué)對(duì)抗性負(fù)樣本集合,計(jì)算得到模態(tài)間與模態(tài)內(nèi)對(duì)比損失函數(shù)。

    因?yàn)橐曈X(jué)對(duì)抗性負(fù)樣本集合Rv和聽覺(jué)對(duì)抗性負(fù)樣本集合Ra初始化為正態(tài)分布,所以其本身不包含音視頻信息。如果僅僅定義模態(tài)內(nèi)損失函數(shù)或模態(tài)間損失函數(shù),那么就僅能學(xué)習(xí)到對(duì)應(yīng)模態(tài)的特征,而無(wú)法學(xué)習(xí)到音視頻跨模態(tài)特征,從而退化為單一模態(tài)下的對(duì)抗對(duì)比學(xué)習(xí)。因此,定義了聯(lián)合對(duì)比損失函數(shù)LJoint,具體為

    LJoint=LCross+LIn

    (2)

    LCross=LInfoNCE(Xv,X′a,Ra)+

    LInfoNCE(Xa,X′v,Rv)

    (3)

    LIn=LInfoNCE(Xv,X′v,Rv)+

    LInfoNCE(Xa,X′a,Ra)

    (4)

    式中,LIn為音視頻模態(tài)內(nèi)的對(duì)比損失函數(shù),LCross為音視頻模態(tài)間的對(duì)比損失函數(shù)。這一聯(lián)合損失的形式與圖2右側(cè)一致。在圖2中,對(duì)比損失函數(shù)LInfoNCE(Xv,X′a,Ra)簡(jiǎn)寫為L(zhǎng)ossva,其他3個(gè)損失函數(shù)亦然。在1.2節(jié)中,證明了通過(guò)對(duì)抗對(duì)比學(xué)習(xí)優(yōu)化聯(lián)合對(duì)比損失函數(shù)LJoint(式(2)),視覺(jué)對(duì)抗性負(fù)樣本集合Rv和聽覺(jué)對(duì)抗性負(fù)樣本集合Ra不僅跟蹤了模態(tài)內(nèi)難以區(qū)分的特征樣本,同時(shí)也跟蹤了模態(tài)間的難以區(qū)分的特征樣本。

    1.2 音視頻對(duì)抗對(duì)比學(xué)習(xí)梯度分析

    根據(jù)定義的聯(lián)合對(duì)比損失函數(shù)LJoint(式(2))可以看到,存在著兩個(gè)可訓(xùn)練的主體:音視頻查詢編碼器fvq和faq以及視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本集合Rv和Ra。不僅沿著聯(lián)合對(duì)比損失函數(shù)LJoint最小化方向更新音視頻查詢編碼器fvq的參數(shù)θv和faq的參數(shù)θa,還沿著聯(lián)合對(duì)比損失函數(shù)LJoint最大化方向更新視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本集合Rv和Ra。因此,聯(lián)合對(duì)比損失函數(shù)LJoint的優(yōu)化問(wèn)題變成了一個(gè)最大最小化問(wèn)題,即

    (5)

    (6)

    (7)

    (8)

    (9)

    (10)

    1.3 音視頻對(duì)抗對(duì)比學(xué)習(xí)框架的簡(jiǎn)化

    (11)

    (12)

    2 實(shí)驗(yàn)及結(jié)果分析

    為了評(píng)估性能,首先進(jìn)行預(yù)訓(xùn)練,然后在動(dòng)作識(shí)別和音頻分類下游任務(wù)上進(jìn)行遷移學(xué)習(xí),最后分別進(jìn)行定性和定量評(píng)估。音視頻對(duì)應(yīng)和音視頻實(shí)例判別是音視頻跨模態(tài)自監(jiān)督學(xué)習(xí)領(lǐng)域具有代表性的方法,分別與它們進(jìn)行實(shí)驗(yàn)對(duì)比。對(duì)抗對(duì)比學(xué)習(xí)(adversarial contrast,AdCo)是一種視覺(jué)模態(tài)下的自監(jiān)督表示學(xué)習(xí)方法。將其作為比較方法,體現(xiàn)音視頻特征融合的有效性。音視頻對(duì)應(yīng)(audio visual corresponding,AVC)是一個(gè)二元分類任務(wù):給定一個(gè)視覺(jué)片段和一個(gè)音頻片段,判斷它們是否對(duì)應(yīng),其中正對(duì)來(lái)源于同一個(gè)視頻,負(fù)對(duì)來(lái)源于不同視頻。音視頻實(shí)例判別學(xué)習(xí)則采用對(duì)比學(xué)習(xí),將一個(gè)視覺(jué)片段與多個(gè)音頻片段進(jìn)行對(duì)比,同時(shí)將一個(gè)音頻片段與多個(gè)視覺(jué)片段進(jìn)行對(duì)比。其中正對(duì)來(lái)源于視頻中時(shí)間同步對(duì)應(yīng)的音視頻片段,負(fù)樣本既可能來(lái)源于同一視頻的不同時(shí)間點(diǎn)的片段,也有可能來(lái)源于不同視頻的片段。因此,音視頻實(shí)例判別中包含了音視頻對(duì)應(yīng)和音視頻時(shí)間同步這兩個(gè)隱含約束條件。音視頻實(shí)例判別學(xué)習(xí)存在3種變體,分別是模態(tài)間實(shí)例判別學(xué)習(xí)(self-audio visual instance discrimination)、聯(lián)合模態(tài)實(shí)例判別學(xué)習(xí)(joint-audio visual instance discrimination)和跨模態(tài)音視頻實(shí)例判別學(xué)習(xí)(cross-audio visual instance discrimination,Cross-AVID)。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,跨模態(tài)音視頻實(shí)例判別學(xué)習(xí)在3種變體中達(dá)到了最優(yōu)效果(Morgado 等,2021b),因此本文采用跨模態(tài)音視頻實(shí)例判別學(xué)習(xí)(Cross-AVID)作為比較方法。為了公平比較,采用與本文方法相同的架構(gòu)和優(yōu)化設(shè)置重新實(shí)施上述方法。

    2.1 實(shí)驗(yàn)設(shè)置

    2.1.1 數(shù)據(jù)集選取

    采用Kinetics-400K(Kay 等,2017)的子集Kinetics-100K(Morgado 等,2021b)進(jìn)行音視頻對(duì)抗對(duì)比學(xué)習(xí)預(yù)訓(xùn)練。Kinetics-400數(shù)據(jù)集包括了240 K的持續(xù)時(shí)間大約為10 s的視頻,涵蓋了400類人類動(dòng)作,例如演奏樂(lè)器、握手或者擁抱等。在預(yù)訓(xùn)練時(shí),僅使用自監(jiān)督學(xué)習(xí)方法提取Kinetics-400數(shù)據(jù)集中的音視頻信息,而不使用標(biāo)簽信息。

    針對(duì)下游動(dòng)作識(shí)別任務(wù),選取了UCF-101數(shù)據(jù)集(Soomro 等,2012)和HMDB-51(human metabolome database)數(shù)據(jù)集。UCF-101數(shù)據(jù)集包含了13 320個(gè)視頻,涵蓋了101類真實(shí)動(dòng)作,具有動(dòng)作多樣性。UCF-101的視頻在相機(jī)運(yùn)動(dòng)幅度、物體外觀和姿態(tài)、物體尺度、視角、背景和光照條件上都存在較大變化,非常具有挑戰(zhàn)性。HMDB數(shù)據(jù)集(Kuehne等,2011)包含6 849個(gè)剪輯,分為51個(gè)動(dòng)作類別,每個(gè)類別至少包含101個(gè)剪輯。動(dòng)作類別可以分為5種類型:面部表情動(dòng)作、與對(duì)象操縱相關(guān)的嘴部動(dòng)作、肢體運(yùn)動(dòng)、與環(huán)境交互的肢體動(dòng)作以及與人類交互的肢體動(dòng)作。可以看到,HMDB51數(shù)據(jù)集類別之間的相似性高,非常具有挑戰(zhàn)性。本文選取了HMDB-51數(shù)據(jù)集中的20類動(dòng)作進(jìn)行下游動(dòng)作識(shí)別任務(wù)。針對(duì)下游音頻分類任務(wù),采用了ESC50(environmental sound classification)數(shù)據(jù)集(Piczak,2015)。ESC50數(shù)據(jù)集包含有2 000個(gè)環(huán)境錄音,每段錄音長(zhǎng)度為5 s,分為50個(gè)類別,可以作為環(huán)境聲音分類的基準(zhǔn)測(cè)試方法。本文選取了ESC50數(shù)據(jù)集中的25類用做基準(zhǔn)。

    2.1.2 視覺(jué)特征與聽覺(jué)特征的預(yù)處理

    在視覺(jué)處理上,以16 幀/s的幀率隨機(jī)選取一段時(shí)長(zhǎng)為0.5 s的視覺(jué)片段,其中包含了8個(gè)連續(xù)的視頻幀。然后對(duì)選取的視覺(jué)片段進(jìn)行標(biāo)準(zhǔn)的視覺(jué)增強(qiáng)操作(Szegedy 等,2015),包括隨機(jī)裁剪、隨機(jī)水平翻轉(zhuǎn)和色彩調(diào)節(jié)。經(jīng)過(guò)視覺(jué)增強(qiáng)操作,得到8×224×224的視覺(jué)增強(qiáng)視圖對(duì),將其送入到視覺(jué)編碼器組中。在音頻處理上,以24 KHz的音頻采樣頻率選取了與視覺(jué)片段對(duì)應(yīng)的時(shí)長(zhǎng)為2 s的音頻片段。同樣地,對(duì)音頻片段進(jìn)行增強(qiáng)操作,包括隨機(jī)調(diào)整音量、時(shí)間抖動(dòng),并且接著進(jìn)行了短時(shí)傅里葉變換,得到了200×257(200個(gè)時(shí)間步長(zhǎng),257個(gè)頻率點(diǎn))的音頻增強(qiáng)視圖對(duì),將其送入音頻編碼器組中。

    2.1.3 音視頻網(wǎng)絡(luò)架構(gòu)和優(yōu)化設(shè)置

    對(duì)于視覺(jué)模態(tài),選取了2層標(biāo)準(zhǔn)3D卷積神經(jīng)網(wǎng)絡(luò),并在其后添加了3層MLP(multilayer perceptron)層,以此作為視覺(jué)編碼器架構(gòu)。對(duì)于聽覺(jué)模態(tài),選取了2層標(biāo)準(zhǔn)2D卷積神經(jīng)網(wǎng)絡(luò),同樣在其后添加了3層MLP層,以此作為音頻編碼器架構(gòu)。具體架構(gòu)如表1所示。

    表1 音視頻網(wǎng)絡(luò)架構(gòu)

    在表1中,Xs表示視覺(jué)片段中每一幀的空間尺寸,Xn表示視覺(jué)片段的幀數(shù),Cv表示視覺(jué)片段的通道數(shù),Xf表示音頻片段的頻率采樣點(diǎn)數(shù),Xt表示音頻片段的時(shí)間采樣點(diǎn)數(shù),Ca表示音頻片段的通道數(shù)。對(duì)于視覺(jué)片段,采用RGB格式,因此視覺(jué)片段的初始通道數(shù)為3。對(duì)于音頻片段,采用單通道,因此音頻片段的初始通道數(shù)為1。視覺(jué)與聽覺(jué)對(duì)抗性負(fù)樣本集合大小均設(shè)置為65 536。

    Adam優(yōu)化器學(xué)習(xí)率分別設(shè)置為0.011和1.1來(lái)優(yōu)化音視頻編碼器網(wǎng)絡(luò)和視聽覺(jué)對(duì)抗性負(fù)樣本集合。優(yōu)化器權(quán)重衰減值均設(shè)置為0.000 01,動(dòng)量值均設(shè)置為0.9。批處理大小設(shè)置為96,訓(xùn)練總批次設(shè)置為30。訓(xùn)練過(guò)程使用了2塊TITAN Xp型號(hào)的GPU。在訓(xùn)練過(guò)程中,對(duì)于同一個(gè)批次,首先沿對(duì)比損失減小的梯度方向來(lái)更新音視頻編碼器網(wǎng)絡(luò),然后沿對(duì)比損失增大的梯度方向來(lái)更新視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本集合。

    2.2 定性評(píng)估

    2.2.1 預(yù)訓(xùn)練效果的定性評(píng)估

    對(duì)本文方法的預(yù)訓(xùn)練效果進(jìn)行定性評(píng)估。將視覺(jué)編碼器組的視覺(jué)查詢編碼器作為前端,并在其后加上了1層全連接層和1層softmax層來(lái)映射至101類,以此作為下游動(dòng)作識(shí)別的監(jiān)督網(wǎng)絡(luò)。遵循之前的工作(Korbar 等,2018;Tian 等,2020;Han 等,2019)在UCF-101數(shù)據(jù)集上的評(píng)估協(xié)議,網(wǎng)絡(luò)重新整體微調(diào)訓(xùn)練來(lái)進(jìn)行遷移學(xué)習(xí)。與此同時(shí),將視覺(jué)查詢編碼器未經(jīng)預(yù)訓(xùn)練的監(jiān)督網(wǎng)絡(luò)和視覺(jué)查詢編碼器經(jīng)過(guò)Cross-AVID預(yù)訓(xùn)練后的監(jiān)督網(wǎng)絡(luò)設(shè)置為對(duì)照網(wǎng)絡(luò)。

    預(yù)訓(xùn)練參數(shù)在2.1節(jié)已經(jīng)詳細(xì)說(shuō)明,為了進(jìn)行下游遷移學(xué)習(xí),還需要進(jìn)行下游監(jiān)督網(wǎng)絡(luò)的優(yōu)化設(shè)置。仍舊使用Adam優(yōu)化器來(lái)優(yōu)化網(wǎng)絡(luò)。為了與預(yù)訓(xùn)練參數(shù)保持合理的相對(duì)關(guān)系,優(yōu)化器的學(xué)習(xí)率設(shè)置為0.000 1,動(dòng)量設(shè)置為0.9,批處理大小設(shè)置為64,總訓(xùn)練批次設(shè)置為13。

    在經(jīng)過(guò)上游預(yù)訓(xùn)練(可選)和下游遷移學(xué)習(xí)后,通過(guò)對(duì)101維標(biāo)簽中實(shí)際類別指向的標(biāo)簽誤差進(jìn)行反向傳播,提取監(jiān)督網(wǎng)絡(luò)最后一層卷積層的梯度,然后將梯度可視化,并與原始圖像相疊加,最終可得監(jiān)督網(wǎng)絡(luò)最后一層卷積層的梯度類激活熱力圖(gradient-class activation map,Grad-CAM),如圖3所示。由于監(jiān)督網(wǎng)絡(luò)最后一層卷積層的尺寸為112×112,因此給出的梯度類激活熱力圖的細(xì)粒度較大。另外,由于圖像經(jīng)過(guò)了數(shù)據(jù)增強(qiáng)操作,與原始圖像相比,梯度類別激活熱力圖會(huì)隨機(jī)水平翻轉(zhuǎn)或者隨機(jī)局部放大。

    圖3 梯度類激活熱力圖對(duì)比

    圖3從左到右原始圖像的真實(shí)動(dòng)作標(biāo)簽分別為:棒球投擲、彈奏西塔琴、彈奏多爾鼓和乒乓球擊球。對(duì)于Grad-CAM來(lái)說(shuō),越明亮的地方表明其梯度值越大,對(duì)于類別的貢獻(xiàn)越大。圖3第1列,相比于視覺(jué)查詢編碼器未經(jīng)預(yù)訓(xùn)練和視覺(jué)查詢編碼器經(jīng)過(guò)Cross-AVID預(yù)訓(xùn)練后的監(jiān)督網(wǎng)絡(luò),視覺(jué)查詢編碼器經(jīng)過(guò)本文方法預(yù)訓(xùn)練后的監(jiān)督網(wǎng)絡(luò)更多地關(guān)注了棒球手的全身投擲準(zhǔn)備動(dòng)作,這些都是高層語(yǔ)義信息,是區(qū)分動(dòng)作的重要信息源。第2列視覺(jué)查詢編碼器經(jīng)過(guò)本文方法預(yù)訓(xùn)練后的監(jiān)督網(wǎng)絡(luò)更多地關(guān)注了彈琴者的彈琴動(dòng)作,而不是像Cross-AVID只是關(guān)注了一些邊緣輪廓信息。第3列視覺(jué)查詢編碼器經(jīng)過(guò)本文方法預(yù)訓(xùn)練后的監(jiān)督網(wǎng)絡(luò)更多地關(guān)注了擊鼓者的擊鼓動(dòng)作。第4列視覺(jué)查詢編碼器經(jīng)過(guò)本文方法預(yù)訓(xùn)練后的監(jiān)督網(wǎng)絡(luò)更多地關(guān)注了乒乓球運(yùn)動(dòng)員的擊球動(dòng)作。圖3表明,經(jīng)過(guò)本文方法預(yù)訓(xùn)練后,下游動(dòng)作識(shí)別任務(wù)的監(jiān)督網(wǎng)絡(luò)更多地關(guān)注了高層語(yǔ)義信息。

    2.2.2 視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本質(zhì)量的定性評(píng)估

    在1.2節(jié)的音視頻對(duì)抗對(duì)比學(xué)習(xí)梯度分析中,證明了視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本可以跟蹤難以區(qū)分的視聽覺(jué)樣本。本節(jié)通過(guò)可視化音視頻對(duì)抗對(duì)比學(xué)習(xí)的音視頻查詢樣本與視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本的t-SNE(t-distributed stochastic neighbor embedding)圖,定性分析了視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本的質(zhì)量。由于本文方法既有音視頻模態(tài)間對(duì)抗對(duì)比學(xué)習(xí),又有音視頻模態(tài)內(nèi)對(duì)抗對(duì)比學(xué)習(xí),因此,將音視頻查詢樣本與視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本(在圖4(a)中簡(jiǎn)記為音視頻對(duì)抗樣本)組合在一起,繪制其t-SNE圖,如圖4(a)所示。

    將跨模態(tài)音視頻實(shí)例判別(Cross-AVID)設(shè)置為對(duì)照方法。由于跨模態(tài)音視頻實(shí)例判別僅僅使用了模態(tài)間對(duì)比學(xué)習(xí),因此將視覺(jué)查詢樣本和從音頻存儲(chǔ)庫(kù)中采樣的負(fù)樣本組合在一起,繪制其t-SNE圖,如圖4(b)所示;將視覺(jué)查詢向量和從音頻存儲(chǔ)庫(kù)中采樣的負(fù)樣本組合在一起,繪制其t-SNE圖,如圖4(c)所示。

    圖4 音視頻對(duì)抗對(duì)比學(xué)習(xí)的t-SNE圖與跨模態(tài)音視頻實(shí)例判別的t-SNE圖對(duì)比

    將圖4(a)(b)進(jìn)行比較,可以發(fā)現(xiàn)本文方法獲得的視覺(jué)對(duì)抗性負(fù)樣本的分布更加均勻,呈橢圓狀分布,而在Cross-AVID中,從音頻存儲(chǔ)庫(kù)采樣的負(fù)樣本的分布卻存在著小集群,即圖4(b)中紅框所標(biāo)區(qū)域。與圖4(c)進(jìn)行比較,可以發(fā)現(xiàn)在Cross-AVID中,從視覺(jué)存儲(chǔ)庫(kù)采樣的負(fù)樣本分布不均勻,即圖4(c)中紅框標(biāo)注區(qū)域缺失了負(fù)樣本。

    圖4(b)(c)中存在的小集群以及缺失會(huì)使得Cross-AVID方法的負(fù)樣本空間無(wú)法很好地覆蓋到音視頻查詢樣本。這會(huì)導(dǎo)致音視頻查詢樣本與負(fù)樣本很容易被區(qū)分。而通過(guò)本文方法獲得的視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本分布(圖4(a))呈橢圓形,較好覆蓋到音視頻查詢樣本。因此音視頻查詢樣本與對(duì)抗性負(fù)樣本不容易區(qū)分,有利于提高對(duì)比學(xué)習(xí)的質(zhì)量。也就是說(shuō),視覺(jué)與聽覺(jué)對(duì)抗性負(fù)樣本在迭代過(guò)程中密切跟蹤了視聽覺(jué)樣本,構(gòu)建了一個(gè)更加高效的音視頻負(fù)樣本空間。

    2.3 定量評(píng)估

    將本文方法與音視頻對(duì)應(yīng)(AVC)和跨模態(tài)音視頻實(shí)例判別(Cross-AVID)這兩種音視頻自監(jiān)督學(xué)習(xí)方法進(jìn)行比較。此外,設(shè)置了對(duì)抗對(duì)比學(xué)習(xí)(AdCo)作為視覺(jué)單模態(tài)的對(duì)照組。在相同的架構(gòu)下,相比于視覺(jué)表示對(duì)比學(xué)習(xí)(SimCLR)、動(dòng)量對(duì)比學(xué)習(xí)(MoCO v2)和基于聚類對(duì)比的對(duì)比學(xué)習(xí)SWAV(swapping assignments between views)等視覺(jué)自監(jiān)督學(xué)習(xí)方法,AdCo在ImageNet數(shù)據(jù)集上的TOP1準(zhǔn)確率更高(Hu 等,2021)。本文還對(duì)1.3節(jié)中提出的簡(jiǎn)化(表2中最后一行)進(jìn)行了消融實(shí)驗(yàn)。

    2.3.1 動(dòng)作識(shí)別任務(wù)

    表2比較了各種音視頻自監(jiān)督表征學(xué)習(xí)方法預(yù)訓(xùn)練的遷移效果。在相同實(shí)驗(yàn)設(shè)置下,基于視覺(jué)單模態(tài)的自監(jiān)督表征學(xué)習(xí)方法AdCo在各項(xiàng)指標(biāo)上均低于基于音視頻多模態(tài)的自監(jiān)督表征學(xué)習(xí)方法(AVC、Cross-AVID、本文),這說(shuō)明基于音視頻多模態(tài)的方法學(xué)習(xí)到了更加高質(zhì)量的信息(Huang 等,2021),因此在下游遷移任務(wù)上的效果也更好。比較3種基于音視頻多模態(tài)的自監(jiān)督表征學(xué)習(xí)方法,本文方法在視覺(jué)片段級(jí)別的TOP1和TOP5準(zhǔn)確率以及視頻級(jí)別的TOP1和TOP5準(zhǔn)確率上均達(dá)到了最優(yōu)效果。與跨模態(tài)音視頻實(shí)例判別(Cross-AVID)方法相比,視覺(jué)片段級(jí)別的TOP1準(zhǔn)確率高出了0.47%,視覺(jué)片段級(jí)別的TOP5準(zhǔn)確率高出了2.06%;視頻級(jí)別的TOP1準(zhǔn)確率高出了0.35%,視頻級(jí)別的TOP5準(zhǔn)確率高出3.17%。音視頻對(duì)應(yīng)(AVC)方法除了在視頻級(jí)別的TOP5準(zhǔn)確率上比跨模態(tài)音視頻實(shí)例判別(Cross-AVID)方法高0.68%以外,其他指標(biāo)均低,這是由于跨模態(tài)音視頻實(shí)例判別(Cross-AVID)學(xué)習(xí)還包含了同一視頻的不同時(shí)間點(diǎn)的負(fù)樣本片段,因此隱含有音視頻時(shí)間同步這一約束條件,是一個(gè)更為困難的對(duì)比學(xué)習(xí)任務(wù),可以學(xué)習(xí)到更優(yōu)質(zhì)的特征表示。而本文方法由于構(gòu)建了更加高效的負(fù)樣本空間,因此學(xué)習(xí)到的特征表示包含了更加豐富的音視頻信息,在下游任務(wù)上的遷移效果更好。與無(wú)預(yù)訓(xùn)練直接進(jìn)行動(dòng)作識(shí)別的方法相比,3種音視頻多模態(tài)自監(jiān)督表征學(xué)習(xí)方法在各項(xiàng)指標(biāo)上均有提升,這說(shuō)明了其有效性。與此同時(shí),雖然AdCo在ImageNet的TOP1準(zhǔn)確率上效果優(yōu)于SimCLR、MoCO v2和SWAV等視覺(jué)自監(jiān)督學(xué)習(xí)方法(Hu 等,2021),但是AdCo在動(dòng)作識(shí)別UCF數(shù)據(jù)集上準(zhǔn)確率指標(biāo)值卻均低于未經(jīng)預(yù)訓(xùn)練的方法的指標(biāo)值,這可能是因?yàn)锳dCo采用了與3種音視頻多模態(tài)自監(jiān)督表征學(xué)習(xí)方法相同的實(shí)驗(yàn)設(shè)置,而它需要更多的訓(xùn)練批次。

    表2 動(dòng)作識(shí)別任務(wù)準(zhǔn)確率(UCF)

    此外,在HMDB動(dòng)作識(shí)別數(shù)據(jù)集上進(jìn)行了測(cè)試。將預(yù)訓(xùn)練得到的視覺(jué)編碼器組的視覺(jué)查詢編碼器作為前端,下游網(wǎng)絡(luò)設(shè)置了3層全連接層和1層softmax層來(lái)映射至20類,采用Adam優(yōu)化器來(lái)優(yōu)化網(wǎng)絡(luò),學(xué)習(xí)率設(shè)置為0.000 1,動(dòng)量設(shè)置為0.9,批處理大小設(shè)置為64,訓(xùn)練批次設(shè)置為8。由于類別數(shù)為20,TOP5準(zhǔn)確率意義不大,因此表3中給出視覺(jué)片段級(jí)別和視頻級(jí)別的TOP1準(zhǔn)確率。

    表3 動(dòng)作識(shí)別任務(wù)準(zhǔn)確率(HMDB)

    通過(guò)表3可以看到,在相同的實(shí)驗(yàn)條件下,本文方法在HMDB動(dòng)作識(shí)別數(shù)據(jù)集上達(dá)到了最優(yōu)效果。相比于Cross-AVID方法,本文方法在視覺(jué)片段級(jí)別的TOP1準(zhǔn)確率和視頻級(jí)別的TOP1準(zhǔn)確率上分別高了0.89%和0.83%。AdCo的視覺(jué)片段級(jí)別和視頻級(jí)別的TOP1準(zhǔn)確率比無(wú)預(yù)訓(xùn)練的準(zhǔn)確率分別高了2.3%和2.48%,這可能是因?yàn)閷?duì)動(dòng)作識(shí)別HMDB數(shù)據(jù)集來(lái)說(shuō),AdCo的預(yù)訓(xùn)練是充分的。

    表2和表3的最后兩行分別在UCF和HMDB動(dòng)作識(shí)別數(shù)據(jù)集上進(jìn)行了改進(jìn)措施的消融實(shí)驗(yàn)。比較表2最后兩行的數(shù)據(jù),在UCF動(dòng)作識(shí)別數(shù)據(jù)集上,對(duì)比本文方法在簡(jiǎn)化前和簡(jiǎn)化后的表現(xiàn),視覺(jué)片段級(jí)別和視頻級(jí)別的TOP1準(zhǔn)確率相差不超過(guò)0.25%,視覺(jué)片段級(jí)別和視頻級(jí)別的TOP5準(zhǔn)確率相差不超過(guò)0.5%。比較表3最后兩行的數(shù)據(jù),在HMDB動(dòng)作識(shí)別數(shù)據(jù)集上,對(duì)比本文方法在簡(jiǎn)化前和簡(jiǎn)化后的表現(xiàn),視覺(jué)片段級(jí)別的TOP1準(zhǔn)確率差值超過(guò)0.5%。這可能是由于HMDB數(shù)據(jù)集的動(dòng)作幅度大,導(dǎo)致視覺(jué)片段級(jí)別的準(zhǔn)確率波動(dòng)大。視頻級(jí)別準(zhǔn)確率通過(guò)對(duì)視覺(jué)片段的預(yù)測(cè)值取平均后得出??梢钥吹?,視頻級(jí)別的TOP1準(zhǔn)確率相差不超過(guò)0.25%。在這兩個(gè)數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果說(shuō)明了簡(jiǎn)化對(duì)抗性負(fù)樣本這一措施在減少了一半對(duì)抗性負(fù)樣本的同時(shí)保證了精度。

    2.3.2 音頻分類任務(wù)

    在環(huán)境聲音ESC數(shù)據(jù)集上,對(duì)本文方法得到的包含視覺(jué)信息的聽覺(jué)特征進(jìn)行評(píng)估。具體來(lái)說(shuō),將預(yù)訓(xùn)練得到的音頻編碼器組的音頻查詢編碼器作為前端,下游網(wǎng)絡(luò)設(shè)置了3層全連接層和1層softmax層,映射至25類。采用了Adam優(yōu)化器對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,學(xué)習(xí)率設(shè)置為0.000 1,動(dòng)量設(shè)置為0.9,批處理大小設(shè)置為64,訓(xùn)練批次設(shè)置為8。由于AdCo是純視覺(jué)預(yù)訓(xùn)練方法,因此本文選用了音視頻對(duì)應(yīng)AVC方法和跨模態(tài)音視頻實(shí)例判別學(xué)習(xí)Cross-AVID方法作為音頻分類任務(wù)的對(duì)照組。

    在表4中報(bào)告了音頻片段級(jí)別和音頻級(jí)別的TOP1準(zhǔn)確率。通過(guò)對(duì)同一音頻的10個(gè)音頻片段的預(yù)測(cè)值(預(yù)測(cè)為各個(gè)類別的值,大小為0到1之間)求平均,計(jì)算得到音頻級(jí)別的TOP1準(zhǔn)確率。

    表4 音頻分類任務(wù)準(zhǔn)確率(ESC)

    通過(guò)表4可以看到,本文方法效果優(yōu)于無(wú)預(yù)訓(xùn)練的方法。這證明了本文方法的有效性。相比于各類音視頻自監(jiān)督表示學(xué)習(xí)方法,本文提出的方法達(dá)到了最優(yōu)效果。具體來(lái)說(shuō),相比于跨模態(tài)音視頻實(shí)例判別學(xué)習(xí)Cross-AVID,在音頻片段級(jí)別的TOP1準(zhǔn)確率上高出了1.56%,在音頻級(jí)別的TOP1準(zhǔn)確率上高出了2.88%。相比于音視頻對(duì)應(yīng)學(xué)習(xí)AVC,在音頻片段級(jí)別的TOP1準(zhǔn)確率上高出了3.13%,在音頻級(jí)別的TOP1準(zhǔn)確率上高出了3.84%。

    2.4 音視頻對(duì)抗對(duì)比學(xué)習(xí)訓(xùn)練架構(gòu)分析

    在本節(jié)中,通過(guò)增加音視頻對(duì)抗對(duì)比學(xué)習(xí)的網(wǎng)絡(luò)架構(gòu)的深度,測(cè)試了其在不同深度網(wǎng)絡(luò)架構(gòu)上的表現(xiàn)。

    音視頻對(duì)抗對(duì)比學(xué)習(xí)的視覺(jué)架構(gòu)從2層拓展到了18層,新增加的16層使用了R(2+1)D卷積層(Tran 等,2018),最后的3層全連接層保留。音視頻架構(gòu)從2層標(biāo)準(zhǔn)2D卷積神經(jīng)網(wǎng)絡(luò)拓展到了10層2D卷積神經(jīng)網(wǎng)絡(luò),最后的3層全連接層也仍然保留。由于深層網(wǎng)絡(luò)架構(gòu)的訓(xùn)練參數(shù)遠(yuǎn)大于淺層網(wǎng)絡(luò)架構(gòu),為了保證深層網(wǎng)絡(luò)和淺層網(wǎng)絡(luò)架構(gòu)具有可比性,深層網(wǎng)絡(luò)優(yōu)化參數(shù)中的批處理大小設(shè)置為32,下游訓(xùn)練批次設(shè)置為7,其余優(yōu)化參數(shù)與2.1.3節(jié)設(shè)置的一致。

    下游動(dòng)作識(shí)別任務(wù)數(shù)據(jù)集選用UCF數(shù)據(jù)集。經(jīng)過(guò)預(yù)訓(xùn)練后,在下游動(dòng)作識(shí)別監(jiān)督網(wǎng)絡(luò)上進(jìn)行遷移學(xué)習(xí),優(yōu)化參數(shù)與2.3.1節(jié)中設(shè)置的一致。最終得到了音視頻對(duì)抗對(duì)比學(xué)習(xí)分別在淺層網(wǎng)絡(luò)架構(gòu)和深層網(wǎng)絡(luò)架構(gòu)上的視覺(jué)片段級(jí)別的TOP1準(zhǔn)確率、TOP5準(zhǔn)確率和視頻級(jí)別的TOP1準(zhǔn)確率、TOP5準(zhǔn)確率,如圖5左側(cè)4組柱狀圖所示。在圖5右側(cè)還繪制了不同架構(gòu)的參數(shù)數(shù)目對(duì)比的柱狀圖。

    如圖5第5組所示,深層網(wǎng)絡(luò)架構(gòu)參數(shù)比淺層網(wǎng)絡(luò)架構(gòu)參數(shù)多出一千萬(wàn)個(gè)左右。通過(guò)圖5左側(cè)4組可以看到,深層網(wǎng)絡(luò)架構(gòu)下的學(xué)習(xí)效果均優(yōu)于淺層網(wǎng)絡(luò)架構(gòu)下的學(xué)習(xí)效果,在視覺(jué)片段級(jí)別的TOP1準(zhǔn)確率上高出了2.59%,在視覺(jué)片段級(jí)別的TOP5準(zhǔn)確率上高出了5.87%;在視頻級(jí)別的TOP1準(zhǔn)確率上高出了3.48%,在視頻級(jí)別的TOP5準(zhǔn)確率上高出了5.44%。準(zhǔn)確率的提升說(shuō)明本文方法通過(guò)加深網(wǎng)絡(luò)架構(gòu)得到了更好的效果,并且還有很大的提升空間。

    圖5 不同深度網(wǎng)絡(luò)架構(gòu)下的音視頻對(duì)抗對(duì)比學(xué)習(xí)的學(xué)習(xí)效果比較

    3 結(jié) 論

    本文的主要研究?jī)?nèi)容是面向多模態(tài)自監(jiān)督特征融合的音視頻對(duì)抗對(duì)比學(xué)習(xí)方法。通過(guò)創(chuàng)新性地引入視覺(jué)和聽覺(jué)對(duì)抗性負(fù)樣本和音視頻模態(tài)內(nèi)與模態(tài)間相聯(lián)合的對(duì)抗對(duì)比學(xué)習(xí)方式,使得視聽覺(jué)對(duì)抗性負(fù)樣本可以不斷跟蹤難以區(qū)分的樣本,構(gòu)建了更加高效的音視頻負(fù)樣本空間,提高了音視頻對(duì)比學(xué)習(xí)的學(xué)習(xí)質(zhì)量。在此基礎(chǔ)上,提出了采用視聽覺(jué)對(duì)抗性負(fù)樣本來(lái)代替視覺(jué)對(duì)抗性負(fù)樣本和聽覺(jué)對(duì)抗性負(fù)樣本,簡(jiǎn)化框架的同時(shí)保持了性能。

    在相同條件下與Cross-AVID等方法比較,本文提出的音視頻對(duì)抗對(duì)比學(xué)習(xí)方法在動(dòng)作識(shí)別和音頻分類上的各項(xiàng)指標(biāo)均達(dá)到了最優(yōu)效果。本文方法存在的不足有:通過(guò)增加網(wǎng)絡(luò)深度,得到了更好的性能,說(shuō)明存在很大的提升空間。此外,本文采用了整個(gè)負(fù)樣本空間用做對(duì)比學(xué)習(xí),一些與正樣本互相關(guān)性高的負(fù)樣本做出的貢獻(xiàn)可能有限(Morgado 等,2021b)。

    下一步的工作可以在本文搭建的音視頻負(fù)樣本空間的基礎(chǔ)上,探索高效的負(fù)樣本選擇策略,提高特征融合質(zhì)量。本文方法具有廣泛的應(yīng)用場(chǎng)景,例如音源定位、視聽語(yǔ)音分離等音視頻相關(guān)的下游任務(wù)。

    猜你喜歡
    對(duì)抗性音視頻級(jí)別
    痘痘分級(jí)別,輕重不一樣
    四川工商學(xué)院學(xué)術(shù)新視野(2021年1期)2021-07-22 02:56:38
    缺乏陽(yáng)剛的男孩子要多參加對(duì)抗性運(yùn)動(dòng)
    3KB深圳市一禾音視頻科技有限公司
    關(guān)于羽毛球教學(xué)中多球訓(xùn)練的探討
    東方教育(2018年19期)2018-08-23 08:58:06
    WIFI音視頻信號(hào)傳輸?shù)年P(guān)鍵問(wèn)題探究
    電子制作(2018年12期)2018-08-01 00:48:06
    邁向UHD HDR的“水晶” 十萬(wàn)元級(jí)別的SIM2 CRYSTAL4 UHD
    新年導(dǎo)購(gòu)手冊(cè)之兩萬(wàn)元以下級(jí)別好物推薦
    技戰(zhàn)能主導(dǎo)類格斗對(duì)抗性項(xiàng)群的競(jìng)技特點(diǎn)與訓(xùn)練要求
    你是什么級(jí)別的
    精品欧美一区二区三区在线| 好男人电影高清在线观看| 一个人观看的视频www高清免费观看 | 欧美绝顶高潮抽搐喷水| 99在线视频只有这里精品首页| 18禁裸乳无遮挡免费网站照片 | 午夜福利视频1000在线观看 | 在线免费观看的www视频| 18禁美女被吸乳视频| 好男人在线观看高清免费视频 | 不卡av一区二区三区| 免费在线观看影片大全网站| 两个人免费观看高清视频| 国产伦人伦偷精品视频| 精品国产一区二区久久| 高潮久久久久久久久久久不卡| 激情在线观看视频在线高清| 99re在线观看精品视频| 大型av网站在线播放| 日韩一卡2卡3卡4卡2021年| 亚洲在线自拍视频| 麻豆成人av在线观看| 色哟哟哟哟哟哟| 咕卡用的链子| 亚洲精品久久成人aⅴ小说| 亚洲男人天堂网一区| 中文字幕人妻丝袜一区二区| 亚洲成av片中文字幕在线观看| 在线免费观看的www视频| 视频区欧美日本亚洲| 国产亚洲精品久久久久5区| 中国美女看黄片| 日韩有码中文字幕| 国产麻豆成人av免费视频| 欧美日韩亚洲国产一区二区在线观看| 黄色a级毛片大全视频| 色播在线永久视频| 亚洲av片天天在线观看| 黄片播放在线免费| 香蕉久久夜色| 色哟哟哟哟哟哟| 国产精品影院久久| 久久欧美精品欧美久久欧美| 国产精品久久久久久亚洲av鲁大| 亚洲 国产 在线| 国产亚洲精品久久久久久毛片| 曰老女人黄片| 国产一区二区三区视频了| 丝袜在线中文字幕| 无人区码免费观看不卡| 亚洲男人天堂网一区| 黄色女人牲交| 91麻豆精品激情在线观看国产| АⅤ资源中文在线天堂| 99在线视频只有这里精品首页| 黄色a级毛片大全视频| 欧美精品亚洲一区二区| 国产av一区二区精品久久| 性色av乱码一区二区三区2| 国产成人一区二区三区免费视频网站| 国产精品野战在线观看| 国产精品乱码一区二三区的特点 | 少妇被粗大的猛进出69影院| 99热只有精品国产| 成人免费观看视频高清| 中文字幕人妻熟女乱码| 男男h啪啪无遮挡| 亚洲成人久久性| 国产欧美日韩一区二区三| 亚洲一码二码三码区别大吗| 国内久久婷婷六月综合欲色啪| 手机成人av网站| 国产不卡一卡二| 满18在线观看网站| 午夜成年电影在线免费观看| 国产精品99久久99久久久不卡| 日本 av在线| 亚洲aⅴ乱码一区二区在线播放 | 亚洲精华国产精华精| 亚洲一码二码三码区别大吗| 成人欧美大片| 国产亚洲精品综合一区在线观看 | 亚洲人成77777在线视频| 麻豆av在线久日| 在线av久久热| 精品国产国语对白av| 悠悠久久av| 男人舔女人下体高潮全视频| 欧美日本中文国产一区发布| 夜夜爽天天搞| 欧美日韩一级在线毛片| 免费在线观看亚洲国产| 午夜成年电影在线免费观看| 色尼玛亚洲综合影院| 精品久久久久久久久久免费视频| 黄色毛片三级朝国网站| 亚洲av成人不卡在线观看播放网| 国产三级黄色录像| 亚洲国产欧美一区二区综合| 久久久国产成人免费| 欧美黄色淫秽网站| 最新美女视频免费是黄的| 又紧又爽又黄一区二区| 国产精品一区二区三区四区久久 | 久久午夜亚洲精品久久| 日日爽夜夜爽网站| 黑人巨大精品欧美一区二区蜜桃| 久久人妻福利社区极品人妻图片| 成人国语在线视频| 欧美精品啪啪一区二区三区| 国产主播在线观看一区二区| 精品欧美国产一区二区三| 久久国产精品人妻蜜桃| 午夜视频精品福利| 国产三级黄色录像| 欧美黄色淫秽网站| 少妇 在线观看| 欧美老熟妇乱子伦牲交| 一区在线观看完整版| 脱女人内裤的视频| 午夜影院日韩av| 亚洲七黄色美女视频| 99久久综合精品五月天人人| 欧美日韩瑟瑟在线播放| 久久中文看片网| 国产熟女午夜一区二区三区| 免费观看精品视频网站| 精品人妻1区二区| 搡老妇女老女人老熟妇| 亚洲av电影不卡..在线观看| 午夜两性在线视频| 亚洲中文av在线| 午夜老司机福利片| 亚洲午夜精品一区,二区,三区| 日韩精品免费视频一区二区三区| 免费搜索国产男女视频| 欧美一级a爱片免费观看看 | 黄网站色视频无遮挡免费观看| 男女床上黄色一级片免费看| x7x7x7水蜜桃| 欧美乱色亚洲激情| 亚洲片人在线观看| 69精品国产乱码久久久| 熟妇人妻久久中文字幕3abv| 在线永久观看黄色视频| 久久久国产成人免费| 看片在线看免费视频| 久久久久久人人人人人| 国产精品免费一区二区三区在线| 18禁美女被吸乳视频| 非洲黑人性xxxx精品又粗又长| 午夜成年电影在线免费观看| 中文字幕av电影在线播放| 黑人巨大精品欧美一区二区mp4| 久久人人精品亚洲av| 琪琪午夜伦伦电影理论片6080| 非洲黑人性xxxx精品又粗又长| 好看av亚洲va欧美ⅴa在| 啦啦啦免费观看视频1| av视频在线观看入口| 欧美国产日韩亚洲一区| 嫩草影视91久久| 欧美激情高清一区二区三区| 91大片在线观看| 女人被躁到高潮嗷嗷叫费观| 成人亚洲精品一区在线观看| 亚洲免费av在线视频| 美女国产高潮福利片在线看| 成人三级黄色视频| 日本欧美视频一区| 色综合婷婷激情| 美女扒开内裤让男人捅视频| 看片在线看免费视频| 精品少妇一区二区三区视频日本电影| 男人舔女人的私密视频| 宅男免费午夜| 中文亚洲av片在线观看爽| 亚洲欧美日韩另类电影网站| 嫁个100分男人电影在线观看| 国产精品永久免费网站| 女性被躁到高潮视频| 美女午夜性视频免费| 久久久久久久久久久久大奶| 最新在线观看一区二区三区| 国产亚洲精品综合一区在线观看 | 最近最新免费中文字幕在线| 两人在一起打扑克的视频| 亚洲精品av麻豆狂野| 激情视频va一区二区三区| 国产主播在线观看一区二区| 久久精品国产亚洲av高清一级| 欧美丝袜亚洲另类 | 国产精华一区二区三区| 黄片大片在线免费观看| 人妻久久中文字幕网| 无限看片的www在线观看| 免费少妇av软件| 男人的好看免费观看在线视频 | 两个人看的免费小视频| 国产精品久久久av美女十八| 在线观看日韩欧美| 成年版毛片免费区| 黑丝袜美女国产一区| 国内久久婷婷六月综合欲色啪| 久久久久久人人人人人| www.www免费av| 国产成人精品久久二区二区免费| 99热只有精品国产| 精品久久蜜臀av无| 99久久久亚洲精品蜜臀av| 久久人妻熟女aⅴ| 欧美久久黑人一区二区| 国产不卡一卡二| 欧美人与性动交α欧美精品济南到| 熟妇人妻久久中文字幕3abv| 日本精品一区二区三区蜜桃| 欧美中文综合在线视频| 无遮挡黄片免费观看| 男人的好看免费观看在线视频 | 国产精品电影一区二区三区| 婷婷六月久久综合丁香| 国产97色在线日韩免费| 亚洲精品在线美女| 老鸭窝网址在线观看| 日日摸夜夜添夜夜添小说| 久久狼人影院| 欧美日韩福利视频一区二区| 国产视频一区二区在线看| 成人亚洲精品一区在线观看| 国产成人av激情在线播放| 国产精品久久久av美女十八| 日本 欧美在线| 在线播放国产精品三级| 欧美精品啪啪一区二区三区| 日韩免费av在线播放| 人人妻人人爽人人添夜夜欢视频| 久久久久国内视频| 成人18禁高潮啪啪吃奶动态图| 欧美性长视频在线观看| 夜夜夜夜夜久久久久| 亚洲专区字幕在线| 欧美+亚洲+日韩+国产| 露出奶头的视频| 无人区码免费观看不卡| 精品国内亚洲2022精品成人| 欧美日韩精品网址| 一区福利在线观看| 天天添夜夜摸| 三级毛片av免费| 啦啦啦韩国在线观看视频| 不卡一级毛片| 国产真人三级小视频在线观看| 国产亚洲精品一区二区www| 亚洲精品国产区一区二| 一a级毛片在线观看| 久久精品国产亚洲av高清一级| 成熟少妇高潮喷水视频| 欧美激情久久久久久爽电影 | 99香蕉大伊视频| 亚洲国产日韩欧美精品在线观看 | 国产日韩一区二区三区精品不卡| 精品福利观看| 午夜a级毛片| 变态另类丝袜制服| 视频在线观看一区二区三区| 首页视频小说图片口味搜索| 国产精品乱码一区二三区的特点 | 校园春色视频在线观看| 国产精品1区2区在线观看.| 国产成人精品在线电影| 精品一区二区三区av网在线观看| 久久婷婷人人爽人人干人人爱 | 男女做爰动态图高潮gif福利片 | 女人高潮潮喷娇喘18禁视频| 亚洲一卡2卡3卡4卡5卡精品中文| 中文亚洲av片在线观看爽| 久久精品国产亚洲av高清一级| 精品久久久久久久人妻蜜臀av | 国产亚洲欧美精品永久| 欧美av亚洲av综合av国产av| 亚洲人成伊人成综合网2020| 99久久久亚洲精品蜜臀av| 久久天躁狠狠躁夜夜2o2o| 亚洲av片天天在线观看| 色综合站精品国产| 脱女人内裤的视频| 美女高潮喷水抽搐中文字幕| 国产人伦9x9x在线观看| 黄色女人牲交| 亚洲第一欧美日韩一区二区三区| 久久人人97超碰香蕉20202| 黄片大片在线免费观看| 黑人巨大精品欧美一区二区mp4| 性色av乱码一区二区三区2| 一级毛片高清免费大全| 亚洲精品国产精品久久久不卡| 亚洲精品国产色婷婷电影| 午夜影院日韩av| 中国美女看黄片| 亚洲精华国产精华精| 美女扒开内裤让男人捅视频| 午夜日韩欧美国产| 99国产极品粉嫩在线观看| 国产av一区二区精品久久| 欧美在线一区亚洲| 色尼玛亚洲综合影院| 久久久久久免费高清国产稀缺| 亚洲第一青青草原| 日本一区二区免费在线视频| www日本在线高清视频| 90打野战视频偷拍视频| 久久 成人 亚洲| 欧美黑人欧美精品刺激| 成人18禁高潮啪啪吃奶动态图| 在线观看一区二区三区| 国产麻豆69| 午夜激情av网站| 搡老岳熟女国产| 老司机靠b影院| 老汉色av国产亚洲站长工具| 精品国产一区二区久久| 丝袜美足系列| 国产精品久久久久久精品电影 | 18禁黄网站禁片午夜丰满| 欧美精品啪啪一区二区三区| avwww免费| 免费看美女性在线毛片视频| 成人国语在线视频| 欧美不卡视频在线免费观看 | 国产成人精品久久二区二区免费| 亚洲欧美日韩无卡精品| 国产精华一区二区三区| 午夜两性在线视频| 男人的好看免费观看在线视频 | 欧美性长视频在线观看| 免费看美女性在线毛片视频| 国产免费男女视频| or卡值多少钱| svipshipincom国产片| 日韩欧美国产一区二区入口| 欧美av亚洲av综合av国产av| 在线观看66精品国产| 欧美日韩中文字幕国产精品一区二区三区 | 久久精品国产清高在天天线| 国产麻豆69| 又紧又爽又黄一区二区| 久久中文字幕人妻熟女| 在线av久久热| 精品福利观看| 亚洲av成人av| 性少妇av在线| 黄色成人免费大全| 女性生殖器流出的白浆| 久久久国产成人精品二区| 精品一区二区三区视频在线观看免费| 狠狠狠狠99中文字幕| 中文字幕av电影在线播放| 久热这里只有精品99| 亚洲一卡2卡3卡4卡5卡精品中文| 国产在线精品亚洲第一网站| 欧美+亚洲+日韩+国产| 91国产中文字幕| 老司机在亚洲福利影院| 18禁国产床啪视频网站| 久久香蕉激情| 国产1区2区3区精品| 在线观看一区二区三区| 香蕉国产在线看| 国产伦一二天堂av在线观看| 精品一品国产午夜福利视频| 国产精华一区二区三区| 看片在线看免费视频| 日本欧美视频一区| 欧美色视频一区免费| 免费在线观看视频国产中文字幕亚洲| 欧美午夜高清在线| 夜夜夜夜夜久久久久| 成人特级黄色片久久久久久久| 麻豆av在线久日| 在线观看66精品国产| 国产精品久久视频播放| 亚洲 欧美 日韩 在线 免费| 麻豆国产av国片精品| 亚洲成人久久性| 别揉我奶头~嗯~啊~动态视频| 老司机靠b影院| 国产熟女午夜一区二区三区| 伊人久久大香线蕉亚洲五| 免费在线观看黄色视频的| 精品电影一区二区在线| 非洲黑人性xxxx精品又粗又长| 国产精品久久久久久亚洲av鲁大| 亚洲一区高清亚洲精品| 美女免费视频网站| 日本在线视频免费播放| 午夜福利,免费看| 人人澡人人妻人| 国产精品二区激情视频| 日日爽夜夜爽网站| av在线天堂中文字幕| 美国免费a级毛片| 少妇裸体淫交视频免费看高清 | 欧美黄色淫秽网站| 国产又爽黄色视频| www.熟女人妻精品国产| 男女床上黄色一级片免费看| 免费一级毛片在线播放高清视频 | 亚洲av五月六月丁香网| 久久中文字幕一级| 中出人妻视频一区二区| 欧美日韩一级在线毛片| 精品高清国产在线一区| 亚洲第一av免费看| 麻豆国产av国片精品| 久久精品亚洲精品国产色婷小说| 亚洲第一青青草原| 97超级碰碰碰精品色视频在线观看| 日本黄色视频三级网站网址| 亚洲熟妇熟女久久| 中出人妻视频一区二区| 婷婷精品国产亚洲av在线| 麻豆国产av国片精品| 亚洲专区国产一区二区| 久久香蕉激情| 国产精品影院久久| 一级,二级,三级黄色视频| 男男h啪啪无遮挡| 国产精品久久久人人做人人爽| 女人被狂操c到高潮| 丝袜在线中文字幕| 中亚洲国语对白在线视频| 午夜福利影视在线免费观看| 国产黄a三级三级三级人| 伦理电影免费视频| 搡老岳熟女国产| 亚洲免费av在线视频| 嫩草影视91久久| 制服诱惑二区| 在线观看免费视频日本深夜| 高清黄色对白视频在线免费看| 欧美日本视频| 色综合站精品国产| 怎么达到女性高潮| 深夜精品福利| 亚洲情色 制服丝袜| 国产av一区二区精品久久| 成人亚洲精品av一区二区| 91成人精品电影| 欧美色视频一区免费| 在线观看66精品国产| 一个人免费在线观看的高清视频| 久久久久久久久免费视频了| 国产高清激情床上av| 精品午夜福利视频在线观看一区| ponron亚洲| 青草久久国产| 在线观看66精品国产| 亚洲国产精品成人综合色| 亚洲中文日韩欧美视频| 88av欧美| www.熟女人妻精品国产| 涩涩av久久男人的天堂| 精品欧美国产一区二区三| 精品国产超薄肉色丝袜足j| 99香蕉大伊视频| 国产三级在线视频| 亚洲国产中文字幕在线视频| 国产av一区二区精品久久| 精品日产1卡2卡| 久久人人精品亚洲av| 国产熟女午夜一区二区三区| 老熟妇乱子伦视频在线观看| 国产亚洲精品久久久久5区| 精品卡一卡二卡四卡免费| 精品国内亚洲2022精品成人| 亚洲精品在线观看二区| 国产av又大| 一边摸一边做爽爽视频免费| 国产伦人伦偷精品视频| 亚洲 欧美一区二区三区| 久热这里只有精品99| 国产区一区二久久| 欧美精品亚洲一区二区| 久久久久久久午夜电影| 国内久久婷婷六月综合欲色啪| 乱人伦中国视频| 国产色视频综合| 老汉色∧v一级毛片| 国产精品秋霞免费鲁丝片| 精品人妻1区二区| 欧美成人免费av一区二区三区| 国产av一区二区精品久久| 亚洲在线自拍视频| 91成年电影在线观看| 一本大道久久a久久精品| 久久人妻福利社区极品人妻图片| 亚洲天堂国产精品一区在线| 亚洲成人精品中文字幕电影| 波多野结衣一区麻豆| 日韩中文字幕欧美一区二区| 一级,二级,三级黄色视频| 亚洲国产精品合色在线| 国产精品爽爽va在线观看网站 | 国产在线观看jvid| 别揉我奶头~嗯~啊~动态视频| 少妇熟女aⅴ在线视频| 久久久久久久午夜电影| 我的亚洲天堂| 国产成人精品在线电影| 又黄又爽又免费观看的视频| 高清毛片免费观看视频网站| 男人舔女人的私密视频| 可以免费在线观看a视频的电影网站| 午夜福利一区二区在线看| 久久人人爽av亚洲精品天堂| 国产一区二区三区在线臀色熟女| 欧美国产精品va在线观看不卡| 亚洲五月天丁香| 久久婷婷成人综合色麻豆| 日本撒尿小便嘘嘘汇集6| av欧美777| 夜夜躁狠狠躁天天躁| 亚洲性夜色夜夜综合| 亚洲av五月六月丁香网| 好男人在线观看高清免费视频 | 岛国视频午夜一区免费看| 国产精品野战在线观看| 一个人免费在线观看的高清视频| 久久国产亚洲av麻豆专区| 国产精品一区二区三区四区久久 | 中出人妻视频一区二区| 久热爱精品视频在线9| 亚洲狠狠婷婷综合久久图片| 国产1区2区3区精品| 国产一区二区激情短视频| 成人欧美大片| 美女高潮到喷水免费观看| 成人欧美大片| 90打野战视频偷拍视频| netflix在线观看网站| 国产精品精品国产色婷婷| 99久久99久久久精品蜜桃| 91成年电影在线观看| 国产亚洲精品一区二区www| 午夜亚洲福利在线播放| 757午夜福利合集在线观看| 最近最新中文字幕大全免费视频| 熟妇人妻久久中文字幕3abv| 国产伦人伦偷精品视频| 日韩精品中文字幕看吧| 亚洲七黄色美女视频| 国产乱人伦免费视频| 69av精品久久久久久| 国产免费男女视频| 男女之事视频高清在线观看| 欧美日韩瑟瑟在线播放| 夜夜爽天天搞| 欧美性长视频在线观看| 一级片免费观看大全| 久久精品亚洲熟妇少妇任你| 日本免费a在线| 国产免费男女视频| 男女下面插进去视频免费观看| 在线观看舔阴道视频| 久久久久久久午夜电影| 国产免费男女视频| 日本免费a在线| 无限看片的www在线观看| 欧美在线一区亚洲| 亚洲国产精品久久男人天堂| 精品卡一卡二卡四卡免费| 亚洲熟妇熟女久久| 麻豆一二三区av精品| 成人免费观看视频高清| 欧美性长视频在线观看| 亚洲精华国产精华精| 亚洲一区二区三区色噜噜| 美女 人体艺术 gogo| 国产成人系列免费观看| 国产成人啪精品午夜网站| 国产真人三级小视频在线观看| 校园春色视频在线观看| 欧美在线黄色| 午夜久久久在线观看| 日韩欧美一区二区三区在线观看| 色综合欧美亚洲国产小说| 中文字幕人成人乱码亚洲影| 欧美黄色淫秽网站| 最好的美女福利视频网| 成熟少妇高潮喷水视频| 亚洲av美国av| 91在线观看av| 老鸭窝网址在线观看| 精品一区二区三区视频在线观看免费| 免费在线观看黄色视频的| 亚洲欧美日韩无卡精品| 18禁黄网站禁片午夜丰满| 亚洲国产毛片av蜜桃av| 黄色丝袜av网址大全| 天堂动漫精品| 咕卡用的链子| a级毛片在线看网站| 亚洲精品在线美女| 午夜精品在线福利| 欧美+亚洲+日韩+国产| 两人在一起打扑克的视频| 亚洲片人在线观看| 夜夜躁狠狠躁天天躁| 亚洲九九香蕉| 在线观看66精品国产| 色哟哟哟哟哟哟| 精品无人区乱码1区二区| 国产xxxxx性猛交| 国产精品久久电影中文字幕| 午夜免费观看网址|