郭義臣,李坤,郭丹
1.合肥工業(yè)大學(xué)計算機與信息學(xué)院,合肥 230601;2.大數(shù)據(jù)知識工程教育部重點實驗室(合肥工業(yè)大學(xué)),合肥 230601;3.智能互聯(lián)系統(tǒng)安徽省實驗室(合肥工業(yè)大學(xué)),合肥 230601
互聯(lián)網(wǎng)上的視頻數(shù)量正經(jīng)歷爆發(fā)式的增長,準(zhǔn)確理解和分析視頻內(nèi)容在計算機視覺領(lǐng)域中有重要意義。視頻描述定位作為視覺領(lǐng)域中的一項重要任務(wù),目標(biāo)是從一段未修剪的視頻中,定位出與給定自然語言描述語義匹配的視頻片段。與單一視頻模態(tài)的研究相比,視頻描述定位需要同時從視頻和文本兩個模態(tài)中挖掘信息,因此具有更廣泛的應(yīng)用場景和潛在的應(yīng)用價值。然而,視頻描述定位面臨著極大的挑戰(zhàn),一方面,視頻具有場景復(fù)雜以及活動多樣性的特點,相比圖像,視頻的內(nèi)容和背景更加復(fù)雜多變,一個幾分鐘的視頻往往由多種活動組成,而每一個活動又由不同的人物、目標(biāo)和運動組成;另一方面,人類的自然語言存在多義性和主觀性,而且存在多個活動之間的約束關(guān)系,如活動發(fā)生先后的時序約束關(guān)系。因此,如何構(gòu)建合適的視頻—文本多模態(tài)特征是解決自然語言描述與目標(biāo)視頻片段匹配的關(guān)鍵所在,這要求模型能夠在自然語言查詢中挖掘出重要的語義線索,同時抑制視頻中冗余且復(fù)雜的背景信息、激勵出與語言查詢語義匹配的運動特征。
現(xiàn)有的視頻描述定位任務(wù)主要有基于候選框和無候選框兩種方式?;诤蜻x框的方法通常使用滑動窗口生成候選框然后匹配自然語言描述(Gao 等,2017;Hendricks 等,2017),這類方法會首先生成一系列候選視頻片段,然后通過度量候選片段與文本查詢的語義距離來選取最佳的目標(biāo)片段;滑動窗口算法雖然能夠選出一些可以覆蓋目標(biāo)的候選片段,然而這類方法未能對視頻細(xì)粒度進行建模,忽略了視頻與語言查詢之間存在的豐富的動作信息。為了對視頻與語言模態(tài)進行細(xì)粒度的建模,一些研究人員聚焦于從語言模態(tài)中挖掘出重要的動作概念(Ge等,2019;Zhang 等,2019b),這類方法通常使用注意力等方法對句子中的語義概念進行編碼,獲得句子中動作概念的嵌入特征表示,對動作概念的引入很好地解決了傳統(tǒng)方法中對視頻與語言查詢的建模不夠細(xì)粒度的問題,有效提高了視頻與文本模態(tài)之間的對齊準(zhǔn)確性。
然而,基于候選框的多數(shù)方法通常使用滑動窗口算法枚舉可能出現(xiàn)的目標(biāo)片段,這樣的方法需要耗費大量的內(nèi)存空間以及計算資源。在該問題的驅(qū)動下,另一種無候選框的方式應(yīng)運而生,Yuan 等人(2019)和Rodriguez-Opazo等人(2020)引入注意力機制實現(xiàn)視頻與語言描述之間的跨模態(tài)信息交互,學(xué)習(xí)視頻與文本的聯(lián)合特征表示,以一種端對端的方式直接預(yù)測出目標(biāo)片段的始末時刻。Mun 等人(2020)和Li 等人(2021)則關(guān)注不同尺度下的上下文信息,最后使用時序注意力回歸的方法預(yù)測出目標(biāo)片段。上述的無候選框模型在兼顧效率的同時取得了令人滿意的性能,然而,這些工作忽略從視頻中挖掘運動線索,所以難以構(gòu)建出細(xì)粒度的視頻—文本多模態(tài)交互特征。
針對上述的弊端及挑戰(zhàn),本文提出一種新穎的基于運動特征激勵的無候選框視頻描述定位模型。具體來說,本文首先使用基于注意力機制的方法提取自然語言描述中的多個短語級特征,分別與視頻特征進行跨模態(tài)融合,從而得到視頻—文本多模態(tài)特征表示。其次,本文從時序維度和特征通道兩個方面優(yōu)化多模態(tài)特征表示,從而增強多模態(tài)特征中的運動語義的表征能力。一方面,本文使用跳連卷積從時序維度上建模運動特征的局部上下文信息,將語義短語與相應(yīng)的運動特征對齊;另一方面,本文通過計算相鄰特征向量之間的特征通道級的差異,得到連續(xù)特征中的運動語義信息,以區(qū)分表示運動語義的特征和靜態(tài)背景的特征。進而,本文使用門控機制(Hu 等,2018)動態(tài)調(diào)整不同特征的強度,增強特征中運動語義的表征能力。換言之,先通過相鄰兩幀多模態(tài)特征之間的通道差異,再生成特征通道上的權(quán)重,從而自適應(yīng)地校正通道的強度,激勵其中蘊含運動信息的特征通道。最后,本文采用非局部神經(jīng)網(wǎng)絡(luò)和時序注意力池化模塊對優(yōu)化表示的多模態(tài)特征進行融合,以無候選框的方式預(yù)測出目標(biāo)片段的始末時間。
本文的主要貢獻是:1)基于運動特征激勵的方法優(yōu)化多模態(tài)特征表示中的運動語義信息,有效增強了運動信息語義的表征能力;2)以一種無候選框的方式實現(xiàn)了細(xì)粒度的視頻描述定位,在確保預(yù)測精度的同時避免生產(chǎn)大量無效候選框;3)在Charades-STA(Gao 等,2017)和ActivityNet Captions(Krishna 等,2017)兩個基準(zhǔn)數(shù)據(jù)集上的對比實驗驗證了本文方法性能優(yōu)于對比模型,消融實驗進一步驗證了本文方法的有效性。
Gao 等人(2017)首次提出視頻描述定位任務(wù),該任務(wù)的難點在于視頻與查詢之間的模態(tài)差異,因此需要對視頻和語言查詢構(gòu)建合適的特征表示,從而實現(xiàn)視頻與語言兩個模態(tài)之間的匹配。早期方法的思想多來自于目標(biāo)檢測任務(wù)基于候選框的方法,首先提出豐富的目標(biāo)候選框,然后選出與語言查詢語義相關(guān)度最高的候選框作為預(yù)測結(jié)果。Liu 等人(2018a,b)提出的注意力跨模態(tài)檢索網(wǎng)絡(luò)(attentive cross-modal retrieval network,ACRN)和跨模態(tài)時刻定位網(wǎng)絡(luò)(cross-modal moment localization network,ROLE)聚焦于自然語言查詢中包含時間線索的單詞,希望通過利用文本與視覺之間的相關(guān)性,聯(lián)合學(xué)習(xí)視頻片段與查詢的特征表示,是基于候選框方法的典型代表。Chen 和Jiang(2019)認(rèn)為傳統(tǒng)方法采用樸素的滑動窗口方法,未考慮到如何生成有效的目標(biāo)候選框,這導(dǎo)致候選框數(shù)量冗余且模型低效,因而提出語義活動提議(semantic activity proposal,SAP)的方法,將語言查詢中的語義信息融合到候選框生成過程中,提升了目標(biāo)候選框的質(zhì)量。Zhang等人(2020)提出二維時序鄰接網(wǎng)絡(luò)(2D temporal adjacent network,2DTAN),認(rèn)為基于候選框的方法未能考慮不同候選框之間的關(guān)系,提出一種基于二維時間圖的網(wǎng)絡(luò)模型,能夠?qū)ο噜彽暮蜻x框進行編碼,從而學(xué)習(xí)到對多模態(tài)匹配更有區(qū)別性的特征表示。
近年來,為解決基于候選框方法中的計算量過大的問題,一些無候選框的模型相繼提出。無候選框模型直接回歸出目標(biāo)片段的起止時間戳,不存在候選框的生成和排序。Yuan 等人(2019)提出基于注意力定位回歸(attention based location regression,ABLR)的方法,通過學(xué)習(xí)視頻與文本之間相互的注意力,得到包含全局信息的特征表示,并在視頻中定位出語言查詢對應(yīng)的目標(biāo)片段。Rodriguez-Opazo 等人(2020)提出使用基于注意力的動態(tài)過濾器,使模型根據(jù)語言查詢動態(tài)響應(yīng)不同片段的視頻特征,不依賴于候選區(qū)域的生成和排名,而是端對端地預(yù)測出目標(biāo)片段。Mun等人(2020)進一步研究了視頻與文本的交互,首先基于注意力機制提取語言查詢中的不同語義實體(如人物、目標(biāo)、動作),并從視頻片段、局部尺度上下文和全局尺度上下文3 個層級進行語義短語與視頻之間的對齊,最后融合視頻—文本特征并使用無候選框的方式預(yù)測最終的結(jié)果。CPNet(contextual pyramid network)(Li 等,2021)使用層級金字塔的方法提取多尺度的二維時序上下文關(guān)系圖,通過擴大時序上的感受野來精確定位語言查詢在視頻中對應(yīng)的位置。本文致力于優(yōu)化視頻—語言多模態(tài)特征的運動語義表征能力,基于無候選框的直接回歸方式實現(xiàn)更精準(zhǔn)的視頻描述定位。
運動信息是視頻相對于靜態(tài)圖像的顯著區(qū)別,因此在視頻理解的相關(guān)任務(wù)中,運動信息扮演著至關(guān)重要的角色。為了對視頻中的運動信息進行編碼,時序片段網(wǎng)絡(luò)(temporal segment network,TSN)(Wang 等,2016)通過計算原始視頻中相鄰兩幀的RGB 差異,提取出視頻中的光流特征,然后送入基于二維卷積神經(jīng)網(wǎng)絡(luò)(2D convolutional neural network,2D CNN)的雙流網(wǎng)絡(luò)框架中,以用于運動識別。然而,這類基于光流特征來提取運動信息的方法常常存在占用計算資源過大的問題。Jiang等人(2019)提出的通道運動模塊(channel-wise motion module,CMM)可對視頻中的運動信息編碼,在激勵運動特征敏感通道的同時,避免了預(yù)計算光流特征的使用。
為了激勵特征表示中的重要信息,研究人員展開多種探索。Hu 等人(2018)聚焦于視頻序列特征圖中不同通道權(quán)重的修正與重要特征圖的激勵,提出SENet(squeeze and excitation network),通過顯式地對通道之間的依賴進行建模,自適應(yīng)地修正特征表示中不同通道的響應(yīng)。受SENet 的啟發(fā),Li 等人(2020)提出運動激勵模塊對視頻的時空特征圖中的運動信息進行建模,利用相鄰兩幀的時空特征圖差異激勵運動敏感的特征通道。對視頻描述定位任務(wù)來說,如何激勵多模態(tài)特征中的運動特征同樣重要,因此本文將運動激勵模塊插入到多模態(tài)特征提取模塊之后,進行細(xì)粒度的視頻片段與文本描述交互,從而實現(xiàn)更精準(zhǔn)的視頻描述定位。
如圖1 所示,本文方法由3 個部分組成:特征提取模塊、特征優(yōu)化模塊和邊界預(yù)測模塊。其中特征提取模塊用于對視頻和語言查詢的特征提取以及特征的融合;特征優(yōu)化模塊主要由運動激勵和跳連卷積兩部分組成,運動激勵用于動態(tài)調(diào)整多模態(tài)特征中不同特征通道之間的依賴關(guān)系,而跳連卷積則用于對運動信息的局部上下文進行建模,在時間維度上對齊語義短語與視頻片段;邊界預(yù)測模塊采用非局部塊將關(guān)注于不同語義短語的多模態(tài)特征進行融合,并進一步采用時序注意力池化模塊將特征融合為一個特征向量,從而回歸出與語言查詢匹配的視頻片段的起止時刻。
圖1 運動特征激勵的視頻描述定位模型Fig.1 Video grounding model based on motion excitation
視頻描述定位的目標(biāo)是從一段未修剪的視頻中定位出與語言查詢語義匹配的片段,本文將視頻記做V,并將自然語言描述記做Q,將視頻片段的開始/結(jié)束時間戳記做τs,τe。本文目標(biāo)是訓(xùn)練一個模型,通過對訓(xùn)練數(shù)據(jù)集V,Q,τs,τetrain的學(xué)習(xí),能在測試集V,Qtest上正確預(yù)測出與語言查詢語義相關(guān)視頻片段的開始與結(jié)束時刻
對于視頻特征的提取,本文參考LGI(localglobal video-text interactions)(Mun等,2020)的特征提取方法,對于一段未修剪的視頻V,本文首先基于預(yù)訓(xùn)練模型提取視頻的特征向量,并將該過程記做fV(?),并在視頻特征中融入位置嵌入信息,本文將得到的片段級的視頻特征記做V′=∈Rc×T,具體為
式中,Nw表示語言查詢中單詞的個數(shù),c表示特征向量的維度和分別表示Bi-LSTM 編碼器的正向和反向隱狀態(tài)。為獲取句子級的特征表示,本文將Bi-LSTM 編碼器的第Nw個正向隱狀態(tài)和第1 個反向隱狀態(tài)拼接,句子級特征向量記做q∈Rc,具體為
視頻描述定位任務(wù)需要從語言查詢中發(fā)掘出重要的語義線索,語言查詢通常描述了人物和動作以及行為對象,例如在語言查詢“a person walks in a doorway drinking some coffee”中,包含了人物“a person”、動作“walks”和“drinking”、以及對應(yīng)的行為對象“doorway”和“some coffee”。本文基于注意力機制,設(shè)計了多輪漸進式短語級語義發(fā)現(xiàn)機制。具體來說,計算第n輪的語義指導(dǎo)向量g(n)∈Rc以及短語級向量p(n)∈Rc,其中1 式中,Wqatt,Wα1,Wα2表示可學(xué)習(xí)的參數(shù)矩陣。于是,本文得到了語言查詢的短語級特征表示P=能夠覆蓋到語言查詢中不同的語義線索。 視頻的特征表示中包含豐富的運動信息,若僅僅簡單地將視頻特征與語言查詢的短語級特征融合,一方面,模型難以從多模態(tài)特征中挖掘出重要的運動信息;另一方面,模型也較難在時序上根據(jù)上下文的運動信息對齊語義短語與對應(yīng)的視頻片段。因此,本文使用多模態(tài)特征優(yōu)化模塊分別從特征通道維度和時序維度兩方面構(gòu)建優(yōu)化的多模態(tài)特征表示,其中主要包括運動激勵和跳連卷積。 2.3.1 運動激勵 運動激勵塊用于強化語義短語對應(yīng)的運動特征并抑制無關(guān)的信息,通過計算多模態(tài)特征中時序相鄰的特征向量之間的差異,構(gòu)建出對不同的運動信息響應(yīng)的通道權(quán)重分布,動態(tài)調(diào)整特征通道之間的依賴關(guān)系,從而促使Np個多模態(tài)特征能關(guān)注于語言查詢中所包含的不同運動信息。具體來說,對于多模態(tài)特征M(n)∈Rc×T,基于減少網(wǎng)絡(luò)模型計算量的考慮,本文首先使用一維卷積將特征的通道維度降低為原來的r倍,并將降維后的多模態(tài)特征記做M′(n)∈Rc/r×T,具體為 式中,conv1(?)表示一層一維卷積。在特征表示中,某時刻的運動信息可由時序上相鄰的特征向量差異反映出來,為了在提取運動信息的同時也將時序上下文信息包含進來,本文沒有直接將時序相鄰的特征向量相減,而是首先使用一維卷積融合t+1 時刻特征向量的上下文信息,然后減去t時刻的特征向量∈Rc/r,從而得到t時刻包含運動信息的特征向量∈Rc/r,本文將運動特征表示記做M″(n)∈Rc/r×T,具體為 為了激勵多模態(tài)特征中的運動信息,本文基于門控機制優(yōu)化特征多模態(tài)M(n)∈Rc×T,通過使用sigmoid 函數(shù)激活運動特征M?(n),得到響應(yīng)不同的運動信息的通道權(quán)重分布,并與輸入的多模態(tài)特征M(n)相乘,從而動態(tài)調(diào)整特征表示中的通道間依賴關(guān)系,得到運動激勵后的多模態(tài)特征表示,同時,本文使用跳連相加以加快模型的收斂速度,具體為 運動激勵框架如圖2所示。 圖2 運動激勵框架圖Fig.2 The architecture overview of motion excitation 2.3.2 跳連卷積 不同的語義短語所包含的運動信息與視頻中不同的運動片段相匹配,所以每個多模態(tài)特征應(yīng)該關(guān)注不同的上下文信息,從而對齊語義短語與視頻片段。因此,本文采用一維時序卷積對運動信息的局部上下文進行建模,在時序維度上對齊語義短語與視頻片段。具體來說,本文在跳連卷積中使用了兩層一維卷積,為了加快模型的收斂速度,本文使用了跳連相加的方法,并將輸出特征記做具體為 式中,conv2(?)表示兩層一維卷積。 最后,將從時序上和特征通道兩個層面上優(yōu)化的運動特征激勵的多模態(tài)特征進行拼接融合,本文將優(yōu)化后的多模態(tài)特征表示記做,具體為 式中,c′=2c為優(yōu)化后的特征維度。 式中,MLP(?)為含兩層全連接層的多層感知機,nonlocal(?)表示非局部神經(jīng)網(wǎng)絡(luò)模塊。本文采用與傳統(tǒng)的注意力方法不同的時序自注意力池化,將多模態(tài)特征融合為一個特征向量。具體來說,給出融合后的多模態(tài)特征表示,時序自注意力池化關(guān)注語言查詢與視頻片段匹配的多模態(tài)特征,使用多層感知機生成關(guān)注匹配片段的時序注意力權(quán)重∈RT,并使用時序注意力權(quán)重進一步將T個多模態(tài)特征向量池化融合為一個特征向量z∈Rc′,具體為 最后,本文使用含兩層全連接層的多層感知機預(yù)測出目標(biāo)視頻片段的始末時間即 本文使用3 個約束函數(shù)對上述網(wǎng)絡(luò)進行優(yōu)化,分別為預(yù)測邊界約束Lreg、時序注意力權(quán)重約束Ltatt和短語級語義發(fā)現(xiàn)權(quán)重約束Lpatt,并將3 個約束函數(shù)計算得到損失的加權(quán)和作為模型的總損失,具體為 式中,k1和k2分別為時序注意力權(quán)重約束和短語級語義發(fā)現(xiàn)權(quán)重約束的權(quán)重。 2.5.1 預(yù)測邊界約束 式中,SL1(?)表示Smooth L1 損失函數(shù),τs與τe分別表示開始與結(jié)束歸一化的時間標(biāo)簽。 2.5.2 時序注意力權(quán)重約束 在視頻時序變化中,本文重點關(guān)注目標(biāo)片段,不匹配的片段可以忽略不計。因此,設(shè)置權(quán)重標(biāo)簽o∈RT,來約束時序注意力預(yù)測權(quán)重∈RT。以目標(biāo)片段的開始至結(jié)束時間為基準(zhǔn),若t時刻位于匹配片段開始與結(jié)束時刻之內(nèi),ot=1,否則ot=0,時序注意力權(quán)重?fù)p失為 2.5.3 短語級語義發(fā)現(xiàn)權(quán)重約束 在多輪漸進式短語級語義發(fā)現(xiàn)機制中,本文基于注意力機制得到Np個注意力權(quán)重A=,為了避免每輪語義發(fā)現(xiàn)的注意力權(quán)重?zé)o差異,引入正則項使每輪語義發(fā)現(xiàn)的注意力權(quán)重矩陣A 更有區(qū)分性,從而使模型充分挖掘語言查詢中不同的短語語義信息(Mun 等,2020)。具體來說,給定Np個注意力權(quán)重A=,本文計算語義發(fā)現(xiàn)權(quán)重?fù)p失Lpatt。具體為 式中,I 表示單位矩陣,λ∈[0,1]控制不同短語權(quán)重的重疊程度,當(dāng)λ趨近于1 時,注意力權(quán)重所關(guān)注單詞趨近于不重疊,‖ ? ‖F(xiàn)表示矩陣的Frobenius范數(shù)。 為了驗證基于運動激勵的方法在視頻描述定位任務(wù)上的有效性,本文在兩個基準(zhǔn)數(shù)據(jù)集上進行實驗,并針對模型中不同模塊進行消融實驗。 3.1.1 數(shù)據(jù)集 本文使用的兩個基準(zhǔn)數(shù)據(jù)集分別為Charades-STA(Gao 等,2017)和ActivityNet Captions(Krishna等,2017)。 Charades-STA 數(shù)據(jù)集是Gao 等人(2017)基于Charades(Sigurdsson 等,2016)擴展得到的。Charades-STA 數(shù)據(jù)集共標(biāo)注得到16 128 個語言描述—視頻片段對,其中12 408個用于模型訓(xùn)練,3 720個用于模型測試。平均每個視頻劃分出2.4 個視頻片段注釋,每個視頻片段平均長度為8.2 s。 ActivityNet Captions 數(shù)據(jù)集原本用于視頻描述任務(wù),Chen 等人(2018)在視頻描述定位任務(wù)上使用該數(shù)據(jù)集。ActivityNet Captions 數(shù)據(jù)集來自于You-Tube 在線視頻,在內(nèi)容上更加復(fù)雜且場景更加開放,數(shù)據(jù)集共有19 209 個未修剪的視頻和71 953 個視頻片段—語言查詢對,其中37 417 個用于模型訓(xùn)練,另外17 505 和17 031 個劃分為驗證集1 和驗證集2。數(shù)據(jù)集中視頻的平均長度為2 min,每個視頻平均有3.65 段語言查詢,每個語言查詢平均有13.48 個單詞。由于ActivityNet Captions 官方?jīng)]有給出測試數(shù)據(jù)集,按照Mun 等人(2020)的方法,將驗證集1 和驗證集2 合并作為模型的測試集。 3.1.2 評價指標(biāo) 為了公平對比,本文采用Gao 等人(2017)的模型評估指標(biāo)進行模型性能測試,即R@n,IoU=m(Recall@n,intersection over union=m),表示top-n的預(yù)測片段中與真實標(biāo)注之間在時間上的交并比大于m在測試數(shù)據(jù)集上所占百分比,本文中設(shè)置IoU閾值m∈{0.3,0.5,0.7},由于本文方法是一種無候選框的視頻描述定位,因此將n設(shè)置為1。除此之外,計算mIoU(mean intersection over union)指標(biāo)評估模型性能,即在測試集上所有預(yù)測結(jié)果的交并比平均值。本文同時采用GFLOPs(giga floating point operations)和模型參數(shù)量大小以及模型推理時間3個指標(biāo)來衡量模型復(fù)雜度。 在特征提取模塊(2.2節(jié))中,對于Charades-STA數(shù)據(jù)集,使用I3D(Carreira 和Zisserman,2017)預(yù)訓(xùn)練模型提取視頻特征,對于ActivityNet Captions 數(shù)據(jù)集,使用C3D(Tran 等,2015)預(yù)訓(xùn)練模型提取視頻特征,本文均勻采樣128個視頻片段,即T=128。本文使用預(yù)訓(xùn)練的全局詞向量(GloVe)(Pennington 等,2014)表示語言查詢。對Charades-STA 和ActivityNet Captions 數(shù)據(jù)集,分別將單詞數(shù)量截斷為最大10 個單詞和25 個單詞,并分別編碼得到3 個(Np=3)和5個(Np=5)語義短語。在運動激勵(2.3.1節(jié))中,將3 次一維卷積conv1(?)的卷積核大小依次設(shè)置為1、15 和1,將降維和升維的倍數(shù)設(shè)置為4,即r=4,對Charades-STA 和ActivityNet Captions 數(shù) 據(jù)集,本文分別將nonlocal 層數(shù)設(shè)置為1 層和2 層。在跳連卷積(2.3.2 節(jié))中,將兩層卷積conv2(?)的卷積核大小設(shè)置為15。對Charades-STA 和ActivityNet Captions 數(shù)據(jù)集,將模型優(yōu)化函數(shù)(2.5 節(jié))中的式(19)的λ分別設(shè)置為λ=0.3 和λ=0.2。在 整個模型中的特征通道數(shù)c=512,c′=1 024,模型優(yōu)化器使用Adam(Kingma 和Ba,2015),學(xué)習(xí)率為0.000 4。 3.3.1 實驗結(jié)果 與本文方法進行性能對比的模型有MCN(moment context network)(Hendricks 等,2017)、CTRL(cross-modal temporal regression localizer)(Gao等,2017)、TGN(temporal groundnet)(Chen 等,2018)、SMRL(semantic matching reinforcement learning)(Wang 等,2019)、ABLR(attention based location regression)(Yuan 等,2019)、ExCL(extractive clip localization)(Ghosh 等,2019)、MAN(moment alignment network)(Zhang 等,2019a)、GDP(graph-FPN with dense predictions)(Chen 等,2020)、CBP(contextual boundary-aware prediction)(Wang 等,2020)、TMLGA(temporal moment localization using guided attention)(Rodriguez-Opazo 等,2020)、LGI(localglobal video-text interactions)(Mun 等,2020)、DRN(dense regression network)(Zeng 等,2020)、MABAN(multi-agent boundary-aware network)(Sun等,2021)、SSMN(single-shot semantic matching network)(Liu等,2021)、BPNet(boundary proposal network)(Xiao等,2021)和CPNet(contextual pyramid network)(Li等,2021)。 表1 和表2 分別展示了在Charades-STA 數(shù)據(jù)集和ActivityNet Captions 數(shù)據(jù)集上的對比結(jié)果,由對比結(jié)果可見,本文方法在多數(shù)評估指標(biāo)上優(yōu)于其他方法。在Charades-STA 數(shù)據(jù)集上,與經(jīng)典的無候選框方法LGI 相比,本文方法在R@1,IoU=0.5 和mIoU指標(biāo)上分別高出1.70%和0.98%。ActivityNet Captions 數(shù)據(jù)集有更復(fù)雜的視頻和更多樣的語言查詢,這給模型精確預(yù)測目標(biāo)片段帶來巨大的挑戰(zhàn),然而本文方法能夠超過其他方法。具體來說,與最新的無候選框方法CPNet 相比,本文方法在R@1,IoU=0.5 和mIoU 指標(biāo)上分別高出2.17%和2.36%。可以看出,通過挖掘視頻中所存在的運動語義信息,可以更準(zhǔn)確地定位目標(biāo)視頻片段。 表1 Charades-STA數(shù)據(jù)集上不同方法的性能對比Table 1 Performance comparison with different methods evaluated on the Charades-STA dataset /% 表2 ActivityNet Captions數(shù)據(jù)集上不同方法的性能對比Table 2 Performance comparison with different methods evaluated on the ActivityNet Captions dataset /% 此外,在Charades-STA 數(shù)據(jù)集上,本文同時與2DTAN(Zhang 等,2020)、DRN(Zeng 等,2020)和LGI(Mun 等,2020)對比了模型所需計算力和推理時間消耗,結(jié)果如表3 所示,其中2DTAN 和DRN 是基于候選框的方法,本文方法和LGI為無候選框的方法。由表3 可以看出,無候選框的方法在參數(shù)量和推理時間上優(yōu)于兩個基于候選框的方法,DRN 在GFLOPs指標(biāo)上取得了最優(yōu)值,然而由于其龐大的候選框數(shù)量導(dǎo)致其模型難以并行計算,在推理時間上不理想。本文方法在參數(shù)量、GFLOPs 和時間3 個指標(biāo)均較為理想的情況下,在評價指標(biāo)R@1,IoU=0.5上優(yōu)于其他模型。 表3 Charades-STA數(shù)據(jù)集上不同模型所需計算力對比Table 3 Comparison of computing power required by different models evaluated on the Charades-STA dataset 3.3.2 消融實驗 本節(jié)對本文方法中所使用的不同模塊進行消融實驗,從而驗證不同模塊對性能的貢獻。本文主要進行了如下幾個消融實驗: 1)多模態(tài)特征優(yōu)化模塊中各部分的作用。本文的多模態(tài)特征優(yōu)化模塊由運動激勵和跳連卷積兩部分組成,本文分別對比有無運動激勵及跳連卷積對模型預(yù)測結(jié)果的影響性能差異,結(jié)果如表4 所示,其中“√”表示相應(yīng)的模塊參與模型的訓(xùn)練,“×”表示沒有參與訓(xùn)練。實驗結(jié)果表明,特征優(yōu)化模塊中的運動激勵和跳連卷積都對多模態(tài)特征的優(yōu)化起到了積極的作用。然而,單獨進行運動激勵或單獨進行跳連卷積都無法準(zhǔn)確地挖掘出視頻中的運動信息,在運動激勵和跳連卷積的共同作用下,在Charades-STA 數(shù)據(jù)集上的召回率在交并比閾值為0.3、0.5 和0.7 時分別提升了4.25%、5.81%和6.48%,而且評價指標(biāo)mIoU 提升了4.27%,這表示兩個模塊有效優(yōu)化了多模態(tài)特征表示,增強了目標(biāo)片段和文本查詢的語義對齊效果。 表4 Charades-STA數(shù)據(jù)集上特征優(yōu)化模塊的不同部分消融實驗Table 4 Ablation studies of each component in feature optimization module on the Charades-STA dataset /% 2)運動激勵中卷積核大小對性能的影響。在運動激勵的式(8)中,計算某一時刻的運動信息時,采用一維卷積的方式融合該時刻的上下文信息,為了研究不同卷積核大小對模型性能的影響,本文進行了如表5 所示的消融實驗。其中分別將卷積核大小設(shè)置為1、3、7、11、15,由實驗結(jié)果可以看到,對于評價指標(biāo)R@1,IoU=0.5,卷積核大小為15 的性能比卷積核大小為1 的性能高出2.24%,這表明當(dāng)卷積核較小時,模型難以整合上下文的信息。 表5 Charades-STA數(shù)據(jù)集上運動激勵卷積核大小的影響分析Table 5 Analysis on convolution kernel size of motion excitation on the Charades-STA dataset /% 3)模型優(yōu)化函數(shù)中不同約束對性能的貢獻。為了研究時序注意力權(quán)重約束和短語級語義發(fā)現(xiàn)權(quán)重約束對模型結(jié)果的影響,進行了如表6 所示的消融實驗。其中“√”表示使用該損失函數(shù)約束模型,“×”表示未使用該損失函數(shù)約束模型。在表6中,第1行為對照組,僅使用預(yù)測邊界約束Lreg計算損失,第2行為實驗組,在約束預(yù)測邊界的同時使用了時序注意力權(quán)重約束,第3 行同時使用預(yù)測邊界約束Lreg、時序注意力權(quán)重約束Ltatt和短語級語義發(fā)現(xiàn)權(quán)重約束Lpatt計算損失,即本文的完整方法。對比第1 行與第2 行的實驗結(jié)果,可見時序注意力權(quán)重約束Ltatt的加入極大程度地影響了模型性能,原因是Ltatt促使模型更趨于關(guān)注重要的目標(biāo)視頻片段并忽略掉不匹配的片段,進而使模型可以回歸得到正確的目標(biāo)開始/結(jié)束時刻。對比第2行和第3行的實驗結(jié)果,在加入短語級語義發(fā)現(xiàn)權(quán)重約束Lpatt后,在IoU 閾值較高(即IoU=0.7)的情況下,召回率提升了3.28%,有顯著提升,說明與沒有Lpatt的情況相比,預(yù)測出的時間邊界值更加精確,其原因為通過Lpatt的約束,模型能更加細(xì)粒度地從文本中挖掘出語義信息,因此預(yù)測結(jié)果的邊界更準(zhǔn)確。 表6 Charades-STA數(shù)據(jù)集上不同損失函數(shù)的消融實驗Table 6 Ablation studies of different loss functions on the Charades-STA dataset /% 同時,為研究損失函數(shù)中的兩個超參數(shù)k1和k2對模型性能的影響,本文采用控制變量法進行實驗,如圖3 所示的實驗結(jié)果表明,當(dāng)k1=1,k2=1 時,模型取得較好的性能,兩組實驗共同說明了不同損失函數(shù)對模型的約束起到了同等重要的作用。 圖3 Charades-STA數(shù)據(jù)集上損失函數(shù)權(quán)重的影響分析Fig.3 Analysis on weight of the loss functions on the Charades-STA dataset 5)運動激勵與跳連卷積的作用時機。為了研究在多模態(tài)特征優(yōu)化過程中的兩個模塊作用時機對模型性能的影響,本文進行了3 組實驗,分別比較運動激勵先于跳連卷積、跳連卷積先于運動激勵,以及兩個模塊并列(即本文方法)3 種方法的性能差異,實驗結(jié)果如表7 所示。通過對比前兩組實驗,在Charades-STA 數(shù)據(jù)集上,當(dāng)交并比閾值為0.5 和0.7時,運動激勵優(yōu)先的方法比時序卷積優(yōu)先的召回率高出0.70%和2.26%,這表明當(dāng)運動激勵優(yōu)先時,模型的預(yù)測結(jié)果的邊界更加準(zhǔn)確。然而在運動激勵塊與時序卷積塊并行(即本文方法)的情況下,預(yù)測準(zhǔn)確度在所有指標(biāo)上都有所提升,這表明運動激勵與跳連卷積兩個模塊同等重要,當(dāng)兩個模塊同時作用時,多模態(tài)表征可以得到有效優(yōu)化。 表7 特征優(yōu)化模塊中運動激勵塊的不同位置在Charades-STA數(shù)據(jù)集上對視頻描述定位性能的影響Table 7 The effect of different sequences of motion excitation block in feature optimization module for video grounding on the Charades-STA dataset /% 3.3.3 視頻描述定位結(jié)果可視化 圖4 和圖5 分別展示了本文方法在Charades-STA 測試集上的預(yù)測成功樣例和失敗樣例的可視化結(jié)果。如圖4(a)和圖5(a)所示,本文用灰色框標(biāo)注出了數(shù)據(jù)集標(biāo)簽中的目標(biāo)片段,綠色框為運動激勵模塊不參與(w/o ME)訓(xùn)練的預(yù)測結(jié)果,藍(lán)色框為本文完整方法的預(yù)測結(jié)果,在圖5 所示的樣例中,由于數(shù)據(jù)集標(biāo)簽不全面,即存在0~8.3 s 和9.5~18.2 s兩段目標(biāo)片段,因此本文用橙色框標(biāo)注出實際觀測下的目標(biāo)片段。對于運動激勵模塊不參與訓(xùn)練以及本文完整方法兩種情況,將式(14)中所預(yù)測時序注意力權(quán)重可視化后如圖4(b)和圖5(b)所示,將式(13)中得到的多模態(tài)特征表示使用t-SNE 降維,其特征分布圖如圖4(c)和圖5(c)所示。從可視化樣例中可以看出,在運動激勵模塊不參與訓(xùn)練的情況下,多模態(tài)特征難以表示出目標(biāo)片段與無關(guān)片段的差異,且時序注意力權(quán)重?zé)o明顯規(guī)律,因此最終無法預(yù)測出準(zhǔn)確的結(jié)果。與之相對,本文完整方法在運動激勵模塊的作用下,模型可以利用視頻中所包含的運動語義優(yōu)化多模態(tài)特征的表征能力,得到差異化的特征表示,同時時序注意力權(quán)重關(guān)注視頻中包含運動信息的片段,從而更精確地預(yù)測視頻與語言查詢的匹配關(guān)系。在圖5所示的標(biāo)簽不全面的情況下,本文方法依然預(yù)測出其中一個匹配的目標(biāo)片段,這進一步說明了本文方法的有效性和魯棒性。 圖4 Charades-STA測試集的成功樣例可視化Fig.4 Visualization of a successful prediction case on the Charades-STA testset((a)visualization of the localization results;(b)temporal attention weights ;(c)t-SNE embedding of the multi-model feature) 圖5 Charades-STA測試集的失敗樣例可視化Fig.5 Visualization of a failure case on the Charades-STA testset((a)visualization of the localization results;(b)temporal attention weights ;(c)t-SNE embedding of the multi-model feature ) 針對視頻描述定位任務(wù)中視頻—文本多模態(tài)表征所存在的挑戰(zhàn),本文提出一種使用運動語義信息優(yōu)化多模態(tài)表征的新方法。為了構(gòu)建細(xì)粒度的語言查詢表征,基于自注意力機制學(xué)習(xí)多個語義短語特征,并分別與視頻特征融合得到細(xì)粒度的多模態(tài)特征表示。為了充分挖掘視頻—文本多模態(tài)表征中目標(biāo)片段的運動信息,使用時序卷積塊對運動語義的上下文信息建模,并使用運動激勵塊構(gòu)建出響應(yīng)運動語義信息的通道權(quán)重分布,從時序維度和特征通道兩方面增強了多模態(tài)特征運動語義的表征能力。最后采用非局部模塊以及時序注意力池化模塊,將多模態(tài)特征融合一個特征向量,以一種無候選框的方式實現(xiàn)了更精準(zhǔn)視頻描述定位。 本文在視頻描述定位的兩個基準(zhǔn)數(shù)據(jù)集Charades-STA 和 ActivityNet Captions 上驗證了方法的有效性,并與現(xiàn)有其他方法進行對比。實驗結(jié)果表明,本文方法在多數(shù)評價指標(biāo)上超過其他方法,這證明了運動語義信息優(yōu)化多模態(tài)表征方法的有效性。此外,通過消融實驗驗證了通過挖掘視頻中的運動語義信息,可以構(gòu)建更具有表征能力的多模態(tài)特征,有效提高模型定位目標(biāo)片段的準(zhǔn)確性。2.3 特征優(yōu)化模塊
2.4 邊界預(yù)測模塊
2.5 模型優(yōu)化函數(shù)
3 實驗及結(jié)果分析
3.1 數(shù)據(jù)集和評價指標(biāo)
3.2 實驗細(xì)節(jié)
3.3 實驗結(jié)果分析
4 結(jié)論