• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進的雙向長短期記憶網(wǎng)絡(luò)的視頻摘要生成模型

      2021-07-30 10:33:16武光利李雷霆郭振洲王成祥
      計算機應(yīng)用 2021年7期
      關(guān)鍵詞:關(guān)鍵幀池化卷積

      武光利,李雷霆,郭振洲,王成祥

      (1.甘肅政法大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,蘭州 730070;2.中國民族語言文字信息技術(shù)教育部重點實驗室(西北民族大學(xué)),蘭州 730030)

      0 引言

      近年來,隨著科技的不斷進步,人們拍攝各種高質(zhì)量的視頻變得越來越方便,一部手機就可以滿足日常的視頻拍攝需求,在享受便捷視頻捕獲與分享時也面臨一個嚴峻挑戰(zhàn):海量視頻數(shù)據(jù)的理解與分析。面對這些無窮盡的視頻數(shù)據(jù),用戶迫切需要一個能夠快速分析視頻內(nèi)容的有效工具,視頻摘要技術(shù)因此應(yīng)運而生,成為幫助人們快速瀏覽視頻數(shù)據(jù)的關(guān)鍵工具[1]。

      視頻摘要就是以視頻的結(jié)構(gòu)和內(nèi)容為主要分析目標(biāo),獲取其中有意義的片段,然后用特定的方法將片段拼接成能概括視頻內(nèi)容的視頻概要。視頻摘要根據(jù)不同的獲取方式可以分為兩類:動態(tài)視頻摘要和靜態(tài)視頻摘要。

      靜態(tài)視頻摘要是從原始視頻中提取少部分圖像作為摘要內(nèi)容,這些靜止幀概括了視頻的關(guān)鍵內(nèi)容,稱為關(guān)鍵幀。靜態(tài)視頻摘要按關(guān)鍵幀提取方法不同,主要分為以下幾類:

      1)基于視頻聚類的關(guān)鍵幀提取方法。聚類算法廣泛應(yīng)用于模式識別、音頻分析、圖片分割、信息檢索等領(lǐng)域。鏡頭聚類以聚類的方法為基礎(chǔ),對每個鏡頭進行分析,然后將特征相近的幀劃分為一類,最后從每一類中按照一定方法選取關(guān)鍵幀,文獻[2-4]通過對圖像視覺特征的提取和改進,提升了聚類方法的準(zhǔn)確率。聚類方法對未知視頻的預(yù)測效果較差,而且運算復(fù)雜度較高。

      2)基于視頻幀信息的關(guān)鍵幀提取方法。這一類方法主要考慮視頻幀包含的特征信息,例如顏色、形狀、紋理等,通過提取到的特征信息,計算相鄰幀之間的相似性,將相似性低的幀按照需求選為關(guān)鍵幀[5-6]。基于視頻幀信息的方法可以根據(jù)視頻內(nèi)容的顯著性變化來靈活確定關(guān)鍵幀數(shù)目,但不足之處是:當(dāng)鏡頭的變化較多時,容易導(dǎo)致選取的關(guān)鍵幀數(shù)目過多,造成冗余。

      3)基于鏡頭邊界的關(guān)鍵幀提取方法。這類方法首先要將源視頻進行鏡頭劃分,之后在不同鏡頭中選取關(guān)鍵幀[7-9]。Gong 等[10]提出的SeqDPP(Sequence Determinantal Point Process)方法是一個用于不同序列子集選擇的概率模型,能夠較好地考慮到幀之間的依賴關(guān)系和視頻的順序結(jié)構(gòu)?;阽R頭的方法容易設(shè)計,計算速度快,非常適合于場景變換少的情況;但當(dāng)視頻的鏡頭變換復(fù)雜且方式多樣時,會導(dǎo)致提取的關(guān)鍵幀不能準(zhǔn)確概括源視頻內(nèi)容。

      靜態(tài)摘要最大的不足是合成的摘要不具有時序連貫性,給人一種快進的感覺,而動態(tài)摘要是將鏡頭進行組合,在不丟失關(guān)鍵內(nèi)容的同時保留了視覺連貫性。因此本文重點研究動態(tài)摘要。

      動態(tài)視頻摘要主要包括視頻鏡頭分割、視頻鏡頭評價、視頻鏡頭選擇。視頻鏡頭分割是將一個完整視頻切分成若干個短視頻,是動態(tài)摘要的基礎(chǔ);視頻鏡頭評價則是根據(jù)不同的方法計算出每個鏡頭的重要性;視頻鏡頭選擇是根據(jù)具體需求選擇合適的鏡頭組合成視頻摘要。

      鏡頭劃分完成后,需要選出關(guān)鍵鏡頭組合成摘要。視頻可以看作具有時間連續(xù)性的圖片集,目前循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)在處理序列數(shù)據(jù)方面效果顯著,雖然常用的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在提取單張圖片特征方面能力較強,但往往忽視了圖片間的內(nèi)在關(guān)聯(lián),而RNN 充分考慮時間維度,能夠描述出時間上連續(xù)狀態(tài)的輸出,還具有一定的記憶功能。其中長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)作為RNN的變體,常用于解決RNN 無法構(gòu)建遠程依賴的問題,對長序列數(shù)據(jù)的處理十分擅長。LSTM網(wǎng)絡(luò)大多數(shù)用于編碼器-解碼器架構(gòu),這種架構(gòu)可以高效率處理變長序列問題。因此,基于編碼器-解碼器架構(gòu)的LSTM 網(wǎng)絡(luò)應(yīng)用于視頻摘要領(lǐng)域是可行且有效的。

      Zhang 等[11]首次將LSTM 網(wǎng)絡(luò)應(yīng)用到視頻摘要任務(wù),提出了VSLSTM(Video Summary Long-Short Term Memory)模型,通過雙向長短期記憶(Bi-directional Long-Short Term Memory,BiLSTM)網(wǎng)絡(luò)預(yù)測視頻幀的重要性得分,同時為了提高生成摘要的多樣性,還提出了DPPLSTM(Determinantal Point Process Long-Short Term Memory)模型,通過BiLSTM 網(wǎng)絡(luò)輸出幀級重要性分數(shù)和幀間相似度,然后將它們與行列式點過程結(jié)合,選擇出最終摘要。Ji 等[12]將注意力機制與編碼解碼器相結(jié)合完成視頻摘要任務(wù),其中編碼部分由BiLSTM 網(wǎng)絡(luò)構(gòu)成,解碼器部分通過基于注意力機制的LSTM 網(wǎng)絡(luò)完成解碼并輸出。

      上述基于編碼器-解碼器架構(gòu)的模型已被驗證能有效處理長序列數(shù)據(jù),但仍有一些不足。例如,編碼器-解碼器框架的預(yù)測效果雖然較好,但是計算復(fù)雜度非常高,尤其是選擇了BiLSTM 網(wǎng)絡(luò)作為基礎(chǔ)模型時,隨著輸入序列增加,計算量急劇增大,模型輸出的特征維度變大,使得全連接層參數(shù)過多,容易出現(xiàn)過擬合問題。

      為了減少過擬合問題的出現(xiàn),同時考慮到視頻摘要具有時序性質(zhì),本文提出了基于改進的BiLSTM網(wǎng)絡(luò)的視頻摘要生成模型。該模型基于編碼器-解碼器框架,編碼器部分由CNN 提取視頻幀的深度特征,而解碼器則由結(jié)合了最大池化的BiLSTM 網(wǎng)絡(luò)構(gòu)成。本文的訓(xùn)練是基于有監(jiān)督的訓(xùn)練,當(dāng)CNN 提取的視頻幀特征傳入BiLSTM 網(wǎng)絡(luò)后,輸出基于時間序列的特征,該特征輸入最大池化進行特征優(yōu)化后,經(jīng)由全連接層輸出模型最終結(jié)果。將BiLSTM網(wǎng)絡(luò)與最大池化結(jié)合后,能夠降低特征維度,突出關(guān)鍵特征,過濾無關(guān)特征,減少全連接層所需參數(shù),避免過擬合問題。

      本文的主要工作如下:

      1)提出了一種基于改進的BiLSTM網(wǎng)絡(luò)的視頻摘要模型。通過將BiLSTM網(wǎng)絡(luò)與最大池化的結(jié)合,有效降低了輸出特征維度,降低了全連接層的運算復(fù)雜度,避免出現(xiàn)過擬合問題。

      2)在兩個公開數(shù)據(jù)集TvSum 和SumMe 上與基于LSTM 網(wǎng)絡(luò)的方法進行了比較,結(jié)果顯示本文模型的F1-score 分別提高1.4和0.3個百分點。

      1 相關(guān)工作

      1.1 卷積神經(jīng)網(wǎng)絡(luò)

      本文使用的CNN模型是VGG(Visual Geometry Group)[13]。VGG 網(wǎng)絡(luò)突出特點是簡單,這體現(xiàn)在它的所有卷積層的卷積核尺寸均為3,池化層核均為2,模型由各個層堆疊而成。例如VGG 網(wǎng)絡(luò)的經(jīng)典之一:VGG16,它包含13 個卷積層和5 個池化層以及3 個全連接層,相同尺寸卷積核經(jīng)過卷積后能夠產(chǎn)生相同尺寸特征圖,2×2 的池化核使得池化后的特征圖大小縮減為原來一半。圖1展示了VGG16的網(wǎng)絡(luò)結(jié)構(gòu)。

      圖1 VGG16網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 VGG16 network structure

      1.2 長短期記憶網(wǎng)絡(luò)

      BiLSTM 網(wǎng)絡(luò)由一個前向的LSTM 和一個后向的LSTM 組成,能夠?qū)斎霐?shù)據(jù)進行正向和反向遍歷,可以為網(wǎng)絡(luò)提供更豐富的信息,讓網(wǎng)絡(luò)能夠更快、更充分地學(xué)習(xí)。

      LSTM 是RNN 的一個變形,RNN 的一個顯著缺點就是沒辦法處理較長的序列數(shù)據(jù),會出現(xiàn)梯度消失和梯度爆炸問題。針對這種問題,LSTM新增了一種結(jié)構(gòu):細胞結(jié)構(gòu),這種結(jié)構(gòu)由細胞狀態(tài)ct和三個門組成。細胞狀態(tài)可以理解為一條傳送帶,它在整條鏈上運行,通常ct是由上一個狀態(tài)ct-1和一些其他數(shù)值構(gòu)成,因此細胞態(tài)的改變是緩慢的。門可以讓信息選擇性地通過,主要由一個sigmoid 層和點乘運算構(gòu)成,sigmoid層的輸出中每個元素都是0~1 的實數(shù),它的大小代表著是否讓信息通過的權(quán)重,0 代表不允許通過,1 代表全部通過。細胞結(jié)構(gòu)如圖2所示。

      圖2 LSTM細胞結(jié)構(gòu)Fig.2 LSTM cell structure

      細胞結(jié)構(gòu)中的第一個門被稱為遺忘門ft,從名字上不難理解,它決定著從細胞狀態(tài)中丟棄多少信息。該門首先會讀取上一次輸出的隱藏狀態(tài)ht-1和本次的輸入xt,經(jīng)過處理后,輸出一個0 和1 之間的數(shù),這個數(shù)的意義就是前面提到的sigmoid輸出值的意義。遺忘門計算公式如下:

      式中:σ為sigmoid函數(shù),wf是權(quán)重系數(shù),bf是偏置系數(shù)。

      細胞結(jié)構(gòu)中的第二個門被稱為輸入門,該門控制著有多少新信息加入到細胞狀態(tài)中,它需要兩步來實現(xiàn),第一步輸入狀態(tài)it決定哪些信息需要更新,決定備選用于更新的信息。第二步通過乘運算將兩者結(jié)合,來對細胞狀態(tài)更新。ct-1與ft進行乘運算,然后加上it與的乘運算結(jié)果,形成新的候選值。用到公式如下:

      細胞結(jié)構(gòu)中的第三個門被稱為輸出門,這個門決定最終輸出哪些信息。輸出的信息基于細胞狀態(tài)和輸出狀態(tài)ot,ot根據(jù)上時刻隱藏狀態(tài)ht-1和當(dāng)前輸入xt來決定要輸出細胞狀態(tài)的哪部分,然后將細胞狀態(tài)經(jīng)過tanh 后與ot進行乘運算得到最終輸出結(jié)果,用到公式如下:

      1.3 池化

      池化具有兩大優(yōu)點:一是能夠顯著減少參數(shù)數(shù)量。圖像經(jīng)過卷積后獲得圖像的特征,若直接用特征進行運算,將會面臨巨大運算量的挑戰(zhàn)。但是經(jīng)過池化以后特征減少,模型復(fù)雜度降低,能夠極大提高運算速度,同時減少過擬合的出現(xiàn)。二是池化具有平移不變性,這意味著即使圖像產(chǎn)生了小的平移,仍然會產(chǎn)生同樣的池化特征。例如在對視頻中關(guān)鍵人物進行特征提取時,即使兩張圖像中關(guān)鍵人物的位置不同,經(jīng)過池化后依舊可以提取到相同的關(guān)鍵特征,更好地完成任務(wù)。

      常用的池化方式有最大池化(max pooling)和平均池化(mean pooling)。兩者都是提取區(qū)域特征,能夠過濾部分不重要信息,使得細節(jié)上更容易識別。通常來說,最大池化能夠更多地保留紋理特征,平均池化能更多地保留背景特征,根據(jù)任務(wù)不同選擇合適的池化方式。圖3展示了特征的池化過程。

      圖3 特征池化過程Fig.3 Process of feature pooling

      2 模型構(gòu)建

      基于監(jiān)督學(xué)習(xí)的視頻摘要任務(wù)可以看作是序列預(yù)測問題,因此設(shè)計了一個基于改進的BiLSTM網(wǎng)絡(luò)的視頻摘要生成模 型BLMSM(Bi-directional Long short-term memory Max pooling Summarization Model),模型結(jié)構(gòu)如圖4 所示。該網(wǎng)絡(luò)通過卷積神經(jīng)網(wǎng)絡(luò)VGG16 來提取圖像特征,然后通過BiLSTM 網(wǎng)絡(luò)將圖像特征轉(zhuǎn)換為時序特征,增加了模型可學(xué)習(xí)的上下文特征;之后創(chuàng)新地結(jié)合最大池化方法,將特征進行優(yōu)化,更加突出中心關(guān)鍵特征淡化無關(guān)特征;最后通過全連接層得到視頻幀的重要性得分,然后將視頻幀得分轉(zhuǎn)換為鏡頭得分,通過0/1背包算法選擇出關(guān)鍵鏡頭,最后合成為視頻摘要。圖5展示了算法流程。

      圖4 BLMSN模型結(jié)構(gòu)Fig.4 BLMSN model structure

      圖5 基于改進BiLSTM的視頻摘要生成技術(shù)流程Fig.5 Flowchart of video summarization generation technology based on improved BiLSTM

      2.1 圖像特征提取

      圖像特征提取部分主要由VGG16 的卷積層和池化層完成,共13 個卷積層和5 個池化層,卷積層的卷積核大小均為3×3,池化核均為2×2。每經(jīng)過一次卷積提取的圖像特征便不斷加深,然后利用池化層過濾部分無效特征,突出局部重要特征,通過這種反復(fù)堆疊3×3 的小卷積核與2×2 池化核,容易形成深層的網(wǎng)絡(luò)結(jié)構(gòu)來提升性能,進而提取出更加有效的圖像特征。圖6展示了圖像特征提取過程。

      圖6 VGG16提取圖像特征Fig.6 VGG16 extracting image features

      2.2 時序特征提取

      LSTM將卷積神經(jīng)網(wǎng)絡(luò)階段輸出的深度特征,以時間步的形式輸入到LSTM 的網(wǎng)絡(luò)中,并基于監(jiān)督學(xué)習(xí)與深度學(xué)習(xí)進行模型訓(xùn)練,得到時序特征。由前面可知,VGG16 最終輸出特征維度為(b,c,h,w),LSTM 中batch-first 參數(shù)設(shè)置為True 后輸入張量的維度(batch_size,seq_len,input_size),因此重新定義VGG16 輸出維度為(b,c,h×w)作為LSTM 輸入,使得每一幀的特征信息能夠完整傳遞。同時,為了能更好地考慮時間序列帶來的影響,本文選取BiLSTM,因為當(dāng)前時刻的輸出不僅與之前的狀態(tài)相關(guān),還可能與將來的狀態(tài)有關(guān),因此兩個LSTM 分別從正向和反向進行計算,最后對兩個結(jié)果進行合并。圖7展示了BiLSTM提取圖像時序特征。

      圖7 BiLSTM提取圖像時序特征Fig.7 BiLSTM extracting image sequence features

      2.3 特征優(yōu)化處理

      max pooling 的應(yīng)用,減少了網(wǎng)絡(luò)參數(shù)與運算量,能降低模型復(fù)雜度,防止過擬合發(fā)生,同時對于之后的全連接層,還能減少單個過濾器的參數(shù)數(shù)量,提升運算效率。

      本次max pooling 由MaxPool2d 實 現(xiàn),其 中kernel_size 和stride 參數(shù)均設(shè)置為5,padding 參數(shù)置為0,dilation 參數(shù)置為0。池化的輸出尺寸計算公式如下:

      式中:p為參數(shù)padding,d為參數(shù)dilation,ksize為參數(shù)kernel。

      特征優(yōu)化處理是整個模型的核心,同時也是創(chuàng)新點所在,采用了最大池化的方法對LSTM 輸出的時序特征進行降維壓縮,提升運算速度。最大池化對于不同位置的關(guān)鍵特征,既可以保持特征位置信息,又具有平移不變性,因此關(guān)鍵特征即使出現(xiàn)位置不同,也能將其提出。在視頻摘要任務(wù)中,關(guān)鍵特征十分重要,例如關(guān)鍵的人和物,這些關(guān)鍵特征的信息能否成功提取對于視頻摘要的生成起決定性作用。特征優(yōu)化如圖8所示。

      圖8 特征優(yōu)化過程Fig.8 Process of feature optimization

      2.4 基于重要性分數(shù)的視頻摘要

      視頻摘要最終展現(xiàn)出的是關(guān)鍵幀組合成的壓縮視頻,因此關(guān)鍵幀的選擇直接影響到視頻摘要的質(zhì)量。本文模型輸出的是幀級別的重要性得分,相比對幀集合的打分,計算復(fù)雜度明顯降低,同時對于幀數(shù)的選擇靈活,能夠根據(jù)不同場景選擇適當(dāng)數(shù)目關(guān)鍵幀。

      式(7)亦可稱為經(jīng)驗風(fēng)險,因此最優(yōu)模型的策略等價于經(jīng)驗風(fēng)險最小,最優(yōu)化問題轉(zhuǎn)換為經(jīng)驗風(fēng)險最小化問題:

      式中Γ為模型假設(shè)空間

      2.5 幀級重要性分數(shù)轉(zhuǎn)換鏡頭分數(shù)

      本文任務(wù)基于動態(tài)視頻摘要技術(shù),最終合成的摘要應(yīng)當(dāng)是視頻鏡頭的合集,由于模型輸出結(jié)果是幀級別重要性得分,因此需要將幀級分數(shù)轉(zhuǎn)化為鏡頭分數(shù)。首先要對視頻進行鏡頭劃分,本文使用在鏡頭分割方面效果優(yōu)異的內(nèi)核時間分割(Kernel Temporal Segmentation,KTS)算法[14]。對視頻執(zhí)行變點檢測并將視頻進行鏡頭分段。然后根據(jù)鏡頭中每幀的分數(shù)加和求平均得到鏡頭的分數(shù)ci(式(9))。此外,根據(jù)Fajtl等[15]的建議,生成摘要的長度限制為原始視頻長度的15%,本文任務(wù)需要選擇最大化分數(shù)的鏡頭,選擇滿足條件的鏡頭等價于NP 難問題,因此使用0/1 背包算法來選擇合適鏡頭組成摘要(式(10))。

      其中:ci為第i個鏡頭,Ni為第i個鏡頭包含的幀數(shù),si,j為第i個鏡頭中第j幀的分數(shù);ui∈{0,1}表示是否被選為關(guān)鍵鏡頭;K表示鏡頭的數(shù)量,L表示視頻的總幀數(shù)。

      3 實驗結(jié)果與分析

      3.1 實驗設(shè)計

      3.1.1 數(shù)據(jù)集

      本次實驗主要在TvSum[16]和SumMe[17]兩個數(shù)據(jù)集上進行,表1展示了它們的具體信息。

      表1 兩個標(biāo)準(zhǔn)數(shù)據(jù)集的詳細信息Tab.1 Details of two standard datasets

      TvSum 數(shù)據(jù)集是視頻摘要領(lǐng)域常用的數(shù)據(jù)集。它包含了50 個視頻,所有視頻均來自YouTube,這50 個視頻共分成10個主題,每個主題包含5 個視頻。該數(shù)據(jù)集還包含了每個視頻的標(biāo)注得分,這些得分來自20 個不同人使用亞馬遜儀器進行標(biāo)注,標(biāo)注從1(不重要)到5(重要)進行選擇。圖9 展示了數(shù)據(jù)集部分圖像。

      圖9 TvSum視頻圖像示例Fig.9 Video image examples of TvSum

      SumMe數(shù)據(jù)集是驗證視頻摘要技術(shù)的一個常用基準(zhǔn)。它由25 個視頻組成,視頻包含假日外出、美食鑒賞、運動挑戰(zhàn)等多個主題。每個視頻由15~18個人進行標(biāo)注。圖10展示了數(shù)據(jù)集的部分圖像。

      圖10 SumMe視頻圖像示例Fig.10 Video image examples of SumMe

      3.1.2 評估指標(biāo)

      為了與其他方法進行比較,本文按照文獻[14]中的評價方法,即通過對比模型生成的視頻摘要和人工選擇的視頻摘要的一致性來評估模型的性能,衡量指標(biāo)采用計算F1-score值。假設(shè)S為模型生成的摘要,G為人工選擇的摘要,O為S和G重疊的部分,精準(zhǔn)率和召回率計算如下:

      由式(11)、(12)可以計算出用于評估視頻摘要的F1-score。

      3.1.3 實驗設(shè)置

      選取數(shù)據(jù)集的80%作為訓(xùn)練集,剩下20%作為測試集。TvSum 數(shù)據(jù)集共50 個視頻,其中40 個視頻用于訓(xùn)練,10 個視頻用于測試,視頻幀速率均為30 幀/s(Frames Per Second,F(xiàn)PS);SumMe 數(shù)據(jù)集共25 個視頻,20 個視頻用于訓(xùn)練,10 個視頻用于測試,視頻幀速率為30 FPS。由于視頻分辨率不同,實驗時將分辨率統(tǒng)一設(shè)置為224×224??紤]到視頻進行鏡頭劃分后,同一個鏡頭中的幀是非常相似的,同時相鄰幀包含的信息量也是相同的,因此對每個視頻進行子采樣,每15 幀選取一幀,使得模型訓(xùn)練速度大大加快。

      該次實驗使用的兩個基準(zhǔn)數(shù)據(jù)集數(shù)據(jù)量較小,同時為了減少過擬合現(xiàn)象的出現(xiàn)和提升模型泛化能力,本項目對數(shù)據(jù)集使用5 折交叉驗證。此外,根據(jù)文獻[16-18]中的相關(guān)研究,對TvSum 評估測試時,選取每個用戶F1-score 值的平均值作為最后結(jié)果;對SumMe 評估測試時,選取每個用戶F1-score值中最大值作為最后結(jié)果。

      3.2 結(jié)果對比與預(yù)測

      3.2.1 對比實驗

      本文選擇了兩種基于LSTM 算法的視頻摘要模型進行對比,對比數(shù)據(jù)均來自原始論文:1)VSLSTM[11]使用雙向LSTM為基礎(chǔ),建立過去和將來方向上的遠程依賴,最后與多層感知器相結(jié)合;2)DPPLSTM[11]是在VSLSTM 的基礎(chǔ)上新增了行列式點過程,能夠增加生成摘要的多樣性。

      根據(jù)表2 數(shù)據(jù)可知,本文方法在兩個基準(zhǔn)數(shù)據(jù)集上相比其他兩種LSTM 方法取得了更好的效果。在TvSum 數(shù)據(jù)集上,本文的方法F1-score 值提高了1.4 個百分點,在SumMe 數(shù)據(jù)集上,本文的方法F1-score 提高了0.3 個百分點。分析可知,本文的方法(BLMSN)將BiLSTM 與max pooling 結(jié)合,在保留前面方法優(yōu)點的同時,通過max pooling保留了重要特征,過濾了部分無關(guān)特征,同時達到了降維的效果,減少了全連接層參數(shù)數(shù)量,避免了過擬合的出現(xiàn),提高了摘要選擇準(zhǔn)確性。

      表2 BLMSN模型與其他模型的F1-score比較 單位:%Tab.2 Comparison of F1-score between BLMSN model and other models unit:%

      3.2.2 定性結(jié)果與分析

      為了更好地直觀展示本文模型生成的視頻摘要質(zhì)量,以數(shù)據(jù)集TvSum 中的視頻4 為例,繪制它們真實分數(shù)與預(yù)測分數(shù)如圖11 所示,實線表示人工選擇的真實分數(shù),點線表示模型預(yù)測分數(shù)。從圖11 可以看到本文方法預(yù)測得分與人工打分變化趨勢基本一致,說明了方法具有可行性,但在第90 幀與第200 幀附近預(yù)測不夠準(zhǔn)確,說明方法還有提升空間??偟膩碚f,本文方法與人工摘要之間具有明確的關(guān)聯(lián)性,證明了該方法的有效性。

      圖11 視頻4預(yù)測分數(shù)對比Fig.11 Comparison of prediction scores in video 4

      3.2.3 效果預(yù)測

      本文提出的BLMSN 模型可用于制作視頻摘要,能向用戶快速展示一個較長視頻的整體內(nèi)容。為了檢驗?zāi)P偷姆夯阅?,本文選取數(shù)據(jù)集UCF-crime中第10個視頻進行測試。

      原始視頻“Crime_10”時長約為2 min 12 s,描述了一伙人用車撞開防護進行偷盜的事件,提取到的關(guān)鍵鏡頭如圖12 所示。

      圖12 本文方法提取視頻“Crime_10”中的關(guān)鍵鏡頭Fig.12 Key shots extracted by the proposed method in vi deo“Crime_10”

      原視頻是監(jiān)控攝像頭下拍攝到的犯罪事件,通過視頻摘要技術(shù)能夠?qū)?shù)分鐘的視頻壓縮至數(shù)十秒甚至數(shù)秒,同時不丟失關(guān)鍵信息。這也是將來打算更深一步研究的方向,將視頻摘要技術(shù)同公安領(lǐng)域結(jié)合,使數(shù)百小時的監(jiān)控視頻縮短至幾十分鐘,幫助辦案人員提高效率,快速鎖定目標(biāo)。

      4 結(jié)語

      本文提出一種基于改進的BiLSTM的視頻摘要生成方法,該方法通過CNN 提取視頻幀的深度特征,然后利用BiLSTM獲得時序特征,將時序特征經(jīng)由最大池化進行特征優(yōu)化,有效降低了特征維度,突出關(guān)鍵特征,減少無關(guān)特征,同時減少了后續(xù)全連接層所需的參數(shù)數(shù)量,提升了運算速度,避免了過擬合問題。雖然模型預(yù)測分數(shù)基本與人工選擇分數(shù)變化一致,但部分分數(shù)轉(zhuǎn)折段的預(yù)測仍不夠準(zhǔn)確,導(dǎo)致最終F1-score 值較低,如何構(gòu)建又快又準(zhǔn)的視頻摘要模型,同時跨場景應(yīng)用時仍然能保持優(yōu)異的效果是今后主要的努力方向。

      猜你喜歡
      關(guān)鍵幀池化卷積
      基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識別方法研究
      無線電工程(2024年8期)2024-09-16 00:00:00
      基于Sobel算子的池化算法設(shè)計
      卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      基于改進關(guān)鍵幀選擇的RGB-D SLAM算法
      基于相關(guān)系數(shù)的道路監(jiān)控視頻關(guān)鍵幀提取算法
      基于聚散熵及運動目標(biāo)檢測的監(jiān)控視頻關(guān)鍵幀提取
      昆山市| 长岛县| 武汉市| 东港市| 武定县| 灵璧县| 淮滨县| 昌邑市| 抚远县| 迁西县| 营山县| 德惠市| 永嘉县| 江达县| 宁强县| 吴桥县| 吉水县| 突泉县| 庆阳市| 仪陇县| 六枝特区| 德昌县| 报价| 渑池县| 饶河县| 偃师市| 双峰县| 彭州市| 韶山市| 卢氏县| 高州市| 哈密市| 钟山县| 许昌市| 乌兰察布市| 宾阳县| 莱西市| 鲁甸县| 谷城县| 林口县| 深州市|