• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于融合特征的視頻關鍵幀提取方法①

    2019-11-15 07:07:18張曉宇張云華
    計算機系統(tǒng)應用 2019年11期
    關鍵詞:關鍵幀直方圖卷積

    張曉宇,張云華

    (浙江理工大學 信息學院,杭州 310018)

    引言

    隨著5G 技術的普及,各種網(wǎng)絡視頻數(shù)量將會迎來進一步的增長,由此對視頻的分類、檢測、識別也必將被更廣泛的應用.當前視頻分類等研究通常是對視頻幀的特征進行分析,然而視頻由于自身原因通常會存在大量冗余幀,如果對所有幀進行特征分析,必然會對速度和效率有極大的影響,而用關鍵幀可以大大降低視頻幀的冗余問題.

    當前對關鍵幀的提取方法是基于圖像的傳統(tǒng)手工特征,如紋理特征、形狀特征等,但這種提取方法通常只提取視頻幀的相鄰幀之間的關系從而忽略了距離較遠幀的前后運動特征的依賴分析,出現(xiàn)漏幀的現(xiàn)象.因此有學者采用運動特征來提取關鍵幀,如通過分析視頻幀的光流場進而根據(jù)運動場的變化提取運動特征,雖然相對顏色等特征,這種方法提高了準確度但光流場特征的提取通常比較復雜.本文選取并融合了圖像的顏色特征和圖像目標的形狀特征作為傳統(tǒng)手工特征.

    在1989年Yann LeCun 初次提出“卷積”的概念,并構建應用于圖像分類的卷積神經(jīng)網(wǎng)絡模型LeNet.在ILSVRC-2012 比賽中,Krizhevsky 等人設計出深度卷積網(wǎng)絡模型AlexNet[1],將圖像分類錯誤率從26.2%降到了15.3%,識別準確度遠高于其他方法,這促進卷積神經(jīng)網(wǎng)絡在視覺圖像領域得到快速的發(fā)展,發(fā)展至今,其在圖像方面顯示出了更優(yōu)秀的表現(xiàn).因此本文使用卷積神經(jīng)網(wǎng)絡提取特征向量作為視頻幀的深度特征,然后選擇合適的圖像相似度度量方法計算圖像間相似性.

    基于以上思想,本文主要有以下3 個方面工作:(1)相對以往固定閾值的方法,本文采用自適應閾值,動態(tài)獲取視頻的關鍵幀數(shù)量;(2)分別提取深度特征與手工特征并計算相似度,融合兩者相似度提取關鍵幀;(3)對比3 種視頻關鍵幀提取方法實驗數(shù)據(jù),驗證本文算法的有效性.

    1 相關研究

    早期對關鍵幀的提取大多是基于圖像的底層特征,主要包含圖像顏色特征、圖像紋理特征、圖像形狀特征等[2].對于顏色特征的提取方法通常利用RGB 空間的顏色直方圖、HSV 空間的顏色直方圖、顏色聚合向量等[3];對紋理特征的提取方法通常利用LBP 方法、馬爾可夫隨機場模型法、灰度共生矩陣等;對形狀特征的方法通常利用幾何參數(shù)法、傅里葉形狀描述法、小波描述子等.現(xiàn)有的特征提取方法大部分都是基于一種或多種特征的融合,但圖像的底層特征通常提取有限,無法獲取圖片高級特征,雖然目前提取的效果不錯,但仍有待提高.

    隨著深度網(wǎng)絡結果的發(fā)展,人們發(fā)現(xiàn)對于視頻類的圖像分析,用卷積神經(jīng)網(wǎng)絡通過二維卷積核對視頻幀進行滑動卷積操作,如圖1所示,對視頻幀底層特征進行抽象提取并組合,最終可獲得視頻幀更深層次特征的抽象描述.然而單個二維卷積核不能很好提取視頻幀時間特性,所以文獻[4]提出3D 卷積神經(jīng)網(wǎng)絡(3D Convolutional Neural Networks),如圖2所示.3DCNN 對相鄰的3 張視頻幀用3 個二維卷積核卷積,并將卷積的結果相加,從而提取了某種時間的相關性,因此對特征的描述更為充分.

    圖1 2D 卷積

    圖2 3D 卷積

    2 基于融合特征的關鍵幀提取方法

    本文的底層手工特征由將顏色直方圖特征和方向梯度直方圖表示,深度特征通過3D 卷積神經(jīng)網(wǎng)絡提取,最后將深度特征向量相似度和手工特征向量相似度進行加權融合的方法進行相似度計算,最后得到視頻的關鍵幀.整體結構流程如圖3所示.

    圖3 整體結構圖

    2.1 視頻幀手工特征的提取

    HSV (Hue,Saturation,Value)[5]顏色空間的概念是Smith AR 于1978年初次提出的,其中H表示色相,S表示飽和度,V表示明度.色相H表示色彩屬性,范圍區(qū)間[0°,360°],其中0°表示紅色,120°表示綠色,240°表示藍色[6],整體呈為環(huán)形,色調隨著角度的變化而變化.飽和度S表示顏色的深淺,取值區(qū)間為0%~100%,一般認為S值越高,顏色就越深,S取0 時為灰度圖像.明度V表示色彩的明暗程度,范圍區(qū)間也是0%~100%,隨V值的增大,色彩逐漸變暗.HSV 顏色空間模型是RGB 顏色空間的另一種表示方式,但HSV 顏色空間模型相對來說更為直觀,所以實際應用中更為廣泛.視頻幀為RGB 表示,本文要從視頻幀中提取顏色特征需要將視頻幀轉換為HSV 表示,如圖4所示.

    圖4 RGB2HSV 示意圖

    根據(jù)式(1)對H、S、V三通道特征量化構造特征矢量

    其中,Ls、LV分別為S通道和V通道的量化因子,量化比例為16:4:4.通過HSV 顏色空間的3 個通道顏色特征,可以得到每個通道上像素的分布,從而獲取到每個像素值對應的光譜信息,將顏色空間進行顏色量化,得到視頻幀的量化顏色直方圖,如式(2)表示:

    其中,Ni,j,k表示滿足圖像中H分量上第i個值、S分量上第j個值以及V分量上第k個值的像素點個數(shù),M表示圖像像素點總個數(shù).

    定義Hn(I) 和Hn+1(I) 分別是視頻第n幀和第n+1 幀圖像的顏色直方圖,則兩幀圖像之間的相似度SHSV可以用兩者之間的余弦距離D(Hn,Hn+1)近似表示,余弦計算公式如式(3)所示.余弦距離范圍是0~1,值越小,則表示兩幀圖像越相似,反之表示差異越大.

    顏色直方圖不關心色彩所處的位置,對視頻幀中由于光照變化帶來的陰影干擾,抖動等有很好的區(qū)分去除能力,同時顏色直方圖對背景的干擾也有很好的抑制作用,因此可以用來增強關鍵幀提取的抗噪性.

    本文采用方向梯度直方圖HOG (Histogram of Oriented Gradient)[7]來表征視頻幀的目標對象形狀特征.方向梯度直方圖的重要思想是像素梯度或邊緣的方向密度分布能夠很好地表示圖片中的目標形狀.對梯度直方圖的計算首先對圖像進行標準化處理,之后用梯度算子[-1,0,1]及其轉秩對視頻幀分別進行卷積運算[8],從而得到x方向和y方向的梯度分量xGradient與yGradient.最后分別用式(4)、式(5)計算出像素點的梯度大小和方向.

    式中,H(x,y),Gx(x,y),Gy(x,y)分別為輸入的視頻幀在像素點(x,y)處的像素值、水平方向梯度、垂直方向梯度[9].像素點(x,y)處的梯度幅值和梯度方向分用式(6)、式(7)所示:

    將視頻幀進一步劃分為若干單元塊,對單元塊內若干cell 中每個像素點根據(jù)梯度方向做統(tǒng)計分析,得到以梯度方向為坐標軸的直方圖[9],然后對cell 組成塊并進行塊內歸一化,歸一化公式如式(8)所示.將所有塊的特征向量組合起來即可得到目標對象的特征向量.

    式中,V表示包含給定塊的統(tǒng)計直方圖信息的未歸一化向量,δ為趨于零的常數(shù),‖V‖2為v的2-范數(shù).假定第i幀整體特征向量用Vi表示,第i+1 幀用Vi+1表示,則兩幀的相似度SHOG可根據(jù)向量夾角余弦值表示,值越接近1 則方向越吻合,兩幀的相似度也越高,余弦值的計算如式(9)所示.

    2.2 視頻幀深度特征的提取

    3D-CNN 結構由一個硬連接線層、3 個卷積層、2 個下采樣層,1 個全連接層組成[4].本文提出用3DCNN 來提取視頻幀的深度特征,計算其相似度,并與傳統(tǒng)手工提取特征計算的相似度進行加權融合,進而根據(jù)融合相似度提取出視頻的關鍵幀.對于深度特征,首先取視頻中連續(xù)幀作為3D-CNN 的輸入,經(jīng)過第一層硬連線(hardwired)層編碼獲得視頻幀的灰度、梯度以及光流特征信息,其中梯度描述視頻幀的邊緣分布,光流描述目標的運動趨向,然后將梯度信息和光流信息作為下一層卷積層的輸入進行后續(xù)識別處理.在像素值(x,y)處,提取的特征單位值用Vijxyz表示,i表示層數(shù),j表示特征圖序號,單位值計算方法如式(10)所示.

    其中,bij表示特征圖的偏置值,Wijnpqr是連接第n個特征圖的核第(p,q,r) 的值,Pi和Qi表示核的高和寬,Ri表示卷積核在時間維度的大小.

    通過多次卷積核卷積和下采樣后,3D-CNN 將輸入的連續(xù)視頻幀轉換為特征向量表示,這里,我們去掉原網(wǎng)絡結構中最后的全連接層,選擇最后一個卷積層的feature map 作為要提取的n幀特征向量Gdf.

    由于深度卷積采樣到的特征具有高維度的特性,因此本文使用哈希 (Hashing) 算法處理圖像的深度特征.哈希算法將高維數(shù)據(jù)編碼為一組二進制代碼,并能維持圖像或視頻高維數(shù)據(jù)的元相似性[10].本文在卷積層后加入了Hash 層,用Sigmoid 函數(shù)作為卷積網(wǎng)絡的激活函數(shù)[11],將特征值限制在0~1 之間,構造特征的Hash 碼,最后通過Hash 碼計算視頻幀的Hamming 距離,Hamming 距離越小則表示視頻幀的相似度Sdf就越高.假設兩幀的Hash 碼分別為α、β,則Hamming 距離D定義如式(11)所示.

    2.3 基于深度特征與手工特征融合的關鍵幀提取

    基于傳統(tǒng)手工特征和深度特征的關鍵幀提取分為兩步,首先使用傳統(tǒng)手工方法提取出視頻幀的手工特征,然后用3D-CNN 提取視頻的深度特征,由于兩者特征維度的不同,所以分別計算兩者的相似度.首先根據(jù)2.1 節(jié)計算手工特征顏色直方圖和方向梯度直方圖特征的余弦距離得到傳統(tǒng)手工特征的相似度SHSV和SHOG,然后根據(jù)2.2 節(jié)通過哈希算法計算得到深度特征的哈希碼,并通過Hamming 距離得到深度特征的相似度Sdf,最后融合兩種特征的相似度作為提取視頻關鍵幀的依據(jù).

    特征融合方法分為拼接融合、加權融合、基于系數(shù)特征表示理論的特征融合、基于貝葉斯理論融合等.由于手工特征和深度特征有維度差異,本文選擇加權融合方式,將兩者相似度進行融合.首先對兩者相似度根據(jù)權重大小做加權處理,然后線性融合傳統(tǒng)特征和深度特征相似度,避免了手工特征與深度特征的維度差異,最后通過融合后的相似度根據(jù)閾值提取關鍵幀.相似度S計算方法如式(12)所示:

    式中,α、μ、β分別為手工特征和深度特征的權重因子,比例采用1∶1∶2.在相似度計算時為了使關鍵幀的數(shù)目根據(jù)視頻內容自動調整閾值,本文使用自適應閾值的方法設置相似度的閾值.

    式(13)中,ε為相似度閾值,n為總的視頻幀數(shù)量,fi表示當前幀,τ為域值的自適應調節(jié)因子.本文總體算法步驟如下所示:

    Begin將視頻分割為視頻幀集F {f1,f2,f3,…,fn};定義空的關鍵幀集合KF{};輸入融合后的視頻級相似度集S{s1,s2,…,sn};For i=1:n;If (相似度S>閾值ε) Then 將fi+1 放入關鍵幀集KF{}Else i++;End if End for i輸出采集到的視頻關鍵幀集合KF{kf1,kf2,…}End

    3 實驗及分析

    在本節(jié)中,為驗證本文算法的有效性,本文使用Xshell遠程工具在服務器上搭建PyTorch深度學習框架,使用python3.6進行實驗及其相關分析.為了度量不同方法的實驗結果,本文分別使用查準率、查全率、F1度量來評估算法的性能[3],公式如式(14)所示.

    其中,TP表示真正例,F(xiàn)N表示假反例,F(xiàn)P表示假正例,TN表示真反例,F(xiàn)1是基于查準率和查全率的調和平均分數(shù).

    本文實驗視頻集從公開視頻項目Open Video Project[12]網(wǎng)站上下載得到,下載的視頻集共分為5 類,其中記錄片、教育、歷史、公共服務各選4 個視頻,并隨機從Youtube 網(wǎng)站另外選擇4 個視頻,共20 個視頻構成實驗數(shù)據(jù)集.為驗證算法的有效性,本文選擇兩種常用方法進行對比實驗,一種是基于幀間差分[13]的方法,一種是基于感知哈希算法[14]的方法.實驗從5 類視頻集中各選擇一個代表視頻進行實驗,3 種算法提取的結果統(tǒng)計情況如表1所示,其中Video3 的可視化效果如圖5-圖7所示.

    圖5 基于幀差局部最大值提取結果

    圖6 基于感知Hash 匹配提取結果

    圖7 本文算法提取結果

    Video3 是從長歷史片中截取的一段,描述了生態(tài)學家研究云對麋鹿覓食的影響.從圖5-圖7可以看出基于感知哈希匹配相似度的方法提取效果最差,不僅存在冗余幀,而且存在大量漏檢幀,基于幀差法的提取結果與本文結果數(shù)量相似,但本文提取的結果比幀差法提取結果更豐富,漏檢幀更少.

    表1中A表示基于幀差法提取算法,B表示基于感知Hash 相似度匹配算法,C表示本文算法.由表中數(shù)據(jù)可以看出3 種算法中,基于感知Hash 匹配相似度的算法F1值普遍偏小,基于幀差法的F1值與本文算法得到的F1值相比,本文算法在Video5 視頻類型上與幀差提取算法有一定差距,這是因為Video5 視頻整體色彩變化不明顯,所以本文的手工提取特征部分提取效果稍差.但從整體來看,本文算法比幀差法和感知Hash 匹配法提取效果更好,準確率更高,冗余度更小,提取結果可以更全面的描述視頻內容.

    表1 對比實驗統(tǒng)計結果

    4 結束語

    本文提出基于融合特征的視頻關鍵幀提取的方法,充分利用了傳統(tǒng)手工特征和深度特征的特點及優(yōu)勢.將提取到的視頻圖像的傳統(tǒng)手工特征與基于深度神經(jīng)網(wǎng)絡提取的深度特征計算得到相似度并進行融合,以自適應閾值作為門限提取關鍵幀.通過對公共視頻集進行實驗,實驗結果表明對關鍵幀提取有更為準確和全面的提高,與傳統(tǒng)方式提取的方法相比,本文方法提取的特征更豐富,提高了視頻關鍵幀的準確度并在冗余度方面也有良好的表現(xiàn),對視頻的分析研究具有重要的作用.

    猜你喜歡
    關鍵幀直方圖卷積
    統(tǒng)計頻率分布直方圖的備考全攻略
    符合差分隱私的流數(shù)據(jù)統(tǒng)計直方圖發(fā)布
    基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    用直方圖控制畫面影調
    基于傅里葉域卷積表示的目標跟蹤算法
    基于改進關鍵幀選擇的RGB-D SLAM算法
    基于相關系數(shù)的道路監(jiān)控視頻關鍵幀提取算法
    基于聚散熵及運動目標檢測的監(jiān)控視頻關鍵幀提取
    基于直方圖平移和互補嵌入的可逆水印方案
    計算機工程(2015年8期)2015-07-03 12:20:21
    潜山县| 平遥县| 临泽县| 武川县| 忻城县| 新晃| 兴隆县| 崇仁县| 儋州市| 北安市| 井冈山市| 大悟县| 横山县| 兰州市| 托克逊县| 江华| 静宁县| 彭州市| 新乐市| 北京市| 武清区| 维西| 毕节市| 德庆县| 自贡市| 潢川县| 昭平县| 重庆市| 黑龙江省| 桃园市| 龙川县| 佛山市| 泌阳县| 乐清市| 安宁市| 兴国县| 靖边县| 育儿| 达州市| 阿拉善右旗| 岚皋县|