吳 悅,雒江濤,劉 銳,胡鐘尹
(1.重慶郵電大學(xué)通信與信息工程學(xué)院,重慶 400065;2.重慶郵電大學(xué)電子信息與網(wǎng)絡(luò)工程研究院,重慶 400065)
視頻應(yīng)用在近年來(lái)呈現(xiàn)爆發(fā)式增長(zhǎng),但是類似于涉案金額高達(dá)2.3 億元的“2·15”系列電影侵權(quán)案的視頻侵權(quán)行為卻層出不窮。由于鑒別視頻侵權(quán)問(wèn)題的關(guān)鍵是檢測(cè)兩個(gè)視頻的相似度,因此只要能夠準(zhǔn)確檢測(cè)兩段視頻的相似度,則能有效支持侵權(quán)的鑒別。除了鑒別視頻侵權(quán)問(wèn)題外,通過(guò)視頻相似度檢測(cè)方法可以得到多張圖像幀在時(shí)空與信息上的相關(guān)性與互補(bǔ)性,以此生成質(zhì)量較好的融合圖片,因此解決視頻相似度檢測(cè)問(wèn)題也為圖像融合的理論研究奠定了良好的基礎(chǔ)。
現(xiàn)有的相似視頻檢測(cè)方法主要分為視頻層次檢測(cè)、圖像層次檢測(cè)和音頻層次檢測(cè)三類方法。
在視頻層次檢測(cè)方法中,檢測(cè)兩個(gè)視頻是否完全相同的最基本的方法就是利用MD5 信息摘要算法[1],對(duì)比兩個(gè)視頻的MD5值是否相等,但是該方法無(wú)法檢測(cè)到篡改后的視頻?;跇?biāo)題、標(biāo)簽和描述內(nèi)容的檢測(cè)方式[2-4]則通過(guò)人為對(duì)視頻內(nèi)容進(jìn)行高度概括,后續(xù)利用機(jī)器學(xué)習(xí)的方法對(duì)視頻進(jìn)行分類;但該方法需要大量的人工輔助才能完成,并且由于每個(gè)人對(duì)視頻的理解不同,產(chǎn)生的標(biāo)簽和描述也有所不同,導(dǎo)致最終的鑒別效果做不到客觀一致。因此大多數(shù)基于視頻層面的相似視頻研究是通過(guò)學(xué)習(xí)結(jié)合外觀和時(shí)間等特征[5-7]來(lái)進(jìn)行的。例如,文獻(xiàn)[5]中結(jié)合時(shí)間和如顏色、紋理等感知視覺(jué)特征以及一個(gè)計(jì)算索引和查詢文檔之間邏輯推斷的匹配框架;但由于考慮了時(shí)間、視覺(jué)特征、時(shí)間和特征之間的對(duì)應(yīng)關(guān)系三方面的因素,所以計(jì)算速度比較緩慢,且上述利用深度學(xué)習(xí)的方法,前期需要大量時(shí)間和樣本訓(xùn)練網(wǎng)絡(luò)模型,網(wǎng)絡(luò)復(fù)雜、參數(shù)繁多。
在圖像層次檢測(cè)方法中,文獻(xiàn)[8]中提出了對(duì)圖像幀進(jìn)行基于光流的視頻復(fù)制移動(dòng)偽造檢測(cè)算法;但計(jì)算復(fù)雜度太大,效率太低?;谝曨l的圖像特征來(lái)進(jìn)行相似視頻檢測(cè)的方法,主要是通過(guò)對(duì)比視頻圖像幀的形狀、顏色以及紋理[9]等視覺(jué)特征;但這一類方法只針對(duì)形狀、顏色等圖像特征相似的視頻,如果相似視頻更改了原始視頻的顏色、形狀,則會(huì)使得圖像幀特征差異大,影響結(jié)果的判斷。文獻(xiàn)[10]中使用密集連接卷積網(wǎng)絡(luò)來(lái)提取關(guān)鍵幀的深度特征,然后使用分類相關(guān)分析的特征融合算法來(lái)分析提取的參數(shù)特征,從而提高檢測(cè)精度;但是由于該方法沒(méi)有采用相應(yīng)的視頻數(shù)據(jù)集進(jìn)行訓(xùn)練,導(dǎo)致存在一定漏檢情況。目前,大部分的基于圖像的視頻相似度對(duì)比方法都是對(duì)圖像特征進(jìn)行哈希編碼得到圖像或者視頻指紋,后續(xù)對(duì)這些指紋進(jìn)行相似度度量。在多特征哈希(Multiple Feature Hashing,MFH)[11]方法中,作者利用得到的多個(gè)特征的哈希碼進(jìn)行加權(quán)求和,得到最后的多特征哈希碼。文獻(xiàn)[12]中通過(guò)自學(xué)習(xí)哈希(Self-Taught Hashing,STH)算法得到代表圖片幀的哈希序列,后續(xù)使用STH 串的歐幾里德空間上的余弦相似度構(gòu)建局部相似度圖,得到兩視頻相似度;文獻(xiàn)[13]中提出了一種基于拉普拉斯算子的特征向量的光哈希(SPectral Hashing,SPH)方法,得到哈希序列之后,利用漢明距離計(jì)算兩視頻之間的相似度。但是多特征哈希、自學(xué)習(xí)哈希以及光哈希三種方法僅僅使用了各單個(gè)特征之間的關(guān)系,并沒(méi)有充分利用多特征之間的關(guān)系,因此不同特征表示的聯(lián)系沒(méi)有挖掘出來(lái),使得最終的檢索效果沒(méi)有達(dá)到最優(yōu)。
在音頻層次檢測(cè)方法中,主要是通過(guò)對(duì)比兩個(gè)視頻中的圖像聯(lián)合音頻或字幕來(lái)獲得兩視頻的相似度?;陬l譜可見度圖來(lái)檢測(cè)音頻相似度[14]的方法通過(guò)可見度圖的方式,既可捕獲信號(hào)的諧波含量,同時(shí)又對(duì)寬帶噪聲具有彈性,因此可以測(cè)量?jī)梢纛l數(shù)據(jù)中諧波信號(hào)的相似性。文獻(xiàn)[15]中提到通過(guò)深度殘差網(wǎng)絡(luò)對(duì)端到端視頻進(jìn)行字幕識(shí)別,但是基于識(shí)別字幕的相似視頻檢測(cè)方法只能適用于有字幕的相似視頻對(duì)比。
針對(duì)上述方法中的多特征間關(guān)系難以建立合適的關(guān)聯(lián)、時(shí)間復(fù)雜度高等局限性,本文基于對(duì)比視頻最直接的圖像特征,設(shè)計(jì)出一種基于感知哈希(perceptual Hashing,pHash)[16]和切塊的視頻相似度快速檢測(cè)方法,并分別在自己構(gòu)造的數(shù)據(jù)集和公開數(shù)據(jù)集CC_WEB_VIDEO[17]進(jìn)行了對(duì)比實(shí)驗(yàn),驗(yàn)證了該方法有可行性。
動(dòng)態(tài)視頻由多個(gè)圖像幀組成,圖像作為視頻很重要的一部分,是視頻最直觀的特征。因此,通過(guò)視頻中關(guān)鍵圖像幀的相似度檢測(cè)可以判斷原始視頻和被測(cè)視頻是否為相似視頻。
感知哈希(pHash)算法是使用離散余弦變換(Discrete Cosine Transform,DCT)來(lái)得到圖片的低頻成分從而計(jì)算出能代表圖片的數(shù)字指紋(以下簡(jiǎn)稱指紋),及一個(gè)64 位的pHash二進(jìn)制序列。作為檢測(cè)相似圖片最常用的算法,如果將其應(yīng)用在檢測(cè)相似視頻上,在n個(gè)指紋和m個(gè)指紋比較時(shí),最多可能會(huì)遍歷對(duì)比n×m次,無(wú)法高效地檢測(cè)相似視頻。因此為了提高現(xiàn)有基于感知哈希視頻相似度檢測(cè)方法的速率,本文在傳統(tǒng)的基于感知哈希的視頻相似度檢測(cè)方法[18]中引入抽屜原理[19]的思想,通過(guò)切塊進(jìn)而提出一種視頻相似度的快速檢測(cè)方法。該方法的基本思想是通過(guò)切塊排除完全不可能相似的指紋,減少不必要的對(duì)比,從而加快哈希指紋的對(duì)比過(guò)程。
根據(jù)抽屜原理的推廣形式,設(shè)把n×m+1個(gè)元素劃分至n個(gè)集合(P1,P2,…,Pn)中,其中P1,P2,…,Pn表示這n個(gè)集合對(duì)應(yīng)包含的元素個(gè)數(shù),則:至少存在某個(gè)集合Pi,其包含元素個(gè)數(shù)值Pi大于或等于m+1。
基于切塊的構(gòu)思,定義兩個(gè)漢明距離在設(shè)定閾值H內(nèi)的指紋為相似指紋,將一個(gè)視頻指紋平均切成d個(gè)等長(zhǎng)的塊。根據(jù)上述推廣,兩個(gè)相似的指紋至少有d-H塊是完全相等的,可以得出:有d-H塊完全相等的兩指紋有可能相似,但d-H塊不完全相等的一定不可能相似,從而排除一些不可能相似的指紋。
對(duì)比過(guò)程如圖1 所示。其中,圖1 中倒排索引表中的Value代表某一個(gè)組合方式中指紋塊的值,Id則代表包含該值的指紋編號(hào)。對(duì)切分的d個(gè)指紋塊隨機(jī)取出d-H塊,對(duì)這些指紋塊組合形成的值構(gòu)建倒排索引(從值Value 即能找到包含該值的所有的完整指紋Id)。把被測(cè)視頻的指紋同樣切分、隨機(jī)取出d-H塊,去倒排索引里查找這些指紋塊組合形成的值是否存在:存在即說(shuō)明該完整指紋可能與包含其的完整指紋相似,進(jìn)而把兩完整指紋進(jìn)行對(duì)比,漢明距離小于H的即為相似指紋(關(guān)鍵幀);不存在則說(shuō)明這兩組完整指紋一定不相似,再比較下一指紋塊形成的值。
圖1 基于切塊的快速對(duì)比過(guò)程Fig.1 Fast comparison process based on dicing
假設(shè)按位對(duì)比兩個(gè)指紋所用時(shí)間為τ,在切分塊數(shù)為d、漢明距離為H(H<d)的已知條件下,對(duì)比N個(gè)指紋所需的大致時(shí)間T如式(1)所示:
需要注意的是,由于指紋在進(jìn)行切塊操作后,形成的是數(shù)量不定的不同值,即生成的倒排索引的關(guān)鍵詞以及文檔的數(shù)量也不定,因此所需時(shí)間并不是簡(jiǎn)單的關(guān)于時(shí)間的線性函數(shù),式(1)僅僅是求出對(duì)比N個(gè)指紋所需的大致時(shí)間。
可以看出,在d<2 的情況下,T<N×τ,即能達(dá)到比時(shí)間縮短的效果。
基于感知哈希和切塊的相似視頻檢測(cè)方法主要包含關(guān)鍵幀提取單元、指紋集生成單元、指紋切塊單元、倒排索引建立單元、指紋對(duì)比單元以及相似度判定單元。
基于感知哈希和切塊的視頻比對(duì)方法流程如圖2 所示。首先利用幀間差分算法來(lái)實(shí)現(xiàn)視頻中的關(guān)鍵幀提取,再利用感知哈希算法來(lái)提取關(guān)鍵幀中的指紋,最后通過(guò)切塊的思想對(duì)比指紋,從而計(jì)算兩個(gè)圖像幀的相似度可以在圖像對(duì)比方面判定所給的視頻是否為相似視頻。
圖2 基于感知哈希和切塊的視頻對(duì)比方法流程Fig.2 Flowchart of video comparison method based on perceptual hashing and dicing
關(guān)鍵幀指的是角色或者物體運(yùn)動(dòng)或變化中的關(guān)鍵動(dòng)作所處的那一幀。高效的視頻關(guān)鍵幀提取算法能有效簡(jiǎn)化處理視頻對(duì)比問(wèn)題的計(jì)算量。本文采用基于幀間差分的關(guān)鍵幀提取算法[20]對(duì)視頻的關(guān)鍵幀進(jìn)行提取。
基于幀間差分的關(guān)鍵幀提取算法流程如算法1 偽代碼所示:首先,將所需要對(duì)比的視頻進(jìn)行切幀處理得到一個(gè)圖像幀的集合;接著對(duì)集合中相鄰兩幀的圖像進(jìn)行差分計(jì)算,得到平均像素強(qiáng)度;再尋找并提取平均幀間差分強(qiáng)度的局部最大值的圖像幀作為視頻的關(guān)鍵幀。
算法1 基于幀間差分的關(guān)鍵幀提取算法。
指紋集生成單元的作用是生成能夠代表視頻的指紋集,該單元的核心就是利用感知哈希算法,通過(guò)DCT 將圖像從像素域轉(zhuǎn)換為頻域,只保留系數(shù)矩陣的左上角區(qū)域的元素用來(lái)計(jì)算能夠代表圖像的哈希值。DCT計(jì)算如式(3)所示:
式中:(u,v)代表著像素點(diǎn)的空間位置,e(i,j)是輸入圖像的像素點(diǎn),X和Y是e的行數(shù)和列數(shù)。
詳細(xì)的感知哈希算法流程如算法2 偽代碼所示。為了在保證壓縮的圖像在保留大多數(shù)信息的前提下,簡(jiǎn)化DCT 的計(jì)算過(guò)程,提高指紋生成速度,本文將圖片尺寸縮小到32×32。得到DCT矩陣后,選取左上角8× 8最能代表圖像整體信息的低頻成分,通過(guò)與DCT 均值比較后,得到最終的64 位圖像指紋序列。
算法2 基于感知哈希的圖像指紋算法。
通過(guò)pHash 算法獲得的哈希值只能粗略地獲得與平均頻率的相對(duì)比率,而不能獲得真正的低頻分量。然而,只要圖像的大致結(jié)構(gòu)不被改變,通過(guò)該算法獲得的指紋就不會(huì)改變,因此該算法可以避免顏色直方圖和伽馬校正的影響。
指紋切塊單元將感知哈希得到的指紋進(jìn)行切塊操作,平均切成d個(gè)等長(zhǎng)的塊,為后續(xù)建立倒排索引做好準(zhǔn)備。在確定了漢明距離為H的情況下,對(duì)切分后的d個(gè)指紋塊隨機(jī)取出d-H塊,則共有g(shù)個(gè)組合方式,計(jì)算方法如式(2)所示。
根據(jù)倒排索引的結(jié)構(gòu),針對(duì)某一組合方式中的指紋塊的值,倒排索引能快速找到包含該值的指紋編號(hào),即對(duì)應(yīng)的若干指紋有相似的可能。因此得到切塊之后,對(duì)這g個(gè)指紋塊形成的值構(gòu)建倒排索引。
指紋對(duì)比單元將遍歷倒排索引中的元組,找到包含某值的完整指紋,按位比較該值對(duì)應(yīng)的指紋?;谇袎K的對(duì)比算法如算法3偽代碼所示。
算法3 基于切塊的對(duì)比算法。
相似度判定單元中將判定兩指紋的漢明距離是否小于閾值H(本文認(rèn)為漢明距離不大于H的兩幀圖像是相似的),得到兩個(gè)視頻相似指紋的集合,最后得出兩個(gè)視頻的圖像相似度。指紋相似度的計(jì)算方式如下:
式中:snum表示原始視頻和被測(cè)視頻中相似指紋個(gè)數(shù),n和m分別表示原始視頻A指紋和被測(cè)視頻B指紋的個(gè)數(shù)。
為了驗(yàn)證基于切塊的相似視頻檢測(cè)方法的有效性,本章將在作者構(gòu)建的廣告數(shù)據(jù)集上與傳統(tǒng)感知哈希的相似視頻檢測(cè)方法進(jìn)行對(duì)比,以驗(yàn)證速度的提升;并在公開數(shù)據(jù)集CC_WEB_VIDEO[17]上與其他三種主流方法進(jìn)行準(zhǔn)確度和速度的對(duì)比。
作者構(gòu)建的廣告數(shù)據(jù)集中的原始視頻主要是由從騰訊視頻等視頻網(wǎng)站上下載的6 個(gè)時(shí)長(zhǎng)為15~77 s 的廣告視頻,通過(guò)對(duì)其添加濾鏡、亂序剪輯、添加水印及抽幀等常見視頻操作后形成被測(cè)視頻。
CC_WEB_VIDEO 數(shù)據(jù)集由12 790 個(gè)時(shí)長(zhǎng)為5 s 到10 min的共800 h的視頻片段組成,這些視頻是從YouTube 等視頻分享網(wǎng)站上下載的。根據(jù)搜索的關(guān)鍵詞分類,該數(shù)據(jù)集分為24類。在每一類中,將最流行的視頻作為原始視頻,其他視頻作為被測(cè)視頻,平均有27%的視頻與原始視頻重復(fù)或近似重復(fù),且每個(gè)重復(fù)版本都是用戶自行上傳,沒(méi)有經(jīng)過(guò)額外的人為操作。
本文將根據(jù)文獻(xiàn)[21]中提到的查準(zhǔn)率P、查全率R以及平均準(zhǔn)確率均值(mean Average Precision,mAP)對(duì)本文所提方法進(jìn)行評(píng)估:
其中:TP代表正確檢測(cè)到的相關(guān)視頻數(shù)量,F(xiàn)P代表錯(cuò)檢視頻數(shù)量,F(xiàn)N是漏檢視頻數(shù)量。
實(shí)驗(yàn)首先針對(duì)原始視頻和被測(cè)視頻進(jìn)行關(guān)鍵幀提取預(yù)處理,以降低后續(xù)比較過(guò)程的時(shí)間復(fù)雜度。
下面分別以名為“1.mp4”、長(zhǎng)為15 s 的原始視頻,以及添加濾鏡及亂序之后名為“1_1.mp4”、長(zhǎng)仍為15 s 的被測(cè)視頻為例,通過(guò)OpenCV 中的VideoCaptrue 函數(shù)對(duì)視頻進(jìn)行逐幀讀取,會(huì)在內(nèi)存中得到一個(gè)關(guān)于該視頻的所有圖像幀的集合。接著對(duì)圖像幀集合按照前后兩幀的順序依次進(jìn)行差分計(jì)算,得到一個(gè)平均像素強(qiáng)度的集合;與本文給定的閾值0.6 進(jìn)行對(duì)比,得到一個(gè)候選的關(guān)鍵幀集合。最后通過(guò)查找平均幀間差分強(qiáng)度的局部最大值確定視頻的關(guān)鍵幀。圖3 和圖4 分別是根據(jù)查詢視頻和被測(cè)視頻形成的關(guān)鍵幀。
圖3 “1.mp4”提取的關(guān)鍵幀F(xiàn)ig.3 Key frames extracted from“1.mp4”
圖4 “1_1.mp4”提取的關(guān)鍵幀F(xiàn)ig.4 Key frames extracted from“1_1.mp4”
原始視頻所截取的關(guān)鍵幀幀數(shù)為21,而被測(cè)視頻所截取的幀數(shù)為25,由此可以看出相比原始視頻中375的幀數(shù),為后續(xù)的相似幀檢測(cè)降低了時(shí)間復(fù)雜度。而兩個(gè)視頻提取的關(guān)鍵幀數(shù)量不同,是因?yàn)楸粶y(cè)視頻對(duì)原始視頻進(jìn)行了亂序操作,改變了幀的順序,因此在計(jì)算相鄰幀間的差分值時(shí)存在差異,也就導(dǎo)致兩個(gè)視頻最后得到的幀數(shù)量不同。
本節(jié)將對(duì)上述的關(guān)鍵幀集合做感知哈希算法以提取關(guān)鍵幀指紋集,用于后續(xù)的相似度判定。
3.2.1 感知哈希算法魯棒性驗(yàn)證實(shí)驗(yàn)
除本文使用的感知哈希算法外,圖像指紋算法最常見的還有均值哈希算法(average Hashing,aHash)和差值哈希算法(difference Hashing,dHash)。均值哈希是將壓縮后的圖像的像素點(diǎn)與所有像素的均值做大小比較的二值化處理,得到64位指紋;差值哈希是將壓縮后的圖像的像素點(diǎn)與相鄰像素點(diǎn)做差值計(jì)算后進(jìn)行二值化處理,得到64 位的指紋。將感知哈希與均值哈希、差分哈希兩種常用哈希算法進(jìn)行魯棒性驗(yàn)證對(duì)比實(shí)驗(yàn)。
對(duì)圖5(a)所示的第222幀圖片進(jìn)行添加濾鏡、更改尺寸、鏡像、伽馬校正以及更改顏色直方圖共五種操作。在6 塊Intel Xeon CPU 配置情況下,得到結(jié)果如表1 所示,由表中數(shù)據(jù)分析可得,雖然感知哈希的耗時(shí)明顯大于均值哈希和差分哈希,但是在五種操作(特別是在添加濾鏡、更改尺寸和鏡像)下,相似度都高于均值哈希和差分哈希。因此,綜合視頻處理最常見的五種操作考慮,本文選取魯棒性較強(qiáng)的感知哈希算法作為指紋集生成算法。
表1 各算法在不同視頻處理操作下的性能對(duì)比Tab.1 Performance comparison of different algorithms under different video processing operations
圖5 視頻處理的五種常見操作Fig.5 Five common operations of video processing
3.2.2 指紋生成
得到上述的關(guān)鍵幀集合后,通過(guò)感知哈希算法分別得到兩個(gè)視頻關(guān)鍵幀的指紋。
以圖3 中所示的原始視頻中的第222 幀與圖4 中所示的被測(cè)視頻中的第93 幀為例,首先將得到的關(guān)鍵幀進(jìn)行尺寸縮小,在這里為了簡(jiǎn)化DCT 運(yùn)算過(guò)程,將圖像縮小為32×32。接著計(jì)算該圖像幀的DCT,得到一個(gè)32×32的DCT系數(shù)矩陣圖。得到該DCT 系數(shù)矩陣之后,本文只保留在左上角的8× 8大小的矩陣,因?yàn)樗@示了這張圖像的最低頻成分。然后對(duì)所有的關(guān)鍵幀進(jìn)行如上的步驟,并且計(jì)算DCT 的均值。將根據(jù)pHash 算法得到的64 個(gè)0 或1 的數(shù)字組成一個(gè)64 位的整數(shù),即得到幀222 與幀93 的一組指紋,如表2 所示。得到需要對(duì)比的關(guān)鍵幀的指紋之后,經(jīng)計(jì)算兩幀的漢明距離為2,在閾值7之內(nèi),證明這兩幀的關(guān)鍵幀是相似的。
表2 幀222與幀93的指紋序列Tab.2 Fingerprint sequences of frame 222 and frame 93
為了驗(yàn)證基于切塊的相似視頻檢測(cè)方法的有效性,將本方法與傳統(tǒng)的基于感知哈希的方法在從網(wǎng)上下載的6 個(gè)廣告上進(jìn)行對(duì)比,以驗(yàn)證本文方法在速度上的表現(xiàn);對(duì)其他三個(gè)常見方法在公開數(shù)據(jù)集CC_WEB_VIDEO 上進(jìn)行了對(duì)比實(shí)驗(yàn),以驗(yàn)證本文方法在準(zhǔn)確度以及速度上的性能。
3.3.1 與傳統(tǒng)的基于感知哈希的方法進(jìn)行對(duì)比
由于圖像指紋長(zhǎng)度為64 位,為了不丟失圖像信息,指紋長(zhǎng)度需要能被切塊數(shù)整除,即切塊數(shù)應(yīng)為64的因數(shù)(即d取值應(yīng)為2、4、6、8、16、32)。根據(jù)經(jīng)驗(yàn),漢明距離H≤5 的兩張圖片為相似度極高的圖片。并且根據(jù)式(1),d和H越接近,對(duì)比時(shí)間越短,因此為了保證對(duì)比時(shí)間并且能夠保證檢測(cè)到大多數(shù)相似圖像,綜合考慮,本實(shí)驗(yàn)采用的切塊數(shù)d=8,漢明距離H=7。根據(jù)6組現(xiàn)有廣告得到圖6的實(shí)驗(yàn)結(jié)果,可以看出,本文所提出的基于切塊的視頻相似度檢測(cè)方法與傳統(tǒng)的感知哈希對(duì)比方法相比,能夠在準(zhǔn)確度一致的前提下,縮短約93%的檢測(cè)時(shí)間。
圖6 本文方法與傳統(tǒng)方法在廣告數(shù)據(jù)集上的性能對(duì)比Fig.6 Performance comparison of the propsed method and traditional method on advertising dataset
總體上,感知哈希算法能夠較好地實(shí)現(xiàn)視頻對(duì)比的功能,但是可以看到廣告3 不管是在傳統(tǒng)算法還是改進(jìn)算法中的相似度都較低,這是因?yàn)楦兄T诟淖儓D像銳度、對(duì)比度時(shí)檢測(cè)效果不夠優(yōu)良,因此后續(xù)還需進(jìn)一步尋找更優(yōu)良的指紋生成算法,以適應(yīng)更多場(chǎng)景下的視頻相似度檢測(cè)。
3.3.2 與其他方法進(jìn)行對(duì)比
本節(jié)將在CC_WEB_VIDEO 數(shù)據(jù)集中的對(duì)所有的視頻(包含24 類)進(jìn)行實(shí)驗(yàn),并將本文方法與在引言部分提到的多特征哈希(MFH)[12]、自學(xué)習(xí)哈希(STH)[13]以及光哈希(SPH)[14]三種常見的相似視頻檢測(cè)方法進(jìn)行對(duì)比。
從圖7 可以看出,相比其他三種常見的方法,本文方法在mAP 上有所提高,分別提高了1.4%、2%和2.3%;而相較于MFH 檢測(cè)平均每一個(gè)視頻耗時(shí)0.553 s、STH 耗時(shí)0.623 s、SPH 耗時(shí)0.496 s,本文方法僅用了0.418 s,檢測(cè)時(shí)間分別縮短了24%、32%和16%,提高了檢測(cè)效率。與采用局部特征的對(duì)比方法相比,基于切塊的視頻相似度檢測(cè)方法是通過(guò)計(jì)算關(guān)鍵圖像幀之間的相似度來(lái)計(jì)算視頻的相似度,因此更能考慮到絕大多數(shù)圖像幀,從而能夠比上述三種方法的平均準(zhǔn)確度有所提高;并且由于優(yōu)化了傳統(tǒng)的遍歷對(duì)比方法,因此檢測(cè)時(shí)間比其他三種常見方法也有所減短,達(dá)到了高效檢測(cè)相似視頻的效果。
圖7 各方法在CC_WEB_VIDEO數(shù)據(jù)集上的性能對(duì)比Fig.7 Performance comparison of different methods on CC_WEB_VIDEO dataset
本文實(shí)驗(yàn)代碼和廣告數(shù)據(jù)集已上傳GitHub(https://github.com/jiangtaoluo/video_sim_detect)。
針對(duì)現(xiàn)有的視頻相似度檢測(cè)技術(shù)需求較多但識(shí)別效果局限等問(wèn)題,本文提出了一種基于感知哈希和切塊的視頻相似度快速檢測(cè)方法。本文首先通過(guò)基于幀間差分的方法提取視頻關(guān)鍵幀,再利用感知哈希算法對(duì)比提取出來(lái)的關(guān)鍵幀,基于切塊數(shù)量和漢明距離之間的關(guān)系構(gòu)建倒排索引,從而快速得到兩個(gè)視頻圖像幀的相似度。最終在保證準(zhǔn)確度的前提下,達(dá)到快速檢測(cè)相似視頻的目標(biāo)。但是由于感知哈希在改變圖像銳度、對(duì)比度時(shí)檢測(cè)效果不夠優(yōu)良,而前期生成指紋的算法的準(zhǔn)確度對(duì)后續(xù)對(duì)比有著顯著影響,因此尋找一種優(yōu)良的指紋生成算法將是需要進(jìn)一步研究的內(nèi)容。