高毫林 陳 剛 羅 寧 李弼程
(1.解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院,鄭州,450002;2.南海艦隊指揮所,湛江,524000)
視頻流人物檢測主要是對視頻流進行不間斷的檢測,實時發(fā)現(xiàn)與查詢?nèi)宋锵嗨频年P(guān)鍵幀,并定位關(guān)鍵幀所在的鏡頭。人物檢測在安檢、視頻監(jiān)控、視頻檢索等方面都有著重要的作用。人物檢測算法主要可以分為基于子窗口的方法和基于部分人體的方法[1]?;谧哟翱诘姆椒ㄊ褂玫奶卣饔蟹较蛱荻戎狈綀D[2](Histogram of oriented gradients,HOG),協(xié)方差矩陣[3]等?;诓糠秩梭w的方法把人體分為幾部分分別進行檢測,最后將結(jié)果進行整合,Mikolajczyk等[4]把人體分為7個部分,對每部分分別進行檢測,Shet等[5]把邏輯推理應(yīng)用于研究低級檢測器輸出信息的內(nèi)容擴充。Chen等[6]為了在新聞視頻中找到特定人,綜合利用文本搜索、節(jié)目主持人信息和人臉識別等方法。Schwartz等[1]將人臉檢測和個人檢測器綜合起來用于人物檢測。
人物檢測中的重要組成部分是對人臉的檢測。人臉檢測、跟蹤與識別是3個相互獨立而又統(tǒng)一的問題[7]。人臉檢測方法主有基于特征的方法、模板匹配法、基于表象的方法。人臉跟蹤等價于在連續(xù)幀間建立基于位置、顏色、形狀、紋理、色彩等特征的對應(yīng)匹配問題[8]。人臉識別的方法包括特征臉識別方法、彈性圖匹配法、小波分析法等。
人臉特征提取所使用的經(jīng)典方法之一是PCA,但它是基于一維的,在處理圖像時,需要將二維圖像矩陣轉(zhuǎn)換成一維向量,當(dāng)圖像較多時運算量大。Yang等人[9]提出了基于圖像矩陣的二維PCA方法。文獻[10]將L1范式結(jié)合2DPCA用于人臉識別。非負矩陣分解[11](Non-Negative matrix factorization,NMF)在矩陣中所有元素非負的條件下對矩陣進行分解,由于它具有可解釋性和明確的物理意義在人臉識別上有較多應(yīng)用。文獻[12]利用2DPCA和NMF的基本思想,提出非負二維主成分分析的方法進行人臉識別。在變換域方法中,Hafed等[13]首先提出基于離散余弦變換器(Discrete coscine transform,DCT)的人臉識別方法,Chen等[14]在DCT域和空域上利用主成分分析和線性判別分析進行人臉識別,文獻[15]將DCT與線性判別分析結(jié)合的方法進行改進用于人臉識別。
為了從視頻流檢測特定人物,提出了兩階段的檢測方法,即基于穩(wěn)健哈希簽名的視頻流上的檢測和基于人臉子圖局部特征的文件級的檢測。該方法首先在視頻流上進行檢測,主要是采用穩(wěn)健哈希簽名的方法檢索與查詢?nèi)宋锼趫D像相似度較高的關(guān)鍵幀,然后在圖像數(shù)據(jù)庫上進行基于子圖的檢測,也就是提取查詢圖像包含人臉的子圖,并與圖像集中各圖像經(jīng)人臉檢測提取出的子圖進行局部特征匹配,檢測與查詢圖像相似度次高的關(guān)鍵幀,從而實現(xiàn)視頻流特定人物檢測。其中基于穩(wěn)健哈希簽名的視頻流特定人物實時檢測方法。該方法先計算目標(biāo)圖像的簽名特征,主要包括DCT變換和哈希運算兩部分,然后,在實時接收的視頻流上計算鏡頭分割所得關(guān)鍵幀圖像的簽名特征;最后,計算這兩個簽名特征之間的漢明距離,若距離小于給定的閾值,則認為檢測到目標(biāo)人物出現(xiàn),并提取關(guān)鍵幀圖像所在的鏡頭。實驗結(jié)果表明,該方法用于實時視頻流人物檢測可以達到較高的查全率。基于人臉子圖局部特征的文件級的檢測方法,首先提取查詢圖像人臉子圖并計算其局部特征,然后對各關(guān)鍵幀圖像進行人臉檢測,得出包含人臉的子圖。再計算這些子圖的局部特征,最后計算它們與查詢子圖的相似性得出檢測結(jié)果。
圖像二維DCT變換已經(jīng)將圖像的主要信息集中于矩陣左上角,只需要取出左上角固定大小的子陣就可以代表圖像主要信息[16]。利用合適的哈希函數(shù)對圖像DCT結(jié)果進行哈希就可以生成簽名。
將一幅圖像的二維DCT變換矩陣記為C(u,v),由于DCT已經(jīng)把圖像的能量集中于矩陣的左上角,因此,可以提取C(u,v)矩陣的子矩陣S(m,n)用來生成圖像簽名。
式中:M為子矩陣S的行數(shù)。
穩(wěn)健哈希將一個信號映射到一個較短的二進制字符串,它的穩(wěn)健性是指即使對信號進行小的處理,該信號的哈希輸出保持不變,只有當(dāng)信號內(nèi)容發(fā)生變化時輸出才有變化。
設(shè)輸入圖像用I代表,哈希函數(shù)用H(*)表示,輸出向量為h,那么h=H(I),h來自于集合{0,1}N,該集合的勢為2N。H(*)可以用來描述感知相等的圖像,感知相等的兩幅圖像輸出應(yīng)該相同,感知不等的圖像應(yīng)產(chǎn)生不相關(guān)的值。而感知相等的圖像不一定有同樣的數(shù)字特征,所以H(*)是一個多對一映射[17]。它有隨機化、兩兩獨立和穩(wěn)健性三個性質(zhì)。
在圖像處理中,穩(wěn)健圖像哈希將一幅圖像用一個短二進制向量表示,對于內(nèi)容相同的圖像哈希結(jié)果保持不變,對于內(nèi)容明顯不同的圖像哈希結(jié)果變化較大。它可以用于圖像鑒定、圖像檢索和模式識別等。穩(wěn)健哈希多被用來檢測對圖像的篡改和非法操作。在人物檢測中,穩(wěn)健哈??梢杂脕碓诓煌奈恢?、條件和背景等拍攝情況下檢測到同一個人。
哈希運算對DCT變換后的子矩陣S(m,n)進行。H(*)表示哈希函數(shù),Sig(I)表示生成的簽名。采用的穩(wěn)健哈希函數(shù)定義如下
該哈希函數(shù)先將子矩陣S(m,n)進行量化,然后將量化結(jié)果串成二進制向量,最后得到圖像簽名。該哈希實際上就是取子矩陣量化后的值,這樣每個哈希值h(i)的產(chǎn)生是隨機的,而且兩幅圖像的哈希結(jié)果相互獨立,同時也滿足穩(wěn)健性的要求,因為DCT變換本身的量化過程就對干擾有一定的容忍能力。
圖像簽名生成的過程如下:
(1)對圖像進行2維DCT變換得矩陣C(u,v);
(2)取C(u,v)子矩陣得矩陣S(m,n);
(3)對子矩陣S(m,n)進行哈希,得到圖像全局簽名Sig(I)。
這樣,每幅圖像就可以得到一串64Byte的二進制序列。圖1顯示了一幅圖像及其對應(yīng)的全局簽名。由于基于塊匹配的方法常用于圖像匹配,也計算該圖像的分塊簽名。分塊簽名由各圖像塊的簽名組合而成。
圖1 一幅圖像及其對應(yīng)的全局簽名
得出簽名后,各圖像之間的相似度計算就成了它們對應(yīng)的簽名之間的相似度計算,這里采用漢明距離來表示簽名的相似度。這兩個等長字符串之間的漢明距離是他們對應(yīng)位置的不同字符的個數(shù)。也就是將一個字符串變換成另外一個字符串所需要替換的字符個數(shù)。即
它表示兩個簽名的漢明距離。為驗證簽名特征進行相似計算的效果,以圖1作為基準(zhǔn)圖像,并選取了與它相似的8幅圖像作為測試圖像,如圖2所示。它們以基準(zhǔn)圖像為標(biāo)準(zhǔn)像按相似度依次排列。這些測試圖像與基準(zhǔn)圖像全局簽名和分塊簽名的漢明距離在圖3中顯示??梢姺謮K簽名距離區(qū)分性更強,全局簽名距離相同的圖像對應(yīng)的分塊簽名距離就可能不相同。
圖2 測試圖像
圖3 不同簽名的圖像距離
在近似重復(fù)檢測中,使用子圖的方法[18]可以充分利用查詢目標(biāo)主要信息,減小背景噪聲的影響。人臉是人物最有區(qū)別性的一部分,人臉檢測的技術(shù)也已經(jīng)得到了充分的發(fā)展。所以,完全可以通過圖像的人臉子圖進行特定人物檢測。另外,從語義概念的角度講,人物是圖像中的語義概念之一,因此常用的用于語義搜索的局部特征PCASIFT[19],尺度不變特征轉(zhuǎn)換(Scale-invariant feature transform,SIFT)[20]等對于特定人物檢測也適用。采用這種方法可以初步解決出現(xiàn)背景、姿勢等不同時人物檢測準(zhǔn)確率較低的問題。近年來,已有學(xué)者將SIFT特征應(yīng)用于人臉識別[21]和人物檢測[22]。
人臉是人體最明顯的生物特征,利用人臉的識別進行特定人物檢測是有效的方法之一。而如果不對圖像區(qū)域加以限制,局部特征在提取時針對整幅圖像進行,這樣不僅特征點多,增加了圖像相似度衡量的計算代價,同時由于背景的影響也會降低檢測的準(zhǔn)確度。顯然,只對查詢圖像和待檢測圖像的人臉部分進行特征提取和相似度衡量,可以同時提高檢索的效率和準(zhǔn)確率。
人臉檢測方法主要可分為兩大類,基于統(tǒng)計的方法和基于知識的方法。目前比較流行的是基于統(tǒng)計的方法,它將人臉檢測問題轉(zhuǎn)換為模式識別問題,將人臉區(qū)域看作一類模式,對人臉和非人臉進行訓(xùn)練,構(gòu)造分類器。主要包括基于人工神經(jīng)網(wǎng)絡(luò)的方法、基于支持向量機的方法、基于Haar特征Adaboost的方法等。基于知識的方法利用人的先驗知識建立規(guī)則進行人臉檢測,如人臉的形狀、五官分布和人眼特征,這類方法檢測效果依賴于特征提取和預(yù)先定義的規(guī)則。當(dāng)圖像質(zhì)量較差特征不容易檢測或者采用的規(guī)則不全面不準(zhǔn)確時都會影響檢測效果。
基于Haar特征Adaboost的方法可以實時、準(zhǔn)確地檢測到人臉,它采用的Adaboost算法從多個弱分類器構(gòu)造強分類器。Haar可以通過積分圖像快速計算得出,從而保證了檢測的實時性。圖4是該方法對Caltech256部分圖像檢測結(jié)果。
圖4 人物圖像及其對應(yīng)的人臉子圖
SIFT特征對旋轉(zhuǎn)、平移、亮度變化、尺度縮放和噪聲具有較好的不變性,對視角變化、仿射變換保持一定程度的穩(wěn)定性。它很好地符合評價局部特征性能的兩個指標(biāo):穩(wěn)定性和獨特性,其匹配性能優(yōu)于同類型其他局部特征,在目標(biāo)識別、圖像檢索、圖像拼接和場景分類等領(lǐng)域已經(jīng)得到了成功的應(yīng)用。人臉雖然表情多樣,但不同人的人臉具有較強的獨特性,同一個人的人臉也保持了一定的穩(wěn)定性。所以,可以用SIFT特征描述人臉。圖5給出了人物圖像及其對用的人臉圖像的SIFT特征檢測結(jié)果。
圖5 人物圖像及其對應(yīng)的人臉子圖的SIFT特征點
基于子圖局部特征的文件級檢測主要流程如下:
(1)用基于 Haar特征的Adaboost方法對查詢圖像和待檢測圖像進行人臉區(qū)域檢測,得出人臉子圖;
(2)對查詢圖像人臉子圖進行SIFT特征提取;
(3)對待檢測圖像提取出的各人臉子圖進行SIFT特征提取;
(4)計算查詢子圖與待檢測子圖的相似程度,如果有某一子圖相似度大于給定閾值,就返回該子圖所在的圖像,并認為檢測到了查詢?nèi)宋锍霈F(xiàn)。
(5)重復(fù)(3),(4),直到完成所有圖像的檢測。
圖6給出了對查詢子圖進行檢測的結(jié)果??梢?,當(dāng)背景變化時該方法仍能檢測到包含查詢?nèi)宋锏膱D像。
圖6 人物圖像及檢測結(jié)果
本文將視頻流特定人物檢測方法分為流級粗過濾和文件級細篩選兩階段。第1階段采用基于穩(wěn)健哈希簽名的方法對實時視頻流進行檢測,特征提取和相似度計算的速度較快,適合在線檢測,主要發(fā)現(xiàn)與查詢圖像相似度較高的關(guān)鍵幀。第2階段采用基于人臉子圖局部特征的方法對圖像庫進行檢測,先提取人臉子圖,再提取SIFT特征進行相似計算,主要發(fā)現(xiàn)與查詢圖像不同場景的關(guān)鍵幀。
使用兩種簽名在不同相似門限下進行檢測的準(zhǔn)確率是不同的,圖7給出了檢測結(jié)果。分塊簽名的準(zhǔn)確率要高于全局簽名,而且在選取合適的門限時,準(zhǔn)確率可以達到80%以上。當(dāng)然,這里用來計算準(zhǔn)確率的圖像需要進行人工標(biāo)定。
在查詢?nèi)宋镌O(shè)定時,選取視頻節(jié)目中經(jīng)常出現(xiàn)的國家領(lǐng)導(dǎo)人或重要人物進行檢測。該實驗在視頻流數(shù)據(jù)采集的平臺上進行,該平臺對常用衛(wèi)星頻段進行掃描,發(fā)現(xiàn)并獲取視頻數(shù)據(jù),進一步對視頻數(shù)據(jù)進行分析,得出視頻關(guān)鍵幀圖像。本實驗選取已獲取人物圖像,對該圖像進行在線檢測,實驗中選取5副特定人物圖像,對PressTV進行了12h的在線檢測,檢測結(jié)果如圖8所示。檢測中,單幅圖像匹配時間如圖9所示,匹配時間包括特征提取和相似計算兩部分,大約在0.24~0.27ms之間,而這樣的關(guān)鍵幀所在的鏡頭長度遠遠大于這個范圍,所以完全可以達到實時的效果。
圖7 3種簽名在不同門限下的查準(zhǔn)率
圖8 視頻流人物檢測性能指標(biāo)
圖9 單幅圖像匹配時間
文件級檢測采用SIFT和人臉子圖相結(jié)合的方法,檢測數(shù)據(jù)采用的是Caltech256庫中的的人臉圖像,結(jié)果如圖10所示。該方法要高于直接采用SIFT特征對全圖進行檢測的方法。對不同人物進行檢測期檢出率是不同的,這與圖像數(shù)據(jù)本身有關(guān)。如果人臉表情變化較大,檢出率就會降低。
圖10 文件級檢測結(jié)果
人臉識別和人物檢測近年來已經(jīng)有很多研究,但在視頻流特定人物檢測方面仍有待提高。本文將人物檢測方法分為基于穩(wěn)健哈希簽名的實時的流級粗過濾和基于人臉子圖局部特征的非實時的文件級細篩選兩階段。流級檢測采用快速特征提取和快速相似計算的方法,適用于在線檢測,主要發(fā)現(xiàn)與查詢圖像相似度較高的人物圖像。文件級檢測先提取人臉子圖再計算子圖SIFT特征,可以達到較高的準(zhǔn)確率,主要發(fā)現(xiàn)相似度次高的不同場景人物圖像。
實際上,即使采用了人臉提取和性能較好的局部特征SIFT進行人物檢測,仍然不能做到對所有人保持較高的檢出率。這是因為目前使用SIFT特征并沒有利用各特征點之間的關(guān)系,這樣,人臉各器官的相對位置等信息被拋棄了,而這對人臉識別是很重要的。其實,SIFT特征更適合于剛性物體的檢索,因為剛性物體在不同圖像中雖然有角度、背景、旋轉(zhuǎn)等變化,但其特征點相對位置的變化并不明顯。而人臉等人體組成部分或動物組成部分等非剛性物體的局部特征點的相對位置變化較大,所以僅僅用SIFT特征是難以達到令人滿意的效果的。可行的改進方法之一是將SIFT特征與人臉器官相對位置、人臉輪廓等信息結(jié)合進行檢測,另外一個可行的方法是采用非剛性物體匹配的方法[23]進行檢索。
[1] Schwartz W R,Gopalan R.Robust human detection under occlusion by integrating face and person detectors[C]//International Conference on Biometrics.Berlin,Germany:Springer,2009:970-979.
[2] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]:IEEE,2005:886-893.
[3] Tuzel O,Porikli F,Meer P.Human detection via classification on riemannian manifolds[C]//IEEE Conference on Computer Vision and Pattern Recognition.Minneapolis:IEEE,2007:1-8.
[4] Mikolajczyk K,Schmid C,Zisserma A.Human detection based on a probabilistic assembly of robust part detectors[C]//The European Conference on Computer Vision.Czech:Springer,2004:69-82.
[5] Shet V,Neumann J,Ramesh V,et al.Bilatticebased logical reasoning for human detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.Brazil:IEEE,2007:243-250.
[6] Chen Mingyu,Hauptmann A.Searching for a specific person in broadcast news video[C]//The IEEE International Conference on Acoustics,Speech and Signal Processing.Montreal,Canada:IEEE,2004:1036-1039.
[7] 夏思宇.彩色圖像序列的人臉檢測、跟蹤與識別研究[D].南京:東南大學(xué)自動化學(xué)院,2006.Xia Siyu.Study on face detection,tracking and recognition in color image sequence[D].Nanjing:School of Automation,Southeast University,2006.
[8] 夏思宇,潘泓,金立左,等.基于特征組合的人臉跟蹤方法[J].數(shù)據(jù)采集與處理,2011,26(1):15-19.Xia Siyu,Pan Hong,Jin Lizuo,et al.Face tracking based on feature combination[J].Journal of Data Acquisition and Processing,2011,26(1):15-19.
[9] Yang Jian,Zhang D,F(xiàn)rangi A F.Two dimensional PCA:a new approach to appearance based representation and recognition[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,2004,26(1):131-137.
[10]鄭豪.基于L1范式的分塊2DPCA人臉識別方法[J].數(shù)據(jù)采集與處理,2011,26(6):666-670.Zheng Hao.Method of face recognition based on L1-norm and block two-dimensional principal component analysis[J].Data Acquisition and Processing,2011,26(6):666-670.
[11]Lee D D,Seung H S.Learning the parts of objects with non-negative matrix factorization[J].Nature,1999,401:788-791.
[12]嚴慧,金忠,楊靜宇.非負二維主成分分析及在人臉識別中的應(yīng)用[J].模式識別與人工智能,2009,22(6):809-814.Yan Hui,Jin Zhong,Yang Jingyu.Non-negative two-dimensional principal component analysis and its application to face recognition[J].Pattern Recogni-tion and Artifical Intelligence,2009,22(6):809-814.
[13]Hafed Z M,Levine M D.Face recognition using the discrete cosine transform[J].International Journal of Computer Vision,2001,43(3):167-188.
[14]Chen W,Meng J E,Wu S.PCA and LDA in DCT domain[J].Pattern Recognition Letters,2005,26(15):2474-2482.
[15]伊洪濤,付平,沙學(xué)軍.基于DCT和線性判別分析的人臉識別[J].電子學(xué)報,2009,37(10):2211-2214.Yin Hongtao,F(xiàn)u Ping,Sha Xuejun.Face recognition based on DCT and PCA[J].Acta Electronica Sinica,2009,37(10):2211-2214.
[16]Xavier N,Patrick G.A fast shot matching strategy for detecting duplicate sequences in a television stream[C]//International Workshop on Computer Vision Meets Databases.Baltimore,USA:ACM,2005:121-128.
[17]Kamil Senel.A learning framework for robust hashing of face images[D].Turkey:Electrical and Electronics Engineering Department,Bogazici University,2010.
[18]Ke Y,Sukthankar R,Huston L.An efficient partsbased near-duplicate and sub-image retrieval system[C]//ACM Multimedia.New York,USA:ACM,2004:869-876.
[19]Ke Y,Sukthankar R.PCA-sift:a more distinctive representation for local image descriptors[C]//IEEE Conference on Computer Vision and Pattern Recognition.Washington DC,USA:IEEE,2004:506-513.
[20]Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal on Computer Vision,2004,60(2):91-110.
[21]Bicego M,Lagorio A,Grico E,et al.On the use of SIFT features for face authentication[C]//The Conference on Computer Vision and Pattern Recognition Workshop.New York,USA:IEEE,2006:35-39.
[22]Luo Jun,Ma Yong,Takikawa E,et al.Personspecific features for face recognition [C]//The International Conference on Acoustics,Speech,and Signal Processing.New York,USA:IEEE,2007:593-596.
[23]Shekhovtsov A,Kovtun I,Hlavac V.Efficient MRF deformation model for non-rigid image matching[J].Computer Vision and Image Understanding,2008,112(1):91-99.