何坤鵬+龔捷+何山++褚福銀
摘要:針對(duì)目前圖像識(shí)別中存在局部識(shí)別及特定目標(biāo)識(shí)別的限制和目標(biāo)視頻片段提取的問(wèn)題,該文利用局部自適應(yīng)回歸核函數(shù)(LARKs),并結(jié)合self-resemblance、PCA、Saliency Map等方法而設(shè)計(jì)出一種視頻中通用目標(biāo)識(shí)別系統(tǒng),該系統(tǒng)可以通過(guò)輸入圖片從視頻中找到目標(biāo)并進(jìn)行跟蹤,針對(duì)用戶(hù)需求可以從視頻中提取只與目標(biāo)相關(guān)的視頻片段,從而提高用戶(hù)獲取有效信息的效率。經(jīng)過(guò)實(shí)驗(yàn)測(cè)試,該方法具有較高的準(zhǔn)確率,特別是在視頻監(jiān)控領(lǐng)域具有重要的應(yīng)用價(jià)值。
關(guān)鍵詞:局部自適應(yīng)回歸核函數(shù);self-resemblance;通用目標(biāo);跟蹤提取;Saliency Map;PCA
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)04-0150-03
Research on General Targets Tracking and Extraction of Video Based on Self-Resemblance
HE Kun-peng, GONG Jie, HE Shan, CHU Fu-yin
(Southwest Petroleum University, Chengdu 610500,China)
Abstract: For there are local recognition and specific target recognition of the limitations and target video clips extracted problems in image recognition, In this paper, we use the locally adaptive regression kernel (LARKs), Combined with self-resemblance, PCA, Saliency Map and other methods, a universal target recognition system in video is designed,, by inputting the target image from the video to find the target and tracking, according to the needs of the user can extract only associated with the target video clips from the video, so as to improve the user access to effective information efficiency. Through the test, the method has higher accuracy, especially in the field of video surveillance has important application value.
Key words: LARKS; self-resemblance; general objective; Tracking and extracting; Saliency Map;PCA
1 概述
圖像識(shí)別可以通過(guò)用計(jì)算機(jī)進(jìn)行數(shù)據(jù)處理、分析,通過(guò)不同算法對(duì)特定目標(biāo)及應(yīng)用場(chǎng)景進(jìn)行識(shí)別的技術(shù)。圖像的識(shí)別經(jīng)歷了文字識(shí)別、數(shù)字圖像處理與識(shí)別、物體識(shí)別三個(gè)階段。[1]當(dāng)前針對(duì)圖像識(shí)別主要是對(duì)目標(biāo)局部、針對(duì)特定個(gè)體進(jìn)行識(shí)別,如這幾年研究比較多的人臉識(shí)別、虹膜識(shí)別、車(chē)牌識(shí)別、人臉識(shí)別、手勢(shì)識(shí)別等等,然而隨著社會(huì)經(jīng)濟(jì)的不斷發(fā)展,新媒體的發(fā)展日新月異,但是無(wú)論怎么變化,信息的傳播基本是以文字、音頻、視頻為主要表現(xiàn)形式。圖像識(shí)別技術(shù)在監(jiān)控視頻領(lǐng)域中有著較高的應(yīng)用需求,主要的需求來(lái)源于對(duì)大量數(shù)據(jù)的有效存儲(chǔ)和識(shí)別,以及實(shí)時(shí)監(jiān)控兩個(gè)方面。對(duì)于前者而言,如何存儲(chǔ)海量數(shù)據(jù)和挖掘有效信息成為了一種急需解決的問(wèn)題,對(duì)于后者而言如何對(duì)大量的實(shí)時(shí)監(jiān)控視頻進(jìn)行處理已經(jīng)成為人們關(guān)注的焦點(diǎn),目前公共場(chǎng)所、道路交通、軍工生產(chǎn)、高校校園都有擁有大量的視頻監(jiān)控設(shè)備,但是在發(fā)生突發(fā)事故時(shí),面對(duì)海量的監(jiān)控視頻,不僅需要監(jiān)控設(shè)備使用方擁有容量比較大的存儲(chǔ)設(shè)備來(lái)存儲(chǔ)數(shù)據(jù),與此同時(shí)工作人員需要花費(fèi)大量時(shí)間尋找與突發(fā)事件相關(guān)的視頻片段。為了解決這些問(wèn)題,我們提出了基于Self-Resemblance的視頻通用目標(biāo)跟蹤與提取解決方案。所謂自相似是在待匹配的圖片中到與自身最相似結(jié)果。先我們要獲得原視頻,通過(guò)程序處理將視頻轉(zhuǎn)化為圖片幀的形式并保存,然后根據(jù)用戶(hù)提供的或者視頻中截取的目標(biāo)進(jìn)行匹配,并通過(guò)運(yùn)行系統(tǒng)將檢測(cè)結(jié)果自動(dòng)標(biāo)記出來(lái),最后通過(guò)設(shè)置圖片幀,將在視頻中連續(xù)檢測(cè)到超過(guò)一定時(shí)間的檢測(cè)結(jié)果連起來(lái)輸出,即可提取出目標(biāo)視頻片段,系統(tǒng)識(shí)別流程圖如圖1所示。本文的不同之處在于可以達(dá)到以圖搜索目標(biāo)的目的,并且可以在監(jiān)控視頻中自動(dòng)提取與識(shí)別目標(biāo)相關(guān)的視頻片段,對(duì)輸入的待識(shí)別目標(biāo)樣本沒(méi)有特殊要求,從而實(shí)現(xiàn)通用目標(biāo)識(shí)別,在一定程度上待匹配目標(biāo)的與樣本相似程度對(duì)識(shí)別正確率會(huì)有一定影響,這也是目前存在的難點(diǎn),圖2為系統(tǒng)軟件的界面圖。
2 相關(guān)工作
2.1 LARKs特征計(jì)算
自動(dòng)視頻跟蹤是通過(guò)圖像處理算法,實(shí)時(shí)計(jì)算出選定的目標(biāo)(如人、車(chē)輛等)在圖像中的精確位置,并控制狀態(tài)轉(zhuǎn)動(dòng),從而保持目標(biāo)始終處在視頻窗口中的一個(gè)指定位置。[2]但是在實(shí)際情況中,識(shí)別目標(biāo)比較復(fù)雜,不僅僅是依靠人體某些局部部位,因此針對(duì)不同的應(yīng)用場(chǎng)合,從物體局部位向物體的識(shí)別能夠很好地解決這一矛盾。通常在視頻監(jiān)控系統(tǒng)中需要對(duì)移動(dòng)目標(biāo)先檢測(cè)后識(shí)別,本文主要使用了LARKs(LocallyAdaptive Regression Kernels),即局部自適應(yīng)回歸核函數(shù),LARKs關(guān)鍵思想是在評(píng)估梯度的基礎(chǔ)上通過(guò)分析像素值的差異來(lái)有力的獲取圖像的結(jié)構(gòu),并且使用獲取的結(jié)構(gòu)信息決定典型核函數(shù)的模型及大小,而局部核被模型化為一個(gè)徑向?qū)ΨQ(chēng)函數(shù)[3]。
(1)
X=[x1, x2]T 為空間坐標(biāo),P2為在當(dāng)前窗口PxP的像素,因此所謂的方向矩陣定義如下:
(2)
h為全局平滑參數(shù),矩陣是協(xié)方差矩陣估計(jì)一個(gè)在局部分析窗口X位置的空間梯度向量集合。轉(zhuǎn)向矩矩陣Hl通過(guò)修改局部核函數(shù)模型及大小的方式大致對(duì)體現(xiàn)圖像局部的幾何結(jié)構(gòu)進(jìn)行編譯[4]。在向量x方向,我們基本上是使用(一個(gè)歸一化的版本)k(xl-x;)作為Xl和Hl的函數(shù)體現(xiàn)一幅圖像的固有的局部幾何結(jié)構(gòu)。為了更加精確,局部核導(dǎo)向函數(shù)Kj(xl-x;Hl)在每一小塊通過(guò)指數(shù)j的密集計(jì)算和規(guī)范定義如下[5]:
(3)
其中n為L(zhǎng)ARKs查詢(xún)圖像集M被計(jì)算的塊數(shù)。
2.2 PCA主成因分析
PCA(Principal Component Analysis)是我們科研中常用的數(shù)據(jù)分析方法,PCA是通過(guò)尋找方差比較大的維與忽略比較平均的維度,以線性變換的方式將原始數(shù)據(jù)變換為一組各維度線性無(wú)關(guān)的表示,經(jīng)常用來(lái)提取數(shù)據(jù)主要特征分量及高維數(shù)據(jù)的降維,也可以數(shù)據(jù)可視化,本文中利用PCA一方面實(shí)現(xiàn)特征降維、尺寸縮減,其次是重構(gòu)LARKs查詢(xún)的特征的協(xié)方差矩陣,并進(jìn)行主成分分析。一般情況下,在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中,數(shù)據(jù)被表示為向量,PCA算法在本質(zhì)上把方差最大的方向作為主要特征,并且在各個(gè)正交方向上將數(shù)據(jù)“離相關(guān)”,也就是讓它們?cè)诓煌环较蛏蠜](méi)有相關(guān)性[6]。由于在降維映射過(guò)程中的誤差存在,因此在高維特征降維之前,需要做特征歸一化處理。本文中的數(shù)據(jù)源是用于目標(biāo)測(cè)試的標(biāo)準(zhǔn)視頻庫(kù),經(jīng)過(guò)算法轉(zhuǎn)化為幀圖片,每副圖像都是N*N大小,將它們作為一個(gè)維的向量并排成矩陣找出主元。
2.3 基于self-resemblance的saliency map計(jì)算
如果一個(gè)目標(biāo)具有自相似性,表示它和它本身的一部分完全或是幾乎相似。self-resemblance可以通過(guò)公式4的模型計(jì)算,如果輸入圖為一個(gè)灰度圖,在一個(gè)局部鄰域內(nèi)識(shí)別特征矩陣Fi、Fj,否則就從不同的三種顏色通道識(shí)別各自的特征矩陣,矩陣余弦相似性計(jì)算顯著性。Si即為輸出的Saliency Map[7]。
(4)
其中i,j分別對(duì)應(yīng)向量個(gè)數(shù),F(xiàn)i為中心矩陣,F(xiàn)j為中心+周?chē)仃?,σ是?quán)重脫落量控制參數(shù),N為一個(gè)中心+周?chē)鷧^(qū)域的大小[8]。
顯著度的研究是從生物研究發(fā)展而來(lái),早期比較重要的工作是C.Koch與S.Ullman做的,時(shí)間可以追溯到1985年[9]。這是一種模擬生物體視覺(jué)注意機(jī)制的選擇性注意模型,更多的應(yīng)用與處理自然圖像。本文中的顯著值是通過(guò)把像素點(diǎn)在顏色、亮度、方向方面和周?chē)尘斑M(jìn)行對(duì)比得出一系列顯著點(diǎn),所有點(diǎn)的顯著值構(gòu)成一張顯著圖。[10]
該模型主要是提取色彩、亮度、旋轉(zhuǎn)一致性三種特征,最終可以得到三種feature map。然后將feature map歸一化進(jìn)一步綜合,綜合的方法是簡(jiǎn)單的相加。從綜合后的saliency map上提取前N個(gè)峰值即為尋求的interest points。
在得到saliency map圖后,最后對(duì)不同顏色通道輸出識(shí)別結(jié)果并保存,在視頻的輸出中,我們根據(jù)輸出識(shí)別結(jié)果連續(xù)時(shí)間,設(shè)置合適的閾值和播放時(shí)間,這里用戶(hù)可以根據(jù)自己的需求自行設(shè)置目標(biāo)區(qū)間,從而得到自己感興趣的部分。
3 總結(jié)與展望
通過(guò)以上的方法介紹,在本文中我們提出了新的方法,整個(gè)系統(tǒng)算法處理流程如圖4所示,我們使用顯著性檢測(cè)圖像中目標(biāo),首先利用LARKs函數(shù)獲取局部結(jié)構(gòu)特征潛在的數(shù)據(jù),然后使用非參數(shù)核密度評(píng)估這些特征,獲得的結(jié)果將會(huì)在一個(gè)含有自相似衡量的顯著圖中[10]。在上述過(guò)程中為了減少預(yù)測(cè)變量的個(gè)數(shù),實(shí)現(xiàn)特征降維,同時(shí)確保獨(dú)立性變量,我們采用了PCA主成因分析的方法。
本文通過(guò)上述方法,能夠進(jìn)行海量視頻中選擇性通用目標(biāo)的識(shí)別跟蹤,在識(shí)別圖片的基礎(chǔ)上,通過(guò)調(diào)整設(shè)置閾值和播放時(shí)間的數(shù)值,能夠把識(shí)別的結(jié)果分別以視頻和圖片形式輸出,能夠幫助工作人員或者客戶(hù)迅速找到自己感興趣的目標(biāo)視頻片段,在不丟失基本信息的基礎(chǔ)上實(shí)現(xiàn)了視頻的壓縮,通過(guò)通用目標(biāo)識(shí)別的方法,擺脫了傳統(tǒng)方法對(duì)輸入目標(biāo)樣本的特殊要求,通過(guò)大量實(shí)驗(yàn)測(cè)試,我們能夠以較高的的準(zhǔn)確率識(shí)別目標(biāo),但是目前監(jiān)控視頻數(shù)據(jù)巨大,在處理上難免會(huì)花費(fèi)更長(zhǎng)時(shí)間,所以提高運(yùn)算速度至關(guān)重要,一方面需要借助高性能計(jì)算平臺(tái)來(lái)提高運(yùn)算速度,其次可以人工選取需要處理的視頻時(shí)間范圍來(lái)節(jié)省時(shí)間。目前面臨一個(gè)問(wèn)題,因?yàn)檫@是基于自相似的通用目標(biāo)識(shí)別,如果待識(shí)別樣本中出現(xiàn)的樣本與目標(biāo)樣本過(guò)于相似,就有可能出現(xiàn)識(shí)別錯(cuò)誤的現(xiàn)象,這也是影響準(zhǔn)確率的關(guān)鍵所在,因此如何避免這種錯(cuò)誤是我們接下來(lái)進(jìn)一步的要做的工作。如果很好解決了這個(gè)問(wèn)題將會(huì)使使準(zhǔn)確率大幅提高,在現(xiàn)實(shí)生活中具有重要的應(yīng)用價(jià)值。
4 實(shí)驗(yàn)結(jié)果
本文中我采用一個(gè)本地監(jiān)控視頻及Pets2001視頻數(shù)據(jù)集和i-LIDS library進(jìn)行試驗(yàn)測(cè)試,為了證明方法的可靠性,我還用了監(jiān)控視頻、新聞視頻等視頻資源進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果中針對(duì)不同類(lèi)別樣本中,能夠準(zhǔn)確的識(shí)別出結(jié)果,圖5中紅色框內(nèi)圈出的即為系統(tǒng)自動(dòng)識(shí)別的結(jié)果,若多個(gè)框的顏色深度不一,顏色較深的為實(shí)際目標(biāo),較淺的為可疑目標(biāo),通過(guò)統(tǒng)計(jì)識(shí)別結(jié)果,我們得出了在不同樣本數(shù)、不同類(lèi)別樣本中,該方法具有較高的準(zhǔn)確率,因此該方法在現(xiàn)實(shí)生活中具有一定的實(shí)用價(jià)值。
參考文獻(xiàn):
[1] 侯勝彬.基于Open CV 的運(yùn)動(dòng)目標(biāo)檢測(cè)跟蹤的研究[D].電子科技大學(xué), 2014.
[2] 譚琪璘.運(yùn)動(dòng)目標(biāo)信息感知技術(shù)在智能監(jiān)管系統(tǒng)中的應(yīng)用[D].西安電子科技大學(xué), 2013.
[3] H. J. Seo and P. Milanfar. Training-free,g-eneric object detectionusing locally adaptive regression kernels[J].IEEE Transactions onPattern Analysis & Machine Intelligence.2010,32(9):1688-1704.
[4] Zhihui Zheng,Liping Xiao,Bin Zhou.Generi-c Object Detection in Maritime Environment Using Self-Resemblance[C].IEEE,2015.
[5] H. Takeda, S. Farslu, and P. Milanfar. Kernel regression for image processing and reconstruction[J]. IEEE Transactions on Image Processing,2007,16(2):349-366
[6] 焦斌亮.基于PCA算法的人臉識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用.2011,47(18):201-203.
[7] Hae JongSeo.Peyman Milanfar.Nonparaetric Bottom-Up Saliency Detection by Self-Resemblance[C].IEEE,2009:45-52.
[8] E. Shechtman and M. Irani. Matching local self-similarities across images and videos[C].Minneapolis:IEEE,2007.5:1-8
[9] S.Goferman,L. Zelnik-Manor, and A. Tal.Context-aware saliency detection[C].IEEE,2012,34(10):1915-1926.
[10] L Itti,C Koch,E Niebur.A Model of Saliency-Based Visual Attention for Rapid Scene Analysis[J].IEEE Transactions on Pattern Analysis &Machine Intelligence.1998,20(11):1254-1259.