深圳市賽為智能股份有限公司 陳 雁 卿濟(jì)民 林必毅 劉春秋
本文所提到的關(guān)鍵幀就是在整個視頻片段中能夠有信息變化的圖像,這些圖像往往含有與前后視頻不同的信息元素,而關(guān)鍵幀技術(shù)就是要通過一系列的技術(shù)手段從長時間的視頻中將這些含有突發(fā)性變化的視頻圖像檢索出來,這樣提取的關(guān)鍵幀圖像就可以通過分析得到靜態(tài)和動態(tài)特征,為相關(guān)性研究和智能分析提供數(shù)據(jù)支撐。
筆者研究了國內(nèi)外關(guān)于關(guān)鍵幀提取技術(shù)的相關(guān)文獻(xiàn)資料,總結(jié)出目前國內(nèi)外在關(guān)鍵幀提取的方法主要包括以下幾種:
這種提取方法主要是因?yàn)樵谕粋€鏡頭內(nèi),相鄰圖像幀之間應(yīng)該存在較小的變化,因此,整個鏡頭圖像的邊界變化也應(yīng)該較小,而一旦鏡頭中出現(xiàn)邊界變化,則可以分析出這些鏡頭中包含了變量因素,因此可以將鏡頭邊界變化的第一幀和最后一幀摘選出來作為關(guān)鍵幀,這種方法的優(yōu)點(diǎn)是能夠簡單易行的找出視頻中的變化場景,而缺點(diǎn)是當(dāng)鏡頭抖動或者運(yùn)動時,甄選的畫面就會出現(xiàn)誤差,而且對于一些較長事件來說,只選取首尾兩幀畫面很難有所發(fā)現(xiàn),如果鏡頭分割更是無法進(jìn)行信息篩選。
這種辦法主要運(yùn)用圖像中每個幀的特點(diǎn)改變來獲取關(guān)鍵幀的,第一,圖像中的第一個數(shù)據(jù)幀設(shè)定為關(guān)鍵幀,然后把目前的數(shù)據(jù)幀和上一個關(guān)鍵幀來對比,并且得出二者之間的差值,若該差值超出既定閾值,那么該數(shù)據(jù)幀就是關(guān)鍵幀。在這種數(shù)據(jù)幀改變的前提下,所獲得關(guān)鍵幀的方法能夠更加靈活的進(jìn)行關(guān)鍵幀的判斷,提高了運(yùn)算的靈活性,但是他對運(yùn)動不敏感,沒辦法有效選取信息的變化,因此也有一定的缺陷。
這種基于運(yùn)動的分析方法主要是應(yīng)用攝像機(jī)運(yùn)動來進(jìn)行圖像信息的識別,是相機(jī)的運(yùn)動包含變焦運(yùn)動和旋轉(zhuǎn)運(yùn)動兩種,當(dāng)分析基于變焦運(yùn)動時候,選擇變焦的首尾兩幀畫面作為關(guān)鍵幀,而基于旋轉(zhuǎn)的運(yùn)動,則需要將與前一幀畫面重疊小于30°的畫面作為關(guān)鍵幀。在采用運(yùn)動辦法的基礎(chǔ)上,進(jìn)行研究相關(guān)運(yùn)動的時候,這樣需要進(jìn)行計(jì)算的數(shù)據(jù)量是很大的,并且所消耗的時間也比較大,更關(guān)鍵的是在WOL辦法中,其局部的最小數(shù)值也是比較模糊大概的。
隨著聚類科學(xué)技術(shù)的發(fā)展,其在數(shù)據(jù)信息處理中被大量的運(yùn)用。對于一些既定的數(shù)據(jù)樣本,我們從一開始其實(shí)對數(shù)據(jù)樣本的分類并不明確,所以更加希望能夠使用一些辦法把該樣本能夠進(jìn)行比較合理的區(qū)分,這樣就能夠把比較相近的要素分到一起,從而和差別較大的要素區(qū)分更大。這也就是該聚類的主要辦法,從聚類辦法的初始狀態(tài)開始,把該樣本中的任一要素都合理的分配到特定聚類,進(jìn)而滿足客戶的需求以及系統(tǒng)的要求[2]。然而這種計(jì)算方法并不是簡單的,要想實(shí)現(xiàn)其實(shí)還是有難度的,并且這種實(shí)現(xiàn)過程中的計(jì)算數(shù)量也是相當(dāng)大的,這種對鏡頭數(shù)據(jù)實(shí)行全面研究以后,更加希望對該鏡頭的視頻進(jìn)行相關(guān)的聚類,其主要因素如下:
第一,在相關(guān)的視頻信息中,通常狀況下任一視頻片段都會包括諸多鏡頭,若對這些鏡頭一一進(jìn)行區(qū)分研究,那么不僅耗時費(fèi)力,而且分析結(jié)果也較為復(fù)雜,更重要的是,只是對一個鏡頭進(jìn)行處理,這樣就會很難保存該視頻片段的時間特性以及運(yùn)動特定,該視頻也會顯得不夠連續(xù)。其次,通過聚類方式將視頻進(jìn)行長度壓縮。從當(dāng)前來看已成功的運(yùn)用關(guān)鍵幀來表示特定鏡頭,也能夠運(yùn)用相關(guān)技術(shù)對這些視頻進(jìn)行有效的處理,然而這種數(shù)據(jù)訪問量還是比較大的。比如一個視頻片段分為600到1500個相關(guān)鏡頭,也就代表有相同數(shù)據(jù)的關(guān)鍵幀,例如在某個視頻中包含3千-75萬個關(guān)鍵幀,那么如果我們將這個研究對象放大到整個視頻監(jiān)控庫,整個數(shù)據(jù)量將會達(dá)到多么驚人的一個數(shù)量級,如果單一的對這些數(shù)據(jù)進(jìn)行處理也將是更加復(fù)雜的工程,所以通過聚類處理的方式可以實(shí)現(xiàn)對這些數(shù)據(jù)的簡化,也就是將不同的關(guān)鍵幀實(shí)行一一區(qū)分并且分類,如此不但能夠減小相關(guān)搜索的范圍,還可以有效減小索引所用的時間。
在當(dāng)前的諸多視頻信息處理過程中,基本上是運(yùn)用MPEG的一種被壓縮文件格式來保存的,若想要提取,就得先對該壓縮文件全部解壓,而后對關(guān)鍵幀實(shí)行提取,這樣的工作量肯定會很大的,而且還會占用大量的存儲空間,所以直接基于MPEG格式進(jìn)行關(guān)鍵幀提取就成為視頻信息分析的關(guān)鍵技術(shù),最早提出在壓縮視頻流中進(jìn)行關(guān)鍵幀提取的是Janko等學(xué)者,他們利用壓縮流中的宏模塊檢測來實(shí)現(xiàn)對壓縮視頻流中關(guān)鍵幀的提取,此外實(shí)際中還有一種更為簡便的壓縮視頻關(guān)鍵幀提取方法,就是將這些壓縮視頻按照等時間段的劃分為若干的視頻片段,再分別提出這些視頻的第一幀圖像,通過對這些片段第一幀圖像的對比可以有效的找出視頻之間的聯(lián)系和變化,從而提取到關(guān)鍵幀。不過壓縮視頻流提取關(guān)鍵幀技術(shù)也存在一定的缺陷,容易產(chǎn)生誤差。
關(guān)鍵幀提取后,就要對不同的關(guān)鍵幀鏡頭進(jìn)行識別和特征量提取,從而可以建立相應(yīng)的檢索規(guī)則,而對關(guān)鍵幀的圖像特征量提取就涉及到圖像中的鏡頭顏色特點(diǎn)數(shù)量,鏡頭形狀和紋理的特點(diǎn)數(shù)量,所有該要素一同組成了該鏡頭數(shù)據(jù)的空間特點(diǎn),所以,該特點(diǎn)也會被運(yùn)用于視頻數(shù)據(jù)聚類搜索的相關(guān)依據(jù)。
視頻圖像的顏色特征,是視頻信息的最基本特征,對于關(guān)鍵幀圖像的顏色信息處理過程為:首先要對不同的視頻場景設(shè)定不一樣的顏色空間,進(jìn)而對任一分量的取值進(jìn)行確定,這樣就可以把場景顏色的特點(diǎn)轉(zhuǎn)變?yōu)閿?shù)學(xué)特點(diǎn),最終在數(shù)學(xué)科學(xué)的前提下,對不同圖像向量之間的相似性進(jìn)行規(guī)定,通過數(shù)學(xué)表達(dá)的方法來判斷不同顏色的類似性,其主要構(gòu)造包含RGB結(jié)構(gòu),HSV結(jié)構(gòu)和HIS結(jié)構(gòu)等[3]。RGB其實(shí)和我們的視覺是比較類似的,然而其不足是不能夠有效分別這種顏色的亮度、顏色的飽和度以及顏色的色調(diào)等,僅僅是運(yùn)用其基礎(chǔ)色的不同分量來進(jìn)行比較,所以在處理一些對色度和亮度有變化的圖像時往往應(yīng)對不足。而HSV顏色空間是基于人類的視覺感知系統(tǒng)建立的顏色空間,分別對畫面的色度、飽和度和亮度進(jìn)行識別,這種識別方式也十分符合人類對于顏色空間的處理方式。
對于形狀特征的提取,其主要辦法包含形狀以及區(qū)域的描述來實(shí)現(xiàn),亦或是綜合二者來實(shí)現(xiàn)特征提取。這里提到的邊界特征主要是圖像中物體的外部邊界,物體在圖像中的外部邊界和圖像的實(shí)際區(qū)域的相關(guān)位置是相關(guān)聯(lián)的,然而邊界形狀特點(diǎn)的描述就是該圖像信息中任一元素的形狀數(shù)據(jù)都能夠運(yùn)用相關(guān)的矢量來進(jìn)行的,這種實(shí)現(xiàn)的辦法是多種多樣的,比較典型的是傅立葉描述子,其主要對對象的邊界進(jìn)行相關(guān)轉(zhuǎn)變,并把它當(dāng)作目標(biāo)形狀的特點(diǎn)描述,這種方法對于目標(biāo)的平移以及旋轉(zhuǎn)都有著良好的穩(wěn)定性。在該特點(diǎn)描述的基礎(chǔ)上,就要求詳細(xì)的描述任一目標(biāo)的形狀數(shù)據(jù),比如該區(qū)域的相關(guān)面積數(shù)據(jù)、目標(biāo)重心數(shù)據(jù)等,有時候?yàn)榱私鉀Q目標(biāo)的相關(guān)遮擋問題,還會運(yùn)用有關(guān)的局部特點(diǎn),例如直線特點(diǎn)、圓形弧線特點(diǎn)、角點(diǎn)和目標(biāo)高曲率點(diǎn)特點(diǎn)等,相對比較復(fù)雜的相關(guān)描述辦法則例如目標(biāo)形狀不變矩特征,主要代表如七階不變矩,而且其使用也普遍。這種目標(biāo)形狀特點(diǎn)的主要優(yōu)勢那就是能夠輔助大家對目標(biāo)以及背景進(jìn)行直接的區(qū)分,更加專注于對象的內(nèi)部特征,對于外部內(nèi)容則關(guān)注較少,其實(shí)這種和顏色以及相關(guān)紋理的特點(diǎn)還是有著較大的分別。
圖像的紋理特征主要是對圖像的特定局部的相關(guān)性質(zhì)進(jìn)行定義,也就是目標(biāo)圖像的局部區(qū)域之內(nèi)的像素之間的關(guān)系的相關(guān)描述,通常狀況下,紋理特征更多的是變現(xiàn)為某個區(qū)域的不規(guī)律變化,對于全部目標(biāo)圖像的特點(diǎn)的描述存在缺陷,其紋理的特點(diǎn)也就是其搜索的關(guān)鍵特點(diǎn)指標(biāo),在該紋理特點(diǎn)的描述的基礎(chǔ)上,諸多專家學(xué)者指出了運(yùn)用空間灰度共生矩陣法、小波紋理分析法等圖像特征分析方法。
海量視頻數(shù)據(jù)的出現(xiàn)使得對于視頻數(shù)據(jù)的處理和分析成為了擺在行業(yè)發(fā)展面前的一道難題,而關(guān)鍵幀提取技術(shù)則是解決這個難題的核心技術(shù),能夠通過有效手段提取到關(guān)鍵幀從而能夠分析出視頻事件背后的邏輯是視頻數(shù)據(jù)處理的關(guān)鍵。