蘆偉
現(xiàn)在已經(jīng)進入到大數(shù)據(jù)時代,每天產(chǎn)生的信息量已經(jīng)無法用G和T來描述,而是以P(1千T),E(1百萬T)或Z(10億T)作為計量單位。如今兩天就能創(chuàng)造出自文明誕生以來到2003年所產(chǎn)生的數(shù)據(jù)總量,預計到2020年各種數(shù)據(jù)量還將會比現(xiàn)在還要增加50倍。
我們常用的百度,其首頁導航每天要從超過1.5PB的龐大數(shù)據(jù)中進行挖掘,這些數(shù)據(jù)如果打印出來將超過5千億張A4紙,摞起來會超過4萬公里高,接近地球同步衛(wèi)星軌道長度,平鋪可以鋪滿海南島。在如此龐大的數(shù)據(jù)中,占據(jù)比例最大的是視頻圖像數(shù)據(jù)。
2012年的統(tǒng)計結(jié)果顯示,視頻和圖像數(shù)據(jù)已經(jīng)占到整個大數(shù)據(jù)的80%,而且隨著視頻高清化、超高清化的發(fā)展,這個比例還在不斷增大。數(shù)據(jù)量的急劇增加,給人們工作生活帶來了很多好處,同時也給數(shù)據(jù)處理帶來很大的麻煩,面對超乎人們想象的海量視頻數(shù)據(jù)如何進行快速檢索,找到有用的信息,成為近年來國內(nèi)外很多機構(gòu)公司研究的重點。
視頻檢索的必要性
在專業(yè)視聽方面,視頻數(shù)據(jù)最多的地方,那應該是監(jiān)控了。為了保障人民生活安全,改善社會治安和交通狀況,國家和各級政府投入巨資進行了“天網(wǎng)工程”、“平安城市”的建設,成千上萬路監(jiān)控攝像頭遍布大街小巷,晝夜不停地監(jiān)視和錄像,以備需要時能夠隨時調(diào)取采用。不過如此多的數(shù)據(jù),在發(fā)生情況時,卻發(fā)現(xiàn)要找到真正有價值的那部分視頻是一件很困難的事情。
如2012年江蘇南京市曾發(fā)生一起持槍搶劫案,一個男子光天化日下持槍搶劫銀行取款人,擊中取款人頭部并搶錢之后逃竄。案發(fā)后,南京警方通過調(diào)取持槍劫匪作案后逃離現(xiàn)場的視頻資料,最終將劫匪捉拿歸案。不過事后得知,這部分視頻的獲取是相當不易的,是500多個民警經(jīng)過24小時對上萬小時的視頻圖像逐一進行甄別取得的。
另一個真實案例是,前不久廣州一騎電動車女子被一輛違章貨車刮倒致死,經(jīng)過長達20多天對事故地點附近學校、商場、網(wǎng)吧等單位的數(shù)千個小時的監(jiān)控錄像進行分析,并調(diào)取附近街175萬多張監(jiān)控照片比對后,警方才鎖定了肇事車輛。由此可以看出,傳統(tǒng)視頻檢索模式工作量極大、獲取到有效信息耗時很長,往往為了一分鐘甚至幾十秒的有效視頻需要審看幾十個甚至上百個攝像頭、前后數(shù)天的視頻。為了不漏掉重要信息,需要將視頻從頭到尾順序播放。由于人眼長時間觀看視頻錄像會產(chǎn)生視覺疲勞,因此一段視頻往往需要花費更多的時間進行重復審看,大大增加了工作量。此外為了降低遺漏和誤差,還不得不加大人力,采用人海戰(zhàn)術(shù),綜合投入成本高但成效卻一般。因此市場急需高效視頻檢索技術(shù)來提高工作效率。
當傳統(tǒng)思維遇到大數(shù)據(jù)
雖然已經(jīng)進入大數(shù)據(jù)時代,但現(xiàn)在相當多的地方視頻監(jiān)控檢索仍沒有充分考慮海量數(shù)據(jù)帶來的影響,還在從傳統(tǒng)思維入手改良。如根據(jù)日期、時間、時段查詢的時間檢索法,這種方式對于時間、地點明確的事件查詢還是可行的,但往往很多事件各種因素不太確定或涉及多地不同時段,那檢索起來的難度和工作量可想而知,因此這種太過粗略和簡單的檢索法正在被逐漸淘汰。
后來又出現(xiàn)了視頻標注法,通過人工的方式將某一段視頻進行主觀的屬性標注,然后以文本的方法進行檢索。這種方式比時間檢索發(fā)又進了一步,但依然不能完全滿足對視頻數(shù)據(jù)檢索的需要。原因是首先依靠人工手動完成添加注釋工作量很大,而且效率很低:其次,某些視頻和感知特征很難用文字來描述,而且特定的標簽只適合特定的查詢:再次,文字標簽是靠觀察者加上去的,因此受主觀因素的影響,不同的觀察者可能有不同的描述,必然導致不同的標注結(jié)果。
此外在傳統(tǒng)思維的基礎(chǔ)上,后來還引申出其他檢索方法,但均不同程度存在工作量太大、時間太長、檢索效果不好的弊端。面對大數(shù)據(jù),傳統(tǒng)思維陷入了瓶頸,框在其中不能自拔。事實上,當今的大數(shù)據(jù)視頻檢索已不再是一個簡單的系統(tǒng),它涉及多項學科,使用到了視頻分割、自動數(shù)字化、語音識別、鏡頭檢測、關(guān)鍵幀抽取、內(nèi)容自動關(guān)聯(lián)、視頻結(jié)構(gòu)化等各種技術(shù),并融合了圖像處理、模式識別、計算機視覺、數(shù)據(jù)庫管理等領(lǐng)域的知識。因此只有主動跳出來,占在更高更廣的角度來考慮,從對海量視頻數(shù)據(jù)進行結(jié)構(gòu)化分析的思維出發(fā),有效地提取視頻內(nèi)容的特征,在此基礎(chǔ)上才能實現(xiàn)更高效視頻數(shù)據(jù)的檢索。
分析與檢索
大數(shù)據(jù)時代的視頻檢索是建立在視頻分析基礎(chǔ)之上的,如果沒有智能視頻分析技術(shù)為依托,高效的視頻檢索是不可能實現(xiàn)的。智能視頻分析源自計算機視覺技術(shù),它能夠在圖像及圖像內(nèi)容描述之間建立映射關(guān)系,從而使計算機能夠通過數(shù)字圖像處理和分析來有限理解視頻畫面中的內(nèi)容。在大數(shù)據(jù)時代,人們對智能視頻分析技術(shù)越來越看重。智能視頻分析依賴于視頻算法對視頻內(nèi)容進行分析,通過提取視頻中關(guān)鍵信息,進行標記或者相關(guān)處理,并形成相應事件和告警的監(jiān)控方式,人們可以通過各種屬性描述進行快速檢索。
智能視頻分析的核心是算法。視頻不同于文字、圖片、語音等,它是一種更接近于現(xiàn)實的、動態(tài)的呈現(xiàn)方式,在不同環(huán)境中即使擁有相同場景,其算法也有很大差別,因此開發(fā)這類算法需要在經(jīng)驗和實踐中不斷地總結(jié),進行大量的背景建模,同時開發(fā)的算法還需要有一定的自動適應能力。如此在各種不同場景、不同環(huán)境下的視頻才能夠被讀懂并精準分析出來,而這也正是顯示不同廠商技術(shù)水平高低的地方。
當前常用的視頻分析算法有目標檢測、目標跟蹤、目標識別、行為分析、數(shù)據(jù)融合等。其中目標檢測智能化分析的基礎(chǔ),它是按一定時間間隔從視頻圖像中抽取像素,采用軟件技術(shù)來分析數(shù)字化的像素,將運動物體從視頻序列中分離出來,常用的算法有背景減除法、時間差分法和光流法;目標識別是利用物體顏色、速度、形狀、尺寸等信息進行判別,區(qū)分人、交通工具和其他對象,我們熟悉的車牌識別和人臉識別就是屬于此類。
車牌照識別是目前應用最廣泛和技術(shù)最成熟的,而人臉識別應用潛力巨大,但目前還存在不少困難。它的難點在于比較復雜,首先要在動態(tài)的場景與復雜的背景中判斷是否存在面像,并分離出這種面像,之后對人臉特征進行提取,并與面像庫中的特征進行比對,找出最佳的匹配對象,然后對被檢測到的面貌進行動態(tài)目標跟蹤。此中涉及的數(shù)據(jù)量相當大,可選擇的算法具有多樣性,很容易由于算法的局限、特征提取的不準確、過多或太少造成誤報、不報。行為分析是指在目標檢測、跟蹤和識別的基礎(chǔ)上,對其行為進行更高層次的語義分析,可以進行更為復雜的分析,但難度相應也更高。
如今視頻分析技術(shù)已經(jīng)衍生出許多不同的運用模式,主要體現(xiàn)在兩個方向。其一是以車牌識別、人臉識別為核心代表的智能識別技術(shù),主要應用于電子警察、機楊、海關(guān)。另一個是以周界防范、人數(shù)統(tǒng)計、自動追蹤、逆行、禁停等規(guī)則為代表的行為分析技術(shù),主要應用于圍墻周界警戒區(qū)、商場、交通、景點流量統(tǒng)計,道路禁停禁放、違章逆行、場景跟蹤等方面。
在市場上,受歡迎的視頻分析產(chǎn)品一般既可以在發(fā)現(xiàn)異常情況或者突發(fā)事件能及時的發(fā)出警報,也可以方便地進行事后檢索。這種檢索當然不是傳統(tǒng)的以時間、日期為條件的視頻搜索,而是一種智能檢索,能夠通過設定的特征條件進行快速的視頻搜索,比如以特定場景、嫌疑人、車或物體的出現(xiàn),或以顏色、形狀等為搜索條件,進行特定視頻條件的智能搜索,如此再結(jié)合其他智能視頻功能,可以使大量的無序信息在短時間內(nèi)形成有價值的證據(jù)鏈。
另外隨著視頻清晰度提高、檢索數(shù)量的增多,整體視頻數(shù)據(jù)量仍顯得太大,檢索起來很耗時間,于是人們又研發(fā)出了視頻摘要來實現(xiàn)快速檢索視頻的方式。視頻摘要,又叫視頻濃縮摘要、視頻壓縮或者視頻濃縮。它是指從原視頻中提取有意義的部分,和背景視頻合成剪輯而成的較短視頻片斷,此可以將一天的視頻被壓縮成一個簡短到幾十分鐘的事件摘要視頻,其中包含了原視頻中所有重要的目標活動詳情和快照。視頻濃縮摘要可以采用原始視頻分辨率,也可以根據(jù)存儲要求降低分辨率。管理人員通過點擊濃縮視頻中的目標或者視頻左側(cè)快照,播放目標出現(xiàn)前后的原始視頻。如果希望更加快捷檢索,還可以采用分割前景和背景,提取活動目標,用快照列表這種更加直觀便捷的方式展示。視頻摘要大大方便了的視頻查找和存儲,相對于原始的視頻資料,視頻摘要的長度要短很多,極大地節(jié)省了查找時間,降低了檢索成本。
擁抱大數(shù)據(jù)未來更可待
與以往相比,近幾年視頻檢索技術(shù)得到了快速發(fā)展,準確率及效率有了大幅度的提高,雖然應用還不夠普遍,仍有不少不足的地方,但市場的快速增長說明客戶對此的接受和滿意程度在不斷提升。未來視頻檢索必然會與大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)等實現(xiàn)更緊密的結(jié)合,從海量的監(jiān)控數(shù)據(jù)中,作出更深度的分析和挖掘,拓展出更廣泛的應用。