莫 茜
(柳州職業(yè)技術(shù)學(xué)院,廣西 柳州545006)
視頻目標(biāo)跟蹤(Visual object tracking,VOT)是計算機視覺領(lǐng)域的研究熱點之一。其主要目的就是對視頻序列中的幀圖像進(jìn)行目標(biāo)檢測,確定目標(biāo)在圖像坐標(biāo)中的位置信息,從而進(jìn)行后續(xù)更深入的研究和分析。基于視頻目標(biāo)跟蹤所得的目標(biāo)位置、速度、加速度、形狀等特征信息進(jìn)行分類識別、或者更高層次的行為分析和情感溝通,從而達(dá)到及其和目標(biāo)的友好交互,實現(xiàn)真正的智能視覺系統(tǒng),基本實現(xiàn)的原理如圖1 所示。
圖1 計算機視覺系統(tǒng)應(yīng)用框圖
目前,VOT 具有十分廣泛的應(yīng)用領(lǐng)域,無論是民用還是軍事應(yīng)用領(lǐng)域,VOT 的重要性越來越凸顯,隨著信息技術(shù)的發(fā)展,各種智能設(shè)備層出不窮,機器智能視覺系統(tǒng)已經(jīng)開啟了高科技快速發(fā)展、走進(jìn)生活的通道[1]。由于視頻目標(biāo)跟蹤技術(shù)綜合運用了圖像處理、模式識別以及人工智能等多個學(xué)科領(lǐng)域的知識,具有復(fù)雜的應(yīng)用環(huán)境和算法優(yōu)化空間。雖然近四十年的發(fā)展,已經(jīng)為機器智能視覺技術(shù)的發(fā)展奠定了一定的基礎(chǔ),但是,由于視覺系統(tǒng)面臨的環(huán)境復(fù)雜:遮擋、多目標(biāo)交互、光照突變、姿態(tài)改變等多種條件的影響,目前的發(fā)展遠(yuǎn)遠(yuǎn)未能解決實際應(yīng)用的需求。因此,開展復(fù)雜環(huán)境下的魯棒視頻目標(biāo)跟蹤技術(shù)的研究,不論是從理論探索優(yōu)化深入來說,還是從目前生活息息相關(guān)的實際應(yīng)用來說,都是一個極具挑戰(zhàn)而又具有重要應(yīng)用價值的研究方向。
美國在智能視頻監(jiān)控領(lǐng)域的研究起步最早,其中,以卡內(nèi)基梅隆大學(xué)、麻省理工學(xué)院等高校牽頭的研究VSAM(Video Surveillance and Monitoring)項目最具有代表性,該項目綜合利用視頻分析、多傳感器融合等技術(shù)對未來的城市和戰(zhàn)場場景進(jìn)行場景模擬,從而實現(xiàn)場景的智能視頻監(jiān)控,解決現(xiàn)代戰(zhàn)爭中視頻監(jiān)控安全性難題;作為IT 領(lǐng)域的領(lǐng)軍企業(yè),IBM研究院早期也在智能視頻監(jiān)控系統(tǒng)的研究投入了大量的精力,相關(guān)成果一直處于全球領(lǐng)先地位,部分產(chǎn)品已經(jīng)實現(xiàn)了商業(yè)化,比如S3(Smart Surveillance System)最具有代表性,該系統(tǒng)首先通過對視頻流中的運動物體進(jìn)行跟蹤、分類、檢測和識別形成元數(shù)據(jù),然后捕捉這些運動物體的軌跡、顏色、形狀、大小、類別從而實現(xiàn)身份識別,大大提高用戶定義的報警系統(tǒng)和視頻檢索系統(tǒng)應(yīng)用的精確度[2]。
在歐洲,英國雷丁大學(xué)、倫敦大學(xué)等高校研究院所也相繼在智能視頻監(jiān)控領(lǐng)域做了大量的研究工作。英國雷丁大學(xué)開發(fā)了一個稱為“Pfinder”實時的智能視頻監(jiān)控系統(tǒng),該系統(tǒng)不僅能對人體進(jìn)行跟蹤,而且還可以對跟蹤人體的行為進(jìn)行解釋,系統(tǒng)的技術(shù)關(guān)鍵是通過構(gòu)建顏色和形狀的多級靜態(tài)模型獲得人體頭和手的二維表示,從而可以實現(xiàn)在復(fù)雜的場景中對人體進(jìn)行跟蹤監(jiān)控,成果已經(jīng)在相關(guān)領(lǐng)域推廣應(yīng)用;倫敦大學(xué)協(xié)同英國國內(nèi)的六所大學(xué)共同進(jìn)行了“用于智能監(jiān)控和優(yōu)化檢索的帶注釋數(shù)字視頻方法”項目的研究,項目的英文簡稱為“ADVISOR”。該項目通過利用多攝像機協(xié)同監(jiān)控的方式實現(xiàn)公共交通系統(tǒng)的智能管理?;谠擁椖考夹g(shù)的交通管理系統(tǒng)具備對人群密度和運動趨勢綜合計算分析的功能,如此在解決城市交通引導(dǎo)與減緩交通壓力的同時,又可以對人群行為進(jìn)行分析,方便快捷地對公共安全事件進(jìn)行評估與報警[3]。
我國在視頻監(jiān)控領(lǐng)域研究相對遲緩,但是也是后續(xù)發(fā)力,在相關(guān)領(lǐng)域也是發(fā)展迅速。1995 年開始國內(nèi)的清華大學(xué)、上海交通大學(xué)和中國科學(xué)院等高校與研究機構(gòu)投入了大量的人力、物力從事圖像識別、視頻跟蹤等相關(guān)研究。例如,國家ITS(國家智能交通系統(tǒng)工程技術(shù)研究中心)中心實驗室從1999 年開始就從事智能交通系統(tǒng)平臺的研發(fā)工作[4],在已經(jīng)在交通對象信息采集、交通信號識別與處理、交通運輸安全與故障處理等技術(shù)方面做深入研究并取得了一定的成果。中國科學(xué)院模式識別國家重點實驗室(NLPR)則從視頻目標(biāo)跟蹤的角度出發(fā),基于模式識別的理論與實踐研究,結(jié)合數(shù)據(jù)挖掘技術(shù)[5],實現(xiàn)了海量圖像中的目標(biāo)全天候定位與跟蹤,解決了目標(biāo)行為解釋與理解的難題。作為交通領(lǐng)域圖像識別與視頻跟蹤研究最早的國內(nèi)高校,上海交通大學(xué)模式識別與計算機視覺實驗室從80 年代開始就在視頻目標(biāo)檢測和跟蹤領(lǐng)域研究進(jìn)行了研究與探索,先后承擔(dān)項國家863 計劃、國家攀登計劃等重大國家攻關(guān)項目研究工作,基于“借鑒—創(chuàng)新—實踐應(yīng)用”的指導(dǎo)思想,在引進(jìn)吸收與創(chuàng)新方面取得了驕人成績,相關(guān)成果已經(jīng)在國內(nèi)外的項目中推廣應(yīng)用[6]。
視覺對象目標(biāo)跟蹤由四個環(huán)節(jié)構(gòu)成,分別是跟蹤目標(biāo)初始化的構(gòu)建、外觀模型設(shè)計以及運動估計和目標(biāo)定位。其中,目標(biāo)初始化就是要通過人工或者是自動標(biāo)注視頻序列的方法確定系同跟蹤的目標(biāo);構(gòu)建外觀模型就是通過視覺表示和統(tǒng)計建模方式構(gòu)建模型,以便用于對象識別;運動估計與定位就是利用線性回歸、卡爾曼濾波器等技術(shù)計算目標(biāo)的當(dāng)前幀的位置[7]。所謂目標(biāo)檢測就是從海量的視頻或圖像中提取出運動前景或感興趣目標(biāo),也就是確定當(dāng)前時刻目標(biāo)在當(dāng)前幀的位置,所占大小。目標(biāo)檢測在所有的視頻監(jiān)控中所起的作用非常關(guān)鍵,它的性能可以直接影響視頻監(jiān)控后續(xù)目標(biāo)跟蹤、目標(biāo)分類與識別的好壞。目標(biāo)檢測的對象紛多繁雜,根據(jù)處理的對象的不同可以分為基于背景建模和基于目標(biāo)建模的檢測兩種方法。前者所跟蹤的興趣目標(biāo)背景不變但一直處于運動狀態(tài),當(dāng)背景發(fā)生變化的時候,這種方法容易出現(xiàn)誤判,因為它容易將變化背景誤檢為運動前景,其實在運動目標(biāo)靜止之后也會被歸為背景,因此該方法不擅長在背景變化的場景應(yīng)用。如果針對通過手持?jǐn)z像機或車載攝像機拍攝的視頻進(jìn)行跟蹤,那么該方法又是得天獨厚,實時性能非常好[8]。
基于背景建模的方法以視頻圖像為目標(biāo)分析對象,通過識別視頻圖像底層特征的基礎(chǔ)上,構(gòu)建一種基于背景分析的模型分割出視頻圖像運動前景,同時確定被分割的運動前景的具體形狀、大小與位置信息,該模型為動態(tài)模型,會隨時間變化不斷更新背景。基于背景建模方法檢測設(shè)備性能關(guān)鍵在于其魯棒的背景模型算法設(shè)計。目前關(guān)于背景建模的算法比較多,各有優(yōu)勢,其中,混合多高斯背景建模方法是比較常見也比較穩(wěn)定的一種前景提取方法,性能好。通過該方法可以精準(zhǔn)檢測復(fù)雜場景中的前景圖像,可以克服其他算法因受動態(tài)背景、攝像機抖動等因素干擾而檢測效果不佳的問題。
基于目標(biāo)建模的檢測方法必須有大量的圖像或視頻訓(xùn)練樣本作為訓(xùn)練目標(biāo),通過對訓(xùn)練目標(biāo)進(jìn)行學(xué)習(xí)與分類。把圖像或視頻分為目標(biāo)和背景兩部分(如圖2 所示),采用滑動窗口掃描的方法在圖像多個尺度上掃描,判定所掃描的窗口是目標(biāo)還是背景,這樣就可以在圖像的目標(biāo)上找到所有感興趣目標(biāo)的大小和位置,具備比較高的準(zhǔn)確度。與上述提到的基于背景建模的方法不同,基于目標(biāo)建模方法提取的目標(biāo)是滑動窗口所掃描到的一個包圍框,該方法受場景限制,不用考慮目標(biāo)的輪廓,檢測結(jié)果不需要再進(jìn)行個體分割,最適合應(yīng)用于移動攝像頭下的目標(biāo)檢測[9]。
圖2 背景建模與目標(biāo)建模的目標(biāo)檢測結(jié)果
近年來,人工智能、深度學(xué)習(xí)在目標(biāo)視頻跟蹤領(lǐng)域的應(yīng)用已經(jīng)成為研究熱點,基于深度學(xué)習(xí)的目標(biāo)檢測主要借助神經(jīng)網(wǎng)絡(luò)的原理模仿人類大腦機制,整合特征學(xué)習(xí)和分類器,對人腦的多層數(shù)據(jù)進(jìn)行抽象表達(dá)?;谏疃葘W(xué)習(xí)的目標(biāo)檢測方法主要包括三個步驟實施:首先是對輸入圖像進(jìn)行區(qū)域塊提取,然后采用卷積神經(jīng)網(wǎng)絡(luò)計算所提取區(qū)域塊的特征,最后通過SVM 分類器對前面兩個步驟所提取的區(qū)域塊進(jìn)行分類。由于深度學(xué)習(xí)模型具有豐富的數(shù)據(jù)資源以及強大數(shù)據(jù)表達(dá)能力,在該領(lǐng)域的研究發(fā)展迅速,相關(guān)成果比較多,目前,基于深度學(xué)習(xí)的目標(biāo)檢測與分類識別已經(jīng)在許多領(lǐng)域得到應(yīng)用與推廣。但是,在推廣應(yīng)用的過程中也伴隨著一些不利的因素,比如說計算強度高、解釋性差、模型構(gòu)建復(fù)雜度高,優(yōu)化困難等都是學(xué)者們亟待解決的問題[10]。
過去幾十年,視頻目標(biāo)跟蹤技術(shù)有了較大的發(fā)展,特別是2012 年,檢測跟蹤(TBD)方法的提出,為精確視頻跟蹤技術(shù)的實時在線學(xué)習(xí)跟蹤帶來了革命性的變革,但是該方法只是解決了在圖像清晰環(huán)境中的單目標(biāo)跟蹤問題;2015 年,哥倫畢業(yè)大學(xué)的Joao F Henriques 提出了快速核相關(guān)視頻濾波跟蹤方法,為復(fù)雜背景的實時魯棒跟蹤問題開辟了一個新的思路。雖然視覺目標(biāo)跟蹤技術(shù)近年來取得了一系列的豐碩成果,但是在實際的跟蹤環(huán)境中,通常面臨著眾多復(fù)雜環(huán)境的挑戰(zhàn),因此,相關(guān)領(lǐng)域的研究仍然在繼續(xù)研究。